Logo Passei Direto
Buscar
Material

Prévia do material em texto

Código Logístico
58573
Fundação Biblioteca Nacional
ISBN 978-85-387-6484-7
9 7 8 8 5 3 8 7 6 4 8 4 7
Estatística Aplicada
IESDE BRASIL S/A
2019
Cesar Akira Yokomizo
Todos os direitos reservados.
IESDE BRASIL S/A. 
Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200 
Batel – Curitiba – PR 
0800 708 88 88 – www.iesde.com.br
CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO 
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
Y53e Yokomizo, Cesar Akira
Estatística Aplicada / Cesar Akira Yokomizo. - 1. ed. - Curitiba 
[PR] : IESDE Brasil, 2019.
178 p.
Inclui bibliografia
ISBN 978-85-387-6484-7
1. Estatística. 2. Probabilidades. I. Título.
19-57060
CDD: 519.5
CDU: 519.2
© 2019 – IESDE BRASIL S/A. 
É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por escrito do autor e do detentor dos 
direitos autorais.
Projeto de capa: IESDE BRASIL S/A.
Imagem da capa: everything possible/Sergey Nivens/Shutterstock
Cesar Akira Yokomizo
Doutor e mestre em Administração de Empresas pela Universidade de São Paulo (USP), 
mestre em Administração de Empresas pela Fundação Getulio Vargas (FGV-SP), especialista em 
Engenharia de Redes e Sistemas de Telecomunicações pelo Instituto Nacional de Telecomunicações 
(Inatel), economista e engenheiro da computação pela Universidade de São Paulo (USP). Docente 
da Fundação Instituto de Administração (FIA-SP) e do Senac São Paulo. Professor convidado em 
escolas de negócios de referência. Palestrante profissional e consultor autônomo em estratégia 
organizacional e gestão da inovação. Utiliza os métodos quantitativos aplicados aos negócios. Tem 
experiência profissional com projetos técnicos e de gestão em organizações públicas e privadas no 
Brasil, França, Alemanha e Portugal.
Sumário
Apresentação 7
1 Estatística descritiva: conceitos e aplicações 9
1.1 Pesquisa 10
1.2 Pesquisa quantitativa 13
1.3 Métodos estatísticos: a estatística descritiva 19
2 Estatística descritiva: análise de dados 25
2.1 Tipos de variáveis 25
2.2 Distribuição de frequências 31
2.3 Gráficos 34
3 Estatística descritiva: medidas-resumo 41
3.1 Medidas de posição 41
3.2 Medidas de dispersão 49
3.3 Gráfico box-plot 54
4 Noções de probabilidade 59
4.1 Propriedades 60
4.2 Probabilidade condicional 64
4.3 Teorema de Bayes 67
5 Distribuições de probabilidade 73
5.1 Valor médio de variável aleatória discreta 75
5.2 Distribuição de Bernoulli 80
5.3 Distribuição binomial 81
5.4 Distribuição hipergeométrica 83
5.5 Distribuição de Poisson 85
6 Inferência estatística: amostragem 91
6.1 Variável aleatória contínua normal 92
6.2 Função de densidade de probabilidade normal 96
6.3 População e amostra 101
6.4 Amostragem 103
7 Inferência estatística: estimação 109
7.1 Métodos quantitativos: inferência estatística 109
7.2 Estimação por ponto 111
7.3 Estimação por intervalo 113
8 Inferência estatística: teoria da decisão 131
8.1. Teste de hipótese para média 132
8.2 Teste de hipótese para proporção 143
9 Introdução à análise multivariada de dados: regressão e correlação 149
9.1 Associação entre variáveis quantitativas 150
9.2 Estimação dos parâmetros 152
9.3 Modelos preditivos 158
Gabarito 163
Apresentação
A área dos métodos quantitativos, em particular a estatística, é historicamente considerada 
muito difícil e, portanto, reservada a alguns poucos capazes de entendê-la. Porém, nos anos 
recentes, por conta do avanço computacional, os cálculos, embora difíceis e desafiantes, tornam-
-se necessários, pois abrem espaço para a tomada de decisão qualificada cujo alicerce reside nos 
resultados obtidos.
Nesse contexto, áreas diversas, como as ciências sociais, ciências naturais, ciências da saúde, 
ciências sociais aplicadas, ciências exatas, apenas para citar algumas, têm incluído crescentemente 
o uso da estatística em suas pesquisas e se apropriado dos novos achados. Também no mundo 
corporativo, o uso da estatística tem possibilitado iniciativas que ampliam a competitividade das 
organizações. Esta é a área da estatística aplicada: a junção das técnicas estatísticas com a realidade 
organizacional ou social.
Como precedente da análise de dados, é necessário um aprofundamento sobre o objetivo da 
pesquisa a ser desenvolvida. Esse objetivo ultrapassa a fronteira do cálculo e invade a compreensão 
do assunto específico. Por isso, ele precisa trazer alguma contribuição para o indivíduo, para a 
organização ou para a sociedade. Nesta obra, você aprenderá a pensar em objetivos melhores para 
a sua pesquisa, pois somente com uma inequívoca declaração do objetivo será possível entender 
qual é a técnica estatística que melhor contribui para que o pesquisador alcance aquele propósito. 
Portanto, objetivo da pesquisa e objetivo específico da técnica estatística precisam ser convergentes.
Nesse contexto, esta obra apresentará três técnicas estatísticas, a saber: (1) estatística 
descritiva, (2) inferência estatística e (3) regressão linear simples. Ao conhecer os propósitos de 
cada uma, será possível eleger a técnica mais adequada para a pesquisa.
A primeira técnica a ser apresentada será a estatística descritiva. Por meio de tabelas, 
gráficos e medidas estatísticas, ela tem o intuito de descrever um conjunto de dados. Com base 
nessa descrição, será possível identificar se os indivíduos têm comportamentos parecidos (grupo 
homogêneo) ou se os comportamentos são diferentes (grupo heterogêneo). Isso é particularmente 
interessante para a tomada de decisão, pois, sobre grupos mais homogêneos, espera-se que as 
iniciativas sejam mais assertivas. É o que acontece, por exemplo, quando uma empresa elege um 
público-alvo e, assim, segmenta o mercado.
A próxima técnica a ser apresentada será a inferência estatística. Pesquisas de campo para 
coleta de dados costumam ser custosas, demoradas e, muitas vezes, operacionalmente difíceis 
de conduzir. Por isso, é raro pesquisar toda a população (censo). Imagine, então, poder chegar a 
resultados próximos daqueles que seriam observados se toda a população fosse pesquisada, mas 
com base em apenas uma parte dessa população. A inferência estatística permite isso, pois produz 
Estatística Aplicada8
afirmações sobre o todo considerando apenas parte desse todo. Pesquisas eleitorais de intenção de 
voto, por exemplo, lançam mão dessa técnica.
Por fim, a última técnica a ser apresentada será a regressão linear simples. Suponha que 
exista uma relação preditiva entre os anos de educação de uma pessoa e seu salário. Que fantástico 
seria se pudéssemos estimar uma variável de interesse, o salário, por exemplo, baseando-se em 
outra variável, anos de educação. A técnica de regressão linear simples possibilita gerar modelos 
preditivos: com base em um histórico, pretende-se predizer sobre o futuro. Embora existam outras 
técnicas estatísticas, essas três trazem uma contribuição enorme ao uso prático dos métodos 
quantitativos para a tomada de decisão.
Nas discussões recentes sobre a robotização e a consequente substituição (ou eliminação) 
do trabalho humano, algumas previsões dão conta de que muitas profissões e muitas atividades 
que hoje são desenvolvidas por nós, humanos, deixarão de existir. Quando nos detemos mais 
especificamente para o avanço computacional nos métodos quantitativos, é surpreendente a 
velocidade e o poder de processamento das máquinas. Dificilmente um ser humano será tão rápido 
e tão preciso quanto a máquina na execução das contas. Mas a genialidade humana, felizmente, não 
repousa aí: ela está em ter uma visão holística de um ambiente complexo e nele decidir. 
Especificamente para as pesquisas em estatística aplicada, há dois momentos em que essa 
genialidade aparece: (1) no planejamento da pesquisa de campo, desde a concepção do objetivo até 
seu desenvolvimento, e (2) na tomada de decisão qualificada e aplicada, com base nos resultados 
obtidos. Aliás, é aí que reside competitividade das organizações ou a expansão do conhecimento da 
humanidade. E, nesse ponto, portanto, máquina nenhuma nos substituirá.Seja bem-vindo a esta obra e use-a para tomar decisões melhores. Uma boa leitura!
1
Estatística descritiva: 
conceitos e aplicações
Muitos associam os métodos quantitativos e, particularmente, a estatística a cálculos 
complicados e resultados que pareçam ter pouca aplicabilidade em nosso dia a dia. Ledo engano. 
A estatística está menos restrita a números em si e tem, cada vez mais, contribuído de forma 
decisiva no suporte à tomada de decisão qualificada em diferentes áreas do conhecimento, como 
marketing, finanças, logística, operações, gestão de pessoas, economia e contabilidade. Por um lado, 
o avanço computacional nos anos recentes contribuiu para que cálculos complicados pudessem 
ser automatizados, reduzindo o tempo de execução de uma pesquisa de forma jamais vista antes. 
Por outro lado, a tomada de decisão, em especial no mundo dos negócios, tem sistematicamente 
migrado de uma ênfase mais subjetiva para uma abordagem em que o embasamento quantitativo 
tenha papel de destaque.
Os métodos quantitativos são utilizados para extrair informações potencialmente úteis, 
com base em dados disponíveis (ou feitos disponíveis), de modo que gestores consigam tomar 
decisões sistematicamente melhores. Nesse sentido, é necessário entender o conceito de pesquisa 
quantitativa e como esse conceito direciona os métodos quantitativos mais adequados para cada 
situação.
Ao longo deste capítulo, teremos como objetivo descrever quais são as relações entre 
pesquisa, pesquisa quantitativa e métodos quantitativos, expor como conduzir uma pesquisa 
quantitativa, com base no desenvolvimento de um questionário, e descrever as relações entre 
métodos quantitativos e tomada de decisão.
Imaginemos este cenário: alguém X sabe preparar um delicioso bolo de chocolate. Em 
determinado momento do processo de elaboração do tal bolo, alguém X sabe que precisa incluir 
fermento para que a massa do bolo cresça e, assim, o bolo fique fofinho e delicioso. Ainda que 
alguém X não consiga explicar exatamente o motivo, sabe que o fermento faz o bolo crescer. É 
evidente que não conseguir explicar o crescimento do bolo não descaracteriza o conhecimento que 
existe na elaboração do bolo. Esse tipo de conhecimento pode ser considerado “popular” (também 
chamado de senso comum) e é passível de ser transmitido entre gerações pela educação informal 
e, muitas vezes, com base na imitação e na experiência pessoal.
Agora, nesse mesmo contexto, imaginemos que alguém Y esteja curioso acerca dos reais 
ou verdadeiros motivos que fazem o bolo crescer com base na aplicação do fermento e comece 
a investigar propriedades do ingrediente. Eis que, em dado momento, alguém Y descobre que 
o fermento, quando adicionado à massa, promove processos químicos e biológicos que acabam 
produzindo compostos gasosos, e são esses gases que expandem a massa, dando origem a pequenos 
buracos e, como consequência, o bolo fica macio. É de notar que a natureza desse outro tipo de 
conhecimento é diferente da primeira. Esse conhecimento tem caráter mais científico e é passível 
Estatística Aplicada10
de transmissão por meio de capacitação adequada, sendo um conhecimento obtido por meio de 
procedimentos científicos, de maneira mais lógica e racional (MARCONI; LAKATOS, 2010).
O que diferencia ambos os casos são os métodos e os instrumentos que resultaram no 
conhecimento: como é que se chegou a determinada conclusão? Nesse contexto, convém distinguir 
pesquisa e método. De maneira coloquial, pesquisa é o quê se pretende investigar, e método é 
como se pretende investigar. Assim, há geração de conhecimento com uma base menos popular 
e, portanto, mais científica. É evidente que o quê e como estão proximamente relacionados, mas 
é particularmente importante destacar a relação cronológica de ambos em uma investigação: 
primeiramente, define-se o quê e, apenas depois, define-se como.
Tanto a pesquisa quanto os métodos podem ter natureza qualitativa ou quantitativa. Para 
fins deste material, a pesquisa e os métodos quantitativos são de particular interesse. É esse o 
motivo pelo qual, a seguir, serão abordados os seguintes temas: pesquisa, pesquisa quantitativa e 
métodos quantitativos.
1.1 Pesquisa
A pesquisa, também usualmente chamada de investigação ou estudo, é um 
processo sistemático para a construção do conhecimento humano, seja pela geração 
de novos conhecimentos, seja pela contribuição para o detalhamento, a refutação, a 
ampliação ou a atualização de conhecimentos preexistentes. Em caráter geral, trata-
se do conjunto de atividades orientadas e planejadas pela busca do conhecimento.
É da natureza da pesquisa seu caráter científico, pois pressupõe que seus 
achados tenham como pilares provas observáveis, empíricas e mensuráveis. Com 
base na formulação e em testes de hipóteses, dados são coletados por meio da 
observação e experimentação. É nesse ponto que se distingue ciência e opinião (ou, 
como apresentado, senso comum).
Por exemplo, suponha que um empresário perceba que o lucro de sua empresa 
de produção de lâmpadas esteja em queda constante. Uma de suas hipóteses é que a 
linha de produção esteja ineficiente, por isso, decide coletar dados diretamente nas 
lâmpadas que saem da linha de produção. Para sua surpresa, é constatado que 63% 
das lâmpadas são produzidas com defeitos, portanto há evidência de que a linha de 
produção está com problemas. É importante notar que o fato de 63% das lâmpadas 
estarem com defeito não é apenas opinião, mas uma evidência irrefutável. Ademais, 
é de sistematizar o raciocínio da pesquisa:
• formulação da hipótese: linha de produção ineficiente;
• coleta de dados nas lâmpadas que saem da linha de produção; e
• dados observáveis: 63% das lâmpadas estão com defeitos.
Do ponto de vista da gestão, no mesmo exemplo da produção de lâmpadas, 
a coleta de dados e a identificação de 63% de lâmpadas com defeitos permitem que 
o gestor proponha ações como suspensão imediata da produção, para evitar mais 
desperdício, ou mesmo a contratação de outra pesquisa, para identificar e descrever 
Vídeo
Estatística descritiva: conceitos e aplicações 11
com mais precisão quais são as causas exatas dos defeitos (será que se trata de uma anomalia no 
maquinário? Problemas de calibragem dos equipamentos? Ou imperícia por parte dos funcionários 
da produção?). É de enfatizar que o uso mais notável da pesquisa não é o cálculo complexo em si, 
mas as melhores decisões que podem ser tomadas com base em tais cálculos. Assim, do ponto de 
vista da gestão, a pesquisa não é o fim em si, mas o meio pelo qual o gestor consegue tomar decisões 
melhores.
Embora muitas vezes haja uma tentação de se partir diretamente para a coleta de dados (o 
que é compreensível, muitas vezes, por conta da urgência causada pela escassez de tempo ou pela 
ansiedade de se chegar rapidamente aos resultados), o primeiro passo no planejamento de uma 
pesquisa é a definição clara de um objetivo.
É comum a declaração de objetivo enfatizar o cálculo que será feito ou o método da pesquisa 
que será utilizado. Exemplo (ruim): “o objetivo desta pesquisa é calcular medidas estatísticas da 
produção de lâmpadas em nossa empresa”. Outro exemplo (ruim): “o objetivo desta pesquisa é 
entrevistar funcionários da linha de produção da nossa empresa”. Essas declarações não refletem a 
real intenção daquele que planeja a pesquisa ou, pelo menos, podem ser consideradas imprecisas 
ou incompletas. É preferível a seguinte declaração de objetivo: “o objetivo da pesquisa é aumentar a 
eficiência da produção de lâmpadas em nossa empresa” (exemplo bom). Para isso, eventualmente, 
medidas estatísticas podem ser calculadas e entrevistas com funcionários da linha de produção 
podem ser conduzidas. Portanto, o objetivo fim da pesquisa não é apenas “calcular medidas 
estatísticas” ou “entrevistar funcionários da linha de produção”, mas “aumentar a eficiência da 
produção de lâmpadas”, como pode ser observado no Quadro 1 a seguir.
Quadro 1 – Exemplo de objetivo de pesquisaObjetivo primário (principal) Objetivos secundários
Aumentar a eficiência da produção de lâmpadas em 
nossa empresa.
Calcular medidas estatísticas da produção de lâmpadas 
em nossa empresa.
Entrevistar funcionários da linha de produção de nossa 
empresa.
Fonte: Elaborado pelo autor.
Com base em uma declaração de objetivo nobre, é necessário identificar qual é o tipo de 
pesquisa e quais são os métodos de pesquisa que podem contribuir mais decisivamente para atingir 
esse objetivo. Em linhas gerais, existem dois tipos de pesquisas: pesquisa qualitativa e pesquisa 
quantitativa.
Além de cada tipo apresentar procedimentos e métodos específicos, eles se distinguem 
na natureza intrínseca. A pesquisa qualitativa tem como natureza a profundidade, portanto, a 
pertinência para adoção de uma pesquisa qualitativa está na tentativa de identificar e descrever 
detalhes de um dado fenômeno de interesse por meio da observação, da narrativa ou da percepção. 
O interesse repousa nas particularidades e experiências individuais. Fenômenos que requerem 
uma vertente mais qualitativa são aqueles que apresentam algum tipo de interesse, seja por sua 
reconhecida particularidade, seja por sua relação com o pesquisador. Exemplo: “identificar e 
descrever as iniciativas internas que promovem a inovação no Google (que é considerada uma 
Estatística Aplicada12
organização reconhecidamente inovadora, portanto de interesse em uma pesquisa sobre inovação)”. 
Outro exemplo: “identificar e descrever as percepções dos funcionários quanto às condições de 
trabalho em nossa empresa”.
Por outro lado, a pesquisa quantitativa busca a generalização. O interesse é identificar e 
descrever preferências e tendências em geral. O objetivo é descrever (e, talvez, até mesmo 
compreender) os fenômenos por meio da coleta de dados numéricos, que apontarão preferências, 
comportamentos e outras ações dos indivíduos que pertencem a determinado grupo ou sociedade. 
Exemplo: “identificar qual é o percentual dos alunos que estão satisfeitos com a instituição de ensino 
(nota maior do que 8 em uma escala de 0 a 10)”. Outro exemplo: “com dois pontos percentuais para 
mais ou para menos, qual é o percentual de votos que tem um candidato na véspera do segundo 
turno de uma corrida eleitoral para presidência?”.
A natureza de uma pesquisa qualitativa é, portanto, da busca pela profundidade e, de uma 
pesquisa quantitativa, é da abrangência. De maneira visual, pode-se estabelecer uma relação entre 
profundidade de análise desejada e abrangência ou generalização da análise, como apresentada na 
Figura 1 a seguir.
Figura 1 – Profundidade e abrangência das pesquisas científicas
Profundidade da análise
Abrangência da análise
Pesquisa 
qualitativa
Pesquisa 
quantitativa
Composição 
qualitativa e 
quantitativa
Fonte: Nielsen; Olivo; Morilhas, 2018, p. 116.
Se, por um lado, na pesquisa qualitativa, o estudo é conduzido sobre um ou poucos casos 
de interesse, por outro lado, na pesquisa quantitativa, espera-se um número de respondentes (ou 
de casos) “grande o suficiente”. Se o objetivo é a generalização, “grande o suficiente” significa que o 
conjunto de dados representa bem o fenômeno de interesse.
Quanto à coleta de dados, pode-se afirmar que, na pesquisa qualitativa, ela acontece de 
maneira menos estruturada, podendo ter como fonte a observação de um fenômeno, a condução 
de uma entrevista ou de uma interação social, apenas para citar alguns exemplos. Já na pesquisa 
quantitativa, a coleta de dados é mais estruturada, em geral, por meio de um questionário com 
perguntas mais objetivas e menos passíveis à subjetividade do respondente. Espera-se que, ao final, 
depois dessa fase de coleta de dados, sejam aplicadas ferramentas estatísticas para a análise de 
dados. Nesse sentido, a pesquisa qualitativa pode ser considerada mais exploratória, mais inicial do 
ponto de vista da compreensão do fenômeno de interesse. De outra parte, a pesquisa quantitativa 
pode ser considerada mais conclusiva.
Estatística descritiva: conceitos e aplicações 13
Por fim, o Quadro 2, a seguir, apresenta um resumo das principais diferenças entre pesquisa 
qualitativa e quantitativa.
Quadro 2 – Comparação entre pesquisa qualitativa e quantitativa
Pesquisa qualitativa Pesquisa quantitativa
Objetivo
Compreender qualitativamente as 
razões e as motivações subjacentes.
Quantificar os dados e, eventualmente, 
extrapolar os resultados da amostra para 
a população de interesse.
Estrutura da amostra
Reduzido número de casos não 
representativos.
Grande número de casos 
representativos.
Tipo de coleta de dados Menos estruturado. Mais estruturado.
Análise de dados
Qualitativa, sem a utilização de 
ferramentas estatísticas.
Quantitativa, com a utilização de 
ferramentas estatísticas.
Conclusão
A compreensão inicial do fenômeno 
de interesse.
Um curso final de ação.
Fonte: Elaborado pelo autor com base em Nielsen; Olivo; Morilhas, 2018, p. 155.
A condução de uma boa pesquisa começa com a definição de um objetivo nobre, um 
objetivo que mereça ser investigado. Na área das ciências sociais aplicadas, da qual fazem parte 
a administração, a economia e a contabilidade, apenas para citar algumas, são exemplos de 
objetivos nobres: (a) aumentar o faturamento da minha empresa, (b) identificar países que tenham 
características semelhantes de desenvolvimento ou (c) identificar nível ótimo de alavancagem de 
determinado grupo de empresas.
Com base nas características intrínsecas das pesquisas qualitativa e quantitativa, esta obra 
tem como enfoque a vertente quantitativa, cujos planejamento e pesquisa de campo merecem 
cuidados, os quais serão abordados a seguir.
1.2 Pesquisa quantitativa
Como apresentado anteriormente, a pesquisa quantitativa almeja a 
generalização sobre determinado fenômeno de interesse, ainda que alcançar esse 
objetivo implique uma série de premissas e seja carregado de limitações para sua 
operacionalização. Uma das maneiras de se alcançar o objetivo da generalização é 
por meio de uma boa amostragem. Para esse ponto, convém entender a distinção e a 
relação entre população e amostra.
Com base na declaração do objetivo da pesquisa, é necessário reconhecer 
quem são os objetos da pesquisa (ou objetos do estudo), e aos objetos da pesquisa é 
atribuído o nome de indivíduo. Por exemplo, em uma pesquisa sobre a satisfação de 
discentes sobre o curso que estão fazendo, cada discente regularmente matriculado 
é um indivíduo dessa pesquisa. É de notar, portanto, que definir quem é o indivíduo 
da pesquisa está intimamente ligado ao objetivo da pesquisa. Nesse sentido, deve-se 
perceber que, embora a nomenclatura indivíduo possa remeter a uma pessoa, isso 
não é obrigatório: em uma pesquisa sobre os carros de determinado município, cada 
carro desse município é um indivíduo da pesquisa.
Vídeo
Estatística Aplicada14
De volta à discussão sobre população e amostra, à totalidade dos indivíduos atribui-se a 
nomenclatura de população (ou universo). Na pesquisa sobre satisfação de discentes sobre o curso 
que estão fazendo, a população é composta por todos os discentes regularmente matriculados. 
No limite, cabe inclusive a discussão sobre se a população, nesse exemplo, precisa incluir também 
aqueles que solicitaram trancamento nos últimos seis meses. Ou excluir aqueles que, embora 
regularmente matriculados, não estejam frequentando as aulas há mais de quatro semanas 
consecutivas. Não há critério universal único: o que determina a definição da população de uma 
pesquisa inclui a aderência ou a compatibilidade com o objetivo da pesquisa que fora delineado, 
mas, em situações variadas, isso não é suficiente. Essa compatibilização, por outro lado, não trata 
apenas de uma vontade do pesquisador em alcançar o objetivo da pesquisa, senão também da 
factibilidade de acesso que terá aos indivíduos da população. Por exemplo, no caso da pesquisa de 
satisfação de discentes, caso a opção seja por uma coleta de dados presencial, a população pode 
ser definidacomo aqueles discentes que estejam regularmente matriculados e que frequentem o 
campus presencialmente na semana de 25 a 29 de março. Portanto, a definição sobre a população 
precisa compatibilizar, de um lado, o objetivo da pesquisa e, de outro, a factibilidade de acesso 
aos indivíduos.
Uma vez entendido como definir a população, vale o comentário sobre o censo. Quando 
todos os indivíduos participam do estudo, a pesquisa produzirá afirmações sobre a população 
como um todo. É evidente que a tomada de decisão fica potencialmente mais rica quando as 
afirmações recaem sobre a população como um todo e não apenas sobre parte dela. Por outro lado, 
inspecionar todos os indivíduos pode ser uma tarefa demorada, custosa, operacionalmente difícil 
e, algumas vezes, até mesmo impossível. Suponha uma pesquisa eleitoral de intenção de votos para 
presidência: se a população puder ser definida como todos que tenham um título de eleitor válido, 
vale imaginar a complexidade logística para se conseguir respostas de intenção de voto de todos os 
indivíduos. Em outro exemplo, suponha que, em uma linha de produção de lâmpadas, precisemos 
mensurar o tempo médio que a lâmpada funcione até queimar. É claro que, se esperarmos cada 
lâmpada queimar, para, então, poder calcular a média de tempo, não restará nenhuma lâmpada no 
estoque para que possamos vender. Desse modo, em muitas situações do nosso dia a dia, convém 
considerar trabalhar com uma parte da população. Na pesquisa quantitativa, a essa parte da 
população atribui-se a nomenclatura de amostra.
Se, por um lado, qualquer parte da população constitui uma amostra, não é toda amostra 
que pode ser considerada boa para fins estatísticos. Uma amostragem melhor distingue-se por 
estas duas características: representatividade e aleatoriedade.
Uma amostra é mais representativa quanto mais fidedignamente conseguir representar 
a população. Por exemplo: suponha que 58% de dada população de interesse seja composta 
por mulheres e 42% por homens; considerando-se apenas a variável gênero, uma amostra 
representativa terá essa mesma proporção de mulheres e homens. Por sua vez, uma amostra pode 
ser considerada aleatória quando cada indivíduo tem chances iguais de ser selecionado para 
compor a amostra. No mesmo exemplo anterior, supondo que precisemos eleger 1.000 mulheres 
para a amostra, cada uma das mulheres da população tem chance igual de ser selecionada para 
Estatística descritiva: conceitos e aplicações 15
compor a amostra (por sorteio, por exemplo). Essas características de representatividade e 
aleatoriedade serão detalhadas com mais rigor adiante, quando, oportunamente, também será 
lançada à luz a interessante discussão sobre tamanho ideal de amostra.
Se entendida a diferença e a relação entre população, amostra e indivíduo, é chegada a hora 
de aprofundar o conceito de variável. Em uma pesquisa, variável é uma característica de interesse 
do indivíduo. No exemplo sobre pesquisa de satisfação de discentes, se o indivíduo é um discente 
regularmente matriculado no semestre corrente, idade e nota atribuída à infraestrutura da escola 
podem ser consideradas variáveis, pois qualificam o indivíduo. Embora ambas sejam variáveis, 
elas carregam papéis diferentes na pesquisa: a variável idade serve para caracterizar o respondente 
do ponto de vista demográfico – e, por esse motivo, esse tipo de variável é nomeado de variável 
demográfica.
Variáveis demográficas contribuem para alcançar o objetivo da pesquisa de forma indireta: 
suponha que, ao utilizar a variável idade para segmentar em dois grupos, discentes com mais de 
25 anos e discentes com menos de 25 anos, descubra-se que discentes do grupo com menos de 25 
anos forneçam notas sistematicamente menores para a variável nota atribuída à infraestrutura. Se 
isso for realmente observado, o gestor pode tentar tomar alguma ação especificamente para esse 
grupo. Já a variável nota atribuída à infraestrutura da escola contribui diretamente para o objetivo 
da pesquisa e, por isso, no senso comum, esse tipo é chamado de variável da pesquisa. Variáveis 
demográficas podem também ser variáveis da pesquisa quando o objetivo é descrever determinada 
população ou amostra.
A seguir, na Tabela 1, está um exemplo fictício dos resultados obtidos em uma pesquisa de 
satisfação de discentes sobre o curso que estão fazendo.
Tabela 1 – Exemplo de pesquisa de satisfação de discentes sobre o curso
Nome Gênero
Percepção quanto à 
didática dos professores
Nota atribuída à infraestrutura 
da escola escala [1-4]
Idade
Adriano Masculino Satisfeito 3 22
Bruna Feminino Muito satisfeito 3 36
Carlos Masculino Muito satisfeito 4 31
Diana Feminino Insatisfeito 1 18
Evandro Masculino Satisfeito 2 19
Fonte: Elaborada pelo autor.
Sweeney et al. (2014) e Nielsen et al. (2018) classificam as escalas em quatro tipos:
• Escala nominal: os números ou rótulos são utilizados para nomear ou categorizar 
indivíduos. Exemplo: a variável gênero está apenas nomeando indivíduos. Supondo 
agora que se resolva alterar a forma de armazenar os dados, sendo 1 = Masculino e 2 = 
Feminino: não significa que 2 seja maior ou melhor do que 1, trata-se apenas de um modo 
de nomear os indivíduos.
• Escala ordinal: os números ou rótulos são utilizados para nomear e ordenar os 
indivíduos; portanto, quando dois indivíduos são comparados, é possível afirmar que 
Estatística Aplicada16
um tem mensuração maior do que o outro, mas não é possível mensurar quão maior. 
Exemplo: quando são comparados indivíduos sobre a percepção quanto à didática 
dos professores, entende-se que alguém muito satisfeito esteja mais satisfeito do que 
alguém que esteja apenas satisfeito, e que alguém satisfeito esteja mais satisfeito do 
que alguém insatisfeito, mas, em ambos os casos, não se consegue afirmar quanto mais 
satisfeito alguém X está em relação a alguém Y.
• Escala intervalar: os intervalos mostram a ordenação e a distância entre os indivíduos 
quanto a uma determinada característica. Exemplo: nota atribuída à infraestrutura da 
escola, em uma escala de 1 a 4, em que 1 seja a menor nota disponível e 4 seja a maior nota 
disponível, sabe-se que Carlos atribuiu 2 pontos mais em relação a Evandro (nota 4 versus 
nota 2, por exemplo).
• Escala de razão: assim como a escala intervalar, apresenta a ordenação e a distância 
entre os objetos, mas tem como referencial o zero absoluto, o que permite identificar 
a magnitude absoluta. Exemplo: variável idade: quem tem 36 anos é mais velho do que 
quem tem 19 anos, sendo 0 anos o equivalente ao zero absoluto = recém-nascido.
Conhecer escalas é de particular interesse em pesquisas quantitativas, pois, a menos que o 
pesquisador tenha acesso a bases de dados já prontas (pagas ou gratuitas), será necessário elaborar 
um questionário para a obtenção de dados, coletar dados em campo e formar sua própria base. 
Antes de prosseguir, vale este comentário sobre bases de dados já prontas: em ciências sociais 
aplicadas, bases de dados (ou banco de dados) disponíveis no Brasil ainda são relativamente 
raras, pois, na maior parte das vezes, o objetivo daquele que coletou e disponibilizou dados é 
diferente do objetivo daquele que está com uma investigação em curso. Isso abre margem para 
uma prática questionável na condução de uma pesquisa: alterar o objetivo da pesquisa consoante 
com a base de dados disponível. Está claro que é mais fácil alterar o objetivo de pesquisa do que 
elaborar questionário, coletar dados e formar a própria base, ainda mais com as diferentes fontes 
de restrição para a condução da pesquisa: tempo, recursos financeiros e humanos, complexidade 
logística, apenas para citar algumas. Porém uma mensagem merece ser reforçada: para se conseguir 
a riqueza de um objetivo de pesquisa delineado, na maior parte das vezes, não haverá atalhos fáceis 
ou óbvios, contudo, caso exista uma base de dados que contribua inequívoca e significativamente 
para atingir seu objetivo de pesquisa, certamente vale considerá-la.Após a definição de objetivo da pesquisa, indivíduos, população, amostra e variáveis 
(demográficas e da pesquisa) – com as respectivas escalas, avalia-se se há bases de dados disponíveis 
sobre as quais se possam rodar as ferramentas estatísticas e, assim, atingir o objetivo da pesquisa. 
Caso não sejam encontradas bases de dados para esse fim, os procedimentos a seguir são aplicáveis.
A elaboração do questionário costuma ser uma fonte usual de erros em pesquisa quantitativa. 
Em primeiro lugar, porque, muitas vezes, há falta de cuidado na escolha das variáveis e da escala 
de cada uma delas. Um comentário de caráter mais geral sobre escolha de variáveis, mas 
que é pertinente a todas as pesquisas: as variáveis precisam estar em convergência com o objetivo 
da pesquisa. No exemplo da satisfação de discentes, além de variáveis demográficas, as variáveis de 
pesquisa podem incluir, mas não se restringir a:
Estatística descritiva: conceitos e aplicações 17
• satisfação com o corpo docente;
• satisfação com a coordenação de curso;
• satisfação com a infraestrutura da instituição;
• satisfação com valores atuais;
• satisfação com a forma de pagamento;
• satisfação com a localização.
Muitas vezes, em pesquisas acadêmicas, é comum que as variáveis tenham como origem 
a literatura disponível na área de interesse. No mundo corporativo, por outro lado, as variáveis 
podem ter como origem a experiência do profissional em determinado assunto.
Em seguida, é necessário eleger uma escala adequada às variáveis escolhidas e, 
consequentemente, aos objetivos da pesquisa. Em escalas de percepção, que são muito comuns em 
ciências sociais aplicadas, podem ser adotadas tanto escalas numéricas (por exemplo, de 0 a 10) 
quanto de concordância. Um exemplo de escala de concordância é a Likert (discordo totalmente 
até concordo totalmente). Exemplos de resultados possíveis por meio de escalas numéricas e de 
concordância são apresentados nas Tabelas 2 e 3.
Tabela 2 – Exemplo de resultados possíveis de um questionário com escala numérica [0-10]
Estou satisfeito com... Média escala [0-10]
... corpo docente 3,77
... coordenação de curso 7,56
... infraestrutura da instituição 8,15
... valores atuais 6,89
... forma de pagamento 4,58
... localização 7,41
Fonte: Elaborada pelo autor.
É de notar que o fato de todas as variáveis de pesquisa da Tabela 2 estarem na mesma escala 
permite uma comparação mais direta. A análise de resultados será discutida mais à frente, mas, 
olhando os números por cima, já se imagina uma priorização de ações que possam ser adotadas 
para tentar reverter a situação que está retratada nos resultados.
Tabela 3 – Exemplo de resultados possíveis de um questionário com escala de percepção 
[discordo-concordo]
Estou satisfeito com...
Discordo 
totalmente
Discordo
Não concordo 
nem discordo
Concordo
Concordo 
totalmente
... corpo docente 43% 23% 11% 13% 10%
... coordenação de curso 2% 11% 29% 35% 23%
... infraestrutura da instituição 8% 4% 23% 31% 34%
... valores atuais 7% 17% 57% 18% 1%
... forma de pagamento 22% 42% 19% 8% 9%
... localização 18% 6% 9% 14% 53%
Fonte: Elaborada pelo autor.
Estatística Aplicada18
Já na Tabela 3, embora as variáveis sejam as mesmas daquelas escolhidas na Tabela 2, 
os resultados são apresentados de forma complementar, mas diferente. Embora a soma das 
concordâncias de cada variável precise somar 100%, a distribuição entre os cinco estados possíveis 
traz mais detalhamento em relação aos resultados apresentados na Tabela 2. Por outro lado, um 
questionamento que se coloca em relação à escala da Tabela 3 é sua natureza mais subjetiva do que 
aquela adotada na escala da Tabela 2. O estado Não concordo nem discordo deveria mesmo ficar 
no meio da escala? Será que não faria mais sentido arbitrar um número par de estados para que o 
respondente se posicione minimamente em termos de concordância ou discordância? Enfim, não 
há respostas certas, mas a mensagem poderosa é: conheça as limitações e críticas da escala que está 
sendo adotada para coletar os dados, pois isso pode ter efeito na análise.
Seguindo com a discussão acerca do questionário, outra fonte comum de erro em pesquisa 
quantitativa é a formulação de perguntas dúbias, omissas, duvidosas ou enviesadas. Em outras 
palavras, perguntas que não tenham interpretação inequívoca podem gerar erros severos. 
E o contrário é verdade: perguntas com interpretação inequívoca levam a melhores respostas e, 
potencialmente, a melhores decisões. Exemplo de pergunta tendenciosa: “sabendo que o cigarro é 
responsável pela maior parte das mortes por câncer de pulmão, em uma escala de 0 a 100%, qual 
é a chance de você contratar alguém que fume para trabalhar na sua empresa?”. A despeito da 
questionável relação dessa pergunta com um eventual objetivo de pesquisa, fica evidente a opinião 
do pesquisador e sua tentativa de enviesar, de direcionar a resposta de seu respondente. Perguntas 
mal formuladas, intencionalmente ou não, podem distorcer severamente os resultados.
Desse modo, cuidados na elaboração do questionário são louváveis. Dois desses cuidados 
são: pré-teste e piloto. O pré-teste é uma etapa posterior à elaboração da primeira versão do 
questionário e serve para identificar perguntas mal formuladas ou que levem a eventuais erros, 
propositais ou não, de interpretação. No pré-teste, são escolhidas algumas pessoas que se colocarão 
no lugar do potencial respondente e responderão ao questionário. Forza (2002) defende que 
três tipos de stakeholders1 podem ser considerados para contribuir nessa etapa: (a) colegas (da 
escola ou do trabalho, pois, em geral, são pessoas com quem você tem mais abertura e podem 
querer contribuir genuinamente); (b) especialistas do setor (podem ajudar com jargões da área ou 
identificando perguntas faltantes ou óbvias demais); e (c) potenciais respondentes (para se colocar 
à prova a primeira versão do questionário).
O piloto é uma etapa posterior à condução do pré-teste e serve para simular a pesquisa de 
campo em pequena escala. São selecionadas algumas pessoas que têm o perfil do respondente real 
e a essas pessoas é solicitado que procedam com o preenchimento completo do questionário. Elas 
podem ser escolhidas por critérios variados, mas o mais comum é o de conveniência (escolher 
pessoas próximas – amigos, familiares, colegas de trabalho ou da escola – que se encaixem no perfil 
do respondente). Embora o objetivo geral dessa etapa ainda seja refinar o questionário com vistas a 
se obter sua versão definitiva, o pesquisador pode aproveitar para cronometrar o tempo de resposta 
1 Stakeholders são pessoas ou grupos que tenham algum interesse, participação ou risco na iniciativa. Também 
são comumente chamados de partes interessadas. No contexto apresentado, stakeholders são pessoas ou grupos que 
tenham algum tipo de interesse ou participação na pesquisa que esteja em curso.
Estatística descritiva: conceitos e aplicações 19
(questionários longos têm chance maior de desistência) e observar as reações dos participantes ao 
longo do preenchimento.
Por intermédio do pré-teste e do piloto, chega-se à versão final do questionário. O próximo passo 
é a coleta de dados no campo, que pode acontecer presencialmente ou – com o avanço dos computadores 
e da interação pela internet – por questionários disponibilizados on-line. Nessa etapa, valoriza-se que os 
respondentes atendam aos critérios que foram delineados no planejamento e que estejam convergentes 
com o objetivo da pesquisa. Vale o reforço: uma boa amostra é representativa e aleatória.
Com a coleta de dados, é possível tabulá-los (se o procedimento não aconteceu de modo 
digital) e, assim, gerar a própria base de dados. Embora erros honestos de tabulação possam 
acontecer na transcrição do papel para o digital, seu impacto é minimizado quanto maior for o 
número de respondentes.
O pressuposto para a utilização dos métodos quantitativos é a existência de uma base de 
dados. Com a base de dados, procede-seà utilização do método quantitativo mais adequado ao 
objetivo da pesquisa e, consequentemente, à análise dos resultados, como abordado a seguir.
1.3 Métodos estatísticos: a estatística descritiva
Para se chegar ao objetivo delineado (objetivo da pesquisa), é necessário 
escolher métodos que permitam mais facilmente e fidedignamente alcançar esse 
objetivo. Significa afirmar que cada método estatístico tem um propósito próprio, e 
cabe ao pesquisador escolher o método mais adequado para o objetivo de pesquisa 
que tenha em mãos. Nesta parte, será abordado o método da estatística descritiva, 
mas outros serão estudados nos próximos capítulos.
Na estatística descritiva, o objetivo é descrever um conjunto de dados, 
podendo ser esse conjunto a população como um todo ou apenas uma amostra. 
Essa descrição acontece usualmente por meio de medidas de posição (exemplo: 
média), medidas de dispersão (exemplo: desvio padrão) e gráficos (exemplo: gráfico 
de pizza). Em geral, pretende-se resumir um conjunto grande de dados em alguns 
indicadores que sejam de simples interpretação, mas que consigam sintetizar bem o 
comportamento daquele conjunto. Nesse sentido, um bom exemplo é a média: ela 
consegue, de alguma maneira, dar um indício, uma indicação da percepção geral 
acerca da variável de interesse. É possível ter uma ideia do que acontece em uma 
turma em que a média na disciplina de Língua Portuguesa seja de 8,8 e em outra 
turma em que a média na mesma disciplina seja de 2,4. Embora ela sozinha não seja 
uma mensuração estatística conclusiva, parece sintetizar bem um comportamento, 
suponha, de 40 alunos de cada turma.
A Tabela 2 e a Tabela 3, apresentadas anteriormente, são exemplos do uso da 
estatística descritiva, no sentido de resumir ou sintetizar dados. Imagine que 1.000 
alunos tenham respondido a uma pesquisa, que resultou na Tabela 2, e outros 3.000 
alunos tenham respondido a outra pesquisa, que resultou na Tabela 3. Significa que 
4.000 respostas puderam ser compiladas em apenas duas tabelas.
Vídeo
Estatística Aplicada20
Como sinalizado anteriormente, a parte mais rica de uma pesquisa quantitativa não repousa 
nos cálculos em si (calcular a média, por exemplo), mas, sobretudo, na tomada de decisão com 
base nos resultados obtidos com o uso dos métodos quantitativos. Portanto, com a aplicação dos 
métodos quantitativos, procede-se com o que comumente se chama de análise de resultados.
Para o caso da Tabela 2, percebe-se que duas variáveis destoam negativamente na satisfação 
de discentes (alunos): corpo docente (professores) e forma de pagamento, nessa ordem. Embora 
as demais variáveis estejam em patamares ainda distantes da excelência, elas suscitam menos 
preocupação do que as duas identificadas como críticas.
Deve-se perceber, nesse ponto, que o uso da média para identificar variáveis críticas 
não resolve o problema em si, mas fornece uma sinalização, uma indicação de o que “atacar” 
primeiramente. Ao identificar, por intermédio dos métodos quantitativos, que a variável mais 
crítica é o corpo docente, cabe ao gestor planejar ações para tentar resolver ou amenizar a situação. 
Exemplo: o gestor pode solicitar para recuperarem a avaliação de desempenho de cada professor, 
identificando aqueles que tenham sistematicamente resultados excelentes. Esses professores podem 
ser convidados para elaborar um workshop para capacitação de outros colegas (identificação 
e multiplicação de melhores práticas internas – benchmarking interno). Em relação à forma de 
pagamento, por exemplo, o gestor pode identificar como está a prática de mercado e adequar 
sua condição àquilo que o mercado já adota ou, se quiser vantagem competitiva, oferecer a seus 
discentes uma condição ainda mais vantajosa.
Toda a lógica relacionada à condução de uma pesquisa começa na definição do objetivo da 
pesquisa e termina na tomada de decisão, lembrando que o caminho merece cuidados diversos. 
Números e cálculos apenas fornecem indícios para que uma decisão mais qualificada possa ser 
tomada, e essa decisão, por sua vez, poderá trazer mais competitividade para a organização.
Considerações finais
Ao delinear um objetivo de pesquisa nobre (aumentar as vendas de determinado produto do 
portfólio, por exemplo), o pesquisador pode avançar por uma vertente qualitativa ou quantitativa. 
Na vertente quantitativa, o mote será a generalização. Para isso, é necessário ter acesso a uma base 
de dados já disponível ou construir uma. A construção de uma base de dados acontece por meio 
da elaboração de questionário e sua aplicação em campo para coleta dos dados. A construção do 
questionário depende de perguntas sem vieses e em escala adequada. O pré-teste e o piloto são 
fases que ajudam a refinar o questionário com vistas a obter uma versão definitiva mais robusta.
Por meio da base de dados, disponível ou construída, aplicam-se métodos quantitativos 
para a apresentação de resultados. A estatística descritiva é um desses métodos (o mais simples) e 
permite consolidar (resumir, sintetizar) uma base de dados potencialmente grande, e essa síntese 
oferece pistas a seguir. Com as pistas, caberá ao gestor tomar decisões melhores para resolver ou 
otimizar determinada situação, consoante com o objetivo declarado inicialmente.
Os cálculos e os números não são o objetivo fim da pesquisa, mas o meio pelo qual se pode 
atingi-lo. O objetivo em métodos quantitativos aplicados é, sem dúvida, tomar decisões melhores, 
e, nesse processo, os cálculos e os números contribuem ao oferecerem indícios a seguir.
Estatística descritiva: conceitos e aplicações 21
Ampliando seus conhecimentos
• A IMPORTÂNCIA do big data no mercado. 2019. 1 vídeo (9 min.). Publicado pelo canal 
Meio&Mensagem. Disponível em: https://www.youtube.com/watch?v=VYFL5EjHjGk. 
Acesso em: 26 maio 2019.
Nesse vídeo, Leonardo Naressi, da DP6, explica por que a análise de dados se tornou 
tão essencial para o marketing. Trata-se de uma relação direta entre o uso de métodos 
quantitativos para a tomada de decisão no relacionamento com clientes atuais ou futuros: 
quais são as boas decisões por trás dos dados?
• O QUE faz um estatístico? A estatística no esporte. 2018. 1 vídeo (10 min.). Publicado 
pelo canal IBGE. Disponível em: https://www.youtube.com/watch?v=jKFoDxcMqak. 
Acesso em: 26 maio 2019.
Nesse vídeo, Daniel Takata Gomes comenta sobre a carreira do profissional de estatística 
no esporte. Ele fala sobre sua atuação como comentarista esportivo e dá dicas para quem 
quer ser um estatístico. Outras informações sobre “o que faz um estatístico” podem ser 
acessadas no website2 do IBGE.
Atividades
1. Suponha que você acaba de assumir a posição de head (líder do mais alto escalão) do 
departamento de gestão de pessoas de uma organização que atua no Brasil inteiro: em 
todos os estados e no Distrito Federal. Como gestor dessa área, você terá um líder em cada 
unidade reportando diretamente para você, e esses líderes têm suas próprias equipes locais 
desenvolvendo atividades essencialmente operacionais. Ao longo do processo seletivo que 
acabou por escolhê-lo para esse cargo, um dos entrevistadores deixou transparecer que o 
antecessor não conseguiu resolver um problema crônico de turnover (rotatividade) nesse 
departamento. Em outras palavras: muitos colaboradores são desligados (por motivos 
próprios ou pela organização) e, assim, muitos precisam ser contratados, o que gera 
problemas diretos e indiretos, como perda de conhecimento, perda de continuidade das 
atividades, retrabalho, passivo trabalhista, apenas para citar alguns exemplos. Você tem 
estudado muito sobre as contribuições que os métodos quantitativos podem prover para 
a tomada de decisão e, portanto, está convencido de que uma pesquisa quantitativa pode 
auxiliá-lo nesse momento crítico de chegada ao novo cargo. Descreva um objetivo de 
pesquisa e a delimitação de população e amostra, se cabível, para a realização da coleta de 
dados. Estabeleça as premissas que julgar oportunas, deixando-as explícitasem sua resposta.
2 Disponível em: https://educa.ibge.gov.br/jovens/materias-especiais/materias-especiais/20689-o-que-faz-um-
estatistico.html. Acesso em: 26 maio 2019.
Estatística Aplicada22
2. Suponha que você esteja se formando em um curso de graduação que é sua paixão. Por um 
lado, está triste em deixar os bancos escolares; por outro, está contente por poder colocar 
logo em prática tudo aquilo que aprendeu ao longo de vários semestres. Logo no início 
dessa jornada, na primeira semana de aulas, você, que é uma pessoa sociável e responsável, 
candidatou-se e foi eleito(a) o(a) representante dos discentes desse curso por unanimidade. 
Como ninguém se interessou pela atividade, você se manteve como representante durante 
todos esses anos. Agora, na eminência de sair da faculdade, precisará considerar a transição 
dessa atividade para outro colega, que acabou de ser eleito. Ao longo do curso, você teve 
contato com a disciplina de Estatística Aplicada e tem a certeza de que os conceitos e práticas 
ali apresentados podem ajudá-lo nesse momento de transição. Em particular, você quer 
apresentar ao novo representante discente qual é a satisfação dos discentes em relação ao 
curso. Para esse fim, desenvolva um questionário que possa fornecer dados para que você 
consiga retratar a situação atual da satisfação dos discentes (alunos) para o colega que acaba 
de ser eleito. Estabeleça as premissas que julgar oportunas, deixando-as explícitas em sua 
resposta.
3. Suponha que você seja pai ou mãe de um filho ou filha que apresente o boletim de notas que 
está retratado na Tabela a seguir. Nessa escola, existem quatro avaliações ao longo do ano: 
Prova 1 (P1), Prova 2 (P2), Prova 3 (P3) e Prova 4 (P4). Os discentes já concluíram três das 
quatro avaliações, portanto falta apenas uma avaliação até o final do ano. Consoante com o 
conteúdo programático, a dificuldade das avaliações é equivalente ao longo do ano.
Disciplina P1 P2 P3 P4
Português 2,5 3 1,5 ?
Inglês 3,5 3,5 1 ?
Matemática 10 9,5 8 ?
Física 8,5 9,5 7,5 ?
Química 9 9 8 ?
História 7 7,5 5,5 ?
Geografia 7 7 5 ?
Ciências 3,5 6,5 5 ?
Se seu objetivo é melhorar o desempenho do filho ou filha na P4, que padrões você identifica 
e, com base neles, que ações você propõe tomar?
Estatística descritiva: conceitos e aplicações 23
Referências
FORZA, C. Survey research in operations management: a process-based perspective. International Journal of 
Operations & Production Management, v. 22, n. 2, p. 152-194, 2002.
MARCONI, M. de A.; LAKATOS, E. M. Fundamentos da metodologia científica. 7. ed. São Paulo: Atlas, 2010.
NIELSEN, F. A. G.; OLIVO, R. L. de F.; MORILHAS, L. J. Guia prático para elaboração de monografias, 
dissertações e teses em administração. São Paulo: Saraiva Educação, 2018.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. 
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
2
Estatística descritiva: 
análise de dados
A partir de um objetivo de pesquisa bem identificado e de uma correta execução da coleta de 
dados, será possível gerar uma base de dados (ou banco de dados), cujo objetivo será ter o máximo 
de fidedignidade dos dados, conforme procedimentos discutidos no capítulo anterior.
Uma base de dados é composta por duas dimensões: indivíduos e variáveis. Os indivíduos 
são os objetos de estudo e integralmente convergentes com o objetivo delineado para a pesquisa. 
Por exemplo, em uma pesquisa de satisfação dos clientes sobre o atendimento dos vendedores de 
nossa empresa, cada cliente pode ser um indivíduo da nossa base de dados. Outra dimensão é a de 
variáveis, que são as caracterizações dos indivíduos. No exemplo, podem ser variáveis dos clientes: 
idade, grau de instrução, renda, valor médio de compra, data da última compra, nota (na escala de 
0 a 10) de satisfação sobre o atendimento dos vendedores etc.
Nesse contexto, o objetivo da estatística descritiva é descrever um conjunto de dados 
com vistas à tomada de decisão gerencial de mais qualidade. Essa descrição pode acontecer de 
maneiras variadas. Por exemplo, afirmar que a média de idade de nossos clientes é de 70 anos é 
uma forma de descrever o conjunto de dados. Média, mediana, desvio padrão e outros indicadores 
estatísticos também são maneiras de descrever um conjunto de dados e serão apresentados no 
próximo capítulo. Ainda, é possível descrever o conjunto de dados por meio de tabelas e gráficos 
de distribuição de frequências, instrumentos que serão apresentados neste capítulo.
Após a leitura do capítulo, esperamos que você seja capaz de identificar e descrever variáveis 
qualitativas e quantitativas e também consiga descrever comportamentos de variáveis quantitativas 
por meio de distribuição de frequências e gráficos. Além disso, um dos principais objetivos é 
que você possa utilizar este aprendizado para refinar a tomada de decisão gerencial por meio da 
descrição do comportamento de variáveis quantitativas.
2.1 Tipos de variáveis
Conforme vimos anteriormente, variável é uma característica associada 
ao indivíduo. O conceito de variável não se confunde com tudo o que varia; na 
realidade, o que varia não é a variável, mas seus estados possíveis. Por exemplo, 
a variável cor dos olhos pode assumir estados diferentes, como castanho, verde ou 
azul. Para certo indivíduo, a cor dos olhos será castanho, para outro indivíduo, será 
azul, e, assim, essa característica assumirá estados diferentes para cada um – aí está 
a variação.
A definição de variáveis precisa acontecer ainda na fase de planejamento 
da pesquisa e deve ser um desdobramento direto do objetivo da pesquisa, ou seja, 
Vídeo
Estatística Aplicada26
precisa ter algum significado para atingir esse objetivo. No que se refere à finalidade, as variáveis 
podem ser classificadas como demográficas ou da pesquisa.
A variável demográfica visa a possibilitar segmentações nas análises. No exemplo da 
pesquisa sobre satisfação dos clientes em relação ao atendimento dos vendedores de nossa 
empresa, a variável idade pode ser considerada demográfica, pois, embora não esteja diretamente 
relacionada ao objetivo de aumentar a satisfação dos clientes, possibilita, na parte de análise dos 
dados, uma segmentação em que se conclua, por exemplo, que grupos de clientes com idades 
diferentes possam ter percepções diferentes quanto à satisfação.
Por sua vez, a variável da pesquisa está diretamente relacionada ao objetivo da pesquisa. 
Se o objetivo é aumentar a satisfação dos clientes, descrever as notas atribuídas por eles para o 
atendimento é um dado importante para saber onde atuar e, assim, aumentar a satisfação. Portanto, 
nota de satisfação pode ser considerada uma variável da pesquisa.
Variáveis demográficas e da pesquisa estão relacionadas ao objetivo da pesquisa: a primeira, 
de forma indireta, e a segunda, de forma direta. Apesar dessa diferença, ambas as variáveis, 
demográficas e da pesquisa, podem assumir formas qualitativas ou quantitativas.
Variáveis como gênero (masculino ou feminino, por exemplo), grau de instrução (ensino 
fundamental, ensino médio ou ensino superior, por exemplo) ou cor dos olhos (castanho, verde ou 
azul, por exemplo) podem assumir estados que qualificam e expressam atributos dos indivíduos 
(objetos do estudo). Apesar de raro, as variáveis podem ainda ser representações ligadas ao 
ambiente virtual, como o uso de emojis1 – “coraçãozinho”, “joia” ou “smile”. Essas são as variáveis 
qualitativas. Em geral, elas não são expressas em estado numérico; quando o são, os números 
não são resultado de contagem ou mensuração. Nielsen et al. (2018) reforçam que as variáveis 
qualitativas são elaboradas em categorias ou atributos não mensuráveis.
Por outro lado, variáveis como idade, renda (em R$, por exemplo) e nota na disciplina de 
Português (em escala de 0 a 10, por exemplo) apresentam estados numéricos que são resultado 
de contagem ou mensuração. Essas são as variáveis quantitativas. Serresultado de contagem ou 
mensuração é importante para caracterizar a variável como quantitativa. A pesquisa quantitativa 
pode contar tanto com variáveis qualitativas quanto quantitativas, porém seu uso será diferente, 
como veremos a seguir.
Quanto à sua forma, a variável pode ser qualitativa ou quantitativa (BUSSAB; MORETTIN, 
2014), sendo que esses dois tipos se subdividem em outras classificações.
A variável qualitativa pode ser classificada como nominal ou ordinal. Variáveis qualitativas 
nominais são aquelas em que as representações (estados) não pressupõem sequência ou ordem. 
Por outro lado, aquelas que detêm algum tipo de sequência ou ordem são as variáveis qualitativas 
ordinais. Portanto, a variável qualitativa pode ser:
• Nominal: os estados possíveis não estão determinados em uma sequência. Exemplos: 
gênero e cor dos olhos; e
1 Emojis são símbolos que expressam emoções em mensagens eletrônicas e páginas web. A palavra, de origem 
japonesa, compõe-se de e (imagem) somada a moji (letra).
Estatística descritiva: análise de dados 27
• Ordinal: pressupõe-se uma ordem para os estados possíveis. Exemplos: classe social e 
grau de instrução. Para grau de instrução, presume-se que quem tenha ensino superior já 
concluiu o ensino médio; e quem tenha ensino médio já concluiu o ensino fundamental.
A variável quantitativa, por sua vez, pode ser classificada como discreta ou contínua. 
Variáveis quantitativas discretas são aquelas em que os estados possíveis formam um conjunto 
finito ou enumerável de números e são resultado de contagem: 0, 1, 2... Já as variáveis quantitativas 
contínuas são aquelas em que os estados possíveis pertencem a um intervalo de números reais e 
são resultado de mensuração. Para consolidar, a variável quantitativa pode ser:
• Discreta: os estados possíveis formam um conjunto finito ou enumerável de números, 
resultado de contagem. Exemplos: número de filhos e número de carros; e
• Contínua: os estados possíveis pertencem a um intervalo de números reais, resultado de 
mensuração. Exemplos: peso e altura.
Os estados de cada indivíduo para cada variável, qualitativa ou quantitativa, são armazenados 
em bases de dados. Desse modo, a base de dados pode ser considerada a matéria-prima a partir da 
qual as análises serão desenvolvidas.
Além dos cuidados em termos de escala, já discutidos no capítulo anterior, outros cuidados 
importantes precisam ser postos em prática para aumentar a qualidade dos dados na base. 
É importante ressaltar que a análise sobre dados bons (com qualidade) pode resultar em tomadas 
de decisão boas ou ruins, a depender das técnicas de análise adotadas. Porém a análise de dados 
sobre dados ruins somente pode resultar em análises ruins. É nesse sentido que a discussão sobre 
como conseguir dados com mais qualidade será ofertada a seguir.
Suponha uma base de dados com variáveis apenas demográficas de funcionários de uma 
empresa. Segue base de dados fictícia na Tabela 1.
Tabela 1 – Dados de funcionários de empresa fictícia
Número
Estado 
civil
Número 
de filhos
Salário
(x sal. mín.)
Idade Região de 
procedênciaAnos Meses
1 Solteiro - 4,00 26 03 Interior
2 Casado 1 4,56 32 10 Capital
3 Casado 2 5,25 36 05 Capital
4 Solteiro - 5,73 20 10 Outra
5 Solteiro - 6,26 40 07 Outra
6 Casado 0 6,66 28 00 Interior
7 Solteiro - 6,86 41 00 Interior
8 Solteiro - 7,39 43 04 Capital
(Continua)
Estatística Aplicada28
Número
Estado 
civil
Número 
de filhos
Salário
(x sal. mín.)
Idade Região de 
procedênciaAnos Meses
9 Casado 1 7,59 34 10 Capital
10 Solteiro - 7,44 23 06 Outra
11 Casado 2 8,12 33 06 Interior
12 Solteiro - 8,46 27 11 Capital
13 Solteiro - 8,74 37 05 Outra
14 Casado 3 8,95 44 02 Outra
15 Casado 0 9,13 30 05 Interior
16 Solteiro - 9,35 38 08 Outra
17 Casado 1 9,77 31 07 Capital
18 Casado 2 9,80 39 07 Outra
Fonte: Adaptada de Bussab; Morettin, 2014, p. 13.
O exemplo da Tabela 1 é excelente para identificar a importância de se desenvolver bases 
de dados com qualidade. Ressalta-se, no entanto, que se parte do pressuposto de que as respostas 
atribuídas são verdadeiras.
Entre as possibilidades de classificação apresentadas anteriormente, como você classifica a 
variável número na primeira coluna da Tabela 1? Faça uma pausa, reveja as classificações anteriores 
(Qualitativa ou quantitativa? Nominal ou ordinal? Discreta ou contínua?) e se permita responder 
a esse desafio.
Muitos podem ter como resposta variável quantitativa discreta, pois é expressa em números 
(quantitativa) e os estados possíveis, conforme aparece na Tabela 1, formam um conjunto finito de 
números e parecem ser resultado de contagem: 0, 1, 2... Embora esse raciocínio esteja correto do 
ponto de vista da classificação, a premissa inicial é quebrada e, portanto, a conclusão é equivocada. 
A premissa inicial quebrada é esta: variável é uma característica associada ao indivíduo. Nesse caso, 
o que é que significa o número 5? Será que foi o 5º indivíduo a ser cadastrado na base? Será que é 
seu número da sorte?
É evidente que podem faltar informações adicionais sobre os dados apresentados, mas, da 
maneira como a Tabela 1 está dada, número não parece ter uma interpretação. Então, a conclusão é 
que não se pode considerar número uma variável. Essa conclusão é um tanto impactante, pois, em 
geral, acreditamos que tudo o que está na base de dados é variável. Quando somos nós a construir 
a base de dados, portanto, o cuidado será definir bem as variáveis no planejamento. Se a recebemos 
pronta, vale a inspeção para entender qual é a interpretação de cada uma das variáveis, pois nem 
tudo o que se recebe na base de dados pode ser considerado variável.
Estatística descritiva: análise de dados 29
Seguindo com a avaliação da Tabela 1, estado civil é uma evidente variável, pois caracteriza o 
indivíduo. E, no caso, é uma variável qualitativa nominal. A pergunta interessante aqui é: por que, 
nessa base fornecida, a variável estado civil apresenta apenas os estados solteiro e casado, sendo 
que, na vida, os estados possíveis são muitos, por exemplo, divorciado, viúvo, união estável?
Nesse caso, possivelmente, o formulário de entrada (físico ou digital) deva manter 
disponíveis apenas estes dois estados: solteiro e casado. Mas será que são suficientes para 
representar a realidade? É possível que haja apenas colaboradores solteiros e casados, mas isso 
seria mesmo uma coincidência incrível. É mais provável que os formulários de entrada permitam 
apenas esses dois estados, portanto convém desenvolver novo formulário, de maneira que outros 
estados sejam considerados. Isso resulta em maior fidedignidade dos dados e, como consequência, 
maior qualidade.
Para a variável número de filhos, o que significa o tracinho na primeira linha? Volte à Tabela 
1 e pense na interpretação do tracinho. Muitos podem erroneamente afirmar que o tracinho 
significa que aquele indivíduo não tenha filhos, pois há indivíduos com 1, 2 ou 3, o que significa 
que têm um, dois ou três filhos. Número de filhos é uma variável quantitativa discreta. Se o tracinho 
significa que o indivíduo não tem filhos, o que significa o número 0, por exemplo, para o sexto 
indivíduo? Nesse caso, quando o indivíduo não tem filhos, aparecerá 0. E o tracinho? Significa que 
não temos esse dado preenchido.
Não ter dados preenchidos recebe a nomenclatura técnica de missing data. Assim, concluímos 
que temos missing data nessa base de dados. Isso é particularmente ruim para fins de análises, pois, 
quanto mais dados preenchidos, maiores são as possibilidades de análises mais ricas. Por que será 
que esse dado não está preenchido? Pode acontecer de o respondente não querer participar da 
pesquisa, e, nesse caso, devemos tentar entender os motivos: trata-se de uma pergunta crítica, 
indelicada ou pessoal? Vale pensar, então, a pertinência de mantê-la no questionário ou alterá-la 
para deixá-la menos crítica. Exemplo: em vez de questionar diretamente a renda do respondente, 
pode-se perguntar em que faixade renda ele está, dentre cinco possibilidades.
De volta a nosso exemplo, esse não parece ser o caso: número de filhos não parece ser 
crítico, indelicado ou pessoal demais. Então por que não temos os dados para alguns indivíduos? 
Nesse ponto, devemos voltar à Tabela 1 e tentar uma explicação. Alguns perspicazes devem ter 
observado isto: apenas indivíduos casados (variável estado civil) estão com a variável número de 
filhos preenchida. O fato concreto é esse, mas será mesmo possível que apenas pessoas casadas 
possam ter filhos? Pessoas solteiras não podem ter filhos? Por que será que nossa base de dados está 
assim? Na mesma linha da discussão anterior, é bem razoável pensar que o formulário de entrada 
habilite o campo número de filhos apenas se o estado civil preenchido for de casado. Nesse caso, 
é o próprio formulário de entrada que causa distorção na base de dados. Novamente, a conclusão é 
esta: desenvolver novo formulário, de maneira que o campo número de filhos não esteja atrelado 
ao campo estado civil. Isso resulta em maior fidedignidade dos dados e, assim, maior qualidade.
Avançando em nossa análise das variáveis, passemos à variável salário. Ela está bem 
armazenada ou você propõe outra maneira de armazená-la? Novamente, vale uma pausa para 
voltar à Tabela 1.
Estatística Aplicada30
À primeira vista, salário é uma variável quantitativa contínua, e o número ali armazenado 
precisa ser multiplicado pelo salário-mínimo para se conseguir o salário real daquele colaborador. 
Apesar desse inconveniente de ter que multiplicar pelo salário-mínimo, você considera a variável 
bem armazenada ou existe uma forma melhor de fazer isso? O que incomoda ao armazenar a 
variável salário da maneira como está não é apenas multiplicar pelo salário-mínimo, mas definir 
qual é o valor dele. Existem salários-mínimos diferentes: federal, estadual ou municipal? Salário- 
-mínimo de quando o colaborador entrou na empresa ou de hoje? Outro inconveniente de ter que 
multiplicar é o valor resultante não ser exato, consoante com o número de casas decimais que se 
adote. Portanto, existem razões diversas para crer que há maneira melhor de armazenar a variável 
salário. Como? Vale outra pausa e reflexão.
Definir como armazenar uma variável e quais são os estados possíveis é crítico para a análise, 
e sua definição acontece no planejamento da pesquisa. Nesse caso (assim como em muitos), quanto 
mais simples, melhor: armazenar o salário atual do colaborador diretamente em reais. Além de 
simples, não gera margem para dúvidas sobre contas ou interpretações.
Eis que chegamos à variável idade: variável quantitativa discreta em anos e em meses. A essa 
altura, aquele senso de cético, crítico e contestador já deve ter aflorado. Será mesmo que a variável 
idade está bem armazenada? Afinal, já sabemos que dados ruins somente permitem análises 
ruins. Ver idade em anos e meses chega a incomodar enormemente: são anos e meses de quando o 
colaborador ingressou na empresa ou atuais? E se precisarmos saber o número de dias? É possível, 
então, pensar em forma melhor para armazenar. Como?
Faça uma pausa, pois a reflexão vale a pena: como você propõe armazenar a variável idade? 
A maneira mais imediata de pensar como armazenar idade é alterá-la para data de nascimento. 
Por quê? Que vantagens existem ao adotarmos data de nascimento? Primeiramente, é de perceber 
que, com data de nascimento, é diretamente possível saber a idade do colaborador. Mais do 
que isso, data de nascimento permite extrair outras informações do colaborador, como dia de 
aniversário e signo do zodíaco. É evidente que saber data de aniversário e signo do zodíaco pode 
não ter utilidade direta para o objetivo de uma pesquisa, mas, muitas vezes, a base gerada 
pode ser aproveitada também para pesquisas futuras e, nesse caso, ter a possibilidade de extrair 
mais informações é, inequivocamente, melhor do que não ter essa possibilidade.
Finalmente, inspecionamos a variável região de procedência, variável qualitativa nominal. 
De partida, a nomenclatura região de procedência gera esta dúvida: o que é região de procedência? 
É a região onde o colaborador nasceu? É a região onde ele mora? É onde ele morou antes de se 
mudar para o domicílio atual? Outro ponto de estranheza nos estados possíveis: o que significa 
capital, interior ou outra? Supondo que essa variável se refira à localidade de nascimento, uma 
maneira gentil de armazenar seria nomeá-la cidade de nascimento e armazenar desta feita, por 
exemplo, Atibaia/SP. Ficam evidentes cidade e estado de nascimento. No limite, perceba que, com 
base na cidade de nascimento, é possível saber se o colaborador nasceu na capital de seu estado ou 
não, caso esse seja o interesse de alguma pesquisa.
Se dados ruins permitem apenas análises ruins, cuidar da qualidade dos dados é fundamental 
para uma boa análise de dados. E essa é uma medida, muitas vezes, negligenciada na prática. 
Estatística descritiva: análise de dados 31
Parece existir uma ênfase maior em cálculos, em especial, em uma pesquisa quantitativa, mas esse 
raciocínio pode resultar em análises ruins ou, pelo menos, questionáveis.
Em uma base de dados que parecia boa e confiável, como a da Tabela 1, perceba quantos 
pontos de atenção foram levantados. Preocupar-se com a qualidade da base de dados, portanto, é 
premissa para conduzir uma pesquisa quantitativa com a confiança necessária.
2.2 Distribuição de frequências
O objetivo da estatística descritiva é descrever um conjunto de dados. Esse 
conjunto de dados pode ser composto de todos os indivíduos (população ou 
universo) ou apenas de uma parte deles (amostra). Uma das maneiras de se descrever 
o conjunto de dados é por meio da descrição do comportamento das variáveis, em 
particular, descrevendo a ocorrência de possíveis realizações (possíveis estados).
Suponha, no mesmo exemplo apresentado na Tabela 1, que a empresa fictícia 
tenha 1.200 colaboradores em sua unidade de São Paulo. Suponha ainda que uma 
consolidação a partir dos dados de todos esses colaboradores tenha resultado na 
Tabela 2, apresentada a seguir.
Tabela 2 – Distribuição de frequência do grau de instrução dos colaboradores da empresa 
fictícia em 
São Paulo
Grau de instrução Frequência absoluta Frequência relativa
Fundamental 570 47,5%
Médio 330 27,5%
Graduação 210 17,5%
Pós-graduação 90 7,5%
Total 1.200 100%
Fonte: Elaborada pelo autor.
Consolidações como essa apresentada na Tabela 2 são chamadas de 
distribuição de frequências. No caso, trata-se de uma distribuição de frequência 
para a variável grau de instrução. Supõe-se que a variável grau de instrução reflita a 
maior formação acadêmica concluída pelo colaborador.
A frequência absoluta, na segunda coluna, revela o número de indivíduos 
em determinado estado do grau de instrução. Por exemplo, na empresa fictícia, há 
570 colaboradores com ensino fundamental e apenas 90 com pós-graduação. A 
frequência absoluta é obtida por meio da contagem de indivíduos em cada estado 
possível. Por sua vez, a frequência relativa, também chamada de proporção, na 
terceira coluna, apresenta quanto um determinado número representa do total de 
indivíduos. Por exemplo, 330 colaboradores que tenham o ensino médio como 
maior formação acadêmica representam 27,5% do total dos colaboradores, e 210 
colaboradores com graduação representam 17,5%. A frequência relativa é obtida 
por meio da divisão do número de indivíduos em determinado estado possível pelo 
Vídeo
Estatística Aplicada32
total de indivíduos: 330 colaboradores com ensino médio divididos pelo total de 1.200 indivíduos 
resultam nos 27,5% apresentados na Tabela 2.
A frequência relativa é de particular interesse para análises de dados, pois, uma vez definida 
a variável de interesse (no caso, grau de instrução), ela permite comparações entre realidades com 
a mesma estrutura. Por exemplo, suponha que a empresa fictícia tenha unidades em dois estados: 
São Paulo e Rio de Janeiro. A Tabela 2, anterior, apresentadados referentes aos colaboradores 
de São Paulo. Já a Tabela 3, a seguir, apresenta dados referentes aos colaboradores do Rio de Janeiro.
Tabela 3 – Distribuição de frequência do grau de instrução dos colaboradores da empresa fictícia no 
Rio de Janeiro
Grau de instrução Frequência absoluta Frequência relativa
Fundamental 300 46,15%
Médio 160 24,62%
Graduação 100 15,38%
Pós-graduação 90 13,85%
Total 650 100%
Fonte: Elaborada pelo autor.
Embora não tenha muito sentido comparar diretamente as frequências absolutas dos 
colaboradores da empresa fictícia, de São Paulo e do Rio de Janeiro, é de notar que o número total 
de colaboradores em São Paulo é praticamente o dobro daquele do Rio de Janeiro. Portanto, a 
unidade de São Paulo é maior do ponto de vista de número de colaboradores.
A parte mais interessante da análise está na comparação das frequências relativas. O que se 
percebe é que, na unidade do Rio de Janeiro, há proporcionalmente mais colaboradores com nível 
de pós-graduação do que na unidade de São Paulo: 13,85% contra 7,5%. Nos demais estados de 
grau de instrução, a ordem de grandeza está mais próxima e não parece merecer destaque.
A distribuição de frequências abarca ferramentas que podem ser consideradas simples de 
serem desenvolvidas e, mais recentemente, por conta do avanço computacional, fáceis de serem 
obtidas. Isso é particularmente interessante, pois essas ferramentas permitem análises que podem 
levar a decisões significativamente melhores.
De volta ao exemplo da Tabela 2, referente à unidade de São Paulo, suponha que o presidente 
da empresa fictícia queira aumentar a capacitação formal dos colaboradores. Apenas analisando os 
dados apresentados na Tabela 2, quais recomendações você forneceria ao presidente?
Se o objetivo delineado pelo presidente da empresa fictícia (objetivo da pesquisa) é 
aumentar a capacitação dos colaboradores, um conjunto de cenários com recomendações pode ser 
fornecido, cada qual com prós e contras. Pode-se propor, por exemplo, um programa para auxiliar 
colaboradores que tenham como maior grau de instrução o ensino fundamental a procederem para 
uma transição para o ensino médio.
Primeiramente, pode-se identificar colaboradores que precisem proceder com a transição 
por motivo profissional e outros que queiram. Essa identificação fornece ao gestor uma lista 
Estatística descritiva: análise de dados 33
de prioridades daqueles que serão assistidos pelo programa. A partir dessa identificação, o 
programa pode contemplar auxílio financeiro na forma de bolsa de estudos, por exemplo, ou 
horário flexível para atividades acadêmicas que assim requeiram e atividades profissionais que 
assim permitam. Para o caso de graduação ou pós-graduação, a depender da especificidade das 
atividades do colaborador na empresa fictícia, pode-se pensar em alternativas nas modalidades 
de EaD2 ou in-company3. É de perceber que cada proposta carrega vantagens e desvantagens; e o 
objetivo neste ponto não é apresentar todas as possibilidades de gestão, mas evidenciar que uma 
correta consolidação dos números pode servir de base para uma tomada de decisão mais rica. 
Vale o reforço: os números e as contas são o meio para se conseguir tomar decisões melhores.
Os exemplos anteriores funcionam bem quando há em pauta uma variável qualitativa ou 
uma quantitativa discreta. Distribuição de frequências para variáveis quantitativas contínuas, 
no entanto, demandam tratamento diferente. Suponha uma variável salário, cujos estados são 
expressos em reais e representam o valor mais atualizado das remunerações de um colaborador. 
Em um universo de 1.200 colaboradores em São Paulo, por exemplo, ao construir uma distribuição 
de frequências para salário, pode-se chegar a muitos estados possíveis. No limite, supondo que 
todos os colaboradores tenham remunerações diferentes, seriam 1.200 estados com frequência 
absoluta unitária. Esse tipo de consolidação não nos ajuda a tomar nenhuma decisão: os estados 
(grupos) são tão fragmentados que, de fato, não se pode falar em grupos. Nesses casos, é preferível 
uma solução como a apresentada na Tabela 4.
Tabela 4 – Distribuição de frequência do salário dos colaboradores da empresa fictícia em São Paulo
Salário Frequência absoluta Frequência relativa
Até R$ 1.999,99 450 37,50%
De R$ 2.000,00 a R$ 3.999,99 305 25,42%
De R$ 4.000,00 a R$ 5.999,99 195 16,25%
De R$ 6.000,00 a R$ 7.999,99 145 12,08%
Acima de R$ 8.000,00 105 8,75%
Total 1.200 100%
Fonte: Elaborada pelo autor.
É evidente que esse tipo de consolidação leva a alguma perda de informação, pois não se 
tem mais o dado original: pode haver um salário de R$ 8.000,01 e outro de R$ 55.123,45 no mesmo 
grupo de acima de R$ 8.000,00. Trata-se de uma limitação que precisa ser fortemente considerada 
ao formular a conclusão a partir desse tipo de distribuição de frequência. Os grupos (cinco, no caso 
da Tabela 4) são chamados de classes; portanto a nomenclatura correta para esse exemplo é classes 
de salários.
2 EaD é acrônimo para ensino a distância, uma modalidade de educação, em geral, mediada por tecnologias em que 
discentes e docentes não precisem estar fisicamente presentes em um ambiente físico de ensino-aprendizagem.
3 In-company é uma modalidade de educação em que as atividades de ensino-aprendizagem são personalizadas 
consoante com as necessidades (de infraestrutura, de carga horária, de horário e local das aulas e afins) do cliente. 
Em geral, discentes são colaboradores do cliente.
Estatística Aplicada34
Definir os intervalos é um tanto arbitrário, e, dessa forma, a experiência do pesquisador 
com o assunto em pauta fornecerá dicas de como proceder. Como regra geral, estas diretrizes 
são válidas: (a) um número excessivamente pequeno de classes leva à perda de informação 
(indivíduos significativamente diferentes podem acabar pertencendo à mesma classe); e (b) um 
número excessivamente grande de classes leva à discriminação em excesso e, com isso, o objetivo 
de resumir os dados pode ficar comprometido. Em termos práticos, cinco classes com o mesmo 
intervalo pode ser um bom ponto de partida.
2.3 Gráficos
Outra maneira de descrever um conjunto de dados é por meio de gráficos. 
Esse tipo de descrição é de particular interesse, pois, em geral, sua interpretação é 
mais imediata (mais fácil de entender) do que outros tipos (tabelas e indicadores 
estatísticos, por exemplo), afinal, sua inspeção é visual: “uma imagem vale mais do 
que mil palavras”.
Ao se trabalhar com gráficos, um cuidado necessário é identificar qual é o 
objetivo que se pretende por meio da representação visual. Há representações 
que permitem, por exemplo, descrever um conjunto de dados, consoante com a 
distribuição de frequência. Assim, o objetivo é o mesmo das tabelas que apresentam 
distribuição de frequências: todas as tabelas utilizadas neste capítulo servem ao 
propósito de descrever um conjunto de dados e, portanto, nesse sentido, tabelas de 
distribuição de frequências e gráficos carregam o mesmo objetivo intrínseco.
Um exemplo desse tipo de representação é o gráfico de barras. Como 
demonstração, tomemos a Tabela 3, que apresenta a distribuição de frequência 
dos colaboradores da empresa fictícia, consoante com seu grau de instrução, no 
Rio de Janeiro. A Figura 1, a seguir, apresenta um gráfico de barras para descrever 
a distribuição de frequência relativa do grau de instrução dos colaboradores da 
empresa fictícia no Rio de Janeiro. Por sua vez, a Figura 2 apresenta um gráfico 
de colunas com as mesmas informações. Ambas as figuras apresentam os mesmos 
dados, apenas a apresentação visual é diferente.
Figura 1 – Gráfico de barras com a distribuição de frequência relativa do grau de instrução 
dos colaboradores da empresa fictícia no Rio de Janeiro
Grau de instrução dos colaboradores da empresa 
fictícia no Rio de janeiro
Pós-graduação
Graduação
Médio
13,85%
24,62%
46,15%
0% 10% 20% 30% 40% 50%
Fundamental
15,38%
Fonte: Elaborada pelo autor.
Vídeo
Estatísticadescritiva: análise de dados 35
Figura 2 – Gráfico de colunas com a distribuição de frequência relativa do grau de instrução dos 
colaboradores da empresa fictícia no Rio de Janeiro
Grau de instrução dos colaboradores da empresa 
fictícia no Rio de janeiro
Pós-graduaçãoGraduaçãoMédio
13,85%15,38%
24,62%
46,15%
0%
10%
20%
30%
40%
50%
Fundamental
Fonte: Elaborada pelo autor.
Outro exemplo de representação gráfica que serve ao propósito de descrever a distribuição 
de frequência de uma variável é o gráfico de pizza. No mesmo exemplo da Tabela 3, tome-se 
a distribuição de frequência absoluta dos colaboradores da empresa fictícia no Rio de Janeiro, 
consoante com seu grau de instrução. Essa representação está apresentada na Figura 3.
Figura 3 – Gráfico de pizza com a distribuição de frequência absoluta do grau de instrução dos 
colaboradores da empresa fictícia no Rio de Janeiro
Grau de instrução dos colaboradores da empresa 
fictícia no Rio de janeiro
Fundamental
Médio
Graduação
Pós-graduação
300
90
100
160
Fonte: Elaborada pelo autor.
Gráficos de barra, de coluna e de pizza são ótimos para descrever a distribuição de 
frequência de uma variável selecionada. Nos exemplos apresentados, a variável em pauta foi o 
grau de instrução dos colaboradores da empresa fictícia na unidade do Rio de Janeiro. Também é 
de notar que a representação gráfica de frequência relativa costuma ser mais intuitiva do que da 
frequência absoluta, embora ambas possam ser representadas para auxiliar a tomada de decisão. 
Por fim, ressalta-se seu maior uso para representar variáveis qualitativas (como é o caso de grau de 
instrução), embora isso não seja mandatório.
Estatística Aplicada36
Para variáveis quantitativas discretas, o gráfico de coluna (nesse caso, também chamado 
de gráfico de dispersão unidimensional) é aplicável, de acordo com os estados possíveis. 
Se o número de estados a serem representados for muito grande, vale considerar a construção de 
classes, conforme descrito anteriormente (ver Tabela 4, por exemplo). A lógica de construção desse 
tipo de gráfico é a mesma daquela apresentada na Figura 2. Voltando ao exemplo da empresa 
fictícia, suponha que a distribuição de frequência da variável número de filhos dos colaboradores 
de São Paulo seja a apresentada na Tabela 5.
Tabela 5 – Distribuição de frequência da variável número de filhos dos colaboradores da empresa fictícia 
em São Paulo
Número de filhos Frequência absoluta Frequência relativa
0 300 25%
1 240 20%
2 510 42,5%
3 120 10%
Acima de 4 30 2,5%
Total 1.200 100%
Fonte: Elaborada pelo autor.
Sendo número de filhos uma variável quantitativa discreta, sua representação em um gráfico 
de colunas está apresentada na Figura 4, a seguir.
Figura 4 – Gráfico de dispersão unidimensional da distribuição de frequência do número de filhos dos 
colaboradores da empresa fictícia em São Paulo
Número de filhos dos colaboradores da 
empresa fictícia em São Paulo
600
500
400
300 300 240
510
120
30
200
100
0
0 1 2 3 Acima 4
Fonte: Elaborada pelo autor.
Para o caso de variáveis quantitativas contínuas, em que o número possível de estados pode 
ser muito grande, um artifício empregado é aproximar a variável quantitativa contínua em discreta, 
como apresentado na Tabela 4, para a variável salário dos colaboradores da empresa fictícia em 
São Paulo. Se, por um lado, essa aproximação viabiliza a representação gráfica, por outro, resulta 
em perda de informação, como já discutido. Deve-se, portanto, considerar os prós e contras para 
se proceder com a redução das mensurações reais em classes. A Figura 5, a seguir, apresenta um 
exemplo de gráfico de colunas, com base nas informações apresentadas na Tabela 4.
Estatística descritiva: análise de dados 37
Figura 5 – Gráfico de dispersão unidimensional da distribuição de frequência do salário dos colaboradores 
da empresa fictícia em São Paulo
Salário dos colaboradores da 
empresa fictícia em São Paulo
0,00%
Até 
R$ 1.999,99
De R$ 2.000,00 
a R$ 3.999,99
De R$ 4.000,00 
a R$ 5.999,99
De R$ 6.000,00 
a R$ 7.999,99
Acima de 
R$ 8.000,00
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
Fonte: Elaborada pelo autor.
Uma evolução do gráfico de dispersão unidimensional é o histograma. Segundo Sweeney 
et al. (2014), um histograma é construído colocando-se a variável de interesse no eixo horizontal 
e a frequência, absoluta ou relativa, no eixo vertical. A diferença em relação a seus pares é que 
o histograma apresenta as colunas de forma contígua com bases proporcionais aos intervalos 
das classes. Em relação ao exemplo da Figura 5, é necessário apenas proceder com um ajuste na 
última classe de salários para torná-la de mesmo tamanho das demais, pois os outros intervalos já 
têm tamanhos iguais. Um exemplo desse histograma é apresentado na Figura 6, a seguir. Assim como 
nos casos anteriores, seu uso pode ser tanto para a representação da frequência absoluta quanto 
da relativa.
Figura 6 – Histograma da distribuição de frequência da variável salário dos colaboradores da empresa 
fictícia em São Paulo
37,50%
Salário dos colaboradores da 
empresa fictícia em São Paulo
0,00%
Até 
R$ 1.999,99
De R$ 2.000,00 
a R$ 3.999,99
De R$ 4.000,00 
a R$ 5.999,99
De R$ 6.000,00 
a R$ 7.999,99
De R$ 8.000,00 
a R$ 9.999,99
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
25,42%
16,25%
12,08% 8,75%
Fonte: Elaborada pelo autor.
Todos os exemplos anteriores são ótimos para representar visualmente a distribuição de 
frequência de variáveis, qualitativas ou quantitativas. Ressalta-se, no entanto, que há outros tipos 
de representações gráficas, por exemplo, a evolução de determinada variável ao longo do tempo 
(gráficos de linha) ou gráficos que relacionam duas ou mais variáveis (gráficos de tendência): 
número de anos de estudo e salário, por exemplo. Os casos apresentados neste capítulo referem-se 
exclusivamente à representação visual da distribuição de frequência de uma variável e, portanto, 
servem ao propósito de descrever um conjunto de dados. Outros casos existem amplamente no 
mundo dos negócios, mas sua apresentação será feita oportunamente.
Estatística Aplicada38
Considerações finais
Variáveis são o meio pelo qual uma pesquisa quantitativa se materializa. Dessa forma, 
sua definição precisa acontecer ainda na fase de planejamento da pesquisa. Cuidados diversos 
precisam ser adotados, como a correta definição de escala, de estados possíveis e de forma de 
captura e armazenamento, apenas para citar alguns. Variáveis são as bases para a fase de análises, 
motivo pelo qual não é exagero afirmar que todo o cuidado é pouco até que se consiga o adequado 
armazenamento das variáveis e dos estados de cada indivíduo na forma de uma base de dados.
A seguir, supondo que uma base de dados com qualidade é disponibilizada, o uso da 
estatística descritiva para descrever um conjunto de dados pode acontecer de maneiras variadas. 
Duas delas foram inspecionadas ao longo deste capítulo: tabelas e gráficos de distribuição de 
frequências. Embora apresentem as mesmas informações, elas diferem em termos de apresentação: 
tabelas apresentam números consolidados e gráficos apresentam esses números consolidados de 
forma visual.
A distribuição de frequências permite a compreensão de como os indivíduos estão 
distribuídos ao longo dos estados possíveis de uma variável de interesse. Como consequência, 
medidas de gestão podem ser propostas. Não é na distribuição de frequência em si que está a 
tomada de decisão, mas ela serve de base para que essa decisão seja melhor. A riqueza não repousa 
na ferramenta estatística (tabelas e gráficos de distribuição de frequências, por exemplo), senão nas 
decisões melhores que se pode depreender a partir desses números e gráficos.
Ampliando seus conhecimentos
• IBGE. Censo demográfico 2010: características da população e dos domicílios. Rio de 
Janeiro: IBGE, 2011. Disponível em: https://biblioteca.ibge.gov.br/visualizacao/periodicos/93/cd_2010_caracteristicas_populacao_domicilios.pdf. Acesso em: 26 maio 2019.
Nesse documento, o IBGE – Instituto Brasileiro de Geografia e Estatística – divulga um 
relatório sobre a evolução da distribuição territorial da população do país e as principais 
características socioeconômicas das pessoas e de seus domicílios. Vale se deter sobre 
tabelas e gráficos apresentados no documento para ter exemplos de como os conceitos 
apresentados neste capítulo podem ser colocados em prática.
• EMPRESA DE PESQUISA ENERGÉTICA. Matriz energética e elétrica. Disponível em: 
http://www.epe.gov.br/pt/abcdenergia/matriz-energetica-e-eletrica. Acesso em: 26 maio 2019.
Nesse documento, a Empresa de Pesquisa Energética, prestadora de serviços de estudos 
e pesquisas para o Ministério de Minas e Energia, apresenta uma comparação do Brasil 
em relação ao mundo quanto à matriz energética e elétrica. Embora o documento não 
se aprofunde neste ponto, vale a reflexão sobre quais ações poderiam ser propostas ao 
Ministério de Minas e Energia, para os próximos anos, com base nos gráficos apresentados. 
Vale perceber como os gráficos servem de base para a proposta de ações de melhoria.
Estatística descritiva: análise de dados 39
Atividades
1. Definição de variáveis
Suponha que você seja o coordenador pedagógico do curso de graduação de Contabilidade 
de uma faculdade fictícia e receba uma base de dados dos alunos do curso, conforme 
demonstra a Tabela a seguir.
Tabela – Dados de alunos de graduação de Contabilidade de uma faculdade fictícia
Número Grau de instrução Número de carros
Renda
(x sal. mín.)
Idade
1 Ensino médio - 1,00 16
2 Ensino superior 1 1,56 22
3 Ensino superior 2 2,25 26
4 Ensino médio - 2,73 20
5 Ensino médio - 3,26 20
6 Ensino superior 0 3,66 28
7 Ensino médio - 3,86 21
8 Ensino médio - 4,39 19
9 Ensino superior 1 4,59 24
10 Ensino médio - 4,44 17
11 Ensino superior 2 5,12 23
12 Ensino médio - 5,46 17
13 Ensino médio - 5,74 17
14 Ensino superior 3 5,95 24
15 Ensino superior 0 6,13 30
16 Ensino médio - 6,35 18
17 Ensino superior 1 6,77 31
18 Ensino superior 2 6,80 29
Fonte: Elaborada pelo autor.
Estatística Aplicada40
Quais variáveis estão bem definidas (a interpretação da variável está compreensível)? Quais 
não estão? Por quê? Como se pode melhorar a compreensão? Quais variáveis estão bem 
armazenadas (a interpretação dos estados possíveis está compreensível)? Quais não estão? 
Por quê? O que pode melhorar a compreensão?
2. Tabela de distribuição de frequência
Suponha que você acabe de assumir o cargo de diretor de vendas da unidade Brasil de 
uma empresa mundial. Você solicita o perfil de vendas em cada região do país, nos últimos 
dois anos (ano XXX1 e XXX2, sendo que estamos no ano XXX3). Para que consiga tomar 
decisões para aumentar as vendas, você recebe os resultados apresentados na Tabela a seguir.
Tabela – Vendas em cada região do país da empresa mundial
Região
Quantidade 
vendida no ano 
XXX1 (peças)
% vendido no 
ano XXX1
Quantidade 
vendida no ano 
XXX2 (peças)
% vendido no 
ano XXX2
Norte 5.000 5,38% 5.000 4,50%
Nordeste 15.000 16,13% 12.500 11,26%
Centro-Oeste 7.500 8,06% 8.000 7,21%
Sudeste 50.000 53,76% 62.500 56,31%
Sul 15.500 16,67% 23.000 20,72%
Total 93.000 100% 111.000 100%
Fonte: Elaborada pelo autor.
Supondo que seu objetivo seja aumentar as vendas no país, quais são suas conclusões e que 
iniciativas você sugere implantar?
3. Gráficos de distribuição de frequência
Ainda sobre as informações apresentadas na Tabela da Questão 2, desenvolva gráficos:
• de barra para a variável quantidade vendida no ano XXX1;
• de coluna para a variável quantidade vendida no ano XXX2;
• de pizza para as variáveis % vendido no ano XXX1 e % vendido no ano XXX2.
Para esse fim, sugere-se o uso de pacote de planilha eletrônica ou pacote estatístico.
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
NIELSEN, F. A. G.; OLIVO, R. L. de F.; MORILHAS, L. J. Guia prático para elaboração de monografias, 
dissertações e teses em administração. São Paulo: Saraiva, 2018.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. 
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
3
Estatística descritiva: 
medidas-resumo
Uma vez definidos objetivo da pesquisa, população, amostra e indivíduos, são as variáveis 
que ajudam a operacionalizar o estudo e, como enfatizado anteriormente, elas precisam estar 
convergentes com o objetivo da pesquisa. É preciso ter cuidados em relação ao tipo das variáveis, 
qualitativas ou quantitativas, e em relação à escala em que serão armazenados os estados possíveis. 
Uma das maneiras de se obter os dados é por meio de bases prontas disponíveis ao pesquisador. 
Nesse caso, há de se avaliar até que ponto a base pronta consegue contribuir para o atingimento do 
objetivo delineado, pois é possível que ela tenha sido obtida para atender a um objetivo diferente. 
Outra maneira de conseguir uma base de dados é por meio da tradução das variáveis em perguntas 
de um questionário e da correta aplicação desse questionário (coleta de dados) em campo.
Por meio desses procedimentos, obtém-se uma base de dados. Quando cuidados são 
aplicados, as chances de se obter uma base de dados com mais qualidade aumentam. Cabe lembrar 
que bases de dados ruins permitem apenas tomar decisões ruins; já por meio de bases com dados 
bons (de qualidade maior, mais fidedignos), decisões boas ou ruins podem ser tomadas, consoante 
com as ferramentas de análises adotadas. A partir deste ponto, pressupõe-se que os cuidados 
fornecidos foram adotados, e, portanto, todos os conceitos apresentados a seguir assumem bases 
de dados que podem ser consideradas boas.
Uma base com grande número de dados dos indivíduos, comum em pesquisas quantitativas, 
possibilita que pouca decisão possa ser tomada diretamente, pois se está diante de uma “montanha 
de dados”. Para aumentar as chances de tomar boas decisões, é necessário consolidar os dados para, 
somente então, analisá-los. Duas maneiras para esse fim foram apresentadas no capítulo anterior: 
(a) tabelas com distribuição de frequências e (b) gráficos com distribuição de frequências.
Além das tabelas e dos gráficos com distribuição de frequências, outra maneira de descrever 
um conjunto de dados e consolidá-los para análise é por meio do cálculo de medidas-resumo, 
conforme será apresentado a seguir. Ao longo deste capítulo, será descrito um conjunto de dados 
por meio de medidas de posição, medidas de dispersão e gráficos do tipo box-plot e, assim, poderá 
ser refinada a tomada de decisão gerencial com base na descrição do conjunto de dados.
3.1 Medidas de posição
O objetivo da estatística descritiva é descrever um conjunto de dados, e essa 
descrição pode acontecer por meio da consolidação de dados. Tabelas e gráficos de 
distribuição de frequência, como apresentado anteriormente, são duas maneiras 
pelas quais isso pode acontecer. Em complemento, o cálculo de medidas-resumo 
também é considerado para fins de consolidação de dados.
Vídeo
Estatística Aplicada42
Medidas-resumo (também chamadas de medidas descritivas) resumem ou descrevem 
uma base de dados e, por meio de sua análise, contribuem para uma tomada de decisão mais 
refinada. É de destacar que esse resumo não é, no entanto, da base de dados como um todo, mas de 
cada variável. Portanto, existirá um conjunto de medidas para cada variável, de maneira que seja 
possível descrever seu comportamento por meio dessas medidas, ou melhor, o comportamento dos 
indivíduos para aquela variável.
As medidas-resumo podem ser calculadas apenas sobre variáveis quantitativas e classificadas 
em dois tipos: medidas de posição e medidas de dispersão.
As medidas de posição (também chamadas de medidas de localização) apresentam 
mensurações de centralidade ou descrevem características de posicionamento de uma variável. 
É possível que a medida de posiçãomais conhecida seja a média. Ela ilustra bem o conceito de 
centralidade. Quando se afirma que a média de idade de um time de futebol é de 35 anos, é bem 
intuitiva sua interpretação: considerando-se todos os jogadores, 35 anos é um número que resume, 
que descreve, que representa esse conjunto de jogadores consoante com sua idade. Se tivéssemos 
que fornecer um palpite sobre a idade de um jogador desse time que tenha sido escolhido ao 
acaso, o melhor palpite seria de 35 anos. Portanto, medidas de posição servem para descrever o 
comportamento de uma variável por meio de números que tentem, de alguma forma, representar 
bem o conjunto de dados.
Por sua vez, medidas de dispersão (também chamadas de medidas de variabilidade) 
apresentam mensurações que retratam quanto um conjunto de dados está variando (quanto maior 
a variação, maior é a dispersão). No mesmo exemplo dos jogadores, caso a média de idade seja de 
35 anos e todos os jogadores estejam com idades próximas a 35 anos, a variabilidade é pequena. 
Por outro lado, caso haja jogadores de 17 anos até aqueles com 46 anos, sendo a média de 35 anos, 
a variabilidade, a dispersão é maior. Isso pode sinalizar que a média de 35 anos nos dois casos pode 
ter interpretações diferentes: no primeiro, como o conjunto de dados parece ser menos disperso, 
a média representa bem a realidade de idade dos jogadores; no segundo caso, como o conjunto 
de dados parece ser mais disperso, a média parece representar menos a realidade de idade dos 
jogadores. Desse modo, medidas de dispersão servem para sinalizar quanto variam as mensurações 
dos indivíduos para uma variável de interesse.
A seguir, serão apresentados mais detalhes sobre medidas de posição e de dispersão.
3.1.1 A média
A medida de posição mais conhecida é a média (também chamada de valor médio) e constitui 
uma medida da posição central dos dados (SWEENEY et al., 2014). A média é um número que, 
supostamente, mais bem representa e sintetiza as mensurações dos indivíduos para determinada 
variável de interesse.
Matematicamente, a média é a somatória de mensurações dividida pelo número de 
indivíduos, e pode ser dada por:
Onde: x x x +x +...+x
n
x
n
1 n i =1�
�
�
�
2 3 i
n
Estatística descritiva: medidas-resumo 43
x = média amostral1
xi = mensuração do indivíduo i
n = número de indivíduos
Como exemplo, tomemos este conjunto de dados: A = (2, 5, 3, 7, 8, 10, 12). A média será 
dada por:
x � � � � � � � �2 5 3 7 8 10 12
7
6 71,
Além de ser a medida-resumo mais conhecida, a média é a mensuração individual que 
mais bem representa o conjunto de dados. No exemplo, 6,71 fornece uma ideia de como é o 
comportamento desses dados.
Por outro lado, a média tem limitações que precisam ser consideradas, em especial, quando 
se procede com a análise dos dados. Algumas dessas limitações podem ser severas, dependendo das 
conclusões que se pretendem alcançar. Duas dessas limitações são: (a) a média é muito suscetível a 
mensurações extremas; e (b) a média pode resultar em valores impossíveis na prática.
Suponha duas turmas de estudantes, cada qual com quatro integrantes. A média de nota na 
disciplina de Estatística Aplicada é de cinco (escala de 0 a 10) para a turma A. Ao calcular a média 
para a turma B, também se chega à média cinco (escala de 0 a 10) para a turma B, portanto as 
duas turmas têm médias iguais. Pergunta: essas duas turmas têm comportamentos iguais? Pode-se 
concluir que elas são iguais ou, pelo menos, parecidas?
Apenas para estressar o exemplo, suponha que as notas individuais sejam dadas por:
Turma A = (5, 5, 5, 5); e
Turma B = (0, 0, 10, 10)
De partida, perceba que a média é, realmente, cinco (escala de 0 a 10) para cada turma, 
então não há engano no cálculo da média. Nesse ponto, com observação individual dos dados, 
fica evidente que as duas turmas não são iguais e não têm o mesmo comportamento, embora a 
média em ambas seja, de fato, igual. A primeira consideração é que a inspeção exclusiva da média 
pode levar a conclusões equivocadas (por exemplo, concluir que as duas turmas têm o mesmo 
comportamento porque têm médias iguais).
Além disso, para a turma A, a média parece ser bem representativa do conjunto de 
mensurações de notas: não apenas a média é cinco, mas todos os indivíduos têm nota cinco, ou seja, 
o cinco parece representar bem o conjunto de indivíduos. Se alguém afirmasse que um novo aluno 
passará a integrar essa turma e que esse aluno tem características (comportamentos) similares 
àqueles que já estão na turma A, é de bom tom pressupor que a nota desse aluno seja cinco.
1 Nesse momento, não há diferença no conceito de média para população ou amostra. No primeiro caso, pressupõe-
-se que o conjunto de dados seja de uma população e, no segundo caso, seja de amostra. Mais rigor acerca dessa 
diferença será dado mais à frente.
Estatística Aplicada44
Por outro lado, conhecendo agora as notas individuais, seria possível afirmar, de fato, que o 
melhor palpite de nota para um aluno que passe a integrar a turma B (e que tenha características 
similares àqueles que já estão) seja de cinco? No limite, ninguém da turma B obteve nota cinco. 
Comparativamente à turma A, parece que o cinco (como média) parece representar pouco (ou 
de forma ruim) a turma B. A média é, portanto, suscetível a valores extremos e pode enganar na 
comparação ou na tomada de decisão.
Avançando na compreensão, pode-se afirmar que, no tocante à nota na disciplina de 
Estatística Aplicada, a turma A é mais homogênea (varia menos) do que a turma B, e, por sua vez, 
a turma B é mais heterogênea (varia mais) em relação à turma A. Em grupos mais homogêneos 
(menos dispersos), a média representa bem o conjunto de dados, e, da mesma feita, em grupos 
mais heterogêneos (mais dispersos), a média representa mal o conjunto de dados.
Para tomada de decisão em grupos mais heterogêneos, o procedimento a ser adotado inclui, 
em caráter não opcional, na medida do possível, a subdivisão do grupo heterogêneo em subgrupos 
mais homogêneos. De volta ao exemplo da turma B, será possível subdividi-la em grupos mais 
homogêneos?
Em uma primeira inspeção, fica evidente que é possível subdividir a turma B em dois 
subgrupos mais homogêneos:
Subgrupo B1 = (0, 0); e
Subgrupo B2 = (10, 10)
Como essa subdivisão favorece a tomada de decisão? Decisões sobre grupos mais homogêneos 
são melhores do que aquelas tomadas sobre grupos heterogêneos. Apenas para ilustrar o conceito, 
suponha que uma campanha publicitária pretenda estimular as vendas de um produto e, para isso, 
sorteará uma camisa oficial com assinaturas de todos os jogadores de uma determinada equipe de 
futebol, FUT1. Se a campanha for veiculada para a sociedade como um todo, apenas uma parte 
estará interessada (os torcedores de FUT1), porém, caso essa campanha seja veiculada apenas para a 
torcida organizada da equipe FUT1, a chance de, proporcionalmente, mais pessoas se interessarem 
aumenta muito. Portanto, a mesma campanha parece ser mais assertiva se endereçada apenas à 
torcida organizada da equipe FUT1. O trabalho operacional de buscar assinaturas de todos os 
jogadores é o mesmo se a campanha for para a sociedade como um todo ou apenas para a torcida 
organizada, mas os resultados potenciais parecem ser bem diferentes.
De volta ao exemplo das turmas, consideremos para fins de análises a turma A (5, 5, 5, 5), 
subgrupo B1 (0, 0) e subgrupo B2 (10, 10). Se o objetivo do estudo é aumentar o desempenho dos 
alunos na disciplina de Estatística Aplicada, uma proposta de intervenção é solicitar que alunos 
do subgrupo B2 forneçam aulas adicionais (no estilo de monitoria, por exemplo) para alunos da 
turma A e do subgrupo B1. Para alunos da turma A, as aulas poderiam ser opcionais, mas 
poderiam ser obrigatórias para os alunos do subgrupo B1, pois seu desempenho foi muito aquém 
do esperado. Algum benefício para os alunos do subgrupo B2 pode ser fornecido, como desconto 
na mensalidade ou incentivos educacionais, como livros ou participaçãoem feiras estudantis. 
Parte-se do pressuposto de que exista um bom relacionamento interpessoal entre todos os alunos, 
Estatística descritiva: medidas-resumo 45
o que, na prática, nem sempre é verdade. O ponto de interesse para discussão, no entanto, é: 
grupos mais homogêneos permitem propostas de intervenção mais assertivas. Subdividir em 
grupos mais homogêneos permite pensar as ações e os interesses para cada grupo e, assim, a 
tomada de decisão é potencialmente melhor.
3.1.2 A moda
Avançando na discussão acerca das limitações da média, ela pode resultar em valores que 
não são observados na prática. Suponha que a média de filhos em determinada comunidade seja de 
1,8 filhos por família. Ainda que alguma família queira se manter na média daquela comunidade, é 
evidente que é impossível ter 1,8 filhos: ou será 1 filho ou serão 2 filhos. Nesse caso, um indicador 
de centralidade complementar à média é a moda. Moda é a mensuração que ocorre com maior 
frequência em um conjunto de dados (BUSSAB; MORETTIN, 2014).
Considere este conjunto de dados:
C = (4, 5, 4, 6, 5, 8, 4, 10, 12, 4)
Nesse exemplo, a moda é 4, pois é a mensuração que ocorre com maior frequência. Não 
apenas a moda apresenta a mensuração que mais se repete, mas, da própria definição de moda, ela 
será, necessariamente, um valor que existe na prática.
Dependendo do fenômeno de interesse, no entanto, é possível que nenhum valor se repita 
e, nesse caso, o conjunto de dados é amodal. Na prática, é comum encontrar conjuntos de dados 
amodais. Por outro lado, também pode acontecer de haver duas mensurações que mais se repetem 
(na mesma quantidade) e, nesse caso, a nomenclatura será de bimodal. O raciocínio de duas 
mensurações que se repetem (na mesma quantidade) pode ser extrapolado para mais de duas. No 
entanto, o caso de interesse será o de moda única e, ainda assim, servirá de complemento à média. 
Portanto, o uso da moda para descrever um conjunto de dados é mais carregado de interpretação 
quando analisado em complemento com outras medidas.
3.1.3 A mediana
Além de poder resultar em valores que não se observam na prática, outra limitação da média 
é sua suscetibilidade a valores extremos. Para servir de complemento à média, uma medida de 
centralidade muito utilizada é a mediana. A mediana é a mensuração que ocupa a posição central 
de um conjunto de dados, quando eles estão ordenados de forma crescente. Em outras palavras, 
é a mensuração que divide o conjunto de dados desta feita: 50% dos indivíduos têm mensurações 
inferiores à mediana e 50% dos indivíduos têm mensurações superiores. A Figura 1, a seguir, traz 
uma representação visual do conceito de mediana. Entre o valor mínimo e a mediana, estão 50% 
dos indivíduos e, entre a mediana e o valor máximo, estão os outros 50%.
Figura 1 – Conceito de mediana
MÍNIMO
50% 50%
MEDIANA MÁXIMO
Metade das mensurações está abaixo da mediana Metade das mensurações está acima da mediana
Fonte: Elaborada pelo autor.
Estatística Aplicada46
É de notar que a mediana não leva em consideração para seu cálculo a mensuração absoluta 
de cada indivíduo, mas a posição que cada um ocupa quando ordenados crescentemente. A média, 
por sua vez, é mais suscetível a mensurações extremas, porque leva em consideração para seu 
cálculo a mensuração absoluta dos indivíduos.
Matematicamente, obtém-se a posição da mediana por meio desta fórmula:
Posição da mediana = ( )n+1
2
Onde: 
n = número de indivíduos
Para um número ímpar de indivíduos, o valor resultante é diretamente a posição do indivíduo 
que será a mediana do conjunto de dados. Para o caso de número par de indivíduos, a mediana será 
a média dos dois indivíduos que ocupam as posições centrais.
Considere este conjunto de dados com número ímpar de indivíduos:
D = (5, 9, 8, 2, 6, 3, 12)
D (ordenados crescentemente) = (2, 3, 5, 6, 8, 9, 12)
Posição da mediana = ( ) ( )n� � � �1
2
7 1
2
4
O elemento que ocupa a posição 4 (quarta posição), quando os dados são ordenados 
crescentemente, tem mensuração 6. Portanto, a mediana desse conjunto de dados é mediana = 6.
Considere este conjunto de dados com número par de indivíduos:
E = (13, 15, 12, 11, 18, 16)
E (ordenados crescentemente) = (11, 12, 13, 15, 16, 18)
Posição da mediana = 
( ) ( ) ,n� � � �1
2
6 1
2
3 5
Para um número par de indivíduos, o cálculo da posição da mediana sempre será um 
resultado não inteiro. Nesse caso, precisam ser consideradas as mensurações dos indivíduos que 
estejam imediatamente antes e imediatamente depois da posição da mediana calculada. No exemplo, 
serão tomados os indivíduos 3 e 4 (pois a posição da mediana calculada é de 3,5): o indivíduo que 
ocupa a terceira posição tem mensuração de 13, e o indivíduo que ocupa a quarta posição tem 
mensuração de 15. Se a mediana desse conjunto de dados é a média dessas duas mensurações, a 
mediana desse conjunto de dados é mediana = 14.
É compreensível que todo esse procedimento gere alguma preocupação, pois, dependendo da 
quantidade de indivíduos, a ordenação e os cálculos podem requerer atenção e tempo demasiados. 
No entanto, por conta do avanço computacional, os cálculos de média, moda e mediana (e de 
outras medidas de posição e de dispersão) têm sido mais fáceis e rápidos. Nesse sentido, a ênfase 
tem se deslocado do cálculo para a análise: cálculos mais fáceis e rápidos e análises mais detalhadas.
Estatística descritiva: medidas-resumo 47
Tendo em conta estas três medidas de posição ao mesmo tempo, média, moda e mediana, 
valores calculados (para média, moda e mediana) que sejam próximos podem indicar grupos mais 
homogêneos, ao passo que valores calculados muito diferentes entre si podem indicar grupos 
mais heterogêneos. Essas afirmações, no entanto, não podem ser tomadas como conclusivas, 
mas, em complemento aos gráficos e às medidas de dispersão (que serão inspecionadas mais à 
frente neste capítulo), servem como evidência adicional.
3.1.4 O máximo e o mínimo
Embora o máximo e o mínimo de um conjunto de dados não versem sobre sua centralidade, 
ajudam a descrevê-lo ao fornecer uma localização. Sua inspeção, em conjunto com valores 
calculados de média, moda e mediana, começa a fornecer indícios mais completos de como é o 
comportamento dessa variável.
O máximo é a maior mensuração observada em um conjunto de dados e, por sua vez, o 
mínimo é a menor mensuração.
Retomando os exemplos anteriores, considere estes conjuntos de dados:
D = (5, 9, 8, 2, 6, 3, 12)
E = (13, 15, 12, 11, 18, 16)
Para o conjunto D, o mínimo é 2 (menor mensuração observada) e o máximo é 12 (maior 
mensuração observada). Da mesma feita, para o conjunto E, o mínimo é 11 e o máximo é 18.
3.1.5 Os quartis e os percentis
Outras medidas de localização (e não de centralidade) utilizadas para descrição de um 
conjunto de dados são o primeiro quartil (também chamado de 1Q) e o terceiro quartil (3Q). Para 
entender o cálculo dessas medidas, convém retomar o conceito de mediana: a mensuração que 
ocupa a posição central, quando os dados estão ordenados crescentemente.
Para o cálculo do primeiro quartil (1Q), o mesmo procedimento de ordenar os dados 
crescentemente é adotado, porém, em vez de dividir o conjunto de dados pela metade (de modo 
que 50% da quantidade de indivíduos tenha mensuração inferior e 50% dos indivíduos tenha 
mensuração superior), como ocorre para encontrar a mediana, divide-se o conjunto de dados desta 
maneira: 25% da quantidade de indivíduos tem mensuração inferior ao 1Q e 75% da quantidade 
de indivíduos tem mensuração superior. Em ordem crescente, é como se fosse eleita a mensuração 
que divida o conjunto de dados no primeiro quarto 1
4
�
�
�
�
�
�. Não é de estranhar, portanto, que as palavras 
quarto e quartil têm o mesmo radical.
Seguindo o mesmo raciocínio, o terceiro quartil (3Q, terceiro quarto) divide o conjunto de 
dados que está ordenado crescentemente de maneira que 75% dos indivíduos tenham mensuração 
inferior ao 3Q e 25% dos indivíduos tenham mensuração superior. Esseindivíduo divide o conjunto 
de dados no terceiro quarto 3
4
�
�
�
�
�
�. A Figura 2, a seguir, apresenta uma representação visual dos 
conceitos de mínimo, 1Q, mediana (também chamada de segundo quartil ou 2Q), 3Q e máximo. 
Os percentuais representam a quantidade de indivíduos (em percentual) em cada quarto.
Estatística Aplicada48
Figura 2 – Conceitos de mínimo, 1Q, mediana, 3Q e máximo
MÍNIMO
25% 25% 25% 25%
50% 50%
MEDIANA
MÁXIMO1Q 2Q 3Q
Fonte: Elaborada pelo autor.
É evidente que, em muitas situações, o cálculo de 1Q e de 3Q não resulta em posições 
exatas. Isso (não resultar em posição exata) já aconteceu também no caso do cálculo da posição da 
mediana para número par de indivíduos, oportunidade em que foi necessário calcular a média das 
duas mensurações que ocupam a posição central. Caso se requeira rigor quanto ao cálculo, pode-se 
recorrer à interpolação2 para encontrar o valor exato de 1Q e de 3Q, mas, em geral, esse rigor não 
será necessário. Para o cálculo da posição do quartil, deve-se levar em consideração aquele que se 
deseja obter e o número de indivíduos, como segue:
Posição de iQ = 
i n� �� �1
4
Onde:
i = quartil que se deseja obter (i = 1, 2 ou 3)
n = número de indivíduos
Para o exemplo do conjunto de dados D:
D = (5, 9, 8, 2, 6, 3, 12)
D (ordenados crescentemente) = (2, 3, 5, 6, 8, 9, 12)
Posição de 1Q = 
1 7 1
4
2
� �� �
�
Posição de 3Q = 
3 7 1
4
6
� �� �
�
Se a posição de 1Q é 2, significa que 1Q é a mensuração do segundo indivíduo, quando o 
conjunto de dados está ordenado crescentemente, 1Q = 3. Usando o mesmo raciocínio, se a posição 
de 3Q é 6, significa que 3Q é a mensuração do sexto indivíduo, quando o conjunto de dados está 
ordenado crescentemente, 3Q = 9.
Com o mesmo raciocínio, o cálculo de percentis é feito quando uma determinada mensuração 
divide o conjunto de dados, quando ordenado crescentemente, em um percentual de interesse: 
aquele que divide os dados em 10% de menores mensurações (10P ou 10 percentil) ou aquele que 
2 Interpolação é o método de aproximar os valores dos conjuntos discretos, o que permite construir um novo conjunto 
de dados a partir de um conjunto discreto de dados pontuais previamente conhecidos. Por meio da interpolação, pode-se 
construir uma função (ou encontrar números) que aproximadamente se “encaixe” nesses dados pontuais, conferindo-lhes, 
então, uma continuidade desejada.
Estatística descritiva: medidas-resumo 49
divide os dados em 20% de maiores mensurações (80P ou 80 percentil), por exemplo. O cálculo da 
posição do percentil é dado por:
Posição de iP = 
i n� �� �1
100
Onde:
i = percentil que se deseja obter (i = 1 a 99)
n = número de indivíduos
Novamente, o cálculo de quartis (em particular, para fins de análises, de 1Q e 3Q) e de 
percentis está facilitado por conta do avanço computacional. Por isso, o maior mérito, cada vez 
mais, estará nas análises de melhor qualidade que podem ser extraídas com base nessas medidas.
3.2 Medidas de dispersão
Outra maneira de descrever um conjunto de dados é por meio de sua 
dispersão. Quanto mais disperso for um conjunto de dados, mais ele é formado 
por indivíduos heterogêneos (indivíduos diferentes entre si, que carregam mais 
variabilidade). Essa discussão já apareceu com a merecida importância quando da 
apresentação das limitações da média: média em grupo mais homogêneo representa 
bem esse grupo e média em grupo mais heterogêneo representa pouco esse grupo. 
Em bons termos, homogeneidade ou heterogeneidade são comportamentos 
desejáveis de serem conhecidos sobre variáveis de um conjunto de dados, pois 
suscitam ações diferentes: ações tomadas em grupos homogêneos costumam ser 
mais assertivas do que aquelas tomadas em grupos mais heterogêneos. Os grupos 
heterogêneos devem ser subdivididos em subgrupos mais homogêneos, a fim de 
que se possa tomar melhores decisões a respeito deles. O cálculo de medidas de 
dispersão é desejável para identificar esses comportamentos.
Algumas medidas de dispersão que contribuem para essa inspeção – mas 
que não se restringem a ela – são: amplitude, amplitude interquartil, desvio padrão 
e coeficiente de variação.
3.2.1 A amplitude
A amplitude é considerada a medida de dispersão mais simples, pois é 
a diferença entre o máximo e o mínimo. Ainda que de forma simplificada, ela 
consegue sinalizar sobre a oscilação do conjunto de dados. Quanto maior for a 
amplitude, mais heterogêneo é o conjunto de dados (oscila mais).
Considere este conjunto de dados:
F = (15, 5, 3, 8, 10, 2, 7, 11, 12, 1, 20, 4)
Mínimo = 1
Máximo = 20
Amplitude = 20 – 1 = 19
Vídeo
Estatística Aplicada50
Um exemplo muito próximo do nosso cotidiano é a amplitude térmica. Quando o noticiário 
anuncia que a temperatura máxima de um dia é de 28 ºC e a mínima é de 18 ºC, a amplitude 
térmica é de 10 ºC. Por outro lado, se a máxima do dia seguinte é de 27 ºC e a mínima é de 22 ºC, 
a amplitude térmica é de apenas 5 ºC. Isso significa que o segundo dia é mais homogêneo (oscila 
menos, varia menos) do que o dia anterior.
3.2.2 A amplitude interquartil
Se, por um lado, a amplitude é uma medida fácil de ser calculada (leva em consideração 
apenas o máximo e o mínimo do conjunto de dados), por outro lado, ela tem uma deficiência 
severa, dependendo das características dos indivíduos do conjunto de dados: ela é muito suscetível 
a valores extremos.
Suponha uma variante do conjunto de dados F:
F’ = (15, 5, 3, 8, 10, 2, 7, 11, 555, 12, 1, 20, 4)
Mínimo = 1
Máximo = 555
Amplitude = 555 – 1 = 554
No caso de F’, está evidente que a mensuração 555 é um outlier, um ponto “fora da curva”, 
incomum e, por isso, precisa ser expurgada para fins de análises. Para fins didáticos, mensurações 
extremas, ainda que não sejam outliers, podem influenciar demasiadamente a amplitude.
Em parte, para servir de complemento à amplitude, pode-se calcular também a amplitude 
interquartil. Seu cálculo é a diferença entre 3Q e 1Q.
Suponha o conjunto de dados G:
G = (15, 5, 3, 8, 10, 2, 7, 11, 12)
1Q = 4 (média de 3 e 5 – mensurações do segundo e terceiro indivíduos)
3Q = 11,5 (média de 11 e 12 – mensurações do sétimo e do oitavo indivíduos)
Amplitude interquartil = 3Q – 1Q = 11,5 – 4 = 7,5
A vantagem dessa medida (em particular, quando comparada à amplitude) é que 
mensurações extremas têm menos influência no resultado. Quanto maior for a amplitude 
interquartil, mais heterogêneo é o conjunto de dados (oscila mais).
3.2.3 O desvio padrão
A amplitude leva em consideração em seu cálculo apenas o máximo e o mínimo. A amplitude 
interquartil leva em consideração apenas 3Q e 1Q. Em ambos os casos, no entanto, os valores 
absolutos das mensurações são usados apenas para a ordenação do conjunto de dados. A seguir, 
será apresentada uma medida que leva em consideração os valores absolutos de cada mensuração, 
o desvio padrão (s). Antes, no entanto, será apresentado o conceito de variância (var), pois sua 
relação com o desvio padrão é direta.
Estatística descritiva: medidas-resumo 51
A variância é uma medida de dispersão que considera o quão distante cada mensuração 
do conjunto de dados está em relação ao comportamento comum desse conjunto. Assim, leva-se 
em consideração a somatória da distância de cada mensuração em relação à média, como segue 
(LAPPONI, 2005):
s
x x x x x x
n
x x
n
i =12 1
2
2
2 2 2
1 1
�
�� � � �� � � � �� �
�
�
�� �
�
�... n i
n
Onde:
s2 = variância amostral3
xi = mensuração do indivíduo i
x = média amostral
n = número de indivíduos
Como a variância considera a distância como artifício matemático para expurgar diferenças 
negativas entre a média e as mensurações com valor inferior a ela, eleva-se cada diferença ao 
quadrado. Importante: não há distância negativa, por isso, esse artifício é necessário. Outros 
mecanismos para expurgar as diferenças negativas poderiam ser aplicáveis, por exemplo, o módulo 
(nesse caso, seria usado o conceito do desvio médio), mas, por motivos que serão apresentados 
mais à frente nestaobra, o uso do quadrado para esse fim é preferível.
Considere este conjunto de dados, a média e a variância:
H = (3, 4, 5, 6, 7)
x = 5
s2
2 2 2 2 23 5 4 5 5 5 6 5 7 5
5 1
10
4
2 5�
�� � � �� � � �� � � �� � � �� �
�
� � ,
Embora o cálculo da variância seja compreensível, vale notar suas limitações (perceba que 
elas têm a mesma origem): (a) não se pode elevar um número ao quadrado sem uma contrapartida 
(sem retirar esse efeito); e (b) o resultado da variância não tem interpretação prática. Suponha, por 
exemplo, que estejamos inspecionando a dispersão das alturas dos jogadores de basquete de uma 
equipe (em metros). Como a diferença da altura de cada jogador em relação à média é elevada ao 
quadrado, o resultado será em metros quadrados (m2), o que não parece ter interpretação prática 
para fins de análises. É por esse motivo que se aplica a raiz quadrada da variância (para tirar o efeito 
de elevar ao quadrado) e, assim, obtém-se o desvio padrão. O desvio padrão carrega as mesmas 
vantagens da variância quanto a considerar os valores absolutos de cada mensuração para o cálculo 
da dispersão, mas não recai a ele a crítica de não ter uma contrapartida para elevar números ao 
quadrado. O desvio padrão é dado, pois, por:
s � variância
3 A variância amostral refere-se à amostra, e a variância populacional, à população, discussão que será aprofundada 
em outro capítulo. Neste ponto, cabe reconhecer que a distinção existe, mas é de importância menor.
Estatística Aplicada52
Voltemos ao exemplo do conjunto de dados H:
H = (3, 4, 5, 6, 7)
x �
�
�� � � �� � � �� � � �� � � �� �
�
� �
� �
5
3 5 4 5 5 5 6 5 7 5
5 1
10
4
2 5
2 5 1
2
2 2 2 2 2
s
s
,
, ,,58
Portanto, um conjunto de dados com desvio padrão maior é mais heterogêneo do que outro 
que tenha desvio padrão menor (evidentemente, caso ambos contenham dados da mesma ordem 
de grandeza). Por exemplo, suponha que sejam inspecionados dois ativos no mercado financeiro 
(valor de mercado ao longo do tempo), conforme a Figura 3, a seguir.
Figura 3 – Valor de mercado ao longo do tempo de dois ativos: um com oscilação menor e outro com 
oscilação maior
Baixo risco (oscila menos) Alto risco (oscila mais)
Fonte: Elaborada pelo autor.
Nos mercados financeiros, a oscilação recebe a nomenclatura de volatilidade, e seu cálculo é 
dado diretamente pelo desvio padrão. Desse modo, ativos com desvio padrão mais alto podem ser 
considerados mais voláteis e arriscados. Ressalta-se que, embora ajude a descrever a volatilidade 
(risco) de um ativo, o desvio padrão não pode ser usado para estimar a tendência de retorno do 
ativo quanto à alta ou baixa. Outros mecanismos de finanças precisam ser usados para esse fim.
3.2.4 O coeficiente de variação
Quando são considerados dois fenômenos cujos desvios padrão resultem em mesmo valor 
absoluto, é conveniente (mas não correto) afirmar que esses dois fenômenos são igualmente 
dispersos, que oscilam igualmente.
De volta ao exemplo dos ativos financeiros, suponha que uma inspeção no preço de 
fechamento diário (em reais) foi feita durante os últimos três meses. O desvio padrão foi calculado 
e o resultado nos dois ativos foi igual a R$ 5,00. Ambos os ativos são igualmente arriscados? 
Oscilam igualmente?
Estatística descritiva: medidas-resumo 53
O impulso natural seria afirmar que sim, que ambos os ativos oscilam igualmente, são 
igualmente dispersos e, portanto, são igualmente arriscados, mas a verdade é que isso depende. 
Imagine que tenhamos a informação de que a cotação média do primeiro ativo (AT1) é de R$ 22,41, 
e a cotação média do segundo ativo (AT2) é de R$ 33,36. Podemos perceber que, mesmo que o 
desvio padrão de ambos seja de R$ 5,00, esses R$ 5,00 têm grandezas (efeitos, impactos) diferentes, 
consoante com a cotação média: oscilação de R$ 5,00 sobre R$ 22,41 parece ter efeito maior do que 
oscilação dos mesmos R$ 5,00 sobre R$ 33,36. Para captar esses efeitos, será calculado o coeficiente 
de variação (CV). Trata-se de uma medida de dispersão relativa, tendendo a relativizar o efeito da 
magnitude dos dados. Ao exprimir a variabilidade em relação à média, essa medida é útil para 
comparar dois (ou mais) fenômenos – dois ativos financeiros, por exemplo. Matematicamente, o 
coeficiente de variação é dado por:
CV s
x
� �100
Onde:
s = variância amostral
x = média amostral
O resultado do cálculo do coeficiente de variação será dado em percentual. Como convenções 
de mercado, valores de até 10% representam conjuntos de dados mais homogêneos. Por sua vez, 
valores acima de 30% representam conjuntos de dados mais heterogêneos. Entre 10% e 30% são 
grupos moderadamente heterogêneos. Na Tabela 1, a seguir, está uma comparação entre dois ativos 
com mesmo valor de desvio padrão.
Tabela 1 – Comparação de ativos com mesmo valor de desvio padrão
Ativo financeiro Desvio padrão (R$) Média (R$) Coeficiente de variação Conclusão
AT1 5,00 22,41 5,00 / 22,41 × 100 = 22,3% Mais volátil
AT2 5,00 33,36 5,00 / 33,36 × 100 = 14,9% Menos volátil
Fonte: Elaborada pelo autor.
Não é por acaso que o coeficiente de variação é a medida de dispersão que, individualmente, 
mais bem representa a dispersão de um conjunto de dados, pois leva em consideração o desvio 
padrão em comparação com a média, sendo uma medida relativa.
Há, no entanto, uma situação em que o coeficiente de variação não funciona bem para 
fins de comparação de dispersão entre dois grupos. E essa é uma limitação matemática: como a 
medida considera o desvio padrão dividido pela média, quando a média tem valores absolutos 
muito próximos de zero, o valor calculado do coeficiente de variação tende a infinito, podendo 
resultar em valores como 7.000%, o que, evidentemente, não serve para fins de análises. Nesses 
casos, quando os fenômenos que estão sendo inspecionados têm a mesma ordem de grandeza, a 
inspeção direta do desvio padrão é adequada e suficiente.
Estatística Aplicada54
3.3 Gráfico box-plot
Representações gráficas são ótimas para sintetizar e resumir um conjunto grande 
de dados, além de permitirem uma compreensão mais fácil para o interlocutor, já que 
o ser humano tende a ser muito visual. Em complemento aos gráficos apresentados 
anteriormente, há um de particular interesse, pois permite inspecionar rapidamente 
como está a posição e dispersão dos dados. Trata--se do box-plot.
O box-plot está sempre em uma escala univariada (estados possíveis para 
aquela variável) e representa o conjunto de dados por meio de um retângulo 
vertical (em inglês, box significa caixa4) formado, na tampa superior, pelo 3Q 
e, na tampa inferior, pelo 1Q. Em algum ponto entre as tampas, estará um 
traço com a representação da mediana. Acima da tampa superior e abaixo da 
tampa inferior, é comum se estender um traço que parte dessa extremidade 
(tampas) do box. Por exemplo, para o lado superior, do meio da tampa superior 
(3Q), parte um traço contínuo até um ponto que representa o máximo. De 
forma análoga, do meio da tampa inferior (1Q), parte um traço contínuo até 
um ponto que representa o mínimo. A Figura 4 apresenta um exemplo de 
box-plot para facilitar a compreensão.
Figura 4 – Exemplo de box-plot
Mínimo 
Máximo
3Q
Mediana (2Q)
1Q
Fonte: Elaborada pelo autor.
O box-plot pode ser desenhado em plano horizontal ou vertical, mas o mais 
comum é vertical, conforme está na Figura 4. Em ambos os casos, os princípios são 
os mesmos: mínimo, 1Q, mediana, 3Q e máximo. Essas cinco medidas de posição 
representadas em um único gráfico fornecem rapidamente uma ideia quanto à 
dispersão dos dados: 25% da quantidade de indivíduos está entre o mínimo e 1Q; 25% 
da quantidade de indivíduos está entre 1Q e a mediana; outros 25% da quantidade de 
indivíduos está entre a mediana e 3Q; e, por fim, 25% da quantidade de indivíduos está 
entre 3Q e o máximo. Assim como representado na Figura 4, a mediana não precisa 
estar necessariamente no meio do box e isso será evidência de alguma assimetria na 
dispersão dos dados, como está apresentadona Figura 5, a seguir.
4 Em tradução livre.
Vídeo
Estatística descritiva: medidas-resumo 55
Figura 5 – Simetria e assimetria em box-plot
Assimetria para cimaAssimetria para baixo Simetria
Fonte: Elaborada pelo autor.
A principal vantagem da inspeção de box-plot repousa na facilidade de interpretação da 
posição e dispersão dos dados para a variável de interesse (importante: o box-plot é sempre uma 
inspeção univariada, está sempre na escala dessa variável). Além disso, quando grupos diferentes 
são comparados por meio do box-plot, é visualmente fácil identificar os grupos mais homogêneos 
e aqueles mais heterogêneos, o que permite melhorar a tomada de decisão. Um exemplo de 
comparação de grupos pode incluir a inspeção de volatilidade (risco) de ativos financeiros 
diferentes quanto à variação percentual diária dos últimos três meses. Aqueles que apresentarem 
gráficos box-plot mais comprimidos são mais homogêneos, ao passo que gráficos box-plot mais 
“esticados” podem indicar ativos mais voláteis. Enfim, rapidamente, tem-se um parecer, ainda que 
de origem visual, quanto à homogeneidade ou heterogeneidade daquele grupo.
Por fim, por conta do avanço computacional, não mais se desenham gráficos do tipo 
box-plot à mão livre, pois o software computacional executa essa atividade, cabendo ao pesquisador 
a interpretação, análise e tomada de ação de melhor qualidade.
Considerações finais
Descrever um conjunto de dados significa tentar encontrar o comportamento usual dos 
indivíduos, consoante com a variável que esteja sendo inspecionada. Esse comportamento pode ser 
descrito por meio de tabelas e gráficos de distribuição de frequências, como apresentado no capítulo 
anterior, mas também por meio de medidas-resumo. As medidas-resumo que mais contribuem 
para descrever um conjunto de dados podem ser agrupadas em: medidas de posição (média, moda, 
mediana, mínimo, máximo, quartis e percentis) ou medidas de dispersão (amplitude, amplitude 
interquartil, desvio padrão e coeficiente de variação). Por fim, o gráfico box-plot representa de 
forma visual a distribuição dos dados por meio de algumas medidas de posição.
Em termos de análises, um comportamento de particular interesse é a homogeneidade 
(ou heterogeneidade) do conjunto de dados. Quando o tomador de decisão está diante de dados 
mais homogêneos (indivíduos com comportamentos parecidos entre si), a tomada de decisão é 
facilitada, pois ações tomadas tendem a ser mais assertivas e, portanto, com resultados melhores. 
Estatística Aplicada56
Por outro lado, diante de dados heterogêneos, sempre que possível, a recomendação será no sentido 
de dividir o conjunto de dados em subgrupos mais homogêneos e tomar as ações diretamente 
sobre esses subgrupos.
Além disso, um uso muito comum da descrição dos dados é a possibilidade de comparação 
de grupos. Essa comparação pode ser tanto em termos de distribuição de frequência quanto de 
medidas de posição e de dispersão. Por exemplo, quando são comparados dois ativos financeiros 
e se identifica que um deles é mais disperso, que oscila mais, pode-se concluir que ele é mais 
recomendável para alguém mais arrojado e propenso ao risco.
Esta é uma mensagem final importante para o uso da estatística descritiva: os números e 
cálculos não são o objetivo fim em si, mas são as bases para que uma tomada de decisão melhor 
possa acontecer. Cabe àquele que conduz o estudo sair dos números e chegar às melhores decisões 
para aquela realidade.
Ampliando seus conhecimentos
• GAMA, C. Marketing: o comportamento do consumidor afetado pelos estilos de vida. 
Administradores, 22 mar. 2019. Disponível em: https://administradores.com.br/artigos/
marketing-o-comportamento-do-consumidor-afetado-pelos-estilos-de-vida. Acesso em: 
26 maio 2019.
Nesse artigo, o autor apresenta como tem emergido um mercado segmentado por estilo 
de vida; na verdade, existe um grupo enorme heterogêneo dividido em subgrupos mais 
homogêneos. Variáveis como nível de escolaridade, idade, número de filhos e local de 
residência tornaram-se talvez até mais importantes do que o próprio nível de renda para 
tomadas de decisão sobre o que as empresas podem ofertar para cada grupo. O artigo 
reforça que decisões diferentes (produtos e serviços diferenciados) devem ser tomadas 
para subgrupos diferentes.
• MOMBERGER, A. Entenda de uma vez por todas o que é volatilidade de mercado. 
Investing, 7 set. 2018. Disponível em: https://br.investing.com/analysis/entenda-de-uma-
vez-por-todas-o-que-e-volatilidade-de-mercado-200222695. Acesso em: 26 maio 2019.
Esse artigo relaciona os conceitos desenvolvidos neste capítulo com a realidade dos 
mercados financeiros, aprofundando a discussão sobre oscilação, risco e volatilidade. O 
artigo sinaliza como calcular a volatilidade e como usá-la na tomada de decisão quanto a 
investir no mercado financeiro brasileiro.
Estatística descritiva: medidas-resumo 57
Atividades
1. Suponha que você tenha interesse no mercado financeiro e que tenha coletado dados de 
variação diária percentual de um ativo fictício durante os últimos 20 dias úteis. Calcule as 
medidas de posição (média, moda, mediana, mínimo, máximo, 3Q e 1Q) e de dispersão 
(amplitude, amplitude interquartil, desvio padrão e coeficiente de variação), arredondando 
para duas casas decimais. Os dados estão apresentados na Tabela a seguir.
Tabela – Dados de variação diária percentual de ativo fictício durante 20 dias úteis
–1,38 –1,27 2,54 0,00 0,59
0,87 –0,51 0,43 –0,58 0,25
–0,17 –1,49 –1,01 5,42 –2,85
–1,03 –0,08 –0,92 –4,99 –1,52
Sugere-se o uso de um software, como o MS-Excel, ou de pacote estatístico para o cálculo 
das medidas solicitadas.
2. Suponha que você tenha calculado medidas de posição e de dispersão da variação diária 
percentual de dois ativos, tendo obtido os resultados apresentados na Tabela a seguir.
Tabela – Medidas de posição e de dispersão da variação diária percentual dos ativos A e B
Ativo 1 Ativo 2
Média –0,39 –0,43
Moda #N/D #N/D
Mediana –0,55 –0,60
Máximo 5,42 0,87
Mínimo –4,99 –1,38
3Q 0,39 0,25
1Q –1,35 –1,29
Amplitude 10,41 2,25
Amplitude interquartil 1,74 1,54
Desvio padrão 2,04 1,00
Coeficiente de variação (%) –529,12 –234,70
Com base nas informações apresentadas, quais são suas considerações sobre o comporta- 
mento médio dos ativos? E sobre a oscilação dos ativos?
Estatística Aplicada58
3. Suponha que você esteja à frente de uma unidade educacional e tenha solicitado um relatório 
sobre o desempenho de discentes em dois grupos: conjunto 1 e conjunto 2. O conjunto 1 
recebeu aulas adicionais em relação à carga de aulas padrão. E você quer avaliar se essas 
aulas adicionais podem ter tido algum efeito benéfico aos discentes do conjunto 1. Para essa 
análise, você recebe um relatório com a Figura a seguir, na escala de notas de 0 a 10.
10
5
0
Conjunto 1 Conjunto 2
Supondo que os dois grupos tenham sido selecionados ao acaso no início do experimento 
e que possam ser considerados equivalentes quanto ao desempenho acadêmico anterior, 
quais são suas considerações quanto à atribuição de aulas adicionais para o conjunto 1? 
Elas valeram a pena?
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. 
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
4
Noções de probabilidade
Neste capítulo, abordaremos um tema muito presente em nosso cotidiano: as probabilidades. 
É comum escutarmos sobre probabilidades em diferentes contextos. Por exemplo, há afirmações 
mais subjetivas, como “isso acontece em 99,9% das vezes”, no sentido de que a recorrência é 
comum, mas sem necessidade de um rigor para saber se são 99,9% ou 99,8% das vezes. Também 
há afirmações mais objetivas, como “a probabilidade de este medicamento ter efeitos colaterais é 
de 0,2%”, nosentido de que um experimento foi conduzido e a afirmação decorre de resultados 
obtidos por meio de métodos científicos e que podem ser comprovados.
Em muitas situações, é possível calcular a probabilidade exata, o que permite sair da 
subjetividade e, assim, tomar decisões mais qualificadas. Tomemos, como exemplo, a Mega-Sena: 
o desejo de uma fortuna milionária leva, todos os anos, milhões de apostadores às casas lotéricas. 
Frases como “quem não arrisca, não petisca” são proferidas por esses apostadores, cujos sonhos 
incluem acertar os números sorteados e desfrutar do prêmio. Mas qual é a probabilidade de se 
ganhar na Mega-Sena? As possibilidades existentes são uma combinação de 60 elementos tomados 
6 a 6, o que resulta em 50.063.860 jogos possíveis. Com um jogo simples de seis dezenas, por 
exemplo, teremos uma chance em aproximadamente 50 milhões de possibilidades. Isso resulta em 
cerca de 0,000002% de chance de acertar os números cobiçados.
O objetivo aqui não é desincentivar alguém a jogar, evidentemente. Até porque há um caráter 
lúdico e divertido em todo jogo; por exemplo, há muitos que gostam de apostar em conjunto com 
amigos, e outros que usam o jogo para estimular seus sonhos: “o que eu faria se eu ganhasse”. 
São aspectos intangíveis e que não podem ser desprezados, mas, possivelmente, conhecer 
probabilidades pode contribuir para a tomada de decisão de forma mais consciente. E assim será 
em muitas situações de nosso cotidiano.
Ao longo deste capítulo, veremos como calcular a probabilidade de um evento ou de conjunto 
de eventos e como refinar a tomada de decisão gerencial por meio do cálculo de probabilidade. 
Antes disso, vamos entender o que é probabilidade.
Probabilidade é uma medida numérica da possibilidade de um evento acontecer. Assim, 
ela é usada como medida do grau de incerteza associada a um fenômeno de interesse. Valores 
probabilísticos são sempre atribuídos em uma escala entre 0 e 1: uma probabilidade próxima a 0 
indica que é improvável que um evento aconteça e uma probabilidade próxima de 1 revela que a 
ocorrência de um evento é quase certa. E outras probabilidades entre 0 e 1 representam o grau de 
possibilidade de um evento acontecer (SWEENEY et al., 2014).
Os modelos probabilísticos são modelos teóricos que reproduzem, de maneira aceitável, 
a distribuição de frequência de um fenômeno, quando ele é observado diretamente (BUSSAB; 
MORETTIN, 2014). Quando são conhecidos os estados possíveis para um fenômeno de interesse 
(podemos pensar em estados possíveis de uma variável, por exemplo) e as possibilidades de 
Estatística Aplicada60
ocorrência de cada estado (podemos pensar em probabilidade de ocorrência), é possível ter maior 
compreensão desse fenômeno e, assim, tomar uma decisão. Suponha, por exemplo, que o evento de 
interesse seja o lançamento de uma moeda: os estados possíveis são cara e coroa, e a probabilidade 
de ocorrência é de 50% para o estado cara e 50% para o estado coroa. Em outro exemplo, supondo 
que o evento de interesse seja o lançamento de um dado, serão seis os estados possíveis (dado com 
seis faces) e probabilidade de 
1
6
�
�
�
�
�
� para cada estado. Embora sejam situações simples, elas servem 
para exemplificar o conceito de modelos probabilísticos.
Para o cálculo das probabilidades, no entanto, há que considerar alguns cuidados. De pro- 
priedades gerais a distribuições mais complexas, passando pelas probabilidades condicionais, 
modelos probabilísticos tentam, o máximo possível, representar a realidade, mas, como ela é 
complexa, os modelos muitas vezes representam a realidade apenas de forma simplificada. Neste 
capítulo, serão apresentadas algumas propriedades de probabilidade e probabilidades condicionais.
4.1 Propriedades
Para a compreensão do cálculo de probabilidade, convém entender o conceito 
de experimento, pois probabilidades são calculadas apenas sobre os resultados 
possíveis desse experimento. Sweeney et al. (2014) definem experimento como 
um processo que gera resultados bem definidos e, em uma única repetição do 
experimento, acontecerá um, e somente um, dos resultados experimentais possíveis. 
Por exemplo, se lançar uma moeda for nosso experimento de interesse, resultados 
experimentais possíveis são cara ou coroa. Ao lançar a moeda uma vez, o resultado 
será apenas um, e somente um, estado (podendo ser cara ou coroa).
Para cada experimento, é definido o espaço amostral (Ω), que é o conjunto 
de todos os possíveis resultados do experimento. Qualquer subconjunto de interesse 
do espaço amostral é chamado de evento. Como exemplo, suponha o lançamento 
de um dado de seis faces: o espaço amostral é formado por Ω = {1, 2, 3, 4, 5, 6}. 
Nesse exemplo, o evento de interesse pode ser: (a) obter face 2 no lançamento; ou 
(b) obter alguma face ímpar no lançamento.
Associando os conceitos, se a probabilidade é uma medida numérica 
da possibilidade de um evento acontecer, é de bom tom pressupor que essa 
conta leva em consideração o evento de interesse quando confrontado com o 
espaço amostral. No exemplo anterior, obter face 2 é uma ocorrência dentre seis 
possibilidades, portanto, a probabilidade de esse evento acontecer será uma em 
seis ou 
1
6
�
�
�
�
�
�. Da mesma feita, para a probabilidade de obter alguma face ímpar, são 
três ocorrências (1, 3 ou 5) dentre seis possibilidades e, portanto, a probabilidade 
desse evento será três em seis ou 3
6
.
Para formalizar os conceitos, suponha que se pretenda descrever as 
frequências de ocorrência das faces de uma moeda (cara ou coroa). Para tal, 
um possível procedimento a adotar é lançar a moeda certo número de vezes, 
Vídeo
Noções de probabilidade 61
n, e depois contar o número ni de vezes em que ocorre a face i, sendo i = cara ou coroa. As 
proporções n
n
i determinam a distribuição de frequências do experimento realizado.
É de pressupor que só podem ocorrer duas faces (cara ou coroa) e também que a moeda 
seja perfeitamente equilibrada, de modo a não favorecer alguma face em particular (esse não 
favorecimento também se chama moeda honesta ou não enviesada). Com essas suposições, cada 
face deve ocorrer o mesmo número de vezes quando a moeda é lançada n vezes, e, portanto, supõe-
se que a proporção de ocorrência de cada face deva ser de 1
2
. A Tabela 1, a seguir, apresenta a 
frequência teórica do lançamento de uma moeda.
Tabela 1 – Frequência teórica do lançamento de uma moeda
Cara Coroa Total
Frequência teórica
1
2
1
2
1
Fonte: Elaborada pelo autor.
Suponha agora que essa moeda seja lançada duas vezes (portanto, o experimento consiste 
em lançar a moeda duas vezes). Perceba que o espaço amostral será este: Ω = {(cara, cara), (cara, 
coroa), (coroa, cara), (coroa, coroa)}. Cada resultado experimental tem probabilidade de 1
4
 de 
acontecer se a moeda for honesta.
Se o evento de interesse (A) é obter duas faces iguais nos dois lançamentos, é de supor que 
estes são os resultados experimentais que constituem o evento A = {(cara, cara), (coroa, coroa)}. 
Como a probabilidade de cada resultado experimental é de 1
4
, a probabilidade de o evento A 
acontecer pode ser assim descrita:
P(A) = P({(cara, cara), (coroa, coroa)}) = 
1
4
1
4
1
2
� �
Outra maneira útil de representar o experimento e o espaço amostral é por meio de 
árvores de possibilidades ou árvores de probabilidades. Trata-se de uma representação 
gráfica dos resultados experimentais possíveis e permite organizar o raciocínio, em especial, 
para experimentos com mais de uma etapa. Por exemplo, imagine que o experimento seja três 
lançamentos de uma moeda. Ou quatro lançamentos. Perceba que os resultados experimentais 
começam a ficar mais complicados de serem apenas idealizados. Supondo o lançamento 
da moeda três vezes, a cada lançamento, há duas possibilidades de resultado: cara ou coroa. 
Ao analisar a sequência dos três lançamentos, este deve ser o raciocínio: os resultados do segundo 
lançamento serão combinados com os resultados do primeiro. O resultado carado primeiro se 
combinará com os dois resultados do segundo, e, da mesma forma, o resultado coroa do primeiro 
se combinará com os dois resultados do segundo. Dessas combinações resultam quatro eventos 
complementares, no entanto, os resultados do terceiro lançamento serão combinados com os 
quatro resultados obtidos dos dois primeiros lançamentos, resultando agora em oito resultados 
complementares. A Figura 1, a seguir, apresenta a árvore de possibilidades do experimento 
de três lançamentos de uma moeda. O espaço amostral (S) pode ser representado assim: 
Estatística Aplicada62
S = {E1,E2,…,Ei,…,E8}. É de supor que cada resultado experimental tenha probabilidade de 
1
8
de 
acontecer, pois se trata de uma moeda honesta (LAPPONI, 2005).
Figura 1 – Resultados experimentais para três lançamentos de moeda honesta
Cara
Cara
Cara
Cara
Cara
Cara
Cara
Coroa
Coroa
Coroa
Coroa
E1
E2
E3
E4
E5
E6
E7
E8
Coroa
Coroa
Coroa
Fonte: Elaborada pelo autor.
Avançando sobre algumas propriedades de probabilidades, retomemos o conceito original 
de probabilidade: é uma medida numérica da possibilidade de um evento acontecer, representada 
por um número entre 0 e 1: 0 < P(A) < 1. Quando P(A) = 1, o evento A acontecerá com 
certeza, e, por isso, chamamos esse tipo de situação de evento certo. Em contrapartida, quando 
P(A) = 0, o evento não acontecerá, e, por isso, chamamos esse tipo de situação de evento impossível 
(BUSSAB; MORETTIN, 2014).
Outro conceito de interesse é o de evento complementar (ou complemento), que consiste 
em todos os resultados experimentais possíveis que não satisfazem o evento. Suponha, por 
exemplo, um evento A. O evento complementar de A são todos os resultados que não satisfazem A. 
Ele também pode ser chamado de complemento de A e pode ser representado por A’ ou AC. 
A Figura 2, a seguir, apresenta uma representação visual do experimento E, do evento A e do 
evento complementar A’. Está evidente que P(A) + P(A’) = 1, pois a probabilidade de acontecer 
A mais a probabilidade de não acontecer A precisa resultar na totalidade de eventos possíveis.
Figura 2 – Experimento E, evento A e evento complementar A’
E
A’
A
Fonte: Elaborada pelo autor.
Noções de probabilidade 63
Outro conceito que é comumente empregado para fins de cálculo de probabilidade é o de 
evento composto. Trata-se de qualquer evento que combine dois ou mais eventos simples (evento 
simples é cada resultado experimental). Por exemplo, obter face 2 no lançamento de um dado é 
um evento simples, mas obter faces ímpares (1, 3 ou 5) é uma combinação de três eventos simples, 
portanto é um evento composto.
4.1.1 A regra da adição
Suponha que, em uma faculdade fictícia, discentes (brasileiros ou estrangeiros) possam 
se matricular em esportes para cumprir com sua carga de atividades extracurriculares. Para um 
semestre, o número de matrículas está dado pela Tabela 2, a seguir.
Tabela 2 – Discentes matriculados em esportes na faculdade fictícia
Brasileiros (B) Estrangeiros (E) Total
Futebol (F) 65 35 100
Vôlei (V) 10 10 20
Judô (J) 5 15 20
Xadrez (X) 15 5 20
Total 95 65 160
Fonte: Elaborada pelo autor.
Nesse exemplo, está evidente que a probabilidade de um estudante escolhido ao acaso ser 
brasileiro é de P (B) = 95
160
, pois são 95 estudantes brasileiros em um total de 160 estudantes. 
Por outro lado, a probabilidade de um estudante escolhido ao acaso ter escolhido vôlei como esporte 
é de P (V) = 20
160
, pois são 20 estudantes que escolheram vôlei em um total de 160 estudantes.
Por sua vez, para saber quantos estudantes são brasileiros ou escolheram vôlei 
(a nomenclatura é esta: P (B ∪ V), com ∪ sendo o sinal de união), não se pode apenas somar as 
probabilidades de ser brasileiro e de ter escolhido vôlei, pois, se assim procedêssemos, estudantes 
brasileiros e que escolheram vôlei contariam duplamente: uma vez por serem brasileiros e outra 
vez por terem escolhido vôlei. Dessa forma, estudantes brasileiros e que escolheram vôlei devem 
ser contabilizados apenas uma vez para fins do cálculo da probabilidade.
A probabilidade, então, de escolher estudantes brasileiros ou que escolheram vôlei pode ser 
assim representada:
P (B ∪ V) = P (B) + P (V) – P (B ∩V) = 
95
160
20
160
10
160
105
160
� � �
A nomenclatura de P (B ∩ V), com ∩ sendo o sinal de intersecção, significa estudantes 
brasileiros e que escolheram vôlei. Portanto, são dez os estudantes que se encaixam nessa descrição.
A regra da adição pode ser assim descrita, considerando eventos A e B:
P (A ∪ B) = P (A) + P (B) – P (A ∩ B)
ou
P (A ou B) = P (A) + P (B) – P (A e B)
Estatística Aplicada64
Está evidente que, para eventos mutuamente excludentes, não haverá intersecção e, portanto, 
P (A ∩ B) = 0.
4.1.2 A regra do produto
Caso dois eventos, A e B, sejam independentes e de um mesmo espaço amostral, então, a 
probabilidade de acontecer A e B é dada por P (A ∩ B) = P (A) × P (B). Lê-se: probabilidade de 
A multiplicada pela probabilidade de B. Por exemplo, qual é a probabilidade de se obter (cara, 
cara) em dois lançamentos de uma moeda? Supondo que cada lançamento seja independente 
do outro lançamento e que a moeda seja honesta, a probabilidade de se obter cara no primeiro 
lançamento é de 1
2
. Da mesma forma, obter cara no segundo lançamento é, também, de 1
2
. Assim, 
a probabilidade de se obter (cara, cara) é dada por:
P (cara, cara) = P (cara, 1º lançamento) × P (cara, 2º lançamento) 1
2
1
2
1
4
� �
Em outro exemplo, suponha que uma atividade possa ser feita em duas etapas: a primeira 
pode ser executada de p maneiras diferentes e a segunda pode ser executada de q maneiras 
diferentes, então as duas podem ser realizadas simultaneamente de pq maneiras diferentes. Bussab 
e Morettin (2014) chamam essa situação de princípio multiplicativo. O princípio multiplicativo 
é particularmente útil quando o experimento que está sendo considerado é composto por duas 
ou mais etapas, ainda que elas sejam múltiplas repetições, como no caso do lançamento de uma 
moeda duas ou mais vezes. O princípio multiplicativo será abordado com mais detalhes à frente 
neste capítulo.
4.2 Probabilidade condicional
As situações apresentadas anteriormente podem ser consideradas 
probabilidades incondicionais, pois as únicas condições estabelecidas referem-se 
ao próprio experimento (e não à condição dos eventos). No entanto, em alguns 
casos, interessa rever a probabilidade de um evento, pois há informações adicionais 
que podem afetar severamente o resultado. Isso acontece, por exemplo, quando 
se sabe que o experimento tem uma ordenação de eventos para acontecer e esses 
eventos não são independentes. Quando os eventos carregam alguma dependência 
entre si, estaremos diante de experimentos cujas probabilidades são condicionais 
(LAPPONI, 2005).
Suponha que um evento B dependa da realização do evento A: a 
probabilidade condicional de A dado que B aconteceu é assim referida: P (A|B). 
Lê-se: probabilidade de A dado B. Para seu cálculo, pode-se usar:
P A B
P A B
P B
P B| ,� � � �� �� � � �
� 0
De volta à Tabela 2, suponha que um estudante seja selecionado ao acaso e 
tenha escolhido judô como esporte. Qual é a probabilidade de que esse estudante 
Vídeo
Noções de probabilidade 65
seja estrangeiro? Perceba que, nesse caso, já se tem a informação de que o estudante escolheu judô, 
portanto é possível nomear essa situação desta forma:
P E J
P E J
P J
| %� � � �� �� �
� � � �
15
160
20
160
15
20
3
4
75
P (E ∩ J) = estudantes estrangeiros e que escolheram judô = 15
160
P (J) = estudantes que escolheram judô = 20
160
Consideremos ainda o mesmo exemplo oriundo da Tabela 2: estudantes estrangeiros que 
escolheram judô. Para entender o efeito condicional, se inspecionássemos apenas P (E), ou a 
probabilidade de o estudante ser estrangeiro (sem a condição do judô), essa probabilidade seria de: 
P (E) = 65
160
 = 40,63%. Pode-se afirmar, então, que P(E) é a probabilidade a priori de E e, com a 
informaçãoadicional de que J aconteceu, obtém-se a probabilidade a posteriori P (E|J). Vale notar 
que, nesse caso, P (E|J) > P (E); portanto, a informação de que J aconteceu aumentou a chance de 
E acontecer (BUSSAB; MORETTIN, 2014).
4.2.1 A teoria da confiabilidade
Para Bussab e Morettin (2014), um uso particular das probabilidades é para calcular 
probabilidades de funcionamento (em contraposição de falha) de sistemas e seus componentes, por 
exemplo, sistemas mecânicos (um automóvel), sistemas eletrônicos (um computador) ou sistemas 
biológicos (um corpo humano). O objetivo da teoria da confiabilidade é estudar as relações entre 
o funcionamento dos componentes e, assim, do sistema como um todo. A Figura 3, a seguir, 
representa dois tipos mais usuais de sistemas. Em (a), está representado um sistema em série e, em 
(b), está representado um sistema em paralelo, supondo, em ambos os casos, que os componentes 
funcionem de forma independente.
Figura 3 – Teoria da confiabilidade: (a) sistema em série e (b) sistema em paralelo
1
1
2
2
(a)
(b)
Fonte: Elaborada pelo autor.
F é o evento de o sistema funcionar e Ai é o evento de o componente i funcionar. 
O sistema da Figura 3a funcionará se os componentes 1 e 2 funcionarem simultaneamente. Se um 
dos componentes falhar, o sistema também irá falhar. Supondo que os componentes funcionem 
Estatística Aplicada66
independentemente, e se pi for a probabilidade de o componente i (i = 1,2) funcionar, então, a 
probabilidade de o sistema funcionar será:
P (F) = P (A1 ∩ A2) = P (A1) × P (A2) = p1 p2,
Se os componentes 1 e 2 estiverem em paralelo, como na Figura 3b, então o sistema funcionará 
se pelo menos um dos dois componentes funcionar. Essa situação pode ser assim representada:
P (F) = P (A1 ∪ A2) = P (A1) + P (A2) – P (A1 ∩ A2) = p1 + p2 – p1p2
Para fixar os conceitos, vamos analisar agora o caso apresentado na Figura 4, a seguir.
Figura 4 – Teoria da confiabilidade: exemplo de sistema
1
3
2
4
Fonte: Elaborada pelo autor.
Suponha que todos os componentes do sistema da Figura 4 tenham a mesma confiabi- 
lidade p e funcionem de forma independente. Qual é a confiabilidade do sistema? (BUSSAB; 
MORETTIN, 2014).
Primeiramente, procedemos com a resolução de um sistema equivalente à parte de 1 e 2. 
Como os componentes 1 e 2 estão em série e cada qual tem confiabilidade p, o sistema equivalente 
tem confiabilidade de p × p = p2.
Da mesma feita, também é possível calcular um sistema equivalente à parte de 3 e 4. 
Igualmente, como os componentes 3 e 4 também estão em série e cada um tem confiabilidade p, o 
sistema equivalente tem confiabilidade de p × p = p2.
Assim, com as simplificações adotadas, obtém-se um sistema equivalente ao apresentado na 
Figura 5, a seguir.
Figura 5 – Teoria da confiabilidade: exemplo de sistema (cont.)
p2
p2Fonte: Elaborada pelo autor.
Noções de probabilidade 67
Resulta que, agora, estamos diante de um sistema em paralelo com cada componente sendo 
equivalente à confiabilidade de p2. Da fórmula de sistema em paralelo, temos: P (F) = p2 + p2 – (p2 × p2). 
Simplificando, P (F) = 2p2 – p4. E, por fim, obtém-se:
P (F) = p2(2 – p2)
4.3 Teorema de Bayes
Para classificar participantes de um curso, uma faculdade fictícia aplica 
uma prova escrita, e, a partir da nota obtida nessa avaliação, os participantes são 
classificados em: 20% nota A, 50% nota B e 30% nota C. No entanto, uma consultoria 
externa sugeriu que, no lugar da prova escrita (para evitar a impressão dos testes), 
apenas uma entrevista poderia ser conduzida, sem perder qualidade na avaliação. 
No processo de transição dos métodos, neste semestre, antes de realizarem a prova 
escrita, os participantes passaram pela entrevista e receberam um parecer: passou 
(P) ou não passou (PC). Após a realização da prova escrita, os resultados obtidos 
foram:
P (P|A) = 0,80 (probabilidade de passar na entrevista, sendo que obteve nota 
A na prova escrita)
P (P|B) = 0,50 (probabilidade de passar na entrevista, sendo que obteve nota B 
na prova escrita)
P (P|C) = 0,20 (probabilidade de passar na entrevista, sendo que obteve nota 
C na prova escrita)
Receoso de que o novo método possa ser injusto, o diretor da faculdade 
fictícia questiona: qual é a probabilidade de o participante que passou na entrevista 
ter obtido nota C na prova escrita?
Outra maneira de ler a pergunta é: qual é a probabilidade de o participante 
ter obtido nota C, dado que ele passou na entrevista? Ou:
P (C|P)
P (C) = probabilidade de nota C
P (P) = probabilidade de passar na entrevista
Trata-se de uma probabilidade condicional. Para ajudar a resolver esse tipo 
de situação, pode-se recorrer ao Teorema de Bayes, que descreve a probabilidade de 
um evento com base em um conhecimento a priori tendo em vista novas evidências 
para obter probabilidades a posteriori.
Supondo os eventos A e B, Bayes enuncia assim a probabilidade de que 
aconteça A, dado que já aconteceu B:
P A|B
A B
P B
P A P B|A
P B
� � � �� �� �
�
� �� � �
� �
Vídeo
Estatística Aplicada68
P (A|B) = probabilidade de acontecer A, dado que já aconteceu B
P (A) = probabilidade de acontecer A
P (B|A) = probabilidade de acontecer B, dado que já aconteceu A
P (B) = probabilidade de acontecer B
De volta ao exemplo do curso fictício, o diretor da faculdade fictícia quer conhecer P (C|P). 
Por meio do enunciado de Bayes, esse cálculo pode assim ser expresso:
P C|P
C P
P P
P C P P|C
P P
� � � �� �� �
�
� �� � �
� �
P (C) = 0,30 (do enunciado, 30% são classificados como nota C)
P (P|C) = 0,20 (do enunciado, 20% passam na entrevista, sendo que obtiveram nota C)
A probabilidade de um participante passar na entrevista, P(P), pode ser calculada por meio 
de uma árvore de probabilidades, como a apresentada na Figura 6, a seguir. A, B e C são as notas na 
prova escrita. P significa a aprovação na entrevista e PC significa reprovação na entrevista.
Figura 6 – Árvore de probabilidades do curso fictício
0,20
0,50
0,30
0,80
0,20
0,50
0,50
0,20
0,80
A
P
P
P
Pc
Pc
Pc
B
C
Fonte: Elaborada pelo autor.
A partir da árvore de probabilidades, são calculadas as probabilidades de cada resultado 
experimental possível. Para esse fim, a regra do produto é adotada, e os cálculos são apresentados 
na Tabela 3, a seguir.
Tabela 3 – Probabilidades do curso fictício
Resultados Probabilidades
AP (0,20) × (0,80) = 0,16 = 16%
APC (0,20) × (0,20) = 0,04 = 4%
BP (0,50) × (0,50) = 0,25 = 25%
BPC (0,50) × (0,50) = 0,25 = 25%
CP (0,30) × (0,20) = 0,06 = 6%
CPC (0,30) × (0,80) = 0,24 = 24%
Fonte: Elaborada pelo autor.
Noções de probabilidade 69
Com os resultados da Tabela 3, fica mais fácil entender como calcular P (P), a probabilidade 
de passar na entrevista. Nesse caso, usando a regra da adição, P (P) resulta em:
P (P) = P (AP) + P (BP) + P (CP) = 0,16 + 0,25 + 0,06 = 0,47
Com o cálculo de P (P), agora temos condições de calcular P (C|P) para o diretor da faculdade 
fictícia, por meio do enunciado de Bayes:
P C|P
C P
P P
P C P P|C
P P
� � � �� �� �
�
� �� � �
� �
�
�
� �
0 30 0 06
0 47
0 1276 12 7, ,
,
, , 66%
Pelo resultado, apenas 12,76% dos participantes que passam pela entrevista receberam nota 
C na prova escrita. Com procedimento similar, é possível calcular também P (A|P) = 34,04% e 
P (B|P) = 53,20%. Esses resultados podem fornecer subsídios para ajudar na decisão de substituir 
a prova escrita pela entrevista.
Para fixar os conceitos do Teorema de Bayes, considere agora esta situação: um teste 
antidoping para atletas tem taxa de 5% de falso positivo (resulta em positivo quando deveria 
resultar em negativo) e taxa de 10% de falso negativo (resulta em negativo quando deveria resultar 
em positivo). Dos atletas testados, 4% têm feito, de fato, uso da droga proibida. Se um atleta testa 
positivo, qual é a probabilidade de que ele realmente tenha usado a droga?
Para proceder com a solução da situação apresentada, será necessário identificar e descrever 
os resultados experimentais possíveis.Para esse fim, a Figura 7 apresenta a árvore de possibilidades 
desse experimento.
Figura 7 – Árvore de possibilidades para teste antidoping
0,04 Droga
0,96 Não droga
0,9
0,1
0,05
0,95
Positivo
Positivo
Negativo
Negativo
Fonte: Elaborada pelo autor.
O que queremos descobrir é: P(Droga|Positivo). Perceba que:
P Droga
P Positivo
P Positivo
� � �
� � � � � � �
0 04
0 04 0 9 0 96 0 05 0 084
,
, , , , ,
||
|
|
Droga
P Droga Positivo
P Droga P Positivo Droga
P
� � �
� � � � �� � �
0 9,
PPositivo� �
�
�
�
0 04 0 9
0 084
0 4285, ,
,
,
Estatística Aplicada70
A probabilidade, portanto, de que o atleta realmente tenha usado a droga proibida é 
de 42,85%.
Considerações finais
Os modelos probabilísticos levam em consideração o fenômeno de interesse, também 
chamado de experimento. A correta definição do experimento é crítica para o cálculo de 
probabilidades. Por exemplo, a probabilidade de retirar duas bolas brancas de uma caixa com dez 
bolas, sendo cinco brancas e cinco pretas, é diferente se o experimento determinar reposição ou 
não da primeira bola retirada.
A seguir, convém entender qual é o espaço amostral com todos os resultados experimentais 
possíveis. Após a identificação e descrição dos resultados experimentais possíveis, procede-se com 
o cálculo da probabilidade de cada resultado, consoante com o que se deseja saber. Uma maneira 
de se prosseguir com essa identificação e descrição é por meio de árvores de possibilidades ou 
árvores de probabilidades. Complementarmente, a soma e/ou o produto de probabilidades podem 
ser postos em prática, de acordo com o que se pretende. Para probabilidades condicionais, o uso do 
Teorema de Bayes é recomendável.
Nesse contexto, o cálculo de probabilidades é um excelente aliado para a tomada de decisão, 
pois a sorte, o azar, o chute, a intuição e muitos dos sentimentos subjetivos abrem lugar aos aspectos 
lógicos e racionais. Não se nega que nosso cotidiano seja envolto de muitos fenômenos que ainda 
não conseguimos explicar ou sistematizar, porém tomar decisões com base nas probabilidades, 
como afirmado anteriormente, torna as decisões um pouco menos questionáveis, pois o raciocínio 
lógico pode ser sistematizado e explicado.
Ampliando seus conhecimentos
• HARDIGREE, M. O que realmente significa haver uma chance de 50% de chuva? 
Gizmodo Brasil, São Paulo, 19 ago. 2016. Disponível em: https://gizmodo.uol.com.br/
probabilidade-de-precipitacao/. Acesso em: 26 maio 2019.
É comum escutarmos no noticiário que há “50% de chance de chover amanhã” e, 
imediatamente, imaginamos que há chance de um para dois de chover. O autor desta 
matéria desmistifica e argumenta que não é bem assim. Ele apresenta o cálculo adotado 
atualmente para se chegar aos tais “50% de chance de chover”, o que comprova que, mesmo 
para assuntos menos tangíveis, como a previsão do tempo, pode existir a racionalidade 
dos números por meio da probabilidade.
Noções de probabilidade 71
• JOSÉ, G.; PAFUMI, N. Matemático da UFMG calcula as chances de sucesso na montagem 
do álbum da Copa. UFMG: Universidade Federal de Minas Gerais, Belo Horizonte, 24 
abr. 2018. Disponível em: https://ufmg.br/comunicacao/noticias/pesquisador-da-ufmg-
calcula-probabilidades-de-figurinhas-da-copa-1. Acesso em: 26 maio 2019.
A cada edição da Copa do Mundo de futebol, renova-se a tradição de colecionar figurinhas 
para tentar completar o álbum de jogadores. E até nisso está a probabilidade. Qual é a 
chance de sucesso (completar o preenchimento do álbum)? Quanto se gasta para conseguir 
completar o álbum? No vídeo, o professor Gilcione Costa apresenta um argumento que 
vai surpreender com a conta das chances de sucesso, em reais e em número de pacotes de 
figurinhas necessários.
Atividades
1. No lançamento de dois dados, qual é a probabilidade de saírem faces iguais?
2. Uma caixa tem três bolas brancas e duas bolas pretas. Extraindo-se duas bolas, 
simultaneamente, calcule a probabilidade de serem:
a) uma de cada cor; e
b) ambas da mesma cor.
3. Em uma região remota, há a ocorrência de uma enfermidade rara e sobre a qual 
pesquisadores têm estudado. Nessa região, o número de indivíduos do gênero masculino 
pode ser considerado igual ao número de indivíduos do gênero feminino. Constatou-se que 
5% dos indivíduos do gênero masculino são acometidos por essa enfermidade, enquanto 
que, para o gênero feminino, esse número chega a apenas 0,25%. Supondo que uma pessoa 
seja selecionada ao acaso, constata-se que ela possui tal enfermidade. Nesse contexto, qual é 
a probabilidade de que ela seja do gênero feminino?
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. 
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
5
Distribuições de probabilidade
No capítulo anterior, foram apresentados conceitos e maneiras para calcular probabilidades 
de alguns tipos de fenômenos. Relembrando, probabilidade é uma medida numérica da 
possibilidade de um fenômeno acontecer e sinaliza o grau de incerteza associado a esse fenômeno 
de interesse. Os casos analisados versaram sobre probabilidades mais simples, mas também sobre 
casos de probabilidades condicionais.
Neste capítulo, avançaremos com situações de complexidade ampliada. O primeiro caso será 
a inspeção de probabilidade de variável aleatória discreta e do conceito de esperança matemática. 
Esse conceito é muito útil para o nosso dia a dia. Suponha, por exemplo, que um jogo de sorte pague 
a você R$ 10,00 caso acerte a face de um dado antes de seu lançamento. Para participar desse jogo, 
você precisa pagar R$ 3,00: será que vale a pena participar? Suponha agora que proponham 
que você precise pagar apenas R$ 1,50 para participar: e agora, vale a pena? Menos do que depender 
apenas da sorte ou da intuição, o conceito de esperança matemática ajuda a decidir se vale a pena 
ou não participar desse tipo de situação de forma racional. Há ciência por trás de uma decisão 
como essa!
Também serão discutidas probabilidades de algumas distribuições especiais. Pensemos em 
aplicações cujos fenômenos são do tipo sucesso ou insucesso: por exemplo, em vários lançamentos 
de um dado, sucesso pode significar tirar a face 2, e é possível estimar essa probabilidade de vários 
lançamentos consecutivos.
Ou ainda, suponha que exista determinada característica de interesse em uma população. 
Por exemplo, de um lote de cem peças, três estão com defeitos. Retirando-se oito peças do lote ao 
acaso, qual é a chance de que pelo menos uma peça esteja defeituosa?
Por fim, imagine uma central telefônica de atendimento ao cliente: qual é a probabilidade 
de que cheguem três chamadas nos próximos 15 minutos? Esses são alguns exemplos do nosso 
cotidiano nos quais as distribuições especiais – Bernoulli, binomial, hipergeométrica e Poisson – 
contribuem para o cálculo de probabilidades.
Neste capítulo, veremos como calcular a probabilidade de um evento ou de um conjunto de 
eventos com distribuição específica e como refinar a tomada de decisão gerencial por meio desse 
cálculo.
É comum que, em nosso dia a dia, queiramos recorrer às probabilidades para tomar decisões. 
Desde situações simples, como levar ou não o guarda-chuva dependendo da probabilidade de 
chuva para aquele dia, até situações muito mais complexas, como a decisão acerca da abertura de 
uma nova planta industrial em Recife para atender ao mercado nordestino.
Estatística Aplicada74
Esses casos mais complexos podem ser divididos em dois grupos: (1) probabilidades de 
variáveis aleatórias discretas e (2) distribuições de probabilidades específicas.
Para o caso de probabilidades de variáveis aleatórias discretas, o interesse recai em 
calcular o valor esperado para um experimento (fenômeno de interesse), com base nas 
probabilidades de ocorrênciade cada estado possível. Voltemos ao exemplo do jogo de sorte 
que pague a você R$ 10,00 caso acerte a face de um dado antes de seu lançamento. Nesse caso, 
os estados possíveis são: face 1, 2, ..., 6, com probabilidade de 1
6
�
�
�
�
�
� de acontecer cada estado. 
Supondo que esse jogo se repita várias vezes, você ganhará R$ 10,00 apenas em 1
6
�
�
�
�
�
� das vezes 
e R$ 0 em 5
6
�
�
�
�
�
� das vezes. Isso significa que, após várias repetições, esse jogo lhe renderá, na 
média: R$ 10 × 1
6
�
�
�
�
�
� = R$ 1,67. Portanto, supondo que você tenha que pagar para participar do 
jogo, qualquer valor acima de R$ 1,67 pressupõe que não valerá a pena para você, pois o valor 
esperado para você ganhar, após várias repetições, é de apenas R$ 1,67. Para valores de entrada 
menores do que R$ 1,67, objetivamente, você tem mais probabilidade de se dar bem!
Outro exemplo da aplicação das probabilidades é de eventos binários, do tipo sucesso ou 
fracasso (distribuição de Bernoulli). Esse tipo de exemplo já foi inspecionado no capítulo anterior: 
suponha que um evento de sucesso seja tirar a face 2 no lançamento de um dado. Qualquer face 
que não seja 2 implica fracasso. Para um único lançamento do dado, ficam evidentes quais são 
as probabilidades de sucesso 1
6
�
�
�
�
�
� e de fracasso 
5
6
�
�
�
�
�
�. Porém, quando esse tipo de evento se repete por 
muitas vezes (imagine mais de mil repetições), como calcular a probabilidade? Esse caso será 
inspecionado na distribuição binomial.
Outro caso de interesse é quando, em determinada população, há um atributo que acontece 
em uma parte dessa população. Voltemos ao exemplo de um lote de 100 peças, dentre as quais 
três estão sistematicamente com defeitos. É compreensível, por exemplo, que o responsável pela 
expedição queira saber, ao retirar oito peças de um lote ao acaso, qual é a probabilidade de que 
pelo menos uma peça esteja defeituosa. Esse tipo de situação é comum em área de qualidade, pois 
existe certa tolerância quanto a peças com defeito, mas, evidentemente, dentro de determinados 
parâmetros. Neste capítulo, conseguiremos calcular esse tipo de probabilidade, que será referida 
como distribuição hipergeométrica.
Por fim, também será inspecionado um caso curioso e bastante recorrente em nosso cotidiano. 
Alguns fenômenos acontecem segundo uma distribuição de probabilidade bem particular, a 
distribuição de Poisson. Essa distribuição indica a probabilidade de um (ou mais) evento(s) 
acontecer(em) em um determinado tempo ou espaço, quando esse(s) evento(s) acontece(m) de 
forma independente da última ocorrência. Suponha, por exemplo, uma fila de banco: a chegada 
do próximo cliente não depende da chegada do anterior. Saber estimar esse tipo de probabilidade 
ajuda a dimensionar o número de caixas de atendimento ao público, o que é muito útil para a 
tomada de decisão gerencial. A seguir, serão apresentados mais detalhes de todos esses casos.
Distribuições de probabilidade 75
5.1 Valor médio de variável aleatória discreta
Uma variável é considerada aleatória discreta quando os estados possíveis 
são valores dentro de um conjunto finito ou enumerável. Para os casos em que os 
estados possíveis não são valores dentro de um conjunto finito ou enumerável, a 
variável é chamada de aleatória contínua (FARIAS; LAURENCEL, 2008). Neste 
capítulo, serão inspecionadas as variáveis aleatórias discretas.
Suponha que um empresário pretenda vender computadores especiais. Esses 
computadores são formados por duas partes, hardware especial e software especial, 
as quais são compradas de fornecedores diferentes: fornecedor de hardware 
especial (H) e fornecedor de software especial (S). Tanto hardware especial quanto 
software especial podem chegar com algum tipo de defeito, mas isso somente é 
observável depois da instalação do software especial no hardware especial. No 
desenvolvimento de seu plano de negócios, o empresário quer ter uma ideia da 
viabilidade de seu empreendimento e, portanto, precisa estimar a distribuição de 
lucro por computador especial montado.
Cada componente, hardware especial ou software especial, pode ser 
classificado como: perfeito funcionamento (F), defeito corrigível (C) ou defeito 
irrecuperável (I). Cada componente, hardware especial ou software especial, 
é adquirido por R$ 5.000,00, e as probabilidade de ocorrência de F, C ou I são 
apresentadas na Tabela 1, a seguir.
Tabela 1 – Probabilidades de ocorrência dos eventos possíveis
Hardware especial (H) Software especial (S)
Perfeito funcionamento (F) 80% 70%
Defeito corrigível (C) 10% 20%
Defeito irrecuperável (I) 10% 10%
Fonte: Elaborada pelo autor.
A distribuição de eventos possíveis está representada na forma de árvore de 
probabilidades na Figura 1, a seguir.
Figura 1 – Distribuição de probabilidade de eventos possíveis
80%
10%
10%
70%
70%
70%
20%
20%
20%
10%
10%
10%
Hardware F
Hardware C
Hardware I
Software F 
Software F 
Software F 
Software C 
Software C 
Software C 
Software I 
Software I 
Software I 
Fonte: Elaborada pelo autor.
Vídeo
VERIFICAR VÍDEO 
ESTÁ LINKANDO 
PARA O VÍDEO DA 
SEÇÃO 5.5
Estatística Aplicada76
No computador especial final, se um dos componentes apresentar defeito irrecuperável 
(I), o computador especial inteiro precisa ser descartado e, nesse caso, apenas resta vendê-lo, por 
peso, como entulho. Nessa operação, consegue-se vendê-lo por R$ 5.000,00. Para o computador 
especial final com algum componente com defeito corrigível (C), será possível solicitar a 
correção ao fornecedor, mas, nesse caso, tanto o fornecedor de hardware especial quanto o de 
software especial cobram uma taxa adicional de R$ 5.000,00. O empresário pretende vender o 
computador especial por R$ 25.000,00. A Tabela 2, a seguir, apresenta a distribuição de lucro 
para cada evento possível.
Tabela 2 – Distribuição de lucro para cada evento possível
Eventos possíveis
Probabilidade de 
ocorrência
Receita Custo Lucro
P(HF SF) 80% × 70% = 56% R$ 25.000,00 R$ 10.000,00 R$ 15.000,00
P(HF SC) 80% × 20% = 16% R$ 25.000,00 R$ 15.000,00** R$ 10.000,00
P(HF SI) 80% × 10% = 8% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
P(HC SF) 10% × 70% = 7% R$ 25.000,00 R$ 15.000,00** R$ 10.000,00
P(HC SC) 10% × 20% = 2% R$ 25.000,00 R$ 20.000,00** R$ 5.000,00
P(HC SI) 10% × 10% = 1% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
P(HI SF) 10% × 70% = 7% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
P(HI SC) 10% × 20% = 2% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
P(HI SI) 10% × 10% = 1% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
* computador especial final será vendido como entulho.
** custo adicional com defeito corrigível.
Fonte: Elaborada pelo autor.
É de notar que os estados possíveis para o lucro são: R$ 15.000,00, R$ 10.000,00, R$ 5.000,00 
e R$ –5.000,00. A Tabela 3, a seguir, apresenta a distribuição de probabilidades para os estados 
possíveis do lucro dessa operação. Perceba que, nesse caso, a variável aleatória discreta é lucro.
Tabela 3 – Distribuição de probabilidades da variável aleatória discreta lucro 
Lucro (X) Probabilidade: P(x)
R$ 15.000,00 56%
R$ 10.000,00 16% + 7% = 23%
R$ 5.000,00 2%
R$ –5.000,00 8% + 1% + 7% + 2% + 1% = 19%
Total 56% + 23% + 2% + 19% = 100%
Fonte: Elaborada pelo autor.
Supondo que o empresário inicie as operações de seu negócio, é de se esperar que ele monte 
e venda muitos computadores. O valor esperado de lucro dessa operação, por computador, pode 
ser expresso por:
Valor esperado ou esperança matemática = x pi i
i
n
�
�
�
1
Distribuições de probabilidade 77
Onde:
xi = estado possível i
pi = probabilidade de ocorrência do estado i
O cálculo do valor esperado do lucro de cada computador especial vendido pode ser assim 
enunciado (valores em R$ mil):
E (x) = R$ 15 × 56% + R$ 10 × 23% + R$ 5 × 2% + (R$-5) × 19% = R$ 9,85
Esse é o conceito de valor esperado ou esperança matemática (E). Sua interpretação 
remonta ao lucro esperado para cada computador quando esse experimento se repete por muitas 
vezes. Deoutra maneira, se apenas um computador fosse montado e vendido, é evidente que 
não há como o lucro ser de R$ 9.850,00. Mas, ao longo da operação, em repetidas vendas de 
computadores especiais finais, espera-se que essa operação resulte em lucro de R$ 9.850,00 por 
computador. Matematicamente, é o cálculo da média ponderada: cada evento possível tem peso 
equivalente à sua probabilidade de ocorrência. A esperança matemática pode ser interpretada 
como o centro de gravidade da distribuição de probabilidades (FARIAS; LAURENCEL, 2008).
Assim como discutido em capítulos anteriores, a esperança matemática (E) é uma medida 
de posição e pode ser igual em dois fenômenos (lembrar conceito de média), mas é possível que 
dois fenômenos muito diferentes tenham a mesma esperança matemática, como está representado 
na Figura 2, a seguir.
Figura 2 – Fenômenos diferentes com mesma esperança matemática e dispersões diferentes
0,35
0,25
0,15
0,05
0
1 2 3 4 5 6 7 8 9
0,2
0,1
0,3
0,35
0,25
0,15
0,05
0
1 2 3 4 5 6 7 8 9
0,2
0,1
0,3
Fonte: Elaborada pelo autor.
Estatística Aplicada78
Portanto, analisar apenas a esperança matemática (E) pode levar a decisões ruins se não 
entendermos como está a heterogeneidade (oscilação, dispersão) daquele fenômeno. Nesse 
sentido, as medidas de dispersão que são comumente calculadas para esse tipo de experimento 
são: a variância e, consequentemente, o desvio padrão. Considerando que a variância é a média 
dos desvios ao quadrado, o conceito de esperança matemática (E) pode ser utilizado para calcular 
a variância e o desvio padrão de uma variável aleatória (LAPPONI, 2005).
A unidade de medida da variância é o quadrado da unidade de medida da variável aleatória 
em estudo: por exemplo, se estamos inspecionando a altura de uma equipe de basquete, a unidade 
do fenômeno será em metros (m) e a unidade da variância será em metros quadrados (m2), ou 
seja, uma unidade sem significado físico. Nesse contexto, o desvio padrão corrige essa distorção, 
ao fornecer o resultado na mesma unidade em que os dados foram originalmente disponibilizados. 
Variância e desvio padrão para a variável aleatória em estudo podem ser assim calculados:
var (x) x E x p
dp x = var x
i
i
n
i� � � ��� �� �
� � � �
�
�
1
2
Para o exemplo do empresário que vende computadores especiais, o desvio padrão pode ser 
assim representado (valores em R$ mil):
Desvio padrão = 
15 9 85 0 56 10 9 85 0 23 5 9 85 0 02 5 9 852 2 2�� � � � �� � � � �� � � � �� ����, , , , , , , ��� � �
2
0 19 7 57, $ ,R
Tomemos agora outro exemplo teórico para entender o cálculo da esperança matemática 
(E), variância e desvio padrão de variável aleatória discreta. Suponha que exista um fenômeno em 
que os valores possíveis de ocorrência sejam: –1, 0, 1 ou 3 (adimensionais), com probabilidade de 
ocorrência de 2
5
 para o valor –1 e com probabilidade de ocorrência de 1
5
 para os demais valores. 
A Tabela 4, a seguir, apresenta a distribuição de probabilidade para esse fenômeno.
Tabela 4 – Distribuição de probabilidade do fenômeno X
x –1 0 1 3
P (x)
2
5
1
5
1
5
1
5
Fonte: Elaborada pelo autor.
Aproveite esse exemplo mais simples para confirmar se você entendeu os cálculos do valor 
esperado ou esperança matemática (E), variância e desvio padrão. Faça uma pausa na leitura e 
tente calculá-los.
Distribuições de probabilidade 79
Acompanhe os cálculos do valor esperado ou esperança matemática (E):
E x� � � �� �� � � � � � � � �� �� � �1 2
5
0 1
5
1 1
5
3 1
5
0 4 0 2 0 6 0 4, , , ,
E, agora, da variância e do desvio padrão:
var = [(–1) –0,4]2 × 0,4 + (0 – 0,4)2 × 0,2 + (1– 0,4)2 × 0,2 + (3 – 0,4)2 × 0,2 = 
0,784 + 0,032 + 0,072 + 1,352 = 2,24
dp = DP = =2 24 1 50, ,
Há algumas propriedades do valor médio ou esperança matemática que podem ser de 
interesse. Medeiros (2012) enuncia que:
1. A média de uma constante é a própria constante:
E (k) = k
2. Multiplicando-se uma variável aleatória x por uma constante k, seu valor esperado fica 
multiplicado por essa constante:
E (kx) = kE (x)
3. A média da soma ou da diferença de duas variáveis aleatórias é, respectivamente, a soma 
ou diferença das médias:
E (x ± y) = E (x) ± E (y)
4. A variância da soma ou da diferença de duas variáveis aleatórias é, respectivamente, a 
soma ou diferença das variâncias:
var (x ± y) = var (x) ± var (y)
Para entendermos a aplicação, considere este exemplo: o peso médio de um grupo de 
homens é de 82 kg e o desvio padrão é de 9 kg (portanto, a variância é de 81 kg2). Em outro grupo, 
de mulheres, o peso médio é de 63,5 kg e o desvio padrão é de 6,8 kg (portanto, a variância é de 
46,24 kg2). Se escolhermos um homem e uma mulher de seus respectivos grupos, qual será o valor 
médio, a variância e o desvio padrão do peso da dupla?
E (h + m) = E (h) + E (m) = 82 + 63,5 = 145,5 kg
var (h + m) = var (h) + var (m) = 81 + 46,24 = 127,24 kg2
dpDP h+m kg� � � �127 24 11 28, ,
De maneira geral, o que se percebe é que o cálculo de probabilidades para a variável 
aleatória discreta passa pela descrição (quando ela não é diretamente fornecida) da distribuição de 
frequência dos eventos possíveis. Esperança matemática, variância e desvio padrão podem, então, 
ser calculados. A seguir, serão apresentadas outras distribuições de probabilidades.
Estatística Aplicada80
5.2 Distribuição de Bernoulli
Eventos com distribuição de Bernoulli são tais que os resultados apresentam 
ou não uma determinada característica de interesse. Quando o resultado é a 
característica de interesse, afirmamos que se trata de um sucesso, e, do contrário, 
será um fracasso.
Muitas situações do nosso cotidiano podem ser entendidas como eventos 
com distribuição de Bernoulli, a depender de como são estabelecidas as condições 
de interpretação. Bussab e Morettin (2014, p. 146) apresentam exemplos de como 
se podem estabelecer tais condições de interpretação:
• Uma moeda é lançada: o resultado ou é cara, ou não (ocorrendo, então, 
coroa); portanto cara é sucesso;
• Um dado é lançado: ou ocorre face 5 ou não (ocorrendo, então, uma das 
faces 1, 2, 3, 4 ou 6); portanto face 5 é sucesso;
• Uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça 
é defeituosa ou não; portanto ter defeito é sucesso (por mais estranho que 
pareça!);
• Uma pessoa escolhida ao acaso dentre mil é ou não do gênero masculino; 
portanto masculino é sucesso; ou
• Uma pessoa é escolhida ao acaso dentre os moradores de uma cidade e 
verifica-se se ela é favorável ou não a um projeto municipal; portanto ser 
favorável é sucesso.
É de notar, dessa forma, que sucesso não significa que algum resultado seja 
melhor ou pior, mas apenas o resultado de interesse para o cálculo da probabilidade. 
No exemplo 3, como o interesse é calcular a probabilidade de ocorrência de peças 
defeituosas, define-se que ter defeito é o sucesso. Na mesma linha de raciocínio, no 
exemplo 5, como o interesse é calcular a probabilidade de se escolher um homem 
que seja favorável a um projeto municipal, define-se que ser do gênero masculino 
é o sucesso. É evidente que não há nessa escolha nenhum caráter de discriminação, 
apenas o interesse na probabilidade que se queira calcular.
Em termos matemáticos, podemos definir uma variável aleatória x, que 
assume apenas dois valores: 1 para sucesso e 0 para fracasso. Se a probabilidade 
de acontecer o evento sucesso puder ser definida como p, logo, P(sucesso) = p, com 0 < 
p < 1 (lembrando que, para p = 0, será um evento impossível de acontecer, e, para 
p = 1, será uma evento certo, caso em que não faz sentido calcular a probabilidade). 
Portanto, é possível enunciar as probabilidades de sucesso e fracasso assim:
P(sucesso) = p
P(fracasso) = 1 – p
Vídeo
Distribuições de probabilidade 81
O valor esperado ou esperança matemática (E) de uma distribuição de Bernoulli pode ser 
representado desta forma:
E (x) = p
Perceba que o valor esperado é a mesma probabilidade de ocorrência do evento de interesse, 
portanto é a probabilidade desucesso.
Já a variância pode ser calculada deste modo:
var (x) x -E x p p p p pi
i
n
i� � ��� �� � � �� � �� � � �� �
�
�
1
2
2 20 1 1
= p2 (1 – p) + p (1 – p)2 = (1 – p) [p2 + p (1 – p)] = p (1 – p)
Logo:
var (X) = p (1 – p)
Experimentos com distribuição de Bernoulli são muito comuns em nosso cotidiano, porém 
uma extensão desse tipo de experimento será ainda mais útil, como veremos a seguir.
5.3 Distribuição binomial
A distribuição binomial pode ser entendida como extensão da distribuição 
de Bernoulli. Quando um experimento de Bernoulli (resultado do experimento 
pode ser apenas sucesso ou fracasso) é repetido n vezes e os n resultados são 
independentes, estaremos diante de um experimento com distribuição binomial. 
Sob outra perspectiva, também podemos entender a distribuição de Bernoulli 
como uma distribuição binomial quando n = 1.
Para exemplificar, retomemos o exemplo do lançamento de uma moeda 
honesta. Sabe-se que os resultados possíveis são cara ou coroa. Suponha que 
a moeda seja lançada três vezes: qual é a probabilidade de se obter duas caras 
(BUSSAB; MORETTIN, 2014)?
Relembremos que, primeiramente, precisamos definir o que será o sucesso 
desse experimento. No caso, arbitremos que P(sucesso) = P(cara) = p = 
1
2
. Portanto, 
estamos interessados na probabilidade de obter A = {SSF, SFS, FSS}, pois não 
importa a sequência em que as duas caras são obtidas, sendo S = sucesso (com 
probabilidade p) e F = fracasso (com probabilidade 1 – p):
P =P =P
P =P +P +P
SSF SFS FSS
A SSF SFS FSS
� � � �
� � � �
1
2
1
2
1
2
1
8
1
8
1
8
1
8
3
8
A Figura 3, a seguir, apresenta a árvore de distribuição de probabilidades 
desse experimento.
Vídeo
Estatística Aplicada82
Figura 3 – Árvore de distribuição de probabilidades para três lançamentos de moeda honesta
p
p
p
p
p
p
p
1 – p
1 – p
1 – p
1 – p
1 – p
1 – p
1 – p
Sucesso p3 
Sucesso
Sucesso
Sucesso
Fracasso
Fracasso
Fracasso
Sucesso p2 (1 – p) 
Sucesso p2 (1 – p) 
Sucesso p (1 – p)2 
Fracasso p2 (1 – p)
Fracasso p(1 – p)2 
Fracasso p(1 – p)2 
Fracasso (1 – p)3 
Fonte: Elaborada pelo autor.
E a Tabela 5, a seguir, apresenta a distribuição de probabilidades para cada número de 
sucesso.
Tabela 5 – Distribuição de probabilidades para número de sucessos para três lançamentos de moeda 
honesta
Número de sucessos Probabilidades p = 
1
2
0 (1– p)3 1
8
1 3p(1– p)2 3
8
2 3p2(1– p) 3
8
3 p3 1
8
Fonte: Elaborada pelo autor.
Generalizando o raciocínio, para uma sequência de n repetições de Bernoulli, a probabilidade 
de se obter x sucessos (e n – x fracassos), com x = 0, 1, 2, … , n, P(sucesso) = p e P(fracasso) = 1 – p, será 
dada por:
Px
n
x
p px n-x�
�
�
�
�
�
� �� �� �1
 
Essa condição é válida apenas se cada repetição é independente.
Distribuições de probabilidade 83
Embora não procedamos com a demonstração do cálculo do valor esperado e da variância 
de distribuições binomiais, é possível entendê-los como extensões da distribuição de Bernoulli, 
para n repetições, e podem ser assim enunciados:
E (x) = np
var (x) = np (1–p)
5.4 Distribuição hipergeométrica
O uso da distribuição hipergeométrica é adequado quando extrações 
(retiradas, seleções) são feitas, sem reposição, de uma população que está dividida 
segundo um atributo A: parte da população tem o atributo A e a outra parte não 
tem esse atributo A. Suponha que, em uma população de N indivíduos, r indivíduos 
têm o atributo A e, portanto, N – r indivíduos não têm o atributo A. Suponha ainda 
que, nessa população, n indivíduos são escolhidos ao acaso, sem reposição, e que x 
indivíduos tenham o atributo A.
A distribuição hipergeométrica pode ser entendida como uma extensão 
da distribuição binomial. A diferença repousa no fato de que, na distribuição 
hipergeométrica, os ensaios não são independentes, de modo que a probabilidade 
de sucesso se modifica a cada ensaio. Na mesma comparação, podemos considerar 
que ter o atributo A é sucesso e não ter o atributo A é fracasso. Nesse contexto, 
N
n
�
�
�
�
�
� 
significa o número de maneiras diferentes pelas quais uma amostra de tamanho n 
pode ser selecionada de uma população de tamanho N. Por sua vez, 
r
x
�
�
�
�
�
� significa o 
número de maneiras diferentes pelas quais indivíduos com o atributo A (sucesso) 
podem ser selecionados de um total de indivíduos com o atributo A (sucesso) na 
população. Por fim, 
N r
n x
�
�
�
�
�
�
�
�significa o número de maneiras diferentes pelas quais 
n – x indivíduos sem o atributo A (fracasso) podem ser selecionados de um total 
de N – r indivíduos sem o atributo A (fracasso). Assim, a probabilidade de que x 
indivíduos tenham o atributo A (sucesso) pode ser descrita como:
P
r
x
N r
n x
N
n
x �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
Onde:
N = tamanho da população
n = tamanho da amostra
r = indivíduos na população com o atributo A (sucesso)
x = indivíduos na amostra com o atributo A (sucesso)
Vídeo
Estatística Aplicada84
No entanto, são válidos valores de x apenas quando o número de sucessos observados for 
menor ou igual ao número de sucessos na população (x ≤ r) e quando o número de fracassos 
observados for menor ou igual ao número de fracassos na população (n – x ≤ N – r).
A média e a variância de uma distribuição hipergeométrica são calculadas assim:
E (x) = n r
N
var (x) = n
r
N
r
N
N n
N
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�1 1
Para entendermos sua aplicação, suponha que, em uma dada pesquisa, os participantes 
foram solicitados a responder qual é seu esporte de preferência. Os dois mais votados foram futebol 
e vôlei. Em um grupo com dez entrevistados, sete preferem futebol e três preferem vôlei. Desse 
grupo, se tomarmos uma amostra com três pessoas, qual é a probabilidade de exatamente duas 
preferirem futebol?
A probabilidade de exatamente dois indivíduos preferirem futebol é exatamente a mesma 
probabilidade de um indivíduo preferir vôlei, mas o cálculo fica simplificado quando x = 1. 
Portanto, vamos estabelecer como sucesso o indivíduo preferir vôlei.
Na população de N = 10 indivíduos, r = 3 preferem vôlei (sucesso). Na amostra de x = 3 
indivíduos, queremos x = 1 indivíduo que prefere vôlei. A Figura 4, a seguir, representa essa situação.
Figura 4 – População e amostra para preferência esportiva, com um indivíduo que prefere vôlei na 
amostra
3 1
7 2
N = 10 n = 3
Fonte: Elaborada pelo autor.
Portanto, o cálculo de exatamente um indivíduo preferir vôlei pode ser calculado por:
P1
3
1
7
2
10
3
3
2 1
7
5 2
10
7 3
21
40
0�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
!
! !
!
! !
!
! !
,5525 52 5� , %
Ainda no mesmo exemplo, qual é a probabilidade de a maioria (dois ou três indivíduos) da 
amostra preferir futebol?
Distribuições de probabilidade 85
Da mesma feita, a probabilidade de dois ou três indivíduos preferirem futebol é a mesma 
de um ou nenhum preferir vôlei. Como já calculamos a probabilidade de que na amostra tenhamos 
um indivíduo que prefira vôlei, falta calcularmos a probabilidade de nenhum indivíduo preferir 
vôlei. Essa situação é representada na Figura 5, a seguir.
Figura 5 – População e amostra para preferência esportiva, com nenhum indivíduo que prefere vôlei 
na amostra.
3 0
7 3
N = 10 n = 3
Fonte: Elaborada pelo autor.
O cálculo é dado por:
P0
3
0
7
3
10
3
3
3 0
7
4 3
10
7 3
35
120
0�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
!
! !
!
! !
!
! !
,, , %2917 29 17�
Portanto, a probabilidade de a maioria (dois ou três indivíduos) da amostra preferir futebol 
é a mesma de apenas um indivíduo ou nenhum indivíduo preferir vôlei. Como a probabilidade 
de um indivíduo preferir vôlei é de 52,5% e a de nenhum indivíduo preferir vôlei é de 29,17%, a 
probabilidade de um ou nenhum indivíduo preferir vôlei é de: 52,5% + 29,17% = 81,67%.
5.5 Distribuição de Poisson
A distribuição de Poisson é uma distribuição de probabilidade discreta 
comumente aplicada a muitos casos práticosem que se queira calcular o número 
de ocorrências ao longo de um intervalo de tempo ou de determinado ambiente 
físico (chamado também de área de oportunidade). Por exemplo, podemos querer 
saber a probabilidade de chegar um carro em um lava-rápido em uma hora, ou o 
número de reparos necessários em 16 quilômetros de uma rodovia, ou o número de 
vazamentos em 160 quilômetros de tubulação (SWEENEY et al., 2014).
Para que uma distribuição seja considerada de Poisson, o experimento deve 
ter estas duas características:
• a probabilidade de uma ocorrência é a mesma para quaisquer dois 
intervalos de igual comprimento (a probabilidade de chegar um cliente ao 
banco das 10h às 10h30 e das 10h30 às 11h é a mesma); e
Vídeo
Estatística Aplicada86
• a ocorrência ou não ocorrência em qualquer intervalo é independente da ocorrência ou 
não ocorrência em qualquer outro intervalo (a chegada de um cliente ao banco independe 
da chegada de outro cliente a esse mesmo banco).
A distribuição de Poisson é caracterizada apenas pelo parâmetro λ (lê-se: lambda), que 
significa o valor esperado ou esperança matemática (E) de ocorrências (pensemos em casos de 
sucesso) em um intervalo de tempo ou de determinado ambiente físico. Assim, a probabilidade de 
x ocorrências em um intervalo é dada por:
P = � e
x!x
x -�
Onde:
x = número de ocorrências em um intervalo (x ≥ 0)
λ = número esperado de ocorrências em um intervalo
e = 2,7182...
O valor esperado e a variância de uma distribuição de Poisson podem ser dados por:
E (x) = λ
var (x) = λ
Para entendermos sua aplicação, suponha que uma central de atendimento ao cliente receba 
48 chamadas por hora. Qual é a probabilidade de receberem três chamadas em um intervalo de 
cinco minutos?
Como recebem 48 chamadas em 60 minutos, por regra de três, em cinco minutos recebem 
quatro chamadas:
48 chamadas está para 60 minutos
λ chamadas está para 5 minutos
Logo, λ = 4 chamadas
A probabilidade de receberem três chamadas em cinco minutos, portanto, pode ser 
descrita assim:
P =3
3 44 2 72
3
0 1953 19 53,
!
, , %
�
� �
Nessa mesma central de atendimento ao cliente, qual é a probabilidade de receberem 
dez chamadas em 15 minutos?
Como recebem 48 chamadas em 60 minutos, por regra de três, em 15 minutos recebem 
quatro chamadas:
48 chamadas está para 60 minutos
λ chamadas está para 15 minutos
Logo, λ = 12 chamadas
Distribuições de probabilidade 87
A probabilidade de receberem 10 chamadas em 15 minutos, portanto, pode ser descrita 
assim:
P =10
10 1212 2 72
10
0 1048 10 48,
!
, , %
�
� �
As distribuições de probabilidade específicas, como binomial, hipergeométrica e Poisson, 
permitem entender e calcular probabilidades para muitas situações do nosso cotidiano, 
possibilitando decisões mais qualificadas.
Considerações finais
O uso de probabilidades de variáveis discretas pode ser considerado comum em nosso dia a 
dia e auxilia a tomada de decisão em situações que requeiram racionalização desse processo.
Os casos analisados neste capítulo incluem distribuições de variáveis aleatórias discretas, 
das mais simples às mais complexas, como são os casos de distribuições de Bernoulli, binomiais, 
hipergeométricas e de Poisson.
Para as distribuições de variáveis aleatórias simples, os cálculos mais importantes são os de 
valor esperado ou esperança matemática, o de variância e, consequentemente, o de desvio padrão. 
Eles podem ser calculados assim:
Valor esperado ou esperança matemática = x pi i
i = 0
n
��
var (x) x E x
dp x = Var x
i
i = 0
n
i� � � ��� �� �
� � � �
�
2
p
Os resultados remontam aos conceitos de média e desvio padrão enquanto medidas 
de posição e dispersão. Além de um valor que represente o fenômeno de interesse, é importante 
saber sobre a heterogeneidade (oscilação, dispersão) desse fenômeno para conseguir tomar 
decisões melhores.
 O Quadro 1, a seguir, apresenta um resumo do cálculo das probabilidades das distribuições 
inspecionadas neste capítulo, valor esperado ou esperança matemática e variância.
Quadro 1 – Cálculo de probabilidade, valor esperado e variância de distribuições de variáveis aleatórias 
discretas.
Modelo Px Ex varx
Bernoulli px (1 – p) (1–x), x ≥ 0 p p(1 – p)
Binomial
n
x
p p , x = 0,..., nx n-x
�
�
�
�
�
� �� �� �1 np np(1 – p)
Estatística Aplicada88
Hipergeométrica*
n
x
N r
n x
N
n
a b
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �, x n r
N
n r
N
r
N
N n
N
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�1 1
Poisson � e
x!
x -�
, x ≥ 0 λ λ
* com (x ≤ r) e (n – x ≤ N – r).
Fonte: Elaborado pelo autor.
Por fim, com base na compreensão de variados casos de probabilidade, caberá ao pesquisador 
identificar como aplicar esses conceitos para tomar decisões melhores, mais racionais e lógicas e 
com embasamento estatístico.
Ampliando seus conhecimentos
• RUPRECHT, T. Fertilização in vitro: as taxas de sucesso subiram muito. Saúde, 15 fev. 
2019. Disponível em: https://saude.abril.com.br/familia/fertilizacao-in-vitro-as-taxas-de-
sucesso-subiram-muito/. Acesso em: 26 maio 2019.
Esta matéria apresenta a evolução das taxas de sucesso da fertilização in vitro da casa de 
30% para até 50% nas clínicas brasileiras, a depender dos equipamentos e da capacitação 
dos profissionais que assistem o casal. Por conta do uso de tecnologias mais inovadoras, 
um estudo mostrou que o índice de sucesso pode chegar a até 66%. Nesse contexto, 
engravidar é um típico evento de Bernoulli, conforme apresentado no capítulo.
• CLIENTES reclamam do não cumprimento da lei de tempo de espera em filas de bancos. 
2018. 1 vídeo (2 min.). Publicado pelo canal G1. Disponível em: http://g1.globo.com/pe/
petrolina-regiao/videos/t/todos-os-videos/v/clientes-reclamam-do-nao-cumprimento-
da-lei-de-tempo-de-espera-em-filas-de-bancos/7016949/. Acesso em: 26 maio 2019.
• COMO os bancos, supermercados também devem respeitar tempo máximo de espera 
na fila. 2013. 1 vídeo (4 min.). Publicado pelo canal G1. Disponível em: http://g1.globo.
com/pr/parana/videos/t/paranatv-1-edicao/v/como-os-bancos-supermecados-tambem-
devem-respeitar-tempo-maximo-de-espera-na-fila/2550767/. Acesso em: 26 maio 2019.
Os dois vídeos apresentam aquela desagradável experiência de esperar na fila. Do ponto de 
vista do cliente, aquele que precisa do serviço, é evidente o desconforto, mas, analisando 
do ponto de vista do banco ou do mercado, como estimar o número de profissionais para 
atender aos clientes que chegam? Por um lado, todos os clientes precisam ser atendidos, 
por outro, é necessário manter os custos controlados. A chegada de clientes ao banco ou 
ao mercado pode ser comparada a uma distribuição de Poisson e, assim, será possível 
estimar as probabilidades de ocorrência de eventos.
Distribuições de probabilidade 89
Atividades
1. Suponha que um amigo ofereça o seguinte jogo de sorte: 4% de chance de ganhar um prêmio 
de R$ 100,00; 0,5% de chance de ganhar um prêmio de R$ 200,00; 0,1% de chance de ganhar 
um prêmio de R$ 400,00. Ele afirma que, para participar desse jogo de sorte, você precisa 
pagar R$ 6,00. Esse jogo vale a pena?
2. O proprietário de uma fazenda afirma que 95% das jacas vendidas por ele estão maduras. 
Determine as probabilidades de que, dentre 18 jacas enviadas ao cliente...
a) todas as 18 estejam maduras.
b) ao menos 16 estejam maduras.
c) no máximo 14 estejam maduras.
Em seguida, calcule a média e a variância dessa distribuição.
3. Uma remessa de dez itens contém duas unidades com defeito e oito unidades sem defeito. 
Na inspeção de embarque, uma amostra de unidades será selecionada e testada. Se pelo 
menos uma unidade com defeito for encontrada, a remessa de dez unidades será rejeitada.
a) Se uma amostra de três itens for selecionada, qual é a probabilidade de a remessa ser 
rejeitada?
b) Se uma amostra de quatro itens for selecionada, qual é a probabilidade de a remessa ser 
rejeitada?
c) Se uma amostra de cinco itens for selecionada, qual é a probabilidade de a remessa ser 
rejeitada?
ReferênciasBUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
FARIAS, A. M. L.; LAURENCEL, L. C. Variáveis aleatórias discretas. Niterói: Universidade Federal Fluminense, 
2008. Disponível em: http://www.professores.uff.br/malbi/wp-content/uploads/sites/50/2017/08/VADiscretas.
pdf. Acesso em: 26 maio 2019.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
MEDEIROS, L. Variáveis aleatórias: esperança e variância. 25 abr. 2012. Notas de aula – Centro de Ciências 
Exatas e da Natureza. Universidade Federal da Paraíba, João Pessoa, 2012. Disponível em: http://de.ufpb.
br/~luiz/CPEI/Aula7.pdf. Acesso em: 26 maio 2019.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. 
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
6
Inferência estatística: amostragem
Nos capítulos anteriores, vimos os conceitos de estatística descritiva e de probabilidade. 
A estatística descritiva serve ao propósito de descrever um conjunto de dados e, para isso, promove o 
cálculo de medidas de posição e de dispersão. A partir de uma compreensão sobre a homogeneidade 
ou heterogeneidade de um conjunto de dados, é possível tomar decisões melhores sobre esse 
conjunto. Por sua vez, a probabilidade permite identificar a chance de ocorrência de determinado 
fenômeno de interesse. Há cálculos de probabilidade de situações consideradas simples (como o 
lançamento de uma moeda ou de um dado), de probabilidade condicional (o que inclui o Teorema 
de Bayes) e de probabilidade de variáveis aleatórias discretas (o que inclui probabilidades de 
distribuições de Bernoulli, binomial, hipergeométrica e de Poisson). Algumas variáveis aleatórias 
são chamadas de discretas, pois os estados possíveis dos resultados experimentais são conhecidos 
e formam um conjunto finito ou enumerável de números, resultados, frequentemente, de 
contagem (lembrar-se do conceito de variável quantitativa discreta – exemplo: número de filhos).
Neste capítulo, será aprofundado o conceito de variável aleatória contínua (lembrar-se do 
conceito de variável quantitativa contínua – exemplo: altura). Em geral, as variáveis aleatórias 
contínuas têm como estados possíveis valores que pertencem a um intervalo de números reais e 
que são resultados de mensuração. A partir dessa compreensão, será possível avançar para o estudo 
de modelos probabilísticos de variáveis aleatórias contínuas.
Nesse contexto, há um modelo de particular interesse, chamado de modelo normal, que 
representa variáveis aleatórias contínuas, segundo algumas premissas a serem estudadas neste 
capítulo. Este modelo permite produzir afirmações sobre uma população com base em uma 
amostra. Essa técnica de produzir afirmações sobre o todo, com base em apenas uma parte do 
todo, é conhecida como inferência estatística. Ela é muito importante, pois habilita pesquisas de 
campo de forma rápida, econômica e viável, sendo muito utilizada em nosso dia a dia. Imagine, 
por exemplo, uma pesquisa sobre intenção de votos. Se precisássemos inspecionar a intenção de 
votos da população como um todo, a cada semana, para saber como a intenção se altera, seria um 
trabalho demorado, caro e, até mesmo, inviável em algumas regiões ou ocasiões. Por outro lado, se 
conseguíssemos chegar a um resultado aproximado, inspecionando apenas parte dessa população, 
o ganho potencial seria enorme. E é nesse contexto que avançaremos com o estudo do modelo 
normal e da inferência estatística.
Ao longo deste capítulo, vamos descrever o comportamento da variável aleatória contínua 
normal, relacionar a curva normal com a inferência estatística e analisar as características de uma 
boa amostra.
Estatística Aplicada92
6.1 Variável aleatória contínua normal
Segundo Bussab e Morettin (2014, p. 168), “a principal característica de uma 
variável aleatória contínua é que, sendo resultado de uma mensuração, seu valor 
pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente 
observado”. Suponha que alguém afirme que seu peso é de 65 kg: presume-se que 
o valor declarado, porque peso é uma variável aleatória contínua, na realidade, está 
entre 64 kg e 66 kg, podendo ser 64,8 kg ou 65,1 kg. Perceba que isso difere do 
conceito de variável aleatória discreta, oportunidade em que os valores possíveis 
formam um conjunto finito ou enumerável de números, resultados, muitas vezes, 
de contagem.
Assim como no exemplo anterior, o peso das pessoas em um país pode ser 
considerado uma variável aleatória contínua. Outros exemplos incluem: altura (em 
metros) das pessoas nesse país, tempo de vida útil (em horas, minutos e segundos) 
de um equipamento eletrônico, demanda anual (em kg) de determinado produto a 
granel e inúmeros outros em que os estados (valores) possíveis da variável pertençam 
a um intervalo de números reais.
Tomemos o exemplo da altura (em metros) das pessoas em um país. Se 
tivéssemos a oportunidade de mensurar e coletar as alturas das pessoas desse país, 
após uma longa, cara e difícil jornada de pesquisa de campo, teríamos uma base de 
dados bastante completa sobre essa variável de interesse (altura das pessoas).
Suponha que seu amigo acabe de assumir a comissão técnica da seleção de 
hipismo desse país e queira saber: ao selecionar um indivíduo ao acaso nesse país, 
qual é a probabilidade de que ele tenha menos do que 1,60 m de altura? Ele afirma 
que indivíduos com baixa estatura são excelentes candidatos para essa atividade.
Para tentar ajudar seu amigo, você propõe o cálculo de medidas de posição 
e medidas de dispersão e a representação de gráficos. É evidente que esse 
procedimento é ótimo para descrever o conjunto de dados que tem em mãos, 
mas, ainda assim, não consegue responder a seu amigo qual é a probabilidade 
de que um indivíduo, escolhido ao acaso, tenha menos do que 1,60 m de altura.
Um dos gráficos, no entanto, chama sua atenção: o histograma com 
frequência relativa. Hair Junior et al. (2005, p. 53) afirmam que “o ponto de partida 
para o entendimento da natureza de qualquer variável é caracterizar a forma de 
sua distribuição [...] muitas vezes, o pesquisador pode alcançar uma perspectiva 
adequada sobre a variável por meio de um histograma”. Foram criadas classes para a 
representação e um exemplo fictício pode ser observado na Figura 1, a seguir.
Vídeo
Inferência estatística: amostragem 93
Figura 1 – Histograma com frequência relativa da altura da população em um país fictício
0%
5%
10%
15%
20%
25%
157,5 158,5 159,5 160,5 161,5 162,5 163,5 164,5 165,5 166,5 167,5 168,5 169,5 170,5 171,5
Fonte: Elaborada pelo autor.
Algumas situações merecem destaque nesse histograma. A primeira delas é que parece haver 
uma concentração de pessoas ao redor de um valor médio. No exemplo, ao redor de 1,63 m e 1,66 m, 
mas sem a necessidade de sermos exatos em relação a isso. Além disso, parece haver menor 
concentração de indivíduos nos extremos: pouquíssimas pessoas muito baixas ou muito altas.
Outra situação que merece atenção é esta: se conseguíssemos matematicamente definir 
uma função que representasse a altura das pessoas nesse país, poderia ser possível calcular a 
probabilidade de uma pessoa, ao ser escolhida ao acaso, ter menos de 1,60 m, conforme solicita seu 
amigo. Infelizmente, no entanto, não há função que consiga modelar perfeitamente esse fenômeno.
A característica de muitos indivíduos ao redor de um valor médio e poucos indivíduos nos 
extremos é muito comum em nosso cotidiano. Exemplos incluem: altura ou peso da população, 
variação percentual de ativos ao longo de alguns meses, diâmetro de esferas em uma linha de 
produção e salários pagos em uma região para determinado cargo, apenas para citar alguns.
Quando uma variável aleatória contínua apresenta as características de concentração de 
indivíduos ao redor de um valor médio e poucos indivíduos nos extremos, ela é candidata a ser 
aproximada a um caso especial de variável, que chamaremosde variável normal.
Essa aproximação à normal é conveniente, pois, sobre a variável normal, já existem muitas 
condições conhecidas e calculadas, motivo pelo qual será possível recorrer diretamente a 
essas condições e cálculos. Por outro lado, cabe ao pesquisador a ciência de aproximar um 
fenômeno que não é perfeitamente normal à variável normal. A principal limitação repousa no 
fato de que todos os resultados que serão obtidos apresentam apenas uma ordem de grandeza, ou 
seja, não são resultados precisos, mas, em muitas situações, a ordem de grandeza já é suficiente 
para a tomada de decisão.
Estatística Aplicada94
Sweeney et al. (2014) reforçam que a variável aleatória normal é a mais importante 
distribuição de probabilidade para descrever uma variável aleatória contínua, pois ela é usada 
em ampla variedade de aplicações práticas. Nessas aplicações, a distribuição normal fornece uma 
descrição dos resultados prováveis obtidos por meio de amostragem.
Uma representação gráfica da variável normal é formalmente chamada de curva normal 
ou modelo normal. Informalmente, no entanto, ela também é referida como curva no formato de 
sino, curva de Gauss ou gaussiana. Esses dois últimos nomes remontam aos estudos sobre erros de 
observações astronômicas promovidos por Carl Friedrich Gauss, nos idos dos primeiros decênios 
do século XIX. A Figura 2, a seguir, apresenta um exemplo geral de curva normal. Perceba que 
a curva normal tem formato parecido com o histograma da Figura 1, embora não sejam exata- 
mente iguais.
Figura 2 – Representação gráfica da curva normal
Fonte: Elaborada pelo autor.
Na coordenada horizontal (eixo das abscissas ou eixo x), estará representada a unidade em 
que o fenômeno é mensurado. Por exemplo, se inspecionamos a altura da população de um país, 
a coordenada horizontal é mensurada em metros. Por sua vez, na coordenada vertical (eixo das 
ordenadas ou eixo y), estará representada a frequência relativa, que é mensurada por um número 
entre 0 e 1 ou em percentual (%). Isso significa afirmar que a curva normal representa a distribuição 
de frequência da variável normal. Os exemplos a seguir ainda não serão rigorosos quanto aos eixos, 
pois enunciarão apenas características gerais de curva normal, mas esse rigor será mais destacado 
nos casos aplicados, a partir do próximo capítulo.
Muitos fenômenos podem ser aproximados para a curva normal, pois retratam concentração 
de indivíduos ao redor de um valor médio e poucos indivíduos nos extremos. No entanto, o que 
diferencia as curvas normais é a composição destes dois parâmetros: a média μ e o desvio padrão 
σ, que são previamente conhecidos ou que são calculados sobre os dados disponíveis. Nesse ponto, 
não é necessário rigor quanto aos dados disponíveis serem de uma população (ou universo) ou de 
uma amostra. Essa distinção terá sentido mais à frente neste livro. Vamos assumir, por enquanto, 
que sejam dados acerca de uma população. Um exemplo de curva normal populacional com média 
μ e desvio padrão σ está apresentado na Figura 3, a seguir.
Inferência estatística: amostragem 95
Figura 3 – Representação gráfica da curva normal populacional com média μ e desvio padrão σ
Desvio padrão σ
x
%
Média μ
Fonte: Elaborada pelo autor.
Outra característica de uma curva normal é que a média é igual à mediana e igual à moda. 
Portanto, média = moda = mediana. Para fins de simplificação, no entanto, será feita referência 
apenas à média do fenômeno. Esse valor, evidentemente, é consoante com o fenômeno e pode 
assumir valores negativos, zero ou positivos.
Mais uma característica de uma curva normal é sua simetria ao redor do valor médio. 
Simetria significa que a forma da curva à esquerda da média é uma imagem espelhada da forma 
da curva à direita da média. Os extremos (também chamados de caudas) da curva tendem ao 
infinito em ambas as direções e, teoricamente, jamais tocam a coordenada horizontal. Uma vez que 
é simétrica, a medida de assimetria da curva normal é zero.
Assim como a média, o desvio padrão também distingue fenômenos. Ele determina o quanto 
uma curva é achatada ou larga. Valores maiores de desvio padrão resultam em curvas mais largas 
e mais achatadas, o que significa maior variabilidade de dados. A Figura 4, a seguir, apresenta uma 
comparação de duas curvas normais, do fenômeno contínuo e do fenômeno tracejado. O primeiro 
tem média e desvio padrão menores, enquanto o segundo tem média e desvio padrão maiores.
Figura 4 – Representação gráfica de duas curvas normais populacionais
Fonte: Elaborada pelo autor.
Estatística Aplicada96
Por fim, as probabilidades da variável aleatória normal são dadas pela área sob a curva. 
Da propriedade fundamental da probabilidade, ao somatório das probabilidades de todos os 
eventos possíveis, tem-se o resultado de 1, o que representa 100%. Associando-se essa característica 
àquela de simetria ao redor da média, a área sob a curva à esquerda da média será de 0,5, o que 
representa que 50% das ocorrências têm mensurações inferiores à média. Seguindo o mesmo 
raciocínio, 50% das ocorrências têm mensurações superiores à média.
Retomando o exemplo de seu amigo que acaba de assumir a seleção de hipismo, ele ainda 
precisa de uma resposta para qual é a probabilidade de que um indivíduo elegido ao acaso tenha 
menos do que 1,60 m de altura. Embora já tenhamos entendido que o fenômeno da altura da 
população de um país possa ser aproximado para um fenômeno normal, ainda não temos a 
desejada resposta.
Porém, se conseguirmos definir uma função matemática para a variável aleatória normal, 
estaremos a apenas poucos passos de chegarmos à resposta. Eis que, pela genialidade de nossos 
ancestrais matemáticos, a função de densidade de probabilidade normal foi assim enunciada1:
f x e
x
1
2
2
22
Onde:
x = variável normal de interesse
μ = média do fenômeno
σ = desvio padrão do fenômeno
π = 3,14149
e = 2,71828
6.2 Função de densidade de probabilidade normal
Voltemos ao exemplo de seu amigo, que acaba de assumir a seleção de hipismo 
de seu país. A altura da população desse país pode ser aproximada a uma distribuição 
normal, pois muitos indivíduos estão próximos a um valor médio e poucos indivíduos 
estão nos extremos. A partir das características de uma curva normal e com a função 
de densidade de probabilidade normal, seria possível calcular a probabilidade de 
escolher um indivíduo ao acaso e que ele tenha menos de 1,60 m.
No entanto, convenhamos que essa é uma conta matematicamente árdua, 
pois teríamos de integrar a função de densidade de probabilidade normal de x, de 
–∞ até 1,60 m, supondo que μ e σ sejam conhecidos:
P m e
x,
0 1
2
1 60
2
2
2até 1,6
1 Atribui-se a Abraham de Moivre, matemático francês, a dedução da distribuição de probabilidade normal, em The 
Doctrine of Chances, de 1733.
Vídeo
Inferência estatística: amostragem 97
Para simplificar esse procedimento, estabeleceu-se uma distribuição de probabilidade 
normal que pudesse servir de base para todas as demais e, sobre essa distribuição, foram calculadas 
as probabilidades de todos os valores, de –∞ a ∞. Essa é a distribuição de probabilidade normal 
padrão e seu maior mérito repousa justamente na existência dessas probabilidades já calculadas.
Como característica, a distribuição de probabilidade normal padrão pressupõe que μ = 0 e 
σ = 1. A variável aleatória normal é, comumente, representada pela letra Z, em escala adimensional. 
Nesse caso, a função densidade de probabilidade normal padrão será dada por:
f Z 1 e
-z2
2
π2
Assim como para outras variáveis aleatórias contínuas, os cálculos de probabilidade com 
quaisquer distribuições normais podem ser feitos no ponto ou em intervalos. Para cálculos de 
probabilidade no ponto, basta substituir o valor desejado na função e obter a relação (Z, f (Z)). 
Para cálculos de probabilidade em intervalos, obtém-se a área sob o gráfico da função densidade de 
probabilidade. Desse modo, para encontrarmos a probabilidade de uma variávelaleatória normal 
estar dentro de um intervalo específico, é necessário calcular a área sob a curva normal ao longo 
desse intervalo. Essas áreas sob a curva normal padrão foram previamente calculadas e estão 
disponibilizadas na Tabela 1, a seguir.
Tabela 1 – Probabilidades cumulativas para a distribuição normal padrão
Corpo da tabela dá a probabilidade p, tal que p = P(0 < Z < Zc) 
Zc Z
p
0
Segunda decimal de Zc
Parte 
inteira 
e primeira 
decimal 
de Zc
0 1 2 3 4 5 6 7 8 9
Parte 
inteira e 
primeira 
decimal 
de Zc
p = 0
0,0 00000 00399 00798 01197 01595 01994 02392 02790 03188 03586 0,0
0,1 03983 04380 04776 05172 05567 05962 06356 06749 07142 07535 0,1
0,2 07926 08317 08706 09095 09483 09871 10257 10642 11026 11409 0,2
0,3 11791 12172 12552 12930 13307 13683 14058 14431 14803 15173 0,3
0,4 15542 15910 16276 16640 17003 17364 17724 18082 18439 18793 0,4
0,5 19146 19497 19847 20194 20540 20884 21226 21566 21904 22240 0,5
0,6 22575 22907 23237 23565 23891 24215 24537 24857 25175 25490 0,6
0,7 25804 26115 26424 26730 27035 27337 27637 27935 28230 28524 0,7
0,8 28814 29103 29389 29673 29955 30234 30511 30785 31057 31327 0,8
0,9 31594 31859 32121 32381 32639 32894 33147 33398 33646 33891 0,9
(Continua)
Estatística Aplicada98
Corpo da tabela dá a probabilidade p, tal que p = P(0 < Z < Zc) 
Zc Z
p
0
1,0 34134 34375 34614 34850 35083 35314 35543 35769 35993 36214 1,0
1,1 36433 36650 36864 37076 37286 37493 37698 37900 38100 38298 1,1
1,2 38493 38686 38877 39065 39251 39435 39617 39796 39973 40147 1,2
1,3 40320 40490 40658 40824 40988 41149 41309 41466 41621 41774 1,3
1,4 41924 42073 42220 42364 42507 42647 42786 42922 43056 43189 1,4
1,5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408 1,5
1,6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449 1,6
1,7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327 1,7
1,8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062 1,8
1,9 47128 47193 47257 47320 47381 47441 47500 47558 47615 47670 1,9
2,0 47725 47778 47831 47882 47932 47982 48030 48077 48124 48169 2,0
2,1 48214 48257 48300 48341 48382 48422 48461 48500 48537 48574 2,1
2,2 48610 48645 48679 48713 48745 48778 48809 48840 48870 48899 2,2
2,3 48928 48956 48983 49010 49036 49061 49086 49111 49134 49158 2,3
2,4 49180 49202 49224 49245 49266 49286 49305 49324 49343 49361 2,4
2,5 49379 49396 49413 49430 49446 49461 49477 49492 49506 49520 2,5
2,6 49534 49547 49560 49573 49585 49598 49609 49621 49632 49643 2,6
2,7 49653 49664 49674 49683 49693 49702 49711 49720 49728 49736 2,7
2,8 49744 49752 49760 49767 49774 49781 49788 49795 49801 49807 2,8
2,9 49813 49819 49825 49831 49836 49841 49846 49851 49856 49861 2,9
3,0 49865 49869 49874 49878 49882 49886 49889 49893 49897 49900 3,0
3,1 49903 49906 49910 49913 49916 49918 49921 49924 49926 49929 3,1
3,2 49931 49934 49936 49938 49940 49942 49944 49946 49948 49950 3,2
3,3 49952 49953 49955 49957 49958 49960 49961 49962 49964 49965 3,3
3,4 49966 49968 49969 49970 49971 49972 49973 49974 49975 49976 3,4
3,5 49977 49978 49978 49979 49980 49981 49981 49982 49983 49983 3,5
3,6 49984 49985 49985 49986 49986 49987 49987 49988 49988 49989 3,6
3,7 49989 49990 49990 49990 49991 49991 49992 49992 49992 49992 3,7
3,8 49993 49993 49993 49994 49994 49994 49994 49995 49995 49995 3,8
3,9 49995 49995 49996 49996 49996 49996 49996 49996 49997 49997 3,9
4,0 49997 49997 49997 49997 49997 49997 49998 49998 49998 49998 4,0
4,5 49999 50000 50000 50000 50000 50000 50000 50000 50000 50000 4,5
Fonte: Bussab; Morettin, 2014, p. 519.
Perceba que, na parte superior direita da Tabela 1, há uma representação gráfica, no formato 
de curva normal, com uma área com hachuras (mais escura) e com a letra p. Essa área significa 
Inferência estatística: amostragem 99
a probabilidade acumulada entre 0 e Zc. Em outras palavras, é a probabilidade de a variável Z 
assumir qualquer valor entre 0 e Zc ou:
P (0 ≤ Z ≤ Zc )
Uma vez definido o valor Zc de interesse (muitas vezes, esse valor é fornecido ou calculado 
no enunciado do problema em mãos), os valores no corpo da Tabela 1 fornecem a probabilidade 
desejada.
Sweeney et al. (2014) destacam que os três tipos de probabilidade usualmente solicitados a 
calcular incluem: (1) a probabilidade de que a variável aleatória normal padrão Z será menor ou 
igual a determinado valor Zc; (2) a probabilidade de que Z estará entre dois valores determinados 
Zc1 e Zc2; e (3) a probabilidade de que será maior ou igual a um valor específico Zc.
Para entender o uso da Tabela 1, suponha que queiramos calcular a probabilidade de que 
Z esteja entre 0 e 1,25 (1,25 foi arbitrado para esse exemplo); portanto Zc = 1,25. A probabilidade 
requerida, representada na Figura 5, é esta:
P (0 ≤ Z ≤ 1,25)
Figura 5 – Curva normal padrão e probabilidade P (0 ≤ Z ≤ 1,25)
z
%
0 1,25
P (0 ≤ Z ≤ 1,25)
Fonte: Elaborada pelo autor.
A primeira coluna da Tabela 1 apresenta a parte inteira e a primeira decimal de Z. Significa 
que, quando Zc = 1,25, como é o caso desse exemplo, a parte inteira e a primeira decimal equivalem 
a 1,2, portanto será escolhida a linha em que Z = 1,2. Para Zc = 1,25, a segunda decimal equivale a 
5, portanto será escolhida a coluna 5. Assim, a probabilidade desejada que corresponde a Zc = 1,25 
é o valor na Tabela 1 localizado na intersecção da linha rotulada como 1,2 (parte inteira e primeira 
decimal de Zc) e da coluna rotulada como 5 na linha superior da tabela (segunda decimal de Zc).
Para esse caso, o valor descrito na Tabela 1 é de 39435 e sua interpretação é a seguinte: 
a probabilidade de Z estar entre 0 e 1,25 é de 39,435%. A nomenclatura correta é:
P (0 ≤ Z ≤ 1,25) = 0,39435 = 39,435%
Explorando agora a propriedade de simetria, fica fácil calcular a probabilidade Z de estar 
entre –1,25 e 0: são os mesmos 39,435% que calculamos para a probabilidade de estar entre 0 e 1,25, 
pois a forma da curva à esquerda e à direita da média é a mesma. Segue conclusão:
P (–1,25 ≤ Z ≤ 0) = 0,39435 = 39,435%
Estatística Aplicada100
Seguindo a mesma linha de raciocínio, a probabilidade de Z estar entre –1,25 e 1,25 é o 
somatório das duas probabilidades que calculamos de forma isolada:
P (–1,25 ≤ Z ≤ 1,25) = P (–1,25 ≤ Z ≤ 0) + P (0 ≤ Z ≤ 1,25) = 0,39435 + 0,39435 = 0,7887 = 78,87%
Ao proceder com os cálculos para a probabilidade de a variável Z estar entre um, dois 
ou três desvios padrão, serão encontrados estes resultados: 68,3%, 95,4% e 99,7%. Esses casos 
correspondem a, respectivamente, Zc = 1,00, Zc = 2,00, e Zc = 3,00. A Figura 6, a seguir, apresenta 
essa condição.
Figura 6 – Probabilidade de a variável estar entre um, dois ou três desvios padrão.
68,3%
95,4%
99,7%
μ –3σ μ –2σ μ –1σ μ + 1σ μ + 2σ μ + 3σμ
Fonte: Elaborada pelo autor.
Em termos práticos, como a distribuição normal padrão e sua tabela de distribuição de 
probabilidades (Tabela 1) podem ajudar? Somente conseguimos nos apropriar dos benefícios dos 
valores já pré-calculados dessa tabela se conseguirmos converter informações de nosso fenômeno 
de interesse (por exemplo, altura da população) para informações da normal padrão.
Voltemos ao exemplo de seu amigo, que precisa calcular a probabilidade de que uma pessoa, 
escolhida ao acaso, tenha menos de 1,60 m de altura. Como, então, relacionar esse fenômeno de 
interesse com a curva normal padrão?
Essa relação será dada pela seguinte conversão:
Z xc
Onde:
x = valor de interesse no fenômeno
Zc = equivalente, na normal padrão, ao valor de interesse no fenômeno
μ = média populacional no fenômeno
σ = desvio padrão populacional no fenômeno
Suponha que, no exemplo de seu amigo, calculamos média e desvio padrão da altura 
populacional e obtivemos estes valores (em m): μ = 1,65 e σ = 0,04. Como afirmado anteriormente, 
Inferência estatística: amostragem 101
aproximar esse fenômeno de um comportamento normal é bem aceito. Ao procedermos com a 
conversão dessas informações para encontrar, na normal padrão, o equivalente a 1,60 m, temos:Z xc
, ,
,
1 60 1 65
0 04
1 2, 5
Portanto, 1,60 m no fenômeno normal de interesse equivale a –1,25 na normal padrão. 
Como queremos obter a probabilidade de que alguém tenha menos de 1,60 m, isso equivale a uma 
probabilidade de a variável ser menor do que –1,25, conforme área destacada na Figura 7.
Figura 7 – Curva normal padrão e probabilidade P (z ≤ –1,25)
P (Z ≤ –1,25)
–1,25 0
%
z
Fonte: Elaborada pelo autor.
Como já calculamos anteriormente a probabilidade de a variável Z estar entre –1,25 e 0, 
recuperemos esse valor:
P (–1,25 ≤ Z ≤ 0) = 0,39435 = 39,435%
No entanto, do que precisamos é da probabilidade de Z ser menor do que –1,25. É necessário 
se lembrar da propriedade de que a área sob a curva à esquerda da média será de 0,5, o que indica 
que 50% das ocorrências têm mensurações inferiores à média. Portanto, do –∞ até 0, a área tem de 
ser igual a 50%. Como a área entre –1,25 e 0 já é de 39,435%, a área desejada entre –∞ e –1,25 será 
o complemento a 50%, como segue:
P (Z ≤ –1,25) = P (–∞ ≤ Z ≤ –1,25) = 50% – 39,435% = 10,565%
É de notar que é importante saber usar as propriedades das curvas normais. Em especial, a 
propriedade de simetria para cálculo de Zc para valores negativos e a propriedade de que a área sob 
a curva é de 1 (equivalente ao 100%) para cálculo de complementos.
6.3 População e amostra
Nos capítulos anteriores, foram apresentados os conceitos de população 
(ou universo) e amostra. Para retomá-los, pensemos no objetivo da pesquisa e, 
consequentemente, nos indivíduos (objetos do estudo). Se, por exemplo, o objetivo 
da pesquisa é aumentar o desempenho de discentes em um curso de estatística, 
os indivíduos (objetos do estudo) podem incluir discentes desse curso. Com base 
nessa definição, é possível pensar em variáveis e pesquisa de campo.
Vídeo
Estatística Aplicada102
No planejamento, um cuidado especial precisa ser lançado para os conceitos de população 
e amostra. Chama-se população a totalidade de indivíduos (portanto a totalidade dos objetos de 
estudo) e chama-se amostra uma parte da população, como já estudado anteriormente.
Quando se pretende descrever determinado fenômeno da população como um todo, a 
tentativa será de conduzir um censo, porém, por razões diversas, conduzir um censo nem sempre 
será factível ou possível. Tais razões incluem, mas não se restringem a: longa duração da pesquisa, 
restrições orçamentárias ou questões de viabilidade logística ou acesso. Não é por acaso que órgãos 
governamentais de muitos países conduzem o censo apenas de tempos em tempos, a cada dez anos, 
por exemplo. Ainda assim, os resultados são considerados limitados, pois o censo não consegue 
alcançar todos os indivíduos. Se pessoas e organizações dependessem dos resultados do censo para 
agir, somente poderiam tomar decisões e ações de tempos em tempos, a cada dez anos, o que não 
faz muito sentido em um mundo cada vez mais dinâmico e com mudanças que exigem pronta 
adaptação. Por esse motivo, trabalhar com amostras pode ser uma alternativa a esse cenário.
No entanto, somente faz sentido trabalhar com amostra se houver algum mecanismo, alguma 
ferramenta que permita depreender, a partir dos dados coletados na amostra, uma conclusão sobre 
a população, sobre o todo, sobre o universo. Esse é o objetivo da inferência estatística, que permite 
produzir afirmações sobre uma população de interesse a partir de dados coletados de parte dessa 
população. A Figura 8, a seguir, apresenta essa relação entre população e amostra.
Figura 8 – Inferência estatística: a relação entre amostra e população
População
Inferência estatística
Amostra
μ
σ
p
x
s
p
Legenda:
μ = média populacional
σ = desvio padrão populacional
p = proporção populacional*
x = média amostral
s = desvio padrão amostral
p = proporção amostral*
* a serem estudados nos próximos capítulos.
Fonte: Elaborada pelo autor.
Inferência estatística: amostragem 103
Nesse contexto, a inferência estatística será apenas possível quando o fenômeno de interesse 
na população tiver ou puder ser aproximado a uma distribuição normal, daí a relação entre os 
assuntos abordados neste capítulo. Desse modo, uma premissa para podermos aplicar a inferência 
estatística é que o fenômeno de interesse seja considerado normal (variável normal) e, portanto, 
que siga uma distribuição de probabilidade regida pela curva normal (ou modelo normal).
Ora, neste ponto, estamos diante de um problema prático: se empregamos a inferência 
estatística justamente para produzir uma afirmação sobre a população (a média de altura ou a 
proporção de votos de determinado candidato, por exemplo), como saberemos se o fenômeno 
que temos em mãos pode ser considerado normal? Em fenômenos para os quais detemos algum 
histórico, é aceitável partir do pressuposto da normalidade, observando-se o passado (altura ou 
peso da população de um país, por exemplo). Porém, em novas situações, isso não será possível. 
Então, como saber se estamos diante de uma situação que pode ser aproximada à normal?
Nesse ponto, é necessário enunciar outra premissa para podermos aplicar a inferência 
estatística: a amostra a partir da qual produziremos afirmações sobre a população precisa ser 
considerada uma boa amostra, o que analisaremos a seguir.
De volta ao nosso problema, se a amostra puder ser considerada boa, significa que ela 
representa bem a população. Embora não tenhamos os dados sobre a população (e, por isso, 
queiramos produzir afirmações sobre ela), os dados da amostra estão disponíveis. Portanto, se a 
amostra puder ser considerada normal, é razoável adotar a normalidade também na população e, 
assim, a inferência estatística poderá ser aplicada.
6.4 Amostragem
Suponha que exista um grande tonel e, dentro desse tonel, haja uma sopa 
deliciosa. Essa sopa é composta por: legumes cortados, macarrão, carne, temperos 
diversos e, evidentemente, água. Se considerarmos a sopa no tonel como sendo 
nossa população, qualquer extrato dessa sopa será uma amostra, pois amostra é 
uma parte da população.
No entanto, é evidente que nem toda amostra será uma boa amostra para 
fins de pesquisa quantitativa. Imagine, por exemplo, que uma amostra dessa 
sopa considere apenas o macarrão. Alguém que pegue a amostra afirmará, com 
razão: “mas isso não é uma sopa, é uma macarronada!”. Além disso, imagine outro 
exemplo de alguém que pegue apenas uma amostra com a parte superior da água da 
sopa, aquela camada bem na parte de cima, na superfície, e afirmará: “essa sopa não 
está quente!”. Ambos estarão corretos em suas afirmações, poderão formar opiniões 
a partir dessas afirmações e, eventualmente, poderão até mesmo tomar decisões 
equivocadas a partir delas.
O processo de seleção de amostra é comumente chamado de amostragem. 
E, nesse processo, o objetivo será conseguir uma boa amostra para fins de pesquisa 
quantitativa. Há dois critérios importantes para se obter uma boa amostra: (1) 
representatividade e (2) aleatoriedade.
Vídeo
Estatística Aplicada104
O critério de representatividade significa que a amostra consegue representar bem a 
população. Voltemos ao exemplo da sopa. Suponha que nossa deliciosa sopa do tonel seja 
composta por: 15% de legumes cortados, 10% de macarrão, 12% de carne, 3% de temperos 
diversos e, portanto, 60% de água. Logo, nossa amostra representativa precisa conter esses 
mesmos percentuais. Nesse caso, perceba que uma amostra que tenha as mesmas características 
da população consegue representar melhor essa população em relação a outra amostra que tenha 
algum tipo de viés. O viés significa qualquer tendência que se distancie do comportamento 
esperado da população. No exemplo da sopa, uma amostra com 40% de legumes cortados (em 
vez dos 15% esperados) carrega um viés para legumes cortados.
Para o exemplo da sopa, é bem compreensível o critério de representatividade, pois a 
quantidade de todos os ingredientes tem soma 100% e esses ingredientes são conhecidos no início 
da amostragem. Porém consideremos um fenômeno maiscomplexo, como pesquisa de intenção 
de votos. Nesse fenômeno, já existe, de partida, uma limitação que é justamente saber quais são 
as variáveis que precisam ser consideradas para saber o comportamento da população. Para esse 
fim, é possível pensar que resultados de pesquisas anteriores possam servir como aproximações 
aceitáveis para a pesquisa atual. Assim, exemplos de variáveis aplicadas em pesquisas anteriores e 
que podem ser consideradas para descrever esse comportamento geral incluem: região geográfica, 
idade, gênero, renda, apenas para citar algumas. Quando o número de variáveis é potencialmente 
grande, uma decisão usualmente adotada é escolher apenas aquelas consideradas mais importantes 
para o fenômeno de interesse.
Outra limitação é saber, de antemão, os valores dos percentuais de cada uma delas. 
Novamente, considerar resultados de pesquisas anteriores pode ser aceitável. Exemplo: na pesquisa 
de intenção de votos, 51% dos votantes eram mulheres e 49% eram homens. Podemos adotar esses 
percentuais para mulheres e homens, mas é evidente que algum perfil (comportamento) possa 
ter-se alterado de uma pesquisa para outra. Importante que tenhamos em mente que algumas 
limitações são aceitáveis e outras são mais severas na amostragem, mas todas precisam ser descritas 
no relatório de pesquisa.
Outro critério observado em boas amostras é o de aleatoriedade. Esse critério significa que, 
dentro de determinada variável, todos os indivíduos tenham chances iguais de serem selecionados. 
No exemplo da sopa, a situação é hipotética, mas é como se precisássemos retirar 6 litros de água 
para nossa amostra e cada gota na população (suponha, de 60 litros) tivesse chance igual de ser 
retirada. Se privilegiarmos apenas a água que está na parte de cima do tonel, teríamos um viés para 
água da superfície.
Pode-se concluir que uma boa amostra é a mais próxima possível da plena representatividade 
e da plena aleatoriedade, pois a tentativa é eliminar vieses. É de ressaltar, no entanto, que 
nem sempre será possível conseguir uma amostra perfeita, pois pode haver limitações diversas em 
nossa realidade. Por exemplo, é possível ter restrição de tempo, orçamentária, logística ou mesmo 
de acesso.
Inferência estatística: amostragem 105
Suponha que o objetivo de nossa pesquisa seja descrever os fatores que diretores de grandes 
empresas consideram mais importantes na contratação de um colaborador. Esse objetivo está claro 
e bem definido. No entanto, como fazer para que os diretores das grandes empresas respondam ao 
nosso questionário? Muitos deles podem simplesmente ignorar o contato e, assim, nossa amostra 
ficará comprometida. Desse modo, considerar as limitações na amostragem é importante até 
mesmo para refinar o próprio objetivo de pesquisa, pois essas limitações apontam para factibilidade 
prática na condução da pesquisa de campo.
Embora nem sempre seja possível conseguirmos amostras perfeitamente boas, dadas 
as limitações da pesquisa de campo, é obrigação daquele que conduz a pesquisa declarar os 
procedimentos e critérios adotados e, principalmente, apresentar, o máximo possível, as tentativas 
de se chegar à representatividade e à aleatoriedade.
Considerações finais
Este capítulo avançou pela discussão acerca de variáveis aleatórias contínuas e, 
particularmente, de variáveis aleatórias contínuas normais. Estas são de particular interesse, pois 
muitos fenômenos da natureza, das ciências exatas, sociais e da saúde podem ser aproximados e 
modelados como normais.
O pressuposto das variáveis normais é que muitos indivíduos estão próximos de um valor 
médio e poucos estão nos extremos, assumindo valores muito baixos ou muitos altos para aquele 
fenômeno. Isso pode ser visualmente analisado quando a variável de interesse é representada em 
uma curva normal.
Um dos usos de curvas normais é o cálculo de probabilidades de ocorrências em situações 
do tipo: qual é a probabilidade de que um indivíduo selecionado ao acaso seja menor do que X? 
Ou que esteja entre A e B? Ou que seja maior do que Y? Considerações importantes podem ser 
depreendidas desses cálculos.
Por outro lado, é possível que uma das aplicações mais importantes da curva normal esteja na 
inferência estatística. O objetivo da inferência estatística é produzir afirmações sobre determinada 
característica da população com base apenas em parte dessa população. Para esse fim, há duas 
premissas basilares: (1) a população precisa ter comportamento normal para aquela característica; 
e (2) a amostra precisa ser considerada uma boa amostra.
Para se conseguir uma boa amostra, dois critérios precisam ser adotados: (1) representatividade 
e (2) aleatoriedade. Mesmo que a prática não permita o pleno atingimento desses critérios, é 
imprescindível tentar alcançá-los.
Os assuntos discutidos neste capítulo, sobre normalidade, população, amostra e inferência 
estatística, embora tenham sido abordados do ponto de vista mais teórico, carregam um teor 
prático. Eles precisam estar bem fixados, pois servem de base para o desenvolvimento dos conceitos 
e aplicações que serão apresentados nos temas dos próximos capítulos.
Estatística Aplicada106
Ampliando seus conhecimentos
• CARL Friedrich Gauss. In: Wikipedia. Disponível em: https://pt.wikipedia.org/wiki/Carl_
Friedrich_Gauss. Acesso em: 26 maio 2019.
Nessa breve biografia, são apresentadas as contribuições de Gauss para a matemática, 
astronomia, física e muitas ciências correlatas. A lei de Gauss da distribuição normal 
de erros e sua curva em formato de sino, que a acompanha, são familiares para quem 
trabalha com estatística. Menos pela narrativa histórica, mas, sobretudo, pelos avanços 
promovidos pelo “mais notável dos matemáticos”, a leitura é um convite a uma das mentes 
brilhantes da humanidade.
• AMOS, J. Brasileiro cresce em altura nos últimos cem anos, mas ainda é “baixinho”; 
conheça o ranking mundial. BBC News Brasil, 26 jul. 2016. Disponível em: https://www.
bbc.com/portuguese/geral-36892772. Acesso em: 26 maio 2019.
Um fenômeno em que comumente se aplica o conceito de normalidade é o de altura 
da população: muitos indivíduos ao redor de um valor médio e poucos indivíduos nos 
extremos (muito baixos ou muito altos). Essa reportagem traz resultados de pesquisas 
sinalizando que, em um século, houve aumento da altura média do brasileiro em 8,6 cm. 
Alguns fatores que explicam esse crescimento incluem: bons padrões de saúde, 
saneamento, nutrição, saúde da mãe e alimentação durante a gravidez. Embora a média 
tenha aumentado, também é necessário refletir se o desvio padrão sofreu alteração, pois 
um aumento no desvio padrão pode indicar que o aumento de altura tenha sido desigual, 
mas isso não é explicitado na reportagem.
Atividades
1. Com base nos valores de probabilidade calculados para a distribuição normal padrão, 
apresentados neste capítulo na Tabela 1 (“Probabilidades cumulativas para a distribuição 
normal padrão”), calcule:
a) P(0 ≤ Z ≤ 1,96)
b) P(–1,96 ≤ Z ≤1,96)
c) P(Z ≥ 1,28)
d) P(Z ≤ 0,34)
e) P(–0,83 ≤ Z ≤1,28)
2. Suponha que o brasileiro tenha média de altura de 1,73 m e que o desvio padrão da altura 
dessa população seja de 8 cm. Qual é a probabilidade de que um indivíduo, selecionado ao 
acaso, tenha:
a) mais do que 1,80 m?
Inferência estatística: amostragem 107
b) menos do que 1,60 m?
c) entre 1,60 m e 1,80 m?
3. Suponha que você seja solicitado pelo diretor de uma faculdade a conduzir uma pesquisa 
de satisfação com discentes dos cursos na modalidade EAD dessa faculdade. Proponha um 
método para selecionar uma amostra, pois são muitos discentes espalhados pelo país inteiro 
e não será possível colher respostas de todos. Adote as premissas que julgar oportunas. 
Sugestão: quais são critérios para uma boa amostra? Quais iniciativas você sugere tomar 
para cada uma delas?
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
HAIR JUNIOR, J. F. et al. Análise multivariada de dados. Trad. de AdonaiS. Sant’Anna; Anselmo C. Neto. 
5. ed. Porto Alegre: Bookman, 2005.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. 
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
7
Inferência estatística: estimação
No capítulo anterior, inspecionamos as variáveis aleatórias contínuas e, em particular, a 
variável normal. Fenômenos com comportamento normal são aqueles com muitos indivíduos 
ao redor de um valor médio e poucos indivíduos nos extremos. Esse comportamento é comum 
em variadas situações do nosso cotidiano, como altura e peso da população, salário pago para 
determinado cargo, variação percentual de ativos na bolsa de valores, peças produzidas em uma 
linha de produção, apenas para citar alguns exemplos.
Esses fenômenos são de particular interesse, pois são elegíveis à inferência estatística. 
A inferência estatística serve ao propósito de produzir afirmações sobre determinada característica 
(variável contínua normal) da população a partir de dados coletados de apenas parte dessa 
população (amostra). Trabalhar com amostras é conveniente, pois, diferentemente do censo, 
permite coletar dados de forma mais rápida, mais barata e operacionalmente mais fácil. Por outro 
lado, o inconveniente é que as afirmações produzidas são menos precisas do que no caso do censo.
Tomemos o exemplo da pesquisa de intenção de votos. É comum ouvirmos no noticiário: 
“com 95% de confiança, o candidato Fulano tem x% das intenções de voto, com dois pontos 
percentuais para mais ou para menos”, ou “o candidato Beltrano e a candidata Cicrana estão 
empatados na margem de erro”. Esse tipo de afirmação é produzido a partir da inspeção de uma 
amostra, mas a tentativa é entender o comportamento de toda a população. Essa é uma aplicação 
da inferência estatística, técnica de estimação que será apresentada neste capítulo a fim de ajudar a 
refinar a tomada de decisão gerencial.
7.1 Métodos quantitativos: inferência estatística
O uso da inferência estatística é comum em nosso cotidiano, mas é possível 
que a aplicação mais conhecida seja em pesquisas de intenção de votos. Até mesmo 
aqueles que acompanham pouco as questões políticas e eleitorais já ouviram na 
mídia os resultados dessas pesquisas: “margem de erro com dois pontos percentuais 
para mais ou para menos”, “empate técnico” ou “95% de confiança”, apenas para 
citar alguns exemplos.
A parte marcante desses resultados é acompanhar a progressão do candidato 
de preferência ou até mesmo tomar uma decisão de voto (o tal do “voto útil”), 
portanto os resultados dessas pesquisas podem servir de base para tomada de 
decisão.
Variadas ciências também usam a inferência estatística para, com base em 
uma amostra, produzir afirmações sobre uma população: pesquisas na área da 
saúde sobre a eficácia de um medicamento, pesquisas na área de gestão de pessoas 
sobre o clima organizacional em uma empresa, pesquisas na área do marketing 
para conhecer a percepção dos consumidores sobre o desempenho de determinado 
Vídeo
Estatística Aplicada110
produto e pesquisas na área da qualidade para aprovar ou não um lote de mercadoria para 
exportação são alguns exemplos do uso da inferência estatística.
É de ressaltar que trabalhar com amostras possibilita que pesquisas de campo sejam mais 
rápidas, baratas e operacionalmente viáveis. E uma afirmação sobre a população, com base na 
amostra, que proveja uma ordem de grandeza de valores pode ser interessante para a tomada 
de decisão. Cuidados sobre a condução de pesquisa de campo foram apresentados em capítulos 
anteriores e, caso oportuno, vale uma revisita. Cabe lembrar que apenas faz sentido usar a amostra 
para produzir uma afirmação sobre o todo quando a amostra for considerada uma boa amostra. 
Uma das premissas para a condução de inferência estatística é, pois, que a amostra utilizada para 
produzir a afirmação sobre o todo seja representativa e aleatória.
Outra premissa para a condução de inferência estatística é que a variável de interesse 
tenha comportamento normal, consoante com o que discutimos no capítulo anterior. Como 
não sabemos, em termos práticos, se a variável de interesse na população tem comportamento 
normal, é razoável considerar que uma amostra que apresente comportamento normal possa levar 
a essa conclusão. Hair Junior et al. (2005) afirmam que existem testes estatísticos específicos de 
normalidade, alguns mais simples, como inspeção de skelness (também chamado de assimetria) 
e de kurtosis (também chamado de curtose), mas há também os mais elaborados, como o teste 
Shapiro-Wilks e o Kolmogorov-Smirnov. Embora testes de normalidade não sejam objeto de 
discussão neste material, um gráfico do tipo histograma (no formato de sino) e um gráfico do 
tipo box-plot (simétrico) podem ser úteis para análise do comportamento da variável de interesse. 
Em muitos casos, essa análise visual pode ser suficiente para concluir acerca da normalidade da 
amostra e, consequentemente, da população.
Portanto, estes são os dois requisitos para condução de inferência estatística:
• amostra representativa e aleatória (o que pode ser comprovado nos procedimentos 
adotados na pesquisa de campo); e
• a variável de interesse tem comportamento normal (o que pode ser comprovado pelo 
comportamento dessa variável na amostra).
Uma vez que esses requisitos estejam garantidos, cabe decidir sobre qual técnica será aplicada 
para condução da inferência estatística. Há duas que merecem atenção: (a) técnica de estimação 
(por ponto e por intervalo de confiança) e (b) técnica de teste de hipótese.
A técnica de estimação, como o próprio nome indica, pressupõe que será estimado um 
valor para determinada característica da variável de interesse, por exemplo, a média. Suponha que 
não saibamos, mas queiramos saber, a média de altura da população de uma região. Com base 
em uma amostra representativa e aleatória de pessoas dessa região, por meio do uso da técnica de 
estimação, será possível estimar a altura de toda essa população.
A técnica de teste de hipótese, por sua vez, permite confrontar (testar) a variável de interesse 
contra um valor predeterminado. Suponha que queiramos saber se a média de altura da população 
de uma região é maior do que 1,70 m. Com base em uma amostra representativa e aleatória de 
pessoas dessa região, por meio do uso dessa técnica, será possível afirmar ou rejeitar a hipótese de 
Inferência estatística: estimação 111
que a média seja maior do que 1,70 m. A seguir, vamos analisar a técnica de estimação, por ponto 
e por intervalo.
7.2 Estimação por ponto
A estimação por ponto é, possivelmente, a técnica mais simples para estimar 
um valor para determinada característica da variável de interesse (indicadores 
estatísticos: média, desvio padrão ou proporção). Em boa medida, essa técnica 
é intuitiva: por se tratar de uma amostra representativa e aleatória, supõe-se que 
os indicadores estatísticos oriundos da amostra sejam os mesmos da população, 
mas, evidentemente, isso nem sempre é verdade: apenas como evidência, amostras 
diferentes resultam em valores diferentes para indicadores estatísticos.
Na prática, é fácil concluir que, para estimativas cujas decisões sejam críticas 
(como no caso de um médico que precise tomar uma decisão acerca da prescrição 
de um medicamento, por exemplo), a estimação por ponto não é recomendada. Por 
outro lado, situações que demandem apenas uma ordem de grandeza do valor de 
um indicador podem ser largamente exploradas por meio dessa técnica.
Avancemos com um exemplo aplicado. Suponha que estejamos fazendo 
uma pesquisa sobre a altura dos dragões-de-komodo1. Trinta indivíduos dessa 
espécie tiveram suas alturas mensuradas e os resultados aparecem na Tabela 
1, a seguir. A notação xn é utilizada para apresentar a altura dos indivíduos, 
de maneira que x1 é a altura do indivíduo 1 e assim por diante, até um total de 
n = 30 indivíduos. Na mesma tabela, também é apresentado o gênero do indivíduoanalisado.
Tabela 1 – Altura e gênero de amostra fictícia com 30 dragões-de-komodo
Altura (cm) Gênero Altura (cm) Gênero Altura (cm) Gênero
x1 = 40,09 Masculino x11 = 45,92 Masculino x21 = 45,12 Masculino
x2 = 53,26 Masculino x12 = 57,27 Feminino x22 = 51,75 Masculino
x3 = 49,64 Masculino x13 = 55,69 Masculino x23 = 54,39 Feminino
x4 = 49,89 Masculino x14 = 51,16 Feminino x24 = 50,16 Feminino
x5 = 47,62 Feminino x15 = 56,19 Feminino x25 = 52,97 Feminino
x6 = 55,92 Masculino x16 = 51,77 Masculino x26 = 50,24 Feminino
x7 = 49,09 Masculino x17 = 52,54 Feminino x27 = 52,79 Feminino
x8 = 51,40 Masculino x18 = 45,98 Masculino x28 = 50,98 Masculino
x9 = 50,96 Masculino x19 = 51,93 Masculino x29 = 55,86 Masculino
x10 = 55,11 Masculino x20 = 52,97 Masculino x30 = 54,31 Feminino
Fonte: Elaborada pelo autor.
1 Dragão-de-komodo é um lagarto, encontrado na Indonésia, que chega a atingir 3,5 m de comprimento. 
Trata-se do maior lagarto vivente (HOUAISS, 2009). Para mais informações sobre os dragões-de-
komodo, assista ao vídeo do programa Domingo Espetacular. Disponível em: https://recordtv.r7.com/
domingo-espetacular/videos/domingo-espetacular-visita-as-ilhas-que-abrigam-os-temidos-dragoes-de-
komodo-15092018. Acesso em: 26 maio 2019.
Vídeo
Estatística Aplicada112
Na técnica de estimação por ponto, procede-se com o cálculo de uma estatística amostral 
(no caso, de média amostral x – lê-se x barra – e desvio padrão amostral s) e, assumindo o mesmo 
valor, estendemos para a estatística populacional (no caso, de média populacional μ e desvio padrão 
populacional σ). Nesse exemplo, a média amostral é calculada assim:
x
x
n
cmi
n
i . ,1 1 542 97
30
51 43
E o desvio padrão amostral é calculado assim:
s
x x
n
cmi ,
2
1
414 50
29
3 7 8i
n
1
Outra estatística de uso comum é a proporção. Para estimarmos a proporção p de indivíduos 
do gênero masculino, no exemplo, procedemos com o cálculo da proporção amostral correspondente 
p ou p (lê-se: p barra ou p chapéu). Supondo que r represente o número de indivíduos que detêm 
a característica inspecionada, no caso, ser do gênero masculino, pode-se calcular a proporção 
amostral assim:
p r
n
= = =
19
30
0 63,
Os valores calculados para média amostral x , desvio padrão amostral s e proporção amostral 
p são chamados de estimadores pontuais. No caso, x é estimador pontual da média populacional 
μ, s é estimador pontual do desvio padrão populacional σ e p é estimador pontual da proporção 
populacional p.
Relembrando o contexto da inferência estatística, a Figura 1, a seguir, apresenta a relação 
entre amostra (representativa e aleatória) e população.
Figura 1 – Inferência estatística: relação entre amostra e população
População
Inferência estatística
Amostra
μ
σ
p
x
s
p
Legenda:
μ = média populacional
Inferência estatística: estimação 113
σ = desvio padrão populacional
p = proporção populacional
x = média amostral
s = desvio padrão amostral
p = proporção amostral
Fonte: Elaborada pelo autor.
Na técnica de estimação por ponto, portanto:
μ ~ x
σ ~ s
p ~ p
Lê-se: média populacional μ é aproximada pela média amostral x.
Embora apresentem uma estimativa a partir da amostra, é evidente que os valores amostrais 
podem ser diferentes daqueles reais, que poderiam ser observados na população como um todo, 
se um censo fosse conduzido. Por esse motivo, seu uso vale mais para ter uma ordem de grandeza, 
não para tomar decisões críticas.
A estimação por intervalo, por sua vez, proverá um aprofundamento que permitirá tomar 
decisão de forma mais qualificada, como veremos a seguir.
7.3 Estimação por intervalo
Como enunciado anteriormente, a estimação por ponto, a partir da amostra, 
é apenas uma aproximação de seus correspondentes na população, o que, em muitos 
casos, pode se tornar uma limitação demasiada severa. Isso é particularmente 
verdade para aqueles casos em que a decisão a ser tomada é crítica, pois um estimador 
pontual pode não produzir o valor exato de seu correspondente populacional.
A estimação por intervalo, assunto que vamos abordar a seguir, pode ser 
entendida como uma extensão da estimação por ponto. Mais do que apenas saber 
que o candidato Fulano tem 36% das intenções de voto, é interessante afirmar que 
o candidato Fulano tem 36% das intenções de voto com dois pontos percentuais 
para mais ou para menos. Esse tipo de afirmação é proferido não apenas para um 
valor supostamente exato das intenções de voto, como é o caso na estimação por 
ponto, mas por meio de um intervalo que tenha “chance grande” de conter o valor 
verdadeiro do fenômeno que está sendo estudado. Em nosso exemplo, portanto, o 
candidato tem grande chance de ter entre 34% e 38% das intenções de voto. Os tais 
dois pontos percentuais para mais ou para menos são chamados de margem de erro 
e podem ser assim representados:
Estimador populacional ~ Estimador pontual ± margem de erro
O objetivo de uma estimativa por intervalo é refinar a resposta fornecida pela 
estimativa por ponto, sinalizando o quanto o estimador por ponto está próximo do 
seu equivalente populacional.
Vídeo
Estatística Aplicada114
Dessa forma, é possível representar a média populacional assim:
μ ~ x ± Margem de erro
E a proporção populacional assim:
p ~ p ± Margem de erro
No entanto, o cálculo da margem de erro para média populacional dependerá do conheci- 
mento prévio ou não do valor do desvio padrão populacional σ, como será apresentado a seguir.
7.3.1 Estimação da média populacional μ para desvio 
padrão populacional σ conhecido
Para o caso de termos à disposição o valor do desvio padrão σ, o cálculo da média 
populacional μ parte do estimador pontual x. Antes de prosseguirmos com as fórmulas desse caso, 
vale o questionamento: se queremos estimar o valor da média populacional μ é porque não temos 
acesso à população inteira (pelos motivos já declarados de tempo, custo e viabilidade, por exemplo), 
pois, do contrário, conduziríamos o censo e assim teríamos o valor exato de μ. Se não temos à 
disposição a média populacional μ, como é possível ter acesso ao desvio padrão populacional σ, já 
que o cálculo de σ depende da própria μ? Faça uma pausa e proceda com uma reflexão, pois ela é 
oportuna para fixar os conceitos.
De partida, vale afirmar que, em muitas situações práticas, não teremos acesso ao desvio 
padrão populacional σ e, portanto, outra alternativa, que será descrita mais à frente neste livro, 
precisará ser adotada. Contudo, em parte das situações, a existência e a disponibilidade de grande 
quantidade de dados históricos relevantes permitem sua utilização para calcular o desvio padrão 
populacional σ. Outro exemplo inclui atividades repetitivas, em pleno funcionamento e mensuradas 
periodicamente, como é o caso de controle de qualidade em processos. Assim, haverá casos em que 
será possível adotar o desvio padrão populacional σ como conhecido (SWEENEY et al., 2014).
Avancemos com um exemplo aplicado. Suponha que consultores de gestão de negócios, no 
desenvolvimento de um projeto, solicitaram esta informação para o supermercado da tia Mara: 
o ticket de vendas (valor médio de vendas mensal). Para esse fim, a tia Mara selecionou uma 
amostra representativa e aleatória de 100 clientes que passaram pela loja no último mês e obteve a 
média de x = R$82,00. Como a tia Mara conduz essa pesquisa há muitos anos, é razoável aceitar 
que o desvio padrão populacional σ seja conhecido a partir de dados históricos: σ = R$20,00. Além 
disso, os dados históricos sinalizam que as vendas têm comportamento normal para a variável 
ticket de vendas: muitos indivíduos ao redor de um ticket de vendas médio e poucos com valores 
muito baixos ou muito altos.
A Figura 2, a seguir, representa a relação que se quer estabelecer: se o experimento de coletar 
amostra e calcular a média amostral x fosse conduzido múltiplas vezes, a distribuição seria normal 
ao redor de um valor médio, no caso, o ticket de vendas μ real, verdadeiro, de toda a população. 
E, diferentementedo caso da estimação por ponto, temos uma relação entre x e μ que parece ser 
mais próxima da realidade.
Inferência estatística: estimação 115
Figura 2 – Distribuição amostral normal de x ao redor de μ
μ
%
x
Distribuição amostral de x
Fonte: Elaborada pelo autor.
O objetivo, pois, é calcular a margem de erro dessa estimativa e, consequentemente, desenvolver 
um intervalo de confiança, a partir do qual se poderá estimar o ticket de vendas real do supermercado 
da tia Mara.
A margem de erro pode ser calculada por meio desta fórmula:
Margem de erro z
n2
Onde:
Margem de erro z
n2
 = confiança
σ = desvio padrão populacional conhecido
n = tamanho da amostra
Os conceitos de desvio padrão populacional conhecido σ e tamanho da amostra n foram 
discutidos anteriormente, porém é oportuno o aprofundamento sobre o conceito de confiança, 
que, na fórmula, aparece como Margem de erro z
n2
. Em termos conceituais, a confiança Z remete à variável aleatória 
normal padrão, conforme vimos no capítulo anterior. Lembremo-nos que todas as variáveis normais 
(fenômenos com comportamento normal) podem ser convertidas para a variável normal padrão 
(chamada de Z), pois, dela, já existem valores previamente calculados (na tabela de probabilidades 
da variável normal padrão).
Na tabela de probabilidades da variável normal padrão (Z), é possível identificar que, para 
Z = 1,96 (linha 1,9 – parte inteira e primeira decimal de Z – e coluna 6 – segunda decimal de Z), a 
probabilidade de Z estar entre 0 e 1,96 é de P (0 ≤ Z ≤ 1,96) = 47,5%. Pela propriedade de simetria 
de curva normal, conclui-se que a probabilidade de Z estar entre –1,96 e 1,96 é de P (–1,96 ≤ Z ≤ 
1,96) = 2 × 47,5% = 95%, conforme representação na Figura 3, a seguir. Portanto, afirma-se que 
95% dos valores de qualquer variável aleatória com distribuição normal estão dentro de ± 1,96 
desvios padrão da média (lembrando que, na distribuição normal padrão, a média é zero e o desvio 
padrão é um).
Estatística Aplicada116
Figura 3 – Probabilidade da variável normal padrão para grau de confiança de 95%
%
P(–1,96 ≤ Z ≤ 1,96) = 2 × 47,5% = 95%
P(Z ≥ 1,96) = 2,5%
–1,96 1,960 Z
P(Z ≤ –1,96) = 2,5%
Fonte: Elaborada pelo autor.
Desse modo, quando se afirma que o grau de confiança desejado para a pesquisa é de 95%, 
será utilizado o valor de Z = 1,96. Na inferência estatística, o grau de confiança representa a certeza 
com a qual uma afirmação poderá ser proferida, pois já se sabe que, com base em uma amostra 
(e não no censo), a afirmação sobre determinada característica da população pode não ser 100% 
verdadeira. O uso do grau de confiança representa, pois, essa imprecisão.
O grau de confiança é arbitrado antes da condução da pesquisa, e o mais comum é a adoção 
de 95%. Quando nenhuma consideração é lançada sobre o grau de confiança, a presunção de 
95% pode ser tomada como padrão. Alternativamente, graus de confiança de 90% ou de 99% 
também podem ser encontrados em aplicações práticas.
Outro conceito comumente usado em métodos estatísticos é o de nível de significância, 
representado por α. Matematicamente, o nível de significância é o complemento a 100% do grau 
de confiança. Como exemplo, para um grau de confiança de 95%, o nível de significância será de 
5% (ou, o que é comum na área, 0,05). Uma vez definido o grau de confiança, pode-se calcular 
automaticamente o nível de significância. Conceitualmente, o grau de confiança é a “chance de 
acertar” com a qual uma afirmação em inferência estatística poderá ser proferida; por sua vez, o 
nível de significância remonta à “chance de errar”. Em termos práticos, o grau de confiança é mais 
compreensível como interpretação do fenômeno de interesse, mas o nível de significância é 
mais utilizado para os cálculos na área de métodos estatísticos.
No exemplo anterior de 95% de grau de confiança, o nível de significância é de 5% ou 0,05. 
Isso significa que 5% dos valores de uma variável aleatória com distribuição normal estão fora de 
Z = ±1,96 desvios padrão da média. Pela propriedade de simetria, tomando apenas uma das 
metades da curva normal (para esse exemplo, suponha que seja a metade da direita da curva), 
P (0 ≤ Z ≤ 1,96) = 47,5%. Assim, 2,5% dos valores estão acima de 1,96, na cauda superior da 
distribuição de probabilidade normal padrão, e, portanto, fora do limite (o que denota erro, desvio). 
Inferência estatística: estimação 117
Por isso, a fórmula apresenta o α
2
 (cálculo para apenas metade da curva) e a designação será de zα
2
 
(lê-se: confiança para metade da significância ou, na prática, apenas confiança). Dessa forma, para 
grau de confiança de 95%, o nível de significância é de 5% (ou 0,05) e Z Z Z
2
0 0 5
2
0 025 1 96,, , . 
Muitas vezes, no entanto, a representação será apenas de Z = 1,96.
A Tabela 2, a seguir, apresenta um resumo dos valores mais utilizados de grau de 
confiança, nível de significância α, metade do nível de significância α
2
 e confiança para metade da 
significância zα
2
.
Tabela 2 – Grau de confiança, nível de significância, metade do nível de significância e confiança para 
metade da significância mais utilizados no mercado.
Grau de confiança α ±
2
α z –
2
α
90% 0,10 0,05 1,64
95% 0,05 0,025 1,96
99% 0,01 0,005 2,58
Fonte: Elaborada pelo autor.
Retornemos ao nosso exemplo do supermercado da tia Mara e procedamos com o cálculo 
da margem de erro para grau de confiança de 95%:
Margem de erro z
n
R$%95
2
1,96
20
100
3,92
A Figura 4, a seguir, representa uma interpretação gráfica da relação da distribuição amostral 
de x e a margem de erro.
Figura 4 – Distribuição amostral de x e margem de erro
%
μ
Distribuição amostral de x
95% de todos os 
valores de x
3,92 3,92
x
Fonte: Elaborada pelo autor.
Para a estimativa por intervalo do ticket de vendas do supermercado, o cálculo poderá ser 
feito assim, com base na estimativa por ponto x:
Intervalo de confiança: x z
n
�
�
�
�
�
�
��
�
2
 = (82 ± 3,92) = (R$ 78,08; R$ 85,92)
Estatística Aplicada118
Em termos de nomenclatura, o grau de confiança desse exemplo é de 95%, e o intervalo de 
(R$ 78,08; R$ 85,92) é chamado de intervalo de confiança de 95%, que será assim representado:
μ: (R$ 78,08; R$ 85,92)
A afirmação que pode ser proferida nesse exemplo é: com 95% de confiança, o intervalo 
(R$ 78,08; R$ 85,92) contém o ticket de vendas da população (caso todas as vendas fossem 
consideradas). Portanto, esse é um intervalo que tem grande chance (95%) de conter o valor real, 
verdadeiro do ticket de vendas da população. Se repetíssemos esse experimento (coletar amostras 
e calcular o intervalo de confiança), é evidente que obteríamos resultados diferentes a cada vez. 
A Figura 5, a seguir, apresenta um exemplo com simulação para o cálculo de três amostras diferentes 
e três médias amostrais diferentes: x1, x2 e x3. Os intervalos de confiança de 95% calculados para 
x1 e x2 contêm μ, enquanto que o intervalo de confiança de 95% calculado para x3 não contém μ. 
Assim, a interpretação de 95% é que, se conduzíssemos o experimento 100 vezes, em 95 vezes o 
intervalo resultante conseguiria conter a média populacional do ticket de vendas.
Figura 5 – Intervalos de confiança de 95% para , e x1, x2 e x3
μ
Distribuição amostral de x
Intervalo com base em 
x2 ± 3,92
Intervalo com base em 
x1 ± 3,92
Intervalo com base em 
x3 ± 3,92
(esse intervalo não inclui μ)
A média populacional μ
95% de todos os 
valores de x
3,923,92
x2
x1
x3
x
Fonte: Elaborada pelo autor.
Perceba que a afirmação seguinte soa próxima, mas, conceitualmente, não pode ser assumida 
como verdadeira: o ticket de vendas da população (real, verdadeiro) está 95% das vezes dentro do 
intervalo de (R$ 78,08; R$ 85,92). Ela não é verdadeira, pois, se assim fosse, precisaríamos supor 
que o ticket de vendas varia e, nessa variação, em 95% dos casos, ele estaria nesse intervalo e, em 
5% dos casos, ele não estaria. Porém perceba que o ticket de vendas (média populacional) não 
Inferênciaestatística: estimação 119
apenas não pode variar (é um valor fixo), como também é o valor que estamos tentando estimar. 
Na Figura 5, note que μ é fixo e o que varia são as médias amostrais x i e, portanto, os intervalos de 
confiança correspondentes.
Ainda assim, em termos práticos, é razoável reconhecer, com 95% de confiança (certeza), 
que a média real do ticket de vendas está no intervalo calculado. Desse modo, teremos uma boa 
ordem de grandeza desse valor e a tomada de decisão será mais qualificada.
De volta à discussão sobre o grau de confiança, calculemos os intervalos de confiança para 
90%, 95% e 99%, pois há uma relação importante entre grau de confiança e margem de erro:
Intervalo de confiança90%: x z
n
�
�
�
�
�
�
� � �
�
�
�
�
�
��
�
2
82 1 64 20
100
, = (82 ± 3,28) = (R$ 78,72; R$ 85,28)
Intervalo de confiança95%: x z n
�
�
�
�
�
�
� � �
�
�
�
�
�
��
�
2
82 1 96
20
100
, = (82 ± 3,92) = (R$ 78,08; R$ 85,92)
Intervalo de confiança99%: x z
n
�
�
�
�
�
�
� � �
�
�
�
�
�
��
�
2
82 2 58
20
100
, = (82 ± 5,16) = (R$ 76,84; R$ 87,16)
É evidente que, se o grau de confiança denota a chance de acertar, será preferível adotar o 
maior grau de confiança possível. No limite, a melhor escolha seria um grau de confiança de 100%! 
Será mesmo?
Dos cálculos anteriores, vale notar que, conforme o grau de confiança aumenta, também 
aumenta a margem de erro (e, consequentemente, o intervalo de confiança). Se, por um lado, é 
preferível um grau de confiança cada vez maior, por outro lado, é desejável uma margem de erro 
cada vez menor (pois convém que o erro seja minimizado). Porém, como ambos são diretamente 
proporcionais, será uma situação de trade-off2: para melhorar de um lado, será necessário piorar 
de outro. De 90% de grau de confiança para 95%, a margem de erro aumenta R$ 0,64, ao passo 
que, de 95% para 99% de grau de confiança, o aumento na margem de erro será de R$ 1,24. 
Quanto mais próximo de 100%, maior também será a margem de erro. Por isso, a adoção 
de 95% como grau de confiança é comum em muitas aplicações: trata-se de uma confiança 
reconhecidamente alta para uma margem de erro reconhecidamente controlada. Importante: 
a criticidade da situação que se esteja inspecionando condiciona a decisão quanto à escolha de 
grau de confiança e margem de erro.
2 Tradeoff ou trade-off são expressões no idioma inglês usadas em situações em que há conflito de escolhas: para se 
obter as benesses de uma escolha, é necessário acolher o ônus dessa escolha e, automaticamente, abrir mão das benesses 
da outra escolha. Para aprofundamento, buscar referências sobre o conceito econômico de custo de oportunidade.
Estatística Aplicada120
7.3.2 Estimação da média populacional μ para desvio 
padrão populacional σ desconhecido
Como apresentado anteriormente, quando queremos estimar a média populacional μ, é 
comum que não tenhamos acesso ao desvio padrão populacional σ. Nesse caso, é necessário estimar 
tanto μ quanto σ com base na amostra, respectivamente, por x e s. Quando o desvio padrão amostral 
s (conhecido, pois pode ser calculado com base na amostra) é usado para estimar o desvio padrão 
populacional σ (desconhecido), o cálculo da margem de erro (e, consequentemente, o intervalo de 
confiança) terá como base não mais a distribuição normal padrão, mas uma distribuição conhecida 
como distribuição t-Student, para a qual também existem valores previamente calculados.
Embora a premissa de normalidade da variável de interesse na população seja mantida, a 
distribuição t-Student pode ser aplicada de maneira bem-sucedida em muitas situações em que a 
população se desvia significativamente da normal (SWEENEY et al., 2014), em particular, para o 
caso de pequenas amostras. Essa distribuição depende de um parâmetro conhecido como graus de 
liberdade, e, quanto maiores forem os graus de liberdade, mais a distribuição t-Student assemelha-se 
à distribuição normal padrão. A Figura 6, a seguir, apresenta uma comparação entre as curvas normal 
e t-Student.
Figura 6 – Comparação entre distribuição normal padrão e distribuição t-Student
Distribuição normal padrão
Distribuição t (20 graus de liberdade)
Distribuição t (10 graus de liberdade)
0 z, t
Fonte: Elaborada pelo autor.
O mesmo raciocínio do caso anterior de desvio padrão populacional conhecido será aplicado 
agora para o cálculo da margem de erro e do intervalo de confiança. O cálculo da margem de erro 
para o caso de σ ser desconhecido será dado por:
Margem de erro t s
n
Onde:
tα = confiança
s = desvio padrão amostral conhecido
n = tamanho da amostra
Inferência estatística: estimação 121
Com base na estimativa por ponto da média amostral x , a estimativa por intervalo da média 
populacional μ será dada por:
Intervalodeconfiança x t s
n
:
Perceba que, nesse caso, s é usado para estimar σ e tα substitui zα
2
. Como s é diretamente 
calculado por meio da amostra, vamos nos deter na obtenção de tα. α continua representando 
o nível de significância, e sua interpretação é similar àquela apresentada anteriormente para o 
cálculo de zα
2
 no caso da distribuição normal padrão: o quanto destoa, o quanto foge da média 
(área sob a curva além do limite de tc), conforme apresenta a Figura 7.
Figura 7 – A relação entre α e t
0–tc tc t
%
α
2
α
2
Fonte: Elaborada pelo autor.
A Tabela 3, a seguir, apresenta a distribuição t-Student. Na primeira coluna à esquerda, estão 
os graus de liberdade; nas demais colunas, constam as probabilidades de ocorrência consoante 
com a área destacada no desenho no canto superior direito. Suponha que queiramos o valor de t 
para grau de confiança de 95% (portanto α = 0,05) em uma amostra de 30 indivíduos (n = 30). 
Em termos práticos, graus de liberdade3 podem ser calculados assim: graus de liberdade = n – 1. Em 
nosso exemplo, então, são 29 graus de liberdade. Como α = 0,05, inspecionaremos diretamente a 
coluna p = 5%. Do cruzamento de 29 graus de liberdade com α = 0,05, obtém-se t0,05 = 2,045.
3 Os graus de liberdade referem-se à quantidade de informações independentes para o cálculo do desvio padrão 
amostral s x x
n
i( )
2
1
. Como o somatório dos (xi – x) precisa ser 0 (zero), precisaremos de apenas n – 1 informações 
do tipo (xi – x) para se obter a n–ésima informação. Portanto, em termos práticos, pode-se adotar: graus de liberdade = 
n–1. Pense naquele jogo em que há três copos e uma bola de gude dentro de um deles: no máximo, você não precisa abrir 
todos os copos para saber onde a bola de gude está, apenas dois copos, ou n–1 copos.
Estatística Aplicada122
Ta
be
la
 3
 –
 D
is
tr
ib
ui
çã
o 
t-S
tu
de
nt
Graus de liberdade γ 
C
or
po
 d
a 
ta
be
la
 d
á 
os
 v
al
or
es
 t c
 ta
is
 q
ue
 P
 (–
tc
 <
 t 
< 
tc
) =
 1
 –
 p
.
Pa
ra
 ǘ
 >
 1
20
, u
sa
r a
 a
pr
ox
im
aç
ão
 n
or
m
al
.
t c
t
–t
c
p/
2
p/
2
0
1 
– 
p
Graus de liberdade γ 
p 
= 
90
%
80
%
70
%
60
%
50
%
40
%
30
%
20
%
10
%
5%
4%
2%
1%
0,
2%
0,
1%
1
0,
15
8
0,
32
5
0,
51
0
0,
72
7
1,
00
0
1,
37
6
1,
96
3
3,
07
8
6,
31
4
12
,7
06
15
,8
94
31
,8
21
63
,6
57
31
8,
30
9
63
6,
61
9
1
2
0,
14
2
0,
28
9
0,
44
5
0,
61
7
0,
81
6
1,
06
1
1,
38
6
1,
88
6
2,
92
0
4,
30
3
4,
84
9
6,
96
5
9,
92
5
22
,3
27
31
,5
98
2
3
0,
13
7
0,
27
7
0,
42
4
0,
58
4
0,
76
5
0,
97
8
1,
25
0
1,
63
8
2,
35
3
3,
18
2
3,
48
2
4,
54
1
5,
84
1
10
,2
14
12
,9
24
3
4
0,
13
4
0,
27
1
0,
41
4
0,
56
9
0,
74
1
0,
94
1
1,
19
0
1,
53
3
2,
13
2
2,
77
6
2,
99
8
3,
74
7
4,
60
4
7,
17
3
8,
61
0
4
5
0,
13
2
0,
26
7
0,
40
8
0,
55
9
0,
72
7
0,
92
0
1,
15
6
1,
47
6
2,
01
5
2,
57
1
2,
75
6
3,
36
5
4,
03
2
5,
89
3
6,
86
9
5
6
0,
13
1
0,
26
5
0,
40
4
0,
55
3
0,
71
8
0,
90
6
1,
13
4
1,
44
0
1,
94
3
2,
44
7
2,
61
2
3,
14
3
3,
70
7
5,
20
8
5,
95
9
6
7
0,
13
0
0,
26
3
0,
40
2
0,
54
9
0,
71
1
0,
89
6
1,
11
9
1,
41
5
1,
89
5
2,36
5
2,
51
7
2,
99
8
3,
49
9
4,
78
5
5,
40
8
7
8
0,
13
0
0,
26
2
0,
39
9
0,
54
6
0,
70
6
0,
88
9
1,
10
8
1,
39
7
1,
86
0
2,
30
6
2,
44
9
2,
89
6
3,
35
5
4,
50
1
5,
04
1
8
9
0,
12
9
0,
26
1
0,
39
8
0,
54
3
0,
70
3
0,
88
3
1,
10
0
1,
38
3
1,
83
3
2,
26
2
2,
39
8
2,
82
1
3,
25
0
4,
29
7
4,
78
1
9
10
0,
12
9
0,
26
0
0,
39
7
0,
54
2
0,
70
0
0,
87
9
1,
09
3
1,
37
2
1,
81
2
2,
22
8
2,
35
9
2,
76
4
3,
16
9
4,
14
4
4,
58
7
10
11
0,
12
9
0,
26
0
0,
39
6
0,
54
0
0,
69
7
0,
87
6
1,
08
8
1,
36
3
1,
79
6
2,
20
1
2,
32
8
2,
71
8
3,
10
6
3,
02
5
4,
43
7
11
12
0,
12
8
0,
25
9
0,
39
5
0,
53
9
0,
69
5
0,
87
3
1,
08
3
1,
35
6
1,
78
2
2,
17
9
2,
30
3
2,
68
1
3,
05
5
3,
93
0
4,
31
8
12
13
0,
12
8
0,
25
9
0,
39
4
0,
53
8
0,
69
4
0,
87
0
1,
07
9
1,
35
0
1,
77
1
2,
16
0
2,
28
2
2,
65
0
3,
01
2
3,
85
2
4,
22
1
13
14
0,
12
8
0,
25
8
0,
39
3
0,
53
7
0,
69
2
0,
86
8
1,
07
6
1,
34
5
1,
76
1
2,
14
5
2,
26
4
2,
62
4
2,
97
7
3,
78
7
4,
14
0
14
15
0,
12
8
0,
25
8
0,
39
3
0,
53
6
0,
69
1
0,
86
6
1,
07
4
1,
34
1
1,
75
3
2,
13
1
2,
24
8
2,
60
2
2,
94
7
3,
73
3
4,
07
3
15
16
0,
12
8
0,
25
8
0,
39
2
0,
53
5
0,
69
0
0,
86
5
1,
07
1
1,
33
7
1,
74
6
2,
12
0
2,
23
5
2,
58
3
2,
92
1
3,
68
6
4,
01
5
16
17
0,
12
8
0,
25
7
0,
39
2
0,
53
4
0,
68
9
0,
86
3
1,
06
9
1,
33
3
1,
74
0
2,
11
0
2,
22
4
2,
56
7
2,
89
8
3,
64
6
3,
96
5
17
18
0,
12
7
0,
25
7
0,
39
2
0,
53
4
0,
68
8
0,
86
2
1,
06
7
1,
33
0
1,
73
4
2,
10
1
2,
21
4
2,
55
2
2,
87
8
3,
61
0
3,
92
2
18
19
0,
12
7
0,
25
7
0,
39
1
0,
53
3
0,
68
8
0,
86
1
1,
06
6
1,
32
8
1,
72
9
2,
09
3
2,
20
5
2,
53
9
2,
86
1
3,
57
9
3,
88
3
19
(C
on
tin
ua
)
Inferência estatística: estimação 123
Graus de liberdade γ 
C
or
po
 d
a 
ta
be
la
 d
á 
os
 v
al
or
es
 t c
 ta
is
 q
ue
 P
 (–
tc
 <
 t 
< 
tc
) =
 1
 –
 p
.
Pa
ra
 ǘ
 >
 1
20
, u
sa
r a
 a
pr
ox
im
aç
ão
 n
or
m
al
.
t c
t
–t
c
p/
2
p/
2
0
1 
– 
p
Graus de liberdade γ 
p 
= 
90
%
80
%
70
%
60
%
50
%
40
%
30
%
20
%
10
%
5%
4%
2%
1%
0,
2%
0,
1%
20
0,
12
7
0,
25
7
0,
39
1
0,
53
3
0,
68
7
0,
86
0
1,
06
4
1,
32
5
1,
72
5
2,
08
6
2,
19
7
2,
52
8
2,
84
5
3,
55
2
3,
85
0
20
21
0,
12
7
0,
25
7
0,
39
1
0,
53
2
0,
68
6
0,
85
9
1,
06
3
1,
32
3
1,
72
1
2,
08
0
2,
18
9
2,
51
8
2,
83
1
3,
52
7
3,
81
9
21
22
0,
12
7
0,
25
6
0,
39
0
0,
53
2
0,
68
6
0,
85
8
1,
06
1
1,
32
1
1,
71
7
2,
07
4
2,
18
3
2,
50
8
2,
81
9
3,
50
5
3,
79
2
22
23
0,
12
7
0,
25
6
0,
39
0
0,
53
2
0,
68
5
0,
85
8
1,
06
0
1,
31
9
1,
71
4
2,
06
9
2,
17
7
2,
50
0
2,
80
7
3,
48
5
3,
76
8
23
24
0,
12
7
0,
25
6
0,
39
0
0,
53
1
0,
68
5
0,
85
7
1,
05
9
1,
31
8
1,
71
1
2,
06
4
2,
17
2
2,
49
2
2,
79
7
3,
46
7
3,
74
5
24
25
0,
12
7
0,
25
6
0,
39
0
0,
53
1
0,
68
4
0,
85
6
1,
05
8
1,
31
6
1,
70
8
2,
06
0
2,
16
6
2,
48
5
2,
78
7
3,
45
0
3,
72
5
25
26
0,
12
7
0,
25
6
0,
39
0
0,
53
1
0,
68
4
0,
85
6
1,
05
8
1,
31
5
1,
70
6
2,
05
6
2,
16
2
2,
47
9
2,
77
9
3,
43
5
3,
70
7
26
27
0,
12
7
0,
25
6
0,
38
9
0,
53
1
0,
68
4
0,
85
5
1,
05
7
1,
31
4
1,
70
3
2,
05
2
2,
15
8
2,
47
3
2,
77
1
3,
42
1
3,
69
0
27
28
0,
12
7
0,
25
6
0,
38
9
0,
53
0
0,
68
4
0,
85
5
1,
05
6
1,
31
3
1,
70
1
2,
04
8
2,
15
4
2,
46
7
2,
76
3
3,
40
8
3,
67
4
28
29
0,
12
7
0,
25
6
0,
38
9
0,
53
0
0,
68
3
0,
85
4
1,
05
5
1,
31
1
1,
69
9
2,
04
5
2,
15
0
2,
46
2
2,
75
6
3,
39
6
3,
65
9
29
30
0,
12
7
0,
25
6
0,
38
9
0,
53
0
0,
68
3
0,
85
4
1,
05
5
1,
31
0
1,
69
7
2,
04
2
2,
14
7
2,
45
7
2,
75
0
3,
38
5
3,
64
6
30
35
0,
12
6
0,
25
5
0,
38
8
0,
52
9
0,
68
2
0,
85
2
1,
05
2
1,
30
6
1,
69
0
2,
03
0
2,
13
3
2,
43
8
2,
72
4
3,
34
0
3,
59
1
35
40
0,
12
6
0,
25
5
0,
38
8
0,
52
9
0,
68
1
0,
85
1
1,
05
0
1,
30
3
1,
68
4
2,
02
1
2,
12
3
2,
42
3
2,
70
4
3,
30
7
3,
55
1
40
50
0,
12
6
0,
25
4
0,
38
7
0,
52
8
0,
67
9
0,
84
9
1,
04
7
1,
29
9
1,
67
6
2,
00
9
2,
10
9
2,
40
3
2,
67
8
3,
26
1
3,
49
6
50
60
0,
12
6
0,
25
4
0,
38
7
0,
52
7
0,
67
9
0,
84
8
1,
04
5
1,
29
6
1,
67
1
2,
00
0
2,
09
9
2,
39
0
2,
66
0
3,
23
2
3,
46
0
60
12
0
0,
12
6
0,
25
4
0,
38
6
0,
52
6
0,
67
7
0,
84
5
1,
04
1
1,
28
9
1,
65
8
1,
98
0
2,
07
6
2,
35
8
2,
61
7
3,
16
0
3,
37
3
12
0
∞
0,
12
6
0,
25
3
0,
38
5
0,
52
4
0,
67
4
0,
84
2
1,
03
6
1,
28
2
1,
64
5
1,
96
0
2,
05
4
2,
32
6
2,
57
6
3,
09
0
3,
29
1
∞
Fo
nt
e:
 B
us
sa
b;
 M
or
et
tin
, 2
01
4,
 p
. 5
21
.
Estatística Aplicada124
Consideremos um exemplo aplicado. Suponha que, no mesmo caso do supermercado da tia 
Mara, seja a primeira vez que estejamos conduzindo a pesquisa sobre o ticket de vendas e, portanto, 
embora se possa supor uma normalidade dessa variável (por exemplo, por meio de conversas com 
outros mercados da região), não se possa considerar o desvio padrão conhecido para essa variável.
Os consultores propõem este procedimento: de uma amostra de 30 clientes (n = 30), com 
grau de confiança de 95% (α = 0,05), calcular o intervalo de confiança para o ticket de vendas. 
A média de vendas x calculada a partir da amostra de 30 clientes foi de R$ 81,43, e o desvio padrão 
amostral s resultou em R$ 17,49. O cálculo da margem de erro será assim:
Margem de erro � � �, ,,t
s
n
R0 05 2 045
17 49
30
6 54
E, portanto, o cálculo do intervalo de confiança será dado por:
Interv de ça ,x t
s
n
R0 05 81 43 6 5 ,74 89 87 97R
A interpretação é similar ao caso de estimação por intervalo quando o desvio padrão 
populacional é conhecido: com 95% de confiança, o intervalo de (R$ 74,89; R$ 87,97) contém o 
ticket de vendas da população (caso todas as vendas fossem consideradas). Novamente, esse é um 
intervalo que tem chance grande (95%) de conter o valor real, verdadeiro do ticket de vendas da 
população, a partir de uma amostra de apenas 30 clientes.
7.3.3 Estimação da proporção populacional p
Outro caso que inspira interesse é o de estimar a proporção populacional p a partir da 
proporção p de uma amostra. Como o raciocínio é similar aos dois casos anteriores de estimação 
por intervalo (com desvio padrão populacional conhecido e desconhecido), podemos partir 
diretamente para a interpretação das fórmulas.
A margem de erro para a estimação de proporção populacional é calculada assim:
Margem de erro z
p
n2
1
Onde:
zα
2
 = confiança
p = proporção amostral
n = tamanho da amostra
E o intervalo de confiança é calculado desta maneira:
Interv de ça p z
p p
n2
1
Inferência estatística: estimação 125
São necessárias três informações para poder calcular o intervalo de confiança: a proporção 
amostral p (que é calculada diretamente pela amostra), a confiança z (definida com base no grau 
de confiança estabelecido pelo pesquisador) e o tamanho da amostra n (também conhecido).
Voltemos ao exemplo dos dragões-de-komodo, na Tabela 1, que apresenta a altura e 
gênero de amostra fictícia com 30 dragões-de-komodo (n = 30). Para estimarmos a proporção 
populacional p de indivíduos do gênero masculino, no exemplo, procedemos com o cálculo 
da proporção amostral correspondente p . Supondo que r represente o número de indivíduos 
que detêm a característica inspecionada, no caso, ser do gênero masculino, pode-se calcular a 
proporção amostral assim:
p r
n
= = =
19
30
0 63,
Logo, para estimar a proporção p de indivíduos do gênero masculino da população como um 
todo, pode-se estabelecer grau de confiança de 95% e proceder ao cálculo da margem de erro assim:
Margem de erro z
p p ,
,,0 05
2
1
1 96
0 63 0 37
30
0 17
n
E o cálculo do intervalo de confiança de 95% é obtido assim:
Interv de p z
p pn,0 052
1
(0,63 0,17) 0,80)( , ;0 46ça
A interpretação é similar à de casos anteriores: com 95% de confiança, o intervalo de (0,46; 
0,80) ou entre 46% e 80% contém a proporção real, verdadeira p de indivíduos do gênero masculino, 
caso todos os indivíduos fossem analisados.
7.3.4 Tamanho ideal de amostra
Uma dúvida muito comum no planejamento da pesquisa de campo é quanto ao tamanho 
da amostra. Em geral, profere-se esse questionamento para se ter uma ideia de quão trabalhosa 
será a pesquisa de campo. Para essa discussão, há uma premissa importante: o cálculo do tamanho 
ideal de amostra depende da técnica estatística que se pretende utilizar para análise de dados. Por 
exemplo, para o caso de estatística descritiva, afirma-se que, quanto mais indivíduos (portanto, 
quanto maior for a amostra), melhor. Já para o caso da inferência estatística, é possível calcular 
o tamanho ideal de amostra. Para esse fim, será necessário arbitrar o máximo de margem de 
erro tolerado.
Retomemos o caso da tia Mara: grau de confiança de 95% e desvio padrão populacional σ 
conhecido. Em vez de calcular a margem de erro com base no tamanho da amostra (no exemplo, 
amostra era de 100 clientes), inverte-se o procedimento: calcular o tamanho da amostra a partir de 
um valor de margem de erro arbitrado. Suponha, no exemplo do supermercado da tia Mara, que se 
queira produzir uma afirmação com não mais do que R$ 2,50 de margem de erro:
Margem de erro z
n95 0 052
1 96 20 2 50% , ,n
n = 245,86 ~ 246 clientes
Estatística Aplicada126
Portanto, a fórmula para cálculo de tamanho ideal de amostra para estimação por intervalo 
de μ é dada por:
n z
margem de erro2α
2
Para o caso de não conhecermos o desvio padrão populacional σ, a fórmula para cálculo de 
margem de erro é dada por:
Margem de erro t s
n
α
Nessa fórmula, por mais que arbitremos um valor tolerado de margem de erro, temos uma 
inviabilidade matemática tautológica: tα (para calcular os graus de liberdade), s (para calcular o 
próprio desvio padrão amostral) e n dependem da própria amostra. Por esse motivo, nesse caso, 
não se pode proceder com o cálculo de tamanho ideal de amostra.
Para o caso de proporção populacional, o mesmo raciocínio de arbitrar um valor para 
margem de erro é estabelecido. Seja a margem de erro assim calculada:
Margem de erro z
p p
n2
1
Para o mesmo exemplo da proporção de indivíduos do gênero masculino na população 
de dragões-de-komodo, assumindo grau de confiança de 95%, suponha que queiramos calcular 
o tamanho ideal de amostra para uma margem de erro de, no máximo, 2%. Na fórmula anterior, 
há uma dificuldade matemática tautológica: p depende da amostra para ser calculada. Há uma 
saída elegante para essa limitação: sabendo-se que a combinação de p (1 – p ), no numerador da 
margem de erro, que resulta em maior valor será para p = 0,5, pois p (1 – p ) = 0,5 (0,5) = 0,25. 
Perceba que nenhuma outra combinação de p (1 – p )resultará em valor maior e, portanto, adotar 
p = 0,5 como pior caso (pois p e margem de erro são diretamente proporcionais) resolve bem a 
dificuldade de não termos, de partida, o valor de p . Assim, o cálculo de tamanho ideal de amostra 
para grau de confiança de 95% resulta em:
Margem de erro z
p p
n n
,
,,0 05
2
1
1 96
0 5 0 5
0 02
n = 2.401 indivíduos
Dessa forma, a fórmula para cálculo de tamanho ideal de amostra para estimação por 
intervalo de p é dada por:
n
z
margem de erro
p* p
a
�
�
�
�
�
�
�
�
�
�
�
�� �2
2
1 *
* em geral, adotar p* = 0,5, pois esse é o “pior” caso. Adotar outros valores apenas se houver 
uma estimativa confiável, de partida, para p .
Inferência estatística: estimação 127
Caso o valor calculado como sendo do tamanho ideal de amostra, tanto para média 
populacional μ quanto para proporção populacional p, seja maior do que o próprio tamanho da 
população, pode-se: (a) aumentar o valor de margem de erro para que o número n seja menor 
(margem de erro n e são inversamente proporcionais) ou, alternativamente, (b) inspecionar toda a 
população e, nesse caso, não se procederá com inferência estatística, mas com estatística descritiva 
sobre a população, ou seja, será conduzido um censo.
Considerações finais
A inferência estatística permite produzir afirmações sobre dada característica de uma 
população com base em apenas parte dessa população (amostra), desde que os indivíduos da 
amostra tenham sido selecionados de acordo com os critérios de representatividade e aleatoriedade.
Outra premissa para conduzir a inferência estatística é que a característica que esteja sendo 
analisada tenha comportamento normal, com muitos indivíduos ao redor de um valor médio e 
poucos indivíduos nos extremos.
Respeitadas essas duas premissas, pode-se proceder com a inferência estatística. Uma das 
maneiras é por meio das técnicas de estimação. Na técnica de estimação por ponto, valores de 
média, desvio padrão e proporção calculados a partir da amostra são tomados como sendo os 
valores próprios da população. Está evidente a limitação dessa técnica: amostras diferentes podem 
gerar valores diferentes para média, desvio padrão e proporção, motivo pelo qual assumir que eles 
tenham os mesmos valores na população é arriscado. Na técnica de estimação por intervalo, esse 
risco é minimizado, pois se assume que esses valores calculados não sejam exatos na população, 
mas que tenham chances grandes de estarem dentro de intervalos.
Com isso, é possível estimar média populacional μ e proporção populacional p a partir de 
seus correspondentes na amostra: média amostral x e proporção amostral p. Existe uma utilidade 
enorme no uso da amostra para estimar média ou proporção na população, mas, particularmente, 
essa utilidade reside no caráter prático da pesquisa de campo, que pode ser, potencialmente, mais 
rápida, mais barata e operacionalmente mais simples.
Dessa forma, o potencial para tomada de decisão com qualidade melhor pode ser acelerado. 
Suponha que uma amostra de 100 alunos sinalize que a proporção populacional dos 5.000 alunos 
de uma escola quanto à insatisfação em relação à infraestrutura esteja entre 77% e 83%. Uma 
pesquisa de campo com 100 alunos é potencialmente mais rápida do que outra com 5.000 alunos. 
E os resultados já indicam a possibilidade de tomada de ação imediata. Eis o principal mérito da 
técnica de estimação por intervalo.
Por fim, seguem as fórmulas apresentadas neste capítulo:
• Estimação da média populacional μ para desvio padrão populacional σ conhecido:
Margem de erro =
n
z
2
α
Interv de a xç z
n
:
2
α
Estatística Aplicada128
• Estimação da média populacional μ para desvio padrão populacional σ desconhecido:
Margem de erro t s
nα
Intervalodeconfiança x t s
n
:
• Estimação da proporção populacional p:
Margem de erro z
p p
n2
1
Intervalodeconfiança p z
p p
n2
1
• Cálculo de tamanho ideal de amostra para estimação por intervalo de μ:
n z
margem de erro2
2
• Cálculo de tamanho ideal de amostra* para estimação por intervalo de p:
n
z
margem de erro
p* p
a
�
�
�
�
�
�
�
�
�
�
�
�� �2
2
1 *
* em geral, adotar p* = 0,5, pois esse é o pior caso. Adotar outros valores apenas se houver 
uma estimativa confiável, de partida, para p.
Ampliando seus conhecimentos
• GLOBAL consumer insights survey. PwC Brasil, São Paulo, 2018. Disponível em: https://
www.pwc.com.br/pt/setores-atividade/varejo-consumo/gcis2018.html. Acesso em: 26 maio 
2019.
Pesquisas sobre comportamento do consumidor são excelentes exemplos de como as 
organizações podem, a partir de uma amostra, produzir afirmações sobre a população 
como um todo e, principalmente, tomar decisões segundo esses achados. No relatório 
Global Consumer Insights Survey da PwC, algumas conclusões incluem: 41% dos 
participantes no Brasil compram via smartphone pelo menos uma vez ao mês, 57% não se 
incomodam que um varejista monitore seu padrão ou histórico de compras para fornecer 
ofertas personalizadas e 45% dos brasileiros têm interesse em comprar itens básicos on--line regularmente. Como isso afeta as decisões nas organizações?
Inferência estatística: estimação 129
• ELEIÇÕES nos EUA: Hillary lidera pesquisa de intenção de voto, 2016. 1 vídeo (2 min.). 
Publicado pelo canal G1. Disponível em: http://g1.globo.com/globo-news/jornal-globo-
news/videos/v/eleicoes-nos-eua-hillary-lidera-pesquisa-de-intencao-de-voto/5110069/. 
Acesso em: 26 maio 2019.
• DONALD Trump é eleito presidente dos Estados Unidos, 2016. 1 vídeo (7 min.). Publicado 
pelo canal GloboPlay. Disponível em: https://globoplay.globo.com/v/5437389/. Acesso em: 
26 maio 2019.
A vitória do republicano Donald Trump sobre a democrata Hillary Clinton nas eleições 
presidenciais dos Estados Unidos em 2016 contrariou quase todas as pesquisas de intenção 
de voto. Os dois vídeos sugeridos apresentam essa realidade. Essas pesquisas tentam, 
alicerçadas em uma amostra, calcular a proporção do total de eleitores (população) que 
declaram seu voto a determinado candidato. Como a opinião pode mudar ao longo do 
tempo, várias pesquisas são conduzidas durante a campanha. Por que será que elas erram 
às vezes, como aconteceu nesse caso?
Atividades
1. Um famoso restaurante fictício em sua cidade lança uma campanha para aumentar a 
quantia média que cada cliente desembolsa por um jantar em dia da semana. Como esse 
restaurante tem sistemas informatizados com informações de gastos dos últimos cinco anos, 
pode-se supor que o desvio padrão populacional para essa variável seja conhecido (tenha 
sido calculado) e valha R$ 9,00. A média da quantia desembolsada por cada cliente em um 
jantar em dia de semana é da ordem de R$ 35,00. Na última semana, o dono do restaurante 
lançou uma campanha em que estimulou o consumo de bebida durante o jantar, por meio de 
promoção do tipo “bebidas pela metade do preço”. Porém houve pane no sistema, que ficou 
fora do ar, e o dono ficou apenas com as notas manuais. Ele contrata você para auxiliá-lo 
a concluir se a campanha promocional deve continuar ou não. Para esse fim, você propõe 
retirar uma amostra representativa e aleatória de 49 clientes e adotar grau de confiança de 
95%. O resultado obtido para média dessa amostra foi de R$ 49,60. Que afirmação você 
pode proferir sobre todos os clientes que frequentaram o restaurante na última semana a 
partir dessa amostra de 49 clientes?
2. A associação fictícia Bem-estar no Ar é responsável por avaliar a qualidade dos aeroportos 
de um país fictício. É comum que pesquisas do tipo “atribua uma nota de 0 a 10”, sendo zero 
a nota mais baixa e dez a nota mais alta, sejam conduzidas frequentemente para identificar 
a satisfação dos usuários dos aeroportos e, eventualmente, levar à tomada de decisão. Uma 
amostra representativa e aleatória com 30 passageiros foi conduzida no aeroporto da capital 
do país fictício e os resultados estão apresentados na Tabela a seguir.
Estatística Aplicada130
Tabela – Notas de satisfação atribuídas por 30 passageiros
6 4 6 8 7 7 6 6 3 8
7 8 7 5 9 5 8 4 3 8
4 4 8 4 5 6 2 5 9 9
Por meio dessa amostra, desenvolva uma estimativa por intervalo para média de 
satisfação de passageiros se todos tivessem participado da pesquisa (populacional). 
Estime intervalos para 90%, 95% e 99% de confiança. O que acontece com a margem de 
erro e com o intervalo de confiança, conforme aumenta o grau de confiança?
3. A mesma associação fictícia Bem-estar no Ar continua responsável por avaliar a qualidade 
dos aeroportos de um país fictício. Nesse caso, ela tem interesse em avaliar a pontualidade 
de partida dos voos do aeroporto da capital do país fictício. De uma amostra com 550 voos, 
455 podem ser considerados pontuais, pois partiram no horário previsto ou antes do horário 
previsto. Desenvolva um intervalo de confiança de 95% para o índice de partidas pontuais 
de todos os voos do aeroporto da capital do país fictício. Suponha agora que você tenha sido 
convidado para planejar essa mesma pesquisa para o próximo ano e precise dimensionar 
o tamanho ideal de amostra que precisará ser inspecionada, sabendo-se que arbitrou uma 
margem de erro não maior do que 2%. Quantos voos precisam ser inspecionados?
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
HAIR JUNIOR, J. F. et al. Análise multivariada de dados. Trad. de Solange A. Visconti. 5. ed. Porto Alegre: 
Bookman, 2005.
HOUAISS, Antonio. Dicionário Houaiss da Língua Portuguesa. Rio de Janeiro: Objetiva, 2009. Disponível 
em: https://houaiss.uol.com.br/pub/apps/www/v3-3/html/index.php#2. Acesso em: 26 maio 2019.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. 
Trad. de Adonai S. Sant’Anna e Anselmo C. Neto. 3. ed. São Paulo: Cengage Learning, 2014.
8
Inferência estatística: teoria da decisão
O objetivo da inferência estatística é produzir afirmação sobre a característica de uma 
população com base em dados coletados de parte dessa população (amostra). Para esse fim, duas 
premissas precisam ser confirmadas: (a) a amostra precisa ser representativa e aleatória, e (b) a 
característica de interesse (variável aleatória) precisa ter comportamento normal, com muitos 
indivíduos ao redor de um valor médio e poucos indivíduos nos extremos.
Neste capítulo, seguiremos com o aprofundamento em inferência estatística. Há duas técnicas 
para sua aplicação: (a) técnica de estimação (por ponto e por intervalo), como apresentado com 
detalhes no capítulo anterior, e (b) técnica de teste de hipótese, que será detalhada neste capítulo.
Se, na estimação, o objetivo era produzir afirmações do tipo “com 95% de confiança, o 
candidato Fulano tem 36% das intenções de votos, com dois pontos percentuais para mais ou 
para menos”, o objetivo do teste de hipótese será confrontar (testar) a variável de interesse (que 
tem comportamento normal) contra um valor previamente determinado. E, assim, afirmações 
resultantes serão do tipo: “com 95% de confiança, pode-se afirmar que a proporção de votos do 
candidato Fulano não difere de 36%”. Pretende-se, pois, produzir afirmações que versem sobre 
igualdade (e desigualdade), superioridade ou inferioridade da média ou proporção da variável de 
interesse em relação ao valor estabelecido. E essas afirmações serão do tipo: “pode-se afirmar que” 
ou “não se pode afirmar que”.
Suponha que sejamos responsáveis pela inspeção de qualidade de lotes de mercadorias que 
serão exportadas. O lote precisa ser rejeitado se mais de 1% das mercadorias estiverem com defeito. 
Colhida uma amostra de mercadorias, queremos produzir afirmação do tipo: “pode-se afirmar 
que a proporção de mercadorias com defeito não é superior a 1% e, portanto, o lote não precisa 
ser rejeitado”. Isso será possível por meio da técnica de teste de hipótese, dentro ainda do grande 
“guarda-chuva” da inferência estatística. Assim, o objetivo deste capítulo é refinar a tomada de 
decisão gerencial por meio de inferência estatística, especificamente, por meio da técnica de teste 
de hipótese.
Para iniciar a discussão acerca da técnica de teste de hipótese, convém entender a distinção 
entre hipótese nula H0 e hipótese alternativa Ha. Os testes de hipóteses são usados para confrontar 
a média populacional μ ou a proporção populacional p contra valores previamente estabelecidos, 
que, para fins de nomenclatura, adotaremos como μ0, para o caso de média, e como p0, para o caso 
da proporção.
Operacionalmente, iniciamos a aplicação da técnica de teste de hipótese por meio da 
declaração da hipótese nula H0. Tal teste pode versar sobre superioridade (≥), inferioridade (≤) 
ou igualdade (=) da média populacional μ ou proporção populacional p em relação aos valores 
de μ0 ou p0. A hipótese alternativa Ha, por sua vez, é o complemento da hipótese nula. Portanto, 
ao definir a hipótese nula H0, automaticamente, formula-se também a hipótese alternativa Ha. A 
Estatística Aplicada132
seguir, estão exemplos genéricos de como formular hipóteses nula H0 e alternativa Ha para média 
populacionalμ. É evidente que, para cada situação, apenas um caso será testado: superioridade, 
inferioridade ou igualdade.
H0: μ ≥ μ0 H0: μ ≤ μ0 H0: μ = μ0
Ha: μ < μ0 Ha: μ > μ0 Ha: μ ≠ μ0
Veja, a seguir, exemplos genéricos de hipóteses nula H0 e alternativa Ha para proporção 
populacional p:
H0: p ≥ p0 H0: p ≤ p0 H0: p = p0
Ha: p < p0 Ha: p > p0 Ha: p ≠ p0
Sweeney et al. (2014) afirmam que os casos de testes de superioridade (≥) e inferioridade (≤) 
são considerados testes unicaudais, pois têm interesse em inspecionar apenas uma das metades 
da curva normal. Por outro lado, testes de igualdade (=) são chamados de testes bicaudais, pois o 
interesse repousa em saber quanto a média populacional μ, por exemplo, desvia (destoa, se distancia) 
de μ0, tanto para valores mais altos quanto para valores mais baixos, portanto, considerando as duas 
metades da curva normal.
Em termos de interpretação, embora pareça contraintuitivo, a hipótese de interesse é a 
alternativa Ha. É ela que denota o teste para o qual se queira obter uma resposta (teste de interesse) 
e, portanto, precisa ser convergente com o objetivo da própria pesquisa que esteja em curso. Para 
aumentar a chance de declarar H0 e Ha convergentemente com o objetivo da pesquisa, vale buscar 
evidências que suportem estas situações: μ < μ0, μ > μ0 ou μ ≠ μ0 (por exemplo, no enunciado de 
um exercício ou no próprio objetivo de pesquisa). E, assim, proceder com a declaração de Ha com 
convicção.
8.1. Teste de hipótese para média
O primeiro caso a ser analisado é o teste de hipótese para média. Para 
essa situação, existem na técnica de estimação, assim como já vimos no capítulo 
anterior, teste para média populacional μ quando o desvio padrão populacional σ é 
conhecido e teste para média populacional μ quando o desvio padrão populacional 
σ é desconhecido.
8.1.1 Teste para média populacional μ quando o 
desvio padrão populacional σ é conhecido
Como discutido anteriormente, é possível considerar o desvio padrão 
populacional σ conhecido nas situações em que há dados históricos disponíveis ou 
em que exista uma boa estimativa de σ.
Iniciaremos a apresentação do teste de hipótese unicaudal sobre a média 
populacional μ quando o desvio padrão populacional σ é considerado conhecido. 
Testes unicaudais podem ser assim enunciados, consoante com as possibilidades 
apresentadas no Quadro 1, a seguir.
Vídeo
Inferência estatística: teoria da decisão 133
Quadro 1 – Testes unicaudais
Teste de cauda inferior Teste de cauda superior
H0: μ ≥ μ0 H0: μ ≤ μ0
Ha: μ < μ0 Ha: μ > μ0
Fonte: Elaborado pelo autor.
Avancemos com um exemplo aplicado. Suponha que você seja inspetor de qualidade da 
empresa Café Mais Brasil, que embala sacas de cafés estilo premium para exportação. Os rótulos 
afirmam que cada saca tem 3 kg de café, mas é razoável aceitar que o processo produtivo da Café 
Mais Brasil não consiga colocar exatamente 3 kg em cada saca. Como saber se a Café Mais Brasil 
não está colocando sistematicamente menos do que 3 kg em cada saca (seja propositalmente, para 
enganar os consumidores, ou involuntariamente, quando uma máquina esteja operando de forma 
desregulada)? Nesse contexto, os órgãos reguladores não inspecionam individualmente as sacas, 
mas aceitam que a média dos pesos de todas as sacas (média populacional) seja de, pelo menos, 
3 kg por saca, pois, nesse caso, o direito dos consumidores estará garantido. Assim, a Café Mais 
Brasil estará operando dentro da regulação.
Como inspetor de qualidade, você sugere um teste de cauda inferior para média populacional 
dos pesos das sacas de café. O primeiro passo é a declaração das hipóteses nula H0 e alternativa Ha 
para média populacional μ. Se a média populacional dos pesos das sacas de café for, no mínimo, 
de 3 kg, a empresa atende à regulação. Alternativamente, se a média for inferior a 3 kg, ela pode ser 
juridicamente penalizada (sem contar a potencial perda de prestígio em sua marca). As hipóteses 
podem, portanto, ser assim declaradas:
H0: μ ≥ 3 kg
Ha: μ < 3 kg
Nesse exemplo, μ0 = 3 kg, pois esse é o valor contra o qual a média populacional μ 
será testada.
Em termos de interpretação, perceba que, se os dados da amostra fornecerem evidências de 
que a hipótese H0: μ ≥ 3 kg não possa ser rejeitada (portanto H0 possa ser aceita), a conclusão será 
de que a Café Mais Brasil está operando dentro da regulação. Por outro lado, caso H0 seja rejeitada, 
assume-se que a hipótese alternativa Ha: μ < 3 kg possa ser aceita e, assim, a conclusão será de que a 
Café Mais Brasil está fora da regulação, de modo que a acusação de propaganda enganosa poderia 
ser colocada contra a empresa.
Se a média amostral x estiver abaixo do limite estabelecido, ou x < 3 kg, poderia haver dúvidas 
sobre aceitar H0: μ ≥ 3 kg. No entanto, convém saber o quanto menor do que 3 kg poderia ser a 
média amostral x para que a diferença seja significativa a ponto de afirmar que a Café Mais Brasil 
esteja fora da regulação. Essa decisão, porém, depende do grau de confiança (e, portanto, do nível 
de significância) que o pesquisador adotar. Vale recordar: quanto maior for o grau de confiança (e 
menor o nível de significância), a afirmação resultante será proferida com mais certeza. É preciso, 
então, definir o nível de significância. Suponha que a Diretoria da Café Mais Brasil esteja disposta 
a errar apenas 1% e, assim, para o nosso exemplo, α = 0,01 (ou 99% de confiança).
Estatística Aplicada134
O próximo passo será coletar uma amostra e calcular a estatística de teste. Suponha 
que, no exemplo da Café Mais Brasil, n = 36 sacas de café sejam tomadas como amostra e que 
a média amostral tenha resultado em x = 2,92 kg. Esse tipo de teste é conduzido diariamente e 
há disponibilidade de dados históricos, motivo pelo qual o desvio padrão populacional σ pode 
ser considerado conhecido e vale σ = 0,18 kg. Além disso, a premissa de que a distribuição de 
pesos das sacas possa ser considerada normal também é constatada na distribuição amostral de x. 
A estatística de teste é dada por esta fórmula:
Z x
n
calculado �
� �
�
0
Onde:
Zcalculado = estatística de teste
x = média amostral
μ0 = valor contra o qual a média populacional μ será testada
σ = desvio padrão populacional (conhecido)
n = tamanho da amostra
A estatística de teste Zcalculado é o valor calculado, com base na amostra, que representa o 
fenômeno de interesse (peso amostral das sacas de café) na escala da variável normal padrão Z.
A Figura 1, a seguir, apresenta a relação entre a média populacional μ e a distribuição 
amostral de x. Se o experimento (coleta de várias amostras) fosse conduzido múltiplas vezes, os 
resultados das múltiplas médias amostrais teriam distribuição normal.
Figura 1 – Relação entre média populacional μ e a distribuição amostra de x
Distribuição amostral de x
μ = 3
%
x
Fonte: Elaborada pelo autor.
Procedamos, a seguir, com o cálculo da estatística de teste para esse exemplo:
Z x
n
calculado
0 2 92 3
0 18
36
2 67, ,
Inferência estatística: teoria da decisão 135
A interpretação do resultado da estatística de teste é esta: o valor de média amostral x = 2,92 
equivale a Zcalculado = –2,67 na escala da variável normal padrão Z. De conceitos anteriores, pode-se 
afirmar que x = 2,92 esteja a –2,67 desvios padrão do valor μ0 contra o qual a média populacional 
μ está sendo testada.
Um conceito muito comum na área de métodos estatísticos é o de valor_p, também chamado 
de probabilidade de significância ou nível descritivo (BUSSAB; MORETTIN, 2014). Ele remonta 
à área do gráfico sob a curva normal padrão fora de determinado(s) limite(s). Tomemos como 
exemplo o cálculo anterior de Zcalculado = –2,67. O valor_p associado a esse Zcalculado será, pois, a área 
sob a curva normal padrão que esteja abaixo de Z = –2,67, ou seja, será P (Z < –2,67). Da tabela 
de distribuição normal padrão, conclui-se que esse valor será: valor_p = P (Z < –2,67) = 50% – 
49,621% = 0,379% (da tabela de distribuição normal padrão, linha2,6 – parte inteira e primeira 
decimal de Zc– e coluna 7 – segunda decimal de Zc).
Os conceitos de estatística de teste e de valor_p foram apresentados porque há dois métodos 
pelos quais se pode aceitar ou rejeitar H0: o primeiro é pelo critério de valor crítico e o segundo 
é pelo critério de valor_p. Na prática, porém, apenas um dos métodos pode ser adotado, pois as 
conclusões precisam, necessariamente, ser iguais.
Iniciemos com o critério de valor crítico. Uma vez calculada a estatística de teste Zcalculado, o 
próximo passo será compará-la com um valor previamente estabelecido, consoante com nível de 
significância adotado. Esse valor é chamado de valor crítico e pode ser entendido como o maior valor 
de Z (da distribuição normal padrão) que resultará em rejeição de H0. Como o nível de significância 
arbitrado em nosso exemplo (teste de cauda inferior) é de α = 0,01, o valor crítico é definido 
com base na tabela de distribuição normal padrão (vide Tabela 1 do Capítulo 6) de maneira que 
P (Z < Zcrítico ) = 0,01 = 1% ou P (Zcrítico < Z < 0) = 0,49 = 49% (propriedade de simetria da curva 
normal e, portanto, a área sob a metade à esquerda será de 0,50 ou 50%). Nesse exemplo, resulta 
que Zcrítico ~– 2,33. A Figura 2, a seguir, apresenta graficamente a interpretação de Zcrítico na curva 
normal padrão.
Figura 2 – Zcrítico para α = 0,01 na curva normal padrão
%
Distribuição amostral 
 Z x
n
�
� �
�
0
Zcrítico = –2,33 0
α = 0,01
Z
Fonte: Elaborada pelo autor.
Estatística Aplicada136
Outra maneira de ler esse resultado é: Zcrítico ~– 2,33 corresponde a uma área de α = 0,01 na 
cauda inferior de uma distribuição normal padrão. Portanto, se Zcalculado, calculado com base na 
amostra, for menor ou igual a Zcrítico ~– 2,33, significa que a área sob a curva na distribuição normal 
padrão será menor ou igual a α = 0,01. Para o caso da Café Mais Brasil, a regra de decisão será de 
rejeitar H0 se:
Zcalculado ≤ Zcrítico = – 2,67 ≤ –2,33 (verdadeiro)
Eis que a hipótese nula H0 μ ≥ 3 kg será rejeitada, consequentemente, a hipótese alternativa 
Ha μ < 3 kg será aceita. De maneira geral, a decisão sobre rejeitar H0 em teste de cauda inferior 
será dada nesta condição:
Zcalculado ≤ Zcrítico
O mesmo raciocínio é aplicado para um teste de cauda superior; nesse caso, a rejeição de H0 
será dada nesta condição:
Zcalculado ≥ Zcrítico
Conforme apresentado anteriormente, há um segundo método que pode ser empregado 
para decidir sobre a aceitação ou rejeição de H0: critério do valor_p. Em um teste de cauda 
inferior, o valor_p é a área sob a curva normal padrão (portanto é uma probabilidade) para a qual 
P (Z < Zcalculado). Como Zcalculado = –2,67, valor_p = P (Z < –2,67) = 50% –49,621% = 0,379%. Valores 
pequenos para valor_p são evidências contra H0. O critério do valor_p pressupõe que este será 
comparado ao nível de significância α = 0,01. A Figura 3, a seguir, apresenta uma representação 
gráfica da relação entre x , Zcalculado e valor_p.
Figura 3 – Equivalência entre média amostral x e Zcalculado
%
%
Distribuição amostral de x
Distribuição amostral de Z
valor_p = 0,38% 
x = 2,92
Zcalculado = –2,67
μ = 3
0 z
x
Fonte: Elaborada pelo autor.
Inferência estatística: teoria da decisão 137
Para um nível de significância α, a regra da rejeição de H0, quando se usa o critério do 
valor_p em teste de cauda inferior ou superior, é a seguinte:
valor_p ≤ α
Para o caso da Café Mais Brasil, a regra de decisão será de rejeitar H0 se:
valor_p ≤ α = 0,38% ≤ 1% (verdadeiro)
Perceba que ambos os critérios resultam na mesma conclusão: rejeição de H0. No critério 
de valor crítico, compara-se Zcalculado (calculado com base na amostra) com Zcrítico (definido na 
tabela de distribuição normal padrão, embasado no nível de significância arbitrado α). No critério 
de valor_p, compara-se valor_p (calculado com base em Zcalculado) com nível de significância 
arbitrado α.
Portanto, como conclusão final do caso da Café Mais Brasil:
H0: μ ≥ 3 kg → Rejeitada
Ha: μ < 3 kg → Aceita
Com base nessa conclusão, a média de pesos das sacas de café está abaixo de 3  kg. 
Independentemente do motivo que tenha levado a essa situação, a empresa corre riscos, não 
somente jurídicos, mas também de dano à imagem da marca e perda de clientes. Assim, ações 
imediatas precisam ser adotadas.
Ainda no caso de média populacional μ com desvio padrão populacional σ conhecido, 
podemos nos deparar com a necessidade de um teste bicaudal, que pode ser expresso desta forma:
H0 : μ = μ0
Ha : μ ≠ μ0
Suponha este exemplo aplicado: a empresa Campeões do Brasil fabrica bolas de futebol e 
sabe que as bolas produzidas precisam ter um diâmetro de 29,50 cm para que possam ser utilizadas 
em torneios oficiais. No entanto, os equipamentos de produção podem ficar desajustados ao longo 
dos meses, e bolas com diâmetros menores ou maiores do que 29,50 cm podem ser produzidas. 
Em ambos os casos, a empresa pode ser multada ao não atender às especificações da Federação 
de Futebol. Por outro lado, por ser muito difícil mensurar o diâmetro de cada bola produzida, a 
Federação aceita certa tolerância: se a média do tamanho do diâmetro de todas as bolas produzidas 
for de 29,50 cm, a Federação autoriza a continuidade do contrato de fornecimento pela Campeões 
do Brasil. Nesse caso, este é o teste que se quer conduzir:
H0 : μ = 29,50 cm
Ha : μ ≠ 29,50 cm
Se a média amostral x dos diâmetros das bolas for significativamente maior ou menor do 
que 29,50 cm, H0 precisará ser rejeitada e medidas corretivas precisam ser adotadas. Ou, caso x 
não se desvie significativamente de μ0 = 29,50 cm, H0 não poderá ser rejeitada e, assim, nenhuma 
ação é necessária.
Estatística Aplicada138
O nível de significância de α = 0,05 é adotado, pois se constituiu como padrão no setor. 
Por meio de dados históricos, a equipe de controle de qualidade afirma que um desvio padrão 
populacional de σ = 1,2 cm pode ser estabelecido. Também é adequada a premissa de que a 
distribuição amostral de x possa ser aproximada por uma distribuição normal.
Uma amostra de n = 50 bolas foi retirada hoje para inspeção e a média amostral para os 
diâmetros foi calculada em x = 29,76 cm. Considerando o nível de significância de α = 0,05, será 
que esse valor de 29,76 cm é suficientemente grande para rejeitarmos H0?
Podemos responder a esse questionamento por meio de dois métodos: critério do valor 
crítico e critério do valor_p.
Segundo o critério do valor crítico, procede-se com o cálculo da estatística de teste Zcalculado, 
com a definição do valor crítico Zcrítico e a comparação entre eles. A estatística de teste Zcalculado, como 
visto anteriormente, pode ser assim calculada:
Z x
n
calculado
0
1,2
50
1,5329,76 – 29,50
Para identificarmos o valor crítico Zcrítico, consideremos o mesmo raciocínio adotado 
anteriormente. Porém, para o caso atual, por se tratar de um teste bicaudal, será considerada toda 
a curva normal padrão (não apenas metade, como aconteceu no caso anterior de teste unicaudal). 
Por esse motivo, o nível de significância α = 0,05 será a área sob a curva que esteja além do limite 
de Zcrítico, tanto da metade direita quanto da metade esquerda; portanto, P (Z ≤ – Zcrítico) = 2,5% e 
P (Z ≥ Zcrítico) = 2,5%. Assim, P (Z≤ – Zcrítico ) + P (Z ≥ Zcrítico ) = 2,5% + 2,5% = 5% = α. Da tabela da 
distribuição normal padrão, Zcrítico = 1,96, conforme pode ser observado na Figura 4, a seguir.
Figura 4 – Identificação de Zcrítico com base no nível de confiança α = 0,05 arbitrado
%
p (Z ≥ 1,96) = 2,5%
1,96 z–1,96 –0
p (Z ≤ 1,96) = 2,5%
Rejeitar H0 Rejeitar H0
Fonte: Elaborada pelo autor.
As condições para rejeição de H0 para o caso de teste bicaudal será:
Zcalculado ≤ –Zcrítico ou Zcalculado ≥ Zcrítico
Inferência estatística: teoria da decisão 139
No caso do exemplo da Campeões do Brasil, estas são as condições:
1,53 ≤ –1,96 (falso) ou 1,53 ≥ 1,96 (falso)
Como nenhuma das duas condições é satisfeita, não se pode rejeitar H0, assim,a conclusão 
será:
H0 : μ = 29,50 cm → Aceita
Ha: μ ≠ 29,50 cm → Rejeitada
Por outro lado, ao adotar o critério de valor_p, será necessário proceder com o cálculo do 
valor_p e compará-lo ao nível de significância α = 0,05 arbitrado. O valor_p é a área (portanto é 
uma probabilidade) sob a curva normal padrão que destoa, que diverge, que se distancia da média. 
No caso, será a soma destas probabilidades: P (Z < – Zcalculado ) + P (Z > Zcalculado ) = P (Z < –1,53) + 
P (Z > 1,53) = 6,3% + 6,3% = 12,6%, conforme apresentado na Figura 5, a seguir.
Figura 5 – Identificação de valor_p com base na estatística de teste Zcalculado calculado
%
p(Z > 1,53) = 6,3%
valor_p = 6,3% + 6,3% = 12,6%
1,53 z–1,53 0
p (Z < –1,53) = 6,3%
Fonte: Elaborada pelo autor.
A seguir, procedemos com a comparação do valor_p com o nível de significância estabelecido. 
A condição para rejeição de H0 é esta:
valor_p ≤ α
No exemplo da Campeões do Brasil, a comparação será:
12,6% ≤ 5% (falso)
Como já sabíamos dos cálculos pelo critério de valor crítico:
H0: μ = 29,50 cm → Aceita
Ha: μ ≠ 29,50 cm → Rejeitada
Assim, a média populacional μ dos diâmetros das bolas produzidas pela Campeões do Brasil 
pode ser considerada 29,50 cm, consoante com os critérios estabelecidos pela Federação de Futebol 
e, por enquanto, nenhuma ação precisa ser tomada quanto à adequação na produção.
Estatística Aplicada140
8.1.2 Teste para média populacional μ quando o desvio 
padrão populacional σ é desconhecido
Como visto anteriormente, quando não conhecemos o desvio padrão populacional σ, 
utilizaremos a média amostral x como estimador de μ e o desvio padrão amostral s como 
estimador de σ. Os procedimentos a serem adotados são semelhantes àqueles presentes no caso de 
teste para média populacional μ quando o desvio padrão populacional σ é conhecido. Assim como 
no capítulo anterior, a principal diferença repousa no fato de que a distribuição amostral não segue 
mais a distribuição normal padrão, mas, agora, a distribuição t-Student.
Nesse caso, a estatística de teste será dada por:
t x s
n
calculado �
� �0
Onde:
tcalculado = estatística de teste
x = média amostral
μ0= valor contra o qual a média populacional μ será testada
s = desvio padrão amostral (conhecido)
n = tamanho da amostra
Avancemos com um exemplo de teste unicaudal. Suponha que um exame internacional 
avalie cursos de administração de empresas ao redor do mundo. Cursos com média maior do 
que 7 (em uma escala de 0 a 10) serão designados como cursos de excelência. Trinta alunos de 
uma faculdade de sua cidade participaram desse exame e o resultado foi uma média amostral 
de x = 7,35 e um desvio padrão amostral de s = 1,052. Como saber se a faculdade de sua cidade tem 
um curso de administração de empresas que possa ser considerado de excelência?
Este será um teste de cauda superior. Partimos, então, para as declarações das hipóteses, que, 
nesse caso, podem aparecer assim:
H0: μ ≤ 7
Ha: μ > 7
Quando nenhuma informação é lançada sobre a confiança, adotar 95% de grau de confiança 
é adequado, portanto o nível de significância será de α = 0,05.
O cálculo da estatística de teste produz este resultado:
t x s
n
calculado �
�
�
�
�
�
0
7 35 7
2 052
30
1 82
,
,
,
Inferência estatística: teoria da decisão 141
Para a identificação do tcrítico, será necessário utilizar a tabela de distribuição t-Student, 
apresentada no capítulo anterior, com n – 1 graus de liberdade, portanto 29 graus de liberdade e 
nível de significância de α = 0,05. Como estamos conduzindo um teste unicaudal, será necessário 
considerar p
2
� ��, então, com p = 10% (na tabela de distribuição t-Student, p significa a probabilidade 
de t estar fora dos limites de ±tc, nas duas metades da curva). Na linha de 29 graus de liberdade e 
na coluna de p =10%, obtém-se tcrítico = 1,699.
Para um teste de cauda superior, a condição para rejeição de H0 pode ser assim expressa:
tcalculado ≥ tcrítico
Para o caso desse exame internacional, os valores são estes:
1,82 ≥ 1,699 (verdadeiro)
Portanto:
H0: μ ≤ 7 → Rejeitada
Ha : μ > 7 → Aceita
Consoante com os resultados alcançados, a faculdade de sua cidade oferece um curso de 
Administração de Empresas que pode ser considerado de excelência.
Se o critério de valor_p fosse adotado, em situações variadas, não é possível calcular o 
valor exato do valor_p, pois a maior parte das tabelas disponíveis não fornece todos os valores 
calculados – como é o caso da tabela apresentada no capítulo anterior. Assim, pode-se estimar o 
valor_p desta maneira: com base na estatística de teste tcalculado = 1,82, para 29 graus de liberdade, é 
necessário encontrar qual é o intervalo de probabilidades de p que conteria o valor de tcalculado = 1,82. 
No exemplo, considerando a tabela de distribuição t-Student, na linha de 29 graus de liberdade, 
a probabilidade p para tcalculado = 1,82 estaria no intervalo entre 10% (t = 1,699) e 5% (t = 2,045). 
Portanto, o valor_p estaria no intervalo entre 5% e 2,5% (lembrar que a tabela apresenta p como a 
área externa a ± tc, tanto para a metade esquerda quanto para a metade direita da curva).
Para um teste de cauda superior, a condição para rejeição de H0 pode ser assim expressa:
valor_p ≤ α
Para o caso desse exame internacional, os valores são estes:
entre 2,5% e 5% ≤ 5% (verdadeiro)
Portanto, novamente:
H0: μ ≤ 7 → Rejeitada
Ha: μ > 7 → Aceita
Consideremos agora um teste bicaudal. Suponha que uma empresa de transporte de ônibus 
precise monitorar quanto tempo os motoristas gastam para percorrer determinado trecho de um 
novo itinerário. Espera-se que a média desse tempo seja de 40 minutos. Motoristas que cheguem 
Estatística Aplicada142
fora do tempo previsto precisam ter o computador de bordo e o GPS inspecionados, pois, caso 
esse tempo tenha sido menor do que 40 minutos, podem ter cometido infração de trânsito ao 
circularem acima da velocidade permitida para a via. Por outro lado, caso esse tempo tenha sido 
maior do que 40 minutos, podem ter dirigido devagar demais e, assim, acabarão atrasando a saída 
para o próximo itinerário. Nesse contexto, as hipóteses podem ser assim enunciadas:
H0 : μ = 40 minutos
Ha: μ ≠ 40 minutos
Não rejeitar H0 implica que o tempo médio de μ = 40 minutos esteja sendo respeitado e, 
assim, nenhuma ação precisa ser tomada. Alternativamente, rejeitar H0 pode levar a empresa 
a adotar um novo programa de capacitação ou, eventualmente, até mesmo recalcular o tempo 
previsto para esse itinerário. Por se tratar de um novo itinerário, a média populacional μ e o desvio 
padrão populacional devem ser, ambos, estimados utilizando-se x e s dos dados amostrais.
Na primeira semana de atividade, uma amostra com 25 viagens produziu uma média 
amostral de x = 37,4 minutos e um desvio padrão amostral de s =11,79 minutos. Supondo cumpridas 
as premissas para condução do teste de hipótese, procede-se com o cálculo da estatística de 
teste assim:
t x s
n
calculado �
�
�
�
� �
�
0
37 4 40
11 79
25
1 10
,
,
,
Por meio do critério do valor crítico, para um teste bicaudal, para nível de confiança de 
α = 0,05 e graus de liberdade = n – 1 = 25 – 1 = 24, identifica-se na tabela de distribuição t-Student 
que tcrítico = 2,064 (linha 24 e coluna p = 5%). As condições para rejeição de H0 são estas:
tcalculado ≤ – tcrítico ou se tcalculado ≥ tcrítico
No caso aplicado, temos:
–1,10 ≤ –2,064 (falso) ou se –1,10 ≥ 2,064 (falso)
Desta forma, H0 não pode ser rejeitada e nenhuma ação precisa ser tomada em relação a 
esse itinerário:
H0 : μ = 40 minutos → Aceita
Ha : μ ≠ 40 minutos → Rejeitada
Resolvendo essa situação por meio do critério do valor_p, por se tratar de um teste bicaudal, 
o valor_p será P (t < tcalculado ) + P (t > – tcalculado). Com base na estatística de teste tcalculado = –1,10, para 
24 graus de liberdade, é necessário encontrar qual é o intervalo de probabilidades de p que conteria 
o valor de tcalculado = –1,10. Pela propriedade de simetria da distribuição t-Sudent,vamos adotar o 
valor positivo de tcalculado = 1,10 e considerar a metade à direita da média. No exemplo, na linha de 24 
graus de liberdade, para tcalculado = 1,10, o valor_p (nesse caso, p já é o próprio valor_p, pois a tabela 
Inferência estatística: teoria da decisão 143
da distribuição de t-Student já considera os dois extremos da curva) estaria no intervalo entre 20% 
(t = 1,318) e 30% (t = 1,059). A condição para rejeição de H0 pelo critério de valor_p é dada por:
valor_p ≤ α
Para o caso específico:
entre 20% e 30% ≤ 5% (falso)
Novamente, a conclusão é:
H0 : μ = 40 minutos → Aceita
Ha: μ ≠ 40 minutos → Rejeitada
Não há, então, evidências suficientes de que a empresa de ônibus precise tomar ação corretiva 
para esse itinerário.
8.2 Teste de hipótese para proporção
Outro caso para teste de hipótese será o de proporção populacional p. Seja p0 
o valor contra o qual o teste será conduzido, estas são as formulações possíveis de 
hipóteses nula H0 e alternativa Ha:
H0 : p ≥ p0 H0 : p ≤ p0 H0 : p = p0
Ha : p < p0 Ha : p > p0 Ha : p ≠ p0
Os procedimentos para conduzir o teste de hipótese seguem a mesma linha 
de raciocínio daqueles que aplicamos no teste de hipótese para média populacional.
Suponha que uma faculdade da sua cidade queira ampliar o número de 
estudantes estrangeiros. No ano passado, 20% dos estudantes eram estrangeiros, 
mas os diretores lançaram agora uma campanha para atrair mais alunos do exterior: 
estes não pagarão hospedagem no primeiro ano do curso, pois poderão se hospedar 
de graça no campus universitário. Após o período de matrículas, uma pesquisa foi 
conduzida para confirmar se a campanha gerou o resultado esperado.
As hipóteses nula H0 e alternativa Ha podem ser assim declaradas:
H0 : p ≤ 0,20
Ha : p > 0,20
A rejeição de H0 permitirá concluir que a campanha gerou o resultado 
esperado: o número de estudantes estrangeiros aumentou. Um nível de significância 
de α = 0,05 é considerado adequado para esse teste de cauda superior, e a premissa 
de normalidade da distribuição amostral de p é assumida.
A estatística de teste é dada por:
Z p p
p p
n
calculado �
�
�� �
0
0 0
1
Vídeo
Estatística Aplicada144
Onde:
Zcalculado = estatística de teste
p = proporção amostral
p0 = valor contra o qual a proporção populacional p será testada
n = tamanho da amostra
Em nosso exemplo, suponha que, em uma amostra de n = 400 estudantes, obtenhamos 
r = 100 estudantes estrangeiros e, portanto, a proporção de estudantes estrangeiros será de:
p = =100
400
0 25,
A estatística de teste para esse caso específico é calculada por:
Z p p
p p
n
calculado �
�
�� �
�
�
�� �
�0
0 0
1
0 25 0 20
0 20 1 0 20
400
0 05
0 02
, ,
, ,
,
,
�� 2 50,
Por meio do critério de valor crítico, o Zcrítico obtido para o nível de significância de 0,05 
é dado por P (Z ≥ Zcrítico ) = 5% = 0,05. Assim, Zcrítico = 1,64 (linha 1,6 – parte inteira e primeira 
decimal de Z – e coluna 4 – segunda decimal de Z). A condição para rejeição de H0, no caso de teste 
de cauda superior, é dada por:
Zcalculado ≥ Zcrítico
No exemplo:
2,50 ≥ 1,64 (verdadeiro)
A conclusão, então, é:
H0 : p ≤ 0,20 → Rejeitada
Ha : p > 0,20 → Aceita
Há evidências de que a campanha tenha surtido efeito, pois a proporção de estudantes 
estrangeiros na faculdade da sua cidade supera os 20% do ano anterior.
Considerando o critério de valor_p, podemos proceder ao cálculo de valor_p com base em 
Zcalculado: P (Z ≥ Zcalculado ) = 50% – 49,379% = 0,621%. Como valor_p ≤ α (0,621% ≤5%), H0 pode ser 
rejeitada, pois a condição de rejeição é dada por:
valor_p ≤ α
A conclusão obtida aqui é novamente convergente com a que tínhamos do critério de 
valor crítico:
H0 : p ≤ 0,20 → Rejeitada
Ha : p > 0,20 → Aceita
Inferência estatística: teoria da decisão 145
Uma aplicação do teste de hipótese para proporção é em pesquisas de intenção de voto: 
como saber se determinado candidato está acima de determinado percentual? Perceba o caráter 
complementar do teste de hipótese em relação ao intervalo de confiança.
Considerações finais
O teste de hipótese é uma técnica que permite produzir uma afirmação (de aceitação ou de 
rejeição) sobre uma população, com base em dados coletados em uma amostra. Diferentemente do 
caso anterior de estimação, em que a tentativa é estimar um valor para média ou para proporção, 
no teste de hipótese, o objetivo é confirmar ou não uma afirmação formulada (hipótese) com base 
em um número previamente arbitrado.
Neste capítulo, foram analisados cinco casos de interesse: teste de hipótese unicaudal (1) 
e bicaudal (2) para média populacional μ para desvio padrão populacional σ conhecido (3) e 
desconhecido (4) e teste de hipótese para proporção populacional p (5). Para cada teste, foram 
propostas condições para rejeição das hipóteses enunciadas, consoante com dois critérios 
apresentados: critério de valor crítico e critério de valor_p. Convém reforçar que ambos os critérios 
precisam resultar nas mesmas conclusões e, portanto, na prática, apenas um poderá ser adotado.
Por fim, ressalta-se que as conclusões obtidas após a confirmação ou rejeição das hipóteses 
podem proporcionar reflexão acerca de potenciais tomadas de decisão que a situação em mãos 
exigir. Reside aí a principal contribuição da técnica de teste de hipótese para os negócios e para 
a vida.
Os quadros a seguir apresentam resumos com fórmulas e condições para os testes de hipótese 
apresentados neste capítulo.
Quadro 2 – Fórmulas e condições do teste para média populacional μ com desvio padrão populacional σ 
conhecido
Teste de cauda inferior Teste de cauda superior Teste bicaudal
Hipótese
H0 : μ ≥ μ0
Ha : μ < μ0
H0 : μ ≤ μ0
Ha : μ > μ0
H0 : μ = μ0
Ha : μ ≠ μ0
Estatística de teste
Zcalculado Z
x
n
calculado �
� �
�
0
Condição de rejeição de H0 
para critério do valor crítico
Zcalculado ≤ Zcrítico Zcalculado ≥ Zcrítico
Zcalculado ≤ –Zcrítico ou 
Zcalculado ≥ Zcrítico
Condição de rejeição de H0 
para critério do valor_p
valor_p ≤ α
Fonte: Elaborado pelo autor.
Estatística Aplicada146
Quadro 3 – Fórmulas e condições do teste para média populacional μ com desvio padrão populacional σ 
desconhecido
Teste de cauda inferior Teste de cauda superior Teste bicaudal
Hipótese
H0 : μ ≥ μ0
Ha : μ < μa
H0 : μ ≤ μ0
Ha : μ > μ0
H0 : μ = μ0
Ha : μ ≠ μ0
Estatística de teste
tcalculado t
x
s
n
calculado �
� �0
Condição de rejeição de H0 
para critério do valor crítico
tcalculado ≤ – tcrítico tcalculado ≥ tcrítico
tcalculado ≤ –tcrítico ou 
tcalculado ≥ tcrítico
Condição de rejeição de H0 
para critério do valor_p
valor_p ≤ α
Fonte: Elaborado pelo autor.
Quadro 4 – Fórmulas e condições do teste para proporção populacional p
Teste de cauda inferior Teste de cauda superior Teste bicaudal
Hipótese
H0 : p ≥ p0
Ha : p < p0
H0 : p ≤ p0
Ha : p > p0
H0 : p = p0
Ha : p ≠ p0
Estatística de teste
Zcalculado Z
p p
p p
n
calculado �
�
�� �
0
0 0
1
Condição de rejeição de 
H0 para critério do valor 
crítico
Zcalculado ≤ – Zcrítico Zcalculado ≥ Zcrítico
Zcalculado ≤ – Zcrítico ou 
Zcalculado ≥ Zcrítico
Condição de rejeição 
de H0 para critério do 
valor_p
valor_p≤ α
Fonte: Elaborado pelo autor.
Embora não sejam apresentadas neste capítulo, todas as técnicas multivariadas (exceto 
análise de cluster – agrupamentos – e escalonamento multidimensional) são baseadas na inferência 
estatística (HAIR JUNIOR et al., 2005).
Ampliando seus conhecimentos
• CONHECENDO a UFG – laboratório de controle de qualidade de alimentos, 2012. 1 vídeo 
(1 min.). Publicado pelo canal UFG. Disponível em: https://www.youtube.com/watch? 
v=Uo4U4kdkbRA. Acesso em: 26 maio 2019.
O controle de qualidade de alimentos é um excelente exemplo de teste de hipótese, 
pois, com base em uma amostra, o objetivo será fornecer uma afirmação sobre toda 
a produção. Nesse vídeo, é apresentado o Laboratório de Controle de Qualidade de 
Alimentos (LCQA), que procede com testes desse tipo. Com base nos resultados, será 
Inferência estatística:teoria da decisão 147
possível determinar se uma determinada produção de alimentos está livre de impurezas 
ou se está imprópria para o consumo e se poderá ser comercializada ou não, segundo 
critérios de segurança alimentar.
• EMPRESAS encaram o desafio de medir resultados com marketing. GauchaZH, 
Porto Alegre, 2019. Disponível em: https://gauchazh.clicrbs.com.br/economia/noticia/ 
2019/04/empresas-encaram-o-desafio-de-medir-resultados-com-marketing-
cjulwfz6e03cv01rt77x77t2x.html. Acesso em: 26 maio 2019.
Essa reportagem traz evidências do quão difícil pode ser mensurar iniciativas de 
marketing nas organizações. Embora seja bastante intuitiva a ideia de que o marketing 
contribua para as vendas, ainda não há evidências de que essa contribuição seja direta. 
Nesse contexto, considerar a proporção de público-alvo antes e depois da campanha pode 
ser uma maneira de tentar mensurar os efeitos de uma iniciativa de marketing. O teste de 
hipótese para proporção pode ser um aliado nesse processo.
Atividades
1. Uma loja de departamentos tem estudado maneiras de amenizar a inconveniente situação 
de os clientes terem que esperar nas filas dos caixas. Uma sugestão que está sendo avaliada 
é a de instalar televisores para que os clientes assistam a breves notícias, entrevistas e 
anúncios enquanto aguardam nas filas. Estudos anteriores mostram que o tempo médio 
que o cliente fica na fila é de 8 minutos com desvio padrão populacional conhecido de σ = 
3,2 minutos. Tempos menores do que 8 minutos podem ser ruins, pois os anunciantes desse 
canal se sentirão lesados; por outro lado, tempos maiores do que 8 minutos também são 
ruins, pois sinalizam que os clientes estão na fila por mais tempo do que o previsto e podem 
ficar insatisfeitos. Uma amostra com 120 clientes apresentou tempo médio de espera de 8,5 
minutos. Teste a hipótese de que o tempo médio de espera difira do padrão de 8 minutos 
para um nível de significância de α = 0,05. Pode-se supor que as premissas para condução 
do teste de hipótese são satisfeitas.
2. A empresa fictícia de transportes urbanos App 88 implantou uma política de qualidade que 
monitora a satisfação de seus clientes por meio de mensagens enviadas após cada corrida. 
O cliente responde à mensagem com uma nota de 0 a 10, sendo zero a nota mais baixa e 10 
a nota mais alta. Uma amostra representativa e aleatória com 30 passageiros foi considerada 
para a última edição dessa pesquisa de satisfação, e os dados estão apresentados na Tabela 
a seguir.
Tabela – Notas de satisfação atribuídas por 30 passageiros da App 88
7 8 6 8 7 9 6 6 5 9
7 8 7 5 9 5 8 4 5 8
10 9 8 4 5 7 4 5 9 10
Estatística Aplicada148
A equipe de qualidade definiu que, com nível de significância de α = 0,01, uma média 
populacional μ > 7 atende aos requisitos de qualidade da empresa. Com base na amostra 
coletada, pode-se afirmar que a satisfação esteja dentro dos requisitos de qualidade da 
empresa? Caso o nível de significância fosse alterado para α = 0,05, sua conclusão seria 
diferente? Por quê?
3. Um novo projeto de lei está sendo avaliado pelos políticos de um país fictício. Esse projeto 
de lei tem implicações severas para as políticas de segurança pública, por esse motivo, há 
um consenso de que, nesses casos, a população precisa ser consultada, sendo necessário que 
mais de 80% esteja a favor desse novo projeto de lei. Uma pesquisa está sendo conduzida 
para se ter uma primeira ideia de como será a adesão popular. De uma amostra com 550 
cidadãos, 455 mostram-se a favor do projeto de lei. Com 95% de grau de confiança, pode-
-se afirmar que, se a votação acontecesse hoje, o projeto de lei seria aprovado ou rejeitado? 
Considerar satisfeitas as premissas para condução de teste de hipótese.
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
HAIR JUNIOR, J. F. et al. Análise multivariada de dados. Trad. de Adonai S. Sant’Anna e Anselmo C. Neto. 5. 
ed. Porto Alegre: Bookman, 2005.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia. 
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
9
Introdução à análise multivariada de dados: 
regressão e correlação
Em capítulos anteriores, foram apresentados alguns dos métodos estatísticos mais 
aplicados em nosso dia a dia, no ambiente corporativo e no de pesquisa. Esses métodos incluem 
a estatística descritiva, as probabilidades e a inferência estatística, cada qual com objetivo 
intrínseco específico. Todos esses métodos têm como característica a análise de uma variável 
quantitativa, discreta ou contínua, com distribuições de complexidade maior ou menor. 
Em todos os casos, essa análise era do tipo univariada: uma variável por vez. Por exemplo, média 
e desvio padrão para uma variável, probabilidade de uma variável, intervalo de confiança e teste 
de hipótese sempre para uma variável.
Neste capítulo, veremos um novo tema relacionado aos métodos estatísticos: a análise 
multivariada dos dados. Como o termo sugere, o interesse agora não repousará mais em uma 
variável quantitativa (análise univariada), mas na relação entre duas ou mais variáveis quantitativas.
Podem existir relações de diferentes complexidades entre duas ou mais variáveis quanti- 
tativas. Há relações mais simples, como a correlação, e também mais sofisticadas, como a regressão 
linear, análise de cluster (ou análise de agrupamentos), análise discriminante e análise fatorial.
Neste capítulo, avançaremos com duas técnicas mais simples, mas, seguramente, 
potencialmente poderosas para a tomada de decisão. A primeira será a correlação, que tenta 
estabelecer uma relação de comportamentos parecidos entre variáveis. Uma afirmação do tipo 
“a obesidade infantil e a venda de tênis têm correlação alta” causa estranheza, não é mesmo? Isso 
porque essas duas variáveis – obesidade infantil e venda de tênis – parecem não ter nada a ver uma 
com a outra. Por outro lado, uma afirmação do tipo “horas de estudo e nota na prova têm correlação 
alta” parece ser absolutamente comum, porque é lógico que quem estuda mais tem mais chance 
de ter melhor desempenho na avaliação. Contudo, as duas afirmações podem ser verdadeiras: 
diferentemente do que se aceita popularmente, a correlação não mensura relação de causa e efeito, 
mas apenas comportamentos parecidos entre variáveis. Por exemplo, se historicamente a obesidade 
infantil aumentou nos últimos anos e a venda de tênis também aumentou nos últimos anos, a 
correlação entre essas duas variáveis será alta (ainda que não pareça haver relação lógica entre elas). 
Dessa forma, a correlação mensura quão parecidos são os comportamentos das variáveis.
Outra técnica muito apreciada nos métodos estatísticos é a regressão linear, pois seus 
resultados permitem uma importante tomada de decisão. Seu objetivo será, com base em dados 
históricos ou coletados, declarar um modelo preditivo para uma variável de interesse. Suponha que 
você receba uma carta do banco informando que seu limite de cheque especial foi aumentado em 
R$ 1.000,00. Você imediatamente pensa: “como esse banco é bom, aumentaram o limite de cheque 
especial sem que eu solicitasse!”. Antes de nos precipitarmos nessa conclusão, vale este comentário: 
bancos (e instituições financeiras no geral) atualizam, com regularidade, modelos estatísticos 
Estatística Aplicada150
preditivos para, por exemplo, a variável limite de crédito. Com base em dados históricos, o modelo 
estatístico sinaliza que seu limite de crédito, que era de R$ 5.000,00, pode agora ser de R$ 6.000,00.
Nesse contexto, os objetivos deste capítulo incluem calcular correlação, identificar e descrever 
modelos preditivos e possibilitar a melhoria da tomada de decisão gerencial por meio de modelos 
preditivos.
9.1 Associação entre variáveis quantitativas
Em muitas aplicações do cotidiano, o interesse pode respousar não apenas 
na descrição ou na inferência sobre determinada variável, mas na relação (ou 
potencialrelação) que existe entre variáveis diferentes. Isso acontece porque, em 
situações variadas, se a relação entre as variáveis é conhecida, é possível tomar 
alguma ação sobre uma delas e prever o resultado da outra. Tomemos, como 
exemplo, a relação entre as variáveis qualidade no atendimento e satisfação do 
cliente. Parece ser razoável assumir que, quanto maior a qualidade no atendimento, 
maior também será a satisfação do cliente. No entanto, satisfação do cliente parece 
ser uma variável sobre a qual não se toma uma ação diretamente e, nesse caso, 
precisamos investigar o que é que condiciona, influencia e impacta a satisfação do 
cliente. Assim, se a relação entre as variáveis é conhecida, ações sobre a qualidade 
no atendimento podem ser tomadas para que, como resultado, a satisfação do 
cliente seja maior. Exemplos de ações gerenciais podem inclur: capacitação dos 
colaboradores, reformulação na política de troca de mercadorias e criação de uma 
central de atendimento.
Nos métodos quantitativos, essa relação entre variáveis quantitativas é 
chamada de associação. Há maneiras diferentes de se mensurar a associação entre 
variáveis. Uma delas é a covariância (também chamada de variância conjunta), 
que, segundo Lapponi (2005), mede a tendência e a força da relação linear entre 
duas variáveis que tenham o mesmo número de dados disponíveis. Os dados 
são considerados sempre aos pares (portanto a sequência em que os dados estão 
dispostos, par a par, é importante). Para o caso de população, a covariância σxy das 
variáveis x = x1, x2, …, xn e y = y1, y2, …, yn, é assim calculada:
σxy = N i
N1
1
 (xi – μx) × (yi – μy)
Onde:
σxy = covariância das variáveis x e y
N = tamanho da população
xi = mensuração da variável x para o indivíduo i
yi = mensuração da variável y para o indivíduo i
μx = média populacional da variável x
μy = média populacional da variável y
Vídeo
Introdução à análise multivariada de dados: regressão e correlação 151
Para o caso de amostra, a mensuração de cada indivíduo será feita contra a média amostral 
(não populacional), e a divisão será n – 1 por e não por N (pelo motivo discutido em capítulo 
anterior sobre graus de liberdade).
Matematicamente, podemos entender a covariância como o afastamento simultâneo 
(das duas variáveis ao mesmo tempo), de cada indivíduo, em relação às respectivas médias. 
Intuitivamente, no entanto, é uma medida da interdependência entre as variáveis e, portanto, 
variáveis independentes têm covariância zero. De maneira geral, vale o reforço: a covariância mede 
a força da relação linear entre duas variáveis.
Outra mensuração de associação comum na área dos métodos estatísticos é o coeficiente 
de correlação. A correlação é potencialmente uma das nomenclaturas oriundas dos métodos 
estatísticos mais amplamente utilizadas no cotidiano, mas, muitas vezes, de forma equivocada, 
como veremos a seguir.
O cálculo da correlação tem como base a covariância, motivo pelo qual esta foi apresentada 
primeiramente. Matematicamente, o coeficiente de correlação pode ser assim calculado, para o 
caso de população:
rxy
xy
x y
� σσ σ
Onde:
rxy = correlação entre variáveis x e y
σxy = covariância das variáveis x e y
σx = variância de x
σy = variância de y
Em complemento à covariância, a correlação mede tanto a força da relação linear entre duas 
variáveis quanto a direção. Assim como no caso da covariância, para o caso de amostra (não de 
população), o desvio padrão populacional das variáveis é substituído pelo desvio padrão amostral.
A correlação estará sempre limitada a este intervalo, em escala adimensional: –1 ≤ rxy ≤ + 1. 
E os resultados extremados são estes:
rxy = 1: variáveis perfeitamente e positivamente correlacionadas;
rxy = 0: variáveis não correlacionadas
1;
rxy = –1: variáveis perfeitamente e negativamente correlacionadas.
Esses resultados extremados são excelentes para entendermos o resultado calculado que 
tivermos à mão. Por exemplo, uma correlação de 0,83 está mais próxima de 1 e, portanto, as duas 
1 É de notar que variáveis não correlacionadas e variáveis independentes podem não ter a mesma interpretação. 
Embora variáveis independentes tenham correlação zero, o fato de duas variáveis terem correlação zero não implica 
independência entre elas. Para aprofundamento, pesquisar sobre as condições para independência entre variáveis 
aleatórias.
Estatística Aplicada152
variáveis são altamente e positivamente correlacionadas. Em termos práticos, valores que atendam 
a estes critérios r ≤ –0,70 ou r ≤ 0,70 podem indicar variáveis altamente correlacionadas.
Variáveis altamente correlacionadas, positiva ou negativamente, sinalizam para 
comportamentos conhecidos entre as variáveis consideradas. Por exemplo, correlação alta e 
positiva entre duas variáveis sinaliza que, quando uma tem determinada variação, a outra também 
tem variação na mesma direção e praticamente com a mesma intensidade (a depender de quão 
alta é a correlação). Correlação alta e negativa, por sua vez, sinaliza que as variáveis oscilam em 
direções opostas: quando uma sobe, a outra desce, praticamente na mesma intensidade (também a 
depender de quão alta é a correlação).
No Excel, será utilizada a função correl para obter a correlação entre duas variáveis. O 
primeiro parâmetro serão os dados da primeira variável, e o segundo parâmetro serão os dados da 
segunda. Vale ressaltar que, diferentemente do uso corriqueiro do termo, a correlação não implica 
relação de causa e efeito, mas apenas que duas variáveis detêm comportamentos previsíveis entre si.
9.2 Estimação dos parâmetros
Outra maneira de estabelcer a associação entre variáveis é por meio da 
regressão linear. Há dois tipos de regressão linear: regressão linear simples e 
regressão linear múltipla. Somente a regressão linear simples será apresentada 
nesta obra, embora muitos conceitos sejam extensíveis ao caso da regressão linear 
múltipla.
Cabe lembrar que a correlação se limita a oferecer comportamentos 
previsíveis entre as variáveis, não uma relação de causa e efeito entre elas. Apesar 
de parecer um trocadilho, esta afirmação esclarece muitas dúvidas acerca da 
correlação: embora a correlação alta não implique relação de causa e efeito entre 
as variáveis, variáveis que sabidamente tenham uma relação de causa e efeito têm 
correlação alta. Essa afirmação tem impactos profundos nas discussões a seguir, 
motivo pelo qual vale uma pausa na leitura: releia a afirmação e reflita.
Muito interesse repousa em mecanismos que possam fornecer maneiras de 
gerar modelos preditivos em que se estabeleça relação de causa e efeito. Imagine 
poder ter à mão um modelo que consiga predizer a cotação do dólar ante o real 
com um dia de antecedência: seria possível ganhar muito dinheiro, não é mesmo? 
Modelos preditivos permitem prever situações futuras e isso é sempre oportuno 
para o tomador de decisão, pois possibilita decisões significativamente melhores.
Este será o principal mérito da regressão linear: propor modelos preditivos 
com base em dados históricos ou disponíveis. Para o caso de regressão linear 
simples, esses modelos serão do tipo:
y = a + bx
Vídeo
Introdução à análise multivariada de dados: regressão e correlação 153
Onde:
y = variável dependente
a = ponto de partida, parte fixa, valor que independe da variável x
b = coeficiente da variável independente
x = variável independente
Chamamos y de variável dependente porque ela depende de outra variável para ser calculada. 
Por sua vez, chamamos x de variável independente porque, para o fenômeno que esteja sendo 
analisado, não depende de outra variável.
Pensemos neste exemplo aplicado: suponha que os custos de produção de uma fábrica 
fictícia de camisetas básicas sejam apresentados na Tabela 1, a seguir.
Tabela 1 – Custos de produção de uma fábrica fictícia de camisetas básicas
Quantidade (q) 0 5 10 20 50 100
Custo (R$) 100 110 120 140 200 300
Fonte: Elaborada pelo autor.
Esse exemplo será ótimo para relembrarmos os conceitosde função (polinomial) de primeiro 
grau, também chamada de função linear (MUROLO; BONETTI, 2012). De partida, percebe-se 
que há custo mesmo quando a quantidade produzida é zero. Esse é o conceito de custo fixo e, na 
prática, pode representar, por exemplo, aluguel, água, energia, telefone e despesas com pessoal 
administrativo. O aluguel é um excelente exemplo de custo fixo, pois, independentemente se 
produzirmos nada, pouco ou muito, será necessário procederemos com esse pagamento, portanto 
independe da quantidade produzida.
Nota-se que, para cada cinco camisetas produzidas, há aumento de R$ 10,00: para produção 
de cinco peças, aumentou o custo, em relação a nenhuma produção, em R$ 10,00; para produção 
de dez, aumentou o custo, em relação à produção de cinco peças, em mais R$ 10,00, e assim 
sucessivamente. Portanto, unitariamente, o custo variável para cada camiseta produzida é de 
R$ 2,00. De maneira genérica, podemos representar esse fenômeno assim:
custo total = custo fixo + custo variável
Especificamente para o caso apresentado, pode-se representar a equação de primeiro 
grau assim:
C(q) = 100 + 2q
Onde:
C(q) = custo total (que depende de q)
100 = custo fixo, inicial, aquele incorrido mesmo sem produção
2 = coeficiente do custo variável, custo para cada camiseta adicional
q = quantidade a ser produzida
Estatística Aplicada154
A Figura 1, a seguir, apresenta uma representação gráfica da relação de camisetas produzidas 
e custo total.
Figura 1 – Relação de camisetas produzidas e custo total
C = 2q + 100
Variação em C = 60
Variação em q = 30
200
140
100
20 50 q
C
Fonte: Elaborada pelo autor.
De maneira geral, o objetivo da regressão linear simples será encontrar um modelo preditivo 
deste tipo:
y = a + bx
É evidente que, para o exemplo da fábrica de camisetas, os números são fictícios e teóricos. Na 
prática, no entanto, serão utilizados dados históricos ou dados disponíveis para se conseguir chegar 
ao modelo preditivo. Em outras palavras, pode-se afirmar que, com base em comportamentos 
anteriores, a tentativa da regressão linear será prever o comportamento futuro.
Em termos práticos, define-se a relação que se queira inspecionar e, com base em dados 
históricos, procede-se com a estimação dos parâmetros a e b (HAIR JUNIOR et al., 2005).
Avancemos com um exemplo prático. É de supor que, historicamente, investimento em 
propaganda tenha impacto em vendas, e é razoável admitir que, quanto maior o investimento 
em propaganda, maiores são as vendas de determinado produto. Suponha que você acabe de 
ser convidado(a) para assumir a posição de diretor(a) de marketing de uma empresa fictícia que 
venda automóveis. Você pede um relatório com os dados de investimento em propaganda e 
das vendas dos últimos 10 anos. Os resultados são apresentados na Tabela 2, a seguir – considerar 
a escala em milhões de reais.
Tabela 2 – Investimento em propaganda e vendas de automóveis dos últimos 10 anos da empresa fictícia
Propaganda 30 21 35 42 37 20 8 17 35 25
Vendas 430 335 520 490 470 210 195 270 400 480
Fonte: Elaborada pelo autor.
Será que, com base nos dados apresentados na Tabela 2, é possível afirmar que exista uma 
relação entre a variável propaganda e a variável vendas? Para respondermos a esse questionamento, 
precisamos estabelecer uma premissa de partida: quanto maior for o investimento em propaganda, 
maiores são as vendas esperadas. Portanto, existe a expectativa de que o resultado seja uma relação 
desta feita:
Introdução à análise multivariada de dados: regressão e correlação 155
vendas = a + b × (propaganda)
Pode-se afirmar que esse seja um modelo preditivo, pois, a partir dos dados dos últimos 
10 anos, pretende-se estabelecer a relação causal entre as variáveis para predizer sobre o futuro. 
Embora matemática ou estatisticamente não se possa afirmar que haja uma relação de causa e 
efeito, em termos práticos, adotar tal premissa, com a devida parcimônia, é aceitável.
Para se chegar ao modelo completo, é necessário identificar os valores de a e b. Esse processo 
será chamado de estimação dos parâmetros. Para entendermos como acontece o processo de 
estimar parâmetros, vamos plotar os dados da Tabela 2 em um gráfico, para os 10 pares (xi, yi), 
como aparece no Gráfico 1, a seguir.
Gráfico 1 – Relação entre propaganda e vendas
600
Propaganda ($ milhões)
Ve
nd
as
 ($
 m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborado pelo autor.
Uma primeira inspeção visual fornece-nos a ideia de que parece existir uma relação entre as 
variáveis: quanto maior for o investimento em propaganda, maiores são as vendas. Ainda que os 
dados remontem apenas a uma “nuvem de pontos”, essa percepção de que há relação é crível, mas 
como confirmar que ela de fato existe?
O modelo preditivo será uma função de primeiro grau (função linear), portanto pode ser 
graficamente representado por uma reta. Relacionando os conceitos, é razoável aceitar que o 
modelo preditivo possa ser a reta que melhor represente o conjunto de dados (o que, anteriormente, 
chamamos de nuvem de pontos). Essa reta pode ser estimada teoricamente por uma técnica 
conhecida como método dos mínimos quadrados2. Embora não seja o objetivo desta obra entrar 
no mérito da conta em si, assume-se que exista uma única reta que melhor represente o conjunto 
de dados e que essa reta será obtida pelo método dos mínimos quadrados. Graficamente, podemos 
observar essa linha de tendência ou reta de otimização no Gráfico 2, a seguir.
2 O método dos mínimos quadrados é uma técnica para encontrar o melhor ajuste para um conjunto de dados, 
minimizando, o máximo possível, o desvio de cada coordenada (x, y) em relação ao valor estimado para (x, y). Para 
aprofundamento, procurar por: método dos mínimos quadrados ou mínimos quadrados ordinários.
Estatística Aplicada156
Gráfico 2 – Linha de tendência da relação entre propaganda e vendas
600
Propaganda ($ milhões)
Ve
nd
as
 ($
 m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborado pelo autor.
No Excel, esse procedimento é feito diretamente por meio da inclusão da linha de tendência: 
clicar em um ponto do gráfico com botão direito do mouse e selecionar adicionar linha de tendência. 
Um exemplo está na Figura 2, a seguir. Se o procedimento adotado for correto, a linha de tendência 
aparecerá automaticamente no gráfico.
Figura 2 – Adicionar linha de tendência em gráfico, no Excel.
600
Propaganda ($ milhões)
Ve
nd
as
 ($
 m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborada pelo autor.
Não há outra reta que consiga representar o conjunto de pontos (x, y) de forma melhor. 
Relembrando: essa reta tem uma interpretação similar ao caso da média, que representa um 
conjunto de dados. Assim como no caso da média, precisaremos também inspecionar quanto é a 
oscilação dos pontos (x, y) ao redor dessa reta, mas esses conceitos não serão abordados nesta obra.
Com o estabelecimento da reta, agora fica fácil estimar os parâmetros a e b. Para isso, vale 
relembrar os conceitos de uma função de primeiro grau: a será o ponto, no eixo y, onde a reta corta 
o eixo y (cujo significado prático é o ponto de partida, o valor fixo a partir do qual partem as vendas, 
o valor de vendas que independe de propaganda) e b será o coeficiente da variável propaganda ou, 
em termos matemáticos, a tangente do ângulo α, entre a reta e o eixo x (tgα) (cujo significado 
prático é o incremento em milhões de reais – caso b > 0 ou decréscimo, caso b < 0 – em vendas, 
para cada incremento unitário em propaganda em milhões de reais).
Introdução à análise multivariada de dados: regressão e correlação 157
O cálculo de a e de b parece ser possível, mas, inegavelmente, será um procedimento 
trabalhoso. Nesse ponto, o Excel novamente nos favorece, pois calcula automaticamente a equação 
da reta resultante. Para esse fim, na mesma opção de adicionar linha de tendência, haverá a opção 
de exibir equação no gráfico (penúltima opção)e bastará selecionar essa opção e confirmar, como 
mostra a Figura 3, a seguir.
Figura 3 – Exibir equação no gráfico
600
Propaganda ($ milhões)
Ve
nd
as
 ($
 m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborada pelo autor.
Como resultado, a equação da reta será exibida no gráfico, conforme exemplo da Figura 4, 
a seguir.
Figura 4 – Equação da reta no gráfico
y = 9,7381x + 117,07
600
Propaganda ($ milhões)
Ve
nd
as
 ($
 m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborada pelo autor.
Eis que o Excel calcula a equação da reta. A nomenclatura do Excel é de y para a variável 
dependente (no nosso caso, variável vendas, que depende de propaganda) e de y para a variável 
independente. Portanto, como adotamos como premissa a relação de causalidade de propaganda 
condicionando vendas, assume-se que o modelo preditivo resultante será:
vendas = 117,07 + 9,74 * (propaganda)
Estatística Aplicada158
9.3 Modelos preditivos
Com base em procedimentos apresentados anteriormente, foi calculado o 
modelo preditivo da relação entre propaganda e vendas, de maneira que, quanto 
maiores forem os investimentos em propaganda, maiores também serão as vendas 
previstas.
Será necessário, no entanto, partirmos para a interpretação dos parâmetros 
que foram calculados e, principalmente, como essa interpretação pode levar a 
melhores tomadas de decisão.
Iniciemos essa análise com o valor de a = 117,07. Sua interpretação remonta à 
definição dessa parte fixa: é o valor previsto de vendas, em milhões de reais por ano, 
que independe do investimento em propaganda. Também podemos entender desta 
maneira: independentemente do que aconteça com a propaganda, a estimativa é de 
que as vendas já comecem em R$ 117,07 milhões.
Por sua vez, b = 9,74 significa que, para cada incremento de R$ 1 milhão em 
propaganda por ano, a estimativa é de que as vendas tenham incremento de R$ 9,74 
milhões por ano.
É evidente que esse modelo é uma representação simplificada da realidade 
e, potencialmente, outras variáveis que não foram consideradas também tenham 
efeito nas vendas, como preço da concorrência, nível de renda e inflação, apenas 
para citar alguns exemplos. No entanto, vale lembrar que nosso objetivo de partida 
era apenas estabelecer uma relação entre propaganda e vendas.
Para o tomador de decisão, o uso da técnica de regressão linear simples é de 
particular interesse, pois permite, ao propor uma relação preditiva, criar cenários 
simulados.
De volta ao nosso exemplo, se a relação entre propaganda e vendas é vendas = 
117,07 + 9,74 * (propaganda), quanto será necessário investir em propaganda para 
que as vendas atinjam R$ 50 milhões? Ou R$ 100 milhões? A Tabela 3, a seguir, 
apresenta alguns cenários simulados.
Tabela 3 – Cenários simulados para a relação vendas = 117,07 + 9,74 * (propaganda)
Propaganda
(R$ milhões)
Cálculo
Vendas estimadas
(R$ milhões)
R$ 0 vendas = 117,07 + 9,74 * (0) vendas = R$ 117,07
R$ 10 vendas = 117,07 + 9,74 * (10) vendas = R$ 214,47
R$ 20 vendas = 117,07 + 9,74 * (20) vendas = R$ 311,87
R$ 50 vendas = 117,07 + 9,74 * (50) vendas = R$ 604,07
R$ 100 vendas = 117,07 + 9,74 * (100) vendas = R$ 1.091,07
Fonte: Elaborada pelo autor.
Vídeo
Introdução à análise multivariada de dados: regressão e correlação 159
Perceba que o valor de R$ 1.091,07 para vendas na última linha da Tabela 3 é uma estimativa, 
portanto não há garantia de que esse valor, realmente, acontecerá na prática. Nesse momento, vale 
esta reflexão: se não temos a certeza de que o valor de R$ 1.091,07 acontecerá, por que usaremos 
esse modelo para tomar a decisão de investir, digamos, R$ 100 milhões em propaganda? Por que 
não se pode ter certeza?
Por se tratar de um modelo preditivo, ele foi gerado com base em dados históricos. A lógica 
é que, com base em dados históricos, tenta-se prever acontecimentos futuros. Essa premissa é bem 
razoável e funcionará em muitos casos. No entanto, também é razoável aceitar que mudanças podem 
acontecer, por exemplo, choques econômicos, mudanças no comportamento do consumidor ou 
decisões políticas nos Estados Unidos. Como é difícil prever essas mudanças, não se pode afirmar 
que o modelo acertará todas as previsões.
Outro motivo pelo qual a previsão pode não funcionar é por conta da ordem de grandeza 
dos valores envolvidos. De um lado (à esquerda no gráfico), é evidente que não podemos 
considerar valores negativos para investimentos em propaganda (embora essa condição 
exista matematicamente). De outro lado (à direita no gráfico), até que valores de propaganda 
podemos supor que o modelo preditivo funcione bem (mesmo considerando que não haja 
mudanças no comportamento das variáveis envolvidas)? Perceba que, realmente, para valores 
como R$ 100 milhões, R$ 1 bilhão ou R$ 10 bilhões em propaganda, o modelo fornecerá 
um resultado, mas não se pode supor que esse resultado seja crível. Isso acontece porque os 
valores usuais de propaganda estão entre R$ 8 milhões e R$ 42 milhões (ver dados fornecidos 
na Tabela 1). Portanto, nessa ordem de grandeza, o modelo tende a funcionar melhor, ao passo 
que, para valores muito fora dessa ordem de grandeza, não há outra opção a não ser testar e 
confirmar se o modelo continua válido.
Por fim, ainda que aceitemos a limitação das mudanças em comportamento e estejamos 
em ordens de grandeza condizentes com o fenômeno inspecionado, perceba que a técnica não 
fornece indícios de como investir em propaganda, mas apenas o quanto investir, com base em 
um determinado cenário eleito para vendas. Para tomar decisões sobre como investir melhor em 
propaganda, teorias e práticas de outras áreas precisam ser angariadas, como em marketing, vendas 
e comunicação.
Embora algumas dessas limitações possam até ser severas, o mérito da técnica de regressão 
linear simples, no exemplo apresentado, é fornecer essa primeira estimativa da relação entre 
propaganda e vendas. Isso já oferece uma contribuição importante no processo de tomada de 
decisão, pois possibilita uma série de reflexões acerca do fenômeno e, com a visão interdisciplinar 
do tomador de decisão, decisões melhores podem ser alcançadas.
Considerações finais
Os modelos preditivos são particularmente úteis no processo de tomada de decisão, pois 
permitem tentar predizer sobre o futuro. Nesta obra, conceitos mais gerais e algumas ferramentas 
computacionais foram apresentados para fornecer uma ideia de como são calculadas correlação e 
regressão linear simples, duas técnicas que possibilitam entender a relação entre variáveis.
Estatística Aplicada160
O uso de recurso computacional tem sido crescente e tem habilitado investigar a relação 
entre variáveis com cada vez mais dados. O crescimento de aplicações ligadas ao big data, por 
exemplo, é uma evidência nesse sentido. Porém, embora o poder computacional seja cada vez 
maior, o papel crítico do pesquisador continuará a ter seu valor inestimável no planejamento da 
pesquisa e na análise dos achados.
Este capítulo procurou desvendar os primeiros passos na análise multivariada de dados, 
um tema cheio de oportunidades nos métodos estatísticos. Estudos futuros podem incluir 
o aprofundamento da discussão sobre o poder da relação: até que ponto a equação do modelo 
consegue representar o conjunto de dados inspecionados? Quanto mais dispersa a nuvem de 
pontos, mais fraca será a relação entre as variáveis? Além disso, é cabível também aprofundamento 
para o caso da regressão linear múltipla, em que não apenas uma variável de entrada condicione 
uma variável de interesse, como foi o caso de propaganda e vendas, mas quando múltiplas variáveis 
condicionam a variável de interesse.
Ampliando seus conhecimentos
• INVESTIR em educação aumenta a renda? Por quê? 24 ago. 2017. Disponível em: http://
porque.uol.com.br/investir-em-educacao-aumenta-a-renda/. Acesso em: 26 maio 2019.
Um dos assuntos mais estudados em economia é a relação entre educação (anos de estudo) 
e renda (por exemplo, salário ouPIB). Segundo a matéria, no Brasil, para cada ano a mais 
de educação, o salário aumenta entre 10% e 15%. Isso significa que existe uma relação de 
causalidade entre anos de estudo e renda: quanto mais anos de estudo, maior será a renda. 
Consequentemente, a correlação entre essas variáveis costuma ser alta.
• SANTANA, P. Cadastro positivo: entenda o que é e como funciona. Terra, 16 maio 2019. 
Disponível em: https://www.terra.com.br/economia/cadastro-positivo-entenda-o-que-e-
e-como-funciona,e6aa6eae041e780da6faea0fda9d53fe7185t2ix.html. Acesso em: 26 maio 
2019.
O cadastro positivo está diretamente relacionado ao processo de credit scoring. No 
credit scoring, uma pontuação é atribuída a um indivíduo ou empresa, e, com base nela, 
a instituição financeira avalia o risco para concessão de crédito para esse indivíduo ou 
empresa. Atualmente, informações como dívidas anteriores, patrimônio, renda, idade, 
apenas para citar algumas variáveis, são usadas para avaliar o risco de crédito. Trata-se de 
um dos casos mais clássicos de regressão linear, pois o pressuposto é que essas variáveis 
contribuem para explicar o limite de crédito. Nesse contexto, o cadastro positivo será 
uma contribuição para bons pagadores, pois permitirá que informações do comportamento 
de pagamento possam ser usadas para a avaliação de concessão de crédito.
Introdução à análise multivariada de dados: regressão e correlação 161
Atividades
1. Correlação
Suponha cinco ativos negociados em bolsa de valores que tiveram as rentabilidades anuais 
calculadas, conforme apresenta a Tabela a seguir.
Tabela – Rentabilidades anuais de cinco ativos fictícios negociados em bolsa
A B C D E
Ano 0 10% 7% 1% -1% 5%
Ano 1 7% 4% 4% -5% 4%
Ano 2 5% 2% 5% -7% 5%
Ano 3 8% 5% 4% 1% 1%
Ano 4 12% 10% -1% 4% -1%
Você está montando uma carteira para investimento e quer incluir dois dos ativos 
apresentados. Por motivo de uma estratégia de investimento que você queira adotar, você 
incluirá na carteira dois ativos que tenham comportamentos diferentes, pois isso poderá 
ajudar a reduzir o risco da carteira. Quais são os dois ativos que você escolherá? Por quê?
2. Estimação de parâmetro de regressão linear
Suponha que você esteja interessado(a) em entender o efeito da educação na riqueza de um 
país. Para isso, coletou dados de anos de educação média da população e PIB per capita de 
oito países fictícios, conforme apresenta a Tabela a seguir.
Tabela – Anos de educação e PIB per capita de oito países fictícios
País Anos de educação PIB per capita (em $ mil)
A 4,8 10,7
B 5,6 11,1
C 6,6 11,2
D 7,3 12,0
E 7,9 14,1
F 8,6 14,4
G 8,8 13,7
H 8,8 13,8
Há estudos diversos comprovando a relação entre anos de educação e renda, motivo pelo 
qual a premissa de que existe uma relação entre as variáveis é aceitável. Você propõe um 
modelo do tipo:
PIB per capita = a + b * (anos de educação)
Com base nos dados apresentados na Tabela, enuncie o modelo completo, com os valores 
de a e b.
Estatística Aplicada162
3. Interpretação de modelos preditivos
Ainda no caso apresentado na Questão 2, qual é a interpretação dos parâmetros calculados? 
Baseando-se nos resultados, quais decisões podem ser formuladas?
Referências
HAIR JUNIOR, J. F. et al. Análise multivariada de dados. Trad. de Adonai S. Sant’Anna e Anselmo C. Neto. 5. 
ed. Porto Alegre: Bookman, 2005.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
MUROLO, A. C.; BONETTI, G. Matemática aplicada à administração, economia e contabilidade. 2. ed. São 
Paulo: Cengage Learning, 2012.
Gabarito
1 Estatística descritiva: conceitos e aplicações
1. Embora não exista uma única resposta correta, o objetivo da pesquisa deve versar 
sobre como reduzir o turnover (rotatividade) no departamento de gestão de pessoas 
da organização. Como esse departamento tem operações de forma descentralizada, 
convém conduzir a pesquisa tanto para líderes quanto para demais colaboradores, 
mantendo o recorte do cargo, pois a percepção de quem é líder pode ser diferente da 
percepção dos demais colaboradores. A população engloba todos os colaboradores 
atuais do departamento de gestão de pessoas. Parte da pesquisa pode ser diretamente 
com todos os líderes e, para os demais colaboradores, pode ser por amostragem, desde 
que a amostra tente alcançar, o máximo possível, a representatividade e a aleatoriedade.
2. Embora não exista uma única resposta correta, a elaboração do questionário deve ter 
atenção para estes dois pontos: (a) escolha das variáveis de interesse, podendo incluir 
variáveis demográficas (por exemplo: idade, semestre no curso e cidade de origem) 
e variáveis da pesquisa (por exemplo: satisfação com infraestrutura, satisfação com 
corpo docente e satisfação com forma de pagamento); e (b) escolha de escala adequada 
para cada variável (nota de 0 a 10 para variáveis de satisfação). As perguntas precisam ser 
as mais inteligíveis possíveis, sem margem para dúvidas (exemplo: “estou satisfeito com 
a infraestrutura da instituição [escala de 0 - 10]”. Há que se considerar a relação entre o 
questionário e como os dados serão sintetizados e analisados. O exemplo fornecido ao 
longo do capítulo merece ser revisitado.
3. Embora não exista uma única resposta correta, há alguns padrões que os resultados 
apresentam (análise na linha): as notas são ótimas nas disciplinas de exatas, são aceitáveis 
nas disciplinas de humanas, precisam melhorar em Ciências e precisam melhorar muito 
em idiomas. Outro padrão que pode ser identificado (análise na coluna) com base 
nos números é que na P3, o desempenho foi sistematicamente pior; se a dificuldade 
é equivalente, pode ter acontecido uma falta de estudo generalizada para a P3 e não 
apenas uma dificuldade em algumas disciplinas. Ações propostas podem versar sobre 
mais dedicação de tempo para estudar temas em que o desempenho precise melhorar 
ou melhorar muito e alocação de aulas de reforço dentro ou fora da escola nesses temas, 
por exemplo. As ações propostas precisam estar em linha com o objetivo de melhorar o 
desempenho do filho ou filha na P4.
164 Estatística Aplicada
2 Estatística descritiva: análise de dados
1. Número não pode ser considerado variável, pois não tem interpretação da maneira como 
está apresentado. Sugere-se sua exclusão ou a atribuição de uma interpretação, por exemplo, 
a sequência em que os alunos se matricularam: número 1 significa que o indivíduo foi o 
primeiro a se matricular para a formação da atual turma regular.
Grau de instrução é uma variável qualitativa ordinal e sua interpretação parece remeter ao 
maior grau de instrução concluído do indivíduo. Dois estados apenas (ensino médio e ensino 
superior) podem ser simplificações demasiadas da realidade. Nesse caso, no entanto, por se 
tratar de um curso de graduação, os estados parecem fazer sentido: ensino superior pode 
ser para aquele que esteja cursando um segundo curso superior, porém uma inspeção do 
formulário de entrada é cabível.
Número de carros está como uma variável quantitativa discreta. Nesse caso, há ocorrência de 
missing data, além de parecer haver uma relação entre grau de instrução e número de carros. 
Merece uma inspeção do formulário de entrada de dados para entender se essa hipótese de 
relação se aplica ou se é apenas coincidência.
Renda está como uma variável quantitativa contínua. Ademais do inconveniente de ter 
que multiplicar pelo salário mínimo, pode haver dúvidas severas sobre qual é esse salário 
mínimo, portanto sugere-se armazenar renda com o valor mais atualizado e diretamente 
em reais.
Idade está como variável quantitativa discreta em anos. Melhor maneira de armazenar é por 
meio da data de nascimento, pois ela permite riqueza maior da base de dados, mesmo que 
para oportunidades futuras.
2. Embora não exista apenas uma resposta correta, é necessário identificar que, em valores 
absolutos, as vendas subiram no país como um todo, mas foram puxadas por aumento 
de vendas nas regiões Sudeste e Sul. Outraevidência nesse sentido é o aumento relativo das 
vendas dessas regiões do ano XXX1 para o ano XXX2. Por outro lado, as vendas diminuíram 
na região Nordeste e praticamente se mantiveram estáveis nas regiões Norte e Centro-Oeste.
O crescimento, portanto, não foi uniforme. Embora, em um caso real, mais informações 
precisem ser coletadas e analisadas, ações gerenciais para esse caso fictício podem incluir: 
identificar melhores práticas de vendas nas regiões Sudeste e Sul (benchmarking interno 
para que possamos levar melhores práticas às outras regiões) ou contratar uma pesquisa 
qualitativa para entender de forma mais aprofundada os motivos para que o desempenho 
nas demais regiões tenha sido menor do que no Sudeste e no Sul. É importante que a resposta 
inclua não apenas a inspeção numérica, mas efetivas ações gerenciais, ainda que em caráter 
fictício e hipotético.
3. O desenvolvimento de gráficos por meio de planilha eletrônica ou pacote estatístico permite 
análises visuais que favorecem a tomada de decisão. Encontre, a seguir, os gráficos solicitados 
e confirme se seu resultado é convergente.
Gabarito 165
Quantidade vendida no ano XXX1 (peças)
15.500
50.000
7.500
15.000
5.000
0 10.000 20.000 30.000 40.000 50.000 60.000
Sudeste
Sul
Norte
Nordeste
Centro-Oeste
5.000
12.500 8.000
62.500
23.000
70.000
60.000
50.000
40.000
30.000
20.000
10.000
0
Sudeste SulNorte Nordeste Centro-Oeste
Quantidade vendida no ano XXX2 (peças)
% vendido no ano XXX1
Sudeste
Sul
Norte
Nordeste
Centro-Oeste
5,38%
8,06%
53,76%
16,13%
16,67%
% vendido no ano XXX2
Sudeste
Sul
Norte
Nordeste
Centro-Oeste
4,50%
11,26%
7,21%
56,31%
20,72%
166 Estatística Aplicada
3 Estatística descritiva: medidas-resumo
1. 
Medidas-resumo Função estatística no MS-Excel Resultado
Média =Média(matriz) –0,39
Moda =Modo(matriz) #N/D
Mediana =Med(matriz) –0,55
Máximo =Máximo(matriz) 5,42
Mínimo =Mínimo(matriz) –4,99
3Q =Quartil.exc(matriz;3) 0,39
1Q =Quartil.exc(matriz;1) –1,35
Amplitude [máximo - mínimo] 10,41
Amplitude interquartil [3Q – 1Q] 1,74
Desvio padrão =Desvpad(matriz) 2,04
Coeficiente de variação (%)
desvio padrão
média
 x 100 –529,12
Foram utilizadas as funções estatísticas do software MS-Excel para o cálculo das medidas- 
-resumo solicitadas, e as fórmulas foram mantidas na resposta apenas para que você consiga 
ter o histórico da solução apresentada. Matriz significa o conjunto de dados. Para o cálculo 
da moda, o resultado obtido de #N/D significa que nenhum valor se repete, motivo pelo qual 
o conjunto de dados é amodal. O valor calculado do coeficiente de variação está correto, 
embora possa causar estranheza. Em algumas situações, como é o caso, em que o valor 
absoluto de média é muito baixo, o coeficiente de variação apresenta valores distorcidos e 
não poderá ser utilizado para a tomada de decisão. Para dúvidas quanto ao uso de funções 
estatísticas do MS-Excel, sugere-se curso específico.
2. Em relação ao comportamento médio dos ativos, ambos têm média e mediana negativas, 
motivo pelo qual se pode afirmar que há tendência de baixa no período inspecionado. 
Além disso, ambos são amodais (nenhum valor se repete), portanto o cálculo da moda não 
contribui para a tomada de decisão. Em relação à oscilação, no entanto, os comportamentos 
são diferentes. Comparativamente, o Ativo 1 oscila menos do que o Ativo 2, e por isso pode 
ser considerado menos volátil, menos arriscado. Evidências incluem: amplitude, amplitude 
interquartil e desvio padrão são sistematicamente menores para o Ativo 1. O coeficiente 
de variação não contribuiu para a consideração quanto à dispersão do ativo, pois, por uma 
limitação matemática, quando o denominador (média) tem valor absoluto próximo a zero, 
como é o caso, essa medida tende a infinito e não pode ser usada para comparar grupos. 
Gabarito 167
Ativos menos voláteis (menor variação e oscilação) podem ser recomendados para perfil mais 
conservador (avesso ao risco), ao passo que ativos mais voláteis podem ser recomendados 
para perfil mais arrojado (gosta de risco).
3. Gráficos do tipo box-plot são ótimos para comparar grupos quando estão na mesma escala, 
como é o caso apresentado. O conjunto 1 apresenta todas as medidas de posição mais altas 
do que o conjunto 2, o que implica afirmar que, como comportamento geral, o conjunto 
1 possui desempenho maior do que o conjunto 2. Além disso, a inspeção visual leva à 
consideração de que o conjunto 1 é mais homogêneo do que o conjunto 2, portanto, além de 
ter desempenho melhor, esse comportamento é mais esperado em discentes do conjunto 1 
(oscilam menos entre si) quando comparados com seus pares do conjunto 2 (oscilam mais 
entre si). Assim, dadas outras condições constantes, é possível afirmar que as aulas adicionais 
surtiram um efeito benéfico para discentes do conjunto 1.
4 Noções de probabilidade
1. A probabilidade de saírem faces iguais no lançamento de dois dados é de 16,67%, conforme 
a Figura a seguir.
1
1
1
1
1
1
2
2
2
2
2
2
2
3
3
3
3
3
3
3
D1
4
4
4
4
4
4
4
5
5
5
5
5
5
5
6
6
6
6
6
6
6
1
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
P faces iguais� � � ��
�
�
�
�
�� � � � �
1
6
1
6
6 6
36
1
6
0 1667 16 67, , %
168 Estatística Aplicada
2. 
a) A probabilidade de serem uma de cada cor é de 60%.
b) A probabilidade de serem ambas da mesma cor é de 40%.
P B Be� � � � � �3
5
2
4
6
20
3
10
P B Pe� � � � � �3
5
2
4
6
20
3
10
P P Pe� � � � � �2
5
1
4
2
20
1
10
P P Be� � � � � �2
5
3
4
6
20
3
10
P B P P P Be e� � � � � � � � � �3
10
3
10
6
10
0 6 60, %
P B B P P Pe e� � � � � � � � � �3
10
1
10
4
10
0 4 40, %
3. A probabilidade de que ela seja do gênero feminino é de 4,76%. Seja Enfermidade o evento de 
um indivíduo possuir a enfermidade e EnfermidadeC o evento de não possuir a enfermidade:
Enfermidadec
Enfermidadec
50% 95%
0,25%
99,75%
50%
5%
Masculino
Feminino
Enfermidade
Enfermidade
P M
P
P D
P
� � �
� � �
� � � � � � �
�
0 5
0 0025
0 5 0 05 0 5 0 0025 0 02625
,
,
, , , , ,
D|M
M|D�� � �� � �� �
�
�
� �
P M P
P D
M|D 0 5 0 0025
0 02625
0 0476 4 76, ,
,
, , %
Gabarito 169
5 Distribuições de probabilidade
1. O preço justo a se pagar pelo bilhete é R$ 5,40. A esperança matemática é dada por 4% de 
chance de ganhar R$ 100,00, mais 0,5% de chance de ganhar R$ 200,00 e 0,1% de chance de 
ganhar R$ 400,00:
E(x) = 0,04 × 100 + 0,005 × 200 + 0,001 × 400 = R$ 5,40
Como o preço cobrado é de R$ 6,00, maior do que a esperança matemática do jogo, não vale 
a pena participar.
2. 
a) A probabilidade de que, dentre 18 jacas despachadas, todas as 18 estejam maduras é de 
39,72%. Trata-se exatamente da probabilidade P(18).
b) A probabilidade de que, dentre 18 jacas despachadas, ao menos 16 estejam maduras é de 
94,18%. Trata-se da probabilidade P(pelo menos 16) = P(16) + P(17) + P(18).
c) A probabilidade de que, dentre 18 jacas despachadas, no máximo 14 estejam maduras é 
de 1,1%. Trata-se da probabilidade P(máx 14) = P(0) + P(1) + P(2) + ... + P(13) + P(14) 
= 1 – [P(15) + P(16) + P(17) + P(18)]
A média da distribuição é 17,1 jacas, e a variância da distribuição, 0,86 jacas2.
0,95
0,05
Maduras
Verdes
P
pelomenos P P P
18 0 95 0 3972
16 16 17 18 0 16
18
, ,
( ) , 883 0 3763 0 3972 0 9418 94 18
16
18
16
0 95 1 016
, , , , %
,P ,, !
! !
, , , , ,95 18
16 2
0 95 0 05 153 0 44 0 0025 0 1683 118 16 16 2 66 83
17
18
17
0 95 1 0 95 18
17 1
0 9517
18 17 1
, %
, , !
! !
,P 77 10 05 18 0 4181 0 05 0 3763 37 63
15
18
17
0 95
, , , , , %
,P 115
18 15 15 31 0 95 15
15 3
0 95 0 05 816 0 4632 0 00012, !
! !
, , , , 55 0 0472 4 72
14 1 15 16 17 18 1 0 0472
, , %
,P máx P P P P 0 1683 0 3763 0 3972 0 011 1 1
0 95 1718
, , , , , %
,E x np ,
, , ,
1
1 18 0 95 0 05 0 855 2
jacasvar x np p jacas
P
170 Estatística Aplicada
3. 
a) A probabilidade de a remessa ser rejeitada, se uma amostra de três itens for selecionada, 
é de 46,67%.
b) A probabilidade de a remessa ser rejeitada, se uma amostra de quatro itens for selecionada, 
é de 66,67%.
c) A probabilidade de a remessa ser rejeitada, se uma amostra de cinco itens for selecionada, 
é de 77,78%.
2
8
N = 10
n
P
�
� � �
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
3
0
2
0
8
3
10
3
2
0 2
8
5 3
10
7
1 56
!
! !
!
! !
!
!
1120
0 4667 46 67
1 0 1 0 4667 0 5333 53 3
� �
� � � � � � � �
, , %
( ) , , ,P Rejeitada P 33
4
0
2
0
8
4
10
4
2
0 2
8
4 4
10
6 4
%
!
! !
!
! !
!
! !
n
P
�
� � �
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�� � �
� � � � � � � �
70
210
0 3333 33 33
1 0 1 0 3333 0 6667 6
, , %
( ) , ,P Rejeitada P 66 67
5
0
2
0
8
5
10
5
2
0 2
8
5 3
10
5
, %
!
! !
!
! !
!
n
P
�
� � �
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
!! !
, , %
( ) , ,
5
56
252
0 2222 22 22
1 0 1 0 2222 0 777
� � �
� � � � � � �P Rejeitada P 88 77 78� , %
Gabarito 171
6 Inferência estatística: amostragem
1. 
a) P(0 ≤ Z ≤ 1,96) = 47,5%
 Interseção da linha 1,9 com a coluna 6.
b) P(–1,96 ≤ Z ≤1,96) = P(–1,96 ≤ Z ≤ 0) + P(0 ≤ Z ≤ 1,96) = 47,5% + 47,5% = 95%
 Da propriedade de simetria, a probabilidade de Z estar entre -1,96 e 0 é a mesma 
probabilidade de estar entre 0 e 1,96, conforme calculado no item (a). Portanto, proceder 
com a soma das probabilidades.
c) P(Z ≥ 1,28) = 50% –P(0 ≤ Z ≤ 1,28) = 50% – 39,973% = 10,027%
 Da propriedade de que a área sob a curva à direita da média será de 0,5, o que representa 
que 50% das ocorrências têm mensurações superiores à média, retira-se de 50% a 
probabilidade de Z estar entre 0 e 1,28.
d) P(Z ≤ 0,34) = 50% + P(0 ≤ Z ≤0,34) = 50% + 13,307% = 63,307%
 Da propriedade de que a área sob a curva à esquerda da média será de 0,5, o que 
representa que 50% das ocorrências têm mensurações inferiores à média, soma-se 50% à 
probabilidade de Z estar entre 0 e 0,34.
e) P(–0,83 ≤ Z ≤ 1,28) = P(–0,83 ≤ Z ≤0) + P(0 ≤ Z ≤ 1,28) = 29,673% + 39,973% = 69,646%
 Por se tratar de cálculo de probabilidade de um intervalo, é possível dividir o cálculo em 
duas partes: (1) a probabilidade de Z estar entre –0,83 e 0; e (2) a probabilidade de Z estar 
entre 0 e 1,28. E, assim, proceder com a soma das probabilidades das partes.
2. Primeiramente, será necessário reconhecer que seja possível aproximar esse fenômeno 
descrito para uma variável normal, cuja característica marcante é: muitos indivíduos ao 
redor de um valor médio e poucos indivíduos nos extremos. Para a altura da população, 
essa aproximação é bem aceitável. Sendo uma variável normal, a tentativa será converter 
o fenômeno de interesse na normal padrão, pois nela já existem valores previamente 
calculados. Para esse fim, esta fórmula de conversão será adotada:
Z xc
Onde:
x = valor de interesse no fenômeno
Zc = equivalente, na normal padrão, ao valor de interesse no fenômeno
μ = média populacional no fenômeno
σ = desvio padrão populacional no fenômeno
 Em seguida, será necessário identificar os valores da fórmula a partir do enunciado: x será o 
valor em cada item do enunciado (a), (b) e (c), e Zc será seu valor correspondente na Tabela 1, 
μ = 1,73 m e σ = 0,08 m. É de ressaltar que média e desvio padrão precisam estar na mesma 
unidade, motivo pelo qual 8 cm = 0,08 m.
172 Estatística Aplicada
a) x =1,80 m
Z xc
, ,
,
,
,
*1 80 1 73
0 08
0 07
0 08
0 875 0 88
 *Como se trata de um fenômeno aproximado à normal, importa pouco se o arredondamento 
acontece para cima, para baixo ou se a preferência será pela interpolação. Na resolução, 
adotou-se o arredondamento para cima, pois pequenas variações são plenamente aceitáveis.
Da Tabela 1:
P(Z ≥ 0,88) = 50% – P(0 ≤ Z ≤ 0,88) = 50% –31,057% = 18,943%
Portanto:
P(x ≥ 1,80 m) =18,943%
b) x = 1,60 m
Z xc
, ,
,
,
,
*1 60 1 73
0 08
0 13
0 08
1,625 1,63
 *Como se trata de um fenômeno aproximado à normal, importa pouco se o arredondamento 
acontece para cima, para baixo ou se a preferência será pela interpolação. Na resolução, 
adotou-se o arredondamento para cima, pois pequenas variações são plenamente aceitáveis.
Da Tabela 1:
P(Z ≤ –1,63) = 50% –P(–1,63 ≤ Z ≤ 0) = 50% – 44,845% = 5,155%
Portanto:
P(x ≤1,60 m) = 5,155%
c) Como já temos os valores calculados nos itens (a) e (b), podemos seguir com:
P(–1,63 ≤ Z ≤ 0,88) = P(–1,63 ≤ Z ≤ 0) + P(0 ≤ Z ≤ 0,88) = 44,845% + 31,057% = 75,902%
P(1,60 m ≤ x ≤ 1,80 m) = 75,902%
3. Embora não exista uma única resposta certa, ela precisa versar sobre representatividade 
e aleatoriedade.
Em relação à representatividade, precisam ser escolhidos discentes de diferentes regiões 
geográficas, de diferentes cursos, de diferentes turmas de um mesmo curso, de diferentes 
idades, de diferentes gêneros, apenas para citar alguns critérios para representatividade 
da amostra.
Em relação à aleatoriedade, para cada recorte realizado, é necessário escolher indivíduos 
da população ao acaso para comporem a amostra. Por exemplo, se precisamos escolher 100 
indivíduos do curso de Ciências Contábeis, de um total de 1.000 indivíduos regularmente 
matriculados nesse curso, cada um dos 1.000 indivíduos precisa ter chances iguais de ser 
selecionado para compor a amostra. Uma maneira de operacionalizar esse critério é por 
meio de sorteio.
Gabarito 173
7 Inferência estatística: estimação
1. 
Margem de erro z
n
, ,
2
1 96 9 00
49
2 52R
R 0Interv de a xç z
n
: , , $
2
49 60 2 52 47 08 52 12; $R
A interpretação desse cálculo é esta: com 95% de confiança, o intervalo de (R$ 47,08; R$ 52,12) 
contém a média das quantias desembolsadas pelos clientes (se todos fossem inspecionados) 
por um jantar em dia de semana. Como a média anterior estava ao redor de R$ 35,00, há 
evidências de que a campanha promocional tenha atingido o objetivo de aumentar a média 
das quantias desembolsadas pelos clientes por um jantar em dia de semana.
2. Como σ é desconhecido, é necessário proceder com cálculo de média amostral x e desvio 
padrão amostral s. Por meio de software adequado (para dúvidas, ver sugestões em capítulos 
anteriores), os resultados obtidos são: x = 6,03 e s = 1,97.
� �Margem de erro t s
n90 0 1
1 699 1 97
30
0 61% ,
, ,�
Intervalodecon�ança t
s
n% ,90 0 1
6,03 0,61 5,42; 6,64 =x =
� �Margem de erro t
s
n95 0 05
2 045 1 97
30
0 74% ,
, ,�
Interv de a xç t s
n0 05
6,03 0,74 = 5,29; 6,77 =95% ,
Margem de erro t s
n95 0 01
2 756 1 97
30
0 99%
, ,� � �,
Interv de a xç t s
n99 0 1
6 03 0 99 5% , ,, ;0 7,024
A relação entre grau de confiança e margem de erro pode ser observada na Tabela a seguir.
Grau de confiança Margem de erro Intervalo de confiança
90% 0,61 5,42 a 6,64
95% 0,74 5,29 a 6,77
99% 0,99 5,04 a 7,02
Conclui-se que, conforme aumenta o grau de confiança, a margem de erro e o intervalo 
de confiança também aumentam, o que mostra uma relação diretamente proporcional. 
174 Estatística Aplicada
Por isso, saber balancear grau de confiança e margem de erro (e, consequentemente, intervalo 
de confiança) é uma situação de trade-off.
3. Seja r = números de voos pontuais e grau de confiança de 95% (definido no enunciado):
p r
n
= = =
455
550
0 83,
Margem de erro z
p p
n
,
,,0 05
2
1
1 96
0 83 0 17
550
0 03
3Interv de a pç z
p p
n,0 052
1
0 8 ,, , ; ,, 030 0 80 0 86
Margem de erro
p p
n
,
,0 05
2
1
1 96
0 5 0 5
0 02
n
n = 2.401 voos
Caso o aeroporto da capital do país fictício tenha menos do que 2.401 voos, todos precisarão 
ser inspecionados ou uma margem de erro maior precisará ser arbitrada.
8 Inferência estatística: teoria da decisão
1. Sejam estas hipóteses:
H0 : μ = 8 minutos
Ha : μ ≠ 8 minutos
E estatística de teste:
Z
x
n
calculado
0 8 5 8
3 2
120
1 71, , ,
Para cálculo de Zcrítico, considerar teste bicaudal e α = 0,05. Portanto, linha 1,9 e coluna 6 na 
tabela da distribuição normal padrão paraP(Z ≥ Zcrítico ) = 2,5% ou P(0 ≤ Z ≤ Zcrítico ) = 47,5%.
Zcalculado ≥ Zcrítico → 1,71 ≥ 1,96 (falso)
Portanto, aceita-se H0. Isso implica que a amostra traz evidências de que o tempo médio de 
espera não difira do padrão de 8 minutos e, assim, o projeto de instalação de televisores nas 
filas dos caixas pode avançar.
Gabarito 175
2. Primeiramente, procede-se com a declaração dos testes de hipótese para essa situação. A 
rejeição de H0 implica que a satisfação esteja dentro dos requisitos de qualidade da empresa:
H0 : μ ≤ 7
Ha: μ > 7
Como σ é desconhecido, é necessário proceder com cálculo de média amostral x e desvio 
padrão amostral s. Por meio de software adequado (para dúvidas, ver sugestões em capítulos 
anteriores), os resultados obtidos são: x = 6,93 e s = 1,84.
t x
s
n
calculado
0 6 93 7
1 8 4
30
0 2 1
,
, ,
Considerando α = 0,01 (portanto, na tabela, considerar a coluna p = 2%), para 29 graus de 
liberdade, obtém-se, da tabela de distribuição t-Student, tcrítico = 2,462. Para teste de cauda 
inferior, a condição para rejeição de H0 é tcalculado ≤ –tcrítico → –0,21 ≤ –2,462 (falso). Portanto, 
não se pode rejeitar H0 e há evidência na amostra de que a satisfação não esteja dentro dos 
requisitos de qualidade da empresa App 88.
Para α = 0,05 (na tabela, considerar a coluna p = 10%), tcrítico = 1,699. Na comparação de 
tcalculado ≤ –tcrítico → –0,21 ≤ –1,699 (falso), a conclusão continua sendo pela não rejeição de H0.
3. Os testes de hipóteses podem ser assim enunciados:
H0 : p ≤ 0,80
Ha : p > 0,80
Seja r = cidadãos a favor do projeto de lei, grau de confiança de 95% (definido no enunciado) 
e teste de cauda superior:
p r
n
= = =
455
550
0 83,
,,
Z p p
p p
n
calculado
0
0 01
0 8 3 800
0 20 0 2
550
0 0 3
0 0 11 0
, , ,
, 7
1 7 6,
Para cálculo de Zcrítico, considerar teste de cauda superior e α = 0,05. Portanto, linha 
1,6 e coluna 4 na tabela da distribuição normal padrão para P(Z ≥ Zcrítico) = 5% ou 
P(0 ≤ Z ≤ Zcrítico) = 45%.
Zcalculado ≥ Zcrítico → 1,76 ≥ 1,64 (verdadeiro)
Desse modo, rejeita-se H0. Isso implica que a amostra traz evidências de que, se a votação para 
o projeto de lei fosse hoje, mais de 80% da população estaria a favor e, consequentemente, 
ele seria aprovado.
176 Estatística Aplicada
9 Introdução à análise multivariada de dados: 
regressão e correlação
1. Correlação
Uma das maneiras de inspecionar a relação entre ativos é por meio do cálculo da correlação, 
par a par. O cálculo pode ser feito por meio da função correl do Excel e os resultados (Matriz 
de correlação para ativos A, B, C, D e E ) estão apresentados na Tabela a seguir.
A B C D E
A
B 0,995
C -0,966 -0,973
D 0,898 0,899 -0,788
E -0,641 -0,684 0,542 -0,850
Para escolha de dois ativos que tenham comportamentos diferentes, não há uma única 
resposta correta, mas vale a interpretação do conceito de correlação: valores acima de 0,70 
significam que os dois ativos têm comportamentos convergentes (quando um sobe, outro 
também sobe); valores abaixo de –0,70 significam que os dois ativos têm comportamentos 
divergentes (quando um sobe, outro desce) e valores próximos de 0 significam que não há 
relação linear entre os ativos.
Para ativos com comportamentos divergentes, portanto, convém tomar aqueles que tenham 
valores menores do que –0,70. Nesse caso, os pares (A, C) e (B, C) são bons exemplos, 
embora os pares (D, E) e (C, D) também sejam aceitáveis.
2. Estimação de parâmetro de regressão linear
A partir dos procedimentos apresentados neste capítulo, é possível usar o Excel para plotar os 
dados, incluir um diagrama de dispersão e solicitar que o software calcule a reta de tendência 
e a consequente equação resultante, conforme o Gráfico a seguir, que apresenta a Relação 
entre PIB per capita e anos de educação.
15
14
13
12
11
10
4 5 6 7 8 9
Anos de educação
PI
B 
pe
r c
ap
ita
 ($
 m
il) y = 0,9252x + 5,8709
PIB per capita (em $ mil) vs anos de educação
Gabarito 177
Assim, o modelo completo pode ser expresso por:
PIB per capita = 5,88 + 0,93 × (anos de educação)
3. Interpretação de modelos preditivos
O modelo resultante será expresso por:
PIB per capita = 5,88 + 0,93 × (anos de educação)
Há duas interpretações mais imediatas. Primeiramente, a = 5,88 significa que, 
independentemente dos anos de educação, o PIB per capita terá R$ 5,88 mil como ponto 
de partida. E b = 0,93 significa que, para cada um ano adicional de educação (na média 
da população), haverá um incremento de R$ 0,93 mil no PIB per capita. Os resultados 
comprovam que existe uma relação positiva entre as variáveis, de modo que mais anos de 
educação contribuem para aumento de renda, cuja aproximação está sendo dada pelo PIB 
per capita. Como política pública, portanto, vale o investimento em educação.
Código Logístico
58573
Fundação Biblioteca Nacional
ISBN 978-85-387-6484-7
9 7 8 8 5 3 8 7 6 4 8 4 7

Mais conteúdos dessa disciplina