Prévia do material em texto
Código Logístico
58573
Fundação Biblioteca Nacional
ISBN 978-85-387-6484-7
9 7 8 8 5 3 8 7 6 4 8 4 7
Estatística Aplicada
IESDE BRASIL S/A
2019
Cesar Akira Yokomizo
Todos os direitos reservados.
IESDE BRASIL S/A.
Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200
Batel – Curitiba – PR
0800 708 88 88 – www.iesde.com.br
CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
Y53e Yokomizo, Cesar Akira
Estatística Aplicada / Cesar Akira Yokomizo. - 1. ed. - Curitiba
[PR] : IESDE Brasil, 2019.
178 p.
Inclui bibliografia
ISBN 978-85-387-6484-7
1. Estatística. 2. Probabilidades. I. Título.
19-57060
CDD: 519.5
CDU: 519.2
© 2019 – IESDE BRASIL S/A.
É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por escrito do autor e do detentor dos
direitos autorais.
Projeto de capa: IESDE BRASIL S/A.
Imagem da capa: everything possible/Sergey Nivens/Shutterstock
Cesar Akira Yokomizo
Doutor e mestre em Administração de Empresas pela Universidade de São Paulo (USP),
mestre em Administração de Empresas pela Fundação Getulio Vargas (FGV-SP), especialista em
Engenharia de Redes e Sistemas de Telecomunicações pelo Instituto Nacional de Telecomunicações
(Inatel), economista e engenheiro da computação pela Universidade de São Paulo (USP). Docente
da Fundação Instituto de Administração (FIA-SP) e do Senac São Paulo. Professor convidado em
escolas de negócios de referência. Palestrante profissional e consultor autônomo em estratégia
organizacional e gestão da inovação. Utiliza os métodos quantitativos aplicados aos negócios. Tem
experiência profissional com projetos técnicos e de gestão em organizações públicas e privadas no
Brasil, França, Alemanha e Portugal.
Sumário
Apresentação 7
1 Estatística descritiva: conceitos e aplicações 9
1.1 Pesquisa 10
1.2 Pesquisa quantitativa 13
1.3 Métodos estatísticos: a estatística descritiva 19
2 Estatística descritiva: análise de dados 25
2.1 Tipos de variáveis 25
2.2 Distribuição de frequências 31
2.3 Gráficos 34
3 Estatística descritiva: medidas-resumo 41
3.1 Medidas de posição 41
3.2 Medidas de dispersão 49
3.3 Gráfico box-plot 54
4 Noções de probabilidade 59
4.1 Propriedades 60
4.2 Probabilidade condicional 64
4.3 Teorema de Bayes 67
5 Distribuições de probabilidade 73
5.1 Valor médio de variável aleatória discreta 75
5.2 Distribuição de Bernoulli 80
5.3 Distribuição binomial 81
5.4 Distribuição hipergeométrica 83
5.5 Distribuição de Poisson 85
6 Inferência estatística: amostragem 91
6.1 Variável aleatória contínua normal 92
6.2 Função de densidade de probabilidade normal 96
6.3 População e amostra 101
6.4 Amostragem 103
7 Inferência estatística: estimação 109
7.1 Métodos quantitativos: inferência estatística 109
7.2 Estimação por ponto 111
7.3 Estimação por intervalo 113
8 Inferência estatística: teoria da decisão 131
8.1. Teste de hipótese para média 132
8.2 Teste de hipótese para proporção 143
9 Introdução à análise multivariada de dados: regressão e correlação 149
9.1 Associação entre variáveis quantitativas 150
9.2 Estimação dos parâmetros 152
9.3 Modelos preditivos 158
Gabarito 163
Apresentação
A área dos métodos quantitativos, em particular a estatística, é historicamente considerada
muito difícil e, portanto, reservada a alguns poucos capazes de entendê-la. Porém, nos anos
recentes, por conta do avanço computacional, os cálculos, embora difíceis e desafiantes, tornam-
-se necessários, pois abrem espaço para a tomada de decisão qualificada cujo alicerce reside nos
resultados obtidos.
Nesse contexto, áreas diversas, como as ciências sociais, ciências naturais, ciências da saúde,
ciências sociais aplicadas, ciências exatas, apenas para citar algumas, têm incluído crescentemente
o uso da estatística em suas pesquisas e se apropriado dos novos achados. Também no mundo
corporativo, o uso da estatística tem possibilitado iniciativas que ampliam a competitividade das
organizações. Esta é a área da estatística aplicada: a junção das técnicas estatísticas com a realidade
organizacional ou social.
Como precedente da análise de dados, é necessário um aprofundamento sobre o objetivo da
pesquisa a ser desenvolvida. Esse objetivo ultrapassa a fronteira do cálculo e invade a compreensão
do assunto específico. Por isso, ele precisa trazer alguma contribuição para o indivíduo, para a
organização ou para a sociedade. Nesta obra, você aprenderá a pensar em objetivos melhores para
a sua pesquisa, pois somente com uma inequívoca declaração do objetivo será possível entender
qual é a técnica estatística que melhor contribui para que o pesquisador alcance aquele propósito.
Portanto, objetivo da pesquisa e objetivo específico da técnica estatística precisam ser convergentes.
Nesse contexto, esta obra apresentará três técnicas estatísticas, a saber: (1) estatística
descritiva, (2) inferência estatística e (3) regressão linear simples. Ao conhecer os propósitos de
cada uma, será possível eleger a técnica mais adequada para a pesquisa.
A primeira técnica a ser apresentada será a estatística descritiva. Por meio de tabelas,
gráficos e medidas estatísticas, ela tem o intuito de descrever um conjunto de dados. Com base
nessa descrição, será possível identificar se os indivíduos têm comportamentos parecidos (grupo
homogêneo) ou se os comportamentos são diferentes (grupo heterogêneo). Isso é particularmente
interessante para a tomada de decisão, pois, sobre grupos mais homogêneos, espera-se que as
iniciativas sejam mais assertivas. É o que acontece, por exemplo, quando uma empresa elege um
público-alvo e, assim, segmenta o mercado.
A próxima técnica a ser apresentada será a inferência estatística. Pesquisas de campo para
coleta de dados costumam ser custosas, demoradas e, muitas vezes, operacionalmente difíceis
de conduzir. Por isso, é raro pesquisar toda a população (censo). Imagine, então, poder chegar a
resultados próximos daqueles que seriam observados se toda a população fosse pesquisada, mas
com base em apenas uma parte dessa população. A inferência estatística permite isso, pois produz
Estatística Aplicada8
afirmações sobre o todo considerando apenas parte desse todo. Pesquisas eleitorais de intenção de
voto, por exemplo, lançam mão dessa técnica.
Por fim, a última técnica a ser apresentada será a regressão linear simples. Suponha que
exista uma relação preditiva entre os anos de educação de uma pessoa e seu salário. Que fantástico
seria se pudéssemos estimar uma variável de interesse, o salário, por exemplo, baseando-se em
outra variável, anos de educação. A técnica de regressão linear simples possibilita gerar modelos
preditivos: com base em um histórico, pretende-se predizer sobre o futuro. Embora existam outras
técnicas estatísticas, essas três trazem uma contribuição enorme ao uso prático dos métodos
quantitativos para a tomada de decisão.
Nas discussões recentes sobre a robotização e a consequente substituição (ou eliminação)
do trabalho humano, algumas previsões dão conta de que muitas profissões e muitas atividades
que hoje são desenvolvidas por nós, humanos, deixarão de existir. Quando nos detemos mais
especificamente para o avanço computacional nos métodos quantitativos, é surpreendente a
velocidade e o poder de processamento das máquinas. Dificilmente um ser humano será tão rápido
e tão preciso quanto a máquina na execução das contas. Mas a genialidade humana, felizmente, não
repousa aí: ela está em ter uma visão holística de um ambiente complexo e nele decidir.
Especificamente para as pesquisas em estatística aplicada, há dois momentos em que essa
genialidade aparece: (1) no planejamento da pesquisa de campo, desde a concepção do objetivo até
seu desenvolvimento, e (2) na tomada de decisão qualificada e aplicada, com base nos resultados
obtidos. Aliás, é aí que reside competitividade das organizações ou a expansão do conhecimento da
humanidade. E, nesse ponto, portanto, máquina nenhuma nos substituirá.Seja bem-vindo a esta obra e use-a para tomar decisões melhores. Uma boa leitura!
1
Estatística descritiva:
conceitos e aplicações
Muitos associam os métodos quantitativos e, particularmente, a estatística a cálculos
complicados e resultados que pareçam ter pouca aplicabilidade em nosso dia a dia. Ledo engano.
A estatística está menos restrita a números em si e tem, cada vez mais, contribuído de forma
decisiva no suporte à tomada de decisão qualificada em diferentes áreas do conhecimento, como
marketing, finanças, logística, operações, gestão de pessoas, economia e contabilidade. Por um lado,
o avanço computacional nos anos recentes contribuiu para que cálculos complicados pudessem
ser automatizados, reduzindo o tempo de execução de uma pesquisa de forma jamais vista antes.
Por outro lado, a tomada de decisão, em especial no mundo dos negócios, tem sistematicamente
migrado de uma ênfase mais subjetiva para uma abordagem em que o embasamento quantitativo
tenha papel de destaque.
Os métodos quantitativos são utilizados para extrair informações potencialmente úteis,
com base em dados disponíveis (ou feitos disponíveis), de modo que gestores consigam tomar
decisões sistematicamente melhores. Nesse sentido, é necessário entender o conceito de pesquisa
quantitativa e como esse conceito direciona os métodos quantitativos mais adequados para cada
situação.
Ao longo deste capítulo, teremos como objetivo descrever quais são as relações entre
pesquisa, pesquisa quantitativa e métodos quantitativos, expor como conduzir uma pesquisa
quantitativa, com base no desenvolvimento de um questionário, e descrever as relações entre
métodos quantitativos e tomada de decisão.
Imaginemos este cenário: alguém X sabe preparar um delicioso bolo de chocolate. Em
determinado momento do processo de elaboração do tal bolo, alguém X sabe que precisa incluir
fermento para que a massa do bolo cresça e, assim, o bolo fique fofinho e delicioso. Ainda que
alguém X não consiga explicar exatamente o motivo, sabe que o fermento faz o bolo crescer. É
evidente que não conseguir explicar o crescimento do bolo não descaracteriza o conhecimento que
existe na elaboração do bolo. Esse tipo de conhecimento pode ser considerado “popular” (também
chamado de senso comum) e é passível de ser transmitido entre gerações pela educação informal
e, muitas vezes, com base na imitação e na experiência pessoal.
Agora, nesse mesmo contexto, imaginemos que alguém Y esteja curioso acerca dos reais
ou verdadeiros motivos que fazem o bolo crescer com base na aplicação do fermento e comece
a investigar propriedades do ingrediente. Eis que, em dado momento, alguém Y descobre que
o fermento, quando adicionado à massa, promove processos químicos e biológicos que acabam
produzindo compostos gasosos, e são esses gases que expandem a massa, dando origem a pequenos
buracos e, como consequência, o bolo fica macio. É de notar que a natureza desse outro tipo de
conhecimento é diferente da primeira. Esse conhecimento tem caráter mais científico e é passível
Estatística Aplicada10
de transmissão por meio de capacitação adequada, sendo um conhecimento obtido por meio de
procedimentos científicos, de maneira mais lógica e racional (MARCONI; LAKATOS, 2010).
O que diferencia ambos os casos são os métodos e os instrumentos que resultaram no
conhecimento: como é que se chegou a determinada conclusão? Nesse contexto, convém distinguir
pesquisa e método. De maneira coloquial, pesquisa é o quê se pretende investigar, e método é
como se pretende investigar. Assim, há geração de conhecimento com uma base menos popular
e, portanto, mais científica. É evidente que o quê e como estão proximamente relacionados, mas
é particularmente importante destacar a relação cronológica de ambos em uma investigação:
primeiramente, define-se o quê e, apenas depois, define-se como.
Tanto a pesquisa quanto os métodos podem ter natureza qualitativa ou quantitativa. Para
fins deste material, a pesquisa e os métodos quantitativos são de particular interesse. É esse o
motivo pelo qual, a seguir, serão abordados os seguintes temas: pesquisa, pesquisa quantitativa e
métodos quantitativos.
1.1 Pesquisa
A pesquisa, também usualmente chamada de investigação ou estudo, é um
processo sistemático para a construção do conhecimento humano, seja pela geração
de novos conhecimentos, seja pela contribuição para o detalhamento, a refutação, a
ampliação ou a atualização de conhecimentos preexistentes. Em caráter geral, trata-
se do conjunto de atividades orientadas e planejadas pela busca do conhecimento.
É da natureza da pesquisa seu caráter científico, pois pressupõe que seus
achados tenham como pilares provas observáveis, empíricas e mensuráveis. Com
base na formulação e em testes de hipóteses, dados são coletados por meio da
observação e experimentação. É nesse ponto que se distingue ciência e opinião (ou,
como apresentado, senso comum).
Por exemplo, suponha que um empresário perceba que o lucro de sua empresa
de produção de lâmpadas esteja em queda constante. Uma de suas hipóteses é que a
linha de produção esteja ineficiente, por isso, decide coletar dados diretamente nas
lâmpadas que saem da linha de produção. Para sua surpresa, é constatado que 63%
das lâmpadas são produzidas com defeitos, portanto há evidência de que a linha de
produção está com problemas. É importante notar que o fato de 63% das lâmpadas
estarem com defeito não é apenas opinião, mas uma evidência irrefutável. Ademais,
é de sistematizar o raciocínio da pesquisa:
• formulação da hipótese: linha de produção ineficiente;
• coleta de dados nas lâmpadas que saem da linha de produção; e
• dados observáveis: 63% das lâmpadas estão com defeitos.
Do ponto de vista da gestão, no mesmo exemplo da produção de lâmpadas,
a coleta de dados e a identificação de 63% de lâmpadas com defeitos permitem que
o gestor proponha ações como suspensão imediata da produção, para evitar mais
desperdício, ou mesmo a contratação de outra pesquisa, para identificar e descrever
Vídeo
Estatística descritiva: conceitos e aplicações 11
com mais precisão quais são as causas exatas dos defeitos (será que se trata de uma anomalia no
maquinário? Problemas de calibragem dos equipamentos? Ou imperícia por parte dos funcionários
da produção?). É de enfatizar que o uso mais notável da pesquisa não é o cálculo complexo em si,
mas as melhores decisões que podem ser tomadas com base em tais cálculos. Assim, do ponto de
vista da gestão, a pesquisa não é o fim em si, mas o meio pelo qual o gestor consegue tomar decisões
melhores.
Embora muitas vezes haja uma tentação de se partir diretamente para a coleta de dados (o
que é compreensível, muitas vezes, por conta da urgência causada pela escassez de tempo ou pela
ansiedade de se chegar rapidamente aos resultados), o primeiro passo no planejamento de uma
pesquisa é a definição clara de um objetivo.
É comum a declaração de objetivo enfatizar o cálculo que será feito ou o método da pesquisa
que será utilizado. Exemplo (ruim): “o objetivo desta pesquisa é calcular medidas estatísticas da
produção de lâmpadas em nossa empresa”. Outro exemplo (ruim): “o objetivo desta pesquisa é
entrevistar funcionários da linha de produção da nossa empresa”. Essas declarações não refletem a
real intenção daquele que planeja a pesquisa ou, pelo menos, podem ser consideradas imprecisas
ou incompletas. É preferível a seguinte declaração de objetivo: “o objetivo da pesquisa é aumentar a
eficiência da produção de lâmpadas em nossa empresa” (exemplo bom). Para isso, eventualmente,
medidas estatísticas podem ser calculadas e entrevistas com funcionários da linha de produção
podem ser conduzidas. Portanto, o objetivo fim da pesquisa não é apenas “calcular medidas
estatísticas” ou “entrevistar funcionários da linha de produção”, mas “aumentar a eficiência da
produção de lâmpadas”, como pode ser observado no Quadro 1 a seguir.
Quadro 1 – Exemplo de objetivo de pesquisaObjetivo primário (principal) Objetivos secundários
Aumentar a eficiência da produção de lâmpadas em
nossa empresa.
Calcular medidas estatísticas da produção de lâmpadas
em nossa empresa.
Entrevistar funcionários da linha de produção de nossa
empresa.
Fonte: Elaborado pelo autor.
Com base em uma declaração de objetivo nobre, é necessário identificar qual é o tipo de
pesquisa e quais são os métodos de pesquisa que podem contribuir mais decisivamente para atingir
esse objetivo. Em linhas gerais, existem dois tipos de pesquisas: pesquisa qualitativa e pesquisa
quantitativa.
Além de cada tipo apresentar procedimentos e métodos específicos, eles se distinguem
na natureza intrínseca. A pesquisa qualitativa tem como natureza a profundidade, portanto, a
pertinência para adoção de uma pesquisa qualitativa está na tentativa de identificar e descrever
detalhes de um dado fenômeno de interesse por meio da observação, da narrativa ou da percepção.
O interesse repousa nas particularidades e experiências individuais. Fenômenos que requerem
uma vertente mais qualitativa são aqueles que apresentam algum tipo de interesse, seja por sua
reconhecida particularidade, seja por sua relação com o pesquisador. Exemplo: “identificar e
descrever as iniciativas internas que promovem a inovação no Google (que é considerada uma
Estatística Aplicada12
organização reconhecidamente inovadora, portanto de interesse em uma pesquisa sobre inovação)”.
Outro exemplo: “identificar e descrever as percepções dos funcionários quanto às condições de
trabalho em nossa empresa”.
Por outro lado, a pesquisa quantitativa busca a generalização. O interesse é identificar e
descrever preferências e tendências em geral. O objetivo é descrever (e, talvez, até mesmo
compreender) os fenômenos por meio da coleta de dados numéricos, que apontarão preferências,
comportamentos e outras ações dos indivíduos que pertencem a determinado grupo ou sociedade.
Exemplo: “identificar qual é o percentual dos alunos que estão satisfeitos com a instituição de ensino
(nota maior do que 8 em uma escala de 0 a 10)”. Outro exemplo: “com dois pontos percentuais para
mais ou para menos, qual é o percentual de votos que tem um candidato na véspera do segundo
turno de uma corrida eleitoral para presidência?”.
A natureza de uma pesquisa qualitativa é, portanto, da busca pela profundidade e, de uma
pesquisa quantitativa, é da abrangência. De maneira visual, pode-se estabelecer uma relação entre
profundidade de análise desejada e abrangência ou generalização da análise, como apresentada na
Figura 1 a seguir.
Figura 1 – Profundidade e abrangência das pesquisas científicas
Profundidade da análise
Abrangência da análise
Pesquisa
qualitativa
Pesquisa
quantitativa
Composição
qualitativa e
quantitativa
Fonte: Nielsen; Olivo; Morilhas, 2018, p. 116.
Se, por um lado, na pesquisa qualitativa, o estudo é conduzido sobre um ou poucos casos
de interesse, por outro lado, na pesquisa quantitativa, espera-se um número de respondentes (ou
de casos) “grande o suficiente”. Se o objetivo é a generalização, “grande o suficiente” significa que o
conjunto de dados representa bem o fenômeno de interesse.
Quanto à coleta de dados, pode-se afirmar que, na pesquisa qualitativa, ela acontece de
maneira menos estruturada, podendo ter como fonte a observação de um fenômeno, a condução
de uma entrevista ou de uma interação social, apenas para citar alguns exemplos. Já na pesquisa
quantitativa, a coleta de dados é mais estruturada, em geral, por meio de um questionário com
perguntas mais objetivas e menos passíveis à subjetividade do respondente. Espera-se que, ao final,
depois dessa fase de coleta de dados, sejam aplicadas ferramentas estatísticas para a análise de
dados. Nesse sentido, a pesquisa qualitativa pode ser considerada mais exploratória, mais inicial do
ponto de vista da compreensão do fenômeno de interesse. De outra parte, a pesquisa quantitativa
pode ser considerada mais conclusiva.
Estatística descritiva: conceitos e aplicações 13
Por fim, o Quadro 2, a seguir, apresenta um resumo das principais diferenças entre pesquisa
qualitativa e quantitativa.
Quadro 2 – Comparação entre pesquisa qualitativa e quantitativa
Pesquisa qualitativa Pesquisa quantitativa
Objetivo
Compreender qualitativamente as
razões e as motivações subjacentes.
Quantificar os dados e, eventualmente,
extrapolar os resultados da amostra para
a população de interesse.
Estrutura da amostra
Reduzido número de casos não
representativos.
Grande número de casos
representativos.
Tipo de coleta de dados Menos estruturado. Mais estruturado.
Análise de dados
Qualitativa, sem a utilização de
ferramentas estatísticas.
Quantitativa, com a utilização de
ferramentas estatísticas.
Conclusão
A compreensão inicial do fenômeno
de interesse.
Um curso final de ação.
Fonte: Elaborado pelo autor com base em Nielsen; Olivo; Morilhas, 2018, p. 155.
A condução de uma boa pesquisa começa com a definição de um objetivo nobre, um
objetivo que mereça ser investigado. Na área das ciências sociais aplicadas, da qual fazem parte
a administração, a economia e a contabilidade, apenas para citar algumas, são exemplos de
objetivos nobres: (a) aumentar o faturamento da minha empresa, (b) identificar países que tenham
características semelhantes de desenvolvimento ou (c) identificar nível ótimo de alavancagem de
determinado grupo de empresas.
Com base nas características intrínsecas das pesquisas qualitativa e quantitativa, esta obra
tem como enfoque a vertente quantitativa, cujos planejamento e pesquisa de campo merecem
cuidados, os quais serão abordados a seguir.
1.2 Pesquisa quantitativa
Como apresentado anteriormente, a pesquisa quantitativa almeja a
generalização sobre determinado fenômeno de interesse, ainda que alcançar esse
objetivo implique uma série de premissas e seja carregado de limitações para sua
operacionalização. Uma das maneiras de se alcançar o objetivo da generalização é
por meio de uma boa amostragem. Para esse ponto, convém entender a distinção e a
relação entre população e amostra.
Com base na declaração do objetivo da pesquisa, é necessário reconhecer
quem são os objetos da pesquisa (ou objetos do estudo), e aos objetos da pesquisa é
atribuído o nome de indivíduo. Por exemplo, em uma pesquisa sobre a satisfação de
discentes sobre o curso que estão fazendo, cada discente regularmente matriculado
é um indivíduo dessa pesquisa. É de notar, portanto, que definir quem é o indivíduo
da pesquisa está intimamente ligado ao objetivo da pesquisa. Nesse sentido, deve-se
perceber que, embora a nomenclatura indivíduo possa remeter a uma pessoa, isso
não é obrigatório: em uma pesquisa sobre os carros de determinado município, cada
carro desse município é um indivíduo da pesquisa.
Vídeo
Estatística Aplicada14
De volta à discussão sobre população e amostra, à totalidade dos indivíduos atribui-se a
nomenclatura de população (ou universo). Na pesquisa sobre satisfação de discentes sobre o curso
que estão fazendo, a população é composta por todos os discentes regularmente matriculados.
No limite, cabe inclusive a discussão sobre se a população, nesse exemplo, precisa incluir também
aqueles que solicitaram trancamento nos últimos seis meses. Ou excluir aqueles que, embora
regularmente matriculados, não estejam frequentando as aulas há mais de quatro semanas
consecutivas. Não há critério universal único: o que determina a definição da população de uma
pesquisa inclui a aderência ou a compatibilidade com o objetivo da pesquisa que fora delineado,
mas, em situações variadas, isso não é suficiente. Essa compatibilização, por outro lado, não trata
apenas de uma vontade do pesquisador em alcançar o objetivo da pesquisa, senão também da
factibilidade de acesso que terá aos indivíduos da população. Por exemplo, no caso da pesquisa de
satisfação de discentes, caso a opção seja por uma coleta de dados presencial, a população pode
ser definidacomo aqueles discentes que estejam regularmente matriculados e que frequentem o
campus presencialmente na semana de 25 a 29 de março. Portanto, a definição sobre a população
precisa compatibilizar, de um lado, o objetivo da pesquisa e, de outro, a factibilidade de acesso
aos indivíduos.
Uma vez entendido como definir a população, vale o comentário sobre o censo. Quando
todos os indivíduos participam do estudo, a pesquisa produzirá afirmações sobre a população
como um todo. É evidente que a tomada de decisão fica potencialmente mais rica quando as
afirmações recaem sobre a população como um todo e não apenas sobre parte dela. Por outro lado,
inspecionar todos os indivíduos pode ser uma tarefa demorada, custosa, operacionalmente difícil
e, algumas vezes, até mesmo impossível. Suponha uma pesquisa eleitoral de intenção de votos para
presidência: se a população puder ser definida como todos que tenham um título de eleitor válido,
vale imaginar a complexidade logística para se conseguir respostas de intenção de voto de todos os
indivíduos. Em outro exemplo, suponha que, em uma linha de produção de lâmpadas, precisemos
mensurar o tempo médio que a lâmpada funcione até queimar. É claro que, se esperarmos cada
lâmpada queimar, para, então, poder calcular a média de tempo, não restará nenhuma lâmpada no
estoque para que possamos vender. Desse modo, em muitas situações do nosso dia a dia, convém
considerar trabalhar com uma parte da população. Na pesquisa quantitativa, a essa parte da
população atribui-se a nomenclatura de amostra.
Se, por um lado, qualquer parte da população constitui uma amostra, não é toda amostra
que pode ser considerada boa para fins estatísticos. Uma amostragem melhor distingue-se por
estas duas características: representatividade e aleatoriedade.
Uma amostra é mais representativa quanto mais fidedignamente conseguir representar
a população. Por exemplo: suponha que 58% de dada população de interesse seja composta
por mulheres e 42% por homens; considerando-se apenas a variável gênero, uma amostra
representativa terá essa mesma proporção de mulheres e homens. Por sua vez, uma amostra pode
ser considerada aleatória quando cada indivíduo tem chances iguais de ser selecionado para
compor a amostra. No mesmo exemplo anterior, supondo que precisemos eleger 1.000 mulheres
para a amostra, cada uma das mulheres da população tem chance igual de ser selecionada para
Estatística descritiva: conceitos e aplicações 15
compor a amostra (por sorteio, por exemplo). Essas características de representatividade e
aleatoriedade serão detalhadas com mais rigor adiante, quando, oportunamente, também será
lançada à luz a interessante discussão sobre tamanho ideal de amostra.
Se entendida a diferença e a relação entre população, amostra e indivíduo, é chegada a hora
de aprofundar o conceito de variável. Em uma pesquisa, variável é uma característica de interesse
do indivíduo. No exemplo sobre pesquisa de satisfação de discentes, se o indivíduo é um discente
regularmente matriculado no semestre corrente, idade e nota atribuída à infraestrutura da escola
podem ser consideradas variáveis, pois qualificam o indivíduo. Embora ambas sejam variáveis,
elas carregam papéis diferentes na pesquisa: a variável idade serve para caracterizar o respondente
do ponto de vista demográfico – e, por esse motivo, esse tipo de variável é nomeado de variável
demográfica.
Variáveis demográficas contribuem para alcançar o objetivo da pesquisa de forma indireta:
suponha que, ao utilizar a variável idade para segmentar em dois grupos, discentes com mais de
25 anos e discentes com menos de 25 anos, descubra-se que discentes do grupo com menos de 25
anos forneçam notas sistematicamente menores para a variável nota atribuída à infraestrutura. Se
isso for realmente observado, o gestor pode tentar tomar alguma ação especificamente para esse
grupo. Já a variável nota atribuída à infraestrutura da escola contribui diretamente para o objetivo
da pesquisa e, por isso, no senso comum, esse tipo é chamado de variável da pesquisa. Variáveis
demográficas podem também ser variáveis da pesquisa quando o objetivo é descrever determinada
população ou amostra.
A seguir, na Tabela 1, está um exemplo fictício dos resultados obtidos em uma pesquisa de
satisfação de discentes sobre o curso que estão fazendo.
Tabela 1 – Exemplo de pesquisa de satisfação de discentes sobre o curso
Nome Gênero
Percepção quanto à
didática dos professores
Nota atribuída à infraestrutura
da escola escala [1-4]
Idade
Adriano Masculino Satisfeito 3 22
Bruna Feminino Muito satisfeito 3 36
Carlos Masculino Muito satisfeito 4 31
Diana Feminino Insatisfeito 1 18
Evandro Masculino Satisfeito 2 19
Fonte: Elaborada pelo autor.
Sweeney et al. (2014) e Nielsen et al. (2018) classificam as escalas em quatro tipos:
• Escala nominal: os números ou rótulos são utilizados para nomear ou categorizar
indivíduos. Exemplo: a variável gênero está apenas nomeando indivíduos. Supondo
agora que se resolva alterar a forma de armazenar os dados, sendo 1 = Masculino e 2 =
Feminino: não significa que 2 seja maior ou melhor do que 1, trata-se apenas de um modo
de nomear os indivíduos.
• Escala ordinal: os números ou rótulos são utilizados para nomear e ordenar os
indivíduos; portanto, quando dois indivíduos são comparados, é possível afirmar que
Estatística Aplicada16
um tem mensuração maior do que o outro, mas não é possível mensurar quão maior.
Exemplo: quando são comparados indivíduos sobre a percepção quanto à didática
dos professores, entende-se que alguém muito satisfeito esteja mais satisfeito do que
alguém que esteja apenas satisfeito, e que alguém satisfeito esteja mais satisfeito do
que alguém insatisfeito, mas, em ambos os casos, não se consegue afirmar quanto mais
satisfeito alguém X está em relação a alguém Y.
• Escala intervalar: os intervalos mostram a ordenação e a distância entre os indivíduos
quanto a uma determinada característica. Exemplo: nota atribuída à infraestrutura da
escola, em uma escala de 1 a 4, em que 1 seja a menor nota disponível e 4 seja a maior nota
disponível, sabe-se que Carlos atribuiu 2 pontos mais em relação a Evandro (nota 4 versus
nota 2, por exemplo).
• Escala de razão: assim como a escala intervalar, apresenta a ordenação e a distância
entre os objetos, mas tem como referencial o zero absoluto, o que permite identificar
a magnitude absoluta. Exemplo: variável idade: quem tem 36 anos é mais velho do que
quem tem 19 anos, sendo 0 anos o equivalente ao zero absoluto = recém-nascido.
Conhecer escalas é de particular interesse em pesquisas quantitativas, pois, a menos que o
pesquisador tenha acesso a bases de dados já prontas (pagas ou gratuitas), será necessário elaborar
um questionário para a obtenção de dados, coletar dados em campo e formar sua própria base.
Antes de prosseguir, vale este comentário sobre bases de dados já prontas: em ciências sociais
aplicadas, bases de dados (ou banco de dados) disponíveis no Brasil ainda são relativamente
raras, pois, na maior parte das vezes, o objetivo daquele que coletou e disponibilizou dados é
diferente do objetivo daquele que está com uma investigação em curso. Isso abre margem para
uma prática questionável na condução de uma pesquisa: alterar o objetivo da pesquisa consoante
com a base de dados disponível. Está claro que é mais fácil alterar o objetivo de pesquisa do que
elaborar questionário, coletar dados e formar a própria base, ainda mais com as diferentes fontes
de restrição para a condução da pesquisa: tempo, recursos financeiros e humanos, complexidade
logística, apenas para citar algumas. Porém uma mensagem merece ser reforçada: para se conseguir
a riqueza de um objetivo de pesquisa delineado, na maior parte das vezes, não haverá atalhos fáceis
ou óbvios, contudo, caso exista uma base de dados que contribua inequívoca e significativamente
para atingir seu objetivo de pesquisa, certamente vale considerá-la.Após a definição de objetivo da pesquisa, indivíduos, população, amostra e variáveis
(demográficas e da pesquisa) – com as respectivas escalas, avalia-se se há bases de dados disponíveis
sobre as quais se possam rodar as ferramentas estatísticas e, assim, atingir o objetivo da pesquisa.
Caso não sejam encontradas bases de dados para esse fim, os procedimentos a seguir são aplicáveis.
A elaboração do questionário costuma ser uma fonte usual de erros em pesquisa quantitativa.
Em primeiro lugar, porque, muitas vezes, há falta de cuidado na escolha das variáveis e da escala
de cada uma delas. Um comentário de caráter mais geral sobre escolha de variáveis, mas
que é pertinente a todas as pesquisas: as variáveis precisam estar em convergência com o objetivo
da pesquisa. No exemplo da satisfação de discentes, além de variáveis demográficas, as variáveis de
pesquisa podem incluir, mas não se restringir a:
Estatística descritiva: conceitos e aplicações 17
• satisfação com o corpo docente;
• satisfação com a coordenação de curso;
• satisfação com a infraestrutura da instituição;
• satisfação com valores atuais;
• satisfação com a forma de pagamento;
• satisfação com a localização.
Muitas vezes, em pesquisas acadêmicas, é comum que as variáveis tenham como origem
a literatura disponível na área de interesse. No mundo corporativo, por outro lado, as variáveis
podem ter como origem a experiência do profissional em determinado assunto.
Em seguida, é necessário eleger uma escala adequada às variáveis escolhidas e,
consequentemente, aos objetivos da pesquisa. Em escalas de percepção, que são muito comuns em
ciências sociais aplicadas, podem ser adotadas tanto escalas numéricas (por exemplo, de 0 a 10)
quanto de concordância. Um exemplo de escala de concordância é a Likert (discordo totalmente
até concordo totalmente). Exemplos de resultados possíveis por meio de escalas numéricas e de
concordância são apresentados nas Tabelas 2 e 3.
Tabela 2 – Exemplo de resultados possíveis de um questionário com escala numérica [0-10]
Estou satisfeito com... Média escala [0-10]
... corpo docente 3,77
... coordenação de curso 7,56
... infraestrutura da instituição 8,15
... valores atuais 6,89
... forma de pagamento 4,58
... localização 7,41
Fonte: Elaborada pelo autor.
É de notar que o fato de todas as variáveis de pesquisa da Tabela 2 estarem na mesma escala
permite uma comparação mais direta. A análise de resultados será discutida mais à frente, mas,
olhando os números por cima, já se imagina uma priorização de ações que possam ser adotadas
para tentar reverter a situação que está retratada nos resultados.
Tabela 3 – Exemplo de resultados possíveis de um questionário com escala de percepção
[discordo-concordo]
Estou satisfeito com...
Discordo
totalmente
Discordo
Não concordo
nem discordo
Concordo
Concordo
totalmente
... corpo docente 43% 23% 11% 13% 10%
... coordenação de curso 2% 11% 29% 35% 23%
... infraestrutura da instituição 8% 4% 23% 31% 34%
... valores atuais 7% 17% 57% 18% 1%
... forma de pagamento 22% 42% 19% 8% 9%
... localização 18% 6% 9% 14% 53%
Fonte: Elaborada pelo autor.
Estatística Aplicada18
Já na Tabela 3, embora as variáveis sejam as mesmas daquelas escolhidas na Tabela 2,
os resultados são apresentados de forma complementar, mas diferente. Embora a soma das
concordâncias de cada variável precise somar 100%, a distribuição entre os cinco estados possíveis
traz mais detalhamento em relação aos resultados apresentados na Tabela 2. Por outro lado, um
questionamento que se coloca em relação à escala da Tabela 3 é sua natureza mais subjetiva do que
aquela adotada na escala da Tabela 2. O estado Não concordo nem discordo deveria mesmo ficar
no meio da escala? Será que não faria mais sentido arbitrar um número par de estados para que o
respondente se posicione minimamente em termos de concordância ou discordância? Enfim, não
há respostas certas, mas a mensagem poderosa é: conheça as limitações e críticas da escala que está
sendo adotada para coletar os dados, pois isso pode ter efeito na análise.
Seguindo com a discussão acerca do questionário, outra fonte comum de erro em pesquisa
quantitativa é a formulação de perguntas dúbias, omissas, duvidosas ou enviesadas. Em outras
palavras, perguntas que não tenham interpretação inequívoca podem gerar erros severos.
E o contrário é verdade: perguntas com interpretação inequívoca levam a melhores respostas e,
potencialmente, a melhores decisões. Exemplo de pergunta tendenciosa: “sabendo que o cigarro é
responsável pela maior parte das mortes por câncer de pulmão, em uma escala de 0 a 100%, qual
é a chance de você contratar alguém que fume para trabalhar na sua empresa?”. A despeito da
questionável relação dessa pergunta com um eventual objetivo de pesquisa, fica evidente a opinião
do pesquisador e sua tentativa de enviesar, de direcionar a resposta de seu respondente. Perguntas
mal formuladas, intencionalmente ou não, podem distorcer severamente os resultados.
Desse modo, cuidados na elaboração do questionário são louváveis. Dois desses cuidados
são: pré-teste e piloto. O pré-teste é uma etapa posterior à elaboração da primeira versão do
questionário e serve para identificar perguntas mal formuladas ou que levem a eventuais erros,
propositais ou não, de interpretação. No pré-teste, são escolhidas algumas pessoas que se colocarão
no lugar do potencial respondente e responderão ao questionário. Forza (2002) defende que
três tipos de stakeholders1 podem ser considerados para contribuir nessa etapa: (a) colegas (da
escola ou do trabalho, pois, em geral, são pessoas com quem você tem mais abertura e podem
querer contribuir genuinamente); (b) especialistas do setor (podem ajudar com jargões da área ou
identificando perguntas faltantes ou óbvias demais); e (c) potenciais respondentes (para se colocar
à prova a primeira versão do questionário).
O piloto é uma etapa posterior à condução do pré-teste e serve para simular a pesquisa de
campo em pequena escala. São selecionadas algumas pessoas que têm o perfil do respondente real
e a essas pessoas é solicitado que procedam com o preenchimento completo do questionário. Elas
podem ser escolhidas por critérios variados, mas o mais comum é o de conveniência (escolher
pessoas próximas – amigos, familiares, colegas de trabalho ou da escola – que se encaixem no perfil
do respondente). Embora o objetivo geral dessa etapa ainda seja refinar o questionário com vistas a
se obter sua versão definitiva, o pesquisador pode aproveitar para cronometrar o tempo de resposta
1 Stakeholders são pessoas ou grupos que tenham algum interesse, participação ou risco na iniciativa. Também
são comumente chamados de partes interessadas. No contexto apresentado, stakeholders são pessoas ou grupos que
tenham algum tipo de interesse ou participação na pesquisa que esteja em curso.
Estatística descritiva: conceitos e aplicações 19
(questionários longos têm chance maior de desistência) e observar as reações dos participantes ao
longo do preenchimento.
Por intermédio do pré-teste e do piloto, chega-se à versão final do questionário. O próximo passo
é a coleta de dados no campo, que pode acontecer presencialmente ou – com o avanço dos computadores
e da interação pela internet – por questionários disponibilizados on-line. Nessa etapa, valoriza-se que os
respondentes atendam aos critérios que foram delineados no planejamento e que estejam convergentes
com o objetivo da pesquisa. Vale o reforço: uma boa amostra é representativa e aleatória.
Com a coleta de dados, é possível tabulá-los (se o procedimento não aconteceu de modo
digital) e, assim, gerar a própria base de dados. Embora erros honestos de tabulação possam
acontecer na transcrição do papel para o digital, seu impacto é minimizado quanto maior for o
número de respondentes.
O pressuposto para a utilização dos métodos quantitativos é a existência de uma base de
dados. Com a base de dados, procede-seà utilização do método quantitativo mais adequado ao
objetivo da pesquisa e, consequentemente, à análise dos resultados, como abordado a seguir.
1.3 Métodos estatísticos: a estatística descritiva
Para se chegar ao objetivo delineado (objetivo da pesquisa), é necessário
escolher métodos que permitam mais facilmente e fidedignamente alcançar esse
objetivo. Significa afirmar que cada método estatístico tem um propósito próprio, e
cabe ao pesquisador escolher o método mais adequado para o objetivo de pesquisa
que tenha em mãos. Nesta parte, será abordado o método da estatística descritiva,
mas outros serão estudados nos próximos capítulos.
Na estatística descritiva, o objetivo é descrever um conjunto de dados,
podendo ser esse conjunto a população como um todo ou apenas uma amostra.
Essa descrição acontece usualmente por meio de medidas de posição (exemplo:
média), medidas de dispersão (exemplo: desvio padrão) e gráficos (exemplo: gráfico
de pizza). Em geral, pretende-se resumir um conjunto grande de dados em alguns
indicadores que sejam de simples interpretação, mas que consigam sintetizar bem o
comportamento daquele conjunto. Nesse sentido, um bom exemplo é a média: ela
consegue, de alguma maneira, dar um indício, uma indicação da percepção geral
acerca da variável de interesse. É possível ter uma ideia do que acontece em uma
turma em que a média na disciplina de Língua Portuguesa seja de 8,8 e em outra
turma em que a média na mesma disciplina seja de 2,4. Embora ela sozinha não seja
uma mensuração estatística conclusiva, parece sintetizar bem um comportamento,
suponha, de 40 alunos de cada turma.
A Tabela 2 e a Tabela 3, apresentadas anteriormente, são exemplos do uso da
estatística descritiva, no sentido de resumir ou sintetizar dados. Imagine que 1.000
alunos tenham respondido a uma pesquisa, que resultou na Tabela 2, e outros 3.000
alunos tenham respondido a outra pesquisa, que resultou na Tabela 3. Significa que
4.000 respostas puderam ser compiladas em apenas duas tabelas.
Vídeo
Estatística Aplicada20
Como sinalizado anteriormente, a parte mais rica de uma pesquisa quantitativa não repousa
nos cálculos em si (calcular a média, por exemplo), mas, sobretudo, na tomada de decisão com
base nos resultados obtidos com o uso dos métodos quantitativos. Portanto, com a aplicação dos
métodos quantitativos, procede-se com o que comumente se chama de análise de resultados.
Para o caso da Tabela 2, percebe-se que duas variáveis destoam negativamente na satisfação
de discentes (alunos): corpo docente (professores) e forma de pagamento, nessa ordem. Embora
as demais variáveis estejam em patamares ainda distantes da excelência, elas suscitam menos
preocupação do que as duas identificadas como críticas.
Deve-se perceber, nesse ponto, que o uso da média para identificar variáveis críticas
não resolve o problema em si, mas fornece uma sinalização, uma indicação de o que “atacar”
primeiramente. Ao identificar, por intermédio dos métodos quantitativos, que a variável mais
crítica é o corpo docente, cabe ao gestor planejar ações para tentar resolver ou amenizar a situação.
Exemplo: o gestor pode solicitar para recuperarem a avaliação de desempenho de cada professor,
identificando aqueles que tenham sistematicamente resultados excelentes. Esses professores podem
ser convidados para elaborar um workshop para capacitação de outros colegas (identificação
e multiplicação de melhores práticas internas – benchmarking interno). Em relação à forma de
pagamento, por exemplo, o gestor pode identificar como está a prática de mercado e adequar
sua condição àquilo que o mercado já adota ou, se quiser vantagem competitiva, oferecer a seus
discentes uma condição ainda mais vantajosa.
Toda a lógica relacionada à condução de uma pesquisa começa na definição do objetivo da
pesquisa e termina na tomada de decisão, lembrando que o caminho merece cuidados diversos.
Números e cálculos apenas fornecem indícios para que uma decisão mais qualificada possa ser
tomada, e essa decisão, por sua vez, poderá trazer mais competitividade para a organização.
Considerações finais
Ao delinear um objetivo de pesquisa nobre (aumentar as vendas de determinado produto do
portfólio, por exemplo), o pesquisador pode avançar por uma vertente qualitativa ou quantitativa.
Na vertente quantitativa, o mote será a generalização. Para isso, é necessário ter acesso a uma base
de dados já disponível ou construir uma. A construção de uma base de dados acontece por meio
da elaboração de questionário e sua aplicação em campo para coleta dos dados. A construção do
questionário depende de perguntas sem vieses e em escala adequada. O pré-teste e o piloto são
fases que ajudam a refinar o questionário com vistas a obter uma versão definitiva mais robusta.
Por meio da base de dados, disponível ou construída, aplicam-se métodos quantitativos
para a apresentação de resultados. A estatística descritiva é um desses métodos (o mais simples) e
permite consolidar (resumir, sintetizar) uma base de dados potencialmente grande, e essa síntese
oferece pistas a seguir. Com as pistas, caberá ao gestor tomar decisões melhores para resolver ou
otimizar determinada situação, consoante com o objetivo declarado inicialmente.
Os cálculos e os números não são o objetivo fim da pesquisa, mas o meio pelo qual se pode
atingi-lo. O objetivo em métodos quantitativos aplicados é, sem dúvida, tomar decisões melhores,
e, nesse processo, os cálculos e os números contribuem ao oferecerem indícios a seguir.
Estatística descritiva: conceitos e aplicações 21
Ampliando seus conhecimentos
• A IMPORTÂNCIA do big data no mercado. 2019. 1 vídeo (9 min.). Publicado pelo canal
Meio&Mensagem. Disponível em: https://www.youtube.com/watch?v=VYFL5EjHjGk.
Acesso em: 26 maio 2019.
Nesse vídeo, Leonardo Naressi, da DP6, explica por que a análise de dados se tornou
tão essencial para o marketing. Trata-se de uma relação direta entre o uso de métodos
quantitativos para a tomada de decisão no relacionamento com clientes atuais ou futuros:
quais são as boas decisões por trás dos dados?
• O QUE faz um estatístico? A estatística no esporte. 2018. 1 vídeo (10 min.). Publicado
pelo canal IBGE. Disponível em: https://www.youtube.com/watch?v=jKFoDxcMqak.
Acesso em: 26 maio 2019.
Nesse vídeo, Daniel Takata Gomes comenta sobre a carreira do profissional de estatística
no esporte. Ele fala sobre sua atuação como comentarista esportivo e dá dicas para quem
quer ser um estatístico. Outras informações sobre “o que faz um estatístico” podem ser
acessadas no website2 do IBGE.
Atividades
1. Suponha que você acaba de assumir a posição de head (líder do mais alto escalão) do
departamento de gestão de pessoas de uma organização que atua no Brasil inteiro: em
todos os estados e no Distrito Federal. Como gestor dessa área, você terá um líder em cada
unidade reportando diretamente para você, e esses líderes têm suas próprias equipes locais
desenvolvendo atividades essencialmente operacionais. Ao longo do processo seletivo que
acabou por escolhê-lo para esse cargo, um dos entrevistadores deixou transparecer que o
antecessor não conseguiu resolver um problema crônico de turnover (rotatividade) nesse
departamento. Em outras palavras: muitos colaboradores são desligados (por motivos
próprios ou pela organização) e, assim, muitos precisam ser contratados, o que gera
problemas diretos e indiretos, como perda de conhecimento, perda de continuidade das
atividades, retrabalho, passivo trabalhista, apenas para citar alguns exemplos. Você tem
estudado muito sobre as contribuições que os métodos quantitativos podem prover para
a tomada de decisão e, portanto, está convencido de que uma pesquisa quantitativa pode
auxiliá-lo nesse momento crítico de chegada ao novo cargo. Descreva um objetivo de
pesquisa e a delimitação de população e amostra, se cabível, para a realização da coleta de
dados. Estabeleça as premissas que julgar oportunas, deixando-as explícitasem sua resposta.
2 Disponível em: https://educa.ibge.gov.br/jovens/materias-especiais/materias-especiais/20689-o-que-faz-um-
estatistico.html. Acesso em: 26 maio 2019.
Estatística Aplicada22
2. Suponha que você esteja se formando em um curso de graduação que é sua paixão. Por um
lado, está triste em deixar os bancos escolares; por outro, está contente por poder colocar
logo em prática tudo aquilo que aprendeu ao longo de vários semestres. Logo no início
dessa jornada, na primeira semana de aulas, você, que é uma pessoa sociável e responsável,
candidatou-se e foi eleito(a) o(a) representante dos discentes desse curso por unanimidade.
Como ninguém se interessou pela atividade, você se manteve como representante durante
todos esses anos. Agora, na eminência de sair da faculdade, precisará considerar a transição
dessa atividade para outro colega, que acabou de ser eleito. Ao longo do curso, você teve
contato com a disciplina de Estatística Aplicada e tem a certeza de que os conceitos e práticas
ali apresentados podem ajudá-lo nesse momento de transição. Em particular, você quer
apresentar ao novo representante discente qual é a satisfação dos discentes em relação ao
curso. Para esse fim, desenvolva um questionário que possa fornecer dados para que você
consiga retratar a situação atual da satisfação dos discentes (alunos) para o colega que acaba
de ser eleito. Estabeleça as premissas que julgar oportunas, deixando-as explícitas em sua
resposta.
3. Suponha que você seja pai ou mãe de um filho ou filha que apresente o boletim de notas que
está retratado na Tabela a seguir. Nessa escola, existem quatro avaliações ao longo do ano:
Prova 1 (P1), Prova 2 (P2), Prova 3 (P3) e Prova 4 (P4). Os discentes já concluíram três das
quatro avaliações, portanto falta apenas uma avaliação até o final do ano. Consoante com o
conteúdo programático, a dificuldade das avaliações é equivalente ao longo do ano.
Disciplina P1 P2 P3 P4
Português 2,5 3 1,5 ?
Inglês 3,5 3,5 1 ?
Matemática 10 9,5 8 ?
Física 8,5 9,5 7,5 ?
Química 9 9 8 ?
História 7 7,5 5,5 ?
Geografia 7 7 5 ?
Ciências 3,5 6,5 5 ?
Se seu objetivo é melhorar o desempenho do filho ou filha na P4, que padrões você identifica
e, com base neles, que ações você propõe tomar?
Estatística descritiva: conceitos e aplicações 23
Referências
FORZA, C. Survey research in operations management: a process-based perspective. International Journal of
Operations & Production Management, v. 22, n. 2, p. 152-194, 2002.
MARCONI, M. de A.; LAKATOS, E. M. Fundamentos da metodologia científica. 7. ed. São Paulo: Atlas, 2010.
NIELSEN, F. A. G.; OLIVO, R. L. de F.; MORILHAS, L. J. Guia prático para elaboração de monografias,
dissertações e teses em administração. São Paulo: Saraiva Educação, 2018.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia.
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
2
Estatística descritiva:
análise de dados
A partir de um objetivo de pesquisa bem identificado e de uma correta execução da coleta de
dados, será possível gerar uma base de dados (ou banco de dados), cujo objetivo será ter o máximo
de fidedignidade dos dados, conforme procedimentos discutidos no capítulo anterior.
Uma base de dados é composta por duas dimensões: indivíduos e variáveis. Os indivíduos
são os objetos de estudo e integralmente convergentes com o objetivo delineado para a pesquisa.
Por exemplo, em uma pesquisa de satisfação dos clientes sobre o atendimento dos vendedores de
nossa empresa, cada cliente pode ser um indivíduo da nossa base de dados. Outra dimensão é a de
variáveis, que são as caracterizações dos indivíduos. No exemplo, podem ser variáveis dos clientes:
idade, grau de instrução, renda, valor médio de compra, data da última compra, nota (na escala de
0 a 10) de satisfação sobre o atendimento dos vendedores etc.
Nesse contexto, o objetivo da estatística descritiva é descrever um conjunto de dados
com vistas à tomada de decisão gerencial de mais qualidade. Essa descrição pode acontecer de
maneiras variadas. Por exemplo, afirmar que a média de idade de nossos clientes é de 70 anos é
uma forma de descrever o conjunto de dados. Média, mediana, desvio padrão e outros indicadores
estatísticos também são maneiras de descrever um conjunto de dados e serão apresentados no
próximo capítulo. Ainda, é possível descrever o conjunto de dados por meio de tabelas e gráficos
de distribuição de frequências, instrumentos que serão apresentados neste capítulo.
Após a leitura do capítulo, esperamos que você seja capaz de identificar e descrever variáveis
qualitativas e quantitativas e também consiga descrever comportamentos de variáveis quantitativas
por meio de distribuição de frequências e gráficos. Além disso, um dos principais objetivos é
que você possa utilizar este aprendizado para refinar a tomada de decisão gerencial por meio da
descrição do comportamento de variáveis quantitativas.
2.1 Tipos de variáveis
Conforme vimos anteriormente, variável é uma característica associada
ao indivíduo. O conceito de variável não se confunde com tudo o que varia; na
realidade, o que varia não é a variável, mas seus estados possíveis. Por exemplo,
a variável cor dos olhos pode assumir estados diferentes, como castanho, verde ou
azul. Para certo indivíduo, a cor dos olhos será castanho, para outro indivíduo, será
azul, e, assim, essa característica assumirá estados diferentes para cada um – aí está
a variação.
A definição de variáveis precisa acontecer ainda na fase de planejamento
da pesquisa e deve ser um desdobramento direto do objetivo da pesquisa, ou seja,
Vídeo
Estatística Aplicada26
precisa ter algum significado para atingir esse objetivo. No que se refere à finalidade, as variáveis
podem ser classificadas como demográficas ou da pesquisa.
A variável demográfica visa a possibilitar segmentações nas análises. No exemplo da
pesquisa sobre satisfação dos clientes em relação ao atendimento dos vendedores de nossa
empresa, a variável idade pode ser considerada demográfica, pois, embora não esteja diretamente
relacionada ao objetivo de aumentar a satisfação dos clientes, possibilita, na parte de análise dos
dados, uma segmentação em que se conclua, por exemplo, que grupos de clientes com idades
diferentes possam ter percepções diferentes quanto à satisfação.
Por sua vez, a variável da pesquisa está diretamente relacionada ao objetivo da pesquisa.
Se o objetivo é aumentar a satisfação dos clientes, descrever as notas atribuídas por eles para o
atendimento é um dado importante para saber onde atuar e, assim, aumentar a satisfação. Portanto,
nota de satisfação pode ser considerada uma variável da pesquisa.
Variáveis demográficas e da pesquisa estão relacionadas ao objetivo da pesquisa: a primeira,
de forma indireta, e a segunda, de forma direta. Apesar dessa diferença, ambas as variáveis,
demográficas e da pesquisa, podem assumir formas qualitativas ou quantitativas.
Variáveis como gênero (masculino ou feminino, por exemplo), grau de instrução (ensino
fundamental, ensino médio ou ensino superior, por exemplo) ou cor dos olhos (castanho, verde ou
azul, por exemplo) podem assumir estados que qualificam e expressam atributos dos indivíduos
(objetos do estudo). Apesar de raro, as variáveis podem ainda ser representações ligadas ao
ambiente virtual, como o uso de emojis1 – “coraçãozinho”, “joia” ou “smile”. Essas são as variáveis
qualitativas. Em geral, elas não são expressas em estado numérico; quando o são, os números
não são resultado de contagem ou mensuração. Nielsen et al. (2018) reforçam que as variáveis
qualitativas são elaboradas em categorias ou atributos não mensuráveis.
Por outro lado, variáveis como idade, renda (em R$, por exemplo) e nota na disciplina de
Português (em escala de 0 a 10, por exemplo) apresentam estados numéricos que são resultado
de contagem ou mensuração. Essas são as variáveis quantitativas. Serresultado de contagem ou
mensuração é importante para caracterizar a variável como quantitativa. A pesquisa quantitativa
pode contar tanto com variáveis qualitativas quanto quantitativas, porém seu uso será diferente,
como veremos a seguir.
Quanto à sua forma, a variável pode ser qualitativa ou quantitativa (BUSSAB; MORETTIN,
2014), sendo que esses dois tipos se subdividem em outras classificações.
A variável qualitativa pode ser classificada como nominal ou ordinal. Variáveis qualitativas
nominais são aquelas em que as representações (estados) não pressupõem sequência ou ordem.
Por outro lado, aquelas que detêm algum tipo de sequência ou ordem são as variáveis qualitativas
ordinais. Portanto, a variável qualitativa pode ser:
• Nominal: os estados possíveis não estão determinados em uma sequência. Exemplos:
gênero e cor dos olhos; e
1 Emojis são símbolos que expressam emoções em mensagens eletrônicas e páginas web. A palavra, de origem
japonesa, compõe-se de e (imagem) somada a moji (letra).
Estatística descritiva: análise de dados 27
• Ordinal: pressupõe-se uma ordem para os estados possíveis. Exemplos: classe social e
grau de instrução. Para grau de instrução, presume-se que quem tenha ensino superior já
concluiu o ensino médio; e quem tenha ensino médio já concluiu o ensino fundamental.
A variável quantitativa, por sua vez, pode ser classificada como discreta ou contínua.
Variáveis quantitativas discretas são aquelas em que os estados possíveis formam um conjunto
finito ou enumerável de números e são resultado de contagem: 0, 1, 2... Já as variáveis quantitativas
contínuas são aquelas em que os estados possíveis pertencem a um intervalo de números reais e
são resultado de mensuração. Para consolidar, a variável quantitativa pode ser:
• Discreta: os estados possíveis formam um conjunto finito ou enumerável de números,
resultado de contagem. Exemplos: número de filhos e número de carros; e
• Contínua: os estados possíveis pertencem a um intervalo de números reais, resultado de
mensuração. Exemplos: peso e altura.
Os estados de cada indivíduo para cada variável, qualitativa ou quantitativa, são armazenados
em bases de dados. Desse modo, a base de dados pode ser considerada a matéria-prima a partir da
qual as análises serão desenvolvidas.
Além dos cuidados em termos de escala, já discutidos no capítulo anterior, outros cuidados
importantes precisam ser postos em prática para aumentar a qualidade dos dados na base.
É importante ressaltar que a análise sobre dados bons (com qualidade) pode resultar em tomadas
de decisão boas ou ruins, a depender das técnicas de análise adotadas. Porém a análise de dados
sobre dados ruins somente pode resultar em análises ruins. É nesse sentido que a discussão sobre
como conseguir dados com mais qualidade será ofertada a seguir.
Suponha uma base de dados com variáveis apenas demográficas de funcionários de uma
empresa. Segue base de dados fictícia na Tabela 1.
Tabela 1 – Dados de funcionários de empresa fictícia
Número
Estado
civil
Número
de filhos
Salário
(x sal. mín.)
Idade Região de
procedênciaAnos Meses
1 Solteiro - 4,00 26 03 Interior
2 Casado 1 4,56 32 10 Capital
3 Casado 2 5,25 36 05 Capital
4 Solteiro - 5,73 20 10 Outra
5 Solteiro - 6,26 40 07 Outra
6 Casado 0 6,66 28 00 Interior
7 Solteiro - 6,86 41 00 Interior
8 Solteiro - 7,39 43 04 Capital
(Continua)
Estatística Aplicada28
Número
Estado
civil
Número
de filhos
Salário
(x sal. mín.)
Idade Região de
procedênciaAnos Meses
9 Casado 1 7,59 34 10 Capital
10 Solteiro - 7,44 23 06 Outra
11 Casado 2 8,12 33 06 Interior
12 Solteiro - 8,46 27 11 Capital
13 Solteiro - 8,74 37 05 Outra
14 Casado 3 8,95 44 02 Outra
15 Casado 0 9,13 30 05 Interior
16 Solteiro - 9,35 38 08 Outra
17 Casado 1 9,77 31 07 Capital
18 Casado 2 9,80 39 07 Outra
Fonte: Adaptada de Bussab; Morettin, 2014, p. 13.
O exemplo da Tabela 1 é excelente para identificar a importância de se desenvolver bases
de dados com qualidade. Ressalta-se, no entanto, que se parte do pressuposto de que as respostas
atribuídas são verdadeiras.
Entre as possibilidades de classificação apresentadas anteriormente, como você classifica a
variável número na primeira coluna da Tabela 1? Faça uma pausa, reveja as classificações anteriores
(Qualitativa ou quantitativa? Nominal ou ordinal? Discreta ou contínua?) e se permita responder
a esse desafio.
Muitos podem ter como resposta variável quantitativa discreta, pois é expressa em números
(quantitativa) e os estados possíveis, conforme aparece na Tabela 1, formam um conjunto finito de
números e parecem ser resultado de contagem: 0, 1, 2... Embora esse raciocínio esteja correto do
ponto de vista da classificação, a premissa inicial é quebrada e, portanto, a conclusão é equivocada.
A premissa inicial quebrada é esta: variável é uma característica associada ao indivíduo. Nesse caso,
o que é que significa o número 5? Será que foi o 5º indivíduo a ser cadastrado na base? Será que é
seu número da sorte?
É evidente que podem faltar informações adicionais sobre os dados apresentados, mas, da
maneira como a Tabela 1 está dada, número não parece ter uma interpretação. Então, a conclusão é
que não se pode considerar número uma variável. Essa conclusão é um tanto impactante, pois, em
geral, acreditamos que tudo o que está na base de dados é variável. Quando somos nós a construir
a base de dados, portanto, o cuidado será definir bem as variáveis no planejamento. Se a recebemos
pronta, vale a inspeção para entender qual é a interpretação de cada uma das variáveis, pois nem
tudo o que se recebe na base de dados pode ser considerado variável.
Estatística descritiva: análise de dados 29
Seguindo com a avaliação da Tabela 1, estado civil é uma evidente variável, pois caracteriza o
indivíduo. E, no caso, é uma variável qualitativa nominal. A pergunta interessante aqui é: por que,
nessa base fornecida, a variável estado civil apresenta apenas os estados solteiro e casado, sendo
que, na vida, os estados possíveis são muitos, por exemplo, divorciado, viúvo, união estável?
Nesse caso, possivelmente, o formulário de entrada (físico ou digital) deva manter
disponíveis apenas estes dois estados: solteiro e casado. Mas será que são suficientes para
representar a realidade? É possível que haja apenas colaboradores solteiros e casados, mas isso
seria mesmo uma coincidência incrível. É mais provável que os formulários de entrada permitam
apenas esses dois estados, portanto convém desenvolver novo formulário, de maneira que outros
estados sejam considerados. Isso resulta em maior fidedignidade dos dados e, como consequência,
maior qualidade.
Para a variável número de filhos, o que significa o tracinho na primeira linha? Volte à Tabela
1 e pense na interpretação do tracinho. Muitos podem erroneamente afirmar que o tracinho
significa que aquele indivíduo não tenha filhos, pois há indivíduos com 1, 2 ou 3, o que significa
que têm um, dois ou três filhos. Número de filhos é uma variável quantitativa discreta. Se o tracinho
significa que o indivíduo não tem filhos, o que significa o número 0, por exemplo, para o sexto
indivíduo? Nesse caso, quando o indivíduo não tem filhos, aparecerá 0. E o tracinho? Significa que
não temos esse dado preenchido.
Não ter dados preenchidos recebe a nomenclatura técnica de missing data. Assim, concluímos
que temos missing data nessa base de dados. Isso é particularmente ruim para fins de análises, pois,
quanto mais dados preenchidos, maiores são as possibilidades de análises mais ricas. Por que será
que esse dado não está preenchido? Pode acontecer de o respondente não querer participar da
pesquisa, e, nesse caso, devemos tentar entender os motivos: trata-se de uma pergunta crítica,
indelicada ou pessoal? Vale pensar, então, a pertinência de mantê-la no questionário ou alterá-la
para deixá-la menos crítica. Exemplo: em vez de questionar diretamente a renda do respondente,
pode-se perguntar em que faixade renda ele está, dentre cinco possibilidades.
De volta a nosso exemplo, esse não parece ser o caso: número de filhos não parece ser
crítico, indelicado ou pessoal demais. Então por que não temos os dados para alguns indivíduos?
Nesse ponto, devemos voltar à Tabela 1 e tentar uma explicação. Alguns perspicazes devem ter
observado isto: apenas indivíduos casados (variável estado civil) estão com a variável número de
filhos preenchida. O fato concreto é esse, mas será mesmo possível que apenas pessoas casadas
possam ter filhos? Pessoas solteiras não podem ter filhos? Por que será que nossa base de dados está
assim? Na mesma linha da discussão anterior, é bem razoável pensar que o formulário de entrada
habilite o campo número de filhos apenas se o estado civil preenchido for de casado. Nesse caso,
é o próprio formulário de entrada que causa distorção na base de dados. Novamente, a conclusão é
esta: desenvolver novo formulário, de maneira que o campo número de filhos não esteja atrelado
ao campo estado civil. Isso resulta em maior fidedignidade dos dados e, assim, maior qualidade.
Avançando em nossa análise das variáveis, passemos à variável salário. Ela está bem
armazenada ou você propõe outra maneira de armazená-la? Novamente, vale uma pausa para
voltar à Tabela 1.
Estatística Aplicada30
À primeira vista, salário é uma variável quantitativa contínua, e o número ali armazenado
precisa ser multiplicado pelo salário-mínimo para se conseguir o salário real daquele colaborador.
Apesar desse inconveniente de ter que multiplicar pelo salário-mínimo, você considera a variável
bem armazenada ou existe uma forma melhor de fazer isso? O que incomoda ao armazenar a
variável salário da maneira como está não é apenas multiplicar pelo salário-mínimo, mas definir
qual é o valor dele. Existem salários-mínimos diferentes: federal, estadual ou municipal? Salário-
-mínimo de quando o colaborador entrou na empresa ou de hoje? Outro inconveniente de ter que
multiplicar é o valor resultante não ser exato, consoante com o número de casas decimais que se
adote. Portanto, existem razões diversas para crer que há maneira melhor de armazenar a variável
salário. Como? Vale outra pausa e reflexão.
Definir como armazenar uma variável e quais são os estados possíveis é crítico para a análise,
e sua definição acontece no planejamento da pesquisa. Nesse caso (assim como em muitos), quanto
mais simples, melhor: armazenar o salário atual do colaborador diretamente em reais. Além de
simples, não gera margem para dúvidas sobre contas ou interpretações.
Eis que chegamos à variável idade: variável quantitativa discreta em anos e em meses. A essa
altura, aquele senso de cético, crítico e contestador já deve ter aflorado. Será mesmo que a variável
idade está bem armazenada? Afinal, já sabemos que dados ruins somente permitem análises
ruins. Ver idade em anos e meses chega a incomodar enormemente: são anos e meses de quando o
colaborador ingressou na empresa ou atuais? E se precisarmos saber o número de dias? É possível,
então, pensar em forma melhor para armazenar. Como?
Faça uma pausa, pois a reflexão vale a pena: como você propõe armazenar a variável idade?
A maneira mais imediata de pensar como armazenar idade é alterá-la para data de nascimento.
Por quê? Que vantagens existem ao adotarmos data de nascimento? Primeiramente, é de perceber
que, com data de nascimento, é diretamente possível saber a idade do colaborador. Mais do
que isso, data de nascimento permite extrair outras informações do colaborador, como dia de
aniversário e signo do zodíaco. É evidente que saber data de aniversário e signo do zodíaco pode
não ter utilidade direta para o objetivo de uma pesquisa, mas, muitas vezes, a base gerada
pode ser aproveitada também para pesquisas futuras e, nesse caso, ter a possibilidade de extrair
mais informações é, inequivocamente, melhor do que não ter essa possibilidade.
Finalmente, inspecionamos a variável região de procedência, variável qualitativa nominal.
De partida, a nomenclatura região de procedência gera esta dúvida: o que é região de procedência?
É a região onde o colaborador nasceu? É a região onde ele mora? É onde ele morou antes de se
mudar para o domicílio atual? Outro ponto de estranheza nos estados possíveis: o que significa
capital, interior ou outra? Supondo que essa variável se refira à localidade de nascimento, uma
maneira gentil de armazenar seria nomeá-la cidade de nascimento e armazenar desta feita, por
exemplo, Atibaia/SP. Ficam evidentes cidade e estado de nascimento. No limite, perceba que, com
base na cidade de nascimento, é possível saber se o colaborador nasceu na capital de seu estado ou
não, caso esse seja o interesse de alguma pesquisa.
Se dados ruins permitem apenas análises ruins, cuidar da qualidade dos dados é fundamental
para uma boa análise de dados. E essa é uma medida, muitas vezes, negligenciada na prática.
Estatística descritiva: análise de dados 31
Parece existir uma ênfase maior em cálculos, em especial, em uma pesquisa quantitativa, mas esse
raciocínio pode resultar em análises ruins ou, pelo menos, questionáveis.
Em uma base de dados que parecia boa e confiável, como a da Tabela 1, perceba quantos
pontos de atenção foram levantados. Preocupar-se com a qualidade da base de dados, portanto, é
premissa para conduzir uma pesquisa quantitativa com a confiança necessária.
2.2 Distribuição de frequências
O objetivo da estatística descritiva é descrever um conjunto de dados. Esse
conjunto de dados pode ser composto de todos os indivíduos (população ou
universo) ou apenas de uma parte deles (amostra). Uma das maneiras de se descrever
o conjunto de dados é por meio da descrição do comportamento das variáveis, em
particular, descrevendo a ocorrência de possíveis realizações (possíveis estados).
Suponha, no mesmo exemplo apresentado na Tabela 1, que a empresa fictícia
tenha 1.200 colaboradores em sua unidade de São Paulo. Suponha ainda que uma
consolidação a partir dos dados de todos esses colaboradores tenha resultado na
Tabela 2, apresentada a seguir.
Tabela 2 – Distribuição de frequência do grau de instrução dos colaboradores da empresa
fictícia em
São Paulo
Grau de instrução Frequência absoluta Frequência relativa
Fundamental 570 47,5%
Médio 330 27,5%
Graduação 210 17,5%
Pós-graduação 90 7,5%
Total 1.200 100%
Fonte: Elaborada pelo autor.
Consolidações como essa apresentada na Tabela 2 são chamadas de
distribuição de frequências. No caso, trata-se de uma distribuição de frequência
para a variável grau de instrução. Supõe-se que a variável grau de instrução reflita a
maior formação acadêmica concluída pelo colaborador.
A frequência absoluta, na segunda coluna, revela o número de indivíduos
em determinado estado do grau de instrução. Por exemplo, na empresa fictícia, há
570 colaboradores com ensino fundamental e apenas 90 com pós-graduação. A
frequência absoluta é obtida por meio da contagem de indivíduos em cada estado
possível. Por sua vez, a frequência relativa, também chamada de proporção, na
terceira coluna, apresenta quanto um determinado número representa do total de
indivíduos. Por exemplo, 330 colaboradores que tenham o ensino médio como
maior formação acadêmica representam 27,5% do total dos colaboradores, e 210
colaboradores com graduação representam 17,5%. A frequência relativa é obtida
por meio da divisão do número de indivíduos em determinado estado possível pelo
Vídeo
Estatística Aplicada32
total de indivíduos: 330 colaboradores com ensino médio divididos pelo total de 1.200 indivíduos
resultam nos 27,5% apresentados na Tabela 2.
A frequência relativa é de particular interesse para análises de dados, pois, uma vez definida
a variável de interesse (no caso, grau de instrução), ela permite comparações entre realidades com
a mesma estrutura. Por exemplo, suponha que a empresa fictícia tenha unidades em dois estados:
São Paulo e Rio de Janeiro. A Tabela 2, anterior, apresentadados referentes aos colaboradores
de São Paulo. Já a Tabela 3, a seguir, apresenta dados referentes aos colaboradores do Rio de Janeiro.
Tabela 3 – Distribuição de frequência do grau de instrução dos colaboradores da empresa fictícia no
Rio de Janeiro
Grau de instrução Frequência absoluta Frequência relativa
Fundamental 300 46,15%
Médio 160 24,62%
Graduação 100 15,38%
Pós-graduação 90 13,85%
Total 650 100%
Fonte: Elaborada pelo autor.
Embora não tenha muito sentido comparar diretamente as frequências absolutas dos
colaboradores da empresa fictícia, de São Paulo e do Rio de Janeiro, é de notar que o número total
de colaboradores em São Paulo é praticamente o dobro daquele do Rio de Janeiro. Portanto, a
unidade de São Paulo é maior do ponto de vista de número de colaboradores.
A parte mais interessante da análise está na comparação das frequências relativas. O que se
percebe é que, na unidade do Rio de Janeiro, há proporcionalmente mais colaboradores com nível
de pós-graduação do que na unidade de São Paulo: 13,85% contra 7,5%. Nos demais estados de
grau de instrução, a ordem de grandeza está mais próxima e não parece merecer destaque.
A distribuição de frequências abarca ferramentas que podem ser consideradas simples de
serem desenvolvidas e, mais recentemente, por conta do avanço computacional, fáceis de serem
obtidas. Isso é particularmente interessante, pois essas ferramentas permitem análises que podem
levar a decisões significativamente melhores.
De volta ao exemplo da Tabela 2, referente à unidade de São Paulo, suponha que o presidente
da empresa fictícia queira aumentar a capacitação formal dos colaboradores. Apenas analisando os
dados apresentados na Tabela 2, quais recomendações você forneceria ao presidente?
Se o objetivo delineado pelo presidente da empresa fictícia (objetivo da pesquisa) é
aumentar a capacitação dos colaboradores, um conjunto de cenários com recomendações pode ser
fornecido, cada qual com prós e contras. Pode-se propor, por exemplo, um programa para auxiliar
colaboradores que tenham como maior grau de instrução o ensino fundamental a procederem para
uma transição para o ensino médio.
Primeiramente, pode-se identificar colaboradores que precisem proceder com a transição
por motivo profissional e outros que queiram. Essa identificação fornece ao gestor uma lista
Estatística descritiva: análise de dados 33
de prioridades daqueles que serão assistidos pelo programa. A partir dessa identificação, o
programa pode contemplar auxílio financeiro na forma de bolsa de estudos, por exemplo, ou
horário flexível para atividades acadêmicas que assim requeiram e atividades profissionais que
assim permitam. Para o caso de graduação ou pós-graduação, a depender da especificidade das
atividades do colaborador na empresa fictícia, pode-se pensar em alternativas nas modalidades
de EaD2 ou in-company3. É de perceber que cada proposta carrega vantagens e desvantagens; e o
objetivo neste ponto não é apresentar todas as possibilidades de gestão, mas evidenciar que uma
correta consolidação dos números pode servir de base para uma tomada de decisão mais rica.
Vale o reforço: os números e as contas são o meio para se conseguir tomar decisões melhores.
Os exemplos anteriores funcionam bem quando há em pauta uma variável qualitativa ou
uma quantitativa discreta. Distribuição de frequências para variáveis quantitativas contínuas,
no entanto, demandam tratamento diferente. Suponha uma variável salário, cujos estados são
expressos em reais e representam o valor mais atualizado das remunerações de um colaborador.
Em um universo de 1.200 colaboradores em São Paulo, por exemplo, ao construir uma distribuição
de frequências para salário, pode-se chegar a muitos estados possíveis. No limite, supondo que
todos os colaboradores tenham remunerações diferentes, seriam 1.200 estados com frequência
absoluta unitária. Esse tipo de consolidação não nos ajuda a tomar nenhuma decisão: os estados
(grupos) são tão fragmentados que, de fato, não se pode falar em grupos. Nesses casos, é preferível
uma solução como a apresentada na Tabela 4.
Tabela 4 – Distribuição de frequência do salário dos colaboradores da empresa fictícia em São Paulo
Salário Frequência absoluta Frequência relativa
Até R$ 1.999,99 450 37,50%
De R$ 2.000,00 a R$ 3.999,99 305 25,42%
De R$ 4.000,00 a R$ 5.999,99 195 16,25%
De R$ 6.000,00 a R$ 7.999,99 145 12,08%
Acima de R$ 8.000,00 105 8,75%
Total 1.200 100%
Fonte: Elaborada pelo autor.
É evidente que esse tipo de consolidação leva a alguma perda de informação, pois não se
tem mais o dado original: pode haver um salário de R$ 8.000,01 e outro de R$ 55.123,45 no mesmo
grupo de acima de R$ 8.000,00. Trata-se de uma limitação que precisa ser fortemente considerada
ao formular a conclusão a partir desse tipo de distribuição de frequência. Os grupos (cinco, no caso
da Tabela 4) são chamados de classes; portanto a nomenclatura correta para esse exemplo é classes
de salários.
2 EaD é acrônimo para ensino a distância, uma modalidade de educação, em geral, mediada por tecnologias em que
discentes e docentes não precisem estar fisicamente presentes em um ambiente físico de ensino-aprendizagem.
3 In-company é uma modalidade de educação em que as atividades de ensino-aprendizagem são personalizadas
consoante com as necessidades (de infraestrutura, de carga horária, de horário e local das aulas e afins) do cliente.
Em geral, discentes são colaboradores do cliente.
Estatística Aplicada34
Definir os intervalos é um tanto arbitrário, e, dessa forma, a experiência do pesquisador
com o assunto em pauta fornecerá dicas de como proceder. Como regra geral, estas diretrizes
são válidas: (a) um número excessivamente pequeno de classes leva à perda de informação
(indivíduos significativamente diferentes podem acabar pertencendo à mesma classe); e (b) um
número excessivamente grande de classes leva à discriminação em excesso e, com isso, o objetivo
de resumir os dados pode ficar comprometido. Em termos práticos, cinco classes com o mesmo
intervalo pode ser um bom ponto de partida.
2.3 Gráficos
Outra maneira de descrever um conjunto de dados é por meio de gráficos.
Esse tipo de descrição é de particular interesse, pois, em geral, sua interpretação é
mais imediata (mais fácil de entender) do que outros tipos (tabelas e indicadores
estatísticos, por exemplo), afinal, sua inspeção é visual: “uma imagem vale mais do
que mil palavras”.
Ao se trabalhar com gráficos, um cuidado necessário é identificar qual é o
objetivo que se pretende por meio da representação visual. Há representações
que permitem, por exemplo, descrever um conjunto de dados, consoante com a
distribuição de frequência. Assim, o objetivo é o mesmo das tabelas que apresentam
distribuição de frequências: todas as tabelas utilizadas neste capítulo servem ao
propósito de descrever um conjunto de dados e, portanto, nesse sentido, tabelas de
distribuição de frequências e gráficos carregam o mesmo objetivo intrínseco.
Um exemplo desse tipo de representação é o gráfico de barras. Como
demonstração, tomemos a Tabela 3, que apresenta a distribuição de frequência
dos colaboradores da empresa fictícia, consoante com seu grau de instrução, no
Rio de Janeiro. A Figura 1, a seguir, apresenta um gráfico de barras para descrever
a distribuição de frequência relativa do grau de instrução dos colaboradores da
empresa fictícia no Rio de Janeiro. Por sua vez, a Figura 2 apresenta um gráfico
de colunas com as mesmas informações. Ambas as figuras apresentam os mesmos
dados, apenas a apresentação visual é diferente.
Figura 1 – Gráfico de barras com a distribuição de frequência relativa do grau de instrução
dos colaboradores da empresa fictícia no Rio de Janeiro
Grau de instrução dos colaboradores da empresa
fictícia no Rio de janeiro
Pós-graduação
Graduação
Médio
13,85%
24,62%
46,15%
0% 10% 20% 30% 40% 50%
Fundamental
15,38%
Fonte: Elaborada pelo autor.
Vídeo
Estatísticadescritiva: análise de dados 35
Figura 2 – Gráfico de colunas com a distribuição de frequência relativa do grau de instrução dos
colaboradores da empresa fictícia no Rio de Janeiro
Grau de instrução dos colaboradores da empresa
fictícia no Rio de janeiro
Pós-graduaçãoGraduaçãoMédio
13,85%15,38%
24,62%
46,15%
0%
10%
20%
30%
40%
50%
Fundamental
Fonte: Elaborada pelo autor.
Outro exemplo de representação gráfica que serve ao propósito de descrever a distribuição
de frequência de uma variável é o gráfico de pizza. No mesmo exemplo da Tabela 3, tome-se
a distribuição de frequência absoluta dos colaboradores da empresa fictícia no Rio de Janeiro,
consoante com seu grau de instrução. Essa representação está apresentada na Figura 3.
Figura 3 – Gráfico de pizza com a distribuição de frequência absoluta do grau de instrução dos
colaboradores da empresa fictícia no Rio de Janeiro
Grau de instrução dos colaboradores da empresa
fictícia no Rio de janeiro
Fundamental
Médio
Graduação
Pós-graduação
300
90
100
160
Fonte: Elaborada pelo autor.
Gráficos de barra, de coluna e de pizza são ótimos para descrever a distribuição de
frequência de uma variável selecionada. Nos exemplos apresentados, a variável em pauta foi o
grau de instrução dos colaboradores da empresa fictícia na unidade do Rio de Janeiro. Também é
de notar que a representação gráfica de frequência relativa costuma ser mais intuitiva do que da
frequência absoluta, embora ambas possam ser representadas para auxiliar a tomada de decisão.
Por fim, ressalta-se seu maior uso para representar variáveis qualitativas (como é o caso de grau de
instrução), embora isso não seja mandatório.
Estatística Aplicada36
Para variáveis quantitativas discretas, o gráfico de coluna (nesse caso, também chamado
de gráfico de dispersão unidimensional) é aplicável, de acordo com os estados possíveis.
Se o número de estados a serem representados for muito grande, vale considerar a construção de
classes, conforme descrito anteriormente (ver Tabela 4, por exemplo). A lógica de construção desse
tipo de gráfico é a mesma daquela apresentada na Figura 2. Voltando ao exemplo da empresa
fictícia, suponha que a distribuição de frequência da variável número de filhos dos colaboradores
de São Paulo seja a apresentada na Tabela 5.
Tabela 5 – Distribuição de frequência da variável número de filhos dos colaboradores da empresa fictícia
em São Paulo
Número de filhos Frequência absoluta Frequência relativa
0 300 25%
1 240 20%
2 510 42,5%
3 120 10%
Acima de 4 30 2,5%
Total 1.200 100%
Fonte: Elaborada pelo autor.
Sendo número de filhos uma variável quantitativa discreta, sua representação em um gráfico
de colunas está apresentada na Figura 4, a seguir.
Figura 4 – Gráfico de dispersão unidimensional da distribuição de frequência do número de filhos dos
colaboradores da empresa fictícia em São Paulo
Número de filhos dos colaboradores da
empresa fictícia em São Paulo
600
500
400
300 300 240
510
120
30
200
100
0
0 1 2 3 Acima 4
Fonte: Elaborada pelo autor.
Para o caso de variáveis quantitativas contínuas, em que o número possível de estados pode
ser muito grande, um artifício empregado é aproximar a variável quantitativa contínua em discreta,
como apresentado na Tabela 4, para a variável salário dos colaboradores da empresa fictícia em
São Paulo. Se, por um lado, essa aproximação viabiliza a representação gráfica, por outro, resulta
em perda de informação, como já discutido. Deve-se, portanto, considerar os prós e contras para
se proceder com a redução das mensurações reais em classes. A Figura 5, a seguir, apresenta um
exemplo de gráfico de colunas, com base nas informações apresentadas na Tabela 4.
Estatística descritiva: análise de dados 37
Figura 5 – Gráfico de dispersão unidimensional da distribuição de frequência do salário dos colaboradores
da empresa fictícia em São Paulo
Salário dos colaboradores da
empresa fictícia em São Paulo
0,00%
Até
R$ 1.999,99
De R$ 2.000,00
a R$ 3.999,99
De R$ 4.000,00
a R$ 5.999,99
De R$ 6.000,00
a R$ 7.999,99
Acima de
R$ 8.000,00
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
Fonte: Elaborada pelo autor.
Uma evolução do gráfico de dispersão unidimensional é o histograma. Segundo Sweeney
et al. (2014), um histograma é construído colocando-se a variável de interesse no eixo horizontal
e a frequência, absoluta ou relativa, no eixo vertical. A diferença em relação a seus pares é que
o histograma apresenta as colunas de forma contígua com bases proporcionais aos intervalos
das classes. Em relação ao exemplo da Figura 5, é necessário apenas proceder com um ajuste na
última classe de salários para torná-la de mesmo tamanho das demais, pois os outros intervalos já
têm tamanhos iguais. Um exemplo desse histograma é apresentado na Figura 6, a seguir. Assim como
nos casos anteriores, seu uso pode ser tanto para a representação da frequência absoluta quanto
da relativa.
Figura 6 – Histograma da distribuição de frequência da variável salário dos colaboradores da empresa
fictícia em São Paulo
37,50%
Salário dos colaboradores da
empresa fictícia em São Paulo
0,00%
Até
R$ 1.999,99
De R$ 2.000,00
a R$ 3.999,99
De R$ 4.000,00
a R$ 5.999,99
De R$ 6.000,00
a R$ 7.999,99
De R$ 8.000,00
a R$ 9.999,99
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
25,42%
16,25%
12,08% 8,75%
Fonte: Elaborada pelo autor.
Todos os exemplos anteriores são ótimos para representar visualmente a distribuição de
frequência de variáveis, qualitativas ou quantitativas. Ressalta-se, no entanto, que há outros tipos
de representações gráficas, por exemplo, a evolução de determinada variável ao longo do tempo
(gráficos de linha) ou gráficos que relacionam duas ou mais variáveis (gráficos de tendência):
número de anos de estudo e salário, por exemplo. Os casos apresentados neste capítulo referem-se
exclusivamente à representação visual da distribuição de frequência de uma variável e, portanto,
servem ao propósito de descrever um conjunto de dados. Outros casos existem amplamente no
mundo dos negócios, mas sua apresentação será feita oportunamente.
Estatística Aplicada38
Considerações finais
Variáveis são o meio pelo qual uma pesquisa quantitativa se materializa. Dessa forma,
sua definição precisa acontecer ainda na fase de planejamento da pesquisa. Cuidados diversos
precisam ser adotados, como a correta definição de escala, de estados possíveis e de forma de
captura e armazenamento, apenas para citar alguns. Variáveis são as bases para a fase de análises,
motivo pelo qual não é exagero afirmar que todo o cuidado é pouco até que se consiga o adequado
armazenamento das variáveis e dos estados de cada indivíduo na forma de uma base de dados.
A seguir, supondo que uma base de dados com qualidade é disponibilizada, o uso da
estatística descritiva para descrever um conjunto de dados pode acontecer de maneiras variadas.
Duas delas foram inspecionadas ao longo deste capítulo: tabelas e gráficos de distribuição de
frequências. Embora apresentem as mesmas informações, elas diferem em termos de apresentação:
tabelas apresentam números consolidados e gráficos apresentam esses números consolidados de
forma visual.
A distribuição de frequências permite a compreensão de como os indivíduos estão
distribuídos ao longo dos estados possíveis de uma variável de interesse. Como consequência,
medidas de gestão podem ser propostas. Não é na distribuição de frequência em si que está a
tomada de decisão, mas ela serve de base para que essa decisão seja melhor. A riqueza não repousa
na ferramenta estatística (tabelas e gráficos de distribuição de frequências, por exemplo), senão nas
decisões melhores que se pode depreender a partir desses números e gráficos.
Ampliando seus conhecimentos
• IBGE. Censo demográfico 2010: características da população e dos domicílios. Rio de
Janeiro: IBGE, 2011. Disponível em: https://biblioteca.ibge.gov.br/visualizacao/periodicos/93/cd_2010_caracteristicas_populacao_domicilios.pdf. Acesso em: 26 maio 2019.
Nesse documento, o IBGE – Instituto Brasileiro de Geografia e Estatística – divulga um
relatório sobre a evolução da distribuição territorial da população do país e as principais
características socioeconômicas das pessoas e de seus domicílios. Vale se deter sobre
tabelas e gráficos apresentados no documento para ter exemplos de como os conceitos
apresentados neste capítulo podem ser colocados em prática.
• EMPRESA DE PESQUISA ENERGÉTICA. Matriz energética e elétrica. Disponível em:
http://www.epe.gov.br/pt/abcdenergia/matriz-energetica-e-eletrica. Acesso em: 26 maio 2019.
Nesse documento, a Empresa de Pesquisa Energética, prestadora de serviços de estudos
e pesquisas para o Ministério de Minas e Energia, apresenta uma comparação do Brasil
em relação ao mundo quanto à matriz energética e elétrica. Embora o documento não
se aprofunde neste ponto, vale a reflexão sobre quais ações poderiam ser propostas ao
Ministério de Minas e Energia, para os próximos anos, com base nos gráficos apresentados.
Vale perceber como os gráficos servem de base para a proposta de ações de melhoria.
Estatística descritiva: análise de dados 39
Atividades
1. Definição de variáveis
Suponha que você seja o coordenador pedagógico do curso de graduação de Contabilidade
de uma faculdade fictícia e receba uma base de dados dos alunos do curso, conforme
demonstra a Tabela a seguir.
Tabela – Dados de alunos de graduação de Contabilidade de uma faculdade fictícia
Número Grau de instrução Número de carros
Renda
(x sal. mín.)
Idade
1 Ensino médio - 1,00 16
2 Ensino superior 1 1,56 22
3 Ensino superior 2 2,25 26
4 Ensino médio - 2,73 20
5 Ensino médio - 3,26 20
6 Ensino superior 0 3,66 28
7 Ensino médio - 3,86 21
8 Ensino médio - 4,39 19
9 Ensino superior 1 4,59 24
10 Ensino médio - 4,44 17
11 Ensino superior 2 5,12 23
12 Ensino médio - 5,46 17
13 Ensino médio - 5,74 17
14 Ensino superior 3 5,95 24
15 Ensino superior 0 6,13 30
16 Ensino médio - 6,35 18
17 Ensino superior 1 6,77 31
18 Ensino superior 2 6,80 29
Fonte: Elaborada pelo autor.
Estatística Aplicada40
Quais variáveis estão bem definidas (a interpretação da variável está compreensível)? Quais
não estão? Por quê? Como se pode melhorar a compreensão? Quais variáveis estão bem
armazenadas (a interpretação dos estados possíveis está compreensível)? Quais não estão?
Por quê? O que pode melhorar a compreensão?
2. Tabela de distribuição de frequência
Suponha que você acabe de assumir o cargo de diretor de vendas da unidade Brasil de
uma empresa mundial. Você solicita o perfil de vendas em cada região do país, nos últimos
dois anos (ano XXX1 e XXX2, sendo que estamos no ano XXX3). Para que consiga tomar
decisões para aumentar as vendas, você recebe os resultados apresentados na Tabela a seguir.
Tabela – Vendas em cada região do país da empresa mundial
Região
Quantidade
vendida no ano
XXX1 (peças)
% vendido no
ano XXX1
Quantidade
vendida no ano
XXX2 (peças)
% vendido no
ano XXX2
Norte 5.000 5,38% 5.000 4,50%
Nordeste 15.000 16,13% 12.500 11,26%
Centro-Oeste 7.500 8,06% 8.000 7,21%
Sudeste 50.000 53,76% 62.500 56,31%
Sul 15.500 16,67% 23.000 20,72%
Total 93.000 100% 111.000 100%
Fonte: Elaborada pelo autor.
Supondo que seu objetivo seja aumentar as vendas no país, quais são suas conclusões e que
iniciativas você sugere implantar?
3. Gráficos de distribuição de frequência
Ainda sobre as informações apresentadas na Tabela da Questão 2, desenvolva gráficos:
• de barra para a variável quantidade vendida no ano XXX1;
• de coluna para a variável quantidade vendida no ano XXX2;
• de pizza para as variáveis % vendido no ano XXX1 e % vendido no ano XXX2.
Para esse fim, sugere-se o uso de pacote de planilha eletrônica ou pacote estatístico.
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
NIELSEN, F. A. G.; OLIVO, R. L. de F.; MORILHAS, L. J. Guia prático para elaboração de monografias,
dissertações e teses em administração. São Paulo: Saraiva, 2018.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia.
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
3
Estatística descritiva:
medidas-resumo
Uma vez definidos objetivo da pesquisa, população, amostra e indivíduos, são as variáveis
que ajudam a operacionalizar o estudo e, como enfatizado anteriormente, elas precisam estar
convergentes com o objetivo da pesquisa. É preciso ter cuidados em relação ao tipo das variáveis,
qualitativas ou quantitativas, e em relação à escala em que serão armazenados os estados possíveis.
Uma das maneiras de se obter os dados é por meio de bases prontas disponíveis ao pesquisador.
Nesse caso, há de se avaliar até que ponto a base pronta consegue contribuir para o atingimento do
objetivo delineado, pois é possível que ela tenha sido obtida para atender a um objetivo diferente.
Outra maneira de conseguir uma base de dados é por meio da tradução das variáveis em perguntas
de um questionário e da correta aplicação desse questionário (coleta de dados) em campo.
Por meio desses procedimentos, obtém-se uma base de dados. Quando cuidados são
aplicados, as chances de se obter uma base de dados com mais qualidade aumentam. Cabe lembrar
que bases de dados ruins permitem apenas tomar decisões ruins; já por meio de bases com dados
bons (de qualidade maior, mais fidedignos), decisões boas ou ruins podem ser tomadas, consoante
com as ferramentas de análises adotadas. A partir deste ponto, pressupõe-se que os cuidados
fornecidos foram adotados, e, portanto, todos os conceitos apresentados a seguir assumem bases
de dados que podem ser consideradas boas.
Uma base com grande número de dados dos indivíduos, comum em pesquisas quantitativas,
possibilita que pouca decisão possa ser tomada diretamente, pois se está diante de uma “montanha
de dados”. Para aumentar as chances de tomar boas decisões, é necessário consolidar os dados para,
somente então, analisá-los. Duas maneiras para esse fim foram apresentadas no capítulo anterior:
(a) tabelas com distribuição de frequências e (b) gráficos com distribuição de frequências.
Além das tabelas e dos gráficos com distribuição de frequências, outra maneira de descrever
um conjunto de dados e consolidá-los para análise é por meio do cálculo de medidas-resumo,
conforme será apresentado a seguir. Ao longo deste capítulo, será descrito um conjunto de dados
por meio de medidas de posição, medidas de dispersão e gráficos do tipo box-plot e, assim, poderá
ser refinada a tomada de decisão gerencial com base na descrição do conjunto de dados.
3.1 Medidas de posição
O objetivo da estatística descritiva é descrever um conjunto de dados, e essa
descrição pode acontecer por meio da consolidação de dados. Tabelas e gráficos de
distribuição de frequência, como apresentado anteriormente, são duas maneiras
pelas quais isso pode acontecer. Em complemento, o cálculo de medidas-resumo
também é considerado para fins de consolidação de dados.
Vídeo
Estatística Aplicada42
Medidas-resumo (também chamadas de medidas descritivas) resumem ou descrevem
uma base de dados e, por meio de sua análise, contribuem para uma tomada de decisão mais
refinada. É de destacar que esse resumo não é, no entanto, da base de dados como um todo, mas de
cada variável. Portanto, existirá um conjunto de medidas para cada variável, de maneira que seja
possível descrever seu comportamento por meio dessas medidas, ou melhor, o comportamento dos
indivíduos para aquela variável.
As medidas-resumo podem ser calculadas apenas sobre variáveis quantitativas e classificadas
em dois tipos: medidas de posição e medidas de dispersão.
As medidas de posição (também chamadas de medidas de localização) apresentam
mensurações de centralidade ou descrevem características de posicionamento de uma variável.
É possível que a medida de posiçãomais conhecida seja a média. Ela ilustra bem o conceito de
centralidade. Quando se afirma que a média de idade de um time de futebol é de 35 anos, é bem
intuitiva sua interpretação: considerando-se todos os jogadores, 35 anos é um número que resume,
que descreve, que representa esse conjunto de jogadores consoante com sua idade. Se tivéssemos
que fornecer um palpite sobre a idade de um jogador desse time que tenha sido escolhido ao
acaso, o melhor palpite seria de 35 anos. Portanto, medidas de posição servem para descrever o
comportamento de uma variável por meio de números que tentem, de alguma forma, representar
bem o conjunto de dados.
Por sua vez, medidas de dispersão (também chamadas de medidas de variabilidade)
apresentam mensurações que retratam quanto um conjunto de dados está variando (quanto maior
a variação, maior é a dispersão). No mesmo exemplo dos jogadores, caso a média de idade seja de
35 anos e todos os jogadores estejam com idades próximas a 35 anos, a variabilidade é pequena.
Por outro lado, caso haja jogadores de 17 anos até aqueles com 46 anos, sendo a média de 35 anos,
a variabilidade, a dispersão é maior. Isso pode sinalizar que a média de 35 anos nos dois casos pode
ter interpretações diferentes: no primeiro, como o conjunto de dados parece ser menos disperso,
a média representa bem a realidade de idade dos jogadores; no segundo caso, como o conjunto
de dados parece ser mais disperso, a média parece representar menos a realidade de idade dos
jogadores. Desse modo, medidas de dispersão servem para sinalizar quanto variam as mensurações
dos indivíduos para uma variável de interesse.
A seguir, serão apresentados mais detalhes sobre medidas de posição e de dispersão.
3.1.1 A média
A medida de posição mais conhecida é a média (também chamada de valor médio) e constitui
uma medida da posição central dos dados (SWEENEY et al., 2014). A média é um número que,
supostamente, mais bem representa e sintetiza as mensurações dos indivíduos para determinada
variável de interesse.
Matematicamente, a média é a somatória de mensurações dividida pelo número de
indivíduos, e pode ser dada por:
Onde: x x x +x +...+x
n
x
n
1 n i =1�
�
�
�
2 3 i
n
Estatística descritiva: medidas-resumo 43
x = média amostral1
xi = mensuração do indivíduo i
n = número de indivíduos
Como exemplo, tomemos este conjunto de dados: A = (2, 5, 3, 7, 8, 10, 12). A média será
dada por:
x � � � � � � � �2 5 3 7 8 10 12
7
6 71,
Além de ser a medida-resumo mais conhecida, a média é a mensuração individual que
mais bem representa o conjunto de dados. No exemplo, 6,71 fornece uma ideia de como é o
comportamento desses dados.
Por outro lado, a média tem limitações que precisam ser consideradas, em especial, quando
se procede com a análise dos dados. Algumas dessas limitações podem ser severas, dependendo das
conclusões que se pretendem alcançar. Duas dessas limitações são: (a) a média é muito suscetível a
mensurações extremas; e (b) a média pode resultar em valores impossíveis na prática.
Suponha duas turmas de estudantes, cada qual com quatro integrantes. A média de nota na
disciplina de Estatística Aplicada é de cinco (escala de 0 a 10) para a turma A. Ao calcular a média
para a turma B, também se chega à média cinco (escala de 0 a 10) para a turma B, portanto as
duas turmas têm médias iguais. Pergunta: essas duas turmas têm comportamentos iguais? Pode-se
concluir que elas são iguais ou, pelo menos, parecidas?
Apenas para estressar o exemplo, suponha que as notas individuais sejam dadas por:
Turma A = (5, 5, 5, 5); e
Turma B = (0, 0, 10, 10)
De partida, perceba que a média é, realmente, cinco (escala de 0 a 10) para cada turma,
então não há engano no cálculo da média. Nesse ponto, com observação individual dos dados,
fica evidente que as duas turmas não são iguais e não têm o mesmo comportamento, embora a
média em ambas seja, de fato, igual. A primeira consideração é que a inspeção exclusiva da média
pode levar a conclusões equivocadas (por exemplo, concluir que as duas turmas têm o mesmo
comportamento porque têm médias iguais).
Além disso, para a turma A, a média parece ser bem representativa do conjunto de
mensurações de notas: não apenas a média é cinco, mas todos os indivíduos têm nota cinco, ou seja,
o cinco parece representar bem o conjunto de indivíduos. Se alguém afirmasse que um novo aluno
passará a integrar essa turma e que esse aluno tem características (comportamentos) similares
àqueles que já estão na turma A, é de bom tom pressupor que a nota desse aluno seja cinco.
1 Nesse momento, não há diferença no conceito de média para população ou amostra. No primeiro caso, pressupõe-
-se que o conjunto de dados seja de uma população e, no segundo caso, seja de amostra. Mais rigor acerca dessa
diferença será dado mais à frente.
Estatística Aplicada44
Por outro lado, conhecendo agora as notas individuais, seria possível afirmar, de fato, que o
melhor palpite de nota para um aluno que passe a integrar a turma B (e que tenha características
similares àqueles que já estão) seja de cinco? No limite, ninguém da turma B obteve nota cinco.
Comparativamente à turma A, parece que o cinco (como média) parece representar pouco (ou
de forma ruim) a turma B. A média é, portanto, suscetível a valores extremos e pode enganar na
comparação ou na tomada de decisão.
Avançando na compreensão, pode-se afirmar que, no tocante à nota na disciplina de
Estatística Aplicada, a turma A é mais homogênea (varia menos) do que a turma B, e, por sua vez,
a turma B é mais heterogênea (varia mais) em relação à turma A. Em grupos mais homogêneos
(menos dispersos), a média representa bem o conjunto de dados, e, da mesma feita, em grupos
mais heterogêneos (mais dispersos), a média representa mal o conjunto de dados.
Para tomada de decisão em grupos mais heterogêneos, o procedimento a ser adotado inclui,
em caráter não opcional, na medida do possível, a subdivisão do grupo heterogêneo em subgrupos
mais homogêneos. De volta ao exemplo da turma B, será possível subdividi-la em grupos mais
homogêneos?
Em uma primeira inspeção, fica evidente que é possível subdividir a turma B em dois
subgrupos mais homogêneos:
Subgrupo B1 = (0, 0); e
Subgrupo B2 = (10, 10)
Como essa subdivisão favorece a tomada de decisão? Decisões sobre grupos mais homogêneos
são melhores do que aquelas tomadas sobre grupos heterogêneos. Apenas para ilustrar o conceito,
suponha que uma campanha publicitária pretenda estimular as vendas de um produto e, para isso,
sorteará uma camisa oficial com assinaturas de todos os jogadores de uma determinada equipe de
futebol, FUT1. Se a campanha for veiculada para a sociedade como um todo, apenas uma parte
estará interessada (os torcedores de FUT1), porém, caso essa campanha seja veiculada apenas para a
torcida organizada da equipe FUT1, a chance de, proporcionalmente, mais pessoas se interessarem
aumenta muito. Portanto, a mesma campanha parece ser mais assertiva se endereçada apenas à
torcida organizada da equipe FUT1. O trabalho operacional de buscar assinaturas de todos os
jogadores é o mesmo se a campanha for para a sociedade como um todo ou apenas para a torcida
organizada, mas os resultados potenciais parecem ser bem diferentes.
De volta ao exemplo das turmas, consideremos para fins de análises a turma A (5, 5, 5, 5),
subgrupo B1 (0, 0) e subgrupo B2 (10, 10). Se o objetivo do estudo é aumentar o desempenho dos
alunos na disciplina de Estatística Aplicada, uma proposta de intervenção é solicitar que alunos
do subgrupo B2 forneçam aulas adicionais (no estilo de monitoria, por exemplo) para alunos da
turma A e do subgrupo B1. Para alunos da turma A, as aulas poderiam ser opcionais, mas
poderiam ser obrigatórias para os alunos do subgrupo B1, pois seu desempenho foi muito aquém
do esperado. Algum benefício para os alunos do subgrupo B2 pode ser fornecido, como desconto
na mensalidade ou incentivos educacionais, como livros ou participaçãoem feiras estudantis.
Parte-se do pressuposto de que exista um bom relacionamento interpessoal entre todos os alunos,
Estatística descritiva: medidas-resumo 45
o que, na prática, nem sempre é verdade. O ponto de interesse para discussão, no entanto, é:
grupos mais homogêneos permitem propostas de intervenção mais assertivas. Subdividir em
grupos mais homogêneos permite pensar as ações e os interesses para cada grupo e, assim, a
tomada de decisão é potencialmente melhor.
3.1.2 A moda
Avançando na discussão acerca das limitações da média, ela pode resultar em valores que
não são observados na prática. Suponha que a média de filhos em determinada comunidade seja de
1,8 filhos por família. Ainda que alguma família queira se manter na média daquela comunidade, é
evidente que é impossível ter 1,8 filhos: ou será 1 filho ou serão 2 filhos. Nesse caso, um indicador
de centralidade complementar à média é a moda. Moda é a mensuração que ocorre com maior
frequência em um conjunto de dados (BUSSAB; MORETTIN, 2014).
Considere este conjunto de dados:
C = (4, 5, 4, 6, 5, 8, 4, 10, 12, 4)
Nesse exemplo, a moda é 4, pois é a mensuração que ocorre com maior frequência. Não
apenas a moda apresenta a mensuração que mais se repete, mas, da própria definição de moda, ela
será, necessariamente, um valor que existe na prática.
Dependendo do fenômeno de interesse, no entanto, é possível que nenhum valor se repita
e, nesse caso, o conjunto de dados é amodal. Na prática, é comum encontrar conjuntos de dados
amodais. Por outro lado, também pode acontecer de haver duas mensurações que mais se repetem
(na mesma quantidade) e, nesse caso, a nomenclatura será de bimodal. O raciocínio de duas
mensurações que se repetem (na mesma quantidade) pode ser extrapolado para mais de duas. No
entanto, o caso de interesse será o de moda única e, ainda assim, servirá de complemento à média.
Portanto, o uso da moda para descrever um conjunto de dados é mais carregado de interpretação
quando analisado em complemento com outras medidas.
3.1.3 A mediana
Além de poder resultar em valores que não se observam na prática, outra limitação da média
é sua suscetibilidade a valores extremos. Para servir de complemento à média, uma medida de
centralidade muito utilizada é a mediana. A mediana é a mensuração que ocupa a posição central
de um conjunto de dados, quando eles estão ordenados de forma crescente. Em outras palavras,
é a mensuração que divide o conjunto de dados desta feita: 50% dos indivíduos têm mensurações
inferiores à mediana e 50% dos indivíduos têm mensurações superiores. A Figura 1, a seguir, traz
uma representação visual do conceito de mediana. Entre o valor mínimo e a mediana, estão 50%
dos indivíduos e, entre a mediana e o valor máximo, estão os outros 50%.
Figura 1 – Conceito de mediana
MÍNIMO
50% 50%
MEDIANA MÁXIMO
Metade das mensurações está abaixo da mediana Metade das mensurações está acima da mediana
Fonte: Elaborada pelo autor.
Estatística Aplicada46
É de notar que a mediana não leva em consideração para seu cálculo a mensuração absoluta
de cada indivíduo, mas a posição que cada um ocupa quando ordenados crescentemente. A média,
por sua vez, é mais suscetível a mensurações extremas, porque leva em consideração para seu
cálculo a mensuração absoluta dos indivíduos.
Matematicamente, obtém-se a posição da mediana por meio desta fórmula:
Posição da mediana = ( )n+1
2
Onde:
n = número de indivíduos
Para um número ímpar de indivíduos, o valor resultante é diretamente a posição do indivíduo
que será a mediana do conjunto de dados. Para o caso de número par de indivíduos, a mediana será
a média dos dois indivíduos que ocupam as posições centrais.
Considere este conjunto de dados com número ímpar de indivíduos:
D = (5, 9, 8, 2, 6, 3, 12)
D (ordenados crescentemente) = (2, 3, 5, 6, 8, 9, 12)
Posição da mediana = ( ) ( )n� � � �1
2
7 1
2
4
O elemento que ocupa a posição 4 (quarta posição), quando os dados são ordenados
crescentemente, tem mensuração 6. Portanto, a mediana desse conjunto de dados é mediana = 6.
Considere este conjunto de dados com número par de indivíduos:
E = (13, 15, 12, 11, 18, 16)
E (ordenados crescentemente) = (11, 12, 13, 15, 16, 18)
Posição da mediana =
( ) ( ) ,n� � � �1
2
6 1
2
3 5
Para um número par de indivíduos, o cálculo da posição da mediana sempre será um
resultado não inteiro. Nesse caso, precisam ser consideradas as mensurações dos indivíduos que
estejam imediatamente antes e imediatamente depois da posição da mediana calculada. No exemplo,
serão tomados os indivíduos 3 e 4 (pois a posição da mediana calculada é de 3,5): o indivíduo que
ocupa a terceira posição tem mensuração de 13, e o indivíduo que ocupa a quarta posição tem
mensuração de 15. Se a mediana desse conjunto de dados é a média dessas duas mensurações, a
mediana desse conjunto de dados é mediana = 14.
É compreensível que todo esse procedimento gere alguma preocupação, pois, dependendo da
quantidade de indivíduos, a ordenação e os cálculos podem requerer atenção e tempo demasiados.
No entanto, por conta do avanço computacional, os cálculos de média, moda e mediana (e de
outras medidas de posição e de dispersão) têm sido mais fáceis e rápidos. Nesse sentido, a ênfase
tem se deslocado do cálculo para a análise: cálculos mais fáceis e rápidos e análises mais detalhadas.
Estatística descritiva: medidas-resumo 47
Tendo em conta estas três medidas de posição ao mesmo tempo, média, moda e mediana,
valores calculados (para média, moda e mediana) que sejam próximos podem indicar grupos mais
homogêneos, ao passo que valores calculados muito diferentes entre si podem indicar grupos
mais heterogêneos. Essas afirmações, no entanto, não podem ser tomadas como conclusivas,
mas, em complemento aos gráficos e às medidas de dispersão (que serão inspecionadas mais à
frente neste capítulo), servem como evidência adicional.
3.1.4 O máximo e o mínimo
Embora o máximo e o mínimo de um conjunto de dados não versem sobre sua centralidade,
ajudam a descrevê-lo ao fornecer uma localização. Sua inspeção, em conjunto com valores
calculados de média, moda e mediana, começa a fornecer indícios mais completos de como é o
comportamento dessa variável.
O máximo é a maior mensuração observada em um conjunto de dados e, por sua vez, o
mínimo é a menor mensuração.
Retomando os exemplos anteriores, considere estes conjuntos de dados:
D = (5, 9, 8, 2, 6, 3, 12)
E = (13, 15, 12, 11, 18, 16)
Para o conjunto D, o mínimo é 2 (menor mensuração observada) e o máximo é 12 (maior
mensuração observada). Da mesma feita, para o conjunto E, o mínimo é 11 e o máximo é 18.
3.1.5 Os quartis e os percentis
Outras medidas de localização (e não de centralidade) utilizadas para descrição de um
conjunto de dados são o primeiro quartil (também chamado de 1Q) e o terceiro quartil (3Q). Para
entender o cálculo dessas medidas, convém retomar o conceito de mediana: a mensuração que
ocupa a posição central, quando os dados estão ordenados crescentemente.
Para o cálculo do primeiro quartil (1Q), o mesmo procedimento de ordenar os dados
crescentemente é adotado, porém, em vez de dividir o conjunto de dados pela metade (de modo
que 50% da quantidade de indivíduos tenha mensuração inferior e 50% dos indivíduos tenha
mensuração superior), como ocorre para encontrar a mediana, divide-se o conjunto de dados desta
maneira: 25% da quantidade de indivíduos tem mensuração inferior ao 1Q e 75% da quantidade
de indivíduos tem mensuração superior. Em ordem crescente, é como se fosse eleita a mensuração
que divida o conjunto de dados no primeiro quarto 1
4
�
�
�
�
�
�. Não é de estranhar, portanto, que as palavras
quarto e quartil têm o mesmo radical.
Seguindo o mesmo raciocínio, o terceiro quartil (3Q, terceiro quarto) divide o conjunto de
dados que está ordenado crescentemente de maneira que 75% dos indivíduos tenham mensuração
inferior ao 3Q e 25% dos indivíduos tenham mensuração superior. Esseindivíduo divide o conjunto
de dados no terceiro quarto 3
4
�
�
�
�
�
�. A Figura 2, a seguir, apresenta uma representação visual dos
conceitos de mínimo, 1Q, mediana (também chamada de segundo quartil ou 2Q), 3Q e máximo.
Os percentuais representam a quantidade de indivíduos (em percentual) em cada quarto.
Estatística Aplicada48
Figura 2 – Conceitos de mínimo, 1Q, mediana, 3Q e máximo
MÍNIMO
25% 25% 25% 25%
50% 50%
MEDIANA
MÁXIMO1Q 2Q 3Q
Fonte: Elaborada pelo autor.
É evidente que, em muitas situações, o cálculo de 1Q e de 3Q não resulta em posições
exatas. Isso (não resultar em posição exata) já aconteceu também no caso do cálculo da posição da
mediana para número par de indivíduos, oportunidade em que foi necessário calcular a média das
duas mensurações que ocupam a posição central. Caso se requeira rigor quanto ao cálculo, pode-se
recorrer à interpolação2 para encontrar o valor exato de 1Q e de 3Q, mas, em geral, esse rigor não
será necessário. Para o cálculo da posição do quartil, deve-se levar em consideração aquele que se
deseja obter e o número de indivíduos, como segue:
Posição de iQ =
i n� �� �1
4
Onde:
i = quartil que se deseja obter (i = 1, 2 ou 3)
n = número de indivíduos
Para o exemplo do conjunto de dados D:
D = (5, 9, 8, 2, 6, 3, 12)
D (ordenados crescentemente) = (2, 3, 5, 6, 8, 9, 12)
Posição de 1Q =
1 7 1
4
2
� �� �
�
Posição de 3Q =
3 7 1
4
6
� �� �
�
Se a posição de 1Q é 2, significa que 1Q é a mensuração do segundo indivíduo, quando o
conjunto de dados está ordenado crescentemente, 1Q = 3. Usando o mesmo raciocínio, se a posição
de 3Q é 6, significa que 3Q é a mensuração do sexto indivíduo, quando o conjunto de dados está
ordenado crescentemente, 3Q = 9.
Com o mesmo raciocínio, o cálculo de percentis é feito quando uma determinada mensuração
divide o conjunto de dados, quando ordenado crescentemente, em um percentual de interesse:
aquele que divide os dados em 10% de menores mensurações (10P ou 10 percentil) ou aquele que
2 Interpolação é o método de aproximar os valores dos conjuntos discretos, o que permite construir um novo conjunto
de dados a partir de um conjunto discreto de dados pontuais previamente conhecidos. Por meio da interpolação, pode-se
construir uma função (ou encontrar números) que aproximadamente se “encaixe” nesses dados pontuais, conferindo-lhes,
então, uma continuidade desejada.
Estatística descritiva: medidas-resumo 49
divide os dados em 20% de maiores mensurações (80P ou 80 percentil), por exemplo. O cálculo da
posição do percentil é dado por:
Posição de iP =
i n� �� �1
100
Onde:
i = percentil que se deseja obter (i = 1 a 99)
n = número de indivíduos
Novamente, o cálculo de quartis (em particular, para fins de análises, de 1Q e 3Q) e de
percentis está facilitado por conta do avanço computacional. Por isso, o maior mérito, cada vez
mais, estará nas análises de melhor qualidade que podem ser extraídas com base nessas medidas.
3.2 Medidas de dispersão
Outra maneira de descrever um conjunto de dados é por meio de sua
dispersão. Quanto mais disperso for um conjunto de dados, mais ele é formado
por indivíduos heterogêneos (indivíduos diferentes entre si, que carregam mais
variabilidade). Essa discussão já apareceu com a merecida importância quando da
apresentação das limitações da média: média em grupo mais homogêneo representa
bem esse grupo e média em grupo mais heterogêneo representa pouco esse grupo.
Em bons termos, homogeneidade ou heterogeneidade são comportamentos
desejáveis de serem conhecidos sobre variáveis de um conjunto de dados, pois
suscitam ações diferentes: ações tomadas em grupos homogêneos costumam ser
mais assertivas do que aquelas tomadas em grupos mais heterogêneos. Os grupos
heterogêneos devem ser subdivididos em subgrupos mais homogêneos, a fim de
que se possa tomar melhores decisões a respeito deles. O cálculo de medidas de
dispersão é desejável para identificar esses comportamentos.
Algumas medidas de dispersão que contribuem para essa inspeção – mas
que não se restringem a ela – são: amplitude, amplitude interquartil, desvio padrão
e coeficiente de variação.
3.2.1 A amplitude
A amplitude é considerada a medida de dispersão mais simples, pois é
a diferença entre o máximo e o mínimo. Ainda que de forma simplificada, ela
consegue sinalizar sobre a oscilação do conjunto de dados. Quanto maior for a
amplitude, mais heterogêneo é o conjunto de dados (oscila mais).
Considere este conjunto de dados:
F = (15, 5, 3, 8, 10, 2, 7, 11, 12, 1, 20, 4)
Mínimo = 1
Máximo = 20
Amplitude = 20 – 1 = 19
Vídeo
Estatística Aplicada50
Um exemplo muito próximo do nosso cotidiano é a amplitude térmica. Quando o noticiário
anuncia que a temperatura máxima de um dia é de 28 ºC e a mínima é de 18 ºC, a amplitude
térmica é de 10 ºC. Por outro lado, se a máxima do dia seguinte é de 27 ºC e a mínima é de 22 ºC,
a amplitude térmica é de apenas 5 ºC. Isso significa que o segundo dia é mais homogêneo (oscila
menos, varia menos) do que o dia anterior.
3.2.2 A amplitude interquartil
Se, por um lado, a amplitude é uma medida fácil de ser calculada (leva em consideração
apenas o máximo e o mínimo do conjunto de dados), por outro lado, ela tem uma deficiência
severa, dependendo das características dos indivíduos do conjunto de dados: ela é muito suscetível
a valores extremos.
Suponha uma variante do conjunto de dados F:
F’ = (15, 5, 3, 8, 10, 2, 7, 11, 555, 12, 1, 20, 4)
Mínimo = 1
Máximo = 555
Amplitude = 555 – 1 = 554
No caso de F’, está evidente que a mensuração 555 é um outlier, um ponto “fora da curva”,
incomum e, por isso, precisa ser expurgada para fins de análises. Para fins didáticos, mensurações
extremas, ainda que não sejam outliers, podem influenciar demasiadamente a amplitude.
Em parte, para servir de complemento à amplitude, pode-se calcular também a amplitude
interquartil. Seu cálculo é a diferença entre 3Q e 1Q.
Suponha o conjunto de dados G:
G = (15, 5, 3, 8, 10, 2, 7, 11, 12)
1Q = 4 (média de 3 e 5 – mensurações do segundo e terceiro indivíduos)
3Q = 11,5 (média de 11 e 12 – mensurações do sétimo e do oitavo indivíduos)
Amplitude interquartil = 3Q – 1Q = 11,5 – 4 = 7,5
A vantagem dessa medida (em particular, quando comparada à amplitude) é que
mensurações extremas têm menos influência no resultado. Quanto maior for a amplitude
interquartil, mais heterogêneo é o conjunto de dados (oscila mais).
3.2.3 O desvio padrão
A amplitude leva em consideração em seu cálculo apenas o máximo e o mínimo. A amplitude
interquartil leva em consideração apenas 3Q e 1Q. Em ambos os casos, no entanto, os valores
absolutos das mensurações são usados apenas para a ordenação do conjunto de dados. A seguir,
será apresentada uma medida que leva em consideração os valores absolutos de cada mensuração,
o desvio padrão (s). Antes, no entanto, será apresentado o conceito de variância (var), pois sua
relação com o desvio padrão é direta.
Estatística descritiva: medidas-resumo 51
A variância é uma medida de dispersão que considera o quão distante cada mensuração
do conjunto de dados está em relação ao comportamento comum desse conjunto. Assim, leva-se
em consideração a somatória da distância de cada mensuração em relação à média, como segue
(LAPPONI, 2005):
s
x x x x x x
n
x x
n
i =12 1
2
2
2 2 2
1 1
�
�� � � �� � � � �� �
�
�
�� �
�
�... n i
n
Onde:
s2 = variância amostral3
xi = mensuração do indivíduo i
x = média amostral
n = número de indivíduos
Como a variância considera a distância como artifício matemático para expurgar diferenças
negativas entre a média e as mensurações com valor inferior a ela, eleva-se cada diferença ao
quadrado. Importante: não há distância negativa, por isso, esse artifício é necessário. Outros
mecanismos para expurgar as diferenças negativas poderiam ser aplicáveis, por exemplo, o módulo
(nesse caso, seria usado o conceito do desvio médio), mas, por motivos que serão apresentados
mais à frente nestaobra, o uso do quadrado para esse fim é preferível.
Considere este conjunto de dados, a média e a variância:
H = (3, 4, 5, 6, 7)
x = 5
s2
2 2 2 2 23 5 4 5 5 5 6 5 7 5
5 1
10
4
2 5�
�� � � �� � � �� � � �� � � �� �
�
� � ,
Embora o cálculo da variância seja compreensível, vale notar suas limitações (perceba que
elas têm a mesma origem): (a) não se pode elevar um número ao quadrado sem uma contrapartida
(sem retirar esse efeito); e (b) o resultado da variância não tem interpretação prática. Suponha, por
exemplo, que estejamos inspecionando a dispersão das alturas dos jogadores de basquete de uma
equipe (em metros). Como a diferença da altura de cada jogador em relação à média é elevada ao
quadrado, o resultado será em metros quadrados (m2), o que não parece ter interpretação prática
para fins de análises. É por esse motivo que se aplica a raiz quadrada da variância (para tirar o efeito
de elevar ao quadrado) e, assim, obtém-se o desvio padrão. O desvio padrão carrega as mesmas
vantagens da variância quanto a considerar os valores absolutos de cada mensuração para o cálculo
da dispersão, mas não recai a ele a crítica de não ter uma contrapartida para elevar números ao
quadrado. O desvio padrão é dado, pois, por:
s � variância
3 A variância amostral refere-se à amostra, e a variância populacional, à população, discussão que será aprofundada
em outro capítulo. Neste ponto, cabe reconhecer que a distinção existe, mas é de importância menor.
Estatística Aplicada52
Voltemos ao exemplo do conjunto de dados H:
H = (3, 4, 5, 6, 7)
x �
�
�� � � �� � � �� � � �� � � �� �
�
� �
� �
5
3 5 4 5 5 5 6 5 7 5
5 1
10
4
2 5
2 5 1
2
2 2 2 2 2
s
s
,
, ,,58
Portanto, um conjunto de dados com desvio padrão maior é mais heterogêneo do que outro
que tenha desvio padrão menor (evidentemente, caso ambos contenham dados da mesma ordem
de grandeza). Por exemplo, suponha que sejam inspecionados dois ativos no mercado financeiro
(valor de mercado ao longo do tempo), conforme a Figura 3, a seguir.
Figura 3 – Valor de mercado ao longo do tempo de dois ativos: um com oscilação menor e outro com
oscilação maior
Baixo risco (oscila menos) Alto risco (oscila mais)
Fonte: Elaborada pelo autor.
Nos mercados financeiros, a oscilação recebe a nomenclatura de volatilidade, e seu cálculo é
dado diretamente pelo desvio padrão. Desse modo, ativos com desvio padrão mais alto podem ser
considerados mais voláteis e arriscados. Ressalta-se que, embora ajude a descrever a volatilidade
(risco) de um ativo, o desvio padrão não pode ser usado para estimar a tendência de retorno do
ativo quanto à alta ou baixa. Outros mecanismos de finanças precisam ser usados para esse fim.
3.2.4 O coeficiente de variação
Quando são considerados dois fenômenos cujos desvios padrão resultem em mesmo valor
absoluto, é conveniente (mas não correto) afirmar que esses dois fenômenos são igualmente
dispersos, que oscilam igualmente.
De volta ao exemplo dos ativos financeiros, suponha que uma inspeção no preço de
fechamento diário (em reais) foi feita durante os últimos três meses. O desvio padrão foi calculado
e o resultado nos dois ativos foi igual a R$ 5,00. Ambos os ativos são igualmente arriscados?
Oscilam igualmente?
Estatística descritiva: medidas-resumo 53
O impulso natural seria afirmar que sim, que ambos os ativos oscilam igualmente, são
igualmente dispersos e, portanto, são igualmente arriscados, mas a verdade é que isso depende.
Imagine que tenhamos a informação de que a cotação média do primeiro ativo (AT1) é de R$ 22,41,
e a cotação média do segundo ativo (AT2) é de R$ 33,36. Podemos perceber que, mesmo que o
desvio padrão de ambos seja de R$ 5,00, esses R$ 5,00 têm grandezas (efeitos, impactos) diferentes,
consoante com a cotação média: oscilação de R$ 5,00 sobre R$ 22,41 parece ter efeito maior do que
oscilação dos mesmos R$ 5,00 sobre R$ 33,36. Para captar esses efeitos, será calculado o coeficiente
de variação (CV). Trata-se de uma medida de dispersão relativa, tendendo a relativizar o efeito da
magnitude dos dados. Ao exprimir a variabilidade em relação à média, essa medida é útil para
comparar dois (ou mais) fenômenos – dois ativos financeiros, por exemplo. Matematicamente, o
coeficiente de variação é dado por:
CV s
x
� �100
Onde:
s = variância amostral
x = média amostral
O resultado do cálculo do coeficiente de variação será dado em percentual. Como convenções
de mercado, valores de até 10% representam conjuntos de dados mais homogêneos. Por sua vez,
valores acima de 30% representam conjuntos de dados mais heterogêneos. Entre 10% e 30% são
grupos moderadamente heterogêneos. Na Tabela 1, a seguir, está uma comparação entre dois ativos
com mesmo valor de desvio padrão.
Tabela 1 – Comparação de ativos com mesmo valor de desvio padrão
Ativo financeiro Desvio padrão (R$) Média (R$) Coeficiente de variação Conclusão
AT1 5,00 22,41 5,00 / 22,41 × 100 = 22,3% Mais volátil
AT2 5,00 33,36 5,00 / 33,36 × 100 = 14,9% Menos volátil
Fonte: Elaborada pelo autor.
Não é por acaso que o coeficiente de variação é a medida de dispersão que, individualmente,
mais bem representa a dispersão de um conjunto de dados, pois leva em consideração o desvio
padrão em comparação com a média, sendo uma medida relativa.
Há, no entanto, uma situação em que o coeficiente de variação não funciona bem para
fins de comparação de dispersão entre dois grupos. E essa é uma limitação matemática: como a
medida considera o desvio padrão dividido pela média, quando a média tem valores absolutos
muito próximos de zero, o valor calculado do coeficiente de variação tende a infinito, podendo
resultar em valores como 7.000%, o que, evidentemente, não serve para fins de análises. Nesses
casos, quando os fenômenos que estão sendo inspecionados têm a mesma ordem de grandeza, a
inspeção direta do desvio padrão é adequada e suficiente.
Estatística Aplicada54
3.3 Gráfico box-plot
Representações gráficas são ótimas para sintetizar e resumir um conjunto grande
de dados, além de permitirem uma compreensão mais fácil para o interlocutor, já que
o ser humano tende a ser muito visual. Em complemento aos gráficos apresentados
anteriormente, há um de particular interesse, pois permite inspecionar rapidamente
como está a posição e dispersão dos dados. Trata--se do box-plot.
O box-plot está sempre em uma escala univariada (estados possíveis para
aquela variável) e representa o conjunto de dados por meio de um retângulo
vertical (em inglês, box significa caixa4) formado, na tampa superior, pelo 3Q
e, na tampa inferior, pelo 1Q. Em algum ponto entre as tampas, estará um
traço com a representação da mediana. Acima da tampa superior e abaixo da
tampa inferior, é comum se estender um traço que parte dessa extremidade
(tampas) do box. Por exemplo, para o lado superior, do meio da tampa superior
(3Q), parte um traço contínuo até um ponto que representa o máximo. De
forma análoga, do meio da tampa inferior (1Q), parte um traço contínuo até
um ponto que representa o mínimo. A Figura 4 apresenta um exemplo de
box-plot para facilitar a compreensão.
Figura 4 – Exemplo de box-plot
Mínimo
Máximo
3Q
Mediana (2Q)
1Q
Fonte: Elaborada pelo autor.
O box-plot pode ser desenhado em plano horizontal ou vertical, mas o mais
comum é vertical, conforme está na Figura 4. Em ambos os casos, os princípios são
os mesmos: mínimo, 1Q, mediana, 3Q e máximo. Essas cinco medidas de posição
representadas em um único gráfico fornecem rapidamente uma ideia quanto à
dispersão dos dados: 25% da quantidade de indivíduos está entre o mínimo e 1Q; 25%
da quantidade de indivíduos está entre 1Q e a mediana; outros 25% da quantidade de
indivíduos está entre a mediana e 3Q; e, por fim, 25% da quantidade de indivíduos está
entre 3Q e o máximo. Assim como representado na Figura 4, a mediana não precisa
estar necessariamente no meio do box e isso será evidência de alguma assimetria na
dispersão dos dados, como está apresentadona Figura 5, a seguir.
4 Em tradução livre.
Vídeo
Estatística descritiva: medidas-resumo 55
Figura 5 – Simetria e assimetria em box-plot
Assimetria para cimaAssimetria para baixo Simetria
Fonte: Elaborada pelo autor.
A principal vantagem da inspeção de box-plot repousa na facilidade de interpretação da
posição e dispersão dos dados para a variável de interesse (importante: o box-plot é sempre uma
inspeção univariada, está sempre na escala dessa variável). Além disso, quando grupos diferentes
são comparados por meio do box-plot, é visualmente fácil identificar os grupos mais homogêneos
e aqueles mais heterogêneos, o que permite melhorar a tomada de decisão. Um exemplo de
comparação de grupos pode incluir a inspeção de volatilidade (risco) de ativos financeiros
diferentes quanto à variação percentual diária dos últimos três meses. Aqueles que apresentarem
gráficos box-plot mais comprimidos são mais homogêneos, ao passo que gráficos box-plot mais
“esticados” podem indicar ativos mais voláteis. Enfim, rapidamente, tem-se um parecer, ainda que
de origem visual, quanto à homogeneidade ou heterogeneidade daquele grupo.
Por fim, por conta do avanço computacional, não mais se desenham gráficos do tipo
box-plot à mão livre, pois o software computacional executa essa atividade, cabendo ao pesquisador
a interpretação, análise e tomada de ação de melhor qualidade.
Considerações finais
Descrever um conjunto de dados significa tentar encontrar o comportamento usual dos
indivíduos, consoante com a variável que esteja sendo inspecionada. Esse comportamento pode ser
descrito por meio de tabelas e gráficos de distribuição de frequências, como apresentado no capítulo
anterior, mas também por meio de medidas-resumo. As medidas-resumo que mais contribuem
para descrever um conjunto de dados podem ser agrupadas em: medidas de posição (média, moda,
mediana, mínimo, máximo, quartis e percentis) ou medidas de dispersão (amplitude, amplitude
interquartil, desvio padrão e coeficiente de variação). Por fim, o gráfico box-plot representa de
forma visual a distribuição dos dados por meio de algumas medidas de posição.
Em termos de análises, um comportamento de particular interesse é a homogeneidade
(ou heterogeneidade) do conjunto de dados. Quando o tomador de decisão está diante de dados
mais homogêneos (indivíduos com comportamentos parecidos entre si), a tomada de decisão é
facilitada, pois ações tomadas tendem a ser mais assertivas e, portanto, com resultados melhores.
Estatística Aplicada56
Por outro lado, diante de dados heterogêneos, sempre que possível, a recomendação será no sentido
de dividir o conjunto de dados em subgrupos mais homogêneos e tomar as ações diretamente
sobre esses subgrupos.
Além disso, um uso muito comum da descrição dos dados é a possibilidade de comparação
de grupos. Essa comparação pode ser tanto em termos de distribuição de frequência quanto de
medidas de posição e de dispersão. Por exemplo, quando são comparados dois ativos financeiros
e se identifica que um deles é mais disperso, que oscila mais, pode-se concluir que ele é mais
recomendável para alguém mais arrojado e propenso ao risco.
Esta é uma mensagem final importante para o uso da estatística descritiva: os números e
cálculos não são o objetivo fim em si, mas são as bases para que uma tomada de decisão melhor
possa acontecer. Cabe àquele que conduz o estudo sair dos números e chegar às melhores decisões
para aquela realidade.
Ampliando seus conhecimentos
• GAMA, C. Marketing: o comportamento do consumidor afetado pelos estilos de vida.
Administradores, 22 mar. 2019. Disponível em: https://administradores.com.br/artigos/
marketing-o-comportamento-do-consumidor-afetado-pelos-estilos-de-vida. Acesso em:
26 maio 2019.
Nesse artigo, o autor apresenta como tem emergido um mercado segmentado por estilo
de vida; na verdade, existe um grupo enorme heterogêneo dividido em subgrupos mais
homogêneos. Variáveis como nível de escolaridade, idade, número de filhos e local de
residência tornaram-se talvez até mais importantes do que o próprio nível de renda para
tomadas de decisão sobre o que as empresas podem ofertar para cada grupo. O artigo
reforça que decisões diferentes (produtos e serviços diferenciados) devem ser tomadas
para subgrupos diferentes.
• MOMBERGER, A. Entenda de uma vez por todas o que é volatilidade de mercado.
Investing, 7 set. 2018. Disponível em: https://br.investing.com/analysis/entenda-de-uma-
vez-por-todas-o-que-e-volatilidade-de-mercado-200222695. Acesso em: 26 maio 2019.
Esse artigo relaciona os conceitos desenvolvidos neste capítulo com a realidade dos
mercados financeiros, aprofundando a discussão sobre oscilação, risco e volatilidade. O
artigo sinaliza como calcular a volatilidade e como usá-la na tomada de decisão quanto a
investir no mercado financeiro brasileiro.
Estatística descritiva: medidas-resumo 57
Atividades
1. Suponha que você tenha interesse no mercado financeiro e que tenha coletado dados de
variação diária percentual de um ativo fictício durante os últimos 20 dias úteis. Calcule as
medidas de posição (média, moda, mediana, mínimo, máximo, 3Q e 1Q) e de dispersão
(amplitude, amplitude interquartil, desvio padrão e coeficiente de variação), arredondando
para duas casas decimais. Os dados estão apresentados na Tabela a seguir.
Tabela – Dados de variação diária percentual de ativo fictício durante 20 dias úteis
–1,38 –1,27 2,54 0,00 0,59
0,87 –0,51 0,43 –0,58 0,25
–0,17 –1,49 –1,01 5,42 –2,85
–1,03 –0,08 –0,92 –4,99 –1,52
Sugere-se o uso de um software, como o MS-Excel, ou de pacote estatístico para o cálculo
das medidas solicitadas.
2. Suponha que você tenha calculado medidas de posição e de dispersão da variação diária
percentual de dois ativos, tendo obtido os resultados apresentados na Tabela a seguir.
Tabela – Medidas de posição e de dispersão da variação diária percentual dos ativos A e B
Ativo 1 Ativo 2
Média –0,39 –0,43
Moda #N/D #N/D
Mediana –0,55 –0,60
Máximo 5,42 0,87
Mínimo –4,99 –1,38
3Q 0,39 0,25
1Q –1,35 –1,29
Amplitude 10,41 2,25
Amplitude interquartil 1,74 1,54
Desvio padrão 2,04 1,00
Coeficiente de variação (%) –529,12 –234,70
Com base nas informações apresentadas, quais são suas considerações sobre o comporta-
mento médio dos ativos? E sobre a oscilação dos ativos?
Estatística Aplicada58
3. Suponha que você esteja à frente de uma unidade educacional e tenha solicitado um relatório
sobre o desempenho de discentes em dois grupos: conjunto 1 e conjunto 2. O conjunto 1
recebeu aulas adicionais em relação à carga de aulas padrão. E você quer avaliar se essas
aulas adicionais podem ter tido algum efeito benéfico aos discentes do conjunto 1. Para essa
análise, você recebe um relatório com a Figura a seguir, na escala de notas de 0 a 10.
10
5
0
Conjunto 1 Conjunto 2
Supondo que os dois grupos tenham sido selecionados ao acaso no início do experimento
e que possam ser considerados equivalentes quanto ao desempenho acadêmico anterior,
quais são suas considerações quanto à atribuição de aulas adicionais para o conjunto 1?
Elas valeram a pena?
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia.
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
4
Noções de probabilidade
Neste capítulo, abordaremos um tema muito presente em nosso cotidiano: as probabilidades.
É comum escutarmos sobre probabilidades em diferentes contextos. Por exemplo, há afirmações
mais subjetivas, como “isso acontece em 99,9% das vezes”, no sentido de que a recorrência é
comum, mas sem necessidade de um rigor para saber se são 99,9% ou 99,8% das vezes. Também
há afirmações mais objetivas, como “a probabilidade de este medicamento ter efeitos colaterais é
de 0,2%”, nosentido de que um experimento foi conduzido e a afirmação decorre de resultados
obtidos por meio de métodos científicos e que podem ser comprovados.
Em muitas situações, é possível calcular a probabilidade exata, o que permite sair da
subjetividade e, assim, tomar decisões mais qualificadas. Tomemos, como exemplo, a Mega-Sena:
o desejo de uma fortuna milionária leva, todos os anos, milhões de apostadores às casas lotéricas.
Frases como “quem não arrisca, não petisca” são proferidas por esses apostadores, cujos sonhos
incluem acertar os números sorteados e desfrutar do prêmio. Mas qual é a probabilidade de se
ganhar na Mega-Sena? As possibilidades existentes são uma combinação de 60 elementos tomados
6 a 6, o que resulta em 50.063.860 jogos possíveis. Com um jogo simples de seis dezenas, por
exemplo, teremos uma chance em aproximadamente 50 milhões de possibilidades. Isso resulta em
cerca de 0,000002% de chance de acertar os números cobiçados.
O objetivo aqui não é desincentivar alguém a jogar, evidentemente. Até porque há um caráter
lúdico e divertido em todo jogo; por exemplo, há muitos que gostam de apostar em conjunto com
amigos, e outros que usam o jogo para estimular seus sonhos: “o que eu faria se eu ganhasse”.
São aspectos intangíveis e que não podem ser desprezados, mas, possivelmente, conhecer
probabilidades pode contribuir para a tomada de decisão de forma mais consciente. E assim será
em muitas situações de nosso cotidiano.
Ao longo deste capítulo, veremos como calcular a probabilidade de um evento ou de conjunto
de eventos e como refinar a tomada de decisão gerencial por meio do cálculo de probabilidade.
Antes disso, vamos entender o que é probabilidade.
Probabilidade é uma medida numérica da possibilidade de um evento acontecer. Assim,
ela é usada como medida do grau de incerteza associada a um fenômeno de interesse. Valores
probabilísticos são sempre atribuídos em uma escala entre 0 e 1: uma probabilidade próxima a 0
indica que é improvável que um evento aconteça e uma probabilidade próxima de 1 revela que a
ocorrência de um evento é quase certa. E outras probabilidades entre 0 e 1 representam o grau de
possibilidade de um evento acontecer (SWEENEY et al., 2014).
Os modelos probabilísticos são modelos teóricos que reproduzem, de maneira aceitável,
a distribuição de frequência de um fenômeno, quando ele é observado diretamente (BUSSAB;
MORETTIN, 2014). Quando são conhecidos os estados possíveis para um fenômeno de interesse
(podemos pensar em estados possíveis de uma variável, por exemplo) e as possibilidades de
Estatística Aplicada60
ocorrência de cada estado (podemos pensar em probabilidade de ocorrência), é possível ter maior
compreensão desse fenômeno e, assim, tomar uma decisão. Suponha, por exemplo, que o evento de
interesse seja o lançamento de uma moeda: os estados possíveis são cara e coroa, e a probabilidade
de ocorrência é de 50% para o estado cara e 50% para o estado coroa. Em outro exemplo, supondo
que o evento de interesse seja o lançamento de um dado, serão seis os estados possíveis (dado com
seis faces) e probabilidade de
1
6
�
�
�
�
�
� para cada estado. Embora sejam situações simples, elas servem
para exemplificar o conceito de modelos probabilísticos.
Para o cálculo das probabilidades, no entanto, há que considerar alguns cuidados. De pro-
priedades gerais a distribuições mais complexas, passando pelas probabilidades condicionais,
modelos probabilísticos tentam, o máximo possível, representar a realidade, mas, como ela é
complexa, os modelos muitas vezes representam a realidade apenas de forma simplificada. Neste
capítulo, serão apresentadas algumas propriedades de probabilidade e probabilidades condicionais.
4.1 Propriedades
Para a compreensão do cálculo de probabilidade, convém entender o conceito
de experimento, pois probabilidades são calculadas apenas sobre os resultados
possíveis desse experimento. Sweeney et al. (2014) definem experimento como
um processo que gera resultados bem definidos e, em uma única repetição do
experimento, acontecerá um, e somente um, dos resultados experimentais possíveis.
Por exemplo, se lançar uma moeda for nosso experimento de interesse, resultados
experimentais possíveis são cara ou coroa. Ao lançar a moeda uma vez, o resultado
será apenas um, e somente um, estado (podendo ser cara ou coroa).
Para cada experimento, é definido o espaço amostral (Ω), que é o conjunto
de todos os possíveis resultados do experimento. Qualquer subconjunto de interesse
do espaço amostral é chamado de evento. Como exemplo, suponha o lançamento
de um dado de seis faces: o espaço amostral é formado por Ω = {1, 2, 3, 4, 5, 6}.
Nesse exemplo, o evento de interesse pode ser: (a) obter face 2 no lançamento; ou
(b) obter alguma face ímpar no lançamento.
Associando os conceitos, se a probabilidade é uma medida numérica
da possibilidade de um evento acontecer, é de bom tom pressupor que essa
conta leva em consideração o evento de interesse quando confrontado com o
espaço amostral. No exemplo anterior, obter face 2 é uma ocorrência dentre seis
possibilidades, portanto, a probabilidade de esse evento acontecer será uma em
seis ou
1
6
�
�
�
�
�
�. Da mesma feita, para a probabilidade de obter alguma face ímpar, são
três ocorrências (1, 3 ou 5) dentre seis possibilidades e, portanto, a probabilidade
desse evento será três em seis ou 3
6
.
Para formalizar os conceitos, suponha que se pretenda descrever as
frequências de ocorrência das faces de uma moeda (cara ou coroa). Para tal,
um possível procedimento a adotar é lançar a moeda certo número de vezes,
Vídeo
Noções de probabilidade 61
n, e depois contar o número ni de vezes em que ocorre a face i, sendo i = cara ou coroa. As
proporções n
n
i determinam a distribuição de frequências do experimento realizado.
É de pressupor que só podem ocorrer duas faces (cara ou coroa) e também que a moeda
seja perfeitamente equilibrada, de modo a não favorecer alguma face em particular (esse não
favorecimento também se chama moeda honesta ou não enviesada). Com essas suposições, cada
face deve ocorrer o mesmo número de vezes quando a moeda é lançada n vezes, e, portanto, supõe-
se que a proporção de ocorrência de cada face deva ser de 1
2
. A Tabela 1, a seguir, apresenta a
frequência teórica do lançamento de uma moeda.
Tabela 1 – Frequência teórica do lançamento de uma moeda
Cara Coroa Total
Frequência teórica
1
2
1
2
1
Fonte: Elaborada pelo autor.
Suponha agora que essa moeda seja lançada duas vezes (portanto, o experimento consiste
em lançar a moeda duas vezes). Perceba que o espaço amostral será este: Ω = {(cara, cara), (cara,
coroa), (coroa, cara), (coroa, coroa)}. Cada resultado experimental tem probabilidade de 1
4
de
acontecer se a moeda for honesta.
Se o evento de interesse (A) é obter duas faces iguais nos dois lançamentos, é de supor que
estes são os resultados experimentais que constituem o evento A = {(cara, cara), (coroa, coroa)}.
Como a probabilidade de cada resultado experimental é de 1
4
, a probabilidade de o evento A
acontecer pode ser assim descrita:
P(A) = P({(cara, cara), (coroa, coroa)}) =
1
4
1
4
1
2
� �
Outra maneira útil de representar o experimento e o espaço amostral é por meio de
árvores de possibilidades ou árvores de probabilidades. Trata-se de uma representação
gráfica dos resultados experimentais possíveis e permite organizar o raciocínio, em especial,
para experimentos com mais de uma etapa. Por exemplo, imagine que o experimento seja três
lançamentos de uma moeda. Ou quatro lançamentos. Perceba que os resultados experimentais
começam a ficar mais complicados de serem apenas idealizados. Supondo o lançamento
da moeda três vezes, a cada lançamento, há duas possibilidades de resultado: cara ou coroa.
Ao analisar a sequência dos três lançamentos, este deve ser o raciocínio: os resultados do segundo
lançamento serão combinados com os resultados do primeiro. O resultado carado primeiro se
combinará com os dois resultados do segundo, e, da mesma forma, o resultado coroa do primeiro
se combinará com os dois resultados do segundo. Dessas combinações resultam quatro eventos
complementares, no entanto, os resultados do terceiro lançamento serão combinados com os
quatro resultados obtidos dos dois primeiros lançamentos, resultando agora em oito resultados
complementares. A Figura 1, a seguir, apresenta a árvore de possibilidades do experimento
de três lançamentos de uma moeda. O espaço amostral (S) pode ser representado assim:
Estatística Aplicada62
S = {E1,E2,…,Ei,…,E8}. É de supor que cada resultado experimental tenha probabilidade de
1
8
de
acontecer, pois se trata de uma moeda honesta (LAPPONI, 2005).
Figura 1 – Resultados experimentais para três lançamentos de moeda honesta
Cara
Cara
Cara
Cara
Cara
Cara
Cara
Coroa
Coroa
Coroa
Coroa
E1
E2
E3
E4
E5
E6
E7
E8
Coroa
Coroa
Coroa
Fonte: Elaborada pelo autor.
Avançando sobre algumas propriedades de probabilidades, retomemos o conceito original
de probabilidade: é uma medida numérica da possibilidade de um evento acontecer, representada
por um número entre 0 e 1: 0 < P(A) < 1. Quando P(A) = 1, o evento A acontecerá com
certeza, e, por isso, chamamos esse tipo de situação de evento certo. Em contrapartida, quando
P(A) = 0, o evento não acontecerá, e, por isso, chamamos esse tipo de situação de evento impossível
(BUSSAB; MORETTIN, 2014).
Outro conceito de interesse é o de evento complementar (ou complemento), que consiste
em todos os resultados experimentais possíveis que não satisfazem o evento. Suponha, por
exemplo, um evento A. O evento complementar de A são todos os resultados que não satisfazem A.
Ele também pode ser chamado de complemento de A e pode ser representado por A’ ou AC.
A Figura 2, a seguir, apresenta uma representação visual do experimento E, do evento A e do
evento complementar A’. Está evidente que P(A) + P(A’) = 1, pois a probabilidade de acontecer
A mais a probabilidade de não acontecer A precisa resultar na totalidade de eventos possíveis.
Figura 2 – Experimento E, evento A e evento complementar A’
E
A’
A
Fonte: Elaborada pelo autor.
Noções de probabilidade 63
Outro conceito que é comumente empregado para fins de cálculo de probabilidade é o de
evento composto. Trata-se de qualquer evento que combine dois ou mais eventos simples (evento
simples é cada resultado experimental). Por exemplo, obter face 2 no lançamento de um dado é
um evento simples, mas obter faces ímpares (1, 3 ou 5) é uma combinação de três eventos simples,
portanto é um evento composto.
4.1.1 A regra da adição
Suponha que, em uma faculdade fictícia, discentes (brasileiros ou estrangeiros) possam
se matricular em esportes para cumprir com sua carga de atividades extracurriculares. Para um
semestre, o número de matrículas está dado pela Tabela 2, a seguir.
Tabela 2 – Discentes matriculados em esportes na faculdade fictícia
Brasileiros (B) Estrangeiros (E) Total
Futebol (F) 65 35 100
Vôlei (V) 10 10 20
Judô (J) 5 15 20
Xadrez (X) 15 5 20
Total 95 65 160
Fonte: Elaborada pelo autor.
Nesse exemplo, está evidente que a probabilidade de um estudante escolhido ao acaso ser
brasileiro é de P (B) = 95
160
, pois são 95 estudantes brasileiros em um total de 160 estudantes.
Por outro lado, a probabilidade de um estudante escolhido ao acaso ter escolhido vôlei como esporte
é de P (V) = 20
160
, pois são 20 estudantes que escolheram vôlei em um total de 160 estudantes.
Por sua vez, para saber quantos estudantes são brasileiros ou escolheram vôlei
(a nomenclatura é esta: P (B ∪ V), com ∪ sendo o sinal de união), não se pode apenas somar as
probabilidades de ser brasileiro e de ter escolhido vôlei, pois, se assim procedêssemos, estudantes
brasileiros e que escolheram vôlei contariam duplamente: uma vez por serem brasileiros e outra
vez por terem escolhido vôlei. Dessa forma, estudantes brasileiros e que escolheram vôlei devem
ser contabilizados apenas uma vez para fins do cálculo da probabilidade.
A probabilidade, então, de escolher estudantes brasileiros ou que escolheram vôlei pode ser
assim representada:
P (B ∪ V) = P (B) + P (V) – P (B ∩V) =
95
160
20
160
10
160
105
160
� � �
A nomenclatura de P (B ∩ V), com ∩ sendo o sinal de intersecção, significa estudantes
brasileiros e que escolheram vôlei. Portanto, são dez os estudantes que se encaixam nessa descrição.
A regra da adição pode ser assim descrita, considerando eventos A e B:
P (A ∪ B) = P (A) + P (B) – P (A ∩ B)
ou
P (A ou B) = P (A) + P (B) – P (A e B)
Estatística Aplicada64
Está evidente que, para eventos mutuamente excludentes, não haverá intersecção e, portanto,
P (A ∩ B) = 0.
4.1.2 A regra do produto
Caso dois eventos, A e B, sejam independentes e de um mesmo espaço amostral, então, a
probabilidade de acontecer A e B é dada por P (A ∩ B) = P (A) × P (B). Lê-se: probabilidade de
A multiplicada pela probabilidade de B. Por exemplo, qual é a probabilidade de se obter (cara,
cara) em dois lançamentos de uma moeda? Supondo que cada lançamento seja independente
do outro lançamento e que a moeda seja honesta, a probabilidade de se obter cara no primeiro
lançamento é de 1
2
. Da mesma forma, obter cara no segundo lançamento é, também, de 1
2
. Assim,
a probabilidade de se obter (cara, cara) é dada por:
P (cara, cara) = P (cara, 1º lançamento) × P (cara, 2º lançamento) 1
2
1
2
1
4
� �
Em outro exemplo, suponha que uma atividade possa ser feita em duas etapas: a primeira
pode ser executada de p maneiras diferentes e a segunda pode ser executada de q maneiras
diferentes, então as duas podem ser realizadas simultaneamente de pq maneiras diferentes. Bussab
e Morettin (2014) chamam essa situação de princípio multiplicativo. O princípio multiplicativo
é particularmente útil quando o experimento que está sendo considerado é composto por duas
ou mais etapas, ainda que elas sejam múltiplas repetições, como no caso do lançamento de uma
moeda duas ou mais vezes. O princípio multiplicativo será abordado com mais detalhes à frente
neste capítulo.
4.2 Probabilidade condicional
As situações apresentadas anteriormente podem ser consideradas
probabilidades incondicionais, pois as únicas condições estabelecidas referem-se
ao próprio experimento (e não à condição dos eventos). No entanto, em alguns
casos, interessa rever a probabilidade de um evento, pois há informações adicionais
que podem afetar severamente o resultado. Isso acontece, por exemplo, quando
se sabe que o experimento tem uma ordenação de eventos para acontecer e esses
eventos não são independentes. Quando os eventos carregam alguma dependência
entre si, estaremos diante de experimentos cujas probabilidades são condicionais
(LAPPONI, 2005).
Suponha que um evento B dependa da realização do evento A: a
probabilidade condicional de A dado que B aconteceu é assim referida: P (A|B).
Lê-se: probabilidade de A dado B. Para seu cálculo, pode-se usar:
P A B
P A B
P B
P B| ,� � � �� �� � � �
� 0
De volta à Tabela 2, suponha que um estudante seja selecionado ao acaso e
tenha escolhido judô como esporte. Qual é a probabilidade de que esse estudante
Vídeo
Noções de probabilidade 65
seja estrangeiro? Perceba que, nesse caso, já se tem a informação de que o estudante escolheu judô,
portanto é possível nomear essa situação desta forma:
P E J
P E J
P J
| %� � � �� �� �
� � � �
15
160
20
160
15
20
3
4
75
P (E ∩ J) = estudantes estrangeiros e que escolheram judô = 15
160
P (J) = estudantes que escolheram judô = 20
160
Consideremos ainda o mesmo exemplo oriundo da Tabela 2: estudantes estrangeiros que
escolheram judô. Para entender o efeito condicional, se inspecionássemos apenas P (E), ou a
probabilidade de o estudante ser estrangeiro (sem a condição do judô), essa probabilidade seria de:
P (E) = 65
160
= 40,63%. Pode-se afirmar, então, que P(E) é a probabilidade a priori de E e, com a
informaçãoadicional de que J aconteceu, obtém-se a probabilidade a posteriori P (E|J). Vale notar
que, nesse caso, P (E|J) > P (E); portanto, a informação de que J aconteceu aumentou a chance de
E acontecer (BUSSAB; MORETTIN, 2014).
4.2.1 A teoria da confiabilidade
Para Bussab e Morettin (2014), um uso particular das probabilidades é para calcular
probabilidades de funcionamento (em contraposição de falha) de sistemas e seus componentes, por
exemplo, sistemas mecânicos (um automóvel), sistemas eletrônicos (um computador) ou sistemas
biológicos (um corpo humano). O objetivo da teoria da confiabilidade é estudar as relações entre
o funcionamento dos componentes e, assim, do sistema como um todo. A Figura 3, a seguir,
representa dois tipos mais usuais de sistemas. Em (a), está representado um sistema em série e, em
(b), está representado um sistema em paralelo, supondo, em ambos os casos, que os componentes
funcionem de forma independente.
Figura 3 – Teoria da confiabilidade: (a) sistema em série e (b) sistema em paralelo
1
1
2
2
(a)
(b)
Fonte: Elaborada pelo autor.
F é o evento de o sistema funcionar e Ai é o evento de o componente i funcionar.
O sistema da Figura 3a funcionará se os componentes 1 e 2 funcionarem simultaneamente. Se um
dos componentes falhar, o sistema também irá falhar. Supondo que os componentes funcionem
Estatística Aplicada66
independentemente, e se pi for a probabilidade de o componente i (i = 1,2) funcionar, então, a
probabilidade de o sistema funcionar será:
P (F) = P (A1 ∩ A2) = P (A1) × P (A2) = p1 p2,
Se os componentes 1 e 2 estiverem em paralelo, como na Figura 3b, então o sistema funcionará
se pelo menos um dos dois componentes funcionar. Essa situação pode ser assim representada:
P (F) = P (A1 ∪ A2) = P (A1) + P (A2) – P (A1 ∩ A2) = p1 + p2 – p1p2
Para fixar os conceitos, vamos analisar agora o caso apresentado na Figura 4, a seguir.
Figura 4 – Teoria da confiabilidade: exemplo de sistema
1
3
2
4
Fonte: Elaborada pelo autor.
Suponha que todos os componentes do sistema da Figura 4 tenham a mesma confiabi-
lidade p e funcionem de forma independente. Qual é a confiabilidade do sistema? (BUSSAB;
MORETTIN, 2014).
Primeiramente, procedemos com a resolução de um sistema equivalente à parte de 1 e 2.
Como os componentes 1 e 2 estão em série e cada qual tem confiabilidade p, o sistema equivalente
tem confiabilidade de p × p = p2.
Da mesma feita, também é possível calcular um sistema equivalente à parte de 3 e 4.
Igualmente, como os componentes 3 e 4 também estão em série e cada um tem confiabilidade p, o
sistema equivalente tem confiabilidade de p × p = p2.
Assim, com as simplificações adotadas, obtém-se um sistema equivalente ao apresentado na
Figura 5, a seguir.
Figura 5 – Teoria da confiabilidade: exemplo de sistema (cont.)
p2
p2Fonte: Elaborada pelo autor.
Noções de probabilidade 67
Resulta que, agora, estamos diante de um sistema em paralelo com cada componente sendo
equivalente à confiabilidade de p2. Da fórmula de sistema em paralelo, temos: P (F) = p2 + p2 – (p2 × p2).
Simplificando, P (F) = 2p2 – p4. E, por fim, obtém-se:
P (F) = p2(2 – p2)
4.3 Teorema de Bayes
Para classificar participantes de um curso, uma faculdade fictícia aplica
uma prova escrita, e, a partir da nota obtida nessa avaliação, os participantes são
classificados em: 20% nota A, 50% nota B e 30% nota C. No entanto, uma consultoria
externa sugeriu que, no lugar da prova escrita (para evitar a impressão dos testes),
apenas uma entrevista poderia ser conduzida, sem perder qualidade na avaliação.
No processo de transição dos métodos, neste semestre, antes de realizarem a prova
escrita, os participantes passaram pela entrevista e receberam um parecer: passou
(P) ou não passou (PC). Após a realização da prova escrita, os resultados obtidos
foram:
P (P|A) = 0,80 (probabilidade de passar na entrevista, sendo que obteve nota
A na prova escrita)
P (P|B) = 0,50 (probabilidade de passar na entrevista, sendo que obteve nota B
na prova escrita)
P (P|C) = 0,20 (probabilidade de passar na entrevista, sendo que obteve nota
C na prova escrita)
Receoso de que o novo método possa ser injusto, o diretor da faculdade
fictícia questiona: qual é a probabilidade de o participante que passou na entrevista
ter obtido nota C na prova escrita?
Outra maneira de ler a pergunta é: qual é a probabilidade de o participante
ter obtido nota C, dado que ele passou na entrevista? Ou:
P (C|P)
P (C) = probabilidade de nota C
P (P) = probabilidade de passar na entrevista
Trata-se de uma probabilidade condicional. Para ajudar a resolver esse tipo
de situação, pode-se recorrer ao Teorema de Bayes, que descreve a probabilidade de
um evento com base em um conhecimento a priori tendo em vista novas evidências
para obter probabilidades a posteriori.
Supondo os eventos A e B, Bayes enuncia assim a probabilidade de que
aconteça A, dado que já aconteceu B:
P A|B
A B
P B
P A P B|A
P B
� � � �� �� �
�
� �� � �
� �
Vídeo
Estatística Aplicada68
P (A|B) = probabilidade de acontecer A, dado que já aconteceu B
P (A) = probabilidade de acontecer A
P (B|A) = probabilidade de acontecer B, dado que já aconteceu A
P (B) = probabilidade de acontecer B
De volta ao exemplo do curso fictício, o diretor da faculdade fictícia quer conhecer P (C|P).
Por meio do enunciado de Bayes, esse cálculo pode assim ser expresso:
P C|P
C P
P P
P C P P|C
P P
� � � �� �� �
�
� �� � �
� �
P (C) = 0,30 (do enunciado, 30% são classificados como nota C)
P (P|C) = 0,20 (do enunciado, 20% passam na entrevista, sendo que obtiveram nota C)
A probabilidade de um participante passar na entrevista, P(P), pode ser calculada por meio
de uma árvore de probabilidades, como a apresentada na Figura 6, a seguir. A, B e C são as notas na
prova escrita. P significa a aprovação na entrevista e PC significa reprovação na entrevista.
Figura 6 – Árvore de probabilidades do curso fictício
0,20
0,50
0,30
0,80
0,20
0,50
0,50
0,20
0,80
A
P
P
P
Pc
Pc
Pc
B
C
Fonte: Elaborada pelo autor.
A partir da árvore de probabilidades, são calculadas as probabilidades de cada resultado
experimental possível. Para esse fim, a regra do produto é adotada, e os cálculos são apresentados
na Tabela 3, a seguir.
Tabela 3 – Probabilidades do curso fictício
Resultados Probabilidades
AP (0,20) × (0,80) = 0,16 = 16%
APC (0,20) × (0,20) = 0,04 = 4%
BP (0,50) × (0,50) = 0,25 = 25%
BPC (0,50) × (0,50) = 0,25 = 25%
CP (0,30) × (0,20) = 0,06 = 6%
CPC (0,30) × (0,80) = 0,24 = 24%
Fonte: Elaborada pelo autor.
Noções de probabilidade 69
Com os resultados da Tabela 3, fica mais fácil entender como calcular P (P), a probabilidade
de passar na entrevista. Nesse caso, usando a regra da adição, P (P) resulta em:
P (P) = P (AP) + P (BP) + P (CP) = 0,16 + 0,25 + 0,06 = 0,47
Com o cálculo de P (P), agora temos condições de calcular P (C|P) para o diretor da faculdade
fictícia, por meio do enunciado de Bayes:
P C|P
C P
P P
P C P P|C
P P
� � � �� �� �
�
� �� � �
� �
�
�
� �
0 30 0 06
0 47
0 1276 12 7, ,
,
, , 66%
Pelo resultado, apenas 12,76% dos participantes que passam pela entrevista receberam nota
C na prova escrita. Com procedimento similar, é possível calcular também P (A|P) = 34,04% e
P (B|P) = 53,20%. Esses resultados podem fornecer subsídios para ajudar na decisão de substituir
a prova escrita pela entrevista.
Para fixar os conceitos do Teorema de Bayes, considere agora esta situação: um teste
antidoping para atletas tem taxa de 5% de falso positivo (resulta em positivo quando deveria
resultar em negativo) e taxa de 10% de falso negativo (resulta em negativo quando deveria resultar
em positivo). Dos atletas testados, 4% têm feito, de fato, uso da droga proibida. Se um atleta testa
positivo, qual é a probabilidade de que ele realmente tenha usado a droga?
Para proceder com a solução da situação apresentada, será necessário identificar e descrever
os resultados experimentais possíveis.Para esse fim, a Figura 7 apresenta a árvore de possibilidades
desse experimento.
Figura 7 – Árvore de possibilidades para teste antidoping
0,04 Droga
0,96 Não droga
0,9
0,1
0,05
0,95
Positivo
Positivo
Negativo
Negativo
Fonte: Elaborada pelo autor.
O que queremos descobrir é: P(Droga|Positivo). Perceba que:
P Droga
P Positivo
P Positivo
� � �
� � � � � � �
0 04
0 04 0 9 0 96 0 05 0 084
,
, , , , ,
||
|
|
Droga
P Droga Positivo
P Droga P Positivo Droga
P
� � �
� � � � �� � �
0 9,
PPositivo� �
�
�
�
0 04 0 9
0 084
0 4285, ,
,
,
Estatística Aplicada70
A probabilidade, portanto, de que o atleta realmente tenha usado a droga proibida é
de 42,85%.
Considerações finais
Os modelos probabilísticos levam em consideração o fenômeno de interesse, também
chamado de experimento. A correta definição do experimento é crítica para o cálculo de
probabilidades. Por exemplo, a probabilidade de retirar duas bolas brancas de uma caixa com dez
bolas, sendo cinco brancas e cinco pretas, é diferente se o experimento determinar reposição ou
não da primeira bola retirada.
A seguir, convém entender qual é o espaço amostral com todos os resultados experimentais
possíveis. Após a identificação e descrição dos resultados experimentais possíveis, procede-se com
o cálculo da probabilidade de cada resultado, consoante com o que se deseja saber. Uma maneira
de se prosseguir com essa identificação e descrição é por meio de árvores de possibilidades ou
árvores de probabilidades. Complementarmente, a soma e/ou o produto de probabilidades podem
ser postos em prática, de acordo com o que se pretende. Para probabilidades condicionais, o uso do
Teorema de Bayes é recomendável.
Nesse contexto, o cálculo de probabilidades é um excelente aliado para a tomada de decisão,
pois a sorte, o azar, o chute, a intuição e muitos dos sentimentos subjetivos abrem lugar aos aspectos
lógicos e racionais. Não se nega que nosso cotidiano seja envolto de muitos fenômenos que ainda
não conseguimos explicar ou sistematizar, porém tomar decisões com base nas probabilidades,
como afirmado anteriormente, torna as decisões um pouco menos questionáveis, pois o raciocínio
lógico pode ser sistematizado e explicado.
Ampliando seus conhecimentos
• HARDIGREE, M. O que realmente significa haver uma chance de 50% de chuva?
Gizmodo Brasil, São Paulo, 19 ago. 2016. Disponível em: https://gizmodo.uol.com.br/
probabilidade-de-precipitacao/. Acesso em: 26 maio 2019.
É comum escutarmos no noticiário que há “50% de chance de chover amanhã” e,
imediatamente, imaginamos que há chance de um para dois de chover. O autor desta
matéria desmistifica e argumenta que não é bem assim. Ele apresenta o cálculo adotado
atualmente para se chegar aos tais “50% de chance de chover”, o que comprova que, mesmo
para assuntos menos tangíveis, como a previsão do tempo, pode existir a racionalidade
dos números por meio da probabilidade.
Noções de probabilidade 71
• JOSÉ, G.; PAFUMI, N. Matemático da UFMG calcula as chances de sucesso na montagem
do álbum da Copa. UFMG: Universidade Federal de Minas Gerais, Belo Horizonte, 24
abr. 2018. Disponível em: https://ufmg.br/comunicacao/noticias/pesquisador-da-ufmg-
calcula-probabilidades-de-figurinhas-da-copa-1. Acesso em: 26 maio 2019.
A cada edição da Copa do Mundo de futebol, renova-se a tradição de colecionar figurinhas
para tentar completar o álbum de jogadores. E até nisso está a probabilidade. Qual é a
chance de sucesso (completar o preenchimento do álbum)? Quanto se gasta para conseguir
completar o álbum? No vídeo, o professor Gilcione Costa apresenta um argumento que
vai surpreender com a conta das chances de sucesso, em reais e em número de pacotes de
figurinhas necessários.
Atividades
1. No lançamento de dois dados, qual é a probabilidade de saírem faces iguais?
2. Uma caixa tem três bolas brancas e duas bolas pretas. Extraindo-se duas bolas,
simultaneamente, calcule a probabilidade de serem:
a) uma de cada cor; e
b) ambas da mesma cor.
3. Em uma região remota, há a ocorrência de uma enfermidade rara e sobre a qual
pesquisadores têm estudado. Nessa região, o número de indivíduos do gênero masculino
pode ser considerado igual ao número de indivíduos do gênero feminino. Constatou-se que
5% dos indivíduos do gênero masculino são acometidos por essa enfermidade, enquanto
que, para o gênero feminino, esse número chega a apenas 0,25%. Supondo que uma pessoa
seja selecionada ao acaso, constata-se que ela possui tal enfermidade. Nesse contexto, qual é
a probabilidade de que ela seja do gênero feminino?
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia.
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
5
Distribuições de probabilidade
No capítulo anterior, foram apresentados conceitos e maneiras para calcular probabilidades
de alguns tipos de fenômenos. Relembrando, probabilidade é uma medida numérica da
possibilidade de um fenômeno acontecer e sinaliza o grau de incerteza associado a esse fenômeno
de interesse. Os casos analisados versaram sobre probabilidades mais simples, mas também sobre
casos de probabilidades condicionais.
Neste capítulo, avançaremos com situações de complexidade ampliada. O primeiro caso será
a inspeção de probabilidade de variável aleatória discreta e do conceito de esperança matemática.
Esse conceito é muito útil para o nosso dia a dia. Suponha, por exemplo, que um jogo de sorte pague
a você R$ 10,00 caso acerte a face de um dado antes de seu lançamento. Para participar desse jogo,
você precisa pagar R$ 3,00: será que vale a pena participar? Suponha agora que proponham
que você precise pagar apenas R$ 1,50 para participar: e agora, vale a pena? Menos do que depender
apenas da sorte ou da intuição, o conceito de esperança matemática ajuda a decidir se vale a pena
ou não participar desse tipo de situação de forma racional. Há ciência por trás de uma decisão
como essa!
Também serão discutidas probabilidades de algumas distribuições especiais. Pensemos em
aplicações cujos fenômenos são do tipo sucesso ou insucesso: por exemplo, em vários lançamentos
de um dado, sucesso pode significar tirar a face 2, e é possível estimar essa probabilidade de vários
lançamentos consecutivos.
Ou ainda, suponha que exista determinada característica de interesse em uma população.
Por exemplo, de um lote de cem peças, três estão com defeitos. Retirando-se oito peças do lote ao
acaso, qual é a chance de que pelo menos uma peça esteja defeituosa?
Por fim, imagine uma central telefônica de atendimento ao cliente: qual é a probabilidade
de que cheguem três chamadas nos próximos 15 minutos? Esses são alguns exemplos do nosso
cotidiano nos quais as distribuições especiais – Bernoulli, binomial, hipergeométrica e Poisson –
contribuem para o cálculo de probabilidades.
Neste capítulo, veremos como calcular a probabilidade de um evento ou de um conjunto de
eventos com distribuição específica e como refinar a tomada de decisão gerencial por meio desse
cálculo.
É comum que, em nosso dia a dia, queiramos recorrer às probabilidades para tomar decisões.
Desde situações simples, como levar ou não o guarda-chuva dependendo da probabilidade de
chuva para aquele dia, até situações muito mais complexas, como a decisão acerca da abertura de
uma nova planta industrial em Recife para atender ao mercado nordestino.
Estatística Aplicada74
Esses casos mais complexos podem ser divididos em dois grupos: (1) probabilidades de
variáveis aleatórias discretas e (2) distribuições de probabilidades específicas.
Para o caso de probabilidades de variáveis aleatórias discretas, o interesse recai em
calcular o valor esperado para um experimento (fenômeno de interesse), com base nas
probabilidades de ocorrênciade cada estado possível. Voltemos ao exemplo do jogo de sorte
que pague a você R$ 10,00 caso acerte a face de um dado antes de seu lançamento. Nesse caso,
os estados possíveis são: face 1, 2, ..., 6, com probabilidade de 1
6
�
�
�
�
�
� de acontecer cada estado.
Supondo que esse jogo se repita várias vezes, você ganhará R$ 10,00 apenas em 1
6
�
�
�
�
�
� das vezes
e R$ 0 em 5
6
�
�
�
�
�
� das vezes. Isso significa que, após várias repetições, esse jogo lhe renderá, na
média: R$ 10 × 1
6
�
�
�
�
�
� = R$ 1,67. Portanto, supondo que você tenha que pagar para participar do
jogo, qualquer valor acima de R$ 1,67 pressupõe que não valerá a pena para você, pois o valor
esperado para você ganhar, após várias repetições, é de apenas R$ 1,67. Para valores de entrada
menores do que R$ 1,67, objetivamente, você tem mais probabilidade de se dar bem!
Outro exemplo da aplicação das probabilidades é de eventos binários, do tipo sucesso ou
fracasso (distribuição de Bernoulli). Esse tipo de exemplo já foi inspecionado no capítulo anterior:
suponha que um evento de sucesso seja tirar a face 2 no lançamento de um dado. Qualquer face
que não seja 2 implica fracasso. Para um único lançamento do dado, ficam evidentes quais são
as probabilidades de sucesso 1
6
�
�
�
�
�
� e de fracasso
5
6
�
�
�
�
�
�. Porém, quando esse tipo de evento se repete por
muitas vezes (imagine mais de mil repetições), como calcular a probabilidade? Esse caso será
inspecionado na distribuição binomial.
Outro caso de interesse é quando, em determinada população, há um atributo que acontece
em uma parte dessa população. Voltemos ao exemplo de um lote de 100 peças, dentre as quais
três estão sistematicamente com defeitos. É compreensível, por exemplo, que o responsável pela
expedição queira saber, ao retirar oito peças de um lote ao acaso, qual é a probabilidade de que
pelo menos uma peça esteja defeituosa. Esse tipo de situação é comum em área de qualidade, pois
existe certa tolerância quanto a peças com defeito, mas, evidentemente, dentro de determinados
parâmetros. Neste capítulo, conseguiremos calcular esse tipo de probabilidade, que será referida
como distribuição hipergeométrica.
Por fim, também será inspecionado um caso curioso e bastante recorrente em nosso cotidiano.
Alguns fenômenos acontecem segundo uma distribuição de probabilidade bem particular, a
distribuição de Poisson. Essa distribuição indica a probabilidade de um (ou mais) evento(s)
acontecer(em) em um determinado tempo ou espaço, quando esse(s) evento(s) acontece(m) de
forma independente da última ocorrência. Suponha, por exemplo, uma fila de banco: a chegada
do próximo cliente não depende da chegada do anterior. Saber estimar esse tipo de probabilidade
ajuda a dimensionar o número de caixas de atendimento ao público, o que é muito útil para a
tomada de decisão gerencial. A seguir, serão apresentados mais detalhes de todos esses casos.
Distribuições de probabilidade 75
5.1 Valor médio de variável aleatória discreta
Uma variável é considerada aleatória discreta quando os estados possíveis
são valores dentro de um conjunto finito ou enumerável. Para os casos em que os
estados possíveis não são valores dentro de um conjunto finito ou enumerável, a
variável é chamada de aleatória contínua (FARIAS; LAURENCEL, 2008). Neste
capítulo, serão inspecionadas as variáveis aleatórias discretas.
Suponha que um empresário pretenda vender computadores especiais. Esses
computadores são formados por duas partes, hardware especial e software especial,
as quais são compradas de fornecedores diferentes: fornecedor de hardware
especial (H) e fornecedor de software especial (S). Tanto hardware especial quanto
software especial podem chegar com algum tipo de defeito, mas isso somente é
observável depois da instalação do software especial no hardware especial. No
desenvolvimento de seu plano de negócios, o empresário quer ter uma ideia da
viabilidade de seu empreendimento e, portanto, precisa estimar a distribuição de
lucro por computador especial montado.
Cada componente, hardware especial ou software especial, pode ser
classificado como: perfeito funcionamento (F), defeito corrigível (C) ou defeito
irrecuperável (I). Cada componente, hardware especial ou software especial,
é adquirido por R$ 5.000,00, e as probabilidade de ocorrência de F, C ou I são
apresentadas na Tabela 1, a seguir.
Tabela 1 – Probabilidades de ocorrência dos eventos possíveis
Hardware especial (H) Software especial (S)
Perfeito funcionamento (F) 80% 70%
Defeito corrigível (C) 10% 20%
Defeito irrecuperável (I) 10% 10%
Fonte: Elaborada pelo autor.
A distribuição de eventos possíveis está representada na forma de árvore de
probabilidades na Figura 1, a seguir.
Figura 1 – Distribuição de probabilidade de eventos possíveis
80%
10%
10%
70%
70%
70%
20%
20%
20%
10%
10%
10%
Hardware F
Hardware C
Hardware I
Software F
Software F
Software F
Software C
Software C
Software C
Software I
Software I
Software I
Fonte: Elaborada pelo autor.
Vídeo
VERIFICAR VÍDEO
ESTÁ LINKANDO
PARA O VÍDEO DA
SEÇÃO 5.5
Estatística Aplicada76
No computador especial final, se um dos componentes apresentar defeito irrecuperável
(I), o computador especial inteiro precisa ser descartado e, nesse caso, apenas resta vendê-lo, por
peso, como entulho. Nessa operação, consegue-se vendê-lo por R$ 5.000,00. Para o computador
especial final com algum componente com defeito corrigível (C), será possível solicitar a
correção ao fornecedor, mas, nesse caso, tanto o fornecedor de hardware especial quanto o de
software especial cobram uma taxa adicional de R$ 5.000,00. O empresário pretende vender o
computador especial por R$ 25.000,00. A Tabela 2, a seguir, apresenta a distribuição de lucro
para cada evento possível.
Tabela 2 – Distribuição de lucro para cada evento possível
Eventos possíveis
Probabilidade de
ocorrência
Receita Custo Lucro
P(HF SF) 80% × 70% = 56% R$ 25.000,00 R$ 10.000,00 R$ 15.000,00
P(HF SC) 80% × 20% = 16% R$ 25.000,00 R$ 15.000,00** R$ 10.000,00
P(HF SI) 80% × 10% = 8% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
P(HC SF) 10% × 70% = 7% R$ 25.000,00 R$ 15.000,00** R$ 10.000,00
P(HC SC) 10% × 20% = 2% R$ 25.000,00 R$ 20.000,00** R$ 5.000,00
P(HC SI) 10% × 10% = 1% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
P(HI SF) 10% × 70% = 7% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
P(HI SC) 10% × 20% = 2% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
P(HI SI) 10% × 10% = 1% R$ 5.000,00* R$ 10.000,00 R$ –5.000,00
* computador especial final será vendido como entulho.
** custo adicional com defeito corrigível.
Fonte: Elaborada pelo autor.
É de notar que os estados possíveis para o lucro são: R$ 15.000,00, R$ 10.000,00, R$ 5.000,00
e R$ –5.000,00. A Tabela 3, a seguir, apresenta a distribuição de probabilidades para os estados
possíveis do lucro dessa operação. Perceba que, nesse caso, a variável aleatória discreta é lucro.
Tabela 3 – Distribuição de probabilidades da variável aleatória discreta lucro
Lucro (X) Probabilidade: P(x)
R$ 15.000,00 56%
R$ 10.000,00 16% + 7% = 23%
R$ 5.000,00 2%
R$ –5.000,00 8% + 1% + 7% + 2% + 1% = 19%
Total 56% + 23% + 2% + 19% = 100%
Fonte: Elaborada pelo autor.
Supondo que o empresário inicie as operações de seu negócio, é de se esperar que ele monte
e venda muitos computadores. O valor esperado de lucro dessa operação, por computador, pode
ser expresso por:
Valor esperado ou esperança matemática = x pi i
i
n
�
�
�
1
Distribuições de probabilidade 77
Onde:
xi = estado possível i
pi = probabilidade de ocorrência do estado i
O cálculo do valor esperado do lucro de cada computador especial vendido pode ser assim
enunciado (valores em R$ mil):
E (x) = R$ 15 × 56% + R$ 10 × 23% + R$ 5 × 2% + (R$-5) × 19% = R$ 9,85
Esse é o conceito de valor esperado ou esperança matemática (E). Sua interpretação
remonta ao lucro esperado para cada computador quando esse experimento se repete por muitas
vezes. Deoutra maneira, se apenas um computador fosse montado e vendido, é evidente que
não há como o lucro ser de R$ 9.850,00. Mas, ao longo da operação, em repetidas vendas de
computadores especiais finais, espera-se que essa operação resulte em lucro de R$ 9.850,00 por
computador. Matematicamente, é o cálculo da média ponderada: cada evento possível tem peso
equivalente à sua probabilidade de ocorrência. A esperança matemática pode ser interpretada
como o centro de gravidade da distribuição de probabilidades (FARIAS; LAURENCEL, 2008).
Assim como discutido em capítulos anteriores, a esperança matemática (E) é uma medida
de posição e pode ser igual em dois fenômenos (lembrar conceito de média), mas é possível que
dois fenômenos muito diferentes tenham a mesma esperança matemática, como está representado
na Figura 2, a seguir.
Figura 2 – Fenômenos diferentes com mesma esperança matemática e dispersões diferentes
0,35
0,25
0,15
0,05
0
1 2 3 4 5 6 7 8 9
0,2
0,1
0,3
0,35
0,25
0,15
0,05
0
1 2 3 4 5 6 7 8 9
0,2
0,1
0,3
Fonte: Elaborada pelo autor.
Estatística Aplicada78
Portanto, analisar apenas a esperança matemática (E) pode levar a decisões ruins se não
entendermos como está a heterogeneidade (oscilação, dispersão) daquele fenômeno. Nesse
sentido, as medidas de dispersão que são comumente calculadas para esse tipo de experimento
são: a variância e, consequentemente, o desvio padrão. Considerando que a variância é a média
dos desvios ao quadrado, o conceito de esperança matemática (E) pode ser utilizado para calcular
a variância e o desvio padrão de uma variável aleatória (LAPPONI, 2005).
A unidade de medida da variância é o quadrado da unidade de medida da variável aleatória
em estudo: por exemplo, se estamos inspecionando a altura de uma equipe de basquete, a unidade
do fenômeno será em metros (m) e a unidade da variância será em metros quadrados (m2), ou
seja, uma unidade sem significado físico. Nesse contexto, o desvio padrão corrige essa distorção,
ao fornecer o resultado na mesma unidade em que os dados foram originalmente disponibilizados.
Variância e desvio padrão para a variável aleatória em estudo podem ser assim calculados:
var (x) x E x p
dp x = var x
i
i
n
i� � � ��� �� �
� � � �
�
�
1
2
Para o exemplo do empresário que vende computadores especiais, o desvio padrão pode ser
assim representado (valores em R$ mil):
Desvio padrão =
15 9 85 0 56 10 9 85 0 23 5 9 85 0 02 5 9 852 2 2�� � � � �� � � � �� � � � �� ����, , , , , , , ��� � �
2
0 19 7 57, $ ,R
Tomemos agora outro exemplo teórico para entender o cálculo da esperança matemática
(E), variância e desvio padrão de variável aleatória discreta. Suponha que exista um fenômeno em
que os valores possíveis de ocorrência sejam: –1, 0, 1 ou 3 (adimensionais), com probabilidade de
ocorrência de 2
5
para o valor –1 e com probabilidade de ocorrência de 1
5
para os demais valores.
A Tabela 4, a seguir, apresenta a distribuição de probabilidade para esse fenômeno.
Tabela 4 – Distribuição de probabilidade do fenômeno X
x –1 0 1 3
P (x)
2
5
1
5
1
5
1
5
Fonte: Elaborada pelo autor.
Aproveite esse exemplo mais simples para confirmar se você entendeu os cálculos do valor
esperado ou esperança matemática (E), variância e desvio padrão. Faça uma pausa na leitura e
tente calculá-los.
Distribuições de probabilidade 79
Acompanhe os cálculos do valor esperado ou esperança matemática (E):
E x� � � �� �� � � � � � � � �� �� � �1 2
5
0 1
5
1 1
5
3 1
5
0 4 0 2 0 6 0 4, , , ,
E, agora, da variância e do desvio padrão:
var = [(–1) –0,4]2 × 0,4 + (0 – 0,4)2 × 0,2 + (1– 0,4)2 × 0,2 + (3 – 0,4)2 × 0,2 =
0,784 + 0,032 + 0,072 + 1,352 = 2,24
dp = DP = =2 24 1 50, ,
Há algumas propriedades do valor médio ou esperança matemática que podem ser de
interesse. Medeiros (2012) enuncia que:
1. A média de uma constante é a própria constante:
E (k) = k
2. Multiplicando-se uma variável aleatória x por uma constante k, seu valor esperado fica
multiplicado por essa constante:
E (kx) = kE (x)
3. A média da soma ou da diferença de duas variáveis aleatórias é, respectivamente, a soma
ou diferença das médias:
E (x ± y) = E (x) ± E (y)
4. A variância da soma ou da diferença de duas variáveis aleatórias é, respectivamente, a
soma ou diferença das variâncias:
var (x ± y) = var (x) ± var (y)
Para entendermos a aplicação, considere este exemplo: o peso médio de um grupo de
homens é de 82 kg e o desvio padrão é de 9 kg (portanto, a variância é de 81 kg2). Em outro grupo,
de mulheres, o peso médio é de 63,5 kg e o desvio padrão é de 6,8 kg (portanto, a variância é de
46,24 kg2). Se escolhermos um homem e uma mulher de seus respectivos grupos, qual será o valor
médio, a variância e o desvio padrão do peso da dupla?
E (h + m) = E (h) + E (m) = 82 + 63,5 = 145,5 kg
var (h + m) = var (h) + var (m) = 81 + 46,24 = 127,24 kg2
dpDP h+m kg� � � �127 24 11 28, ,
De maneira geral, o que se percebe é que o cálculo de probabilidades para a variável
aleatória discreta passa pela descrição (quando ela não é diretamente fornecida) da distribuição de
frequência dos eventos possíveis. Esperança matemática, variância e desvio padrão podem, então,
ser calculados. A seguir, serão apresentadas outras distribuições de probabilidades.
Estatística Aplicada80
5.2 Distribuição de Bernoulli
Eventos com distribuição de Bernoulli são tais que os resultados apresentam
ou não uma determinada característica de interesse. Quando o resultado é a
característica de interesse, afirmamos que se trata de um sucesso, e, do contrário,
será um fracasso.
Muitas situações do nosso cotidiano podem ser entendidas como eventos
com distribuição de Bernoulli, a depender de como são estabelecidas as condições
de interpretação. Bussab e Morettin (2014, p. 146) apresentam exemplos de como
se podem estabelecer tais condições de interpretação:
• Uma moeda é lançada: o resultado ou é cara, ou não (ocorrendo, então,
coroa); portanto cara é sucesso;
• Um dado é lançado: ou ocorre face 5 ou não (ocorrendo, então, uma das
faces 1, 2, 3, 4 ou 6); portanto face 5 é sucesso;
• Uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça
é defeituosa ou não; portanto ter defeito é sucesso (por mais estranho que
pareça!);
• Uma pessoa escolhida ao acaso dentre mil é ou não do gênero masculino;
portanto masculino é sucesso; ou
• Uma pessoa é escolhida ao acaso dentre os moradores de uma cidade e
verifica-se se ela é favorável ou não a um projeto municipal; portanto ser
favorável é sucesso.
É de notar, dessa forma, que sucesso não significa que algum resultado seja
melhor ou pior, mas apenas o resultado de interesse para o cálculo da probabilidade.
No exemplo 3, como o interesse é calcular a probabilidade de ocorrência de peças
defeituosas, define-se que ter defeito é o sucesso. Na mesma linha de raciocínio, no
exemplo 5, como o interesse é calcular a probabilidade de se escolher um homem
que seja favorável a um projeto municipal, define-se que ser do gênero masculino
é o sucesso. É evidente que não há nessa escolha nenhum caráter de discriminação,
apenas o interesse na probabilidade que se queira calcular.
Em termos matemáticos, podemos definir uma variável aleatória x, que
assume apenas dois valores: 1 para sucesso e 0 para fracasso. Se a probabilidade
de acontecer o evento sucesso puder ser definida como p, logo, P(sucesso) = p, com 0 <
p < 1 (lembrando que, para p = 0, será um evento impossível de acontecer, e, para
p = 1, será uma evento certo, caso em que não faz sentido calcular a probabilidade).
Portanto, é possível enunciar as probabilidades de sucesso e fracasso assim:
P(sucesso) = p
P(fracasso) = 1 – p
Vídeo
Distribuições de probabilidade 81
O valor esperado ou esperança matemática (E) de uma distribuição de Bernoulli pode ser
representado desta forma:
E (x) = p
Perceba que o valor esperado é a mesma probabilidade de ocorrência do evento de interesse,
portanto é a probabilidade desucesso.
Já a variância pode ser calculada deste modo:
var (x) x -E x p p p p pi
i
n
i� � ��� �� � � �� � �� � � �� �
�
�
1
2
2 20 1 1
= p2 (1 – p) + p (1 – p)2 = (1 – p) [p2 + p (1 – p)] = p (1 – p)
Logo:
var (X) = p (1 – p)
Experimentos com distribuição de Bernoulli são muito comuns em nosso cotidiano, porém
uma extensão desse tipo de experimento será ainda mais útil, como veremos a seguir.
5.3 Distribuição binomial
A distribuição binomial pode ser entendida como extensão da distribuição
de Bernoulli. Quando um experimento de Bernoulli (resultado do experimento
pode ser apenas sucesso ou fracasso) é repetido n vezes e os n resultados são
independentes, estaremos diante de um experimento com distribuição binomial.
Sob outra perspectiva, também podemos entender a distribuição de Bernoulli
como uma distribuição binomial quando n = 1.
Para exemplificar, retomemos o exemplo do lançamento de uma moeda
honesta. Sabe-se que os resultados possíveis são cara ou coroa. Suponha que
a moeda seja lançada três vezes: qual é a probabilidade de se obter duas caras
(BUSSAB; MORETTIN, 2014)?
Relembremos que, primeiramente, precisamos definir o que será o sucesso
desse experimento. No caso, arbitremos que P(sucesso) = P(cara) = p =
1
2
. Portanto,
estamos interessados na probabilidade de obter A = {SSF, SFS, FSS}, pois não
importa a sequência em que as duas caras são obtidas, sendo S = sucesso (com
probabilidade p) e F = fracasso (com probabilidade 1 – p):
P =P =P
P =P +P +P
SSF SFS FSS
A SSF SFS FSS
� � � �
� � � �
1
2
1
2
1
2
1
8
1
8
1
8
1
8
3
8
A Figura 3, a seguir, apresenta a árvore de distribuição de probabilidades
desse experimento.
Vídeo
Estatística Aplicada82
Figura 3 – Árvore de distribuição de probabilidades para três lançamentos de moeda honesta
p
p
p
p
p
p
p
1 – p
1 – p
1 – p
1 – p
1 – p
1 – p
1 – p
Sucesso p3
Sucesso
Sucesso
Sucesso
Fracasso
Fracasso
Fracasso
Sucesso p2 (1 – p)
Sucesso p2 (1 – p)
Sucesso p (1 – p)2
Fracasso p2 (1 – p)
Fracasso p(1 – p)2
Fracasso p(1 – p)2
Fracasso (1 – p)3
Fonte: Elaborada pelo autor.
E a Tabela 5, a seguir, apresenta a distribuição de probabilidades para cada número de
sucesso.
Tabela 5 – Distribuição de probabilidades para número de sucessos para três lançamentos de moeda
honesta
Número de sucessos Probabilidades p =
1
2
0 (1– p)3 1
8
1 3p(1– p)2 3
8
2 3p2(1– p) 3
8
3 p3 1
8
Fonte: Elaborada pelo autor.
Generalizando o raciocínio, para uma sequência de n repetições de Bernoulli, a probabilidade
de se obter x sucessos (e n – x fracassos), com x = 0, 1, 2, … , n, P(sucesso) = p e P(fracasso) = 1 – p, será
dada por:
Px
n
x
p px n-x�
�
�
�
�
�
� �� �� �1
Essa condição é válida apenas se cada repetição é independente.
Distribuições de probabilidade 83
Embora não procedamos com a demonstração do cálculo do valor esperado e da variância
de distribuições binomiais, é possível entendê-los como extensões da distribuição de Bernoulli,
para n repetições, e podem ser assim enunciados:
E (x) = np
var (x) = np (1–p)
5.4 Distribuição hipergeométrica
O uso da distribuição hipergeométrica é adequado quando extrações
(retiradas, seleções) são feitas, sem reposição, de uma população que está dividida
segundo um atributo A: parte da população tem o atributo A e a outra parte não
tem esse atributo A. Suponha que, em uma população de N indivíduos, r indivíduos
têm o atributo A e, portanto, N – r indivíduos não têm o atributo A. Suponha ainda
que, nessa população, n indivíduos são escolhidos ao acaso, sem reposição, e que x
indivíduos tenham o atributo A.
A distribuição hipergeométrica pode ser entendida como uma extensão
da distribuição binomial. A diferença repousa no fato de que, na distribuição
hipergeométrica, os ensaios não são independentes, de modo que a probabilidade
de sucesso se modifica a cada ensaio. Na mesma comparação, podemos considerar
que ter o atributo A é sucesso e não ter o atributo A é fracasso. Nesse contexto,
N
n
�
�
�
�
�
�
significa o número de maneiras diferentes pelas quais uma amostra de tamanho n
pode ser selecionada de uma população de tamanho N. Por sua vez,
r
x
�
�
�
�
�
� significa o
número de maneiras diferentes pelas quais indivíduos com o atributo A (sucesso)
podem ser selecionados de um total de indivíduos com o atributo A (sucesso) na
população. Por fim,
N r
n x
�
�
�
�
�
�
�
�significa o número de maneiras diferentes pelas quais
n – x indivíduos sem o atributo A (fracasso) podem ser selecionados de um total
de N – r indivíduos sem o atributo A (fracasso). Assim, a probabilidade de que x
indivíduos tenham o atributo A (sucesso) pode ser descrita como:
P
r
x
N r
n x
N
n
x �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
Onde:
N = tamanho da população
n = tamanho da amostra
r = indivíduos na população com o atributo A (sucesso)
x = indivíduos na amostra com o atributo A (sucesso)
Vídeo
Estatística Aplicada84
No entanto, são válidos valores de x apenas quando o número de sucessos observados for
menor ou igual ao número de sucessos na população (x ≤ r) e quando o número de fracassos
observados for menor ou igual ao número de fracassos na população (n – x ≤ N – r).
A média e a variância de uma distribuição hipergeométrica são calculadas assim:
E (x) = n r
N
var (x) = n
r
N
r
N
N n
N
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�1 1
Para entendermos sua aplicação, suponha que, em uma dada pesquisa, os participantes
foram solicitados a responder qual é seu esporte de preferência. Os dois mais votados foram futebol
e vôlei. Em um grupo com dez entrevistados, sete preferem futebol e três preferem vôlei. Desse
grupo, se tomarmos uma amostra com três pessoas, qual é a probabilidade de exatamente duas
preferirem futebol?
A probabilidade de exatamente dois indivíduos preferirem futebol é exatamente a mesma
probabilidade de um indivíduo preferir vôlei, mas o cálculo fica simplificado quando x = 1.
Portanto, vamos estabelecer como sucesso o indivíduo preferir vôlei.
Na população de N = 10 indivíduos, r = 3 preferem vôlei (sucesso). Na amostra de x = 3
indivíduos, queremos x = 1 indivíduo que prefere vôlei. A Figura 4, a seguir, representa essa situação.
Figura 4 – População e amostra para preferência esportiva, com um indivíduo que prefere vôlei na
amostra
3 1
7 2
N = 10 n = 3
Fonte: Elaborada pelo autor.
Portanto, o cálculo de exatamente um indivíduo preferir vôlei pode ser calculado por:
P1
3
1
7
2
10
3
3
2 1
7
5 2
10
7 3
21
40
0�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
!
! !
!
! !
!
! !
,5525 52 5� , %
Ainda no mesmo exemplo, qual é a probabilidade de a maioria (dois ou três indivíduos) da
amostra preferir futebol?
Distribuições de probabilidade 85
Da mesma feita, a probabilidade de dois ou três indivíduos preferirem futebol é a mesma
de um ou nenhum preferir vôlei. Como já calculamos a probabilidade de que na amostra tenhamos
um indivíduo que prefira vôlei, falta calcularmos a probabilidade de nenhum indivíduo preferir
vôlei. Essa situação é representada na Figura 5, a seguir.
Figura 5 – População e amostra para preferência esportiva, com nenhum indivíduo que prefere vôlei
na amostra.
3 0
7 3
N = 10 n = 3
Fonte: Elaborada pelo autor.
O cálculo é dado por:
P0
3
0
7
3
10
3
3
3 0
7
4 3
10
7 3
35
120
0�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
!
! !
!
! !
!
! !
,, , %2917 29 17�
Portanto, a probabilidade de a maioria (dois ou três indivíduos) da amostra preferir futebol
é a mesma de apenas um indivíduo ou nenhum indivíduo preferir vôlei. Como a probabilidade
de um indivíduo preferir vôlei é de 52,5% e a de nenhum indivíduo preferir vôlei é de 29,17%, a
probabilidade de um ou nenhum indivíduo preferir vôlei é de: 52,5% + 29,17% = 81,67%.
5.5 Distribuição de Poisson
A distribuição de Poisson é uma distribuição de probabilidade discreta
comumente aplicada a muitos casos práticosem que se queira calcular o número
de ocorrências ao longo de um intervalo de tempo ou de determinado ambiente
físico (chamado também de área de oportunidade). Por exemplo, podemos querer
saber a probabilidade de chegar um carro em um lava-rápido em uma hora, ou o
número de reparos necessários em 16 quilômetros de uma rodovia, ou o número de
vazamentos em 160 quilômetros de tubulação (SWEENEY et al., 2014).
Para que uma distribuição seja considerada de Poisson, o experimento deve
ter estas duas características:
• a probabilidade de uma ocorrência é a mesma para quaisquer dois
intervalos de igual comprimento (a probabilidade de chegar um cliente ao
banco das 10h às 10h30 e das 10h30 às 11h é a mesma); e
Vídeo
Estatística Aplicada86
• a ocorrência ou não ocorrência em qualquer intervalo é independente da ocorrência ou
não ocorrência em qualquer outro intervalo (a chegada de um cliente ao banco independe
da chegada de outro cliente a esse mesmo banco).
A distribuição de Poisson é caracterizada apenas pelo parâmetro λ (lê-se: lambda), que
significa o valor esperado ou esperança matemática (E) de ocorrências (pensemos em casos de
sucesso) em um intervalo de tempo ou de determinado ambiente físico. Assim, a probabilidade de
x ocorrências em um intervalo é dada por:
P = � e
x!x
x -�
Onde:
x = número de ocorrências em um intervalo (x ≥ 0)
λ = número esperado de ocorrências em um intervalo
e = 2,7182...
O valor esperado e a variância de uma distribuição de Poisson podem ser dados por:
E (x) = λ
var (x) = λ
Para entendermos sua aplicação, suponha que uma central de atendimento ao cliente receba
48 chamadas por hora. Qual é a probabilidade de receberem três chamadas em um intervalo de
cinco minutos?
Como recebem 48 chamadas em 60 minutos, por regra de três, em cinco minutos recebem
quatro chamadas:
48 chamadas está para 60 minutos
λ chamadas está para 5 minutos
Logo, λ = 4 chamadas
A probabilidade de receberem três chamadas em cinco minutos, portanto, pode ser
descrita assim:
P =3
3 44 2 72
3
0 1953 19 53,
!
, , %
�
� �
Nessa mesma central de atendimento ao cliente, qual é a probabilidade de receberem
dez chamadas em 15 minutos?
Como recebem 48 chamadas em 60 minutos, por regra de três, em 15 minutos recebem
quatro chamadas:
48 chamadas está para 60 minutos
λ chamadas está para 15 minutos
Logo, λ = 12 chamadas
Distribuições de probabilidade 87
A probabilidade de receberem 10 chamadas em 15 minutos, portanto, pode ser descrita
assim:
P =10
10 1212 2 72
10
0 1048 10 48,
!
, , %
�
� �
As distribuições de probabilidade específicas, como binomial, hipergeométrica e Poisson,
permitem entender e calcular probabilidades para muitas situações do nosso cotidiano,
possibilitando decisões mais qualificadas.
Considerações finais
O uso de probabilidades de variáveis discretas pode ser considerado comum em nosso dia a
dia e auxilia a tomada de decisão em situações que requeiram racionalização desse processo.
Os casos analisados neste capítulo incluem distribuições de variáveis aleatórias discretas,
das mais simples às mais complexas, como são os casos de distribuições de Bernoulli, binomiais,
hipergeométricas e de Poisson.
Para as distribuições de variáveis aleatórias simples, os cálculos mais importantes são os de
valor esperado ou esperança matemática, o de variância e, consequentemente, o de desvio padrão.
Eles podem ser calculados assim:
Valor esperado ou esperança matemática = x pi i
i = 0
n
��
var (x) x E x
dp x = Var x
i
i = 0
n
i� � � ��� �� �
� � � �
�
2
p
Os resultados remontam aos conceitos de média e desvio padrão enquanto medidas
de posição e dispersão. Além de um valor que represente o fenômeno de interesse, é importante
saber sobre a heterogeneidade (oscilação, dispersão) desse fenômeno para conseguir tomar
decisões melhores.
O Quadro 1, a seguir, apresenta um resumo do cálculo das probabilidades das distribuições
inspecionadas neste capítulo, valor esperado ou esperança matemática e variância.
Quadro 1 – Cálculo de probabilidade, valor esperado e variância de distribuições de variáveis aleatórias
discretas.
Modelo Px Ex varx
Bernoulli px (1 – p) (1–x), x ≥ 0 p p(1 – p)
Binomial
n
x
p p , x = 0,..., nx n-x
�
�
�
�
�
� �� �� �1 np np(1 – p)
Estatística Aplicada88
Hipergeométrica*
n
x
N r
n x
N
n
a b
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �, x n r
N
n r
N
r
N
N n
N
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�1 1
Poisson � e
x!
x -�
, x ≥ 0 λ λ
* com (x ≤ r) e (n – x ≤ N – r).
Fonte: Elaborado pelo autor.
Por fim, com base na compreensão de variados casos de probabilidade, caberá ao pesquisador
identificar como aplicar esses conceitos para tomar decisões melhores, mais racionais e lógicas e
com embasamento estatístico.
Ampliando seus conhecimentos
• RUPRECHT, T. Fertilização in vitro: as taxas de sucesso subiram muito. Saúde, 15 fev.
2019. Disponível em: https://saude.abril.com.br/familia/fertilizacao-in-vitro-as-taxas-de-
sucesso-subiram-muito/. Acesso em: 26 maio 2019.
Esta matéria apresenta a evolução das taxas de sucesso da fertilização in vitro da casa de
30% para até 50% nas clínicas brasileiras, a depender dos equipamentos e da capacitação
dos profissionais que assistem o casal. Por conta do uso de tecnologias mais inovadoras,
um estudo mostrou que o índice de sucesso pode chegar a até 66%. Nesse contexto,
engravidar é um típico evento de Bernoulli, conforme apresentado no capítulo.
• CLIENTES reclamam do não cumprimento da lei de tempo de espera em filas de bancos.
2018. 1 vídeo (2 min.). Publicado pelo canal G1. Disponível em: http://g1.globo.com/pe/
petrolina-regiao/videos/t/todos-os-videos/v/clientes-reclamam-do-nao-cumprimento-
da-lei-de-tempo-de-espera-em-filas-de-bancos/7016949/. Acesso em: 26 maio 2019.
• COMO os bancos, supermercados também devem respeitar tempo máximo de espera
na fila. 2013. 1 vídeo (4 min.). Publicado pelo canal G1. Disponível em: http://g1.globo.
com/pr/parana/videos/t/paranatv-1-edicao/v/como-os-bancos-supermecados-tambem-
devem-respeitar-tempo-maximo-de-espera-na-fila/2550767/. Acesso em: 26 maio 2019.
Os dois vídeos apresentam aquela desagradável experiência de esperar na fila. Do ponto de
vista do cliente, aquele que precisa do serviço, é evidente o desconforto, mas, analisando
do ponto de vista do banco ou do mercado, como estimar o número de profissionais para
atender aos clientes que chegam? Por um lado, todos os clientes precisam ser atendidos,
por outro, é necessário manter os custos controlados. A chegada de clientes ao banco ou
ao mercado pode ser comparada a uma distribuição de Poisson e, assim, será possível
estimar as probabilidades de ocorrência de eventos.
Distribuições de probabilidade 89
Atividades
1. Suponha que um amigo ofereça o seguinte jogo de sorte: 4% de chance de ganhar um prêmio
de R$ 100,00; 0,5% de chance de ganhar um prêmio de R$ 200,00; 0,1% de chance de ganhar
um prêmio de R$ 400,00. Ele afirma que, para participar desse jogo de sorte, você precisa
pagar R$ 6,00. Esse jogo vale a pena?
2. O proprietário de uma fazenda afirma que 95% das jacas vendidas por ele estão maduras.
Determine as probabilidades de que, dentre 18 jacas enviadas ao cliente...
a) todas as 18 estejam maduras.
b) ao menos 16 estejam maduras.
c) no máximo 14 estejam maduras.
Em seguida, calcule a média e a variância dessa distribuição.
3. Uma remessa de dez itens contém duas unidades com defeito e oito unidades sem defeito.
Na inspeção de embarque, uma amostra de unidades será selecionada e testada. Se pelo
menos uma unidade com defeito for encontrada, a remessa de dez unidades será rejeitada.
a) Se uma amostra de três itens for selecionada, qual é a probabilidade de a remessa ser
rejeitada?
b) Se uma amostra de quatro itens for selecionada, qual é a probabilidade de a remessa ser
rejeitada?
c) Se uma amostra de cinco itens for selecionada, qual é a probabilidade de a remessa ser
rejeitada?
ReferênciasBUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
FARIAS, A. M. L.; LAURENCEL, L. C. Variáveis aleatórias discretas. Niterói: Universidade Federal Fluminense,
2008. Disponível em: http://www.professores.uff.br/malbi/wp-content/uploads/sites/50/2017/08/VADiscretas.
pdf. Acesso em: 26 maio 2019.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
MEDEIROS, L. Variáveis aleatórias: esperança e variância. 25 abr. 2012. Notas de aula – Centro de Ciências
Exatas e da Natureza. Universidade Federal da Paraíba, João Pessoa, 2012. Disponível em: http://de.ufpb.
br/~luiz/CPEI/Aula7.pdf. Acesso em: 26 maio 2019.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia.
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
6
Inferência estatística: amostragem
Nos capítulos anteriores, vimos os conceitos de estatística descritiva e de probabilidade.
A estatística descritiva serve ao propósito de descrever um conjunto de dados e, para isso, promove o
cálculo de medidas de posição e de dispersão. A partir de uma compreensão sobre a homogeneidade
ou heterogeneidade de um conjunto de dados, é possível tomar decisões melhores sobre esse
conjunto. Por sua vez, a probabilidade permite identificar a chance de ocorrência de determinado
fenômeno de interesse. Há cálculos de probabilidade de situações consideradas simples (como o
lançamento de uma moeda ou de um dado), de probabilidade condicional (o que inclui o Teorema
de Bayes) e de probabilidade de variáveis aleatórias discretas (o que inclui probabilidades de
distribuições de Bernoulli, binomial, hipergeométrica e de Poisson). Algumas variáveis aleatórias
são chamadas de discretas, pois os estados possíveis dos resultados experimentais são conhecidos
e formam um conjunto finito ou enumerável de números, resultados, frequentemente, de
contagem (lembrar-se do conceito de variável quantitativa discreta – exemplo: número de filhos).
Neste capítulo, será aprofundado o conceito de variável aleatória contínua (lembrar-se do
conceito de variável quantitativa contínua – exemplo: altura). Em geral, as variáveis aleatórias
contínuas têm como estados possíveis valores que pertencem a um intervalo de números reais e
que são resultados de mensuração. A partir dessa compreensão, será possível avançar para o estudo
de modelos probabilísticos de variáveis aleatórias contínuas.
Nesse contexto, há um modelo de particular interesse, chamado de modelo normal, que
representa variáveis aleatórias contínuas, segundo algumas premissas a serem estudadas neste
capítulo. Este modelo permite produzir afirmações sobre uma população com base em uma
amostra. Essa técnica de produzir afirmações sobre o todo, com base em apenas uma parte do
todo, é conhecida como inferência estatística. Ela é muito importante, pois habilita pesquisas de
campo de forma rápida, econômica e viável, sendo muito utilizada em nosso dia a dia. Imagine,
por exemplo, uma pesquisa sobre intenção de votos. Se precisássemos inspecionar a intenção de
votos da população como um todo, a cada semana, para saber como a intenção se altera, seria um
trabalho demorado, caro e, até mesmo, inviável em algumas regiões ou ocasiões. Por outro lado, se
conseguíssemos chegar a um resultado aproximado, inspecionando apenas parte dessa população,
o ganho potencial seria enorme. E é nesse contexto que avançaremos com o estudo do modelo
normal e da inferência estatística.
Ao longo deste capítulo, vamos descrever o comportamento da variável aleatória contínua
normal, relacionar a curva normal com a inferência estatística e analisar as características de uma
boa amostra.
Estatística Aplicada92
6.1 Variável aleatória contínua normal
Segundo Bussab e Morettin (2014, p. 168), “a principal característica de uma
variável aleatória contínua é que, sendo resultado de uma mensuração, seu valor
pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente
observado”. Suponha que alguém afirme que seu peso é de 65 kg: presume-se que
o valor declarado, porque peso é uma variável aleatória contínua, na realidade, está
entre 64 kg e 66 kg, podendo ser 64,8 kg ou 65,1 kg. Perceba que isso difere do
conceito de variável aleatória discreta, oportunidade em que os valores possíveis
formam um conjunto finito ou enumerável de números, resultados, muitas vezes,
de contagem.
Assim como no exemplo anterior, o peso das pessoas em um país pode ser
considerado uma variável aleatória contínua. Outros exemplos incluem: altura (em
metros) das pessoas nesse país, tempo de vida útil (em horas, minutos e segundos)
de um equipamento eletrônico, demanda anual (em kg) de determinado produto a
granel e inúmeros outros em que os estados (valores) possíveis da variável pertençam
a um intervalo de números reais.
Tomemos o exemplo da altura (em metros) das pessoas em um país. Se
tivéssemos a oportunidade de mensurar e coletar as alturas das pessoas desse país,
após uma longa, cara e difícil jornada de pesquisa de campo, teríamos uma base de
dados bastante completa sobre essa variável de interesse (altura das pessoas).
Suponha que seu amigo acabe de assumir a comissão técnica da seleção de
hipismo desse país e queira saber: ao selecionar um indivíduo ao acaso nesse país,
qual é a probabilidade de que ele tenha menos do que 1,60 m de altura? Ele afirma
que indivíduos com baixa estatura são excelentes candidatos para essa atividade.
Para tentar ajudar seu amigo, você propõe o cálculo de medidas de posição
e medidas de dispersão e a representação de gráficos. É evidente que esse
procedimento é ótimo para descrever o conjunto de dados que tem em mãos,
mas, ainda assim, não consegue responder a seu amigo qual é a probabilidade
de que um indivíduo, escolhido ao acaso, tenha menos do que 1,60 m de altura.
Um dos gráficos, no entanto, chama sua atenção: o histograma com
frequência relativa. Hair Junior et al. (2005, p. 53) afirmam que “o ponto de partida
para o entendimento da natureza de qualquer variável é caracterizar a forma de
sua distribuição [...] muitas vezes, o pesquisador pode alcançar uma perspectiva
adequada sobre a variável por meio de um histograma”. Foram criadas classes para a
representação e um exemplo fictício pode ser observado na Figura 1, a seguir.
Vídeo
Inferência estatística: amostragem 93
Figura 1 – Histograma com frequência relativa da altura da população em um país fictício
0%
5%
10%
15%
20%
25%
157,5 158,5 159,5 160,5 161,5 162,5 163,5 164,5 165,5 166,5 167,5 168,5 169,5 170,5 171,5
Fonte: Elaborada pelo autor.
Algumas situações merecem destaque nesse histograma. A primeira delas é que parece haver
uma concentração de pessoas ao redor de um valor médio. No exemplo, ao redor de 1,63 m e 1,66 m,
mas sem a necessidade de sermos exatos em relação a isso. Além disso, parece haver menor
concentração de indivíduos nos extremos: pouquíssimas pessoas muito baixas ou muito altas.
Outra situação que merece atenção é esta: se conseguíssemos matematicamente definir
uma função que representasse a altura das pessoas nesse país, poderia ser possível calcular a
probabilidade de uma pessoa, ao ser escolhida ao acaso, ter menos de 1,60 m, conforme solicita seu
amigo. Infelizmente, no entanto, não há função que consiga modelar perfeitamente esse fenômeno.
A característica de muitos indivíduos ao redor de um valor médio e poucos indivíduos nos
extremos é muito comum em nosso cotidiano. Exemplos incluem: altura ou peso da população,
variação percentual de ativos ao longo de alguns meses, diâmetro de esferas em uma linha de
produção e salários pagos em uma região para determinado cargo, apenas para citar alguns.
Quando uma variável aleatória contínua apresenta as características de concentração de
indivíduos ao redor de um valor médio e poucos indivíduos nos extremos, ela é candidata a ser
aproximada a um caso especial de variável, que chamaremosde variável normal.
Essa aproximação à normal é conveniente, pois, sobre a variável normal, já existem muitas
condições conhecidas e calculadas, motivo pelo qual será possível recorrer diretamente a
essas condições e cálculos. Por outro lado, cabe ao pesquisador a ciência de aproximar um
fenômeno que não é perfeitamente normal à variável normal. A principal limitação repousa no
fato de que todos os resultados que serão obtidos apresentam apenas uma ordem de grandeza, ou
seja, não são resultados precisos, mas, em muitas situações, a ordem de grandeza já é suficiente
para a tomada de decisão.
Estatística Aplicada94
Sweeney et al. (2014) reforçam que a variável aleatória normal é a mais importante
distribuição de probabilidade para descrever uma variável aleatória contínua, pois ela é usada
em ampla variedade de aplicações práticas. Nessas aplicações, a distribuição normal fornece uma
descrição dos resultados prováveis obtidos por meio de amostragem.
Uma representação gráfica da variável normal é formalmente chamada de curva normal
ou modelo normal. Informalmente, no entanto, ela também é referida como curva no formato de
sino, curva de Gauss ou gaussiana. Esses dois últimos nomes remontam aos estudos sobre erros de
observações astronômicas promovidos por Carl Friedrich Gauss, nos idos dos primeiros decênios
do século XIX. A Figura 2, a seguir, apresenta um exemplo geral de curva normal. Perceba que
a curva normal tem formato parecido com o histograma da Figura 1, embora não sejam exata-
mente iguais.
Figura 2 – Representação gráfica da curva normal
Fonte: Elaborada pelo autor.
Na coordenada horizontal (eixo das abscissas ou eixo x), estará representada a unidade em
que o fenômeno é mensurado. Por exemplo, se inspecionamos a altura da população de um país,
a coordenada horizontal é mensurada em metros. Por sua vez, na coordenada vertical (eixo das
ordenadas ou eixo y), estará representada a frequência relativa, que é mensurada por um número
entre 0 e 1 ou em percentual (%). Isso significa afirmar que a curva normal representa a distribuição
de frequência da variável normal. Os exemplos a seguir ainda não serão rigorosos quanto aos eixos,
pois enunciarão apenas características gerais de curva normal, mas esse rigor será mais destacado
nos casos aplicados, a partir do próximo capítulo.
Muitos fenômenos podem ser aproximados para a curva normal, pois retratam concentração
de indivíduos ao redor de um valor médio e poucos indivíduos nos extremos. No entanto, o que
diferencia as curvas normais é a composição destes dois parâmetros: a média μ e o desvio padrão
σ, que são previamente conhecidos ou que são calculados sobre os dados disponíveis. Nesse ponto,
não é necessário rigor quanto aos dados disponíveis serem de uma população (ou universo) ou de
uma amostra. Essa distinção terá sentido mais à frente neste livro. Vamos assumir, por enquanto,
que sejam dados acerca de uma população. Um exemplo de curva normal populacional com média
μ e desvio padrão σ está apresentado na Figura 3, a seguir.
Inferência estatística: amostragem 95
Figura 3 – Representação gráfica da curva normal populacional com média μ e desvio padrão σ
Desvio padrão σ
x
%
Média μ
Fonte: Elaborada pelo autor.
Outra característica de uma curva normal é que a média é igual à mediana e igual à moda.
Portanto, média = moda = mediana. Para fins de simplificação, no entanto, será feita referência
apenas à média do fenômeno. Esse valor, evidentemente, é consoante com o fenômeno e pode
assumir valores negativos, zero ou positivos.
Mais uma característica de uma curva normal é sua simetria ao redor do valor médio.
Simetria significa que a forma da curva à esquerda da média é uma imagem espelhada da forma
da curva à direita da média. Os extremos (também chamados de caudas) da curva tendem ao
infinito em ambas as direções e, teoricamente, jamais tocam a coordenada horizontal. Uma vez que
é simétrica, a medida de assimetria da curva normal é zero.
Assim como a média, o desvio padrão também distingue fenômenos. Ele determina o quanto
uma curva é achatada ou larga. Valores maiores de desvio padrão resultam em curvas mais largas
e mais achatadas, o que significa maior variabilidade de dados. A Figura 4, a seguir, apresenta uma
comparação de duas curvas normais, do fenômeno contínuo e do fenômeno tracejado. O primeiro
tem média e desvio padrão menores, enquanto o segundo tem média e desvio padrão maiores.
Figura 4 – Representação gráfica de duas curvas normais populacionais
Fonte: Elaborada pelo autor.
Estatística Aplicada96
Por fim, as probabilidades da variável aleatória normal são dadas pela área sob a curva.
Da propriedade fundamental da probabilidade, ao somatório das probabilidades de todos os
eventos possíveis, tem-se o resultado de 1, o que representa 100%. Associando-se essa característica
àquela de simetria ao redor da média, a área sob a curva à esquerda da média será de 0,5, o que
representa que 50% das ocorrências têm mensurações inferiores à média. Seguindo o mesmo
raciocínio, 50% das ocorrências têm mensurações superiores à média.
Retomando o exemplo de seu amigo que acaba de assumir a seleção de hipismo, ele ainda
precisa de uma resposta para qual é a probabilidade de que um indivíduo elegido ao acaso tenha
menos do que 1,60 m de altura. Embora já tenhamos entendido que o fenômeno da altura da
população de um país possa ser aproximado para um fenômeno normal, ainda não temos a
desejada resposta.
Porém, se conseguirmos definir uma função matemática para a variável aleatória normal,
estaremos a apenas poucos passos de chegarmos à resposta. Eis que, pela genialidade de nossos
ancestrais matemáticos, a função de densidade de probabilidade normal foi assim enunciada1:
f x e
x
1
2
2
22
Onde:
x = variável normal de interesse
μ = média do fenômeno
σ = desvio padrão do fenômeno
π = 3,14149
e = 2,71828
6.2 Função de densidade de probabilidade normal
Voltemos ao exemplo de seu amigo, que acaba de assumir a seleção de hipismo
de seu país. A altura da população desse país pode ser aproximada a uma distribuição
normal, pois muitos indivíduos estão próximos a um valor médio e poucos indivíduos
estão nos extremos. A partir das características de uma curva normal e com a função
de densidade de probabilidade normal, seria possível calcular a probabilidade de
escolher um indivíduo ao acaso e que ele tenha menos de 1,60 m.
No entanto, convenhamos que essa é uma conta matematicamente árdua,
pois teríamos de integrar a função de densidade de probabilidade normal de x, de
–∞ até 1,60 m, supondo que μ e σ sejam conhecidos:
P m e
x,
0 1
2
1 60
2
2
2até 1,6
1 Atribui-se a Abraham de Moivre, matemático francês, a dedução da distribuição de probabilidade normal, em The
Doctrine of Chances, de 1733.
Vídeo
Inferência estatística: amostragem 97
Para simplificar esse procedimento, estabeleceu-se uma distribuição de probabilidade
normal que pudesse servir de base para todas as demais e, sobre essa distribuição, foram calculadas
as probabilidades de todos os valores, de –∞ a ∞. Essa é a distribuição de probabilidade normal
padrão e seu maior mérito repousa justamente na existência dessas probabilidades já calculadas.
Como característica, a distribuição de probabilidade normal padrão pressupõe que μ = 0 e
σ = 1. A variável aleatória normal é, comumente, representada pela letra Z, em escala adimensional.
Nesse caso, a função densidade de probabilidade normal padrão será dada por:
f Z 1 e
-z2
2
π2
Assim como para outras variáveis aleatórias contínuas, os cálculos de probabilidade com
quaisquer distribuições normais podem ser feitos no ponto ou em intervalos. Para cálculos de
probabilidade no ponto, basta substituir o valor desejado na função e obter a relação (Z, f (Z)).
Para cálculos de probabilidade em intervalos, obtém-se a área sob o gráfico da função densidade de
probabilidade. Desse modo, para encontrarmos a probabilidade de uma variávelaleatória normal
estar dentro de um intervalo específico, é necessário calcular a área sob a curva normal ao longo
desse intervalo. Essas áreas sob a curva normal padrão foram previamente calculadas e estão
disponibilizadas na Tabela 1, a seguir.
Tabela 1 – Probabilidades cumulativas para a distribuição normal padrão
Corpo da tabela dá a probabilidade p, tal que p = P(0 < Z < Zc)
Zc Z
p
0
Segunda decimal de Zc
Parte
inteira
e primeira
decimal
de Zc
0 1 2 3 4 5 6 7 8 9
Parte
inteira e
primeira
decimal
de Zc
p = 0
0,0 00000 00399 00798 01197 01595 01994 02392 02790 03188 03586 0,0
0,1 03983 04380 04776 05172 05567 05962 06356 06749 07142 07535 0,1
0,2 07926 08317 08706 09095 09483 09871 10257 10642 11026 11409 0,2
0,3 11791 12172 12552 12930 13307 13683 14058 14431 14803 15173 0,3
0,4 15542 15910 16276 16640 17003 17364 17724 18082 18439 18793 0,4
0,5 19146 19497 19847 20194 20540 20884 21226 21566 21904 22240 0,5
0,6 22575 22907 23237 23565 23891 24215 24537 24857 25175 25490 0,6
0,7 25804 26115 26424 26730 27035 27337 27637 27935 28230 28524 0,7
0,8 28814 29103 29389 29673 29955 30234 30511 30785 31057 31327 0,8
0,9 31594 31859 32121 32381 32639 32894 33147 33398 33646 33891 0,9
(Continua)
Estatística Aplicada98
Corpo da tabela dá a probabilidade p, tal que p = P(0 < Z < Zc)
Zc Z
p
0
1,0 34134 34375 34614 34850 35083 35314 35543 35769 35993 36214 1,0
1,1 36433 36650 36864 37076 37286 37493 37698 37900 38100 38298 1,1
1,2 38493 38686 38877 39065 39251 39435 39617 39796 39973 40147 1,2
1,3 40320 40490 40658 40824 40988 41149 41309 41466 41621 41774 1,3
1,4 41924 42073 42220 42364 42507 42647 42786 42922 43056 43189 1,4
1,5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408 1,5
1,6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449 1,6
1,7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327 1,7
1,8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062 1,8
1,9 47128 47193 47257 47320 47381 47441 47500 47558 47615 47670 1,9
2,0 47725 47778 47831 47882 47932 47982 48030 48077 48124 48169 2,0
2,1 48214 48257 48300 48341 48382 48422 48461 48500 48537 48574 2,1
2,2 48610 48645 48679 48713 48745 48778 48809 48840 48870 48899 2,2
2,3 48928 48956 48983 49010 49036 49061 49086 49111 49134 49158 2,3
2,4 49180 49202 49224 49245 49266 49286 49305 49324 49343 49361 2,4
2,5 49379 49396 49413 49430 49446 49461 49477 49492 49506 49520 2,5
2,6 49534 49547 49560 49573 49585 49598 49609 49621 49632 49643 2,6
2,7 49653 49664 49674 49683 49693 49702 49711 49720 49728 49736 2,7
2,8 49744 49752 49760 49767 49774 49781 49788 49795 49801 49807 2,8
2,9 49813 49819 49825 49831 49836 49841 49846 49851 49856 49861 2,9
3,0 49865 49869 49874 49878 49882 49886 49889 49893 49897 49900 3,0
3,1 49903 49906 49910 49913 49916 49918 49921 49924 49926 49929 3,1
3,2 49931 49934 49936 49938 49940 49942 49944 49946 49948 49950 3,2
3,3 49952 49953 49955 49957 49958 49960 49961 49962 49964 49965 3,3
3,4 49966 49968 49969 49970 49971 49972 49973 49974 49975 49976 3,4
3,5 49977 49978 49978 49979 49980 49981 49981 49982 49983 49983 3,5
3,6 49984 49985 49985 49986 49986 49987 49987 49988 49988 49989 3,6
3,7 49989 49990 49990 49990 49991 49991 49992 49992 49992 49992 3,7
3,8 49993 49993 49993 49994 49994 49994 49994 49995 49995 49995 3,8
3,9 49995 49995 49996 49996 49996 49996 49996 49996 49997 49997 3,9
4,0 49997 49997 49997 49997 49997 49997 49998 49998 49998 49998 4,0
4,5 49999 50000 50000 50000 50000 50000 50000 50000 50000 50000 4,5
Fonte: Bussab; Morettin, 2014, p. 519.
Perceba que, na parte superior direita da Tabela 1, há uma representação gráfica, no formato
de curva normal, com uma área com hachuras (mais escura) e com a letra p. Essa área significa
Inferência estatística: amostragem 99
a probabilidade acumulada entre 0 e Zc. Em outras palavras, é a probabilidade de a variável Z
assumir qualquer valor entre 0 e Zc ou:
P (0 ≤ Z ≤ Zc )
Uma vez definido o valor Zc de interesse (muitas vezes, esse valor é fornecido ou calculado
no enunciado do problema em mãos), os valores no corpo da Tabela 1 fornecem a probabilidade
desejada.
Sweeney et al. (2014) destacam que os três tipos de probabilidade usualmente solicitados a
calcular incluem: (1) a probabilidade de que a variável aleatória normal padrão Z será menor ou
igual a determinado valor Zc; (2) a probabilidade de que Z estará entre dois valores determinados
Zc1 e Zc2; e (3) a probabilidade de que será maior ou igual a um valor específico Zc.
Para entender o uso da Tabela 1, suponha que queiramos calcular a probabilidade de que
Z esteja entre 0 e 1,25 (1,25 foi arbitrado para esse exemplo); portanto Zc = 1,25. A probabilidade
requerida, representada na Figura 5, é esta:
P (0 ≤ Z ≤ 1,25)
Figura 5 – Curva normal padrão e probabilidade P (0 ≤ Z ≤ 1,25)
z
%
0 1,25
P (0 ≤ Z ≤ 1,25)
Fonte: Elaborada pelo autor.
A primeira coluna da Tabela 1 apresenta a parte inteira e a primeira decimal de Z. Significa
que, quando Zc = 1,25, como é o caso desse exemplo, a parte inteira e a primeira decimal equivalem
a 1,2, portanto será escolhida a linha em que Z = 1,2. Para Zc = 1,25, a segunda decimal equivale a
5, portanto será escolhida a coluna 5. Assim, a probabilidade desejada que corresponde a Zc = 1,25
é o valor na Tabela 1 localizado na intersecção da linha rotulada como 1,2 (parte inteira e primeira
decimal de Zc) e da coluna rotulada como 5 na linha superior da tabela (segunda decimal de Zc).
Para esse caso, o valor descrito na Tabela 1 é de 39435 e sua interpretação é a seguinte:
a probabilidade de Z estar entre 0 e 1,25 é de 39,435%. A nomenclatura correta é:
P (0 ≤ Z ≤ 1,25) = 0,39435 = 39,435%
Explorando agora a propriedade de simetria, fica fácil calcular a probabilidade Z de estar
entre –1,25 e 0: são os mesmos 39,435% que calculamos para a probabilidade de estar entre 0 e 1,25,
pois a forma da curva à esquerda e à direita da média é a mesma. Segue conclusão:
P (–1,25 ≤ Z ≤ 0) = 0,39435 = 39,435%
Estatística Aplicada100
Seguindo a mesma linha de raciocínio, a probabilidade de Z estar entre –1,25 e 1,25 é o
somatório das duas probabilidades que calculamos de forma isolada:
P (–1,25 ≤ Z ≤ 1,25) = P (–1,25 ≤ Z ≤ 0) + P (0 ≤ Z ≤ 1,25) = 0,39435 + 0,39435 = 0,7887 = 78,87%
Ao proceder com os cálculos para a probabilidade de a variável Z estar entre um, dois
ou três desvios padrão, serão encontrados estes resultados: 68,3%, 95,4% e 99,7%. Esses casos
correspondem a, respectivamente, Zc = 1,00, Zc = 2,00, e Zc = 3,00. A Figura 6, a seguir, apresenta
essa condição.
Figura 6 – Probabilidade de a variável estar entre um, dois ou três desvios padrão.
68,3%
95,4%
99,7%
μ –3σ μ –2σ μ –1σ μ + 1σ μ + 2σ μ + 3σμ
Fonte: Elaborada pelo autor.
Em termos práticos, como a distribuição normal padrão e sua tabela de distribuição de
probabilidades (Tabela 1) podem ajudar? Somente conseguimos nos apropriar dos benefícios dos
valores já pré-calculados dessa tabela se conseguirmos converter informações de nosso fenômeno
de interesse (por exemplo, altura da população) para informações da normal padrão.
Voltemos ao exemplo de seu amigo, que precisa calcular a probabilidade de que uma pessoa,
escolhida ao acaso, tenha menos de 1,60 m de altura. Como, então, relacionar esse fenômeno de
interesse com a curva normal padrão?
Essa relação será dada pela seguinte conversão:
Z xc
Onde:
x = valor de interesse no fenômeno
Zc = equivalente, na normal padrão, ao valor de interesse no fenômeno
μ = média populacional no fenômeno
σ = desvio padrão populacional no fenômeno
Suponha que, no exemplo de seu amigo, calculamos média e desvio padrão da altura
populacional e obtivemos estes valores (em m): μ = 1,65 e σ = 0,04. Como afirmado anteriormente,
Inferência estatística: amostragem 101
aproximar esse fenômeno de um comportamento normal é bem aceito. Ao procedermos com a
conversão dessas informações para encontrar, na normal padrão, o equivalente a 1,60 m, temos:Z xc
, ,
,
1 60 1 65
0 04
1 2, 5
Portanto, 1,60 m no fenômeno normal de interesse equivale a –1,25 na normal padrão.
Como queremos obter a probabilidade de que alguém tenha menos de 1,60 m, isso equivale a uma
probabilidade de a variável ser menor do que –1,25, conforme área destacada na Figura 7.
Figura 7 – Curva normal padrão e probabilidade P (z ≤ –1,25)
P (Z ≤ –1,25)
–1,25 0
%
z
Fonte: Elaborada pelo autor.
Como já calculamos anteriormente a probabilidade de a variável Z estar entre –1,25 e 0,
recuperemos esse valor:
P (–1,25 ≤ Z ≤ 0) = 0,39435 = 39,435%
No entanto, do que precisamos é da probabilidade de Z ser menor do que –1,25. É necessário
se lembrar da propriedade de que a área sob a curva à esquerda da média será de 0,5, o que indica
que 50% das ocorrências têm mensurações inferiores à média. Portanto, do –∞ até 0, a área tem de
ser igual a 50%. Como a área entre –1,25 e 0 já é de 39,435%, a área desejada entre –∞ e –1,25 será
o complemento a 50%, como segue:
P (Z ≤ –1,25) = P (–∞ ≤ Z ≤ –1,25) = 50% – 39,435% = 10,565%
É de notar que é importante saber usar as propriedades das curvas normais. Em especial, a
propriedade de simetria para cálculo de Zc para valores negativos e a propriedade de que a área sob
a curva é de 1 (equivalente ao 100%) para cálculo de complementos.
6.3 População e amostra
Nos capítulos anteriores, foram apresentados os conceitos de população
(ou universo) e amostra. Para retomá-los, pensemos no objetivo da pesquisa e,
consequentemente, nos indivíduos (objetos do estudo). Se, por exemplo, o objetivo
da pesquisa é aumentar o desempenho de discentes em um curso de estatística,
os indivíduos (objetos do estudo) podem incluir discentes desse curso. Com base
nessa definição, é possível pensar em variáveis e pesquisa de campo.
Vídeo
Estatística Aplicada102
No planejamento, um cuidado especial precisa ser lançado para os conceitos de população
e amostra. Chama-se população a totalidade de indivíduos (portanto a totalidade dos objetos de
estudo) e chama-se amostra uma parte da população, como já estudado anteriormente.
Quando se pretende descrever determinado fenômeno da população como um todo, a
tentativa será de conduzir um censo, porém, por razões diversas, conduzir um censo nem sempre
será factível ou possível. Tais razões incluem, mas não se restringem a: longa duração da pesquisa,
restrições orçamentárias ou questões de viabilidade logística ou acesso. Não é por acaso que órgãos
governamentais de muitos países conduzem o censo apenas de tempos em tempos, a cada dez anos,
por exemplo. Ainda assim, os resultados são considerados limitados, pois o censo não consegue
alcançar todos os indivíduos. Se pessoas e organizações dependessem dos resultados do censo para
agir, somente poderiam tomar decisões e ações de tempos em tempos, a cada dez anos, o que não
faz muito sentido em um mundo cada vez mais dinâmico e com mudanças que exigem pronta
adaptação. Por esse motivo, trabalhar com amostras pode ser uma alternativa a esse cenário.
No entanto, somente faz sentido trabalhar com amostra se houver algum mecanismo, alguma
ferramenta que permita depreender, a partir dos dados coletados na amostra, uma conclusão sobre
a população, sobre o todo, sobre o universo. Esse é o objetivo da inferência estatística, que permite
produzir afirmações sobre uma população de interesse a partir de dados coletados de parte dessa
população. A Figura 8, a seguir, apresenta essa relação entre população e amostra.
Figura 8 – Inferência estatística: a relação entre amostra e população
População
Inferência estatística
Amostra
μ
σ
p
x
s
p
Legenda:
μ = média populacional
σ = desvio padrão populacional
p = proporção populacional*
x = média amostral
s = desvio padrão amostral
p = proporção amostral*
* a serem estudados nos próximos capítulos.
Fonte: Elaborada pelo autor.
Inferência estatística: amostragem 103
Nesse contexto, a inferência estatística será apenas possível quando o fenômeno de interesse
na população tiver ou puder ser aproximado a uma distribuição normal, daí a relação entre os
assuntos abordados neste capítulo. Desse modo, uma premissa para podermos aplicar a inferência
estatística é que o fenômeno de interesse seja considerado normal (variável normal) e, portanto,
que siga uma distribuição de probabilidade regida pela curva normal (ou modelo normal).
Ora, neste ponto, estamos diante de um problema prático: se empregamos a inferência
estatística justamente para produzir uma afirmação sobre a população (a média de altura ou a
proporção de votos de determinado candidato, por exemplo), como saberemos se o fenômeno
que temos em mãos pode ser considerado normal? Em fenômenos para os quais detemos algum
histórico, é aceitável partir do pressuposto da normalidade, observando-se o passado (altura ou
peso da população de um país, por exemplo). Porém, em novas situações, isso não será possível.
Então, como saber se estamos diante de uma situação que pode ser aproximada à normal?
Nesse ponto, é necessário enunciar outra premissa para podermos aplicar a inferência
estatística: a amostra a partir da qual produziremos afirmações sobre a população precisa ser
considerada uma boa amostra, o que analisaremos a seguir.
De volta ao nosso problema, se a amostra puder ser considerada boa, significa que ela
representa bem a população. Embora não tenhamos os dados sobre a população (e, por isso,
queiramos produzir afirmações sobre ela), os dados da amostra estão disponíveis. Portanto, se a
amostra puder ser considerada normal, é razoável adotar a normalidade também na população e,
assim, a inferência estatística poderá ser aplicada.
6.4 Amostragem
Suponha que exista um grande tonel e, dentro desse tonel, haja uma sopa
deliciosa. Essa sopa é composta por: legumes cortados, macarrão, carne, temperos
diversos e, evidentemente, água. Se considerarmos a sopa no tonel como sendo
nossa população, qualquer extrato dessa sopa será uma amostra, pois amostra é
uma parte da população.
No entanto, é evidente que nem toda amostra será uma boa amostra para
fins de pesquisa quantitativa. Imagine, por exemplo, que uma amostra dessa
sopa considere apenas o macarrão. Alguém que pegue a amostra afirmará, com
razão: “mas isso não é uma sopa, é uma macarronada!”. Além disso, imagine outro
exemplo de alguém que pegue apenas uma amostra com a parte superior da água da
sopa, aquela camada bem na parte de cima, na superfície, e afirmará: “essa sopa não
está quente!”. Ambos estarão corretos em suas afirmações, poderão formar opiniões
a partir dessas afirmações e, eventualmente, poderão até mesmo tomar decisões
equivocadas a partir delas.
O processo de seleção de amostra é comumente chamado de amostragem.
E, nesse processo, o objetivo será conseguir uma boa amostra para fins de pesquisa
quantitativa. Há dois critérios importantes para se obter uma boa amostra: (1)
representatividade e (2) aleatoriedade.
Vídeo
Estatística Aplicada104
O critério de representatividade significa que a amostra consegue representar bem a
população. Voltemos ao exemplo da sopa. Suponha que nossa deliciosa sopa do tonel seja
composta por: 15% de legumes cortados, 10% de macarrão, 12% de carne, 3% de temperos
diversos e, portanto, 60% de água. Logo, nossa amostra representativa precisa conter esses
mesmos percentuais. Nesse caso, perceba que uma amostra que tenha as mesmas características
da população consegue representar melhor essa população em relação a outra amostra que tenha
algum tipo de viés. O viés significa qualquer tendência que se distancie do comportamento
esperado da população. No exemplo da sopa, uma amostra com 40% de legumes cortados (em
vez dos 15% esperados) carrega um viés para legumes cortados.
Para o exemplo da sopa, é bem compreensível o critério de representatividade, pois a
quantidade de todos os ingredientes tem soma 100% e esses ingredientes são conhecidos no início
da amostragem. Porém consideremos um fenômeno maiscomplexo, como pesquisa de intenção
de votos. Nesse fenômeno, já existe, de partida, uma limitação que é justamente saber quais são
as variáveis que precisam ser consideradas para saber o comportamento da população. Para esse
fim, é possível pensar que resultados de pesquisas anteriores possam servir como aproximações
aceitáveis para a pesquisa atual. Assim, exemplos de variáveis aplicadas em pesquisas anteriores e
que podem ser consideradas para descrever esse comportamento geral incluem: região geográfica,
idade, gênero, renda, apenas para citar algumas. Quando o número de variáveis é potencialmente
grande, uma decisão usualmente adotada é escolher apenas aquelas consideradas mais importantes
para o fenômeno de interesse.
Outra limitação é saber, de antemão, os valores dos percentuais de cada uma delas.
Novamente, considerar resultados de pesquisas anteriores pode ser aceitável. Exemplo: na pesquisa
de intenção de votos, 51% dos votantes eram mulheres e 49% eram homens. Podemos adotar esses
percentuais para mulheres e homens, mas é evidente que algum perfil (comportamento) possa
ter-se alterado de uma pesquisa para outra. Importante que tenhamos em mente que algumas
limitações são aceitáveis e outras são mais severas na amostragem, mas todas precisam ser descritas
no relatório de pesquisa.
Outro critério observado em boas amostras é o de aleatoriedade. Esse critério significa que,
dentro de determinada variável, todos os indivíduos tenham chances iguais de serem selecionados.
No exemplo da sopa, a situação é hipotética, mas é como se precisássemos retirar 6 litros de água
para nossa amostra e cada gota na população (suponha, de 60 litros) tivesse chance igual de ser
retirada. Se privilegiarmos apenas a água que está na parte de cima do tonel, teríamos um viés para
água da superfície.
Pode-se concluir que uma boa amostra é a mais próxima possível da plena representatividade
e da plena aleatoriedade, pois a tentativa é eliminar vieses. É de ressaltar, no entanto, que
nem sempre será possível conseguir uma amostra perfeita, pois pode haver limitações diversas em
nossa realidade. Por exemplo, é possível ter restrição de tempo, orçamentária, logística ou mesmo
de acesso.
Inferência estatística: amostragem 105
Suponha que o objetivo de nossa pesquisa seja descrever os fatores que diretores de grandes
empresas consideram mais importantes na contratação de um colaborador. Esse objetivo está claro
e bem definido. No entanto, como fazer para que os diretores das grandes empresas respondam ao
nosso questionário? Muitos deles podem simplesmente ignorar o contato e, assim, nossa amostra
ficará comprometida. Desse modo, considerar as limitações na amostragem é importante até
mesmo para refinar o próprio objetivo de pesquisa, pois essas limitações apontam para factibilidade
prática na condução da pesquisa de campo.
Embora nem sempre seja possível conseguirmos amostras perfeitamente boas, dadas
as limitações da pesquisa de campo, é obrigação daquele que conduz a pesquisa declarar os
procedimentos e critérios adotados e, principalmente, apresentar, o máximo possível, as tentativas
de se chegar à representatividade e à aleatoriedade.
Considerações finais
Este capítulo avançou pela discussão acerca de variáveis aleatórias contínuas e,
particularmente, de variáveis aleatórias contínuas normais. Estas são de particular interesse, pois
muitos fenômenos da natureza, das ciências exatas, sociais e da saúde podem ser aproximados e
modelados como normais.
O pressuposto das variáveis normais é que muitos indivíduos estão próximos de um valor
médio e poucos estão nos extremos, assumindo valores muito baixos ou muitos altos para aquele
fenômeno. Isso pode ser visualmente analisado quando a variável de interesse é representada em
uma curva normal.
Um dos usos de curvas normais é o cálculo de probabilidades de ocorrências em situações
do tipo: qual é a probabilidade de que um indivíduo selecionado ao acaso seja menor do que X?
Ou que esteja entre A e B? Ou que seja maior do que Y? Considerações importantes podem ser
depreendidas desses cálculos.
Por outro lado, é possível que uma das aplicações mais importantes da curva normal esteja na
inferência estatística. O objetivo da inferência estatística é produzir afirmações sobre determinada
característica da população com base apenas em parte dessa população. Para esse fim, há duas
premissas basilares: (1) a população precisa ter comportamento normal para aquela característica;
e (2) a amostra precisa ser considerada uma boa amostra.
Para se conseguir uma boa amostra, dois critérios precisam ser adotados: (1) representatividade
e (2) aleatoriedade. Mesmo que a prática não permita o pleno atingimento desses critérios, é
imprescindível tentar alcançá-los.
Os assuntos discutidos neste capítulo, sobre normalidade, população, amostra e inferência
estatística, embora tenham sido abordados do ponto de vista mais teórico, carregam um teor
prático. Eles precisam estar bem fixados, pois servem de base para o desenvolvimento dos conceitos
e aplicações que serão apresentados nos temas dos próximos capítulos.
Estatística Aplicada106
Ampliando seus conhecimentos
• CARL Friedrich Gauss. In: Wikipedia. Disponível em: https://pt.wikipedia.org/wiki/Carl_
Friedrich_Gauss. Acesso em: 26 maio 2019.
Nessa breve biografia, são apresentadas as contribuições de Gauss para a matemática,
astronomia, física e muitas ciências correlatas. A lei de Gauss da distribuição normal
de erros e sua curva em formato de sino, que a acompanha, são familiares para quem
trabalha com estatística. Menos pela narrativa histórica, mas, sobretudo, pelos avanços
promovidos pelo “mais notável dos matemáticos”, a leitura é um convite a uma das mentes
brilhantes da humanidade.
• AMOS, J. Brasileiro cresce em altura nos últimos cem anos, mas ainda é “baixinho”;
conheça o ranking mundial. BBC News Brasil, 26 jul. 2016. Disponível em: https://www.
bbc.com/portuguese/geral-36892772. Acesso em: 26 maio 2019.
Um fenômeno em que comumente se aplica o conceito de normalidade é o de altura
da população: muitos indivíduos ao redor de um valor médio e poucos indivíduos nos
extremos (muito baixos ou muito altos). Essa reportagem traz resultados de pesquisas
sinalizando que, em um século, houve aumento da altura média do brasileiro em 8,6 cm.
Alguns fatores que explicam esse crescimento incluem: bons padrões de saúde,
saneamento, nutrição, saúde da mãe e alimentação durante a gravidez. Embora a média
tenha aumentado, também é necessário refletir se o desvio padrão sofreu alteração, pois
um aumento no desvio padrão pode indicar que o aumento de altura tenha sido desigual,
mas isso não é explicitado na reportagem.
Atividades
1. Com base nos valores de probabilidade calculados para a distribuição normal padrão,
apresentados neste capítulo na Tabela 1 (“Probabilidades cumulativas para a distribuição
normal padrão”), calcule:
a) P(0 ≤ Z ≤ 1,96)
b) P(–1,96 ≤ Z ≤1,96)
c) P(Z ≥ 1,28)
d) P(Z ≤ 0,34)
e) P(–0,83 ≤ Z ≤1,28)
2. Suponha que o brasileiro tenha média de altura de 1,73 m e que o desvio padrão da altura
dessa população seja de 8 cm. Qual é a probabilidade de que um indivíduo, selecionado ao
acaso, tenha:
a) mais do que 1,80 m?
Inferência estatística: amostragem 107
b) menos do que 1,60 m?
c) entre 1,60 m e 1,80 m?
3. Suponha que você seja solicitado pelo diretor de uma faculdade a conduzir uma pesquisa
de satisfação com discentes dos cursos na modalidade EAD dessa faculdade. Proponha um
método para selecionar uma amostra, pois são muitos discentes espalhados pelo país inteiro
e não será possível colher respostas de todos. Adote as premissas que julgar oportunas.
Sugestão: quais são critérios para uma boa amostra? Quais iniciativas você sugere tomar
para cada uma delas?
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
HAIR JUNIOR, J. F. et al. Análise multivariada de dados. Trad. de AdonaiS. Sant’Anna; Anselmo C. Neto.
5. ed. Porto Alegre: Bookman, 2005.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia.
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
7
Inferência estatística: estimação
No capítulo anterior, inspecionamos as variáveis aleatórias contínuas e, em particular, a
variável normal. Fenômenos com comportamento normal são aqueles com muitos indivíduos
ao redor de um valor médio e poucos indivíduos nos extremos. Esse comportamento é comum
em variadas situações do nosso cotidiano, como altura e peso da população, salário pago para
determinado cargo, variação percentual de ativos na bolsa de valores, peças produzidas em uma
linha de produção, apenas para citar alguns exemplos.
Esses fenômenos são de particular interesse, pois são elegíveis à inferência estatística.
A inferência estatística serve ao propósito de produzir afirmações sobre determinada característica
(variável contínua normal) da população a partir de dados coletados de apenas parte dessa
população (amostra). Trabalhar com amostras é conveniente, pois, diferentemente do censo,
permite coletar dados de forma mais rápida, mais barata e operacionalmente mais fácil. Por outro
lado, o inconveniente é que as afirmações produzidas são menos precisas do que no caso do censo.
Tomemos o exemplo da pesquisa de intenção de votos. É comum ouvirmos no noticiário:
“com 95% de confiança, o candidato Fulano tem x% das intenções de voto, com dois pontos
percentuais para mais ou para menos”, ou “o candidato Beltrano e a candidata Cicrana estão
empatados na margem de erro”. Esse tipo de afirmação é produzido a partir da inspeção de uma
amostra, mas a tentativa é entender o comportamento de toda a população. Essa é uma aplicação
da inferência estatística, técnica de estimação que será apresentada neste capítulo a fim de ajudar a
refinar a tomada de decisão gerencial.
7.1 Métodos quantitativos: inferência estatística
O uso da inferência estatística é comum em nosso cotidiano, mas é possível
que a aplicação mais conhecida seja em pesquisas de intenção de votos. Até mesmo
aqueles que acompanham pouco as questões políticas e eleitorais já ouviram na
mídia os resultados dessas pesquisas: “margem de erro com dois pontos percentuais
para mais ou para menos”, “empate técnico” ou “95% de confiança”, apenas para
citar alguns exemplos.
A parte marcante desses resultados é acompanhar a progressão do candidato
de preferência ou até mesmo tomar uma decisão de voto (o tal do “voto útil”),
portanto os resultados dessas pesquisas podem servir de base para tomada de
decisão.
Variadas ciências também usam a inferência estatística para, com base em
uma amostra, produzir afirmações sobre uma população: pesquisas na área da
saúde sobre a eficácia de um medicamento, pesquisas na área de gestão de pessoas
sobre o clima organizacional em uma empresa, pesquisas na área do marketing
para conhecer a percepção dos consumidores sobre o desempenho de determinado
Vídeo
Estatística Aplicada110
produto e pesquisas na área da qualidade para aprovar ou não um lote de mercadoria para
exportação são alguns exemplos do uso da inferência estatística.
É de ressaltar que trabalhar com amostras possibilita que pesquisas de campo sejam mais
rápidas, baratas e operacionalmente viáveis. E uma afirmação sobre a população, com base na
amostra, que proveja uma ordem de grandeza de valores pode ser interessante para a tomada
de decisão. Cuidados sobre a condução de pesquisa de campo foram apresentados em capítulos
anteriores e, caso oportuno, vale uma revisita. Cabe lembrar que apenas faz sentido usar a amostra
para produzir uma afirmação sobre o todo quando a amostra for considerada uma boa amostra.
Uma das premissas para a condução de inferência estatística é, pois, que a amostra utilizada para
produzir a afirmação sobre o todo seja representativa e aleatória.
Outra premissa para a condução de inferência estatística é que a variável de interesse
tenha comportamento normal, consoante com o que discutimos no capítulo anterior. Como
não sabemos, em termos práticos, se a variável de interesse na população tem comportamento
normal, é razoável considerar que uma amostra que apresente comportamento normal possa levar
a essa conclusão. Hair Junior et al. (2005) afirmam que existem testes estatísticos específicos de
normalidade, alguns mais simples, como inspeção de skelness (também chamado de assimetria)
e de kurtosis (também chamado de curtose), mas há também os mais elaborados, como o teste
Shapiro-Wilks e o Kolmogorov-Smirnov. Embora testes de normalidade não sejam objeto de
discussão neste material, um gráfico do tipo histograma (no formato de sino) e um gráfico do
tipo box-plot (simétrico) podem ser úteis para análise do comportamento da variável de interesse.
Em muitos casos, essa análise visual pode ser suficiente para concluir acerca da normalidade da
amostra e, consequentemente, da população.
Portanto, estes são os dois requisitos para condução de inferência estatística:
• amostra representativa e aleatória (o que pode ser comprovado nos procedimentos
adotados na pesquisa de campo); e
• a variável de interesse tem comportamento normal (o que pode ser comprovado pelo
comportamento dessa variável na amostra).
Uma vez que esses requisitos estejam garantidos, cabe decidir sobre qual técnica será aplicada
para condução da inferência estatística. Há duas que merecem atenção: (a) técnica de estimação
(por ponto e por intervalo de confiança) e (b) técnica de teste de hipótese.
A técnica de estimação, como o próprio nome indica, pressupõe que será estimado um
valor para determinada característica da variável de interesse, por exemplo, a média. Suponha que
não saibamos, mas queiramos saber, a média de altura da população de uma região. Com base
em uma amostra representativa e aleatória de pessoas dessa região, por meio do uso da técnica de
estimação, será possível estimar a altura de toda essa população.
A técnica de teste de hipótese, por sua vez, permite confrontar (testar) a variável de interesse
contra um valor predeterminado. Suponha que queiramos saber se a média de altura da população
de uma região é maior do que 1,70 m. Com base em uma amostra representativa e aleatória de
pessoas dessa região, por meio do uso dessa técnica, será possível afirmar ou rejeitar a hipótese de
Inferência estatística: estimação 111
que a média seja maior do que 1,70 m. A seguir, vamos analisar a técnica de estimação, por ponto
e por intervalo.
7.2 Estimação por ponto
A estimação por ponto é, possivelmente, a técnica mais simples para estimar
um valor para determinada característica da variável de interesse (indicadores
estatísticos: média, desvio padrão ou proporção). Em boa medida, essa técnica
é intuitiva: por se tratar de uma amostra representativa e aleatória, supõe-se que
os indicadores estatísticos oriundos da amostra sejam os mesmos da população,
mas, evidentemente, isso nem sempre é verdade: apenas como evidência, amostras
diferentes resultam em valores diferentes para indicadores estatísticos.
Na prática, é fácil concluir que, para estimativas cujas decisões sejam críticas
(como no caso de um médico que precise tomar uma decisão acerca da prescrição
de um medicamento, por exemplo), a estimação por ponto não é recomendada. Por
outro lado, situações que demandem apenas uma ordem de grandeza do valor de
um indicador podem ser largamente exploradas por meio dessa técnica.
Avancemos com um exemplo aplicado. Suponha que estejamos fazendo
uma pesquisa sobre a altura dos dragões-de-komodo1. Trinta indivíduos dessa
espécie tiveram suas alturas mensuradas e os resultados aparecem na Tabela
1, a seguir. A notação xn é utilizada para apresentar a altura dos indivíduos,
de maneira que x1 é a altura do indivíduo 1 e assim por diante, até um total de
n = 30 indivíduos. Na mesma tabela, também é apresentado o gênero do indivíduoanalisado.
Tabela 1 – Altura e gênero de amostra fictícia com 30 dragões-de-komodo
Altura (cm) Gênero Altura (cm) Gênero Altura (cm) Gênero
x1 = 40,09 Masculino x11 = 45,92 Masculino x21 = 45,12 Masculino
x2 = 53,26 Masculino x12 = 57,27 Feminino x22 = 51,75 Masculino
x3 = 49,64 Masculino x13 = 55,69 Masculino x23 = 54,39 Feminino
x4 = 49,89 Masculino x14 = 51,16 Feminino x24 = 50,16 Feminino
x5 = 47,62 Feminino x15 = 56,19 Feminino x25 = 52,97 Feminino
x6 = 55,92 Masculino x16 = 51,77 Masculino x26 = 50,24 Feminino
x7 = 49,09 Masculino x17 = 52,54 Feminino x27 = 52,79 Feminino
x8 = 51,40 Masculino x18 = 45,98 Masculino x28 = 50,98 Masculino
x9 = 50,96 Masculino x19 = 51,93 Masculino x29 = 55,86 Masculino
x10 = 55,11 Masculino x20 = 52,97 Masculino x30 = 54,31 Feminino
Fonte: Elaborada pelo autor.
1 Dragão-de-komodo é um lagarto, encontrado na Indonésia, que chega a atingir 3,5 m de comprimento.
Trata-se do maior lagarto vivente (HOUAISS, 2009). Para mais informações sobre os dragões-de-
komodo, assista ao vídeo do programa Domingo Espetacular. Disponível em: https://recordtv.r7.com/
domingo-espetacular/videos/domingo-espetacular-visita-as-ilhas-que-abrigam-os-temidos-dragoes-de-
komodo-15092018. Acesso em: 26 maio 2019.
Vídeo
Estatística Aplicada112
Na técnica de estimação por ponto, procede-se com o cálculo de uma estatística amostral
(no caso, de média amostral x – lê-se x barra – e desvio padrão amostral s) e, assumindo o mesmo
valor, estendemos para a estatística populacional (no caso, de média populacional μ e desvio padrão
populacional σ). Nesse exemplo, a média amostral é calculada assim:
x
x
n
cmi
n
i . ,1 1 542 97
30
51 43
E o desvio padrão amostral é calculado assim:
s
x x
n
cmi ,
2
1
414 50
29
3 7 8i
n
1
Outra estatística de uso comum é a proporção. Para estimarmos a proporção p de indivíduos
do gênero masculino, no exemplo, procedemos com o cálculo da proporção amostral correspondente
p ou p (lê-se: p barra ou p chapéu). Supondo que r represente o número de indivíduos que detêm
a característica inspecionada, no caso, ser do gênero masculino, pode-se calcular a proporção
amostral assim:
p r
n
= = =
19
30
0 63,
Os valores calculados para média amostral x , desvio padrão amostral s e proporção amostral
p são chamados de estimadores pontuais. No caso, x é estimador pontual da média populacional
μ, s é estimador pontual do desvio padrão populacional σ e p é estimador pontual da proporção
populacional p.
Relembrando o contexto da inferência estatística, a Figura 1, a seguir, apresenta a relação
entre amostra (representativa e aleatória) e população.
Figura 1 – Inferência estatística: relação entre amostra e população
População
Inferência estatística
Amostra
μ
σ
p
x
s
p
Legenda:
μ = média populacional
Inferência estatística: estimação 113
σ = desvio padrão populacional
p = proporção populacional
x = média amostral
s = desvio padrão amostral
p = proporção amostral
Fonte: Elaborada pelo autor.
Na técnica de estimação por ponto, portanto:
μ ~ x
σ ~ s
p ~ p
Lê-se: média populacional μ é aproximada pela média amostral x.
Embora apresentem uma estimativa a partir da amostra, é evidente que os valores amostrais
podem ser diferentes daqueles reais, que poderiam ser observados na população como um todo,
se um censo fosse conduzido. Por esse motivo, seu uso vale mais para ter uma ordem de grandeza,
não para tomar decisões críticas.
A estimação por intervalo, por sua vez, proverá um aprofundamento que permitirá tomar
decisão de forma mais qualificada, como veremos a seguir.
7.3 Estimação por intervalo
Como enunciado anteriormente, a estimação por ponto, a partir da amostra,
é apenas uma aproximação de seus correspondentes na população, o que, em muitos
casos, pode se tornar uma limitação demasiada severa. Isso é particularmente
verdade para aqueles casos em que a decisão a ser tomada é crítica, pois um estimador
pontual pode não produzir o valor exato de seu correspondente populacional.
A estimação por intervalo, assunto que vamos abordar a seguir, pode ser
entendida como uma extensão da estimação por ponto. Mais do que apenas saber
que o candidato Fulano tem 36% das intenções de voto, é interessante afirmar que
o candidato Fulano tem 36% das intenções de voto com dois pontos percentuais
para mais ou para menos. Esse tipo de afirmação é proferido não apenas para um
valor supostamente exato das intenções de voto, como é o caso na estimação por
ponto, mas por meio de um intervalo que tenha “chance grande” de conter o valor
verdadeiro do fenômeno que está sendo estudado. Em nosso exemplo, portanto, o
candidato tem grande chance de ter entre 34% e 38% das intenções de voto. Os tais
dois pontos percentuais para mais ou para menos são chamados de margem de erro
e podem ser assim representados:
Estimador populacional ~ Estimador pontual ± margem de erro
O objetivo de uma estimativa por intervalo é refinar a resposta fornecida pela
estimativa por ponto, sinalizando o quanto o estimador por ponto está próximo do
seu equivalente populacional.
Vídeo
Estatística Aplicada114
Dessa forma, é possível representar a média populacional assim:
μ ~ x ± Margem de erro
E a proporção populacional assim:
p ~ p ± Margem de erro
No entanto, o cálculo da margem de erro para média populacional dependerá do conheci-
mento prévio ou não do valor do desvio padrão populacional σ, como será apresentado a seguir.
7.3.1 Estimação da média populacional μ para desvio
padrão populacional σ conhecido
Para o caso de termos à disposição o valor do desvio padrão σ, o cálculo da média
populacional μ parte do estimador pontual x. Antes de prosseguirmos com as fórmulas desse caso,
vale o questionamento: se queremos estimar o valor da média populacional μ é porque não temos
acesso à população inteira (pelos motivos já declarados de tempo, custo e viabilidade, por exemplo),
pois, do contrário, conduziríamos o censo e assim teríamos o valor exato de μ. Se não temos à
disposição a média populacional μ, como é possível ter acesso ao desvio padrão populacional σ, já
que o cálculo de σ depende da própria μ? Faça uma pausa e proceda com uma reflexão, pois ela é
oportuna para fixar os conceitos.
De partida, vale afirmar que, em muitas situações práticas, não teremos acesso ao desvio
padrão populacional σ e, portanto, outra alternativa, que será descrita mais à frente neste livro,
precisará ser adotada. Contudo, em parte das situações, a existência e a disponibilidade de grande
quantidade de dados históricos relevantes permitem sua utilização para calcular o desvio padrão
populacional σ. Outro exemplo inclui atividades repetitivas, em pleno funcionamento e mensuradas
periodicamente, como é o caso de controle de qualidade em processos. Assim, haverá casos em que
será possível adotar o desvio padrão populacional σ como conhecido (SWEENEY et al., 2014).
Avancemos com um exemplo aplicado. Suponha que consultores de gestão de negócios, no
desenvolvimento de um projeto, solicitaram esta informação para o supermercado da tia Mara:
o ticket de vendas (valor médio de vendas mensal). Para esse fim, a tia Mara selecionou uma
amostra representativa e aleatória de 100 clientes que passaram pela loja no último mês e obteve a
média de x = R$82,00. Como a tia Mara conduz essa pesquisa há muitos anos, é razoável aceitar
que o desvio padrão populacional σ seja conhecido a partir de dados históricos: σ = R$20,00. Além
disso, os dados históricos sinalizam que as vendas têm comportamento normal para a variável
ticket de vendas: muitos indivíduos ao redor de um ticket de vendas médio e poucos com valores
muito baixos ou muito altos.
A Figura 2, a seguir, representa a relação que se quer estabelecer: se o experimento de coletar
amostra e calcular a média amostral x fosse conduzido múltiplas vezes, a distribuição seria normal
ao redor de um valor médio, no caso, o ticket de vendas μ real, verdadeiro, de toda a população.
E, diferentementedo caso da estimação por ponto, temos uma relação entre x e μ que parece ser
mais próxima da realidade.
Inferência estatística: estimação 115
Figura 2 – Distribuição amostral normal de x ao redor de μ
μ
%
x
Distribuição amostral de x
Fonte: Elaborada pelo autor.
O objetivo, pois, é calcular a margem de erro dessa estimativa e, consequentemente, desenvolver
um intervalo de confiança, a partir do qual se poderá estimar o ticket de vendas real do supermercado
da tia Mara.
A margem de erro pode ser calculada por meio desta fórmula:
Margem de erro z
n2
Onde:
Margem de erro z
n2
= confiança
σ = desvio padrão populacional conhecido
n = tamanho da amostra
Os conceitos de desvio padrão populacional conhecido σ e tamanho da amostra n foram
discutidos anteriormente, porém é oportuno o aprofundamento sobre o conceito de confiança,
que, na fórmula, aparece como Margem de erro z
n2
. Em termos conceituais, a confiança Z remete à variável aleatória
normal padrão, conforme vimos no capítulo anterior. Lembremo-nos que todas as variáveis normais
(fenômenos com comportamento normal) podem ser convertidas para a variável normal padrão
(chamada de Z), pois, dela, já existem valores previamente calculados (na tabela de probabilidades
da variável normal padrão).
Na tabela de probabilidades da variável normal padrão (Z), é possível identificar que, para
Z = 1,96 (linha 1,9 – parte inteira e primeira decimal de Z – e coluna 6 – segunda decimal de Z), a
probabilidade de Z estar entre 0 e 1,96 é de P (0 ≤ Z ≤ 1,96) = 47,5%. Pela propriedade de simetria
de curva normal, conclui-se que a probabilidade de Z estar entre –1,96 e 1,96 é de P (–1,96 ≤ Z ≤
1,96) = 2 × 47,5% = 95%, conforme representação na Figura 3, a seguir. Portanto, afirma-se que
95% dos valores de qualquer variável aleatória com distribuição normal estão dentro de ± 1,96
desvios padrão da média (lembrando que, na distribuição normal padrão, a média é zero e o desvio
padrão é um).
Estatística Aplicada116
Figura 3 – Probabilidade da variável normal padrão para grau de confiança de 95%
%
P(–1,96 ≤ Z ≤ 1,96) = 2 × 47,5% = 95%
P(Z ≥ 1,96) = 2,5%
–1,96 1,960 Z
P(Z ≤ –1,96) = 2,5%
Fonte: Elaborada pelo autor.
Desse modo, quando se afirma que o grau de confiança desejado para a pesquisa é de 95%,
será utilizado o valor de Z = 1,96. Na inferência estatística, o grau de confiança representa a certeza
com a qual uma afirmação poderá ser proferida, pois já se sabe que, com base em uma amostra
(e não no censo), a afirmação sobre determinada característica da população pode não ser 100%
verdadeira. O uso do grau de confiança representa, pois, essa imprecisão.
O grau de confiança é arbitrado antes da condução da pesquisa, e o mais comum é a adoção
de 95%. Quando nenhuma consideração é lançada sobre o grau de confiança, a presunção de
95% pode ser tomada como padrão. Alternativamente, graus de confiança de 90% ou de 99%
também podem ser encontrados em aplicações práticas.
Outro conceito comumente usado em métodos estatísticos é o de nível de significância,
representado por α. Matematicamente, o nível de significância é o complemento a 100% do grau
de confiança. Como exemplo, para um grau de confiança de 95%, o nível de significância será de
5% (ou, o que é comum na área, 0,05). Uma vez definido o grau de confiança, pode-se calcular
automaticamente o nível de significância. Conceitualmente, o grau de confiança é a “chance de
acertar” com a qual uma afirmação em inferência estatística poderá ser proferida; por sua vez, o
nível de significância remonta à “chance de errar”. Em termos práticos, o grau de confiança é mais
compreensível como interpretação do fenômeno de interesse, mas o nível de significância é
mais utilizado para os cálculos na área de métodos estatísticos.
No exemplo anterior de 95% de grau de confiança, o nível de significância é de 5% ou 0,05.
Isso significa que 5% dos valores de uma variável aleatória com distribuição normal estão fora de
Z = ±1,96 desvios padrão da média. Pela propriedade de simetria, tomando apenas uma das
metades da curva normal (para esse exemplo, suponha que seja a metade da direita da curva),
P (0 ≤ Z ≤ 1,96) = 47,5%. Assim, 2,5% dos valores estão acima de 1,96, na cauda superior da
distribuição de probabilidade normal padrão, e, portanto, fora do limite (o que denota erro, desvio).
Inferência estatística: estimação 117
Por isso, a fórmula apresenta o α
2
(cálculo para apenas metade da curva) e a designação será de zα
2
(lê-se: confiança para metade da significância ou, na prática, apenas confiança). Dessa forma, para
grau de confiança de 95%, o nível de significância é de 5% (ou 0,05) e Z Z Z
2
0 0 5
2
0 025 1 96,, , .
Muitas vezes, no entanto, a representação será apenas de Z = 1,96.
A Tabela 2, a seguir, apresenta um resumo dos valores mais utilizados de grau de
confiança, nível de significância α, metade do nível de significância α
2
e confiança para metade da
significância zα
2
.
Tabela 2 – Grau de confiança, nível de significância, metade do nível de significância e confiança para
metade da significância mais utilizados no mercado.
Grau de confiança α ±
2
α z –
2
α
90% 0,10 0,05 1,64
95% 0,05 0,025 1,96
99% 0,01 0,005 2,58
Fonte: Elaborada pelo autor.
Retornemos ao nosso exemplo do supermercado da tia Mara e procedamos com o cálculo
da margem de erro para grau de confiança de 95%:
Margem de erro z
n
R$%95
2
1,96
20
100
3,92
A Figura 4, a seguir, representa uma interpretação gráfica da relação da distribuição amostral
de x e a margem de erro.
Figura 4 – Distribuição amostral de x e margem de erro
%
μ
Distribuição amostral de x
95% de todos os
valores de x
3,92 3,92
x
Fonte: Elaborada pelo autor.
Para a estimativa por intervalo do ticket de vendas do supermercado, o cálculo poderá ser
feito assim, com base na estimativa por ponto x:
Intervalo de confiança: x z
n
�
�
�
�
�
�
��
�
2
= (82 ± 3,92) = (R$ 78,08; R$ 85,92)
Estatística Aplicada118
Em termos de nomenclatura, o grau de confiança desse exemplo é de 95%, e o intervalo de
(R$ 78,08; R$ 85,92) é chamado de intervalo de confiança de 95%, que será assim representado:
μ: (R$ 78,08; R$ 85,92)
A afirmação que pode ser proferida nesse exemplo é: com 95% de confiança, o intervalo
(R$ 78,08; R$ 85,92) contém o ticket de vendas da população (caso todas as vendas fossem
consideradas). Portanto, esse é um intervalo que tem grande chance (95%) de conter o valor real,
verdadeiro do ticket de vendas da população. Se repetíssemos esse experimento (coletar amostras
e calcular o intervalo de confiança), é evidente que obteríamos resultados diferentes a cada vez.
A Figura 5, a seguir, apresenta um exemplo com simulação para o cálculo de três amostras diferentes
e três médias amostrais diferentes: x1, x2 e x3. Os intervalos de confiança de 95% calculados para
x1 e x2 contêm μ, enquanto que o intervalo de confiança de 95% calculado para x3 não contém μ.
Assim, a interpretação de 95% é que, se conduzíssemos o experimento 100 vezes, em 95 vezes o
intervalo resultante conseguiria conter a média populacional do ticket de vendas.
Figura 5 – Intervalos de confiança de 95% para , e x1, x2 e x3
μ
Distribuição amostral de x
Intervalo com base em
x2 ± 3,92
Intervalo com base em
x1 ± 3,92
Intervalo com base em
x3 ± 3,92
(esse intervalo não inclui μ)
A média populacional μ
95% de todos os
valores de x
3,923,92
x2
x1
x3
x
Fonte: Elaborada pelo autor.
Perceba que a afirmação seguinte soa próxima, mas, conceitualmente, não pode ser assumida
como verdadeira: o ticket de vendas da população (real, verdadeiro) está 95% das vezes dentro do
intervalo de (R$ 78,08; R$ 85,92). Ela não é verdadeira, pois, se assim fosse, precisaríamos supor
que o ticket de vendas varia e, nessa variação, em 95% dos casos, ele estaria nesse intervalo e, em
5% dos casos, ele não estaria. Porém perceba que o ticket de vendas (média populacional) não
Inferênciaestatística: estimação 119
apenas não pode variar (é um valor fixo), como também é o valor que estamos tentando estimar.
Na Figura 5, note que μ é fixo e o que varia são as médias amostrais x i e, portanto, os intervalos de
confiança correspondentes.
Ainda assim, em termos práticos, é razoável reconhecer, com 95% de confiança (certeza),
que a média real do ticket de vendas está no intervalo calculado. Desse modo, teremos uma boa
ordem de grandeza desse valor e a tomada de decisão será mais qualificada.
De volta à discussão sobre o grau de confiança, calculemos os intervalos de confiança para
90%, 95% e 99%, pois há uma relação importante entre grau de confiança e margem de erro:
Intervalo de confiança90%: x z
n
�
�
�
�
�
�
� � �
�
�
�
�
�
��
�
2
82 1 64 20
100
, = (82 ± 3,28) = (R$ 78,72; R$ 85,28)
Intervalo de confiança95%: x z n
�
�
�
�
�
�
� � �
�
�
�
�
�
��
�
2
82 1 96
20
100
, = (82 ± 3,92) = (R$ 78,08; R$ 85,92)
Intervalo de confiança99%: x z
n
�
�
�
�
�
�
� � �
�
�
�
�
�
��
�
2
82 2 58
20
100
, = (82 ± 5,16) = (R$ 76,84; R$ 87,16)
É evidente que, se o grau de confiança denota a chance de acertar, será preferível adotar o
maior grau de confiança possível. No limite, a melhor escolha seria um grau de confiança de 100%!
Será mesmo?
Dos cálculos anteriores, vale notar que, conforme o grau de confiança aumenta, também
aumenta a margem de erro (e, consequentemente, o intervalo de confiança). Se, por um lado, é
preferível um grau de confiança cada vez maior, por outro lado, é desejável uma margem de erro
cada vez menor (pois convém que o erro seja minimizado). Porém, como ambos são diretamente
proporcionais, será uma situação de trade-off2: para melhorar de um lado, será necessário piorar
de outro. De 90% de grau de confiança para 95%, a margem de erro aumenta R$ 0,64, ao passo
que, de 95% para 99% de grau de confiança, o aumento na margem de erro será de R$ 1,24.
Quanto mais próximo de 100%, maior também será a margem de erro. Por isso, a adoção
de 95% como grau de confiança é comum em muitas aplicações: trata-se de uma confiança
reconhecidamente alta para uma margem de erro reconhecidamente controlada. Importante:
a criticidade da situação que se esteja inspecionando condiciona a decisão quanto à escolha de
grau de confiança e margem de erro.
2 Tradeoff ou trade-off são expressões no idioma inglês usadas em situações em que há conflito de escolhas: para se
obter as benesses de uma escolha, é necessário acolher o ônus dessa escolha e, automaticamente, abrir mão das benesses
da outra escolha. Para aprofundamento, buscar referências sobre o conceito econômico de custo de oportunidade.
Estatística Aplicada120
7.3.2 Estimação da média populacional μ para desvio
padrão populacional σ desconhecido
Como apresentado anteriormente, quando queremos estimar a média populacional μ, é
comum que não tenhamos acesso ao desvio padrão populacional σ. Nesse caso, é necessário estimar
tanto μ quanto σ com base na amostra, respectivamente, por x e s. Quando o desvio padrão amostral
s (conhecido, pois pode ser calculado com base na amostra) é usado para estimar o desvio padrão
populacional σ (desconhecido), o cálculo da margem de erro (e, consequentemente, o intervalo de
confiança) terá como base não mais a distribuição normal padrão, mas uma distribuição conhecida
como distribuição t-Student, para a qual também existem valores previamente calculados.
Embora a premissa de normalidade da variável de interesse na população seja mantida, a
distribuição t-Student pode ser aplicada de maneira bem-sucedida em muitas situações em que a
população se desvia significativamente da normal (SWEENEY et al., 2014), em particular, para o
caso de pequenas amostras. Essa distribuição depende de um parâmetro conhecido como graus de
liberdade, e, quanto maiores forem os graus de liberdade, mais a distribuição t-Student assemelha-se
à distribuição normal padrão. A Figura 6, a seguir, apresenta uma comparação entre as curvas normal
e t-Student.
Figura 6 – Comparação entre distribuição normal padrão e distribuição t-Student
Distribuição normal padrão
Distribuição t (20 graus de liberdade)
Distribuição t (10 graus de liberdade)
0 z, t
Fonte: Elaborada pelo autor.
O mesmo raciocínio do caso anterior de desvio padrão populacional conhecido será aplicado
agora para o cálculo da margem de erro e do intervalo de confiança. O cálculo da margem de erro
para o caso de σ ser desconhecido será dado por:
Margem de erro t s
n
Onde:
tα = confiança
s = desvio padrão amostral conhecido
n = tamanho da amostra
Inferência estatística: estimação 121
Com base na estimativa por ponto da média amostral x , a estimativa por intervalo da média
populacional μ será dada por:
Intervalodeconfiança x t s
n
:
Perceba que, nesse caso, s é usado para estimar σ e tα substitui zα
2
. Como s é diretamente
calculado por meio da amostra, vamos nos deter na obtenção de tα. α continua representando
o nível de significância, e sua interpretação é similar àquela apresentada anteriormente para o
cálculo de zα
2
no caso da distribuição normal padrão: o quanto destoa, o quanto foge da média
(área sob a curva além do limite de tc), conforme apresenta a Figura 7.
Figura 7 – A relação entre α e t
0–tc tc t
%
α
2
α
2
Fonte: Elaborada pelo autor.
A Tabela 3, a seguir, apresenta a distribuição t-Student. Na primeira coluna à esquerda, estão
os graus de liberdade; nas demais colunas, constam as probabilidades de ocorrência consoante
com a área destacada no desenho no canto superior direito. Suponha que queiramos o valor de t
para grau de confiança de 95% (portanto α = 0,05) em uma amostra de 30 indivíduos (n = 30).
Em termos práticos, graus de liberdade3 podem ser calculados assim: graus de liberdade = n – 1. Em
nosso exemplo, então, são 29 graus de liberdade. Como α = 0,05, inspecionaremos diretamente a
coluna p = 5%. Do cruzamento de 29 graus de liberdade com α = 0,05, obtém-se t0,05 = 2,045.
3 Os graus de liberdade referem-se à quantidade de informações independentes para o cálculo do desvio padrão
amostral s x x
n
i( )
2
1
. Como o somatório dos (xi – x) precisa ser 0 (zero), precisaremos de apenas n – 1 informações
do tipo (xi – x) para se obter a n–ésima informação. Portanto, em termos práticos, pode-se adotar: graus de liberdade =
n–1. Pense naquele jogo em que há três copos e uma bola de gude dentro de um deles: no máximo, você não precisa abrir
todos os copos para saber onde a bola de gude está, apenas dois copos, ou n–1 copos.
Estatística Aplicada122
Ta
be
la
3
–
D
is
tr
ib
ui
çã
o
t-S
tu
de
nt
Graus de liberdade γ
C
or
po
d
a
ta
be
la
d
á
os
v
al
or
es
t c
ta
is
q
ue
P
(–
tc
<
t
<
tc
) =
1
–
p
.
Pa
ra
ǘ
>
1
20
, u
sa
r a
a
pr
ox
im
aç
ão
n
or
m
al
.
t c
t
–t
c
p/
2
p/
2
0
1
–
p
Graus de liberdade γ
p
=
90
%
80
%
70
%
60
%
50
%
40
%
30
%
20
%
10
%
5%
4%
2%
1%
0,
2%
0,
1%
1
0,
15
8
0,
32
5
0,
51
0
0,
72
7
1,
00
0
1,
37
6
1,
96
3
3,
07
8
6,
31
4
12
,7
06
15
,8
94
31
,8
21
63
,6
57
31
8,
30
9
63
6,
61
9
1
2
0,
14
2
0,
28
9
0,
44
5
0,
61
7
0,
81
6
1,
06
1
1,
38
6
1,
88
6
2,
92
0
4,
30
3
4,
84
9
6,
96
5
9,
92
5
22
,3
27
31
,5
98
2
3
0,
13
7
0,
27
7
0,
42
4
0,
58
4
0,
76
5
0,
97
8
1,
25
0
1,
63
8
2,
35
3
3,
18
2
3,
48
2
4,
54
1
5,
84
1
10
,2
14
12
,9
24
3
4
0,
13
4
0,
27
1
0,
41
4
0,
56
9
0,
74
1
0,
94
1
1,
19
0
1,
53
3
2,
13
2
2,
77
6
2,
99
8
3,
74
7
4,
60
4
7,
17
3
8,
61
0
4
5
0,
13
2
0,
26
7
0,
40
8
0,
55
9
0,
72
7
0,
92
0
1,
15
6
1,
47
6
2,
01
5
2,
57
1
2,
75
6
3,
36
5
4,
03
2
5,
89
3
6,
86
9
5
6
0,
13
1
0,
26
5
0,
40
4
0,
55
3
0,
71
8
0,
90
6
1,
13
4
1,
44
0
1,
94
3
2,
44
7
2,
61
2
3,
14
3
3,
70
7
5,
20
8
5,
95
9
6
7
0,
13
0
0,
26
3
0,
40
2
0,
54
9
0,
71
1
0,
89
6
1,
11
9
1,
41
5
1,
89
5
2,36
5
2,
51
7
2,
99
8
3,
49
9
4,
78
5
5,
40
8
7
8
0,
13
0
0,
26
2
0,
39
9
0,
54
6
0,
70
6
0,
88
9
1,
10
8
1,
39
7
1,
86
0
2,
30
6
2,
44
9
2,
89
6
3,
35
5
4,
50
1
5,
04
1
8
9
0,
12
9
0,
26
1
0,
39
8
0,
54
3
0,
70
3
0,
88
3
1,
10
0
1,
38
3
1,
83
3
2,
26
2
2,
39
8
2,
82
1
3,
25
0
4,
29
7
4,
78
1
9
10
0,
12
9
0,
26
0
0,
39
7
0,
54
2
0,
70
0
0,
87
9
1,
09
3
1,
37
2
1,
81
2
2,
22
8
2,
35
9
2,
76
4
3,
16
9
4,
14
4
4,
58
7
10
11
0,
12
9
0,
26
0
0,
39
6
0,
54
0
0,
69
7
0,
87
6
1,
08
8
1,
36
3
1,
79
6
2,
20
1
2,
32
8
2,
71
8
3,
10
6
3,
02
5
4,
43
7
11
12
0,
12
8
0,
25
9
0,
39
5
0,
53
9
0,
69
5
0,
87
3
1,
08
3
1,
35
6
1,
78
2
2,
17
9
2,
30
3
2,
68
1
3,
05
5
3,
93
0
4,
31
8
12
13
0,
12
8
0,
25
9
0,
39
4
0,
53
8
0,
69
4
0,
87
0
1,
07
9
1,
35
0
1,
77
1
2,
16
0
2,
28
2
2,
65
0
3,
01
2
3,
85
2
4,
22
1
13
14
0,
12
8
0,
25
8
0,
39
3
0,
53
7
0,
69
2
0,
86
8
1,
07
6
1,
34
5
1,
76
1
2,
14
5
2,
26
4
2,
62
4
2,
97
7
3,
78
7
4,
14
0
14
15
0,
12
8
0,
25
8
0,
39
3
0,
53
6
0,
69
1
0,
86
6
1,
07
4
1,
34
1
1,
75
3
2,
13
1
2,
24
8
2,
60
2
2,
94
7
3,
73
3
4,
07
3
15
16
0,
12
8
0,
25
8
0,
39
2
0,
53
5
0,
69
0
0,
86
5
1,
07
1
1,
33
7
1,
74
6
2,
12
0
2,
23
5
2,
58
3
2,
92
1
3,
68
6
4,
01
5
16
17
0,
12
8
0,
25
7
0,
39
2
0,
53
4
0,
68
9
0,
86
3
1,
06
9
1,
33
3
1,
74
0
2,
11
0
2,
22
4
2,
56
7
2,
89
8
3,
64
6
3,
96
5
17
18
0,
12
7
0,
25
7
0,
39
2
0,
53
4
0,
68
8
0,
86
2
1,
06
7
1,
33
0
1,
73
4
2,
10
1
2,
21
4
2,
55
2
2,
87
8
3,
61
0
3,
92
2
18
19
0,
12
7
0,
25
7
0,
39
1
0,
53
3
0,
68
8
0,
86
1
1,
06
6
1,
32
8
1,
72
9
2,
09
3
2,
20
5
2,
53
9
2,
86
1
3,
57
9
3,
88
3
19
(C
on
tin
ua
)
Inferência estatística: estimação 123
Graus de liberdade γ
C
or
po
d
a
ta
be
la
d
á
os
v
al
or
es
t c
ta
is
q
ue
P
(–
tc
<
t
<
tc
) =
1
–
p
.
Pa
ra
ǘ
>
1
20
, u
sa
r a
a
pr
ox
im
aç
ão
n
or
m
al
.
t c
t
–t
c
p/
2
p/
2
0
1
–
p
Graus de liberdade γ
p
=
90
%
80
%
70
%
60
%
50
%
40
%
30
%
20
%
10
%
5%
4%
2%
1%
0,
2%
0,
1%
20
0,
12
7
0,
25
7
0,
39
1
0,
53
3
0,
68
7
0,
86
0
1,
06
4
1,
32
5
1,
72
5
2,
08
6
2,
19
7
2,
52
8
2,
84
5
3,
55
2
3,
85
0
20
21
0,
12
7
0,
25
7
0,
39
1
0,
53
2
0,
68
6
0,
85
9
1,
06
3
1,
32
3
1,
72
1
2,
08
0
2,
18
9
2,
51
8
2,
83
1
3,
52
7
3,
81
9
21
22
0,
12
7
0,
25
6
0,
39
0
0,
53
2
0,
68
6
0,
85
8
1,
06
1
1,
32
1
1,
71
7
2,
07
4
2,
18
3
2,
50
8
2,
81
9
3,
50
5
3,
79
2
22
23
0,
12
7
0,
25
6
0,
39
0
0,
53
2
0,
68
5
0,
85
8
1,
06
0
1,
31
9
1,
71
4
2,
06
9
2,
17
7
2,
50
0
2,
80
7
3,
48
5
3,
76
8
23
24
0,
12
7
0,
25
6
0,
39
0
0,
53
1
0,
68
5
0,
85
7
1,
05
9
1,
31
8
1,
71
1
2,
06
4
2,
17
2
2,
49
2
2,
79
7
3,
46
7
3,
74
5
24
25
0,
12
7
0,
25
6
0,
39
0
0,
53
1
0,
68
4
0,
85
6
1,
05
8
1,
31
6
1,
70
8
2,
06
0
2,
16
6
2,
48
5
2,
78
7
3,
45
0
3,
72
5
25
26
0,
12
7
0,
25
6
0,
39
0
0,
53
1
0,
68
4
0,
85
6
1,
05
8
1,
31
5
1,
70
6
2,
05
6
2,
16
2
2,
47
9
2,
77
9
3,
43
5
3,
70
7
26
27
0,
12
7
0,
25
6
0,
38
9
0,
53
1
0,
68
4
0,
85
5
1,
05
7
1,
31
4
1,
70
3
2,
05
2
2,
15
8
2,
47
3
2,
77
1
3,
42
1
3,
69
0
27
28
0,
12
7
0,
25
6
0,
38
9
0,
53
0
0,
68
4
0,
85
5
1,
05
6
1,
31
3
1,
70
1
2,
04
8
2,
15
4
2,
46
7
2,
76
3
3,
40
8
3,
67
4
28
29
0,
12
7
0,
25
6
0,
38
9
0,
53
0
0,
68
3
0,
85
4
1,
05
5
1,
31
1
1,
69
9
2,
04
5
2,
15
0
2,
46
2
2,
75
6
3,
39
6
3,
65
9
29
30
0,
12
7
0,
25
6
0,
38
9
0,
53
0
0,
68
3
0,
85
4
1,
05
5
1,
31
0
1,
69
7
2,
04
2
2,
14
7
2,
45
7
2,
75
0
3,
38
5
3,
64
6
30
35
0,
12
6
0,
25
5
0,
38
8
0,
52
9
0,
68
2
0,
85
2
1,
05
2
1,
30
6
1,
69
0
2,
03
0
2,
13
3
2,
43
8
2,
72
4
3,
34
0
3,
59
1
35
40
0,
12
6
0,
25
5
0,
38
8
0,
52
9
0,
68
1
0,
85
1
1,
05
0
1,
30
3
1,
68
4
2,
02
1
2,
12
3
2,
42
3
2,
70
4
3,
30
7
3,
55
1
40
50
0,
12
6
0,
25
4
0,
38
7
0,
52
8
0,
67
9
0,
84
9
1,
04
7
1,
29
9
1,
67
6
2,
00
9
2,
10
9
2,
40
3
2,
67
8
3,
26
1
3,
49
6
50
60
0,
12
6
0,
25
4
0,
38
7
0,
52
7
0,
67
9
0,
84
8
1,
04
5
1,
29
6
1,
67
1
2,
00
0
2,
09
9
2,
39
0
2,
66
0
3,
23
2
3,
46
0
60
12
0
0,
12
6
0,
25
4
0,
38
6
0,
52
6
0,
67
7
0,
84
5
1,
04
1
1,
28
9
1,
65
8
1,
98
0
2,
07
6
2,
35
8
2,
61
7
3,
16
0
3,
37
3
12
0
∞
0,
12
6
0,
25
3
0,
38
5
0,
52
4
0,
67
4
0,
84
2
1,
03
6
1,
28
2
1,
64
5
1,
96
0
2,
05
4
2,
32
6
2,
57
6
3,
09
0
3,
29
1
∞
Fo
nt
e:
B
us
sa
b;
M
or
et
tin
, 2
01
4,
p
. 5
21
.
Estatística Aplicada124
Consideremos um exemplo aplicado. Suponha que, no mesmo caso do supermercado da tia
Mara, seja a primeira vez que estejamos conduzindo a pesquisa sobre o ticket de vendas e, portanto,
embora se possa supor uma normalidade dessa variável (por exemplo, por meio de conversas com
outros mercados da região), não se possa considerar o desvio padrão conhecido para essa variável.
Os consultores propõem este procedimento: de uma amostra de 30 clientes (n = 30), com
grau de confiança de 95% (α = 0,05), calcular o intervalo de confiança para o ticket de vendas.
A média de vendas x calculada a partir da amostra de 30 clientes foi de R$ 81,43, e o desvio padrão
amostral s resultou em R$ 17,49. O cálculo da margem de erro será assim:
Margem de erro � � �, ,,t
s
n
R0 05 2 045
17 49
30
6 54
E, portanto, o cálculo do intervalo de confiança será dado por:
Interv de ça ,x t
s
n
R0 05 81 43 6 5 ,74 89 87 97R
A interpretação é similar ao caso de estimação por intervalo quando o desvio padrão
populacional é conhecido: com 95% de confiança, o intervalo de (R$ 74,89; R$ 87,97) contém o
ticket de vendas da população (caso todas as vendas fossem consideradas). Novamente, esse é um
intervalo que tem chance grande (95%) de conter o valor real, verdadeiro do ticket de vendas da
população, a partir de uma amostra de apenas 30 clientes.
7.3.3 Estimação da proporção populacional p
Outro caso que inspira interesse é o de estimar a proporção populacional p a partir da
proporção p de uma amostra. Como o raciocínio é similar aos dois casos anteriores de estimação
por intervalo (com desvio padrão populacional conhecido e desconhecido), podemos partir
diretamente para a interpretação das fórmulas.
A margem de erro para a estimação de proporção populacional é calculada assim:
Margem de erro z
p
n2
1
Onde:
zα
2
= confiança
p = proporção amostral
n = tamanho da amostra
E o intervalo de confiança é calculado desta maneira:
Interv de ça p z
p p
n2
1
Inferência estatística: estimação 125
São necessárias três informações para poder calcular o intervalo de confiança: a proporção
amostral p (que é calculada diretamente pela amostra), a confiança z (definida com base no grau
de confiança estabelecido pelo pesquisador) e o tamanho da amostra n (também conhecido).
Voltemos ao exemplo dos dragões-de-komodo, na Tabela 1, que apresenta a altura e
gênero de amostra fictícia com 30 dragões-de-komodo (n = 30). Para estimarmos a proporção
populacional p de indivíduos do gênero masculino, no exemplo, procedemos com o cálculo
da proporção amostral correspondente p . Supondo que r represente o número de indivíduos
que detêm a característica inspecionada, no caso, ser do gênero masculino, pode-se calcular a
proporção amostral assim:
p r
n
= = =
19
30
0 63,
Logo, para estimar a proporção p de indivíduos do gênero masculino da população como um
todo, pode-se estabelecer grau de confiança de 95% e proceder ao cálculo da margem de erro assim:
Margem de erro z
p p ,
,,0 05
2
1
1 96
0 63 0 37
30
0 17
n
E o cálculo do intervalo de confiança de 95% é obtido assim:
Interv de p z
p pn,0 052
1
(0,63 0,17) 0,80)( , ;0 46ça
A interpretação é similar à de casos anteriores: com 95% de confiança, o intervalo de (0,46;
0,80) ou entre 46% e 80% contém a proporção real, verdadeira p de indivíduos do gênero masculino,
caso todos os indivíduos fossem analisados.
7.3.4 Tamanho ideal de amostra
Uma dúvida muito comum no planejamento da pesquisa de campo é quanto ao tamanho
da amostra. Em geral, profere-se esse questionamento para se ter uma ideia de quão trabalhosa
será a pesquisa de campo. Para essa discussão, há uma premissa importante: o cálculo do tamanho
ideal de amostra depende da técnica estatística que se pretende utilizar para análise de dados. Por
exemplo, para o caso de estatística descritiva, afirma-se que, quanto mais indivíduos (portanto,
quanto maior for a amostra), melhor. Já para o caso da inferência estatística, é possível calcular
o tamanho ideal de amostra. Para esse fim, será necessário arbitrar o máximo de margem de
erro tolerado.
Retomemos o caso da tia Mara: grau de confiança de 95% e desvio padrão populacional σ
conhecido. Em vez de calcular a margem de erro com base no tamanho da amostra (no exemplo,
amostra era de 100 clientes), inverte-se o procedimento: calcular o tamanho da amostra a partir de
um valor de margem de erro arbitrado. Suponha, no exemplo do supermercado da tia Mara, que se
queira produzir uma afirmação com não mais do que R$ 2,50 de margem de erro:
Margem de erro z
n95 0 052
1 96 20 2 50% , ,n
n = 245,86 ~ 246 clientes
Estatística Aplicada126
Portanto, a fórmula para cálculo de tamanho ideal de amostra para estimação por intervalo
de μ é dada por:
n z
margem de erro2α
2
Para o caso de não conhecermos o desvio padrão populacional σ, a fórmula para cálculo de
margem de erro é dada por:
Margem de erro t s
n
α
Nessa fórmula, por mais que arbitremos um valor tolerado de margem de erro, temos uma
inviabilidade matemática tautológica: tα (para calcular os graus de liberdade), s (para calcular o
próprio desvio padrão amostral) e n dependem da própria amostra. Por esse motivo, nesse caso,
não se pode proceder com o cálculo de tamanho ideal de amostra.
Para o caso de proporção populacional, o mesmo raciocínio de arbitrar um valor para
margem de erro é estabelecido. Seja a margem de erro assim calculada:
Margem de erro z
p p
n2
1
Para o mesmo exemplo da proporção de indivíduos do gênero masculino na população
de dragões-de-komodo, assumindo grau de confiança de 95%, suponha que queiramos calcular
o tamanho ideal de amostra para uma margem de erro de, no máximo, 2%. Na fórmula anterior,
há uma dificuldade matemática tautológica: p depende da amostra para ser calculada. Há uma
saída elegante para essa limitação: sabendo-se que a combinação de p (1 – p ), no numerador da
margem de erro, que resulta em maior valor será para p = 0,5, pois p (1 – p ) = 0,5 (0,5) = 0,25.
Perceba que nenhuma outra combinação de p (1 – p )resultará em valor maior e, portanto, adotar
p = 0,5 como pior caso (pois p e margem de erro são diretamente proporcionais) resolve bem a
dificuldade de não termos, de partida, o valor de p . Assim, o cálculo de tamanho ideal de amostra
para grau de confiança de 95% resulta em:
Margem de erro z
p p
n n
,
,,0 05
2
1
1 96
0 5 0 5
0 02
n = 2.401 indivíduos
Dessa forma, a fórmula para cálculo de tamanho ideal de amostra para estimação por
intervalo de p é dada por:
n
z
margem de erro
p* p
a
�
�
�
�
�
�
�
�
�
�
�
�� �2
2
1 *
* em geral, adotar p* = 0,5, pois esse é o “pior” caso. Adotar outros valores apenas se houver
uma estimativa confiável, de partida, para p .
Inferência estatística: estimação 127
Caso o valor calculado como sendo do tamanho ideal de amostra, tanto para média
populacional μ quanto para proporção populacional p, seja maior do que o próprio tamanho da
população, pode-se: (a) aumentar o valor de margem de erro para que o número n seja menor
(margem de erro n e são inversamente proporcionais) ou, alternativamente, (b) inspecionar toda a
população e, nesse caso, não se procederá com inferência estatística, mas com estatística descritiva
sobre a população, ou seja, será conduzido um censo.
Considerações finais
A inferência estatística permite produzir afirmações sobre dada característica de uma
população com base em apenas parte dessa população (amostra), desde que os indivíduos da
amostra tenham sido selecionados de acordo com os critérios de representatividade e aleatoriedade.
Outra premissa para conduzir a inferência estatística é que a característica que esteja sendo
analisada tenha comportamento normal, com muitos indivíduos ao redor de um valor médio e
poucos indivíduos nos extremos.
Respeitadas essas duas premissas, pode-se proceder com a inferência estatística. Uma das
maneiras é por meio das técnicas de estimação. Na técnica de estimação por ponto, valores de
média, desvio padrão e proporção calculados a partir da amostra são tomados como sendo os
valores próprios da população. Está evidente a limitação dessa técnica: amostras diferentes podem
gerar valores diferentes para média, desvio padrão e proporção, motivo pelo qual assumir que eles
tenham os mesmos valores na população é arriscado. Na técnica de estimação por intervalo, esse
risco é minimizado, pois se assume que esses valores calculados não sejam exatos na população,
mas que tenham chances grandes de estarem dentro de intervalos.
Com isso, é possível estimar média populacional μ e proporção populacional p a partir de
seus correspondentes na amostra: média amostral x e proporção amostral p. Existe uma utilidade
enorme no uso da amostra para estimar média ou proporção na população, mas, particularmente,
essa utilidade reside no caráter prático da pesquisa de campo, que pode ser, potencialmente, mais
rápida, mais barata e operacionalmente mais simples.
Dessa forma, o potencial para tomada de decisão com qualidade melhor pode ser acelerado.
Suponha que uma amostra de 100 alunos sinalize que a proporção populacional dos 5.000 alunos
de uma escola quanto à insatisfação em relação à infraestrutura esteja entre 77% e 83%. Uma
pesquisa de campo com 100 alunos é potencialmente mais rápida do que outra com 5.000 alunos.
E os resultados já indicam a possibilidade de tomada de ação imediata. Eis o principal mérito da
técnica de estimação por intervalo.
Por fim, seguem as fórmulas apresentadas neste capítulo:
• Estimação da média populacional μ para desvio padrão populacional σ conhecido:
Margem de erro =
n
z
2
α
Interv de a xç z
n
:
2
α
Estatística Aplicada128
• Estimação da média populacional μ para desvio padrão populacional σ desconhecido:
Margem de erro t s
nα
Intervalodeconfiança x t s
n
:
• Estimação da proporção populacional p:
Margem de erro z
p p
n2
1
Intervalodeconfiança p z
p p
n2
1
• Cálculo de tamanho ideal de amostra para estimação por intervalo de μ:
n z
margem de erro2
2
• Cálculo de tamanho ideal de amostra* para estimação por intervalo de p:
n
z
margem de erro
p* p
a
�
�
�
�
�
�
�
�
�
�
�
�� �2
2
1 *
* em geral, adotar p* = 0,5, pois esse é o pior caso. Adotar outros valores apenas se houver
uma estimativa confiável, de partida, para p.
Ampliando seus conhecimentos
• GLOBAL consumer insights survey. PwC Brasil, São Paulo, 2018. Disponível em: https://
www.pwc.com.br/pt/setores-atividade/varejo-consumo/gcis2018.html. Acesso em: 26 maio
2019.
Pesquisas sobre comportamento do consumidor são excelentes exemplos de como as
organizações podem, a partir de uma amostra, produzir afirmações sobre a população
como um todo e, principalmente, tomar decisões segundo esses achados. No relatório
Global Consumer Insights Survey da PwC, algumas conclusões incluem: 41% dos
participantes no Brasil compram via smartphone pelo menos uma vez ao mês, 57% não se
incomodam que um varejista monitore seu padrão ou histórico de compras para fornecer
ofertas personalizadas e 45% dos brasileiros têm interesse em comprar itens básicos on--line regularmente. Como isso afeta as decisões nas organizações?
Inferência estatística: estimação 129
• ELEIÇÕES nos EUA: Hillary lidera pesquisa de intenção de voto, 2016. 1 vídeo (2 min.).
Publicado pelo canal G1. Disponível em: http://g1.globo.com/globo-news/jornal-globo-
news/videos/v/eleicoes-nos-eua-hillary-lidera-pesquisa-de-intencao-de-voto/5110069/.
Acesso em: 26 maio 2019.
• DONALD Trump é eleito presidente dos Estados Unidos, 2016. 1 vídeo (7 min.). Publicado
pelo canal GloboPlay. Disponível em: https://globoplay.globo.com/v/5437389/. Acesso em:
26 maio 2019.
A vitória do republicano Donald Trump sobre a democrata Hillary Clinton nas eleições
presidenciais dos Estados Unidos em 2016 contrariou quase todas as pesquisas de intenção
de voto. Os dois vídeos sugeridos apresentam essa realidade. Essas pesquisas tentam,
alicerçadas em uma amostra, calcular a proporção do total de eleitores (população) que
declaram seu voto a determinado candidato. Como a opinião pode mudar ao longo do
tempo, várias pesquisas são conduzidas durante a campanha. Por que será que elas erram
às vezes, como aconteceu nesse caso?
Atividades
1. Um famoso restaurante fictício em sua cidade lança uma campanha para aumentar a
quantia média que cada cliente desembolsa por um jantar em dia da semana. Como esse
restaurante tem sistemas informatizados com informações de gastos dos últimos cinco anos,
pode-se supor que o desvio padrão populacional para essa variável seja conhecido (tenha
sido calculado) e valha R$ 9,00. A média da quantia desembolsada por cada cliente em um
jantar em dia de semana é da ordem de R$ 35,00. Na última semana, o dono do restaurante
lançou uma campanha em que estimulou o consumo de bebida durante o jantar, por meio de
promoção do tipo “bebidas pela metade do preço”. Porém houve pane no sistema, que ficou
fora do ar, e o dono ficou apenas com as notas manuais. Ele contrata você para auxiliá-lo
a concluir se a campanha promocional deve continuar ou não. Para esse fim, você propõe
retirar uma amostra representativa e aleatória de 49 clientes e adotar grau de confiança de
95%. O resultado obtido para média dessa amostra foi de R$ 49,60. Que afirmação você
pode proferir sobre todos os clientes que frequentaram o restaurante na última semana a
partir dessa amostra de 49 clientes?
2. A associação fictícia Bem-estar no Ar é responsável por avaliar a qualidade dos aeroportos
de um país fictício. É comum que pesquisas do tipo “atribua uma nota de 0 a 10”, sendo zero
a nota mais baixa e dez a nota mais alta, sejam conduzidas frequentemente para identificar
a satisfação dos usuários dos aeroportos e, eventualmente, levar à tomada de decisão. Uma
amostra representativa e aleatória com 30 passageiros foi conduzida no aeroporto da capital
do país fictício e os resultados estão apresentados na Tabela a seguir.
Estatística Aplicada130
Tabela – Notas de satisfação atribuídas por 30 passageiros
6 4 6 8 7 7 6 6 3 8
7 8 7 5 9 5 8 4 3 8
4 4 8 4 5 6 2 5 9 9
Por meio dessa amostra, desenvolva uma estimativa por intervalo para média de
satisfação de passageiros se todos tivessem participado da pesquisa (populacional).
Estime intervalos para 90%, 95% e 99% de confiança. O que acontece com a margem de
erro e com o intervalo de confiança, conforme aumenta o grau de confiança?
3. A mesma associação fictícia Bem-estar no Ar continua responsável por avaliar a qualidade
dos aeroportos de um país fictício. Nesse caso, ela tem interesse em avaliar a pontualidade
de partida dos voos do aeroporto da capital do país fictício. De uma amostra com 550 voos,
455 podem ser considerados pontuais, pois partiram no horário previsto ou antes do horário
previsto. Desenvolva um intervalo de confiança de 95% para o índice de partidas pontuais
de todos os voos do aeroporto da capital do país fictício. Suponha agora que você tenha sido
convidado para planejar essa mesma pesquisa para o próximo ano e precise dimensionar
o tamanho ideal de amostra que precisará ser inspecionada, sabendo-se que arbitrou uma
margem de erro não maior do que 2%. Quantos voos precisam ser inspecionados?
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
HAIR JUNIOR, J. F. et al. Análise multivariada de dados. Trad. de Solange A. Visconti. 5. ed. Porto Alegre:
Bookman, 2005.
HOUAISS, Antonio. Dicionário Houaiss da Língua Portuguesa. Rio de Janeiro: Objetiva, 2009. Disponível
em: https://houaiss.uol.com.br/pub/apps/www/v3-3/html/index.php#2. Acesso em: 26 maio 2019.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia.
Trad. de Adonai S. Sant’Anna e Anselmo C. Neto. 3. ed. São Paulo: Cengage Learning, 2014.
8
Inferência estatística: teoria da decisão
O objetivo da inferência estatística é produzir afirmação sobre a característica de uma
população com base em dados coletados de parte dessa população (amostra). Para esse fim, duas
premissas precisam ser confirmadas: (a) a amostra precisa ser representativa e aleatória, e (b) a
característica de interesse (variável aleatória) precisa ter comportamento normal, com muitos
indivíduos ao redor de um valor médio e poucos indivíduos nos extremos.
Neste capítulo, seguiremos com o aprofundamento em inferência estatística. Há duas técnicas
para sua aplicação: (a) técnica de estimação (por ponto e por intervalo), como apresentado com
detalhes no capítulo anterior, e (b) técnica de teste de hipótese, que será detalhada neste capítulo.
Se, na estimação, o objetivo era produzir afirmações do tipo “com 95% de confiança, o
candidato Fulano tem 36% das intenções de votos, com dois pontos percentuais para mais ou
para menos”, o objetivo do teste de hipótese será confrontar (testar) a variável de interesse (que
tem comportamento normal) contra um valor previamente determinado. E, assim, afirmações
resultantes serão do tipo: “com 95% de confiança, pode-se afirmar que a proporção de votos do
candidato Fulano não difere de 36%”. Pretende-se, pois, produzir afirmações que versem sobre
igualdade (e desigualdade), superioridade ou inferioridade da média ou proporção da variável de
interesse em relação ao valor estabelecido. E essas afirmações serão do tipo: “pode-se afirmar que”
ou “não se pode afirmar que”.
Suponha que sejamos responsáveis pela inspeção de qualidade de lotes de mercadorias que
serão exportadas. O lote precisa ser rejeitado se mais de 1% das mercadorias estiverem com defeito.
Colhida uma amostra de mercadorias, queremos produzir afirmação do tipo: “pode-se afirmar
que a proporção de mercadorias com defeito não é superior a 1% e, portanto, o lote não precisa
ser rejeitado”. Isso será possível por meio da técnica de teste de hipótese, dentro ainda do grande
“guarda-chuva” da inferência estatística. Assim, o objetivo deste capítulo é refinar a tomada de
decisão gerencial por meio de inferência estatística, especificamente, por meio da técnica de teste
de hipótese.
Para iniciar a discussão acerca da técnica de teste de hipótese, convém entender a distinção
entre hipótese nula H0 e hipótese alternativa Ha. Os testes de hipóteses são usados para confrontar
a média populacional μ ou a proporção populacional p contra valores previamente estabelecidos,
que, para fins de nomenclatura, adotaremos como μ0, para o caso de média, e como p0, para o caso
da proporção.
Operacionalmente, iniciamos a aplicação da técnica de teste de hipótese por meio da
declaração da hipótese nula H0. Tal teste pode versar sobre superioridade (≥), inferioridade (≤)
ou igualdade (=) da média populacional μ ou proporção populacional p em relação aos valores
de μ0 ou p0. A hipótese alternativa Ha, por sua vez, é o complemento da hipótese nula. Portanto,
ao definir a hipótese nula H0, automaticamente, formula-se também a hipótese alternativa Ha. A
Estatística Aplicada132
seguir, estão exemplos genéricos de como formular hipóteses nula H0 e alternativa Ha para média
populacionalμ. É evidente que, para cada situação, apenas um caso será testado: superioridade,
inferioridade ou igualdade.
H0: μ ≥ μ0 H0: μ ≤ μ0 H0: μ = μ0
Ha: μ < μ0 Ha: μ > μ0 Ha: μ ≠ μ0
Veja, a seguir, exemplos genéricos de hipóteses nula H0 e alternativa Ha para proporção
populacional p:
H0: p ≥ p0 H0: p ≤ p0 H0: p = p0
Ha: p < p0 Ha: p > p0 Ha: p ≠ p0
Sweeney et al. (2014) afirmam que os casos de testes de superioridade (≥) e inferioridade (≤)
são considerados testes unicaudais, pois têm interesse em inspecionar apenas uma das metades
da curva normal. Por outro lado, testes de igualdade (=) são chamados de testes bicaudais, pois o
interesse repousa em saber quanto a média populacional μ, por exemplo, desvia (destoa, se distancia)
de μ0, tanto para valores mais altos quanto para valores mais baixos, portanto, considerando as duas
metades da curva normal.
Em termos de interpretação, embora pareça contraintuitivo, a hipótese de interesse é a
alternativa Ha. É ela que denota o teste para o qual se queira obter uma resposta (teste de interesse)
e, portanto, precisa ser convergente com o objetivo da própria pesquisa que esteja em curso. Para
aumentar a chance de declarar H0 e Ha convergentemente com o objetivo da pesquisa, vale buscar
evidências que suportem estas situações: μ < μ0, μ > μ0 ou μ ≠ μ0 (por exemplo, no enunciado de
um exercício ou no próprio objetivo de pesquisa). E, assim, proceder com a declaração de Ha com
convicção.
8.1. Teste de hipótese para média
O primeiro caso a ser analisado é o teste de hipótese para média. Para
essa situação, existem na técnica de estimação, assim como já vimos no capítulo
anterior, teste para média populacional μ quando o desvio padrão populacional σ é
conhecido e teste para média populacional μ quando o desvio padrão populacional
σ é desconhecido.
8.1.1 Teste para média populacional μ quando o
desvio padrão populacional σ é conhecido
Como discutido anteriormente, é possível considerar o desvio padrão
populacional σ conhecido nas situações em que há dados históricos disponíveis ou
em que exista uma boa estimativa de σ.
Iniciaremos a apresentação do teste de hipótese unicaudal sobre a média
populacional μ quando o desvio padrão populacional σ é considerado conhecido.
Testes unicaudais podem ser assim enunciados, consoante com as possibilidades
apresentadas no Quadro 1, a seguir.
Vídeo
Inferência estatística: teoria da decisão 133
Quadro 1 – Testes unicaudais
Teste de cauda inferior Teste de cauda superior
H0: μ ≥ μ0 H0: μ ≤ μ0
Ha: μ < μ0 Ha: μ > μ0
Fonte: Elaborado pelo autor.
Avancemos com um exemplo aplicado. Suponha que você seja inspetor de qualidade da
empresa Café Mais Brasil, que embala sacas de cafés estilo premium para exportação. Os rótulos
afirmam que cada saca tem 3 kg de café, mas é razoável aceitar que o processo produtivo da Café
Mais Brasil não consiga colocar exatamente 3 kg em cada saca. Como saber se a Café Mais Brasil
não está colocando sistematicamente menos do que 3 kg em cada saca (seja propositalmente, para
enganar os consumidores, ou involuntariamente, quando uma máquina esteja operando de forma
desregulada)? Nesse contexto, os órgãos reguladores não inspecionam individualmente as sacas,
mas aceitam que a média dos pesos de todas as sacas (média populacional) seja de, pelo menos,
3 kg por saca, pois, nesse caso, o direito dos consumidores estará garantido. Assim, a Café Mais
Brasil estará operando dentro da regulação.
Como inspetor de qualidade, você sugere um teste de cauda inferior para média populacional
dos pesos das sacas de café. O primeiro passo é a declaração das hipóteses nula H0 e alternativa Ha
para média populacional μ. Se a média populacional dos pesos das sacas de café for, no mínimo,
de 3 kg, a empresa atende à regulação. Alternativamente, se a média for inferior a 3 kg, ela pode ser
juridicamente penalizada (sem contar a potencial perda de prestígio em sua marca). As hipóteses
podem, portanto, ser assim declaradas:
H0: μ ≥ 3 kg
Ha: μ < 3 kg
Nesse exemplo, μ0 = 3 kg, pois esse é o valor contra o qual a média populacional μ
será testada.
Em termos de interpretação, perceba que, se os dados da amostra fornecerem evidências de
que a hipótese H0: μ ≥ 3 kg não possa ser rejeitada (portanto H0 possa ser aceita), a conclusão será
de que a Café Mais Brasil está operando dentro da regulação. Por outro lado, caso H0 seja rejeitada,
assume-se que a hipótese alternativa Ha: μ < 3 kg possa ser aceita e, assim, a conclusão será de que a
Café Mais Brasil está fora da regulação, de modo que a acusação de propaganda enganosa poderia
ser colocada contra a empresa.
Se a média amostral x estiver abaixo do limite estabelecido, ou x < 3 kg, poderia haver dúvidas
sobre aceitar H0: μ ≥ 3 kg. No entanto, convém saber o quanto menor do que 3 kg poderia ser a
média amostral x para que a diferença seja significativa a ponto de afirmar que a Café Mais Brasil
esteja fora da regulação. Essa decisão, porém, depende do grau de confiança (e, portanto, do nível
de significância) que o pesquisador adotar. Vale recordar: quanto maior for o grau de confiança (e
menor o nível de significância), a afirmação resultante será proferida com mais certeza. É preciso,
então, definir o nível de significância. Suponha que a Diretoria da Café Mais Brasil esteja disposta
a errar apenas 1% e, assim, para o nosso exemplo, α = 0,01 (ou 99% de confiança).
Estatística Aplicada134
O próximo passo será coletar uma amostra e calcular a estatística de teste. Suponha
que, no exemplo da Café Mais Brasil, n = 36 sacas de café sejam tomadas como amostra e que
a média amostral tenha resultado em x = 2,92 kg. Esse tipo de teste é conduzido diariamente e
há disponibilidade de dados históricos, motivo pelo qual o desvio padrão populacional σ pode
ser considerado conhecido e vale σ = 0,18 kg. Além disso, a premissa de que a distribuição de
pesos das sacas possa ser considerada normal também é constatada na distribuição amostral de x.
A estatística de teste é dada por esta fórmula:
Z x
n
calculado �
� �
�
0
Onde:
Zcalculado = estatística de teste
x = média amostral
μ0 = valor contra o qual a média populacional μ será testada
σ = desvio padrão populacional (conhecido)
n = tamanho da amostra
A estatística de teste Zcalculado é o valor calculado, com base na amostra, que representa o
fenômeno de interesse (peso amostral das sacas de café) na escala da variável normal padrão Z.
A Figura 1, a seguir, apresenta a relação entre a média populacional μ e a distribuição
amostral de x. Se o experimento (coleta de várias amostras) fosse conduzido múltiplas vezes, os
resultados das múltiplas médias amostrais teriam distribuição normal.
Figura 1 – Relação entre média populacional μ e a distribuição amostra de x
Distribuição amostral de x
μ = 3
%
x
Fonte: Elaborada pelo autor.
Procedamos, a seguir, com o cálculo da estatística de teste para esse exemplo:
Z x
n
calculado
0 2 92 3
0 18
36
2 67, ,
Inferência estatística: teoria da decisão 135
A interpretação do resultado da estatística de teste é esta: o valor de média amostral x = 2,92
equivale a Zcalculado = –2,67 na escala da variável normal padrão Z. De conceitos anteriores, pode-se
afirmar que x = 2,92 esteja a –2,67 desvios padrão do valor μ0 contra o qual a média populacional
μ está sendo testada.
Um conceito muito comum na área de métodos estatísticos é o de valor_p, também chamado
de probabilidade de significância ou nível descritivo (BUSSAB; MORETTIN, 2014). Ele remonta
à área do gráfico sob a curva normal padrão fora de determinado(s) limite(s). Tomemos como
exemplo o cálculo anterior de Zcalculado = –2,67. O valor_p associado a esse Zcalculado será, pois, a área
sob a curva normal padrão que esteja abaixo de Z = –2,67, ou seja, será P (Z < –2,67). Da tabela
de distribuição normal padrão, conclui-se que esse valor será: valor_p = P (Z < –2,67) = 50% –
49,621% = 0,379% (da tabela de distribuição normal padrão, linha2,6 – parte inteira e primeira
decimal de Zc– e coluna 7 – segunda decimal de Zc).
Os conceitos de estatística de teste e de valor_p foram apresentados porque há dois métodos
pelos quais se pode aceitar ou rejeitar H0: o primeiro é pelo critério de valor crítico e o segundo
é pelo critério de valor_p. Na prática, porém, apenas um dos métodos pode ser adotado, pois as
conclusões precisam, necessariamente, ser iguais.
Iniciemos com o critério de valor crítico. Uma vez calculada a estatística de teste Zcalculado, o
próximo passo será compará-la com um valor previamente estabelecido, consoante com nível de
significância adotado. Esse valor é chamado de valor crítico e pode ser entendido como o maior valor
de Z (da distribuição normal padrão) que resultará em rejeição de H0. Como o nível de significância
arbitrado em nosso exemplo (teste de cauda inferior) é de α = 0,01, o valor crítico é definido
com base na tabela de distribuição normal padrão (vide Tabela 1 do Capítulo 6) de maneira que
P (Z < Zcrítico ) = 0,01 = 1% ou P (Zcrítico < Z < 0) = 0,49 = 49% (propriedade de simetria da curva
normal e, portanto, a área sob a metade à esquerda será de 0,50 ou 50%). Nesse exemplo, resulta
que Zcrítico ~– 2,33. A Figura 2, a seguir, apresenta graficamente a interpretação de Zcrítico na curva
normal padrão.
Figura 2 – Zcrítico para α = 0,01 na curva normal padrão
%
Distribuição amostral
Z x
n
�
� �
�
0
Zcrítico = –2,33 0
α = 0,01
Z
Fonte: Elaborada pelo autor.
Estatística Aplicada136
Outra maneira de ler esse resultado é: Zcrítico ~– 2,33 corresponde a uma área de α = 0,01 na
cauda inferior de uma distribuição normal padrão. Portanto, se Zcalculado, calculado com base na
amostra, for menor ou igual a Zcrítico ~– 2,33, significa que a área sob a curva na distribuição normal
padrão será menor ou igual a α = 0,01. Para o caso da Café Mais Brasil, a regra de decisão será de
rejeitar H0 se:
Zcalculado ≤ Zcrítico = – 2,67 ≤ –2,33 (verdadeiro)
Eis que a hipótese nula H0 μ ≥ 3 kg será rejeitada, consequentemente, a hipótese alternativa
Ha μ < 3 kg será aceita. De maneira geral, a decisão sobre rejeitar H0 em teste de cauda inferior
será dada nesta condição:
Zcalculado ≤ Zcrítico
O mesmo raciocínio é aplicado para um teste de cauda superior; nesse caso, a rejeição de H0
será dada nesta condição:
Zcalculado ≥ Zcrítico
Conforme apresentado anteriormente, há um segundo método que pode ser empregado
para decidir sobre a aceitação ou rejeição de H0: critério do valor_p. Em um teste de cauda
inferior, o valor_p é a área sob a curva normal padrão (portanto é uma probabilidade) para a qual
P (Z < Zcalculado). Como Zcalculado = –2,67, valor_p = P (Z < –2,67) = 50% –49,621% = 0,379%. Valores
pequenos para valor_p são evidências contra H0. O critério do valor_p pressupõe que este será
comparado ao nível de significância α = 0,01. A Figura 3, a seguir, apresenta uma representação
gráfica da relação entre x , Zcalculado e valor_p.
Figura 3 – Equivalência entre média amostral x e Zcalculado
%
%
Distribuição amostral de x
Distribuição amostral de Z
valor_p = 0,38%
x = 2,92
Zcalculado = –2,67
μ = 3
0 z
x
Fonte: Elaborada pelo autor.
Inferência estatística: teoria da decisão 137
Para um nível de significância α, a regra da rejeição de H0, quando se usa o critério do
valor_p em teste de cauda inferior ou superior, é a seguinte:
valor_p ≤ α
Para o caso da Café Mais Brasil, a regra de decisão será de rejeitar H0 se:
valor_p ≤ α = 0,38% ≤ 1% (verdadeiro)
Perceba que ambos os critérios resultam na mesma conclusão: rejeição de H0. No critério
de valor crítico, compara-se Zcalculado (calculado com base na amostra) com Zcrítico (definido na
tabela de distribuição normal padrão, embasado no nível de significância arbitrado α). No critério
de valor_p, compara-se valor_p (calculado com base em Zcalculado) com nível de significância
arbitrado α.
Portanto, como conclusão final do caso da Café Mais Brasil:
H0: μ ≥ 3 kg → Rejeitada
Ha: μ < 3 kg → Aceita
Com base nessa conclusão, a média de pesos das sacas de café está abaixo de 3 kg.
Independentemente do motivo que tenha levado a essa situação, a empresa corre riscos, não
somente jurídicos, mas também de dano à imagem da marca e perda de clientes. Assim, ações
imediatas precisam ser adotadas.
Ainda no caso de média populacional μ com desvio padrão populacional σ conhecido,
podemos nos deparar com a necessidade de um teste bicaudal, que pode ser expresso desta forma:
H0 : μ = μ0
Ha : μ ≠ μ0
Suponha este exemplo aplicado: a empresa Campeões do Brasil fabrica bolas de futebol e
sabe que as bolas produzidas precisam ter um diâmetro de 29,50 cm para que possam ser utilizadas
em torneios oficiais. No entanto, os equipamentos de produção podem ficar desajustados ao longo
dos meses, e bolas com diâmetros menores ou maiores do que 29,50 cm podem ser produzidas.
Em ambos os casos, a empresa pode ser multada ao não atender às especificações da Federação
de Futebol. Por outro lado, por ser muito difícil mensurar o diâmetro de cada bola produzida, a
Federação aceita certa tolerância: se a média do tamanho do diâmetro de todas as bolas produzidas
for de 29,50 cm, a Federação autoriza a continuidade do contrato de fornecimento pela Campeões
do Brasil. Nesse caso, este é o teste que se quer conduzir:
H0 : μ = 29,50 cm
Ha : μ ≠ 29,50 cm
Se a média amostral x dos diâmetros das bolas for significativamente maior ou menor do
que 29,50 cm, H0 precisará ser rejeitada e medidas corretivas precisam ser adotadas. Ou, caso x
não se desvie significativamente de μ0 = 29,50 cm, H0 não poderá ser rejeitada e, assim, nenhuma
ação é necessária.
Estatística Aplicada138
O nível de significância de α = 0,05 é adotado, pois se constituiu como padrão no setor.
Por meio de dados históricos, a equipe de controle de qualidade afirma que um desvio padrão
populacional de σ = 1,2 cm pode ser estabelecido. Também é adequada a premissa de que a
distribuição amostral de x possa ser aproximada por uma distribuição normal.
Uma amostra de n = 50 bolas foi retirada hoje para inspeção e a média amostral para os
diâmetros foi calculada em x = 29,76 cm. Considerando o nível de significância de α = 0,05, será
que esse valor de 29,76 cm é suficientemente grande para rejeitarmos H0?
Podemos responder a esse questionamento por meio de dois métodos: critério do valor
crítico e critério do valor_p.
Segundo o critério do valor crítico, procede-se com o cálculo da estatística de teste Zcalculado,
com a definição do valor crítico Zcrítico e a comparação entre eles. A estatística de teste Zcalculado, como
visto anteriormente, pode ser assim calculada:
Z x
n
calculado
0
1,2
50
1,5329,76 – 29,50
Para identificarmos o valor crítico Zcrítico, consideremos o mesmo raciocínio adotado
anteriormente. Porém, para o caso atual, por se tratar de um teste bicaudal, será considerada toda
a curva normal padrão (não apenas metade, como aconteceu no caso anterior de teste unicaudal).
Por esse motivo, o nível de significância α = 0,05 será a área sob a curva que esteja além do limite
de Zcrítico, tanto da metade direita quanto da metade esquerda; portanto, P (Z ≤ – Zcrítico) = 2,5% e
P (Z ≥ Zcrítico) = 2,5%. Assim, P (Z≤ – Zcrítico ) + P (Z ≥ Zcrítico ) = 2,5% + 2,5% = 5% = α. Da tabela da
distribuição normal padrão, Zcrítico = 1,96, conforme pode ser observado na Figura 4, a seguir.
Figura 4 – Identificação de Zcrítico com base no nível de confiança α = 0,05 arbitrado
%
p (Z ≥ 1,96) = 2,5%
1,96 z–1,96 –0
p (Z ≤ 1,96) = 2,5%
Rejeitar H0 Rejeitar H0
Fonte: Elaborada pelo autor.
As condições para rejeição de H0 para o caso de teste bicaudal será:
Zcalculado ≤ –Zcrítico ou Zcalculado ≥ Zcrítico
Inferência estatística: teoria da decisão 139
No caso do exemplo da Campeões do Brasil, estas são as condições:
1,53 ≤ –1,96 (falso) ou 1,53 ≥ 1,96 (falso)
Como nenhuma das duas condições é satisfeita, não se pode rejeitar H0, assim,a conclusão
será:
H0 : μ = 29,50 cm → Aceita
Ha: μ ≠ 29,50 cm → Rejeitada
Por outro lado, ao adotar o critério de valor_p, será necessário proceder com o cálculo do
valor_p e compará-lo ao nível de significância α = 0,05 arbitrado. O valor_p é a área (portanto é
uma probabilidade) sob a curva normal padrão que destoa, que diverge, que se distancia da média.
No caso, será a soma destas probabilidades: P (Z < – Zcalculado ) + P (Z > Zcalculado ) = P (Z < –1,53) +
P (Z > 1,53) = 6,3% + 6,3% = 12,6%, conforme apresentado na Figura 5, a seguir.
Figura 5 – Identificação de valor_p com base na estatística de teste Zcalculado calculado
%
p(Z > 1,53) = 6,3%
valor_p = 6,3% + 6,3% = 12,6%
1,53 z–1,53 0
p (Z < –1,53) = 6,3%
Fonte: Elaborada pelo autor.
A seguir, procedemos com a comparação do valor_p com o nível de significância estabelecido.
A condição para rejeição de H0 é esta:
valor_p ≤ α
No exemplo da Campeões do Brasil, a comparação será:
12,6% ≤ 5% (falso)
Como já sabíamos dos cálculos pelo critério de valor crítico:
H0: μ = 29,50 cm → Aceita
Ha: μ ≠ 29,50 cm → Rejeitada
Assim, a média populacional μ dos diâmetros das bolas produzidas pela Campeões do Brasil
pode ser considerada 29,50 cm, consoante com os critérios estabelecidos pela Federação de Futebol
e, por enquanto, nenhuma ação precisa ser tomada quanto à adequação na produção.
Estatística Aplicada140
8.1.2 Teste para média populacional μ quando o desvio
padrão populacional σ é desconhecido
Como visto anteriormente, quando não conhecemos o desvio padrão populacional σ,
utilizaremos a média amostral x como estimador de μ e o desvio padrão amostral s como
estimador de σ. Os procedimentos a serem adotados são semelhantes àqueles presentes no caso de
teste para média populacional μ quando o desvio padrão populacional σ é conhecido. Assim como
no capítulo anterior, a principal diferença repousa no fato de que a distribuição amostral não segue
mais a distribuição normal padrão, mas, agora, a distribuição t-Student.
Nesse caso, a estatística de teste será dada por:
t x s
n
calculado �
� �0
Onde:
tcalculado = estatística de teste
x = média amostral
μ0= valor contra o qual a média populacional μ será testada
s = desvio padrão amostral (conhecido)
n = tamanho da amostra
Avancemos com um exemplo de teste unicaudal. Suponha que um exame internacional
avalie cursos de administração de empresas ao redor do mundo. Cursos com média maior do
que 7 (em uma escala de 0 a 10) serão designados como cursos de excelência. Trinta alunos de
uma faculdade de sua cidade participaram desse exame e o resultado foi uma média amostral
de x = 7,35 e um desvio padrão amostral de s = 1,052. Como saber se a faculdade de sua cidade tem
um curso de administração de empresas que possa ser considerado de excelência?
Este será um teste de cauda superior. Partimos, então, para as declarações das hipóteses, que,
nesse caso, podem aparecer assim:
H0: μ ≤ 7
Ha: μ > 7
Quando nenhuma informação é lançada sobre a confiança, adotar 95% de grau de confiança
é adequado, portanto o nível de significância será de α = 0,05.
O cálculo da estatística de teste produz este resultado:
t x s
n
calculado �
�
�
�
�
�
0
7 35 7
2 052
30
1 82
,
,
,
Inferência estatística: teoria da decisão 141
Para a identificação do tcrítico, será necessário utilizar a tabela de distribuição t-Student,
apresentada no capítulo anterior, com n – 1 graus de liberdade, portanto 29 graus de liberdade e
nível de significância de α = 0,05. Como estamos conduzindo um teste unicaudal, será necessário
considerar p
2
� ��, então, com p = 10% (na tabela de distribuição t-Student, p significa a probabilidade
de t estar fora dos limites de ±tc, nas duas metades da curva). Na linha de 29 graus de liberdade e
na coluna de p =10%, obtém-se tcrítico = 1,699.
Para um teste de cauda superior, a condição para rejeição de H0 pode ser assim expressa:
tcalculado ≥ tcrítico
Para o caso desse exame internacional, os valores são estes:
1,82 ≥ 1,699 (verdadeiro)
Portanto:
H0: μ ≤ 7 → Rejeitada
Ha : μ > 7 → Aceita
Consoante com os resultados alcançados, a faculdade de sua cidade oferece um curso de
Administração de Empresas que pode ser considerado de excelência.
Se o critério de valor_p fosse adotado, em situações variadas, não é possível calcular o
valor exato do valor_p, pois a maior parte das tabelas disponíveis não fornece todos os valores
calculados – como é o caso da tabela apresentada no capítulo anterior. Assim, pode-se estimar o
valor_p desta maneira: com base na estatística de teste tcalculado = 1,82, para 29 graus de liberdade, é
necessário encontrar qual é o intervalo de probabilidades de p que conteria o valor de tcalculado = 1,82.
No exemplo, considerando a tabela de distribuição t-Student, na linha de 29 graus de liberdade,
a probabilidade p para tcalculado = 1,82 estaria no intervalo entre 10% (t = 1,699) e 5% (t = 2,045).
Portanto, o valor_p estaria no intervalo entre 5% e 2,5% (lembrar que a tabela apresenta p como a
área externa a ± tc, tanto para a metade esquerda quanto para a metade direita da curva).
Para um teste de cauda superior, a condição para rejeição de H0 pode ser assim expressa:
valor_p ≤ α
Para o caso desse exame internacional, os valores são estes:
entre 2,5% e 5% ≤ 5% (verdadeiro)
Portanto, novamente:
H0: μ ≤ 7 → Rejeitada
Ha: μ > 7 → Aceita
Consideremos agora um teste bicaudal. Suponha que uma empresa de transporte de ônibus
precise monitorar quanto tempo os motoristas gastam para percorrer determinado trecho de um
novo itinerário. Espera-se que a média desse tempo seja de 40 minutos. Motoristas que cheguem
Estatística Aplicada142
fora do tempo previsto precisam ter o computador de bordo e o GPS inspecionados, pois, caso
esse tempo tenha sido menor do que 40 minutos, podem ter cometido infração de trânsito ao
circularem acima da velocidade permitida para a via. Por outro lado, caso esse tempo tenha sido
maior do que 40 minutos, podem ter dirigido devagar demais e, assim, acabarão atrasando a saída
para o próximo itinerário. Nesse contexto, as hipóteses podem ser assim enunciadas:
H0 : μ = 40 minutos
Ha: μ ≠ 40 minutos
Não rejeitar H0 implica que o tempo médio de μ = 40 minutos esteja sendo respeitado e,
assim, nenhuma ação precisa ser tomada. Alternativamente, rejeitar H0 pode levar a empresa
a adotar um novo programa de capacitação ou, eventualmente, até mesmo recalcular o tempo
previsto para esse itinerário. Por se tratar de um novo itinerário, a média populacional μ e o desvio
padrão populacional devem ser, ambos, estimados utilizando-se x e s dos dados amostrais.
Na primeira semana de atividade, uma amostra com 25 viagens produziu uma média
amostral de x = 37,4 minutos e um desvio padrão amostral de s =11,79 minutos. Supondo cumpridas
as premissas para condução do teste de hipótese, procede-se com o cálculo da estatística de
teste assim:
t x s
n
calculado �
�
�
�
� �
�
0
37 4 40
11 79
25
1 10
,
,
,
Por meio do critério do valor crítico, para um teste bicaudal, para nível de confiança de
α = 0,05 e graus de liberdade = n – 1 = 25 – 1 = 24, identifica-se na tabela de distribuição t-Student
que tcrítico = 2,064 (linha 24 e coluna p = 5%). As condições para rejeição de H0 são estas:
tcalculado ≤ – tcrítico ou se tcalculado ≥ tcrítico
No caso aplicado, temos:
–1,10 ≤ –2,064 (falso) ou se –1,10 ≥ 2,064 (falso)
Desta forma, H0 não pode ser rejeitada e nenhuma ação precisa ser tomada em relação a
esse itinerário:
H0 : μ = 40 minutos → Aceita
Ha : μ ≠ 40 minutos → Rejeitada
Resolvendo essa situação por meio do critério do valor_p, por se tratar de um teste bicaudal,
o valor_p será P (t < tcalculado ) + P (t > – tcalculado). Com base na estatística de teste tcalculado = –1,10, para
24 graus de liberdade, é necessário encontrar qual é o intervalo de probabilidades de p que conteria
o valor de tcalculado = –1,10. Pela propriedade de simetria da distribuição t-Sudent,vamos adotar o
valor positivo de tcalculado = 1,10 e considerar a metade à direita da média. No exemplo, na linha de 24
graus de liberdade, para tcalculado = 1,10, o valor_p (nesse caso, p já é o próprio valor_p, pois a tabela
Inferência estatística: teoria da decisão 143
da distribuição de t-Student já considera os dois extremos da curva) estaria no intervalo entre 20%
(t = 1,318) e 30% (t = 1,059). A condição para rejeição de H0 pelo critério de valor_p é dada por:
valor_p ≤ α
Para o caso específico:
entre 20% e 30% ≤ 5% (falso)
Novamente, a conclusão é:
H0 : μ = 40 minutos → Aceita
Ha: μ ≠ 40 minutos → Rejeitada
Não há, então, evidências suficientes de que a empresa de ônibus precise tomar ação corretiva
para esse itinerário.
8.2 Teste de hipótese para proporção
Outro caso para teste de hipótese será o de proporção populacional p. Seja p0
o valor contra o qual o teste será conduzido, estas são as formulações possíveis de
hipóteses nula H0 e alternativa Ha:
H0 : p ≥ p0 H0 : p ≤ p0 H0 : p = p0
Ha : p < p0 Ha : p > p0 Ha : p ≠ p0
Os procedimentos para conduzir o teste de hipótese seguem a mesma linha
de raciocínio daqueles que aplicamos no teste de hipótese para média populacional.
Suponha que uma faculdade da sua cidade queira ampliar o número de
estudantes estrangeiros. No ano passado, 20% dos estudantes eram estrangeiros,
mas os diretores lançaram agora uma campanha para atrair mais alunos do exterior:
estes não pagarão hospedagem no primeiro ano do curso, pois poderão se hospedar
de graça no campus universitário. Após o período de matrículas, uma pesquisa foi
conduzida para confirmar se a campanha gerou o resultado esperado.
As hipóteses nula H0 e alternativa Ha podem ser assim declaradas:
H0 : p ≤ 0,20
Ha : p > 0,20
A rejeição de H0 permitirá concluir que a campanha gerou o resultado
esperado: o número de estudantes estrangeiros aumentou. Um nível de significância
de α = 0,05 é considerado adequado para esse teste de cauda superior, e a premissa
de normalidade da distribuição amostral de p é assumida.
A estatística de teste é dada por:
Z p p
p p
n
calculado �
�
�� �
0
0 0
1
Vídeo
Estatística Aplicada144
Onde:
Zcalculado = estatística de teste
p = proporção amostral
p0 = valor contra o qual a proporção populacional p será testada
n = tamanho da amostra
Em nosso exemplo, suponha que, em uma amostra de n = 400 estudantes, obtenhamos
r = 100 estudantes estrangeiros e, portanto, a proporção de estudantes estrangeiros será de:
p = =100
400
0 25,
A estatística de teste para esse caso específico é calculada por:
Z p p
p p
n
calculado �
�
�� �
�
�
�� �
�0
0 0
1
0 25 0 20
0 20 1 0 20
400
0 05
0 02
, ,
, ,
,
,
�� 2 50,
Por meio do critério de valor crítico, o Zcrítico obtido para o nível de significância de 0,05
é dado por P (Z ≥ Zcrítico ) = 5% = 0,05. Assim, Zcrítico = 1,64 (linha 1,6 – parte inteira e primeira
decimal de Z – e coluna 4 – segunda decimal de Z). A condição para rejeição de H0, no caso de teste
de cauda superior, é dada por:
Zcalculado ≥ Zcrítico
No exemplo:
2,50 ≥ 1,64 (verdadeiro)
A conclusão, então, é:
H0 : p ≤ 0,20 → Rejeitada
Ha : p > 0,20 → Aceita
Há evidências de que a campanha tenha surtido efeito, pois a proporção de estudantes
estrangeiros na faculdade da sua cidade supera os 20% do ano anterior.
Considerando o critério de valor_p, podemos proceder ao cálculo de valor_p com base em
Zcalculado: P (Z ≥ Zcalculado ) = 50% – 49,379% = 0,621%. Como valor_p ≤ α (0,621% ≤5%), H0 pode ser
rejeitada, pois a condição de rejeição é dada por:
valor_p ≤ α
A conclusão obtida aqui é novamente convergente com a que tínhamos do critério de
valor crítico:
H0 : p ≤ 0,20 → Rejeitada
Ha : p > 0,20 → Aceita
Inferência estatística: teoria da decisão 145
Uma aplicação do teste de hipótese para proporção é em pesquisas de intenção de voto:
como saber se determinado candidato está acima de determinado percentual? Perceba o caráter
complementar do teste de hipótese em relação ao intervalo de confiança.
Considerações finais
O teste de hipótese é uma técnica que permite produzir uma afirmação (de aceitação ou de
rejeição) sobre uma população, com base em dados coletados em uma amostra. Diferentemente do
caso anterior de estimação, em que a tentativa é estimar um valor para média ou para proporção,
no teste de hipótese, o objetivo é confirmar ou não uma afirmação formulada (hipótese) com base
em um número previamente arbitrado.
Neste capítulo, foram analisados cinco casos de interesse: teste de hipótese unicaudal (1)
e bicaudal (2) para média populacional μ para desvio padrão populacional σ conhecido (3) e
desconhecido (4) e teste de hipótese para proporção populacional p (5). Para cada teste, foram
propostas condições para rejeição das hipóteses enunciadas, consoante com dois critérios
apresentados: critério de valor crítico e critério de valor_p. Convém reforçar que ambos os critérios
precisam resultar nas mesmas conclusões e, portanto, na prática, apenas um poderá ser adotado.
Por fim, ressalta-se que as conclusões obtidas após a confirmação ou rejeição das hipóteses
podem proporcionar reflexão acerca de potenciais tomadas de decisão que a situação em mãos
exigir. Reside aí a principal contribuição da técnica de teste de hipótese para os negócios e para
a vida.
Os quadros a seguir apresentam resumos com fórmulas e condições para os testes de hipótese
apresentados neste capítulo.
Quadro 2 – Fórmulas e condições do teste para média populacional μ com desvio padrão populacional σ
conhecido
Teste de cauda inferior Teste de cauda superior Teste bicaudal
Hipótese
H0 : μ ≥ μ0
Ha : μ < μ0
H0 : μ ≤ μ0
Ha : μ > μ0
H0 : μ = μ0
Ha : μ ≠ μ0
Estatística de teste
Zcalculado Z
x
n
calculado �
� �
�
0
Condição de rejeição de H0
para critério do valor crítico
Zcalculado ≤ Zcrítico Zcalculado ≥ Zcrítico
Zcalculado ≤ –Zcrítico ou
Zcalculado ≥ Zcrítico
Condição de rejeição de H0
para critério do valor_p
valor_p ≤ α
Fonte: Elaborado pelo autor.
Estatística Aplicada146
Quadro 3 – Fórmulas e condições do teste para média populacional μ com desvio padrão populacional σ
desconhecido
Teste de cauda inferior Teste de cauda superior Teste bicaudal
Hipótese
H0 : μ ≥ μ0
Ha : μ < μa
H0 : μ ≤ μ0
Ha : μ > μ0
H0 : μ = μ0
Ha : μ ≠ μ0
Estatística de teste
tcalculado t
x
s
n
calculado �
� �0
Condição de rejeição de H0
para critério do valor crítico
tcalculado ≤ – tcrítico tcalculado ≥ tcrítico
tcalculado ≤ –tcrítico ou
tcalculado ≥ tcrítico
Condição de rejeição de H0
para critério do valor_p
valor_p ≤ α
Fonte: Elaborado pelo autor.
Quadro 4 – Fórmulas e condições do teste para proporção populacional p
Teste de cauda inferior Teste de cauda superior Teste bicaudal
Hipótese
H0 : p ≥ p0
Ha : p < p0
H0 : p ≤ p0
Ha : p > p0
H0 : p = p0
Ha : p ≠ p0
Estatística de teste
Zcalculado Z
p p
p p
n
calculado �
�
�� �
0
0 0
1
Condição de rejeição de
H0 para critério do valor
crítico
Zcalculado ≤ – Zcrítico Zcalculado ≥ Zcrítico
Zcalculado ≤ – Zcrítico ou
Zcalculado ≥ Zcrítico
Condição de rejeição
de H0 para critério do
valor_p
valor_p≤ α
Fonte: Elaborado pelo autor.
Embora não sejam apresentadas neste capítulo, todas as técnicas multivariadas (exceto
análise de cluster – agrupamentos – e escalonamento multidimensional) são baseadas na inferência
estatística (HAIR JUNIOR et al., 2005).
Ampliando seus conhecimentos
• CONHECENDO a UFG – laboratório de controle de qualidade de alimentos, 2012. 1 vídeo
(1 min.). Publicado pelo canal UFG. Disponível em: https://www.youtube.com/watch?
v=Uo4U4kdkbRA. Acesso em: 26 maio 2019.
O controle de qualidade de alimentos é um excelente exemplo de teste de hipótese,
pois, com base em uma amostra, o objetivo será fornecer uma afirmação sobre toda
a produção. Nesse vídeo, é apresentado o Laboratório de Controle de Qualidade de
Alimentos (LCQA), que procede com testes desse tipo. Com base nos resultados, será
Inferência estatística:teoria da decisão 147
possível determinar se uma determinada produção de alimentos está livre de impurezas
ou se está imprópria para o consumo e se poderá ser comercializada ou não, segundo
critérios de segurança alimentar.
• EMPRESAS encaram o desafio de medir resultados com marketing. GauchaZH,
Porto Alegre, 2019. Disponível em: https://gauchazh.clicrbs.com.br/economia/noticia/
2019/04/empresas-encaram-o-desafio-de-medir-resultados-com-marketing-
cjulwfz6e03cv01rt77x77t2x.html. Acesso em: 26 maio 2019.
Essa reportagem traz evidências do quão difícil pode ser mensurar iniciativas de
marketing nas organizações. Embora seja bastante intuitiva a ideia de que o marketing
contribua para as vendas, ainda não há evidências de que essa contribuição seja direta.
Nesse contexto, considerar a proporção de público-alvo antes e depois da campanha pode
ser uma maneira de tentar mensurar os efeitos de uma iniciativa de marketing. O teste de
hipótese para proporção pode ser um aliado nesse processo.
Atividades
1. Uma loja de departamentos tem estudado maneiras de amenizar a inconveniente situação
de os clientes terem que esperar nas filas dos caixas. Uma sugestão que está sendo avaliada
é a de instalar televisores para que os clientes assistam a breves notícias, entrevistas e
anúncios enquanto aguardam nas filas. Estudos anteriores mostram que o tempo médio
que o cliente fica na fila é de 8 minutos com desvio padrão populacional conhecido de σ =
3,2 minutos. Tempos menores do que 8 minutos podem ser ruins, pois os anunciantes desse
canal se sentirão lesados; por outro lado, tempos maiores do que 8 minutos também são
ruins, pois sinalizam que os clientes estão na fila por mais tempo do que o previsto e podem
ficar insatisfeitos. Uma amostra com 120 clientes apresentou tempo médio de espera de 8,5
minutos. Teste a hipótese de que o tempo médio de espera difira do padrão de 8 minutos
para um nível de significância de α = 0,05. Pode-se supor que as premissas para condução
do teste de hipótese são satisfeitas.
2. A empresa fictícia de transportes urbanos App 88 implantou uma política de qualidade que
monitora a satisfação de seus clientes por meio de mensagens enviadas após cada corrida.
O cliente responde à mensagem com uma nota de 0 a 10, sendo zero a nota mais baixa e 10
a nota mais alta. Uma amostra representativa e aleatória com 30 passageiros foi considerada
para a última edição dessa pesquisa de satisfação, e os dados estão apresentados na Tabela
a seguir.
Tabela – Notas de satisfação atribuídas por 30 passageiros da App 88
7 8 6 8 7 9 6 6 5 9
7 8 7 5 9 5 8 4 5 8
10 9 8 4 5 7 4 5 9 10
Estatística Aplicada148
A equipe de qualidade definiu que, com nível de significância de α = 0,01, uma média
populacional μ > 7 atende aos requisitos de qualidade da empresa. Com base na amostra
coletada, pode-se afirmar que a satisfação esteja dentro dos requisitos de qualidade da
empresa? Caso o nível de significância fosse alterado para α = 0,05, sua conclusão seria
diferente? Por quê?
3. Um novo projeto de lei está sendo avaliado pelos políticos de um país fictício. Esse projeto
de lei tem implicações severas para as políticas de segurança pública, por esse motivo, há
um consenso de que, nesses casos, a população precisa ser consultada, sendo necessário que
mais de 80% esteja a favor desse novo projeto de lei. Uma pesquisa está sendo conduzida
para se ter uma primeira ideia de como será a adesão popular. De uma amostra com 550
cidadãos, 455 mostram-se a favor do projeto de lei. Com 95% de grau de confiança, pode-
-se afirmar que, se a votação acontecesse hoje, o projeto de lei seria aprovado ou rejeitado?
Considerar satisfeitas as premissas para condução de teste de hipótese.
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2014.
HAIR JUNIOR, J. F. et al. Análise multivariada de dados. Trad. de Adonai S. Sant’Anna e Anselmo C. Neto. 5.
ed. Porto Alegre: Bookman, 2005.
SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatística aplicada à administração e economia.
Trad. de Solange A. Visconti. 3. ed. São Paulo: Cengage Learning, 2014.
9
Introdução à análise multivariada de dados:
regressão e correlação
Em capítulos anteriores, foram apresentados alguns dos métodos estatísticos mais
aplicados em nosso dia a dia, no ambiente corporativo e no de pesquisa. Esses métodos incluem
a estatística descritiva, as probabilidades e a inferência estatística, cada qual com objetivo
intrínseco específico. Todos esses métodos têm como característica a análise de uma variável
quantitativa, discreta ou contínua, com distribuições de complexidade maior ou menor.
Em todos os casos, essa análise era do tipo univariada: uma variável por vez. Por exemplo, média
e desvio padrão para uma variável, probabilidade de uma variável, intervalo de confiança e teste
de hipótese sempre para uma variável.
Neste capítulo, veremos um novo tema relacionado aos métodos estatísticos: a análise
multivariada dos dados. Como o termo sugere, o interesse agora não repousará mais em uma
variável quantitativa (análise univariada), mas na relação entre duas ou mais variáveis quantitativas.
Podem existir relações de diferentes complexidades entre duas ou mais variáveis quanti-
tativas. Há relações mais simples, como a correlação, e também mais sofisticadas, como a regressão
linear, análise de cluster (ou análise de agrupamentos), análise discriminante e análise fatorial.
Neste capítulo, avançaremos com duas técnicas mais simples, mas, seguramente,
potencialmente poderosas para a tomada de decisão. A primeira será a correlação, que tenta
estabelecer uma relação de comportamentos parecidos entre variáveis. Uma afirmação do tipo
“a obesidade infantil e a venda de tênis têm correlação alta” causa estranheza, não é mesmo? Isso
porque essas duas variáveis – obesidade infantil e venda de tênis – parecem não ter nada a ver uma
com a outra. Por outro lado, uma afirmação do tipo “horas de estudo e nota na prova têm correlação
alta” parece ser absolutamente comum, porque é lógico que quem estuda mais tem mais chance
de ter melhor desempenho na avaliação. Contudo, as duas afirmações podem ser verdadeiras:
diferentemente do que se aceita popularmente, a correlação não mensura relação de causa e efeito,
mas apenas comportamentos parecidos entre variáveis. Por exemplo, se historicamente a obesidade
infantil aumentou nos últimos anos e a venda de tênis também aumentou nos últimos anos, a
correlação entre essas duas variáveis será alta (ainda que não pareça haver relação lógica entre elas).
Dessa forma, a correlação mensura quão parecidos são os comportamentos das variáveis.
Outra técnica muito apreciada nos métodos estatísticos é a regressão linear, pois seus
resultados permitem uma importante tomada de decisão. Seu objetivo será, com base em dados
históricos ou coletados, declarar um modelo preditivo para uma variável de interesse. Suponha que
você receba uma carta do banco informando que seu limite de cheque especial foi aumentado em
R$ 1.000,00. Você imediatamente pensa: “como esse banco é bom, aumentaram o limite de cheque
especial sem que eu solicitasse!”. Antes de nos precipitarmos nessa conclusão, vale este comentário:
bancos (e instituições financeiras no geral) atualizam, com regularidade, modelos estatísticos
Estatística Aplicada150
preditivos para, por exemplo, a variável limite de crédito. Com base em dados históricos, o modelo
estatístico sinaliza que seu limite de crédito, que era de R$ 5.000,00, pode agora ser de R$ 6.000,00.
Nesse contexto, os objetivos deste capítulo incluem calcular correlação, identificar e descrever
modelos preditivos e possibilitar a melhoria da tomada de decisão gerencial por meio de modelos
preditivos.
9.1 Associação entre variáveis quantitativas
Em muitas aplicações do cotidiano, o interesse pode respousar não apenas
na descrição ou na inferência sobre determinada variável, mas na relação (ou
potencialrelação) que existe entre variáveis diferentes. Isso acontece porque, em
situações variadas, se a relação entre as variáveis é conhecida, é possível tomar
alguma ação sobre uma delas e prever o resultado da outra. Tomemos, como
exemplo, a relação entre as variáveis qualidade no atendimento e satisfação do
cliente. Parece ser razoável assumir que, quanto maior a qualidade no atendimento,
maior também será a satisfação do cliente. No entanto, satisfação do cliente parece
ser uma variável sobre a qual não se toma uma ação diretamente e, nesse caso,
precisamos investigar o que é que condiciona, influencia e impacta a satisfação do
cliente. Assim, se a relação entre as variáveis é conhecida, ações sobre a qualidade
no atendimento podem ser tomadas para que, como resultado, a satisfação do
cliente seja maior. Exemplos de ações gerenciais podem inclur: capacitação dos
colaboradores, reformulação na política de troca de mercadorias e criação de uma
central de atendimento.
Nos métodos quantitativos, essa relação entre variáveis quantitativas é
chamada de associação. Há maneiras diferentes de se mensurar a associação entre
variáveis. Uma delas é a covariância (também chamada de variância conjunta),
que, segundo Lapponi (2005), mede a tendência e a força da relação linear entre
duas variáveis que tenham o mesmo número de dados disponíveis. Os dados
são considerados sempre aos pares (portanto a sequência em que os dados estão
dispostos, par a par, é importante). Para o caso de população, a covariância σxy das
variáveis x = x1, x2, …, xn e y = y1, y2, …, yn, é assim calculada:
σxy = N i
N1
1
(xi – μx) × (yi – μy)
Onde:
σxy = covariância das variáveis x e y
N = tamanho da população
xi = mensuração da variável x para o indivíduo i
yi = mensuração da variável y para o indivíduo i
μx = média populacional da variável x
μy = média populacional da variável y
Vídeo
Introdução à análise multivariada de dados: regressão e correlação 151
Para o caso de amostra, a mensuração de cada indivíduo será feita contra a média amostral
(não populacional), e a divisão será n – 1 por e não por N (pelo motivo discutido em capítulo
anterior sobre graus de liberdade).
Matematicamente, podemos entender a covariância como o afastamento simultâneo
(das duas variáveis ao mesmo tempo), de cada indivíduo, em relação às respectivas médias.
Intuitivamente, no entanto, é uma medida da interdependência entre as variáveis e, portanto,
variáveis independentes têm covariância zero. De maneira geral, vale o reforço: a covariância mede
a força da relação linear entre duas variáveis.
Outra mensuração de associação comum na área dos métodos estatísticos é o coeficiente
de correlação. A correlação é potencialmente uma das nomenclaturas oriundas dos métodos
estatísticos mais amplamente utilizadas no cotidiano, mas, muitas vezes, de forma equivocada,
como veremos a seguir.
O cálculo da correlação tem como base a covariância, motivo pelo qual esta foi apresentada
primeiramente. Matematicamente, o coeficiente de correlação pode ser assim calculado, para o
caso de população:
rxy
xy
x y
� σσ σ
Onde:
rxy = correlação entre variáveis x e y
σxy = covariância das variáveis x e y
σx = variância de x
σy = variância de y
Em complemento à covariância, a correlação mede tanto a força da relação linear entre duas
variáveis quanto a direção. Assim como no caso da covariância, para o caso de amostra (não de
população), o desvio padrão populacional das variáveis é substituído pelo desvio padrão amostral.
A correlação estará sempre limitada a este intervalo, em escala adimensional: –1 ≤ rxy ≤ + 1.
E os resultados extremados são estes:
rxy = 1: variáveis perfeitamente e positivamente correlacionadas;
rxy = 0: variáveis não correlacionadas
1;
rxy = –1: variáveis perfeitamente e negativamente correlacionadas.
Esses resultados extremados são excelentes para entendermos o resultado calculado que
tivermos à mão. Por exemplo, uma correlação de 0,83 está mais próxima de 1 e, portanto, as duas
1 É de notar que variáveis não correlacionadas e variáveis independentes podem não ter a mesma interpretação.
Embora variáveis independentes tenham correlação zero, o fato de duas variáveis terem correlação zero não implica
independência entre elas. Para aprofundamento, pesquisar sobre as condições para independência entre variáveis
aleatórias.
Estatística Aplicada152
variáveis são altamente e positivamente correlacionadas. Em termos práticos, valores que atendam
a estes critérios r ≤ –0,70 ou r ≤ 0,70 podem indicar variáveis altamente correlacionadas.
Variáveis altamente correlacionadas, positiva ou negativamente, sinalizam para
comportamentos conhecidos entre as variáveis consideradas. Por exemplo, correlação alta e
positiva entre duas variáveis sinaliza que, quando uma tem determinada variação, a outra também
tem variação na mesma direção e praticamente com a mesma intensidade (a depender de quão
alta é a correlação). Correlação alta e negativa, por sua vez, sinaliza que as variáveis oscilam em
direções opostas: quando uma sobe, a outra desce, praticamente na mesma intensidade (também a
depender de quão alta é a correlação).
No Excel, será utilizada a função correl para obter a correlação entre duas variáveis. O
primeiro parâmetro serão os dados da primeira variável, e o segundo parâmetro serão os dados da
segunda. Vale ressaltar que, diferentemente do uso corriqueiro do termo, a correlação não implica
relação de causa e efeito, mas apenas que duas variáveis detêm comportamentos previsíveis entre si.
9.2 Estimação dos parâmetros
Outra maneira de estabelcer a associação entre variáveis é por meio da
regressão linear. Há dois tipos de regressão linear: regressão linear simples e
regressão linear múltipla. Somente a regressão linear simples será apresentada
nesta obra, embora muitos conceitos sejam extensíveis ao caso da regressão linear
múltipla.
Cabe lembrar que a correlação se limita a oferecer comportamentos
previsíveis entre as variáveis, não uma relação de causa e efeito entre elas. Apesar
de parecer um trocadilho, esta afirmação esclarece muitas dúvidas acerca da
correlação: embora a correlação alta não implique relação de causa e efeito entre
as variáveis, variáveis que sabidamente tenham uma relação de causa e efeito têm
correlação alta. Essa afirmação tem impactos profundos nas discussões a seguir,
motivo pelo qual vale uma pausa na leitura: releia a afirmação e reflita.
Muito interesse repousa em mecanismos que possam fornecer maneiras de
gerar modelos preditivos em que se estabeleça relação de causa e efeito. Imagine
poder ter à mão um modelo que consiga predizer a cotação do dólar ante o real
com um dia de antecedência: seria possível ganhar muito dinheiro, não é mesmo?
Modelos preditivos permitem prever situações futuras e isso é sempre oportuno
para o tomador de decisão, pois possibilita decisões significativamente melhores.
Este será o principal mérito da regressão linear: propor modelos preditivos
com base em dados históricos ou disponíveis. Para o caso de regressão linear
simples, esses modelos serão do tipo:
y = a + bx
Vídeo
Introdução à análise multivariada de dados: regressão e correlação 153
Onde:
y = variável dependente
a = ponto de partida, parte fixa, valor que independe da variável x
b = coeficiente da variável independente
x = variável independente
Chamamos y de variável dependente porque ela depende de outra variável para ser calculada.
Por sua vez, chamamos x de variável independente porque, para o fenômeno que esteja sendo
analisado, não depende de outra variável.
Pensemos neste exemplo aplicado: suponha que os custos de produção de uma fábrica
fictícia de camisetas básicas sejam apresentados na Tabela 1, a seguir.
Tabela 1 – Custos de produção de uma fábrica fictícia de camisetas básicas
Quantidade (q) 0 5 10 20 50 100
Custo (R$) 100 110 120 140 200 300
Fonte: Elaborada pelo autor.
Esse exemplo será ótimo para relembrarmos os conceitosde função (polinomial) de primeiro
grau, também chamada de função linear (MUROLO; BONETTI, 2012). De partida, percebe-se
que há custo mesmo quando a quantidade produzida é zero. Esse é o conceito de custo fixo e, na
prática, pode representar, por exemplo, aluguel, água, energia, telefone e despesas com pessoal
administrativo. O aluguel é um excelente exemplo de custo fixo, pois, independentemente se
produzirmos nada, pouco ou muito, será necessário procederemos com esse pagamento, portanto
independe da quantidade produzida.
Nota-se que, para cada cinco camisetas produzidas, há aumento de R$ 10,00: para produção
de cinco peças, aumentou o custo, em relação a nenhuma produção, em R$ 10,00; para produção
de dez, aumentou o custo, em relação à produção de cinco peças, em mais R$ 10,00, e assim
sucessivamente. Portanto, unitariamente, o custo variável para cada camiseta produzida é de
R$ 2,00. De maneira genérica, podemos representar esse fenômeno assim:
custo total = custo fixo + custo variável
Especificamente para o caso apresentado, pode-se representar a equação de primeiro
grau assim:
C(q) = 100 + 2q
Onde:
C(q) = custo total (que depende de q)
100 = custo fixo, inicial, aquele incorrido mesmo sem produção
2 = coeficiente do custo variável, custo para cada camiseta adicional
q = quantidade a ser produzida
Estatística Aplicada154
A Figura 1, a seguir, apresenta uma representação gráfica da relação de camisetas produzidas
e custo total.
Figura 1 – Relação de camisetas produzidas e custo total
C = 2q + 100
Variação em C = 60
Variação em q = 30
200
140
100
20 50 q
C
Fonte: Elaborada pelo autor.
De maneira geral, o objetivo da regressão linear simples será encontrar um modelo preditivo
deste tipo:
y = a + bx
É evidente que, para o exemplo da fábrica de camisetas, os números são fictícios e teóricos. Na
prática, no entanto, serão utilizados dados históricos ou dados disponíveis para se conseguir chegar
ao modelo preditivo. Em outras palavras, pode-se afirmar que, com base em comportamentos
anteriores, a tentativa da regressão linear será prever o comportamento futuro.
Em termos práticos, define-se a relação que se queira inspecionar e, com base em dados
históricos, procede-se com a estimação dos parâmetros a e b (HAIR JUNIOR et al., 2005).
Avancemos com um exemplo prático. É de supor que, historicamente, investimento em
propaganda tenha impacto em vendas, e é razoável admitir que, quanto maior o investimento
em propaganda, maiores são as vendas de determinado produto. Suponha que você acabe de
ser convidado(a) para assumir a posição de diretor(a) de marketing de uma empresa fictícia que
venda automóveis. Você pede um relatório com os dados de investimento em propaganda e
das vendas dos últimos 10 anos. Os resultados são apresentados na Tabela 2, a seguir – considerar
a escala em milhões de reais.
Tabela 2 – Investimento em propaganda e vendas de automóveis dos últimos 10 anos da empresa fictícia
Propaganda 30 21 35 42 37 20 8 17 35 25
Vendas 430 335 520 490 470 210 195 270 400 480
Fonte: Elaborada pelo autor.
Será que, com base nos dados apresentados na Tabela 2, é possível afirmar que exista uma
relação entre a variável propaganda e a variável vendas? Para respondermos a esse questionamento,
precisamos estabelecer uma premissa de partida: quanto maior for o investimento em propaganda,
maiores são as vendas esperadas. Portanto, existe a expectativa de que o resultado seja uma relação
desta feita:
Introdução à análise multivariada de dados: regressão e correlação 155
vendas = a + b × (propaganda)
Pode-se afirmar que esse seja um modelo preditivo, pois, a partir dos dados dos últimos
10 anos, pretende-se estabelecer a relação causal entre as variáveis para predizer sobre o futuro.
Embora matemática ou estatisticamente não se possa afirmar que haja uma relação de causa e
efeito, em termos práticos, adotar tal premissa, com a devida parcimônia, é aceitável.
Para se chegar ao modelo completo, é necessário identificar os valores de a e b. Esse processo
será chamado de estimação dos parâmetros. Para entendermos como acontece o processo de
estimar parâmetros, vamos plotar os dados da Tabela 2 em um gráfico, para os 10 pares (xi, yi),
como aparece no Gráfico 1, a seguir.
Gráfico 1 – Relação entre propaganda e vendas
600
Propaganda ($ milhões)
Ve
nd
as
($
m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborado pelo autor.
Uma primeira inspeção visual fornece-nos a ideia de que parece existir uma relação entre as
variáveis: quanto maior for o investimento em propaganda, maiores são as vendas. Ainda que os
dados remontem apenas a uma “nuvem de pontos”, essa percepção de que há relação é crível, mas
como confirmar que ela de fato existe?
O modelo preditivo será uma função de primeiro grau (função linear), portanto pode ser
graficamente representado por uma reta. Relacionando os conceitos, é razoável aceitar que o
modelo preditivo possa ser a reta que melhor represente o conjunto de dados (o que, anteriormente,
chamamos de nuvem de pontos). Essa reta pode ser estimada teoricamente por uma técnica
conhecida como método dos mínimos quadrados2. Embora não seja o objetivo desta obra entrar
no mérito da conta em si, assume-se que exista uma única reta que melhor represente o conjunto
de dados e que essa reta será obtida pelo método dos mínimos quadrados. Graficamente, podemos
observar essa linha de tendência ou reta de otimização no Gráfico 2, a seguir.
2 O método dos mínimos quadrados é uma técnica para encontrar o melhor ajuste para um conjunto de dados,
minimizando, o máximo possível, o desvio de cada coordenada (x, y) em relação ao valor estimado para (x, y). Para
aprofundamento, procurar por: método dos mínimos quadrados ou mínimos quadrados ordinários.
Estatística Aplicada156
Gráfico 2 – Linha de tendência da relação entre propaganda e vendas
600
Propaganda ($ milhões)
Ve
nd
as
($
m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborado pelo autor.
No Excel, esse procedimento é feito diretamente por meio da inclusão da linha de tendência:
clicar em um ponto do gráfico com botão direito do mouse e selecionar adicionar linha de tendência.
Um exemplo está na Figura 2, a seguir. Se o procedimento adotado for correto, a linha de tendência
aparecerá automaticamente no gráfico.
Figura 2 – Adicionar linha de tendência em gráfico, no Excel.
600
Propaganda ($ milhões)
Ve
nd
as
($
m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborada pelo autor.
Não há outra reta que consiga representar o conjunto de pontos (x, y) de forma melhor.
Relembrando: essa reta tem uma interpretação similar ao caso da média, que representa um
conjunto de dados. Assim como no caso da média, precisaremos também inspecionar quanto é a
oscilação dos pontos (x, y) ao redor dessa reta, mas esses conceitos não serão abordados nesta obra.
Com o estabelecimento da reta, agora fica fácil estimar os parâmetros a e b. Para isso, vale
relembrar os conceitos de uma função de primeiro grau: a será o ponto, no eixo y, onde a reta corta
o eixo y (cujo significado prático é o ponto de partida, o valor fixo a partir do qual partem as vendas,
o valor de vendas que independe de propaganda) e b será o coeficiente da variável propaganda ou,
em termos matemáticos, a tangente do ângulo α, entre a reta e o eixo x (tgα) (cujo significado
prático é o incremento em milhões de reais – caso b > 0 ou decréscimo, caso b < 0 – em vendas,
para cada incremento unitário em propaganda em milhões de reais).
Introdução à análise multivariada de dados: regressão e correlação 157
O cálculo de a e de b parece ser possível, mas, inegavelmente, será um procedimento
trabalhoso. Nesse ponto, o Excel novamente nos favorece, pois calcula automaticamente a equação
da reta resultante. Para esse fim, na mesma opção de adicionar linha de tendência, haverá a opção
de exibir equação no gráfico (penúltima opção)e bastará selecionar essa opção e confirmar, como
mostra a Figura 3, a seguir.
Figura 3 – Exibir equação no gráfico
600
Propaganda ($ milhões)
Ve
nd
as
($
m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborada pelo autor.
Como resultado, a equação da reta será exibida no gráfico, conforme exemplo da Figura 4,
a seguir.
Figura 4 – Equação da reta no gráfico
y = 9,7381x + 117,07
600
Propaganda ($ milhões)
Ve
nd
as
($
m
ilh
õe
s)
500
400
300
200
100
0
0 10 20 30 40 50
Fonte: Elaborada pelo autor.
Eis que o Excel calcula a equação da reta. A nomenclatura do Excel é de y para a variável
dependente (no nosso caso, variável vendas, que depende de propaganda) e de y para a variável
independente. Portanto, como adotamos como premissa a relação de causalidade de propaganda
condicionando vendas, assume-se que o modelo preditivo resultante será:
vendas = 117,07 + 9,74 * (propaganda)
Estatística Aplicada158
9.3 Modelos preditivos
Com base em procedimentos apresentados anteriormente, foi calculado o
modelo preditivo da relação entre propaganda e vendas, de maneira que, quanto
maiores forem os investimentos em propaganda, maiores também serão as vendas
previstas.
Será necessário, no entanto, partirmos para a interpretação dos parâmetros
que foram calculados e, principalmente, como essa interpretação pode levar a
melhores tomadas de decisão.
Iniciemos essa análise com o valor de a = 117,07. Sua interpretação remonta à
definição dessa parte fixa: é o valor previsto de vendas, em milhões de reais por ano,
que independe do investimento em propaganda. Também podemos entender desta
maneira: independentemente do que aconteça com a propaganda, a estimativa é de
que as vendas já comecem em R$ 117,07 milhões.
Por sua vez, b = 9,74 significa que, para cada incremento de R$ 1 milhão em
propaganda por ano, a estimativa é de que as vendas tenham incremento de R$ 9,74
milhões por ano.
É evidente que esse modelo é uma representação simplificada da realidade
e, potencialmente, outras variáveis que não foram consideradas também tenham
efeito nas vendas, como preço da concorrência, nível de renda e inflação, apenas
para citar alguns exemplos. No entanto, vale lembrar que nosso objetivo de partida
era apenas estabelecer uma relação entre propaganda e vendas.
Para o tomador de decisão, o uso da técnica de regressão linear simples é de
particular interesse, pois permite, ao propor uma relação preditiva, criar cenários
simulados.
De volta ao nosso exemplo, se a relação entre propaganda e vendas é vendas =
117,07 + 9,74 * (propaganda), quanto será necessário investir em propaganda para
que as vendas atinjam R$ 50 milhões? Ou R$ 100 milhões? A Tabela 3, a seguir,
apresenta alguns cenários simulados.
Tabela 3 – Cenários simulados para a relação vendas = 117,07 + 9,74 * (propaganda)
Propaganda
(R$ milhões)
Cálculo
Vendas estimadas
(R$ milhões)
R$ 0 vendas = 117,07 + 9,74 * (0) vendas = R$ 117,07
R$ 10 vendas = 117,07 + 9,74 * (10) vendas = R$ 214,47
R$ 20 vendas = 117,07 + 9,74 * (20) vendas = R$ 311,87
R$ 50 vendas = 117,07 + 9,74 * (50) vendas = R$ 604,07
R$ 100 vendas = 117,07 + 9,74 * (100) vendas = R$ 1.091,07
Fonte: Elaborada pelo autor.
Vídeo
Introdução à análise multivariada de dados: regressão e correlação 159
Perceba que o valor de R$ 1.091,07 para vendas na última linha da Tabela 3 é uma estimativa,
portanto não há garantia de que esse valor, realmente, acontecerá na prática. Nesse momento, vale
esta reflexão: se não temos a certeza de que o valor de R$ 1.091,07 acontecerá, por que usaremos
esse modelo para tomar a decisão de investir, digamos, R$ 100 milhões em propaganda? Por que
não se pode ter certeza?
Por se tratar de um modelo preditivo, ele foi gerado com base em dados históricos. A lógica
é que, com base em dados históricos, tenta-se prever acontecimentos futuros. Essa premissa é bem
razoável e funcionará em muitos casos. No entanto, também é razoável aceitar que mudanças podem
acontecer, por exemplo, choques econômicos, mudanças no comportamento do consumidor ou
decisões políticas nos Estados Unidos. Como é difícil prever essas mudanças, não se pode afirmar
que o modelo acertará todas as previsões.
Outro motivo pelo qual a previsão pode não funcionar é por conta da ordem de grandeza
dos valores envolvidos. De um lado (à esquerda no gráfico), é evidente que não podemos
considerar valores negativos para investimentos em propaganda (embora essa condição
exista matematicamente). De outro lado (à direita no gráfico), até que valores de propaganda
podemos supor que o modelo preditivo funcione bem (mesmo considerando que não haja
mudanças no comportamento das variáveis envolvidas)? Perceba que, realmente, para valores
como R$ 100 milhões, R$ 1 bilhão ou R$ 10 bilhões em propaganda, o modelo fornecerá
um resultado, mas não se pode supor que esse resultado seja crível. Isso acontece porque os
valores usuais de propaganda estão entre R$ 8 milhões e R$ 42 milhões (ver dados fornecidos
na Tabela 1). Portanto, nessa ordem de grandeza, o modelo tende a funcionar melhor, ao passo
que, para valores muito fora dessa ordem de grandeza, não há outra opção a não ser testar e
confirmar se o modelo continua válido.
Por fim, ainda que aceitemos a limitação das mudanças em comportamento e estejamos
em ordens de grandeza condizentes com o fenômeno inspecionado, perceba que a técnica não
fornece indícios de como investir em propaganda, mas apenas o quanto investir, com base em
um determinado cenário eleito para vendas. Para tomar decisões sobre como investir melhor em
propaganda, teorias e práticas de outras áreas precisam ser angariadas, como em marketing, vendas
e comunicação.
Embora algumas dessas limitações possam até ser severas, o mérito da técnica de regressão
linear simples, no exemplo apresentado, é fornecer essa primeira estimativa da relação entre
propaganda e vendas. Isso já oferece uma contribuição importante no processo de tomada de
decisão, pois possibilita uma série de reflexões acerca do fenômeno e, com a visão interdisciplinar
do tomador de decisão, decisões melhores podem ser alcançadas.
Considerações finais
Os modelos preditivos são particularmente úteis no processo de tomada de decisão, pois
permitem tentar predizer sobre o futuro. Nesta obra, conceitos mais gerais e algumas ferramentas
computacionais foram apresentados para fornecer uma ideia de como são calculadas correlação e
regressão linear simples, duas técnicas que possibilitam entender a relação entre variáveis.
Estatística Aplicada160
O uso de recurso computacional tem sido crescente e tem habilitado investigar a relação
entre variáveis com cada vez mais dados. O crescimento de aplicações ligadas ao big data, por
exemplo, é uma evidência nesse sentido. Porém, embora o poder computacional seja cada vez
maior, o papel crítico do pesquisador continuará a ter seu valor inestimável no planejamento da
pesquisa e na análise dos achados.
Este capítulo procurou desvendar os primeiros passos na análise multivariada de dados,
um tema cheio de oportunidades nos métodos estatísticos. Estudos futuros podem incluir
o aprofundamento da discussão sobre o poder da relação: até que ponto a equação do modelo
consegue representar o conjunto de dados inspecionados? Quanto mais dispersa a nuvem de
pontos, mais fraca será a relação entre as variáveis? Além disso, é cabível também aprofundamento
para o caso da regressão linear múltipla, em que não apenas uma variável de entrada condicione
uma variável de interesse, como foi o caso de propaganda e vendas, mas quando múltiplas variáveis
condicionam a variável de interesse.
Ampliando seus conhecimentos
• INVESTIR em educação aumenta a renda? Por quê? 24 ago. 2017. Disponível em: http://
porque.uol.com.br/investir-em-educacao-aumenta-a-renda/. Acesso em: 26 maio 2019.
Um dos assuntos mais estudados em economia é a relação entre educação (anos de estudo)
e renda (por exemplo, salário ouPIB). Segundo a matéria, no Brasil, para cada ano a mais
de educação, o salário aumenta entre 10% e 15%. Isso significa que existe uma relação de
causalidade entre anos de estudo e renda: quanto mais anos de estudo, maior será a renda.
Consequentemente, a correlação entre essas variáveis costuma ser alta.
• SANTANA, P. Cadastro positivo: entenda o que é e como funciona. Terra, 16 maio 2019.
Disponível em: https://www.terra.com.br/economia/cadastro-positivo-entenda-o-que-e-
e-como-funciona,e6aa6eae041e780da6faea0fda9d53fe7185t2ix.html. Acesso em: 26 maio
2019.
O cadastro positivo está diretamente relacionado ao processo de credit scoring. No
credit scoring, uma pontuação é atribuída a um indivíduo ou empresa, e, com base nela,
a instituição financeira avalia o risco para concessão de crédito para esse indivíduo ou
empresa. Atualmente, informações como dívidas anteriores, patrimônio, renda, idade,
apenas para citar algumas variáveis, são usadas para avaliar o risco de crédito. Trata-se de
um dos casos mais clássicos de regressão linear, pois o pressuposto é que essas variáveis
contribuem para explicar o limite de crédito. Nesse contexto, o cadastro positivo será
uma contribuição para bons pagadores, pois permitirá que informações do comportamento
de pagamento possam ser usadas para a avaliação de concessão de crédito.
Introdução à análise multivariada de dados: regressão e correlação 161
Atividades
1. Correlação
Suponha cinco ativos negociados em bolsa de valores que tiveram as rentabilidades anuais
calculadas, conforme apresenta a Tabela a seguir.
Tabela – Rentabilidades anuais de cinco ativos fictícios negociados em bolsa
A B C D E
Ano 0 10% 7% 1% -1% 5%
Ano 1 7% 4% 4% -5% 4%
Ano 2 5% 2% 5% -7% 5%
Ano 3 8% 5% 4% 1% 1%
Ano 4 12% 10% -1% 4% -1%
Você está montando uma carteira para investimento e quer incluir dois dos ativos
apresentados. Por motivo de uma estratégia de investimento que você queira adotar, você
incluirá na carteira dois ativos que tenham comportamentos diferentes, pois isso poderá
ajudar a reduzir o risco da carteira. Quais são os dois ativos que você escolherá? Por quê?
2. Estimação de parâmetro de regressão linear
Suponha que você esteja interessado(a) em entender o efeito da educação na riqueza de um
país. Para isso, coletou dados de anos de educação média da população e PIB per capita de
oito países fictícios, conforme apresenta a Tabela a seguir.
Tabela – Anos de educação e PIB per capita de oito países fictícios
País Anos de educação PIB per capita (em $ mil)
A 4,8 10,7
B 5,6 11,1
C 6,6 11,2
D 7,3 12,0
E 7,9 14,1
F 8,6 14,4
G 8,8 13,7
H 8,8 13,8
Há estudos diversos comprovando a relação entre anos de educação e renda, motivo pelo
qual a premissa de que existe uma relação entre as variáveis é aceitável. Você propõe um
modelo do tipo:
PIB per capita = a + b * (anos de educação)
Com base nos dados apresentados na Tabela, enuncie o modelo completo, com os valores
de a e b.
Estatística Aplicada162
3. Interpretação de modelos preditivos
Ainda no caso apresentado na Questão 2, qual é a interpretação dos parâmetros calculados?
Baseando-se nos resultados, quais decisões podem ser formuladas?
Referências
HAIR JUNIOR, J. F. et al. Análise multivariada de dados. Trad. de Adonai S. Sant’Anna e Anselmo C. Neto. 5.
ed. Porto Alegre: Bookman, 2005.
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
MUROLO, A. C.; BONETTI, G. Matemática aplicada à administração, economia e contabilidade. 2. ed. São
Paulo: Cengage Learning, 2012.
Gabarito
1 Estatística descritiva: conceitos e aplicações
1. Embora não exista uma única resposta correta, o objetivo da pesquisa deve versar
sobre como reduzir o turnover (rotatividade) no departamento de gestão de pessoas
da organização. Como esse departamento tem operações de forma descentralizada,
convém conduzir a pesquisa tanto para líderes quanto para demais colaboradores,
mantendo o recorte do cargo, pois a percepção de quem é líder pode ser diferente da
percepção dos demais colaboradores. A população engloba todos os colaboradores
atuais do departamento de gestão de pessoas. Parte da pesquisa pode ser diretamente
com todos os líderes e, para os demais colaboradores, pode ser por amostragem, desde
que a amostra tente alcançar, o máximo possível, a representatividade e a aleatoriedade.
2. Embora não exista uma única resposta correta, a elaboração do questionário deve ter
atenção para estes dois pontos: (a) escolha das variáveis de interesse, podendo incluir
variáveis demográficas (por exemplo: idade, semestre no curso e cidade de origem)
e variáveis da pesquisa (por exemplo: satisfação com infraestrutura, satisfação com
corpo docente e satisfação com forma de pagamento); e (b) escolha de escala adequada
para cada variável (nota de 0 a 10 para variáveis de satisfação). As perguntas precisam ser
as mais inteligíveis possíveis, sem margem para dúvidas (exemplo: “estou satisfeito com
a infraestrutura da instituição [escala de 0 - 10]”. Há que se considerar a relação entre o
questionário e como os dados serão sintetizados e analisados. O exemplo fornecido ao
longo do capítulo merece ser revisitado.
3. Embora não exista uma única resposta correta, há alguns padrões que os resultados
apresentam (análise na linha): as notas são ótimas nas disciplinas de exatas, são aceitáveis
nas disciplinas de humanas, precisam melhorar em Ciências e precisam melhorar muito
em idiomas. Outro padrão que pode ser identificado (análise na coluna) com base
nos números é que na P3, o desempenho foi sistematicamente pior; se a dificuldade
é equivalente, pode ter acontecido uma falta de estudo generalizada para a P3 e não
apenas uma dificuldade em algumas disciplinas. Ações propostas podem versar sobre
mais dedicação de tempo para estudar temas em que o desempenho precise melhorar
ou melhorar muito e alocação de aulas de reforço dentro ou fora da escola nesses temas,
por exemplo. As ações propostas precisam estar em linha com o objetivo de melhorar o
desempenho do filho ou filha na P4.
164 Estatística Aplicada
2 Estatística descritiva: análise de dados
1. Número não pode ser considerado variável, pois não tem interpretação da maneira como
está apresentado. Sugere-se sua exclusão ou a atribuição de uma interpretação, por exemplo,
a sequência em que os alunos se matricularam: número 1 significa que o indivíduo foi o
primeiro a se matricular para a formação da atual turma regular.
Grau de instrução é uma variável qualitativa ordinal e sua interpretação parece remeter ao
maior grau de instrução concluído do indivíduo. Dois estados apenas (ensino médio e ensino
superior) podem ser simplificações demasiadas da realidade. Nesse caso, no entanto, por se
tratar de um curso de graduação, os estados parecem fazer sentido: ensino superior pode
ser para aquele que esteja cursando um segundo curso superior, porém uma inspeção do
formulário de entrada é cabível.
Número de carros está como uma variável quantitativa discreta. Nesse caso, há ocorrência de
missing data, além de parecer haver uma relação entre grau de instrução e número de carros.
Merece uma inspeção do formulário de entrada de dados para entender se essa hipótese de
relação se aplica ou se é apenas coincidência.
Renda está como uma variável quantitativa contínua. Ademais do inconveniente de ter
que multiplicar pelo salário mínimo, pode haver dúvidas severas sobre qual é esse salário
mínimo, portanto sugere-se armazenar renda com o valor mais atualizado e diretamente
em reais.
Idade está como variável quantitativa discreta em anos. Melhor maneira de armazenar é por
meio da data de nascimento, pois ela permite riqueza maior da base de dados, mesmo que
para oportunidades futuras.
2. Embora não exista apenas uma resposta correta, é necessário identificar que, em valores
absolutos, as vendas subiram no país como um todo, mas foram puxadas por aumento
de vendas nas regiões Sudeste e Sul. Outraevidência nesse sentido é o aumento relativo das
vendas dessas regiões do ano XXX1 para o ano XXX2. Por outro lado, as vendas diminuíram
na região Nordeste e praticamente se mantiveram estáveis nas regiões Norte e Centro-Oeste.
O crescimento, portanto, não foi uniforme. Embora, em um caso real, mais informações
precisem ser coletadas e analisadas, ações gerenciais para esse caso fictício podem incluir:
identificar melhores práticas de vendas nas regiões Sudeste e Sul (benchmarking interno
para que possamos levar melhores práticas às outras regiões) ou contratar uma pesquisa
qualitativa para entender de forma mais aprofundada os motivos para que o desempenho
nas demais regiões tenha sido menor do que no Sudeste e no Sul. É importante que a resposta
inclua não apenas a inspeção numérica, mas efetivas ações gerenciais, ainda que em caráter
fictício e hipotético.
3. O desenvolvimento de gráficos por meio de planilha eletrônica ou pacote estatístico permite
análises visuais que favorecem a tomada de decisão. Encontre, a seguir, os gráficos solicitados
e confirme se seu resultado é convergente.
Gabarito 165
Quantidade vendida no ano XXX1 (peças)
15.500
50.000
7.500
15.000
5.000
0 10.000 20.000 30.000 40.000 50.000 60.000
Sudeste
Sul
Norte
Nordeste
Centro-Oeste
5.000
12.500 8.000
62.500
23.000
70.000
60.000
50.000
40.000
30.000
20.000
10.000
0
Sudeste SulNorte Nordeste Centro-Oeste
Quantidade vendida no ano XXX2 (peças)
% vendido no ano XXX1
Sudeste
Sul
Norte
Nordeste
Centro-Oeste
5,38%
8,06%
53,76%
16,13%
16,67%
% vendido no ano XXX2
Sudeste
Sul
Norte
Nordeste
Centro-Oeste
4,50%
11,26%
7,21%
56,31%
20,72%
166 Estatística Aplicada
3 Estatística descritiva: medidas-resumo
1.
Medidas-resumo Função estatística no MS-Excel Resultado
Média =Média(matriz) –0,39
Moda =Modo(matriz) #N/D
Mediana =Med(matriz) –0,55
Máximo =Máximo(matriz) 5,42
Mínimo =Mínimo(matriz) –4,99
3Q =Quartil.exc(matriz;3) 0,39
1Q =Quartil.exc(matriz;1) –1,35
Amplitude [máximo - mínimo] 10,41
Amplitude interquartil [3Q – 1Q] 1,74
Desvio padrão =Desvpad(matriz) 2,04
Coeficiente de variação (%)
desvio padrão
média
x 100 –529,12
Foram utilizadas as funções estatísticas do software MS-Excel para o cálculo das medidas-
-resumo solicitadas, e as fórmulas foram mantidas na resposta apenas para que você consiga
ter o histórico da solução apresentada. Matriz significa o conjunto de dados. Para o cálculo
da moda, o resultado obtido de #N/D significa que nenhum valor se repete, motivo pelo qual
o conjunto de dados é amodal. O valor calculado do coeficiente de variação está correto,
embora possa causar estranheza. Em algumas situações, como é o caso, em que o valor
absoluto de média é muito baixo, o coeficiente de variação apresenta valores distorcidos e
não poderá ser utilizado para a tomada de decisão. Para dúvidas quanto ao uso de funções
estatísticas do MS-Excel, sugere-se curso específico.
2. Em relação ao comportamento médio dos ativos, ambos têm média e mediana negativas,
motivo pelo qual se pode afirmar que há tendência de baixa no período inspecionado.
Além disso, ambos são amodais (nenhum valor se repete), portanto o cálculo da moda não
contribui para a tomada de decisão. Em relação à oscilação, no entanto, os comportamentos
são diferentes. Comparativamente, o Ativo 1 oscila menos do que o Ativo 2, e por isso pode
ser considerado menos volátil, menos arriscado. Evidências incluem: amplitude, amplitude
interquartil e desvio padrão são sistematicamente menores para o Ativo 1. O coeficiente
de variação não contribuiu para a consideração quanto à dispersão do ativo, pois, por uma
limitação matemática, quando o denominador (média) tem valor absoluto próximo a zero,
como é o caso, essa medida tende a infinito e não pode ser usada para comparar grupos.
Gabarito 167
Ativos menos voláteis (menor variação e oscilação) podem ser recomendados para perfil mais
conservador (avesso ao risco), ao passo que ativos mais voláteis podem ser recomendados
para perfil mais arrojado (gosta de risco).
3. Gráficos do tipo box-plot são ótimos para comparar grupos quando estão na mesma escala,
como é o caso apresentado. O conjunto 1 apresenta todas as medidas de posição mais altas
do que o conjunto 2, o que implica afirmar que, como comportamento geral, o conjunto
1 possui desempenho maior do que o conjunto 2. Além disso, a inspeção visual leva à
consideração de que o conjunto 1 é mais homogêneo do que o conjunto 2, portanto, além de
ter desempenho melhor, esse comportamento é mais esperado em discentes do conjunto 1
(oscilam menos entre si) quando comparados com seus pares do conjunto 2 (oscilam mais
entre si). Assim, dadas outras condições constantes, é possível afirmar que as aulas adicionais
surtiram um efeito benéfico para discentes do conjunto 1.
4 Noções de probabilidade
1. A probabilidade de saírem faces iguais no lançamento de dois dados é de 16,67%, conforme
a Figura a seguir.
1
1
1
1
1
1
2
2
2
2
2
2
2
3
3
3
3
3
3
3
D1
4
4
4
4
4
4
4
5
5
5
5
5
5
5
6
6
6
6
6
6
6
1
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
�
�
�
�
�
�
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
1
6
1
6
1
36
� �
P faces iguais� � � ��
�
�
�
�
�� � � � �
1
6
1
6
6 6
36
1
6
0 1667 16 67, , %
168 Estatística Aplicada
2.
a) A probabilidade de serem uma de cada cor é de 60%.
b) A probabilidade de serem ambas da mesma cor é de 40%.
P B Be� � � � � �3
5
2
4
6
20
3
10
P B Pe� � � � � �3
5
2
4
6
20
3
10
P P Pe� � � � � �2
5
1
4
2
20
1
10
P P Be� � � � � �2
5
3
4
6
20
3
10
P B P P P Be e� � � � � � � � � �3
10
3
10
6
10
0 6 60, %
P B B P P Pe e� � � � � � � � � �3
10
1
10
4
10
0 4 40, %
3. A probabilidade de que ela seja do gênero feminino é de 4,76%. Seja Enfermidade o evento de
um indivíduo possuir a enfermidade e EnfermidadeC o evento de não possuir a enfermidade:
Enfermidadec
Enfermidadec
50% 95%
0,25%
99,75%
50%
5%
Masculino
Feminino
Enfermidade
Enfermidade
P M
P
P D
P
� � �
� � �
� � � � � � �
�
0 5
0 0025
0 5 0 05 0 5 0 0025 0 02625
,
,
, , , , ,
D|M
M|D�� � �� � �� �
�
�
� �
P M P
P D
M|D 0 5 0 0025
0 02625
0 0476 4 76, ,
,
, , %
Gabarito 169
5 Distribuições de probabilidade
1. O preço justo a se pagar pelo bilhete é R$ 5,40. A esperança matemática é dada por 4% de
chance de ganhar R$ 100,00, mais 0,5% de chance de ganhar R$ 200,00 e 0,1% de chance de
ganhar R$ 400,00:
E(x) = 0,04 × 100 + 0,005 × 200 + 0,001 × 400 = R$ 5,40
Como o preço cobrado é de R$ 6,00, maior do que a esperança matemática do jogo, não vale
a pena participar.
2.
a) A probabilidade de que, dentre 18 jacas despachadas, todas as 18 estejam maduras é de
39,72%. Trata-se exatamente da probabilidade P(18).
b) A probabilidade de que, dentre 18 jacas despachadas, ao menos 16 estejam maduras é de
94,18%. Trata-se da probabilidade P(pelo menos 16) = P(16) + P(17) + P(18).
c) A probabilidade de que, dentre 18 jacas despachadas, no máximo 14 estejam maduras é
de 1,1%. Trata-se da probabilidade P(máx 14) = P(0) + P(1) + P(2) + ... + P(13) + P(14)
= 1 – [P(15) + P(16) + P(17) + P(18)]
A média da distribuição é 17,1 jacas, e a variância da distribuição, 0,86 jacas2.
0,95
0,05
Maduras
Verdes
P
pelomenos P P P
18 0 95 0 3972
16 16 17 18 0 16
18
, ,
( ) , 883 0 3763 0 3972 0 9418 94 18
16
18
16
0 95 1 016
, , , , %
,P ,, !
! !
, , , , ,95 18
16 2
0 95 0 05 153 0 44 0 0025 0 1683 118 16 16 2 66 83
17
18
17
0 95 1 0 95 18
17 1
0 9517
18 17 1
, %
, , !
! !
,P 77 10 05 18 0 4181 0 05 0 3763 37 63
15
18
17
0 95
, , , , , %
,P 115
18 15 15 31 0 95 15
15 3
0 95 0 05 816 0 4632 0 00012, !
! !
, , , , 55 0 0472 4 72
14 1 15 16 17 18 1 0 0472
, , %
,P máx P P P P 0 1683 0 3763 0 3972 0 011 1 1
0 95 1718
, , , , , %
,E x np ,
, , ,
1
1 18 0 95 0 05 0 855 2
jacasvar x np p jacas
P
170 Estatística Aplicada
3.
a) A probabilidade de a remessa ser rejeitada, se uma amostra de três itens for selecionada,
é de 46,67%.
b) A probabilidade de a remessa ser rejeitada, se uma amostra de quatro itens for selecionada,
é de 66,67%.
c) A probabilidade de a remessa ser rejeitada, se uma amostra de cinco itens for selecionada,
é de 77,78%.
2
8
N = 10
n
P
�
� � �
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
3
0
2
0
8
3
10
3
2
0 2
8
5 3
10
7
1 56
!
! !
!
! !
!
!
1120
0 4667 46 67
1 0 1 0 4667 0 5333 53 3
� �
� � � � � � � �
, , %
( ) , , ,P Rejeitada P 33
4
0
2
0
8
4
10
4
2
0 2
8
4 4
10
6 4
%
!
! !
!
! !
!
! !
n
P
�
� � �
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�� � �
� � � � � � � �
70
210
0 3333 33 33
1 0 1 0 3333 0 6667 6
, , %
( ) , ,P Rejeitada P 66 67
5
0
2
0
8
5
10
5
2
0 2
8
5 3
10
5
, %
!
! !
!
! !
!
n
P
�
� � �
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
!! !
, , %
( ) , ,
5
56
252
0 2222 22 22
1 0 1 0 2222 0 777
� � �
� � � � � � �P Rejeitada P 88 77 78� , %
Gabarito 171
6 Inferência estatística: amostragem
1.
a) P(0 ≤ Z ≤ 1,96) = 47,5%
Interseção da linha 1,9 com a coluna 6.
b) P(–1,96 ≤ Z ≤1,96) = P(–1,96 ≤ Z ≤ 0) + P(0 ≤ Z ≤ 1,96) = 47,5% + 47,5% = 95%
Da propriedade de simetria, a probabilidade de Z estar entre -1,96 e 0 é a mesma
probabilidade de estar entre 0 e 1,96, conforme calculado no item (a). Portanto, proceder
com a soma das probabilidades.
c) P(Z ≥ 1,28) = 50% –P(0 ≤ Z ≤ 1,28) = 50% – 39,973% = 10,027%
Da propriedade de que a área sob a curva à direita da média será de 0,5, o que representa
que 50% das ocorrências têm mensurações superiores à média, retira-se de 50% a
probabilidade de Z estar entre 0 e 1,28.
d) P(Z ≤ 0,34) = 50% + P(0 ≤ Z ≤0,34) = 50% + 13,307% = 63,307%
Da propriedade de que a área sob a curva à esquerda da média será de 0,5, o que
representa que 50% das ocorrências têm mensurações inferiores à média, soma-se 50% à
probabilidade de Z estar entre 0 e 0,34.
e) P(–0,83 ≤ Z ≤ 1,28) = P(–0,83 ≤ Z ≤0) + P(0 ≤ Z ≤ 1,28) = 29,673% + 39,973% = 69,646%
Por se tratar de cálculo de probabilidade de um intervalo, é possível dividir o cálculo em
duas partes: (1) a probabilidade de Z estar entre –0,83 e 0; e (2) a probabilidade de Z estar
entre 0 e 1,28. E, assim, proceder com a soma das probabilidades das partes.
2. Primeiramente, será necessário reconhecer que seja possível aproximar esse fenômeno
descrito para uma variável normal, cuja característica marcante é: muitos indivíduos ao
redor de um valor médio e poucos indivíduos nos extremos. Para a altura da população,
essa aproximação é bem aceitável. Sendo uma variável normal, a tentativa será converter
o fenômeno de interesse na normal padrão, pois nela já existem valores previamente
calculados. Para esse fim, esta fórmula de conversão será adotada:
Z xc
Onde:
x = valor de interesse no fenômeno
Zc = equivalente, na normal padrão, ao valor de interesse no fenômeno
μ = média populacional no fenômeno
σ = desvio padrão populacional no fenômeno
Em seguida, será necessário identificar os valores da fórmula a partir do enunciado: x será o
valor em cada item do enunciado (a), (b) e (c), e Zc será seu valor correspondente na Tabela 1,
μ = 1,73 m e σ = 0,08 m. É de ressaltar que média e desvio padrão precisam estar na mesma
unidade, motivo pelo qual 8 cm = 0,08 m.
172 Estatística Aplicada
a) x =1,80 m
Z xc
, ,
,
,
,
*1 80 1 73
0 08
0 07
0 08
0 875 0 88
*Como se trata de um fenômeno aproximado à normal, importa pouco se o arredondamento
acontece para cima, para baixo ou se a preferência será pela interpolação. Na resolução,
adotou-se o arredondamento para cima, pois pequenas variações são plenamente aceitáveis.
Da Tabela 1:
P(Z ≥ 0,88) = 50% – P(0 ≤ Z ≤ 0,88) = 50% –31,057% = 18,943%
Portanto:
P(x ≥ 1,80 m) =18,943%
b) x = 1,60 m
Z xc
, ,
,
,
,
*1 60 1 73
0 08
0 13
0 08
1,625 1,63
*Como se trata de um fenômeno aproximado à normal, importa pouco se o arredondamento
acontece para cima, para baixo ou se a preferência será pela interpolação. Na resolução,
adotou-se o arredondamento para cima, pois pequenas variações são plenamente aceitáveis.
Da Tabela 1:
P(Z ≤ –1,63) = 50% –P(–1,63 ≤ Z ≤ 0) = 50% – 44,845% = 5,155%
Portanto:
P(x ≤1,60 m) = 5,155%
c) Como já temos os valores calculados nos itens (a) e (b), podemos seguir com:
P(–1,63 ≤ Z ≤ 0,88) = P(–1,63 ≤ Z ≤ 0) + P(0 ≤ Z ≤ 0,88) = 44,845% + 31,057% = 75,902%
P(1,60 m ≤ x ≤ 1,80 m) = 75,902%
3. Embora não exista uma única resposta certa, ela precisa versar sobre representatividade
e aleatoriedade.
Em relação à representatividade, precisam ser escolhidos discentes de diferentes regiões
geográficas, de diferentes cursos, de diferentes turmas de um mesmo curso, de diferentes
idades, de diferentes gêneros, apenas para citar alguns critérios para representatividade
da amostra.
Em relação à aleatoriedade, para cada recorte realizado, é necessário escolher indivíduos
da população ao acaso para comporem a amostra. Por exemplo, se precisamos escolher 100
indivíduos do curso de Ciências Contábeis, de um total de 1.000 indivíduos regularmente
matriculados nesse curso, cada um dos 1.000 indivíduos precisa ter chances iguais de ser
selecionado para compor a amostra. Uma maneira de operacionalizar esse critério é por
meio de sorteio.
Gabarito 173
7 Inferência estatística: estimação
1.
Margem de erro z
n
, ,
2
1 96 9 00
49
2 52R
R 0Interv de a xç z
n
: , , $
2
49 60 2 52 47 08 52 12; $R
A interpretação desse cálculo é esta: com 95% de confiança, o intervalo de (R$ 47,08; R$ 52,12)
contém a média das quantias desembolsadas pelos clientes (se todos fossem inspecionados)
por um jantar em dia de semana. Como a média anterior estava ao redor de R$ 35,00, há
evidências de que a campanha promocional tenha atingido o objetivo de aumentar a média
das quantias desembolsadas pelos clientes por um jantar em dia de semana.
2. Como σ é desconhecido, é necessário proceder com cálculo de média amostral x e desvio
padrão amostral s. Por meio de software adequado (para dúvidas, ver sugestões em capítulos
anteriores), os resultados obtidos são: x = 6,03 e s = 1,97.
� �Margem de erro t s
n90 0 1
1 699 1 97
30
0 61% ,
, ,�
Intervalodecon�ança t
s
n% ,90 0 1
6,03 0,61 5,42; 6,64 =x =
� �Margem de erro t
s
n95 0 05
2 045 1 97
30
0 74% ,
, ,�
Interv de a xç t s
n0 05
6,03 0,74 = 5,29; 6,77 =95% ,
Margem de erro t s
n95 0 01
2 756 1 97
30
0 99%
, ,� � �,
Interv de a xç t s
n99 0 1
6 03 0 99 5% , ,, ;0 7,024
A relação entre grau de confiança e margem de erro pode ser observada na Tabela a seguir.
Grau de confiança Margem de erro Intervalo de confiança
90% 0,61 5,42 a 6,64
95% 0,74 5,29 a 6,77
99% 0,99 5,04 a 7,02
Conclui-se que, conforme aumenta o grau de confiança, a margem de erro e o intervalo
de confiança também aumentam, o que mostra uma relação diretamente proporcional.
174 Estatística Aplicada
Por isso, saber balancear grau de confiança e margem de erro (e, consequentemente, intervalo
de confiança) é uma situação de trade-off.
3. Seja r = números de voos pontuais e grau de confiança de 95% (definido no enunciado):
p r
n
= = =
455
550
0 83,
Margem de erro z
p p
n
,
,,0 05
2
1
1 96
0 83 0 17
550
0 03
3Interv de a pç z
p p
n,0 052
1
0 8 ,, , ; ,, 030 0 80 0 86
Margem de erro
p p
n
,
,0 05
2
1
1 96
0 5 0 5
0 02
n
n = 2.401 voos
Caso o aeroporto da capital do país fictício tenha menos do que 2.401 voos, todos precisarão
ser inspecionados ou uma margem de erro maior precisará ser arbitrada.
8 Inferência estatística: teoria da decisão
1. Sejam estas hipóteses:
H0 : μ = 8 minutos
Ha : μ ≠ 8 minutos
E estatística de teste:
Z
x
n
calculado
0 8 5 8
3 2
120
1 71, , ,
Para cálculo de Zcrítico, considerar teste bicaudal e α = 0,05. Portanto, linha 1,9 e coluna 6 na
tabela da distribuição normal padrão paraP(Z ≥ Zcrítico ) = 2,5% ou P(0 ≤ Z ≤ Zcrítico ) = 47,5%.
Zcalculado ≥ Zcrítico → 1,71 ≥ 1,96 (falso)
Portanto, aceita-se H0. Isso implica que a amostra traz evidências de que o tempo médio de
espera não difira do padrão de 8 minutos e, assim, o projeto de instalação de televisores nas
filas dos caixas pode avançar.
Gabarito 175
2. Primeiramente, procede-se com a declaração dos testes de hipótese para essa situação. A
rejeição de H0 implica que a satisfação esteja dentro dos requisitos de qualidade da empresa:
H0 : μ ≤ 7
Ha: μ > 7
Como σ é desconhecido, é necessário proceder com cálculo de média amostral x e desvio
padrão amostral s. Por meio de software adequado (para dúvidas, ver sugestões em capítulos
anteriores), os resultados obtidos são: x = 6,93 e s = 1,84.
t x
s
n
calculado
0 6 93 7
1 8 4
30
0 2 1
,
, ,
Considerando α = 0,01 (portanto, na tabela, considerar a coluna p = 2%), para 29 graus de
liberdade, obtém-se, da tabela de distribuição t-Student, tcrítico = 2,462. Para teste de cauda
inferior, a condição para rejeição de H0 é tcalculado ≤ –tcrítico → –0,21 ≤ –2,462 (falso). Portanto,
não se pode rejeitar H0 e há evidência na amostra de que a satisfação não esteja dentro dos
requisitos de qualidade da empresa App 88.
Para α = 0,05 (na tabela, considerar a coluna p = 10%), tcrítico = 1,699. Na comparação de
tcalculado ≤ –tcrítico → –0,21 ≤ –1,699 (falso), a conclusão continua sendo pela não rejeição de H0.
3. Os testes de hipóteses podem ser assim enunciados:
H0 : p ≤ 0,80
Ha : p > 0,80
Seja r = cidadãos a favor do projeto de lei, grau de confiança de 95% (definido no enunciado)
e teste de cauda superior:
p r
n
= = =
455
550
0 83,
,,
Z p p
p p
n
calculado
0
0 01
0 8 3 800
0 20 0 2
550
0 0 3
0 0 11 0
, , ,
, 7
1 7 6,
Para cálculo de Zcrítico, considerar teste de cauda superior e α = 0,05. Portanto, linha
1,6 e coluna 4 na tabela da distribuição normal padrão para P(Z ≥ Zcrítico) = 5% ou
P(0 ≤ Z ≤ Zcrítico) = 45%.
Zcalculado ≥ Zcrítico → 1,76 ≥ 1,64 (verdadeiro)
Desse modo, rejeita-se H0. Isso implica que a amostra traz evidências de que, se a votação para
o projeto de lei fosse hoje, mais de 80% da população estaria a favor e, consequentemente,
ele seria aprovado.
176 Estatística Aplicada
9 Introdução à análise multivariada de dados:
regressão e correlação
1. Correlação
Uma das maneiras de inspecionar a relação entre ativos é por meio do cálculo da correlação,
par a par. O cálculo pode ser feito por meio da função correl do Excel e os resultados (Matriz
de correlação para ativos A, B, C, D e E ) estão apresentados na Tabela a seguir.
A B C D E
A
B 0,995
C -0,966 -0,973
D 0,898 0,899 -0,788
E -0,641 -0,684 0,542 -0,850
Para escolha de dois ativos que tenham comportamentos diferentes, não há uma única
resposta correta, mas vale a interpretação do conceito de correlação: valores acima de 0,70
significam que os dois ativos têm comportamentos convergentes (quando um sobe, outro
também sobe); valores abaixo de –0,70 significam que os dois ativos têm comportamentos
divergentes (quando um sobe, outro desce) e valores próximos de 0 significam que não há
relação linear entre os ativos.
Para ativos com comportamentos divergentes, portanto, convém tomar aqueles que tenham
valores menores do que –0,70. Nesse caso, os pares (A, C) e (B, C) são bons exemplos,
embora os pares (D, E) e (C, D) também sejam aceitáveis.
2. Estimação de parâmetro de regressão linear
A partir dos procedimentos apresentados neste capítulo, é possível usar o Excel para plotar os
dados, incluir um diagrama de dispersão e solicitar que o software calcule a reta de tendência
e a consequente equação resultante, conforme o Gráfico a seguir, que apresenta a Relação
entre PIB per capita e anos de educação.
15
14
13
12
11
10
4 5 6 7 8 9
Anos de educação
PI
B
pe
r c
ap
ita
($
m
il) y = 0,9252x + 5,8709
PIB per capita (em $ mil) vs anos de educação
Gabarito 177
Assim, o modelo completo pode ser expresso por:
PIB per capita = 5,88 + 0,93 × (anos de educação)
3. Interpretação de modelos preditivos
O modelo resultante será expresso por:
PIB per capita = 5,88 + 0,93 × (anos de educação)
Há duas interpretações mais imediatas. Primeiramente, a = 5,88 significa que,
independentemente dos anos de educação, o PIB per capita terá R$ 5,88 mil como ponto
de partida. E b = 0,93 significa que, para cada um ano adicional de educação (na média
da população), haverá um incremento de R$ 0,93 mil no PIB per capita. Os resultados
comprovam que existe uma relação positiva entre as variáveis, de modo que mais anos de
educação contribuem para aumento de renda, cuja aproximação está sendo dada pelo PIB
per capita. Como política pública, portanto, vale o investimento em educação.
Código Logístico
58573
Fundação Biblioteca Nacional
ISBN 978-85-387-6484-7
9 7 8 8 5 3 8 7 6 4 8 4 7