metodos quant

•

UNINTER

Welyson Barros

29/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Métodos Quantitativos

15.420 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 1/14
ESTATÍSTICA APLICADA
AULA 1
Prof. Tiago Claudino Barbosa
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 2/14
CONVERSA INICIAL
INTRODUÇÃO À ESTATÍSTICA
Nossa aula busca introduzir conceitos básicos da estatística e mostrar seu imenso potencial de
uso na economia e áreas correlatas.
Os esforços de aprendizado serão direcionados para e entendimento: (i) do objeto de estudo da
estatística e dos seus principais objetivos enquanto ciência aplicada; (ii) de alguns conceitos iniciais
aplicados em diversas técnicas estatísticas; (iii) da importância do uso de amostras e da forma de
coleta dos dados a serem analisados; (iv) de algumas formas de se resumir grandes conjuntos de
dados; (v) de algumas das principais aplicações da estatística na economia.
CONTEXTUALIZANDO
Em um ano, qual o efeito de um aumento nos gastos do governo na taxa de desemprego no
Brasil? Qual o impacto no salário de se ter cursado ensino superior? Esse impacto difere entre os
países e regiões e, se sim, por que? Qual o perfil médio e os desejos do público-alvo da minha
empresa? Qual a taxa de defeito nas peças que saem da minha linha de produção? Qual a previsão
do crescimento do meu mercado nos próximos cinco anos?
Essas e outras perguntas de relevância econômica, política e social são respondidas pela
estatística. A teoria econômica provê explicações teóricas para o comportamento e a relação entre
variáveis econômicas e variáveis do contexto social, porém a verificação empírica dessas teorias e a
aplicação para casos concretos dependem da existência de dados adequados e do emprego de
técnicas estatísticas.
O objetivo desta disciplina é mostrar a base da estatística e suas técnicas, que serão
aprofundadas na disciplina de econometria do quarto ano. Os tópicos serão apresentados de forma
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 3/14
sucinta e introdutória, sendo possível que os alunos se aprofundem em temas de seu interesse ao
lerem a bibliografia recomendada.
TEMA 1 – O QUE É E PARA QUE SERVE A ESTATÍSTICA?
O que é a estatística e qual a sua importância para a economia e áreas correlatas? Essas duas
perguntas serão exploradas na aula de hoje. É possível adiantar que a estatística tem um papel
central dentro da ciência econômica, ajudando a transpor os modelos teóricos da economia para a
análise de situações empíricas do mundo real. As técnicas estatísticas ajudam os economistas a
balizar suas previsões sobre o futuro, a testar hipóteses sobre o comportamento dos atores
econômicos e suas relações e a estimar a direção e a força das relações entre variáveis econômicas e
entre variáveis econômicas e outros fatores do contexto social, como variáveis políticas e sociais
(Hoffman, 2006).
A importância da estatística é tão grande que uma nova disciplina emergiu dentro da economia
através da junção de teoria econômica, modelos matemáticos baseados nessas teorias e uso de
técnicas estatísticas para a análise de dados empíricos – a econometria, que será ensinada no último
ano do nosso curso.
A nossa disciplina de Estatística Aplicada visa ensinar os conceitos e técnicas básicas da
estatística utilizados pelos economistas em uma variedade de situações práticas. Os conceitos a
serem ensinados não só formam a base para o entendimento da disciplina de Econometria, mas são
fundamentais para o aguçamento do senso crítico, para o entendimento de notícias e informações
científicas diversas e para a aplicação de conceitos e técnicas para a resolução de problemas que
economistas enfrentam no seu trabalho em empresas, governos, entidades sem fins lucrativos ou em
seus empreendimentos pessoais.
Para iniciarmos nossa jornada, devemos primeiro entender o que é a estatística e quais os
objetivos de suas duas principais áreas. “Estatística é a ciência que coleta, organiza, analisa e
interpreta dados para a tomada de decisão” (Larson; Farber, 2010, p.3). É aplicada em diversos
campos do conhecimento e da ação humana que envolvam dados e decisões, sejam de ordem
científica, tecnológica, empresarial, produtiva, comercial, de gestão pública, entre outros.
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 4/14
A matéria-prima da estatística são os dados, que podem ser quantitativos ou qualitativos. Para
que esses dados forneçam informações relevantes para situações do mundo real, eles devem ser
organizados e analisados com técnicas adequadas. Esse processo de transformação de conjuntos de
dados brutos em informações úteis para a tomada de decisão no mundo real é o objetivo principal
da estatística.
Para a realização desse objetivo, a estatística é dividida em duas partes. A estatística descritiva
que tem por objetivo apresentar, organizar e descrever um conjunto de dados de forma sucinta, e a
inferência estatística se refere a técnicas que permitem generalizações (inferências), que podem ser
feitas sobre características de uma população a partir de amostras e informações incompletas
(Hoffman, 2006).
Dessa forma, a essência da inferência estatística é aprender algo sobre uma população de
interesse a partir da coleta e análise de dados de uma parte menor de seus membros (amostras)
(Triola, 2006). Os tópicos abordados nas próximas seções devem tornar esses conceitos mais claros.
TEMA 2 – CONCEITOS INICIAIS
Alguns conceitos iniciais são necessários para se entender os objetivos e potenciais da
estatística. O quadro 1 apresenta uma parte desses conceitos iniciais, sendo os demais conceitos
iniciais apresentados em conteúdos posteriores.
Quadro 1 – Alguns conceitos básicos da estatística
CONCEITO DEFINIÇÃO EXEMPLO
Dado Dados são observações coletadas. Altura de estudantes de uma escola, cotações de uma
moeda ao longo de um ano.
Dado
quantitativo
Observação numérica representando contagens ou
medidas.
Peso de latas de refrigerantes produzidas em uma
fábrica, lucro de empresas de um determinado país
em um ano.
Dado
qualitativo
Observações que podem ser separadas em
diferentes categorias conforme alguma
característica não numérica.
Cores dos carros vendidos por uma concessionária,
voto no candidato X em uma eleição, cidade de
origem dos funcionários de uma empresa.
Variável Um atributo do objeto de estudo considerado que
tenha variação.
Renda per capita da população de um país, altura de
adultos de um país.
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 5/14
Variável
aleatória
Variável cujos valores provém de um processo
aleatório.
Resultado do lançamento de um dado ou de uma
moeda.
População Coleção completa de todos os elementos a serem
estudados.
Todos os habitantes do Brasil no caso do Censo
Demográfico.
Parâmetro Medida numérica que descreve alguma
característica da população.
Proporção de todos os brasileiros que estão em
situação de extrema pobreza.
Censo Coleta de dados sobre todos os membros de uma
população.
Censo Demográfico realizado no Brasil a cada dez
anos.
Amostra Subconjunto de membros selecionados de uma
população.
Pesquisa de intenção de votos para uma eleição.
Estatística Medida numérica que descreve alguma
característica de uma amostra.
Proporção de eleitores que pretendem votar no
candidato A, salário médio de pessoas que se
formaram no curso X.
Inferência
Estatística
Generalização sobre algum parâmetro da população
de interesse com base em uma estatística obtida de
uma amostra dessa população.
Projeção da provável vitória de um candidato que
tenha obtido intenções de voto muito maiores que
outros candidatos em uma amostra.
Fonte: Elaborado com base em Triola, 2006.
A aplicação desses conceitos em casos práticos deve ser bem demarcada no tempo e no espaço.
Por exemplo, se quisermos analisar a distribuição de renda em um determinado território, é preciso
demarcar bem qual é esse territórioe a que período do tempo os dados se referem. A distribuição de
renda do Brasil em 2018, por exemplo, é diferente da de 2019, e as distribuições de renda das regiões
e estados brasileiros também se diferem entre si. Para um melhor entendimento dos conceitos, leia
os casos hipotéticos abaixo.
Suponha que desejamos saber o desempenho acadêmico de uma escola. Como se trata de uma
população de estudantes relativamente pequena, a escola resolve realizar um teste com todos os
estudantes (censo). A pontuação no teste dos alunos é a variável de interesse, e o desempenho
médio dos alunos é o parâmetro que mede o desempenho acadêmico da escola. É importante
assinalar que os resultados refletem o desempenho dessa escola específica em um momento do
tempo específico, não podendo ser generalizado para outros contextos.
Agora, suponha que desejamos saber qual candidato a uma eleição provavelmente será o
vencedor e qual a proporção da população votante de um território (população) que vai votar em
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 6/14
cada candidato (parâmetro). Como a população é grande, foi decidido realizar uma amostra
aleatória com dois mil eleitores. A variável de interesse é a intenção de voto na eleição específica. As
proporções de intenção de voto para cada candidato obtidas na amostra são as estatísticas, a partir
das quais a aplicação de técnicas estatísticas permite a estimação do parâmetro, chegando-se a
conclusões prováveis sobre qual a proporção de votos que cada candidato vai ter na eleição e, logo,
qual o provável vencedor, a chamada inferência estatística.
Um melhor entendimento das formas de se obter amostras é o nosso próximo tópico.
TEMA 3 – AMOSTRAGEM
A melhor forma de se conhecer os atributos de uma população seria realizar um censo, no qual
todos os membros da população têm seus dados coletados, porém isso nem sempre é viável ou
prático.
Por exemplo, se quisermos saber a opinião de todos os milhões de brasileiros em idade de votar
sobre a aprovação de uma nova lei qualquer, teríamos que realizar um censo que abordasse todos os
brasileiros dentro de um espaço curto de tempo, de cidadãos que habitam as grandes metrópoles às
comunidades indígenas e ribeirinhas da Amazônia. Isso se tornaria inviável em termos logísticos,
técnicos e financeiros, ainda mais se considerarmos que se trata de uma questão pontual.
O Brasil realiza, a cada dez anos em média, o Censo Demográfico para a coleta de dados
diversos sobre a população brasileira. Esse censo exige elevados recursos e planejamento a longo
prazo, e, mesmo assim, falha em capturar informações de todos os cidadãos brasileiros. Muitos não
respondem a pesquisa por não estarem em casa no momento em que o recenseador chega para a
coleta de dados, por não terem residência fixa, entre outros motivos diversos.
Mesmo que sua cobertura seja incompleta, ela pode ser considerada razoável para a maioria das
questões. Contudo, por ser realizado a cada dez anos, os dados podem ficar desatualizados nesse
meio tempo. Um dado como a taxa de desemprego em 2010 não diz muito sobre o desemprego no
Brasil em 2019, ainda mais considerando que essa é uma variável conjuntural que flutua muito de um
ano para o outro ou mesmo dentro de um mesmo ano.
Há ainda outras questões. Por exemplo, se quisermos avaliar a resistência mecânica de uma peça
de nossa linha de produção, teremos que utilizar testes que levem essas peças ao seu limite, ou seja,
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 7/14
à destruição. Realizar um censo para mensurar a resistência de todas as peças tornaria a linha de
produção insustentável.
Dadas essas dificuldades para a realização de censos, é possível utilizar amostras, que são
subconjuntos da população de interesse, para se estimar algum atributo sobre a população. Há
diversas formas de se obter uma amostra, mas a que possui as melhores propriedades e a mais
utilizada em análises estatísticas são as amostras aleatórias. Em uma amostra aleatória, todos os
membros da população têm a mesma chance de serem selecionados para a amostra (Triola, 2006).
Um dos riscos de se utilizar uma amostra é que ela pode não ser representativa da população de
interesse, gerando, assim, resultados distorcidos. Uma amostra ruim pode ser pior do que não ter
amostra nenhuma. Uma amostra representativa é uma que não tenha vieses de seleção, que são
direcionamentos que fazem com que determinados membros de uma população tenham maior
chance de serem selecionados ou excluídos de uma amostra. Ao aparecerem em maior ou menor
frequência que a parte da população de interesse, eles fazem a amostra ter uma composição
diferente, gerando resultados não representativos.
Nesse contexto, se quisermos saber qual a renda média das famílias da cidade de São Paulo, não
podemos coletar dados somente de pessoas que trabalham na Avenida Faria Lima, conhecida por ser
um polo financeiro e uma região de renda elevada. Uma estatística baseada somente em indivíduos
dessa região não seria capaz de estimar a renda média de São Paulo, pois seria distorcida por não
incorporar pessoas que habitam regiões mais periféricas e de menor renda. A amostra deve sim
abarcar pessoas que habitam a região da Faria Lima, mas também pessoas das outras regiões da
cidade.
A aleatoriedade garante a redução do risco de vieses ao fazer com que todos os segmentos
tenham a mesma probabilidade de serem incluídos na amostra. Há ainda riscos de distorções na
composição da amostra devido ao acaso, mas são bem baixos. Especialmente em grandes amostras,
a aleatoriedade é a melhor maneira de garantir a minimização desses riscos.
Nosso próximo tópico mostra algumas formas de organização e resumo de conjuntos de dados.
TEMA 4 – DISTRIBUIÇÃO DE FREQUÊNCIA E GRÁFICOS
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 8/14
Os conjuntos de dados têm algumas propriedades que nos permitem entender seu
comportamento e características gerais. Uma dessas propriedades é a distribuição dos dados, que se
refere à forma com que os dados são distribuídos ao longo da escala da variável analisada (Triola,
2006). Os valores dos dados podem se concentrar próximos a um ou mais pontos específicos, e há
formas de se observar isso visualmente por meio de tabelas e gráficos.
Uma forma eficiente de se organizar os dados e entender como eles se distribuem é por meio da
construção de tabelas, como a distribuição de frequência, que é uma tabela que divide os valores
individualmente ou em classes de valores e reporta a frequência que aqueles valores aparecem no
conjunto (Pinheiro et al., 2009).
Os procedimentos para a elaboração de uma distribuição de frequência são: (i) organizar os
dados em ordem crescente; (ii) definir a amplitude dos valores ao subtrair do valor máximo o valor
mínimo; (iii) definir o número de intervalos a serem feitos, em geral de mesma amplitude, e os
valores dos seus limites superiores e inferiores; (iii) colocar a frequência de aparecimento no conjunto
de dados de valores por intervalo. Atualmente, qualquer software estatístico realiza isso
automaticamente, logo devemos focar na interpretação dos resultados.
Utilizamos um exemplo real de uma variável econômica de alta relevância para ilustrar esse
conceito. A tabela 1 mostra o valor da renda familiar per capita média dos 26 estados brasileiros e do
Distrito Federal em 2019. Os dados foram obtidos da Pesquisa Nacional por Amostra de Domicílios
(PNAD), que coleta periodicamente dados representativos das unidades federativas do país sobre
mercado de trabalho e outras variáveis socioeconômicas. Os valores foram arredondados.
Tabela 1 – Renda familiar per capita das unidades federativas do Brasil – em R$
Unidade Federativa Renda per capita familiar - em R$
Rondônia 1.111
Acre 890
Amazonas 838
Roraima 1.050
Pará 795
Amapá 874
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 9/14
Tocantins1.038
Maranhão 637
Piauí 831
Ceará 939
Rio Grande do Norte 1.042
Paraíba 909
Pernambuco 954
Alagoas 729
Sergipe 970
Bahia 912
Minas Gerais 1.331
Espírito Santo 1.440
Rio de Janeiro 1.809
São Paulo 1.889
Paraná 1.586
Santa Catarina 1.709
Rio Grande do Sul 1.812
Mato Grosso do Sul 1.491
Mato Grosso 1.361
Goiás 1.284
Distrito Federal 2.599
Fonte: IBGE, 2021.
A renda familiar per capita é um indicador do grau de desenvolvimento econômico e acesso a
consumo de uma região. Quanto maior, melhor. Os dados das unidades federativas brasileiras
indicam uma forte variação da renda per capita familiar entre as regiões do país, algumas com renda
muito mais elevada do que outros.
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 10/14
Nossa variável de interesse X é a renda familiar per capita das unidades federativas do Brasil. O
menor valor (R$637) pertence ao estado do Maranhão, e o maior (R$ 2.599), ao Distrito Federal. Em
2019, a diferença entre a unidade de maior e menor renda foi de R$ 1.961. Arredondando esse valor
para R$ 2.000, pode-se dividir os dados em cinco intervalos de igual tamanho de R$ 400. A tabela
seguinte apresenta a distribuição de frequência.
Tabela 2 – Distribuição de frequência da renda familiar per capita das unidades federativas
brasileiras (em R$)
Faixa de renda – R$ Frequência Frequência relativa
600-999 12 44,4%
1.000-1.399 7 25,9%
1.400-1.799 4 14,8%
1.800-2.199 3 11,1%
2.200-2.600 1 3,7%
Fonte: Elaborada com base em IBGE, 2021.
A tabela mostra tanto a frequência absoluta (numérica) quanto relativa (em percentual) das
faixas de renda familiar per capita das unidades federativas brasileiras. Enquanto, na tabela 1, com 27
linhas, é difícil ter uma visão de como os dados se distribuem, na tabela de frequência, é possível ver
de forma sucinta que quase metade dos estados tem uma renda per capita relativamente baixa, de
menos de R$ 1.000, e mais de 70% tem renda per capita inferior a R$ 1.400.
Uma outra forma de sintetizar os dados e mostrar como eles se distribuem é construindo
gráficos, dos quais o mais usual é o histograma. Um histograma é um gráfico de barras no qual o
eixo horizontal representa intervalos de valores da variável de interesse X e o vertical, a frequência
que esses valores aparecem no conjunto de dados analisado. A altura das barras é proporcional à
frequência de aparecimento dos dados, e as barras são construídas adjacentes umas às outras (Triola,
2006). É basicamente a representação visual da tabela de distribuição de frequência. As barras em
geral possuem a mesma largura, representando intervalos de valores de igual magnitude. O gráfico 1
é um histograma dos dados de renda familiar per capita das unidades federativas brasileiras em
2019.
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 11/14
Gráfico 1 – Histograma da renda familiar per capita das unidades federativas do Brasil – em R$
Fonte: Elaborado com base em IBGE, 2021.
Os dados refletem o mesmo padrão expresso na tabela de frequência acima: a maioria das
unidades federativas brasileiras tem renda per capita relativamente baixa, abaixo de R$ 1,4 mil.
Apresentadas essas formas de se visualizar a distribuição dos dados de um conjunto, o próximo
tópico mostra alguns dos usos possíveis da estatística na economia.
TEMA 5 – EXEMPLOS DE USO NA ECONOMIA
As possibilidades de uso da estatística e da disciplina derivada de econometria pelos
economistas e profissionais de áreas correlatas são diversas. Elas são disciplinas instrumentais, que
ajudam os estudantes e profissionais formados a aplicarem os conhecimentos teóricos adquiridos nas
disciplinas de economia a problemas do mundo real. O quadro 2 mostra algumas das aplicações da
estatística na economia e exemplos.
Quadro 2 – Alguns dos usos da estatística na economia
TIPO DE USO EXEMPLO
Definição e mensuração de variáveis
econômicas
PIB, taxa de inflação, distribuição de renda.
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 12/14
Indicações do estado atual da economia Taxa de crescimento econômico, taxa de desemprego.
Previsões sobre variáveis econômicas e
financeiras
Valor futuro de uma ação; expectativa de crescimento do PIB no próximo ano.
Avaliação do impacto de políticas Quanto um aumento de 1% nos gastos públicos hoje vai impactar no PIB do
próximo ano?
Estimação da relação entre variáveis Quanto o aumento de 1% no preço do meu produto vai impactar na
quantidade vendida?
Planejamento empresarial Qual o perfil e os desejos do público consumidor da minha marca?
Fonte: Barbosa, 2021
Como visto, o potencial de uso da estatística para economistas é imenso. Mais adiante, vamos
aprofundar o entendimento dos conceitos e técnicas.
TROCANDO IDEIAS
Em um fórum de discussão, discuta as limitações e os problemas de se utilizar amostras não
aleatórias e não representativas das populações que se deseja analisar.
NA PRÁTICA
A lição proposta é acessar o site que roda online e gratuitamente o software estatístico Statdisk e
construir um histograma dos dados a seguir. Suponha que os dados fictícios representam a renda
familiar per capita de 12 pessoas selecionadas aleatoriamente de seu bairro.
X – Renda familiar per capita
1000
1100
950
1200
1300
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 13/14
1450
1325
2000
1600
1900
1875
2100
Passos para a realização da atividade:
1. Acesse o site do Statdisk (<https://www.statdisk.com/accounts/login/?next=/>);
2. Inscreva-se com sua conta Google ou outra;
3. O programa vai abrir sua página inicial com uma planilha vazia;
4. Copie e cole os doze dados acima na primeira célula da planilha em branco;
5. Após colar, clique em Data na barra superior e na opção Histogram;
6. Após abrir a janela, clique em Select Column e coloque a opção 1;
7. Clique em Plot ao final da página;
8. O histograma dos dados será gerado à esquerda, então analise-o.
Caso não disponha de um computador ou não consiga realizar a lição proposta, construa um
histograma à mão. Lembre-se que é preciso: (i) organizar os dados em ordem crescente; (ii) calcular a
amplitude dos valores subtraindo do valor máximo o valor mínimo; (iii) dividir o valor da amplitude
em intervalos de igual tamanho, no caso três intervalos são suficientes; (iv) contar a frequência de
ocorrência dos valores; (v) desenhar o gráfico a partir desses dados.
FINALIZANDO
Nesta aula, realizamos uma introdução à estatística, seus conceitos básicos e seu potencial de
uso na economia. Aprendemos também algumas formas de organizar e visualizar grandes conjuntos
de dados de forma resumida. É importante um entendimento adequado desses tópicos, porque a
estatística é uma disciplina cumulativa, logo cada conteúdo tem relação com conteúdos anteriores.
https://www.statdisk.com/accounts/login/?next=/
07/06/2022 20:12 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 14/14
REFERÊNCIAS
HOFFMAN, R. Introdução. In: _____. Estatística para economistas. 4. ed. São Paulo: Cengage
Learning, 2006, p. XIII-XIV.
IBGE. PNAD – Pesquisa Nacional por Amostra de Domicílios – 2021. Disponível em:
<https://www.ibge.gov.br/estatisticas/sociais/rendimento-despesa-e-consumo/9127-pesquisa-
nacional-por-amostra-de-domicilios.html?=&t=o-que-e>. Acesso em 29 out. 2021.
LARSON, R.; FARBER, B. Introdução à Estatística. In:__ Estatística Aplicada. 4. ed. São Paulo:
Pearson Prentice Hall, 2010, p. 2-30.
PINHEIRO, J. I. D.; DA CUNHA, S. B.; CARVAJAL, S. R.; GOMES, G. C. Análise exploratória para uma
variável. In:__ Estatística Básica: a arte de trabalha com dados. São Paulo: Elsevier, 2009, p. 11-51.
TRIOLA, M. F. Introdução à Estatística. In: _____. Estatística Elementar. 10. ed. Boston: Pearson
Prentice Hall, 2006, p. 2-39.
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 1/15
ESTATÍSTICA APLICADA
AULA 2
Prof. Tiago Claudino Barbosa07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 2/15
CONVERSA INICIAL
MEDIDAS DE POSIÇÃO E DISPERSÃO
Anteriormente, aprendemos a organizar conjuntos de dados e observar como variáveis se
distribuem com tabelas de distribuição de frequência e histogramas. Nesta aula, vamos aprender
algumas medidas que ajudam a resumir diferentes propriedades de conjuntos de dados e que são
utilizadas para a realização de inferências estatísticas.
Os esforços de aprendizado são: (i) entender o conceito de medida de posição e seus principais
tipos e (ii) entender o conceito de medida de dispersão e seus principais tipos. Ambos os conceitos
são centrais para a estatística descritiva e inferencial, abordadas em conteúdo posterior.
CONTEXTUALIZANDO
Como resumir um conjunto de dados em algumas estatísticas? Como comparar diferentes
conjuntos de dados? Que valores representam melhor meu conjunto de dados e em qual grau eles
são uma representação precisa?
Essas e outras perguntas são elucidadas nesta aula, o entendimento dos conceitos apresentados
é fundamental para que possamos realizar uma análise descritiva de conjuntos de dados e são os
elementos fundamentais a serem aplicados nas diferentes técnicas de inferência estatísticas a serem
apresentadas em conteúdo posterior.
O objetivo é entender a lógica das medidas e como interpretá-las, o cálculo em si pode ser feito
facilmente em softwares especializados.
TEMA 1 – O QUE SÃO MEDIDAS DE POSIÇÃO?
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 3/15
Anteriormente, aprendemos a utilizar histogramas e distribuições de frequência para analisarmos
a distribuição de um conjunto de dados ao longo de seu intervalo de valores. Analisar a distribuição
de um conjunto de dados nos permite entender ao redor de quais valores os dados se concentram e
se há lacunas na escala para as quais não há dados.
Outras duas propriedades de conjuntos de dados muito relevantes tanto para a estatística
descritiva quanto para a estatística inferencial serão ensinadas hoje. A primeira são as medidas de
posição, que indicam valores ao redor dos quais os dados do conjunto se concentram, e a segunda
são as medidas de dispersão, que medem o quanto os dados de um conjunto variam entre si.
Uma medida de posição central é um valor numérico representativo de um conjunto de dados
que nos mostra um valor típico, uma tendência sobre a qual os dados do conjunto orbitam (Triola,
2006).
Alguns conceitos iniciais devem ser retomados e apresentados antes de se adentrar nas medidas
de posição em si (Triola, 2006).
N – número de elementos que compõem uma população;
n – número de elementos que compõem uma amostra;
∑ - operador somatório se refere à soma de todos os elementos de X;
Xi – i-ésima unidade do conjunto de dados X.
Parâmetro - medida numérica que descreve alguma característica da população, em geral
representada por letras gregas, como µ (mi), α (alfa) e β (beta);
Estatística - medida numérica que descreve alguma característica de uma amostra, em geral
representadas por letras do nosso alfabeto comum, como a e b, letras do nosso alfabeto com algum
símbolo sobrescrito, como (x barra), ou como letras gregas com algum símbolo sobrescrito, como
(alfa chapéu);
Outlier – valor de um conjunto de dados muito discrepante para mais ou para menos de todos
os outros dados.
TEMA 2 – MÉDIA E MEDIANA
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 4/15
A média é a medida numérica mais utilizada para descrever um conjunto de dados. A média de
um conjunto de dados é calculada pela soma de todos os valores do conjunto dividido pelo número
total de unidades do conjunto de dados. Ela tem duas vantagens, (i) as médias amostrais tendem a
ser as medidas de centro mais consistentes no sentido que a média de diversas médias amostrais
retiradas da mesma população tende a convergir para o valor da média populacional e a apresentar
menor variabilidade que as outras medidas de centro e (ii) ela considera todos os valores do conjunto
de dados em seu cálculo, refletindo assim de alguma forma na distribuição e na concentração dos
dados do conjunto, sua principal desvantagem é que ela é sensível a outliers (Triola, 2006). O Quadro
1 mostra a fórmula e os componentes dos dois principais tipos de média.
Quadro 1 – Fórmula e componentes da média populacional e amostral
Média populacional Média amostral
Onde:
é a média populacional
é o somatório de todos os valores das unidades i da
variável X
N é o tamanho da população
Onde:
é a média amostral
é o somatório de todos os valores das unidades i da
variável X
n é o tamanho da amostra
Fonte: Barbosa, 2021.
Considere o seguinte conjunto de dados fictício:
X – 10, 11, 12, 22, 22, 25, 28, 36
Para obtermos a média, bastaria somar todos esses dados e dividir pelo número de unidades do
conjunto de dados n, que é oito.
= = = 20,75.
A média do conjunto de dados é 20,75. Se conjunto for uma amostra, resultado é uma média
amostral, se for a população inteira, é a média populacional.
Mediana
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 5/15
A mediana é o valor que, quando o conjunto de dados é organizado de forma crescente ou
decrescente, fica no meio do conjunto. Se tamanho do conjunto de dados é um número par,
mediana é a média dos dois valores centrais. Tem a desvantagem de considerar somente um ou dois
elementos do conjunto de dados, não dizendo muito sobre a distribuição e a concentração dos
dados, tem como vantagem não ser afetada por outliers (Triola, 2006). Para o mesmo conjunto de
dados fictício, primeiro se organiza os dados em ordem crescente, depois se identifica o valor do
dado que fica no meio, no caso, por número de unidades do conjunto ser par, a mediana é a média
dos dois valores centrais, no caso 22 e 22, logo, o valor da mediana é 22.
X – 10, 11, 12, 22, 22, 25, 28, 36.
TEMA 3 – MODA E SEPARATRIZES
A moda é o valor que ocorre com maior frequência em um conjunto de dados (Triola, 2006). Tem
a vantagem de não ser influenciada pela presença de outliers e a desvantagem de levar em conta
somente o valor mais frequente em seu cálculo, ignorando o restante dos dados. Para sua
identificação, é preciso ordenar os dados em ordem crescente ou decrescente e visualizar qual se
repete mais vezes. Considerando nosso conjunto de dados.
X – 10, 11, 12, 22, 22, 25, 28, 36.
Moda é o valor 22, que aparece duas vezes, nenhum outro valor apareceu mais de uma vez. Um
conjunto de dados pode ser amodal quando nenhum dos valores aparece em maior frequência que
os outros, unimodal quando há uma moda, bimodal quando há duas modas e assim por diante. Em
um histograma em que cada dado possível é uma barra, a moda é o valor com a barra mais alta.
Separatrizes
São medidas que separam o conjunto de dados em subconjuntos com igual número de
unidades, ajudando a identificar a forma com que os dados são distribuídos. Não são os valores da
variável X que são divididos em intervalos de igual tamanho, mas o número de dados, daí se
identifica qual o valor de X que marca o recorte entre uma separatriz e outra. Os intervalos podem
ser diversos, quatro (quartil), cinco (quintil), dez (decil), cem (percentil), entre outros.
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 6/15
Por exemplo, se dividirmos a distribuição de renda per capita de todos os brasileiros em dez
intervalos (decis) e quisermos saber que valor separa os 10% de menor renda do restante dos
brasileiros, basta identificarmos o valor do primeiro decil. 10% da população brasileira ganha uma
quantia igual ou menor que esse valor.
Retomando nosso conjunto de dados fictício e calculando os valores de seus quartis (intervalos
que dividem 25%, 50% e 75% dos dados).
X – 10, 11, 12, 22, 22, 25, 28, 36.
O cálculo desses valores é relativamente trabalhoso, utilizou-se o Statdisk para o cálculo e para a
criação do gráfico a seguir, conhecido comoboxplot.
Tabela 1 – Valores dos quartis
Medida Valor X
Valor mínimo 10
Primeiro quartil 11,5
Segundo quartil 22
Terceiro quartil 26,5
Valor máximo 36
Fonte: elaborada com base em software Statdisk.
Figura 1 – Gráfico boxplot dos dados
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 7/15
Fonte: elaborada com base no software Statdisk.
Na escala de cima se coloca os valores da variável X, as pontas da linha são os valores mínimo e
máximo do conjunto de dados, os outros três valores destacados são o primeiro quartil (11,5), o
segundo quartil (22), que sempre é igual à mediana, e o terceiro quartil (26,5). A escala de baixo
mostra os valores possíveis da amostra.
Intervalos menores entre os valores indicam que dados são mais concentrados, por exemplo, um
quarto dos valores está entre 10 e 11,5 unidades, já o último quarto de valores está menos
concentrado, já que varia de 26,5 a 36. O conceito de separatrizes e gráficos como o boxplot ajudam
a analisar resumidamente como os dados estão distribuídos e os pontos de concentração de forma
parecida às tabelas de distribuição de frequência e histogramas.
No exemplo, foi utilizado quartis, mas outras medidas como quintis, decis e percentis poderiam
ter sido utilizadas.
TEMA 4 – MEDIDAS DE DISPERSÃO
Dispersão é o quanto os valores de um conjunto de dados variam entre si. Quanto mais
próximos os dados estiverem entre si, menor a dispersão e vice-versa (Triola, 2006). A primeira
medida de dispersão analisada é a amplitude.
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 8/15
A amplitude é a diferença entre o valor máximo e o mínimo de um conjunto de dados.
Organizando-se os dados em ordem crescente ou simplesmente utilizando um software estatístico, é
fácil obter essa estimativa, mas sua utilidade prática é pequena, já que em seu cálculo ela considera
somente dois valores extremos de um conjunto de dados, ignorando todas as outras unidades (Triola,
2006).
A amplitude não diz nada sobre a distribuição dos dados, não indica se eles estão concentrados
perto de um dos extremos ou do outro ou de qualquer outro valor em particular. Considerando
nosso conjunto de dados fictício.
X – 10, 11, 12, 22, 22, 25, 28, 36.
Amplitude = valor máximo - valor mínimo = 36 – 10 = 26.
TEMA 5 – VARIÂNCIA E DESVIO PADRÃO
As medidas de dispersão mais utilizadas são o desvio padrão e a variância. Ambas utilizam em
seu cálculo a média e são interpretadas como o grau de variação dos dados em relação à média.
Começando pela variância, ela é calculada pelo somatório de cada valor de X subtraído da média,
tudo elevado ao quadrado e dividido pelo tamanho da população ou pelo tamanho da amostra
menos um. O Quadro 2 mostra as fórmulas e componentes da variância, que são levemente
diferentes se conjunto de dados é uma população ou amostra.
Quadro 2 – Fórmula e componentes da variância populacional e amostral
Variância populacional Variância amostral
Onde:
(sigma ao quadrado) é a variância populacional
é o somatório de cada valor Xi subtraído da
média populacional elevado ao quadrado
N é o tamanho da população
Onde:
é a variância amostral
é o somatório de cada valor Xi subtraído da
média amostral elevado ao quadrado
n – 1 é o tamanho da amostra menos um
Fonte: Barbosa, 2021.
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 9/15
Retomando o conjunto de dados fictícios, calcula-se sua variância considerando o conjunto uma
população e uma amostra. Os cálculos são relativamente trabalhosos, por isso se utilizou o software
Statdisk.
X – 10, 11, 12, 22, 22, 25, 28, 36.
A variância populacional é menor que a amostral porque na fórmula da variância amostral a
divisão ocorre por n-1 e não por N. A unidade de medida da variância é a mesma da variável X, só
que elevada ao quadrado, não tendo assim uma interpretação direta, no exemplo seria 74,2 ou 84,8
unidades ao quadrado, uma unidade de medida diferente e não diretamente comparável à unidade
de medida dos dados e das medidas de posição.
Para corrigir esse problema, usa-se o desvio padrão, que é derivado da fórmula da variância, mas
que pertence à mesma unidade de medida da variável X e das outras medidas de posição, sendo
assim facilmente interpretável. Sua fórmula e componentes estão no Quadro 3.
Quadro 3 – Fórmula e componentes do desvio padrão populacional e amostral
Desvio padrão populacional Desvio padrão amostral
Onde:
(sigma) é o desvio padrão populacional
é o somatório de cada valor Xi subtraído da
média populacional elevado ao quadrado
N é o tamanho da população
Onde:
é o desvio padrão amostral
é o somatório de cada valor Xi subtraído da
média amostral elevado ao quadrado
n – 1 é o tamanho da amostra menos um
Fonte: Barbosa, 2021.
Retomando nosso conjunto de dados fictício e utilizando o Statdisk para a realização dos
cálculos.
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 10/15
X – 10, 11, 12, 22, 22, 25, 28, 36.
8,6
9,2
O desvio padrão amostral é maior que o populacional pela mesma razão das variâncias, o
denominador do primeiro é n-1 e do segundo é N. O valor está na mesma escala da variável original,
a média é de 20,75 unidades, o desvio padrão é de 8,6 ou 9,2 unidades de variação em relação à
média.
O desvio-padrão mede a variação de todos os valores do conjunto de dados em relação à
média, tanto para o lado esquerdo quanto para o lado direito da média. Assim como a variância, seu
valor pode ser positivo ou zero, caso todos os valores do conjunto de dados sejam iguais, mas ele
nunca é negativo. Tem a vantagem de considerar todos os dados em seu cálculo e a desvantagem de
ser influenciado pela presença de outliers. As fórmulas dos desvios-padrão são similares às das
variâncias, só se extrai a raiz quadrada do valor calculado das variâncias para se obter os desvios -
padrão e se eleva os valores dos desvios-padrão ao quadrado para se obter as variâncias.
Entendidos esses conceitos, podemos realizar uma análise estatística descritiva do conjunto de
dados real a seguir. A Tabela 2 mostra a taxa de crescimento econômico percentual de um trimestre
acumulada em relação aos quatro trimestres anteriores entre 2016 e 2021. Por exemplo, a taxa de
crescimento de 0,1% no 3º trimestre de 2017 reflete a um aumento no valor do PIB de apenas 0,1%
entre o 3º trimestre de 2016 e o 3º trimestre de 2017.
Tabela 2 – Taxa de crescimento econômico trimestral – acumulado dos quatro trimestres
anteriores
Trimestre Taxa de crescimento – em %
1º trimestre 2016 -4,4
2º trimestre 2016 -4,5
3º trimestre 2016 -4,1
4º trimestre 2016 -3,3
1º trimestre 2017 -1,9
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 11/15
2º trimestre 2017 -0,9
3º trimestre 2017 0,1
4º trimestre 2017 1,3
1º trimestre 2018 1,7
2º trimestre 2018 1,9
3º trimestre 2018 2
4º trimestre 2018 1,8
1º trimestre 2019 1,6
2º trimestre 2019 1,6
3º trimestre 2019 1,4
4º trimestre 2019 1,4
1º trimestre 2020 1
2º trimestre 2020 -2,1
3º trimestre 2020 -3,4
4º trimestre 2020 -4,1
1º trimestre 2021 -3,8
2º trimestre 2021 1,8
Fonte: SCNT – IBGE, 2021.
Os dados foram colocados no Statdisk on-line e analisados ao se pressionar a aba Data e a
opção Explora Data – Descriptive Statistics. As estatísticas obtidas estão resumidas na Tabela 3.
Tabela 3 – Estatísticas da taxa de crescimento trimestral acumulada de quatro trimestres do Brasil
Estatística Valor
Média - 0,677%
Mediana 0,55%
Variância 6,55
Desvio-padrão 2,56%
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 12/15
Amplitude 6,5%
Valor mínimo - 4,5%
Primeiro quartil - 3,4%
Segundo quartil 0,55
Terceiro quartil 1,6
Valor máximo 2
Fonte: elaborada com base em software on-line Statdisk.
Nota-se que as taxas de crescimento brasileiras foram bem baixas no período de 2016 a 2021,
refletindo a recessão que o país vem passando há anos. A taxa média de crescimento é na verdade
negativa– 0,677%, a mediana é positiva e relativamente pequena (0,55%), indicando que a maioria
das taxas é positiva, mas baixa. O desvio-padrão de 2,56% indica uma variação considerável das taxas
de crescimento do período. A taxa mínima foi de –4,5% no segundo trimestre de 2016, ou seja,
período de recessão aguda, e a maior de 2%, relativamente baixa, já que os dados consideram os
quatro trimestres anteriores. Essas estatísticas relativamente simples já nos permitem fazer um
panorama relativamente detalhado do crescimento brasileiro do período recente. A principal
conclusão é que as taxas de crescimento foram negativas ou muito baixas no período, prejudicando
o desempenho econômico nacional.
TROCANDO IDEIAS
Em um fórum de discussão, discuta os problemas que podem surgir da má interpretação de
medidas de posição e/ou dispersão da estatística em situações do cotidiano.
NA PRÁTICA
A lição proposta é acessar o software estatístico Statdisk on-line, como no conteúdo anterior,
calcular as medidas de posição e dispersão do conjunto de dados descrito a seguir e interpretar seus
resultados. Os dados são a renda familiar per capita das unidades federativas brasileiras em 2019, já
explorados em outro momento e expressos na Tabela 4.
Tabela 4 – Renda familiar per capita das unidades federativas brasileiras em 2019 - em R$
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 13/15
Rondônia 1111
Acre 890
Amazonas 838
Roraima 1050
Pará 795
Amapá 874
Tocantins 1038
Maranhão 637
Piauí 831
Ceará 939
Rio Grande do Norte 1042
Paraíba 909
Pernambuco 954
Alagoas 729
Sergipe 970
Bahia 912
Minas Gerais 1331
Espírito Santo 1440
Rio de Janeiro 1809
São Paulo 1889
Paraná 1586
Santa Catarina 1709
Rio Grande do Sul 1812
Mato Grosso do Sul 1491
Mato Grosso 1361
Goiás 1284
Distrito Federal 2599
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 14/15
Fonte: PNAD IBGE, 2021.
Passos para a realização da atividade:
1. Acesso ao site do Statdisk;
2. Entre em sua conta;
3. O programa vai abrir sua página inicial com uma planilha vazia;
4. Copie e cole as duas colunas descritas anteriormente;
5. Após colar, clique em Data na barra superior e na opção Explore Data – Descriptive Statistics
(Explore os dados – Estatísticas Descritivas);
6. Após abrir a janela, clique em Select Column e coloque a opção 2, já que a primeira coluna
ficou com o nome das unidades federativas e a segunda com os dados;
7. Clique em Evaluate (Valorar/Calcular) no retângulo verde;
8. Observe, à esquerda, um conjunto de estatísticas descritivas que será calculado para o conjunto
de dados e à direita um histograma será apresentado;
9. Entre as estatísticas calculadas, identifique Sample Size n (tamanho amostral n), mean (média),
median (mediana), variance (variância), standard deviation (desvio padrão), range (amplitude),
minimum (mínimo), 1st quartile (primeiro quartil), 2nd quartile (segundo quartil), 3rd quartile
(terceiro quartil), maximum (máximo). Todas são medidas em reais, exceto a variância, que é
medida em reais ao quadrado;
10. Interprete essas estatísticas, o que elas dizem sobre a distribuição da renda familiar per capita
entre as unidades federativas do Brasil.
Caso não disponha de um computador ou não consiga realizar a lição proposta, procure calcular
à mão ou em uma calculadora ao menos a média, mediana e desvio-padrão desse conjunto de dados
e interprete os resultados.
FINALIZANDO
Nesta aula aprendemos sobre algumas medidas que nos ajudam a sintetizar características de
conjuntos de dados. Essas medidas estão entre os conceitos fundamentais de toda a estatística e são
utilizadas em uma variedade de aplicações. Entender a lógica dessas medidas e como interpretá-las é
importante para nosso avanço nos próximos conteúdos.
07/06/2022 20:13 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 15/15
REFERÊNCIAS
PNAD IBGE (2021). PNAD – Pesquisa Nacional por Amostra de Domicílios. Disponível em:
<https://www.ibge.gov.br/estatisticas/sociais/rendimento-despesa-e-consumo/9127-pesquisa-
nacional-por-amostra-de-domicilios.html?=&t=o-que-e>. Acesso em: 4 set. 2021.
SCNT – IBGE (2021). Sistema de Contas Nacionais Trimestrais. Disponível em:
<https://www.ibge.gov.br/estatisticas/economicas/contas-nacionais/9300-contas-nacionais-
trimestrais.html?=&t=series-
historicas&utm_source=landing&utm_medium=explica&utm_campaign=pib#evolucao-taxa>. Acesso
em: 7 set. 2021.
TRIOLA, M. F. Capítulo 3 – Estatísticas para a descrição, exploração e comparação de dados. In:
TRIOLA, M. F. Estatística elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 74-135.
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 1/15
ESTATÍSTICA APLICADA
AULA 3
Prof. Tiago Claudino Barbosa
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 2/15
CONVERSA INICIAL
INTRODUÇÃO À PROBABILIDADE
Nesta aula, aprenderemos um pouco sobre a teoria da probabilidade, seus conceitos principais e
algumas de suas aplicações na estatística. A estatística inferencial, por se basear em amostras,
descreve seus resultados em termos probabilísticos. Esse conteúdo inicialmente não parece ser tão
conectado aos conteúdos anteriores, mas, ao final desta aula e de conteúdos posteriores, ficará clara
a ligação entre esses tópicos e os tópicos mais diretamente relacionadas à estatística.
Os esforços de aprendizado são no sentido de entender: (i) o conceito de probabilidade e outros
conceitos iniciais relacionados, (ii) a regra da adição; (iii) probabilidade condicional e a regra da
multiplicação; (iv) o que é uma distribuição de probabilidade e (v) o exemplo da distribuição de
probabilidade binomial.
CONTEXTUALIZANDO
É possível observar algum padrão que nos ajude a tirar conclusões a partir de variáveis aleatórias
que, a princípio, parecem caóticas? Como considerar resultados aleatórios que são independentes
uns dos outros dos que são dependentes? Como tomar decisões com base em variáveis aleatórias?
Essas perguntas são abordadas na presente aula e serão relevantes para o entendimento dos
demais conteúdos. O objetivo é entender os conceitos e a lógica de interpretação dos resultados,
não os cálculos em si.
TEMA 1 – CONCEITOS INICIAIS
Alguns conceitos iniciais são apresentados por Pinheiro et al. (2009):
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 3/15
Probabilidade é uma descrição numérica do quão provável é a ocorrência de um evento
específico;
Espaço amostral é o conjunto de todos os resultados possíveis de uma variável aleatória, um
exemplo é o lançamento de um dado, há seis resultados possíveis – 1, 2, 3, 4, 5, 6;
Um evento é um subconjunto do espaço amostral de interesse. Por exemplo: quais as
possibilidades de ocorrer um número par no lançamento de um dado? - 2, 4, 6;
Um evento simples é um resultado do espaço amostral que não pode mais ser subdivido em
componentes menores, um exemplo – ao se lançar um dado, obter 1 ponto;
Experimento aleatório é quando realizamos tentativas repetidas de processos semelhantes e
seus resultados são imprevisíveis, ou seja, são uma variável aleatória;
Os conceitos de espaço amostral, evento e evento simples se referem a possibilidades de
ocorrência da variável ou resultado de interesse, não diz nada sobre probabilidades de ocorrência
(Pinheiro et al., 2009).
É importante conhecer todos os resultados possíveis de um experimento aleatório. A
probabilidade de um evento ou conjunto de eventos nem sempre é conhecida, se os eventos são
todos de mesma probabilidade, como é o caso do lançamento de uma moeda ou de um dado, a
probabilidade do evento A é:
Considerando o caso do lançamento de um dado, a probabilidade de se obter 3 pontos é:
Como os pontos dos dados possuem mesma probabilidade de ocorrer, o cálculo da
probabilidade se resume a contar os resultados favoráveis ao evento de interesse, no caso o dadodar
3 pontos, e dividir pelo número de resultados possíveis (espaço amostral), no caso 6.
Porém, para a maioria dos fenômenos do mundo real, os eventos ou conjuntos de eventos
possíveis não possuem a mesma probabilidade de ocorrência. Essas probabilidades muitas vezes nem
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 4/15
são conhecidas. É possível aproximar a probabilidade real de um evento por sua frequência relativa
de ocorrência em experimentos aleatórios de grande tamanho (Larson, Farber, 2010a). Considerando
um experimento aleatório, a probabilidade de A fica:
A lógica é que se o experimento tem resultados aleatórios, conforme se aumenta o número de
resultados obtidos, mais as frequências relativas se aproximam das probabilidades teóricas do
fenômeno, a chamada Lei dos Grandes Números. Lógica é similar ao uso de amostras aleatórias para
aproximar a população de interesse. Essa lógica fundamenta a chamada Abordagem Frequencista da
Estatística, que aproxima as probabilidades de um fenômeno das frequências relativas de
experimentos que tentam analisar esse fenômeno (Larson, Farber, 2010b).
O entendimento da teoria das probabilidades junto ao conhecimento da estatística descritiva,
explorada nas duas primeiras aulas, formam a base da estatística inferencial. Uma das regras básicas
da estatística inferencial é que se, sob uma dada premissa, a probabilidade de um evento em
particular é muito pequena, a conclusão é que a premissa é provavelmente incorreta (Triola, 2006).
Essa questão ficará bastante clara em conteúdos posteriores.
O próximo tópico apresenta casos em que as probabilidades de ocorrência de um evento são ou
não afetadas pela ocorrência de outros eventos e como isso afeta os cálculos e interpretações das
probabilidades.
TEMA 2 – EVENTOS INDEPENDENTES E DEPENDENTES
Dois eventos A e B são independentes se a ocorrência de um deles não afeta a probabilidade de
ocorrência do outro, se a ocorrência de um deles afeta de alguma forma a probabilidade de
ocorrência do outro, trata-se de eventos dependentes (Triola, 2006).
A regra da soma postula que a probabilidade de ocorrência de um evento A ou de um evento B
como resultado de um experimento é igual a soma das probabilidades desses eventos, descontada a
probabilidade de ocorrência simultânea do evento A e do evento B (Pinheiro et al., 2009).
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 5/15
Os eventos A e B são mutuamente exclusivos se não podem ocorrer ao mesmo tempo. Nesse
caso, a probabilidade de ocorrer A ou B é:
Um exemplo: qual a probabilidade de, ao se lançar um dado, a pontuação ser 2 e 3?
Se não forem mutuamente exclusivos, a probabilidade de A ou B deve descontar a probabilidade
de que os eventos ocorram simultaneamente, ou seja:
Um exemplo: qual a probabilidade de, ao se lançar um dado, A – obter uma pontuação ímpar e B
– uma pontuação maior que 3?
Probabilidade de A – pontuação par – 2, 4, 6
P (A) – 3/6 = 0,5
Probabilidade de B – pontuação maior que 3 – 4, 5, 6
P (B) – 3/6 = 0,5
Se eventos fossem independentes, P (A ou B) = 1, ou seja, 100%. Porém há sobreposição entre os
eventos e essa probabilidade está superestimada, considerando o espaço amostral 1, 2, 3, 4, 5 e 6 e
que eventos têm mesma probabilidade.
P (A) ou P (B) mostrada acima não engloba os valores 1 e 3 e considera os valores 4 e 6 duas
vezes. O evento A ou B engloba os valores – 2, 4, 5 e 6, logo a probabilidade de pontuação ser par ou
ser maior que três é:
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 6/15
TEMA 3 – PROBABILIDADE CONDICIONAL
A probabilidade de ocorrer o evento A na primeira tentativa de um experimento, e de ocorrer o
evento B na segunda tentativa é descrita pela regra da multiplicação. A regra da adição, explicada no
tema anterior, é descrita pelo termo ou, já a regra da multiplicação pelo termo e, no caso a P (A e B).
Um ponto importante a considerar é que a probabilidade do segundo evento B deve levar em
conta o fato de que o evento A já ocorreu (Triola, 2006). A regra geral é:
Probabilidade de ocorrer A e depois B é igual à probabilidade de ocorrência do primeiro evento
A multiplicada pela probabilidade de ocorrência do evento B, dado que A já ocorreu, essa última
parte é expressa por P (B|A).
Se o evento A e B forem independentes, ou seja, a ocorrência de um deles não afeta positiva ou
negativamente a probabilidade de ocorrência do outro, a P (B|A) = 0 e expressão se resume a:
Um exemplo é a probabilidade de obter dois números um ao se lançar um dado duas vezes. A
probabilidade de se obter 1 em um lançamento é de um sexto, como eventos são independentes, ou
seja, o resultado alcançado no primeiro lançamento do dado em nada interfere no resultado do
segundo lançamento, a probabilidade de obter dois números 1 ao se lançar duas vezes o dado é de
1/6 * 1/6 = 1/36 = 2,8%, uma probabilidade relativamente baixa. A probabilidade de obter três
números 1 em três lançamentos do dado seria 1/6 * 1/6 * 1/6 = 1/216 = 0,5%, muito baixa.
Nos casos em que a ocorrência de A afeta a probabilidade de ocorrência de B em seguida, diz-se
que são casos de probabilidade condicional, logo a P (B|A) é diferente de zero.
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 7/15
Ou seja, é a probabilidade de ocorrer A e depois B dividida pela probabilidade de A. É a razão
entre a probabilidade de ocorrência conjunta de A e B e a probabilidade geral de A.
Um exemplo: ao se lançar um dado uma vez, qual a probabilidade de A – resultado ser um
número ímpar e B – resultado ser no mínimo 3 pontos (Pinheiro et al., 2009)?
Há três números ímpares possíveis para A – 1, 3, 5
Dos seis números do dado, quatro são iguais ou maiores que 3 – 3, 4, 5, 6
Há dois elementos que sobrepõem A e B – 3 e 5
Considerando que há seis resultados possíveis do lançamento de um dado e todos têm a mesma
probabilidade de ocorrer, a probabilidade de, ao se lançar um dado, obter um número ímpar e igual
ou maior que três é 2/6 ou 1/3.
Aplicando a fórmula:
A probabilidade de se obter um número igual ou maior que 3, dado que resultado foi ímpar, é
de 2/3.
Muitas das técnicas estatísticas combinam resultados de diversas variáveis conhecidas para se
obter o resultado e/ou a probabilidade de ocorrência de uma variável que dependa dessas outras.
Por exemplo: um meteorologista pode determinar que há 40% de probabilidade de chuva com base
na frequência relativa de chuva sob condições climáticas semelhantes às que estão ocorrendo no
momento. Saber características do ambiente, como temperatura e umidade do ar, faz com que se
estime com maior precisão a probabilidade de ocorrência de chuva em determinado dia (Larson,
Farber, 2010b).
TEMA 4 – DISTRIBUIÇÃO DE PROBABILIDADE
Uma distribuição descreve a probabilidade de cada valor possível de uma variável aleatória. Esta
deve cobrir todos os resultados possíveis, acumulando 100% das probabilidades, e o valor da
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 8/15
probabilidade de um valor específico ou intervalo de valores é zero ou positivo, nunca negativo
(Pinheiro et al., 2009).
Muitas distribuições de probabilidade, na estatística, são descritas por gráficos, tabelas ou por
funções que possuem como variável independente o valor da variável de interesse X e variável
dependente a probabilidade de ocorrência do valor de X específico (Triola, 2006). Algumas das
principais distribuições utilizadas pela estatística e suas derivações serão estudadas mais adiante e
em conteúdos posteriores.
É importante conhecer a forma, o centro e a variabilidade de uma distribuição de probabilidade
para que se possa tomar decisões baseadas em inferências estatísticas (Larson, Farber, 2010b). O
conhecimento desses parâmetros das distribuições de probabilidade é fundamental para o uso de
técnicas de estatística inferencial.
As variáveis aleatórias descritas podem ser tanto discretasquanto contínuas. Uma variável
aleatória discreta é uma com resultados contáveis, com números geralmente inteiros, que podem ser
finitos ou infinitos; já variáveis aleatórias contínuas têm infinitos valores associados, mesmo que sua
amplitude seja finita, já que cada subintervalo pode ser dividido em infinitos números e as escalas
não têm vazios ou saltos – esse tipo de variável geralmente está associado a mensurações (Pinheiro
et al., 2009).
O valor esperado de uma variável aleatória discreta E é a média dos valores ponderados pelas
suas probabilidades de ocorrência e seria como sua média, no caso:
A variância e o desvio-padrão de distribuições de probabilidade discretas possuem as seguintes
fórmulas:
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 9/15
O caso para variáveis contínuas exige o conhecimento de ferramentas matemáticas mais
avançadas, ficando fora do escopo dessa aula o conhecimento de suas fórmulas, porém as
distribuições mais utilizadas da estatística já possuem suas distribuições bem analisadas e
incorporadas nos diferentes softwares estatísticos, tornando cálculos desse tipo desnecessários.
Em muitos casos da estatística, e mesmo da vida real, não sabemos a distribuição de
probabilidade detalhada do fenômeno que estamos analisando. Contudo, podemos aproximar,
considerando a frequência relativa observada dos resultados (Larson, Farber, 2010b).
Considerando o exemplo do lançamento de um dado, o espaço amostral consiste de seis
elementos – 1, 2, 3, 4, 5, 6 com igual probabilidade de ocorrência. A distribuição de probabilidade
desse fenômeno está expressa na tabela 1 e no gráfico 1.
Tabela 1 - Tabela de probabilidades de lançamento de um dado
Pontuação do dado Probabilidade
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
Fonte: Barbosa, 2021.
Os dados no gráfico foram arredondados para três casas decimais.
Gráfico 1 - Gráfico de probabilidade do lançamento de um dado
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 10/15
Fonte: Barbosa, 2021
Como a probabilidade de ocorrência é igual para qualquer valor da pontuação dos dados, o
gráfico de barras tem o formato de um retângulo. Raramente os fenômenos do mundo real são
assim, com probabilidades uniformes para toda a escala de valores possível, em geral, as
distribuições de probabilidade são bem mais complexas.
Um exemplo de distribuição mais complexa seria a soma da pontuação do lançamento de dois
dados, o espaço amostral vai de 2 a 12, já que valor mínimo de cada dado é 1, logo a soma mínima
do lançamento de dois dados é 2 e a soma máxima é 12, já que valor máximo por dado é 6. Contudo,
a probabilidade de ocorrência dos valores difere, como pode ser visto na tabela 2 e no gráfico 2.
Tabela 2 - Tabela de probabilidades da soma do lançamento de dois dados
Valor da soma Probabilidade
2 1/36
3 2/36
4 3/36
5 4/36
6 5/36
7 6/36
8 5/36
9 4/36
10 3/36
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 11/15
11 2/36
12 1/36
Fonte: elaborado com base em Pinheiro et al., 2009.
Fica claro que a probabilidade de ocorrência dos valores da variável X diferem entre si. O gráfico
2 mostra visualmente os dados da tabela 2. Os resultados foram arredondados para três casas
decimais.
Gráfico 2 - Gráfico de probabilidade da soma do lançamento de dois dados
Fonte: elaborado com base em Pinheiro et al., 2009.
Essa distribuição de probabilidades é bem diferente da distribuição de quando se lança um
dado. O caso da soma do lançamento de dois dados está bem longe de ser uma distribuição de
probabilidade uniforme, já que ela varia substancialmente, com probabilidades maiores nos valores
do meio da escala do que nos valores das pontas. A seguir apresentamos a primeira distribuição de
probabilidade utilizada com certa frequência na estatística.
TEMA 5 – DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL
A distribuição de probabilidade binomial descreve variáveis aleatórias que podem ser divididas
em duas categorias, como sim ou não, aceitável ou defeituoso, votou em X ou não votou em X, cara
ou coroa. Em geral, se classificam os resultados em sucessos e fracassos, sem necessariamente uma
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 12/15
valoração subjetiva que um sucesso é algo positivo e um fracasso é algo negativo. Duas exigências
dessa distribuição é que cada elemento seja independente, ou seja, obter um resultado individual
não afeta a probabilidade de se obter o mesmo resultado ou algum outro resultado específico nas
outras tentativas e que a probabilidade de obter um sucesso é a mesma para cada tentativa, ou seja,
ela se mantém constante (Triola, 2006).
A função abaixo descreve a distribuição de probabilidade binomial.
Na qual:
p é a probabilidade de sucesso
q é a probabilidade de fracasso (1-p)
n é o número de tentativas
X é o número específico de sucessos em n tentativas
P (x) é a probabilidade de obter exatamente X sucessos em n tentativas
! fatorial é a multiplicação de fatores decrescentes, exemplo 4! = 4*3*2*1 = 24
Analisar a fórmula dessa distribuição não é relevante para nós, nosso foco é saber sua aplicação
e interpretar seus resultados. Abaixo estão as fórmulas que descrevem a média, variância e desvio-
padrão da distribuição binomial.
Os valores das probabilidades são expressos em decimais. Um exemplo é: qual a chance de
obter exatamente sete jurados de origem mexicana entre os doze jurados de um tribunal
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 13/15
selecionados aleatoriamente de uma população que é 80% de origem mexicana em uma localidade
dos EUA (Triola, 2006)?
Se formos pela lei da multiplicação de probabilidades e considerarmos a seleção dos jurados
independentes uma das outras, o cálculo seria (0,8 = 0,21 ou 21% de chance. Porém, nesse caso
não é o valor correto porque assume que os sete primeiros jurados são de origem mexicana e os
últimos cinco dos doze não são, mas diversos outros arranjos são possíveis para sete jurados de
origem mexicana, e cinco, não. Tomando a distribuição binomial, essa probabilidade cairia para 0,053
ou 5,3% de obter exatamente sete jurados de origem mexicana entre os 12 jurados do tribunal, o
valor real é quase um quarto da probabilidade estimada pela lei da multiplicação.
Se formos calcular os parâmetros da distribuição desse exemplo, no caso média, variância e
desvio-padrão, obteríamos:
p - a probabilidade de sucesso é 0,8, no caso, obter um cidadão de origem mexicana em uma
seleção aleatória de uma população que é 80% dessa origem;
q - a probabilidade de fracasso 0,2, a probabilidade de não se obter um cidadão de origem
mexicana em uma seleção aleatória de uma população que é 80% de origem mexicana;
n – número de tentativas é 12, já que são 12 jurados selecionados aleatoriamente para compor o
júri;
Os cálculos abaixo se referem à média, variância e desvio-padrão desse exemplo:
= 12*0,8 = 9,6
= 12*0,8*0,2 = 1,92
= 1,38
Para as 12 tentativas desse experimento, a média de sucessos obtidos (cidadãos de origem
mexicana selecionados aleatoriamente para o júri) é de 9,6, a variância de 1,92 selecionados para o
júri ao quadrado e o desvio-padrão de 1,38 pessoas de origem mexicana selecionadas para o júri.
TROCANDO IDEIAS
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 14/15
Em um fórum de discussão, comente e reflita sobre mais casos práticos em que as regras da
adição e da multiplicação para as probabilidades se aplicam, tanto para eventos independentes
quanto dependentes.
NA PRÁTICA
Suponha que um teste de sangue para a detecção de uma doença tenha duas possibilidades de
dar resultados enganosos. Primeiro: há uma probabilidade de 3% de o teste dar um resultado falso
positivo – quando o exame diz que a pessoa tem a doença quando na verdade ela não tem – e uma
probabilidade de 4% de dar falso negativo – quando o exame aponta que a pessoa não tem a
doença em questão quandona verdade ela tem. Resultados falsos positivos e falsos negativos são
mutuamente excludentes, ou seja, não podem ocorrer ao mesmo tempo para o mesmo exame. Com
base nesses dados:
1. Calcule a probabilidade de um teste selecionado aleatoriamente ter resultados enganosos.
2. Se selecionarmos 50 testes aleatoriamente, qual o número esperado de testes que darão
resultados enganosos, seja falso positivo ou falso negativo?
FINALIZANDO
A presente aula abordou alguns conceitos fundamentais da teoria da probabilidade, que são
importantes para o entendimento das técnicas e da lógica da estatística inferencial, foco de
conteúdos posteriores, em especial o conceito de distribuição de probabilidade.
REFERÊNCIAS
LARSON, R.; FARBER, B. Capítulo 3 - Probabilidade. In:__ Estatística Aplicada. 4. ed. São Paulo:
Pearson Prentice Hall, 2010a, p. 104-153.
LARSON, R.; FARBER, B. Capítulo 4 – Distribuições de Probabilidade Discretas. In:__ Estatística
Aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010b, p. 154-191.
07/06/2022 20:14 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 15/15
PINHEIRO, J. I. D.; DA CUNHA, S. B.; CARVAJAL, S. R.; GOMES, G. C. Capítulo 3 – Introdução ao
cálculo de probabilidades. In:__ Estatística Básica: a arte de trabalha com dados. São Paulo: Elsevier,
2009, p. 70-94.
TRIOLA, M. F. Capítulo 5 – Distribuições de probabilidade. In: TRIOLA, M. F. Estatística
Elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 198-243.
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 1/14
ESTATÍSTICA APLICADA
AULA 4
Prof. Tiago Claudino Barbosa
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 2/14
CONVERSA INICIAL
Nesta aula, vamos aprender a principal distribuição de probabilidade utilizada na estatística, a
distribuição normal, suas propriedades e como ela dá base para as técnicas e conceitos da estatística
inferencial. Relembrando que a estatística inferencial busca realizar generalizações sobre alguma
característica de uma população a partir de dados obtidos de uma amostra representativa.
Os esforços de aprendizado são no sentido de compreender: (i) o que é a distribuição normal; (ii)
que fenômenos ela descreve; (iii) o que é a distribuição amostral e sua ligação com a distribuição
normal; (iv) que parâmetros podem ser estimados de forma precisa por estatísticas amostrais; e (v) o
que são estimadores pontuais.
CONTEXTUALIZANDO
Qual é a distribuição de probabilidade de algumas das principais variáveis do mundo real? Como
se fundamentam as inferências de uma amostra sobre uma população? Que parâmetros podemos
gerar inferências e quais não?
Algumas dessas perguntas serão abordadas nesta aula que foca a estatística inferencial. O
objetivo é entender os conceitos e aprender a interpretar os resultados, e não os cálculos em si, que
hoje em dia são facilmente realizados em softwares estatísticos.
TEMA 1 – A DISTRIBUIÇÃO NORMAL
A distribuição mais utilizada na estatística é chamada distribuição normal, que descreve vários
fenômenos do mundo real e é fundamental para a estatística inferencial. A fórmula dessa distribuição
é a seguinte:
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 3/14
em que e é aproximadamente 2,718 e π é igual a 3,14 e são constantes; logo, são os parâmetros
σ e µ, sua média e desvio-padrão que determinam o formato da curva normal. A média fica no exato
ponto central da escala X e localiza a linha de simetria da distribuição, e o desvio-padrão mostra o
quanto os dados são estendidos ao longo do eixo X (Larson; Ferber, 2010).
A distribuição normal é uma distribuição de probabilidade contínua, que possui algumas
propriedades:
a média, a mediana e a moda são iguais e se localizam no centro da distribuição;
a curva da distribuição tem forma de sino e é simétrica em torno da média;
a área total sob a curva normal é igual a um;
à medida que se distancia da média, a curva se aproxima do eixo X, mas nunca o toca, ou seja, a
probabilidade de ocorrência vai diminuindo e tendendo a zero, mas não chega a ser zero
(Larson; Ferber, 2010);
A Figura 1 mostra o gráfico da distribuição normal e suas características.
Figura 1 − Gráfico da distribuição normal
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 4/14
Crédito: Peter Hermes Furian / Adobe Stock.
A média, a mediana e a moda são do mesmo valor, localizado no meio da distribuição em µ. Os
dados se concentram ao redor da média, e quanto mais nos afastamos da média, tanto para a
esquerda quanto para a direita, menor a probabilidade de ocorrência desses valores. Cerca de 68,2%
dos dados da distribuição ocorrem a um desvio-padrão para esquerda ou para a direita da média, ou
seja, quase 70%. Se formos considerar dois desvios-padrão para a esquerda ou para a direita da
média, a probabilidade acumulada sobe para quase 95%. A três desvios-padrão para a esquerda ou
direita, acumulam-se 99,7% da probabilidade, ou seja, valores acima de três desvios-padrão da
média, tanto para cima quanto para baixo, são bastante raros.
Como foi dito, a distribuição normal é uma distribuição contínua. A área total sob a curva é igual
a 1, englobando todas as probabilidades. A probabilidade de ocorrência de cada intervalo de valores
vai de 0 (impossível) a 1. O Gráfico 1 mostra um histograma de mil dados gerados aleatoriamente de
acordo com a distribuição normal com média 100 e desvio-padrão 10.
Gráfico 1 − Exemplo de um histograma de uma distribuição normal com valores gerados por
computador
Crédito: Elaborado pelo autor
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 5/14
Notamos o formato de sino das barras, a expressão curva de sino é sinônima da curva que se
obtém em um gráfico da distribuição normal. Plotar e analisar um histograma da variável de interesse
é uma das formas de se examinar se um conjunto de dados parece seguir uma distribuição normal
ou não.
De modo a não ser necessário utilizar a complexa fórmula da distribuição normal para se
encontrar a probabilidade de ocorrência de valores ou intervalos de valores específicos, foi criada a
chamada distribuição normal padrão. Trata-se de uma distribuição normal com média 0 e desvio-
padrão 1, para a qual os cálculos de probabilidade já foram tabulados e se encontram prontamente
em softwares estatísticos. É possível transformar uma distribuição normal qualquer em uma
distribuição padrão ao se calcular o chamado escore Z de cada valor de X.
Vamos exemplificar. A escala de QI (quociente de inteligência) é uma das formas de mensuração
da inteligência humana, porém não a única. Em geral, os testes são feitos de modo a terem média
100 e desvio-padrão 15. Uma pessoa com QI de 125 está a quantos desvios-padrão da média? Para
obter essa informação, calculamos o escore Z de um QI de 125. O resultado é que essa pessoa está a
1,667 desvio-padrão acima da média. A partir das tabelas de probabilidade da distribuição normal
padrão, sabe-se que ela está entre os 5% de maior QI em uma população.
É possível calcular a probabilidade de ocorrência de um valor ou intervalo de valores de uma
distribuição normal ao se padronizar o valor de X desejado e se calcular qual a probabilidade a partir
de softwares estatísticos. Usando o Statdisk, primeiro calcule o valor do escore Z e defina se o
objetivo é encontrar probabilidade de um intervalo de valores ou valores mais ou menos extremos
do que esse. Supondo hipoteticamente que a altura média de homens adultos é 1,8 metro com
desvio-padrão de 0,2 metro, qual é a probabilidade de se selecionar aleatoriamente um homem com
1,6 metro ou menos? Para obter esse valor, é preciso calcular o escore Z de 1,6 metro (no caso, -1) e
calcular a probabilidade de Z ser igual ou menor que -1. Clique em Analysis e, na primeira opção,
Probability Distributions, em seguida clique na primeira opção Normal Distribution. Na caixa Z valuecoloque o valor do escore Z (-1) e clique em Evaluate. Uma série de valores aparecerão à direita. Na
quarta linha Left, aparece a probabilidade em termos decimais de valor ser menor ou igual ao escore
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 6/14
Z específico − no caso, 0,159, em percentual 15,9%, de chance de um homem selecionado
aleatoriamente ter 1,6 metro ou menos.
Se nossa pergunta fosse a probabilidade de um homem selecionado aleatoriamente ter altura
igual ou maior que 1,6 metro, a opção seria a da quinta linha, Right − no caso, 0,841 ou 84,1% de
probabilidade de um homem selecionado aleatoriamente ter 1,6 metro de altura ou mais.
TEMA 2 – EXEMPLOS DA DISTRIBUIÇÃO NORMAL
Há diversas variáveis do mundo real que tendem a seguir uma distribuição normal, tais como o
tamanho de partes do corpo de pessoas do mesmo sexo e idade, variáveis metabólicas do corpo
humano e animal, a altura de pessoas adultas etc.
A distribuição normal pode servir como uma aproximação da distribuição de probabilidade
binomial quando o tamanho da amostra não é muito pequeno. O cálculo da probabilidade de X
sucessos com base na fórmula binomial é trabalhoso, em especial quando o valor de n e o de X são
grandes; assim, a aproximação pela distribuição binomial, com cálculos mais fáceis e padronizados,
pode ser muito útil (Larson; Ferber, 2010). As condições para essa aproximação são as seguintes: se
np ≥ 5 e nq ≥ 5, a variável aleatória X pode ser aproximada pela distribuição normal com média µ =
np e desvio-padrão σ = . Quanto maior o valor de n, mais a distribuição binomial se aproxima
de uma distribuição normal (Larson; Ferber, 2010).
Vamos exemplificar. Se quisermos descobrir a probabilidade de obter ao menos 55% de homens
ao selecionarmos aleatoriamente 200 pessoas para compor nossa amostra de uma população que é
de 50% de homens e 50% de mulheres, o cálculo pela fórmula da distribuição binomial seria
trabalhoso e repetitivo. A aproximação com a distribuição normal facilita isso.
µ − 100 homens (50% de 200)
X – 110 homens (55% de homens na amostra de 200)
σ – 7,1 homens (
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 7/14
A probabilidade de obtermos ao menos 110 homens na nossa amostra é de 8,1% (valor à direita
de Z = 1,4), uma probabilidade relativamente baixa.
TEMA 3 – A DISTRIBUIÇÃO AMOSTRAL
A distribuição amostral de uma estatística se refere à distribuição de todas as estimativas
possíveis tiradas de diversas amostras de mesmo tamanho obtidas da mesma população. Equivale
repetir a coleta de dados da mesma população infinitas vezes com amostras de mesmo tamanho n.
Apesar de inúmeras estatísticas poderem ser calculadas para uma amostra, apenas quatro delas são
boas estimadoras dos parâmetros populacionais – média, proporção, variância e outra que é um bom
estimador em grandes amostras, o desvio-padrão. Isso se deve à sua distribuição amostral que, sob
determinadas condições, pode ser aproximada por uma distribuição normal, que possui propriedades
conhecidas que permitem inferências sólidas (Triola, 2006).
Um bom estimador tem duas propriedades básicas (Sartoris, 2006):
1) ele não é viesado, ou seja, a média das médias das diferentes amostras é igual à média
populacional do parâmetro;
2) dentro dos estimadores não viesados, ele é o que possui a menor variância, propriedade
conhecida como eficiência.
À medida que o tamanho da amostra aumenta, a distribuição amostral de estimadores não
viesados tende a se tornar uma distribuição normal. Na prática, as estatísticas que são bons
estimadores dos parâmetros populacionais são a média, a variância e a proporção. O desvio-padrão
não é um estimador não viesado diretamente, mas pode ser aproximado se a amostra for
relativamente grande. Outras estatísticas como a mediana e a amplitude não são bons estimadores
dos parâmetros populacionais (Triola, 2006).
A distribuição amostral das médias das amostras tem média igual à média populacional:
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 8/14
Ela tem a seguinte variância e desvio-padrão (o desvio padrão é também conhecido como
erro padrão da média):
O parâmetro é geralmente um valor fixo para a população e desconhecido, já o valor do
estimador depende dos valores obtidos em cada amostra, ou seja, o estimador é uma variável
aleatória que segue uma distribuição de probabilidade (Sartoris, 2006).
A estatística inferencial busca generalizar com segurança as conclusões obtidas a partir de uma
amostra para toda a população e quantificar as probabilidades de erro envolvidas no processo de
extrapolar da parte para o todo (Pinheiro et al., 2009).
Um erro muito comum é pensar que a amostra deve conter uma proporção significativa da
população analisada. Na verdade, isso não é necessário, o importante é garantir a aleatoriedade na
seleção dos componentes da amostra e um n absoluto adequado; não se trata de se obter uma
parcela X da população (Triola, 2006).
Se amostras de tamanho n ≥ 30 tiradas de uma população com média µ e desvio-padrão σ, a
distribuição amostral de médias das amostras se aproxima da distribuição normal; quanto maior o n,
maior a aproximação da distribuição amostral com a distribuição normal. Se a população original for
normalmente distribuída, a distribuição amostral de médias das amostras é normalmente distribuída
para qualquer amostra de tamanho n. Esse é o chamado Teorema do Limite Central, uma das bases
da estatística inferencial.
Teorema do Limite Central
1. Se o tamanho da amostra é 30 ou mais unidades, a média amostral segue uma distribuição
normal, mesmo que a distribuição de probabilidade da população original se afaste da distribuição
normal.
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 9/14
2. Se a população original for normalmente distribuída, a distribuição amostral será normal, não
importa o tamanho da amostra.
3. Se a amostra for menor do que 30 e a população original não seguir uma distribuição normal,
os métodos aqui expostos não se aplicam (Triola, 2006).
O Teorema do Limite Central diz que se tamanho amostral for grande o suficiente, a distribuição
das médias amostrais pode ser aproximada por uma distribuição normal, não importa qual seja a
distribuição de probabilidade da variável original (Triola, 2006). A média aqui citada não é somente o
parâmetro média, mas a média das proporções, variâncias e desvios-padrão obtidos nas diferentes
amostras.
Como dito anteriormente, cada amostra nos dá um valor para o estimador, e como diversas
amostras são possíveis e levam a valores de estatísticas diferentes, o estimador é uma variável
aleatória. As diferenças entre a média da população e as médias obtidas nas amostras são o chamado
erro amostral.
TEMA 4 – PARÂMETROS APROXIMÁVEIS
Há algumas estatísticas amostrais que são estimadores não viesados e eficientes dos parâmetros
populacionais, porém não são todas.
Utilizando-se o exemplo de uma população com valores 1, 2 e 5 e feita com reposição, pode-se
obter nove amostras diferentes de dois elementos. A partir do cálculo das principais estatísticas
apresentadas anteriormente, calcula-se a média das amostras, ou seja, a distribuição amostral e se vê
que para a média, a variância e a proporção, as estatísticas amostrais são bons estimadores dos
parâmetros populacionais, como pode ser visto na Tabela 1.
Tabela 1 − Parâmetros que são estimados sem viés por estatísticas
Amostra Média Variância Proporção de números ímpares
1,1
1,2
1,5
2,1
2,2
1
1,5
3
1,5
2
0
0,5
8
0,5
0
1
0,5
1
0,5
0
07/06/2022 20:15 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 10/14
2,5
5,1
5,2
5,5
3,5
3
3,5
5
4,5
8
4,5
0
0,5
1
0,5
1
Média da estatística 8/3 26/9 2/3
Parâmetro populacional 8/3 26/9 2/3
A estatística amostral atinge o valor populacional? Sim Sim Sim
Fonte: Triola, 2006.
A média dos valores das amostras possíveis é igual ao valor do parâmetro.