Baixe o app para aproveitar ainda mais
Prévia do material em texto
20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/14 ESTATÍSTICA APLICADA AULA 4 Prof. Tiago Claudino Barbosa 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/14 CONVERSA INICIAL Nesta aula, vamos aprender a principal distribuição de probabilidade utilizada na estatística, a distribuição normal, suas propriedades e como ela dá base para as técnicas e conceitos da estatística inferencial. Relembrando que a estatística inferencial busca realizar generalizações sobre alguma característica de uma população a partir de dados obtidos de uma amostra representativa. Os esforços de aprendizado são no sentido de compreender: (i) o que é a distribuição normal; (ii) que fenômenos ela descreve; (iii) o que é a distribuição amostral e sua ligação com a distribuição normal; (iv) que parâmetros podem ser estimados de forma precisa por estatísticas amostrais; e (v) o que são estimadores pontuais. CONTEXTUALIZANDO Qual é a distribuição de probabilidade de algumas das principais variáveis do mundo real? Como se fundamentam as inferências de uma amostra sobre uma população? Que parâmetros podemos gerar inferências e quais não? Algumas dessas perguntas serão abordadas nesta aula que foca a estatística inferencial. O objetivo é entender os conceitos e aprender a interpretar os resultados, e não os cálculos em si, que hoje em dia são facilmente realizados em softwares estatísticos. TEMA 1 – A DISTRIBUIÇÃO NORMAL A distribuição mais utilizada na estatística é chamada distribuição normal, que descreve vários fenômenos do mundo real e é fundamental para a estatística inferencial. A fórmula dessa distribuição é a seguinte: 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/14 em que e é aproximadamente 2,718 e π é igual a 3,14 e são constantes; logo, são os parâmetros σ e µ, sua média e desvio-padrão que determinam o formato da curva normal. A média fica no exato ponto central da escala X e localiza a linha de simetria da distribuição, e o desvio-padrão mostra o quanto os dados são estendidos ao longo do eixo X (Larson; Ferber, 2010). A distribuição normal é uma distribuição de probabilidade contínua, que possui algumas propriedades: a média, a mediana e a moda são iguais e se localizam no centro da distribuição; a curva da distribuição tem forma de sino e é simétrica em torno da média; a área total sob a curva normal é igual a um; à medida que se distancia da média, a curva se aproxima do eixo X, mas nunca o toca, ou seja, a probabilidade de ocorrência vai diminuindo e tendendo a zero, mas não chega a ser zero (Larson; Ferber, 2010); A Figura 1 mostra o gráfico da distribuição normal e suas características. Figura 1 − Gráfico da distribuição normal Crédito: Peter Hermes Furian / Adobe Stock. 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/14 A média, a mediana e a moda são do mesmo valor, localizado no meio da distribuição em µ. Os dados se concentram ao redor da média, e quanto mais nos afastamos da média, tanto para a esquerda quanto para a direita, menor a probabilidade de ocorrência desses valores. Cerca de 68,2% dos dados da distribuição ocorrem a um desvio-padrão para esquerda ou para a direita da média, ou seja, quase 70%. Se formos considerar dois desvios-padrão para a esquerda ou para a direita da média, a probabilidade acumulada sobe para quase 95%. A três desvios-padrão para a esquerda ou direita, acumulam-se 99,7% da probabilidade, ou seja, valores acima de três desvios-padrão da média, tanto para cima quanto para baixo, são bastante raros. Como foi dito, a distribuição normal é uma distribuição contínua. A área total sob a curva é igual a 1, englobando todas as probabilidades. A probabilidade de ocorrência de cada intervalo de valores vai de 0 (impossível) a 1. O Gráfico 1 mostra um histograma de mil dados gerados aleatoriamente de acordo com a distribuição normal com média 100 e desvio-padrão 10. Gráfico 1 − Exemplo de um histograma de uma distribuição normal com valores gerados por computador Crédito: Elaborado pelo autor Notamos o formato de sino das barras, a expressão curva de sino é sinônima da curva que se obtém em um gráfico da distribuição normal. Plotar e analisar um histograma da variável de interesse 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/14 é uma das formas de se examinar se um conjunto de dados parece seguir uma distribuição normal ou não. De modo a não ser necessário utilizar a complexa fórmula da distribuição normal para se encontrar a probabilidade de ocorrência de valores ou intervalos de valores específicos, foi criada a chamada distribuição normal padrão. Trata-se de uma distribuição normal com média 0 e desvio- padrão 1, para a qual os cálculos de probabilidade já foram tabulados e se encontram prontamente em softwares estatísticos. É possível transformar uma distribuição normal qualquer em uma distribuição padrão ao se calcular o chamado escore Z de cada valor de X. Vamos exemplificar. A escala de QI (quociente de inteligência) é uma das formas de mensuração da inteligência humana, porém não a única. Em geral, os testes são feitos de modo a terem média 100 e desvio-padrão 15. Uma pessoa com QI de 125 está a quantos desvios-padrão da média? Para obter essa informação, calculamos o escore Z de um QI de 125. O resultado é que essa pessoa está a 1,667 desvio-padrão acima da média. A partir das tabelas de probabilidade da distribuição normal padrão, sabe-se que ela está entre os 5% de maior QI em uma população. É possível calcular a probabilidade de ocorrência de um valor ou intervalo de valores de uma distribuição normal ao se padronizar o valor de X desejado e se calcular qual a probabilidade a partir de softwares estatísticos. Usando o Statdisk, primeiro calcule o valor do escore Z e defina se o objetivo é encontrar probabilidade de um intervalo de valores ou valores mais ou menos extremos do que esse. Supondo hipoteticamente que a altura média de homens adultos é 1,8 metro com desvio-padrão de 0,2 metro, qual é a probabilidade de se selecionar aleatoriamente um homem com 1,6 metro ou menos? Para obter esse valor, é preciso calcular o escore Z de 1,6 metro (no caso, -1) e calcular a probabilidade de Z ser igual ou menor que -1. Clique em Analysis e, na primeira opção, Probability Distributions, em seguida clique na primeira opção Normal Distribution. Na caixa Z value coloque o valor do escore Z (-1) e clique em Evaluate. Uma série de valores aparecerão à direita. Na quarta linha Left, aparece a probabilidade em termos decimais de valor ser menor ou igual ao escore Z específico − no caso, 0,159, em percentual 15,9%, de chance de um homem selecionado aleatoriamente ter 1,6 metro ou menos. 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/14 Se nossa pergunta fosse a probabilidade de um homem selecionado aleatoriamente ter altura igual ou maior que 1,6 metro, a opção seria a da quinta linha, Right − no caso, 0,841 ou 84,1% de probabilidade de um homem selecionado aleatoriamente ter 1,6 metro de altura ou mais. TEMA 2 – EXEMPLOS DA DISTRIBUIÇÃO NORMAL Há diversas variáveis do mundo real que tendem a seguir uma distribuição normal, tais como o tamanho de partes do corpo de pessoas do mesmo sexo e idade, variáveis metabólicas do corpo humano e animal, a altura de pessoas adultas etc. A distribuição normal pode servir como uma aproximação da distribuição de probabilidade binomial quando o tamanho da amostra não é muito pequeno. O cálculo da probabilidade de X sucessos com base na fórmula binomial é trabalhoso, em especial quando o valor de n e o de X são grandes; assim, a aproximação pela distribuição binomial, com cálculos mais fáceis e padronizados, pode ser muito útil (Larson; Ferber, 2010). As condições para essa aproximação são as seguintes: se np ≥ 5 e nq ≥ 5, a variável aleatória Xpode ser aproximada pela distribuição normal com média µ = np e desvio-padrão σ = . Quanto maior o valor de n, mais a distribuição binomial se aproxima de uma distribuição normal (Larson; Ferber, 2010). Vamos exemplificar. Se quisermos descobrir a probabilidade de obter ao menos 55% de homens ao selecionarmos aleatoriamente 200 pessoas para compor nossa amostra de uma população que é de 50% de homens e 50% de mulheres, o cálculo pela fórmula da distribuição binomial seria trabalhoso e repetitivo. A aproximação com a distribuição normal facilita isso. µ − 100 homens (50% de 200) X – 110 homens (55% de homens na amostra de 200) σ – 7,1 homens ( 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/14 A probabilidade de obtermos ao menos 110 homens na nossa amostra é de 8,1% (valor à direita de Z = 1,4), uma probabilidade relativamente baixa. TEMA 3 – A DISTRIBUIÇÃO AMOSTRAL A distribuição amostral de uma estatística se refere à distribuição de todas as estimativas possíveis tiradas de diversas amostras de mesmo tamanho obtidas da mesma população. Equivale repetir a coleta de dados da mesma população infinitas vezes com amostras de mesmo tamanho n. Apesar de inúmeras estatísticas poderem ser calculadas para uma amostra, apenas quatro delas são boas estimadoras dos parâmetros populacionais – média, proporção, variância e outra que é um bom estimador em grandes amostras, o desvio-padrão. Isso se deve à sua distribuição amostral que, sob determinadas condições, pode ser aproximada por uma distribuição normal, que possui propriedades conhecidas que permitem inferências sólidas (Triola, 2006). Um bom estimador tem duas propriedades básicas (Sartoris, 2006): 1) ele não é viesado, ou seja, a média das médias das diferentes amostras é igual à média populacional do parâmetro; 2) dentro dos estimadores não viesados, ele é o que possui a menor variância, propriedade conhecida como eficiência. À medida que o tamanho da amostra aumenta, a distribuição amostral de estimadores não viesados tende a se tornar uma distribuição normal. Na prática, as estatísticas que são bons estimadores dos parâmetros populacionais são a média, a variância e a proporção. O desvio-padrão não é um estimador não viesado diretamente, mas pode ser aproximado se a amostra for relativamente grande. Outras estatísticas como a mediana e a amplitude não são bons estimadores dos parâmetros populacionais (Triola, 2006). A distribuição amostral das médias das amostras tem média igual à média populacional: 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/14 Ela tem a seguinte variância e desvio-padrão (o desvio padrão é também conhecido como erro padrão da média): O parâmetro é geralmente um valor fixo para a população e desconhecido, já o valor do estimador depende dos valores obtidos em cada amostra, ou seja, o estimador é uma variável aleatória que segue uma distribuição de probabilidade (Sartoris, 2006). A estatística inferencial busca generalizar com segurança as conclusões obtidas a partir de uma amostra para toda a população e quantificar as probabilidades de erro envolvidas no processo de extrapolar da parte para o todo (Pinheiro et al., 2009). Um erro muito comum é pensar que a amostra deve conter uma proporção significativa da população analisada. Na verdade, isso não é necessário, o importante é garantir a aleatoriedade na seleção dos componentes da amostra e um n absoluto adequado; não se trata de se obter uma parcela X da população (Triola, 2006). Se amostras de tamanho n ≥ 30 tiradas de uma população com média µ e desvio-padrão σ, a distribuição amostral de médias das amostras se aproxima da distribuição normal; quanto maior o n, maior a aproximação da distribuição amostral com a distribuição normal. Se a população original for normalmente distribuída, a distribuição amostral de médias das amostras é normalmente distribuída para qualquer amostra de tamanho n. Esse é o chamado Teorema do Limite Central, uma das bases da estatística inferencial. Teorema do Limite Central 1. Se o tamanho da amostra é 30 ou mais unidades, a média amostral segue uma distribuição normal, mesmo que a distribuição de probabilidade da população original se afaste da distribuição normal. 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/14 2. Se a população original for normalmente distribuída, a distribuição amostral será normal, não importa o tamanho da amostra. 3. Se a amostra for menor do que 30 e a população original não seguir uma distribuição normal, os métodos aqui expostos não se aplicam (Triola, 2006). O Teorema do Limite Central diz que se tamanho amostral for grande o suficiente, a distribuição das médias amostrais pode ser aproximada por uma distribuição normal, não importa qual seja a distribuição de probabilidade da variável original (Triola, 2006). A média aqui citada não é somente o parâmetro média, mas a média das proporções, variâncias e desvios-padrão obtidos nas diferentes amostras. Como dito anteriormente, cada amostra nos dá um valor para o estimador, e como diversas amostras são possíveis e levam a valores de estatísticas diferentes, o estimador é uma variável aleatória. As diferenças entre a média da população e as médias obtidas nas amostras são o chamado erro amostral. TEMA 4 – PARÂMETROS APROXIMÁVEIS Há algumas estatísticas amostrais que são estimadores não viesados e eficientes dos parâmetros populacionais, porém não são todas. Utilizando-se o exemplo de uma população com valores 1, 2 e 5 e feita com reposição, pode-se obter nove amostras diferentes de dois elementos. A partir do cálculo das principais estatísticas apresentadas anteriormente, calcula-se a média das amostras, ou seja, a distribuição amostral e se vê que para a média, a variância e a proporção, as estatísticas amostrais são bons estimadores dos parâmetros populacionais, como pode ser visto na Tabela 1. Tabela 1 − Parâmetros que são estimados sem viés por estatísticas Amostra Média Variância Proporção de números ímpares 1,1 1,2 1,5 2,1 2,2 1 1,5 3 1,5 2 0 0,5 8 0,5 0 1 0,5 1 0,5 0 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/14 2,5 5,1 5,2 5,5 3,5 3 3,5 5 4,5 8 4,5 0 0,5 1 0,5 1 Média da estatística 8/3 26/9 2/3 Parâmetro populacional 8/3 26/9 2/3 A estatística amostral atinge o valor populacional? Sim Sim Sim Fonte: Triola, 2006. A média dos valores das amostras possíveis é igual ao valor do parâmetro. Já outras estatísticas, como a mediana, a amplitude e o desvio-padrão, não são bons estimadores do parâmetro populacional, no sentido de serem não viesados, conforme pode ser visto na Tabela 2. Tabela 2 − Parâmetros que são estimados com vieses por estatísticas Amostra Mediana Amplitude Desvio-padrão 1,1 1,2 1,5 2,1 2,2 2,5 5,1 5,2 5,5 1 1,5 3 1,5 2 3,5 3 3,5 5 0 1 4 1 0 3 4 3 0 0 0,707 2,828 0,707 0 2,121 2,828 2,121 0 Média da estatística 8/3 16/9 1,3 Parâmetro populacional 2 4 1,7 A estatística amostral atinge o valor populacional? Não Não Não Fonte: Triola, 2006. Contudo, a média do desvio-padrão não difere tanto do valor do desvio-padrão populacional, sendo assim um estimador razoável se o tamanho da amostra for relativamente grande. 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/14 Portanto, se a amostra for relativamente grande, o valor amostral da média, variância, proporção e desvio-padrão são bons estimadores da média, variância, proporção e desvio-padrão populacional. Esses valores amostrais, chamados de estimadores pontuais, são as melhores estimativas que temos. Por isso, as pesquisas de intenção de voto são fidedignas ao apontar as proporções de voto de um candidato. O mesmo ocorre para o desempenho acadêmico médio dos estudantes de uma escola, aproximado pela média do valor obtido em testes aplicados a uma amostra aleatória de estudantes, e para a análise, porexemplo, de qual máquina produz peças com menor variabilidade, ou seja, peças que seguem melhor o padrão adotado, aproximada pela variância ou o desvio-padrão. Estatísticas que são bons estimadores nem sempre acertam o valor dos parâmetros populacionais; essa diferença entre o valor amostral e o populacional é chamado de erro amostral. Não é possível saber se estamos cometendo esse erro e qual é o seu valor real, já que parâmetro é desconhecido, porém podemos estimar probabilisticamente o tamanho desse erro dentro de alguma margem de probabilidade, algo que será explorado posteriormente (Pinheiro et al., 2009). TEMA 5 – EXEMPLOS DE ESTIMADORES PONTUAIS Como dito anteriormente, para alguns parâmetros populacionais as estatísticas amostrais são os melhores estimadores, mas não para todos. A média, a variância, a proporção e o desvio-padrão para grandes amostras são as melhores estimativas que temos de seus correspondentes parâmetros, que são em geral desconhecidos. O Quadro 1 traz alguns exemplos de casos hipotéticos de estatísticas amostrais obtidas de amostras aleatórias que permitem estimar o valor dos parâmetros desconhecidos. Por enquanto, ignore questões como distribuição dos dados amostrais e tamanho da amostra, aspectos que serão trabalhados mais adiante. Quadro 1 − Exemplos hipotéticos de interpretação de estatísticas amostrais Estatísticas amostrais e sua interpretação A média obtida em uma amostra do peso de pessoas adultas foi de 70 kg; como a amostra foi aleatória e relativamente grande, pode-se inferir que o peso médio da população estudada é de cerca de 70 kg. A mediana da mesma amostra acima foi de 68 kg; apesar de a amostra ser aleatória e grande, não é possível inferir se a mediana populacional é 68 kg ou não porque a mediana amostral é um estimador viesado da mediana populacional. 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/14 Uma pesquisa de intenção de votos identificou que 50% dos respondentes pretendem votar no candidato A; como a amostra foi aleatória e grande, essa proporção amostral de 50% é a melhor estimativa disponível da proporção populacional. Pode-se concluir que esse candidato tem cerca da metade das intenções de voto e tem chances de vencer a eleição. Em uma pesquisa sobre a produção de um equipamento industrial de uma empresa, identificou-se que a variância do peso das peças era de 0,02 kg, uma margem aceitável segundo os padrões dessa indústria; a variância amostral de 0,02 kg é a melhor estimativa que temos da variância populacional desconhecida. O controle de qualidade de processos em empresas envolve medidas estatísticas, como a média de determinados atributos dos produtos vendidos dentro do padrão, a variância e o desvio-padrão dessas propriedades para medir a variabilidade entre os itens produzidos, a proporção de produtos defeituosos e fora do padrão etc. Obter amostras aleatórias fidedignas é fundamental para esse processo de controle de qualidade e garantia de certificações técnicas diversas. Crédito: Elaborado pelo autor Conforme podemos ver nesses exemplos, para alguns parâmetros as estatísticas correspondentes são as melhores estimativas disponíveis do valor deles. Nesses casos, as estatísticas amostrais brutas são chamadas de estimadores pontuais dos parâmetros, pois fornecem um valor pontual de estimativa. Apesar de serem estimadores não viesados e de menor variância, estimadores pontuais não dizem nada sobre o quanto suas estimativas são precisas, e essa é sua principal falha. Posteriormente, vamos aprender a construir formas de se obter um intervalo de valores com alta probabilidade de conter o verdadeiro valor do parâmetro e suas exigências. Por ora, enfatizamos a importância de as amostras serem aleatórias para que a estatística inferencial possa ocorrer, mas mais adiante veremos que há outras condições necessárias à realização de inferências a partir de amostras. TROCANDO IDEIAS Em um fórum de discussão, debata sobre que conclusões podemos ou não tirar de estatísticas amostrais, como a média, a mediana, a proporção, variância e o desvio-padrão de parâmetros, obtidas de amostras aleatórias. NA PRÁTICA A tarefa proposta é julgar a validade das seguintes afirmações e justificar sua resposta: 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/14 A. Coletamos uma amostra não aleatória e identificamos que 50% dos respondentes preferem comprar em lojas em que já tenham adquirido o mesmo item anteriormente. Podemos concluir que a maioria das pessoas é relativamente conservadora em relação ao consumo e preferem comprar nas mesmas lojas que já tenham comprado o mesmo item? B. Em uma amostra aleatória e grande, é confiável basear nossas conclusões na mediana amostral obtida? C. Em uma amostra aleatória e grande, é confiável basear nossas conclusões sobre uma população com base na média e na variância amostrais obtidas? D. Se a média obtida de uma amostra aleatória e grande indica que o peso dos sacos de cimento produzidos em uma linha de produção está acima do valor especificado na embalagem, é possível concluir que os equipamentos estão desregulados? O fabricante dos equipamentos diz que a variação está dentro do normal. (A resposta está no final da aula.) FINALIZANDO A presente aula descreveu a distribuição normal e fundamentou a capacidade de a estatística inferencial realizar generalizações sobre alguns parâmetros populacionais a partir de dados amostrais. Essas questões serão aprofundadas posteriormente, além de serem introduzidas as duas principais ferramentas da estatística inferencial: a estimação intervalar de parâmetros e o teste de hipóteses. REFERÊNCIAS LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010. PINHEIRO, J. I. D. et al. Estatística básica: a arte de trabalha com dados. São Paulo: Elsevier, 2009. SARTORIS, A. Estatística e introdução à econometria. São Paulo: Saraiva, 2008. TRIOLA, M. F. Estatística elementar. 10. ed. Boston: Pearson Prentice Hall, 2006. RESPOSTAS 20/06/2022 13:01 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/14 Lembre-se de que somente amostras aleatórias geram resultados confiáveis para a estimativa dos valores dos parâmetros, isso é fundamental; quanto maiores elas forem, mais precisos serão os resultados. Outro ponto é que somente podemos julgar se um valor estipulado para um parâmetro está incorreto se realizarmos um teste estatístico completo que, além de precisar da estatística que representa o parâmetro, exige outros dados como variância da estimativa e valores críticos.
Compartilhar