Baixe o app para aproveitar ainda mais
Prévia do material em texto
07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/14 ESTATÍSTICA APLICADA AULA 1 Prof. Tiago Claudino Barbosa 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/14 CONVERSA INICIAL INTRODUÇÃO À ESTATÍSTICA Nossa aula busca introduzir conceitos básicos da estatística e mostrar seu imenso potencial de uso na economia e áreas correlatas. Os esforços de aprendizado serão direcionados para e entendimento: (i) do objeto de estudo da estatística e dos seus principais objetivos enquanto ciência aplicada; (ii) de alguns conceitos iniciais aplicados em diversas técnicas estatísticas; (iii) da importância do uso de amostras e da forma de coleta dos dados a serem analisados; (iv) de algumas formas de se resumir grandes conjuntos de dados; (v) de algumas das principais aplicações da estatística na economia. CONTEXTUALIZANDO Em um ano, qual o efeito de um aumento nos gastos do governo na taxa de desemprego no Brasil? Qual o impacto no salário de se ter cursado ensino superior? Esse impacto difere entre os países e regiões e, se sim, por que? Qual o perfil médio e os desejos do público-alvo da minha empresa? Qual a taxa de defeito nas peças que saem da minha linha de produção? Qual a previsão do crescimento do meu mercado nos próximos cinco anos? Essas e outras perguntas de relevância econômica, política e social são respondidas pela estatística. A teoria econômica provê explicações teóricas para o comportamento e a relação entre variáveis econômicas e variáveis do contexto social, porém a verificação empírica dessas teorias e a aplicação para casos concretos dependem da existência de dados adequados e do emprego de técnicas estatísticas. O objetivo desta disciplina é mostrar a base da estatística e suas técnicas, que serão aprofundadas na disciplina de econometria do quarto ano. Os tópicos serão apresentados de forma 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/14 sucinta e introdutória, sendo possível que os alunos se aprofundem em temas de seu interesse ao lerem a bibliografia recomendada. TEMA 1 – O QUE É E PARA QUE SERVE A ESTATÍSTICA? O que é a estatística e qual a sua importância para a economia e áreas correlatas? Essas duas perguntas serão exploradas na aula de hoje. É possível adiantar que a estatística tem um papel central dentro da ciência econômica, ajudando a transpor os modelos teóricos da economia para a análise de situações empíricas do mundo real. As técnicas estatísticas ajudam os economistas a balizar suas previsões sobre o futuro, a testar hipóteses sobre o comportamento dos atores econômicos e suas relações e a estimar a direção e a força das relações entre variáveis econômicas e entre variáveis econômicas e outros fatores do contexto social, como variáveis políticas e sociais (Hoffman, 2006). A importância da estatística é tão grande que uma nova disciplina emergiu dentro da economia através da junção de teoria econômica, modelos matemáticos baseados nessas teorias e uso de técnicas estatísticas para a análise de dados empíricos – a econometria, que será ensinada no último ano do nosso curso. A nossa disciplina de Estatística Aplicada visa ensinar os conceitos e técnicas básicas da estatística utilizados pelos economistas em uma variedade de situações práticas. Os conceitos a serem ensinados não só formam a base para o entendimento da disciplina de Econometria, mas são fundamentais para o aguçamento do senso crítico, para o entendimento de notícias e informações científicas diversas e para a aplicação de conceitos e técnicas para a resolução de problemas que economistas enfrentam no seu trabalho em empresas, governos, entidades sem fins lucrativos ou em seus empreendimentos pessoais. Para iniciarmos nossa jornada, devemos primeiro entender o que é a estatística e quais os objetivos de suas duas principais áreas. “Estatística é a ciência que coleta, organiza, analisa e interpreta dados para a tomada de decisão” (Larson; Farber, 2010, p.3). É aplicada em diversos campos do conhecimento e da ação humana que envolvam dados e decisões, sejam de ordem científica, tecnológica, empresarial, produtiva, comercial, de gestão pública, entre outros. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/14 A matéria-prima da estatística são os dados, que podem ser quantitativos ou qualitativos. Para que esses dados forneçam informações relevantes para situações do mundo real, eles devem ser organizados e analisados com técnicas adequadas. Esse processo de transformação de conjuntos de dados brutos em informações úteis para a tomada de decisão no mundo real é o objetivo principal da estatística. Para a realização desse objetivo, a estatística é dividida em duas partes. A estatística descritiva que tem por objetivo apresentar, organizar e descrever um conjunto de dados de forma sucinta, e a inferência estatística se refere a técnicas que permitem generalizações (inferências), que podem ser feitas sobre características de uma população a partir de amostras e informações incompletas (Hoffman, 2006). Dessa forma, a essência da inferência estatística é aprender algo sobre uma população de interesse a partir da coleta e análise de dados de uma parte menor de seus membros (amostras) (Triola, 2006). Os tópicos abordados nas próximas seções devem tornar esses conceitos mais claros. TEMA 2 – CONCEITOS INICIAIS Alguns conceitos iniciais são necessários para se entender os objetivos e potenciais da estatística. O quadro 1 apresenta uma parte desses conceitos iniciais, sendo os demais conceitos iniciais apresentados em conteúdos posteriores. Quadro 1 – Alguns conceitos básicos da estatística CONCEITO DEFINIÇÃO EXEMPLO Dado Dados são observações coletadas. Altura de estudantes de uma escola, cotações de uma moeda ao longo de um ano. Dado quantitativo Observação numérica representando contagens ou medidas. Peso de latas de refrigerantes produzidas em uma fábrica, lucro de empresas de um determinado país em um ano. Dado qualitativo Observações que podem ser separadas em diferentes categorias conforme alguma característica não numérica. Cores dos carros vendidos por uma concessionária, voto no candidato X em uma eleição, cidade de origem dos funcionários de uma empresa. Variável Um atributo do objeto de estudo considerado que tenha variação. Renda per capita da população de um país, altura de adultos de um país. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/14 Variável aleatória Variável cujos valores provém de um processo aleatório. Resultado do lançamento de um dado ou de uma moeda. População Coleção completa de todos os elementos a serem estudados. Todos os habitantes do Brasil no caso do Censo Demográfico. Parâmetro Medida numérica que descreve alguma característica da população. Proporção de todos os brasileiros que estão em situação de extrema pobreza. Censo Coleta de dados sobre todos os membros de uma população. Censo Demográfico realizado no Brasil a cada dez anos. Amostra Subconjunto de membros selecionados de uma população. Pesquisa de intenção de votos para uma eleição. Estatística Medida numérica que descreve alguma característica de uma amostra. Proporção de eleitores que pretendem votar no candidato A, salário médio de pessoas que se formaram no curso X. Inferência Estatística Generalização sobre algum parâmetro da população de interesse com base em uma estatística obtida de uma amostra dessa população. Projeção da provável vitória de um candidato que tenha obtido intenções de voto muito maiores que outros candidatos em uma amostra. Fonte: Elaborado com base em Triola, 2006. A aplicação desses conceitos em casos práticos deve ser bem demarcada no tempo e no espaço. Por exemplo, se quisermos analisar a distribuição de renda em um determinado território, é preciso demarcar bem qual é esse territórioe a que período do tempo os dados se referem. A distribuição de renda do Brasil em 2018, por exemplo, é diferente da de 2019, e as distribuições de renda das regiões e estados brasileiros também se diferem entre si. Para um melhor entendimento dos conceitos, leia os casos hipotéticos abaixo. Suponha que desejamos saber o desempenho acadêmico de uma escola. Como se trata de uma população de estudantes relativamente pequena, a escola resolve realizar um teste com todos os estudantes (censo). A pontuação no teste dos alunos é a variável de interesse, e o desempenho médio dos alunos é o parâmetro que mede o desempenho acadêmico da escola. É importante assinalar que os resultados refletem o desempenho dessa escola específica em um momento do tempo específico, não podendo ser generalizado para outros contextos. Agora, suponha que desejamos saber qual candidato a uma eleição provavelmente será o vencedor e qual a proporção da população votante de um território (população) que vai votar em 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/14 cada candidato (parâmetro). Como a população é grande, foi decidido realizar uma amostra aleatória com dois mil eleitores. A variável de interesse é a intenção de voto na eleição específica. As proporções de intenção de voto para cada candidato obtidas na amostra são as estatísticas, a partir das quais a aplicação de técnicas estatísticas permite a estimação do parâmetro, chegando-se a conclusões prováveis sobre qual a proporção de votos que cada candidato vai ter na eleição e, logo, qual o provável vencedor, a chamada inferência estatística. Um melhor entendimento das formas de se obter amostras é o nosso próximo tópico. TEMA 3 – AMOSTRAGEM A melhor forma de se conhecer os atributos de uma população seria realizar um censo, no qual todos os membros da população têm seus dados coletados, porém isso nem sempre é viável ou prático. Por exemplo, se quisermos saber a opinião de todos os milhões de brasileiros em idade de votar sobre a aprovação de uma nova lei qualquer, teríamos que realizar um censo que abordasse todos os brasileiros dentro de um espaço curto de tempo, de cidadãos que habitam as grandes metrópoles às comunidades indígenas e ribeirinhas da Amazônia. Isso se tornaria inviável em termos logísticos, técnicos e financeiros, ainda mais se considerarmos que se trata de uma questão pontual. O Brasil realiza, a cada dez anos em média, o Censo Demográfico para a coleta de dados diversos sobre a população brasileira. Esse censo exige elevados recursos e planejamento a longo prazo, e, mesmo assim, falha em capturar informações de todos os cidadãos brasileiros. Muitos não respondem a pesquisa por não estarem em casa no momento em que o recenseador chega para a coleta de dados, por não terem residência fixa, entre outros motivos diversos. Mesmo que sua cobertura seja incompleta, ela pode ser considerada razoável para a maioria das questões. Contudo, por ser realizado a cada dez anos, os dados podem ficar desatualizados nesse meio tempo. Um dado como a taxa de desemprego em 2010 não diz muito sobre o desemprego no Brasil em 2019, ainda mais considerando que essa é uma variável conjuntural que flutua muito de um ano para o outro ou mesmo dentro de um mesmo ano. Há ainda outras questões. Por exemplo, se quisermos avaliar a resistência mecânica de uma peça de nossa linha de produção, teremos que utilizar testes que levem essas peças ao seu limite, ou seja, 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/14 à destruição. Realizar um censo para mensurar a resistência de todas as peças tornaria a linha de produção insustentável. Dadas essas dificuldades para a realização de censos, é possível utilizar amostras, que são subconjuntos da população de interesse, para se estimar algum atributo sobre a população. Há diversas formas de se obter uma amostra, mas a que possui as melhores propriedades e a mais utilizada em análises estatísticas são as amostras aleatórias. Em uma amostra aleatória, todos os membros da população têm a mesma chance de serem selecionados para a amostra (Triola, 2006). Um dos riscos de se utilizar uma amostra é que ela pode não ser representativa da população de interesse, gerando, assim, resultados distorcidos. Uma amostra ruim pode ser pior do que não ter amostra nenhuma. Uma amostra representativa é uma que não tenha vieses de seleção, que são direcionamentos que fazem com que determinados membros de uma população tenham maior chance de serem selecionados ou excluídos de uma amostra. Ao aparecerem em maior ou menor frequência que a parte da população de interesse, eles fazem a amostra ter uma composição diferente, gerando resultados não representativos. Nesse contexto, se quisermos saber qual a renda média das famílias da cidade de São Paulo, não podemos coletar dados somente de pessoas que trabalham na Avenida Faria Lima, conhecida por ser um polo financeiro e uma região de renda elevada. Uma estatística baseada somente em indivíduos dessa região não seria capaz de estimar a renda média de São Paulo, pois seria distorcida por não incorporar pessoas que habitam regiões mais periféricas e de menor renda. A amostra deve sim abarcar pessoas que habitam a região da Faria Lima, mas também pessoas das outras regiões da cidade. A aleatoriedade garante a redução do risco de vieses ao fazer com que todos os segmentos tenham a mesma probabilidade de serem incluídos na amostra. Há ainda riscos de distorções na composição da amostra devido ao acaso, mas são bem baixos. Especialmente em grandes amostras, a aleatoriedade é a melhor maneira de garantir a minimização desses riscos. Nosso próximo tópico mostra algumas formas de organização e resumo de conjuntos de dados. TEMA 4 – DISTRIBUIÇÃO DE FREQUÊNCIA E GRÁFICOS 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/14 Os conjuntos de dados têm algumas propriedades que nos permitem entender seu comportamento e características gerais. Uma dessas propriedades é a distribuição dos dados, que se refere à forma com que os dados são distribuídos ao longo da escala da variável analisada (Triola, 2006). Os valores dos dados podem se concentrar próximos a um ou mais pontos específicos, e há formas de se observar isso visualmente por meio de tabelas e gráficos. Uma forma eficiente de se organizar os dados e entender como eles se distribuem é por meio da construção de tabelas, como a distribuição de frequência, que é uma tabela que divide os valores individualmente ou em classes de valores e reporta a frequência que aqueles valores aparecem no conjunto (Pinheiro et al., 2009). Os procedimentos para a elaboração de uma distribuição de frequência são: (i) organizar os dados em ordem crescente; (ii) definir a amplitude dos valores ao subtrair do valor máximo o valor mínimo; (iii) definir o número de intervalos a serem feitos, em geral de mesma amplitude, e os valores dos seus limites superiores e inferiores; (iii) colocar a frequência de aparecimento no conjunto de dados de valores por intervalo. Atualmente, qualquer software estatístico realiza isso automaticamente, logo devemos focar na interpretação dos resultados. Utilizamos um exemplo real de uma variável econômica de alta relevância para ilustrar esse conceito. A tabela 1 mostra o valor da renda familiar per capita média dos 26 estados brasileiros e do Distrito Federal em 2019. Os dados foram obtidos da Pesquisa Nacional por Amostra de Domicílios (PNAD), que coleta periodicamente dados representativos das unidades federativas do país sobre mercado de trabalho e outras variáveis socioeconômicas. Os valores foram arredondados. Tabela 1 – Renda familiar per capita das unidades federativas do Brasil – em R$ Unidade Federativa Renda per capita familiar - em R$ Rondônia 1.111 Acre 890 Amazonas 838 Roraima 1.050 Pará 795 Amapá 874 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/14 Tocantins1.038 Maranhão 637 Piauí 831 Ceará 939 Rio Grande do Norte 1.042 Paraíba 909 Pernambuco 954 Alagoas 729 Sergipe 970 Bahia 912 Minas Gerais 1.331 Espírito Santo 1.440 Rio de Janeiro 1.809 São Paulo 1.889 Paraná 1.586 Santa Catarina 1.709 Rio Grande do Sul 1.812 Mato Grosso do Sul 1.491 Mato Grosso 1.361 Goiás 1.284 Distrito Federal 2.599 Fonte: IBGE, 2021. A renda familiar per capita é um indicador do grau de desenvolvimento econômico e acesso a consumo de uma região. Quanto maior, melhor. Os dados das unidades federativas brasileiras indicam uma forte variação da renda per capita familiar entre as regiões do país, algumas com renda muito mais elevada do que outros. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/14 Nossa variável de interesse X é a renda familiar per capita das unidades federativas do Brasil. O menor valor (R$637) pertence ao estado do Maranhão, e o maior (R$ 2.599), ao Distrito Federal. Em 2019, a diferença entre a unidade de maior e menor renda foi de R$ 1.961. Arredondando esse valor para R$ 2.000, pode-se dividir os dados em cinco intervalos de igual tamanho de R$ 400. A tabela seguinte apresenta a distribuição de frequência. Tabela 2 – Distribuição de frequência da renda familiar per capita das unidades federativas brasileiras (em R$) Faixa de renda – R$ Frequência Frequência relativa 600-999 12 44,4% 1.000-1.399 7 25,9% 1.400-1.799 4 14,8% 1.800-2.199 3 11,1% 2.200-2.600 1 3,7% Fonte: Elaborada com base em IBGE, 2021. A tabela mostra tanto a frequência absoluta (numérica) quanto relativa (em percentual) das faixas de renda familiar per capita das unidades federativas brasileiras. Enquanto, na tabela 1, com 27 linhas, é difícil ter uma visão de como os dados se distribuem, na tabela de frequência, é possível ver de forma sucinta que quase metade dos estados tem uma renda per capita relativamente baixa, de menos de R$ 1.000, e mais de 70% tem renda per capita inferior a R$ 1.400. Uma outra forma de sintetizar os dados e mostrar como eles se distribuem é construindo gráficos, dos quais o mais usual é o histograma. Um histograma é um gráfico de barras no qual o eixo horizontal representa intervalos de valores da variável de interesse X e o vertical, a frequência que esses valores aparecem no conjunto de dados analisado. A altura das barras é proporcional à frequência de aparecimento dos dados, e as barras são construídas adjacentes umas às outras (Triola, 2006). É basicamente a representação visual da tabela de distribuição de frequência. As barras em geral possuem a mesma largura, representando intervalos de valores de igual magnitude. O gráfico 1 é um histograma dos dados de renda familiar per capita das unidades federativas brasileiras em 2019. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/14 Gráfico 1 – Histograma da renda familiar per capita das unidades federativas do Brasil – em R$ Fonte: Elaborado com base em IBGE, 2021. Os dados refletem o mesmo padrão expresso na tabela de frequência acima: a maioria das unidades federativas brasileiras tem renda per capita relativamente baixa, abaixo de R$ 1,4 mil. Apresentadas essas formas de se visualizar a distribuição dos dados de um conjunto, o próximo tópico mostra alguns dos usos possíveis da estatística na economia. TEMA 5 – EXEMPLOS DE USO NA ECONOMIA As possibilidades de uso da estatística e da disciplina derivada de econometria pelos economistas e profissionais de áreas correlatas são diversas. Elas são disciplinas instrumentais, que ajudam os estudantes e profissionais formados a aplicarem os conhecimentos teóricos adquiridos nas disciplinas de economia a problemas do mundo real. O quadro 2 mostra algumas das aplicações da estatística na economia e exemplos. Quadro 2 – Alguns dos usos da estatística na economia TIPO DE USO EXEMPLO Definição e mensuração de variáveis econômicas PIB, taxa de inflação, distribuição de renda. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/14 Indicações do estado atual da economia Taxa de crescimento econômico, taxa de desemprego. Previsões sobre variáveis econômicas e financeiras Valor futuro de uma ação; expectativa de crescimento do PIB no próximo ano. Avaliação do impacto de políticas Quanto um aumento de 1% nos gastos públicos hoje vai impactar no PIB do próximo ano? Estimação da relação entre variáveis Quanto o aumento de 1% no preço do meu produto vai impactar na quantidade vendida? Planejamento empresarial Qual o perfil e os desejos do público consumidor da minha marca? Fonte: Barbosa, 2021 Como visto, o potencial de uso da estatística para economistas é imenso. Mais adiante, vamos aprofundar o entendimento dos conceitos e técnicas. TROCANDO IDEIAS Em um fórum de discussão, discuta as limitações e os problemas de se utilizar amostras não aleatórias e não representativas das populações que se deseja analisar. NA PRÁTICA A lição proposta é acessar o site que roda online e gratuitamente o software estatístico Statdisk e construir um histograma dos dados a seguir. Suponha que os dados fictícios representam a renda familiar per capita de 12 pessoas selecionadas aleatoriamente de seu bairro. X – Renda familiar per capita 1000 1100 950 1200 1300 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/14 1450 1325 2000 1600 1900 1875 2100 Passos para a realização da atividade: 1. Acesse o site do Statdisk (<https://www.statdisk.com/accounts/login/?next=/>); 2. Inscreva-se com sua conta Google ou outra; 3. O programa vai abrir sua página inicial com uma planilha vazia; 4. Copie e cole os doze dados acima na primeira célula da planilha em branco; 5. Após colar, clique em Data na barra superior e na opção Histogram; 6. Após abrir a janela, clique em Select Column e coloque a opção 1; 7. Clique em Plot ao final da página; 8. O histograma dos dados será gerado à esquerda, então analise-o. Caso não disponha de um computador ou não consiga realizar a lição proposta, construa um histograma à mão. Lembre-se que é preciso: (i) organizar os dados em ordem crescente; (ii) calcular a amplitude dos valores subtraindo do valor máximo o valor mínimo; (iii) dividir o valor da amplitude em intervalos de igual tamanho, no caso três intervalos são suficientes; (iv) contar a frequência de ocorrência dos valores; (v) desenhar o gráfico a partir desses dados. FINALIZANDO Nesta aula, realizamos uma introdução à estatística, seus conceitos básicos e seu potencial de uso na economia. Aprendemos também algumas formas de organizar e visualizar grandes conjuntos de dados de forma resumida. É importante um entendimento adequado desses tópicos, porque a estatística é uma disciplina cumulativa, logo cada conteúdo tem relação com conteúdos anteriores. https://www.statdisk.com/accounts/login/?next=/ 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/14 REFERÊNCIAS HOFFMAN, R. Introdução. In: _____. Estatística para economistas. 4. ed. São Paulo: Cengage Learning, 2006, p. XIII-XIV. IBGE. PNAD – Pesquisa Nacional por Amostra de Domicílios – 2021. Disponível em: <https://www.ibge.gov.br/estatisticas/sociais/rendimento-despesa-e-consumo/9127-pesquisa- nacional-por-amostra-de-domicilios.html?=&t=o-que-e>. Acesso em 29 out. 2021. LARSON, R.; FARBER, B. Introdução à Estatística. In:__ Estatística Aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010, p. 2-30. PINHEIRO, J. I. D.; DA CUNHA, S. B.; CARVAJAL, S. R.; GOMES, G. C. Análise exploratória para uma variável. In:__ Estatística Básica: a arte de trabalha com dados. São Paulo: Elsevier, 2009, p. 11-51. TRIOLA, M. F. Introdução à Estatística. In: _____. Estatística Elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 2-39. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/15 ESTATÍSTICA APLICADA AULA 2 Prof. Tiago Claudino Barbosa07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/15 CONVERSA INICIAL MEDIDAS DE POSIÇÃO E DISPERSÃO Anteriormente, aprendemos a organizar conjuntos de dados e observar como variáveis se distribuem com tabelas de distribuição de frequência e histogramas. Nesta aula, vamos aprender algumas medidas que ajudam a resumir diferentes propriedades de conjuntos de dados e que são utilizadas para a realização de inferências estatísticas. Os esforços de aprendizado são: (i) entender o conceito de medida de posição e seus principais tipos e (ii) entender o conceito de medida de dispersão e seus principais tipos. Ambos os conceitos são centrais para a estatística descritiva e inferencial, abordadas em conteúdo posterior. CONTEXTUALIZANDO Como resumir um conjunto de dados em algumas estatísticas? Como comparar diferentes conjuntos de dados? Que valores representam melhor meu conjunto de dados e em qual grau eles são uma representação precisa? Essas e outras perguntas são elucidadas nesta aula, o entendimento dos conceitos apresentados é fundamental para que possamos realizar uma análise descritiva de conjuntos de dados e são os elementos fundamentais a serem aplicados nas diferentes técnicas de inferência estatísticas a serem apresentadas em conteúdo posterior. O objetivo é entender a lógica das medidas e como interpretá-las, o cálculo em si pode ser feito facilmente em softwares especializados. TEMA 1 – O QUE SÃO MEDIDAS DE POSIÇÃO? 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/15 Anteriormente, aprendemos a utilizar histogramas e distribuições de frequência para analisarmos a distribuição de um conjunto de dados ao longo de seu intervalo de valores. Analisar a distribuição de um conjunto de dados nos permite entender ao redor de quais valores os dados se concentram e se há lacunas na escala para as quais não há dados. Outras duas propriedades de conjuntos de dados muito relevantes tanto para a estatística descritiva quanto para a estatística inferencial serão ensinadas hoje. A primeira são as medidas de posição, que indicam valores ao redor dos quais os dados do conjunto se concentram, e a segunda são as medidas de dispersão, que medem o quanto os dados de um conjunto variam entre si. Uma medida de posição central é um valor numérico representativo de um conjunto de dados que nos mostra um valor típico, uma tendência sobre a qual os dados do conjunto orbitam (Triola, 2006). Alguns conceitos iniciais devem ser retomados e apresentados antes de se adentrar nas medidas de posição em si (Triola, 2006). N – número de elementos que compõem uma população; n – número de elementos que compõem uma amostra; ∑ - operador somatório se refere à soma de todos os elementos de X; Xi – i-ésima unidade do conjunto de dados X. Parâmetro - medida numérica que descreve alguma característica da população, em geral representada por letras gregas, como µ (mi), α (alfa) e β (beta); Estatística - medida numérica que descreve alguma característica de uma amostra, em geral representadas por letras do nosso alfabeto comum, como a e b, letras do nosso alfabeto com algum símbolo sobrescrito, como (x barra), ou como letras gregas com algum símbolo sobrescrito, como (alfa chapéu); Outlier – valor de um conjunto de dados muito discrepante para mais ou para menos de todos os outros dados. TEMA 2 – MÉDIA E MEDIANA 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/15 A média é a medida numérica mais utilizada para descrever um conjunto de dados. A média de um conjunto de dados é calculada pela soma de todos os valores do conjunto dividido pelo número total de unidades do conjunto de dados. Ela tem duas vantagens, (i) as médias amostrais tendem a ser as medidas de centro mais consistentes no sentido que a média de diversas médias amostrais retiradas da mesma população tende a convergir para o valor da média populacional e a apresentar menor variabilidade que as outras medidas de centro e (ii) ela considera todos os valores do conjunto de dados em seu cálculo, refletindo assim de alguma forma na distribuição e na concentração dos dados do conjunto, sua principal desvantagem é que ela é sensível a outliers (Triola, 2006). O Quadro 1 mostra a fórmula e os componentes dos dois principais tipos de média. Quadro 1 – Fórmula e componentes da média populacional e amostral Média populacional Média amostral Onde: é a média populacional é o somatório de todos os valores das unidades i da variável X N é o tamanho da população Onde: é a média amostral é o somatório de todos os valores das unidades i da variável X n é o tamanho da amostra Fonte: Barbosa, 2021. Considere o seguinte conjunto de dados fictício: X – 10, 11, 12, 22, 22, 25, 28, 36 Para obtermos a média, bastaria somar todos esses dados e dividir pelo número de unidades do conjunto de dados n, que é oito. = = = 20,75. A média do conjunto de dados é 20,75. Se conjunto for uma amostra, resultado é uma média amostral, se for a população inteira, é a média populacional. Mediana 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/15 A mediana é o valor que, quando o conjunto de dados é organizado de forma crescente ou decrescente, fica no meio do conjunto. Se tamanho do conjunto de dados é um número par, mediana é a média dos dois valores centrais. Tem a desvantagem de considerar somente um ou dois elementos do conjunto de dados, não dizendo muito sobre a distribuição e a concentração dos dados, tem como vantagem não ser afetada por outliers (Triola, 2006). Para o mesmo conjunto de dados fictício, primeiro se organiza os dados em ordem crescente, depois se identifica o valor do dado que fica no meio, no caso, por número de unidades do conjunto ser par, a mediana é a média dos dois valores centrais, no caso 22 e 22, logo, o valor da mediana é 22. X – 10, 11, 12, 22, 22, 25, 28, 36. TEMA 3 – MODA E SEPARATRIZES A moda é o valor que ocorre com maior frequência em um conjunto de dados (Triola, 2006). Tem a vantagem de não ser influenciada pela presença de outliers e a desvantagem de levar em conta somente o valor mais frequente em seu cálculo, ignorando o restante dos dados. Para sua identificação, é preciso ordenar os dados em ordem crescente ou decrescente e visualizar qual se repete mais vezes. Considerando nosso conjunto de dados. X – 10, 11, 12, 22, 22, 25, 28, 36. Moda é o valor 22, que aparece duas vezes, nenhum outro valor apareceu mais de uma vez. Um conjunto de dados pode ser amodal quando nenhum dos valores aparece em maior frequência que os outros, unimodal quando há uma moda, bimodal quando há duas modas e assim por diante. Em um histograma em que cada dado possível é uma barra, a moda é o valor com a barra mais alta. Separatrizes São medidas que separam o conjunto de dados em subconjuntos com igual número de unidades, ajudando a identificar a forma com que os dados são distribuídos. Não são os valores da variável X que são divididos em intervalos de igual tamanho, mas o número de dados, daí se identifica qual o valor de X que marca o recorte entre uma separatriz e outra. Os intervalos podem ser diversos, quatro (quartil), cinco (quintil), dez (decil), cem (percentil), entre outros. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/15 Por exemplo, se dividirmos a distribuição de renda per capita de todos os brasileiros em dez intervalos (decis) e quisermos saber que valor separa os 10% de menor renda do restante dos brasileiros, basta identificarmos o valor do primeiro decil. 10% da população brasileira ganha uma quantia igual ou menor que esse valor. Retomando nosso conjunto de dados fictício e calculando os valores de seus quartis (intervalos que dividem 25%, 50% e 75% dos dados). X – 10, 11, 12, 22, 22, 25, 28, 36. O cálculo desses valores é relativamente trabalhoso, utilizou-se o Statdisk para o cálculo e para a criação do gráfico a seguir, conhecido comoboxplot. Tabela 1 – Valores dos quartis Medida Valor X Valor mínimo 10 Primeiro quartil 11,5 Segundo quartil 22 Terceiro quartil 26,5 Valor máximo 36 Fonte: elaborada com base em software Statdisk. Figura 1 – Gráfico boxplot dos dados 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/15 Fonte: elaborada com base no software Statdisk. Na escala de cima se coloca os valores da variável X, as pontas da linha são os valores mínimo e máximo do conjunto de dados, os outros três valores destacados são o primeiro quartil (11,5), o segundo quartil (22), que sempre é igual à mediana, e o terceiro quartil (26,5). A escala de baixo mostra os valores possíveis da amostra. Intervalos menores entre os valores indicam que dados são mais concentrados, por exemplo, um quarto dos valores está entre 10 e 11,5 unidades, já o último quarto de valores está menos concentrado, já que varia de 26,5 a 36. O conceito de separatrizes e gráficos como o boxplot ajudam a analisar resumidamente como os dados estão distribuídos e os pontos de concentração de forma parecida às tabelas de distribuição de frequência e histogramas. No exemplo, foi utilizado quartis, mas outras medidas como quintis, decis e percentis poderiam ter sido utilizadas. TEMA 4 – MEDIDAS DE DISPERSÃO Dispersão é o quanto os valores de um conjunto de dados variam entre si. Quanto mais próximos os dados estiverem entre si, menor a dispersão e vice-versa (Triola, 2006). A primeira medida de dispersão analisada é a amplitude. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/15 A amplitude é a diferença entre o valor máximo e o mínimo de um conjunto de dados. Organizando-se os dados em ordem crescente ou simplesmente utilizando um software estatístico, é fácil obter essa estimativa, mas sua utilidade prática é pequena, já que em seu cálculo ela considera somente dois valores extremos de um conjunto de dados, ignorando todas as outras unidades (Triola, 2006). A amplitude não diz nada sobre a distribuição dos dados, não indica se eles estão concentrados perto de um dos extremos ou do outro ou de qualquer outro valor em particular. Considerando nosso conjunto de dados fictício. X – 10, 11, 12, 22, 22, 25, 28, 36. Amplitude = valor máximo - valor mínimo = 36 – 10 = 26. TEMA 5 – VARIÂNCIA E DESVIO PADRÃO As medidas de dispersão mais utilizadas são o desvio padrão e a variância. Ambas utilizam em seu cálculo a média e são interpretadas como o grau de variação dos dados em relação à média. Começando pela variância, ela é calculada pelo somatório de cada valor de X subtraído da média, tudo elevado ao quadrado e dividido pelo tamanho da população ou pelo tamanho da amostra menos um. O Quadro 2 mostra as fórmulas e componentes da variância, que são levemente diferentes se conjunto de dados é uma população ou amostra. Quadro 2 – Fórmula e componentes da variância populacional e amostral Variância populacional Variância amostral Onde: (sigma ao quadrado) é a variância populacional é o somatório de cada valor Xi subtraído da média populacional elevado ao quadrado N é o tamanho da população Onde: é a variância amostral é o somatório de cada valor Xi subtraído da média amostral elevado ao quadrado n – 1 é o tamanho da amostra menos um Fonte: Barbosa, 2021. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/15 Retomando o conjunto de dados fictícios, calcula-se sua variância considerando o conjunto uma população e uma amostra. Os cálculos são relativamente trabalhosos, por isso se utilizou o software Statdisk. X – 10, 11, 12, 22, 22, 25, 28, 36. A variância populacional é menor que a amostral porque na fórmula da variância amostral a divisão ocorre por n-1 e não por N. A unidade de medida da variância é a mesma da variável X, só que elevada ao quadrado, não tendo assim uma interpretação direta, no exemplo seria 74,2 ou 84,8 unidades ao quadrado, uma unidade de medida diferente e não diretamente comparável à unidade de medida dos dados e das medidas de posição. Para corrigir esse problema, usa-se o desvio padrão, que é derivado da fórmula da variância, mas que pertence à mesma unidade de medida da variável X e das outras medidas de posição, sendo assim facilmente interpretável. Sua fórmula e componentes estão no Quadro 3. Quadro 3 – Fórmula e componentes do desvio padrão populacional e amostral Desvio padrão populacional Desvio padrão amostral Onde: (sigma) é o desvio padrão populacional é o somatório de cada valor Xi subtraído da média populacional elevado ao quadrado N é o tamanho da população Onde: é o desvio padrão amostral é o somatório de cada valor Xi subtraído da média amostral elevado ao quadrado n – 1 é o tamanho da amostra menos um Fonte: Barbosa, 2021. Retomando nosso conjunto de dados fictício e utilizando o Statdisk para a realização dos cálculos. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/15 X – 10, 11, 12, 22, 22, 25, 28, 36. 8,6 9,2 O desvio padrão amostral é maior que o populacional pela mesma razão das variâncias, o denominador do primeiro é n-1 e do segundo é N. O valor está na mesma escala da variável original, a média é de 20,75 unidades, o desvio padrão é de 8,6 ou 9,2 unidades de variação em relação à média. O desvio-padrão mede a variação de todos os valores do conjunto de dados em relação à média, tanto para o lado esquerdo quanto para o lado direito da média. Assim como a variância, seu valor pode ser positivo ou zero, caso todos os valores do conjunto de dados sejam iguais, mas ele nunca é negativo. Tem a vantagem de considerar todos os dados em seu cálculo e a desvantagem de ser influenciado pela presença de outliers. As fórmulas dos desvios-padrão são similares às das variâncias, só se extrai a raiz quadrada do valor calculado das variâncias para se obter os desvios - padrão e se eleva os valores dos desvios-padrão ao quadrado para se obter as variâncias. Entendidos esses conceitos, podemos realizar uma análise estatística descritiva do conjunto de dados real a seguir. A Tabela 2 mostra a taxa de crescimento econômico percentual de um trimestre acumulada em relação aos quatro trimestres anteriores entre 2016 e 2021. Por exemplo, a taxa de crescimento de 0,1% no 3º trimestre de 2017 reflete a um aumento no valor do PIB de apenas 0,1% entre o 3º trimestre de 2016 e o 3º trimestre de 2017. Tabela 2 – Taxa de crescimento econômico trimestral – acumulado dos quatro trimestres anteriores Trimestre Taxa de crescimento – em % 1º trimestre 2016 -4,4 2º trimestre 2016 -4,5 3º trimestre 2016 -4,1 4º trimestre 2016 -3,3 1º trimestre 2017 -1,9 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/15 2º trimestre 2017 -0,9 3º trimestre 2017 0,1 4º trimestre 2017 1,3 1º trimestre 2018 1,7 2º trimestre 2018 1,9 3º trimestre 2018 2 4º trimestre 2018 1,8 1º trimestre 2019 1,6 2º trimestre 2019 1,6 3º trimestre 2019 1,4 4º trimestre 2019 1,4 1º trimestre 2020 1 2º trimestre 2020 -2,1 3º trimestre 2020 -3,4 4º trimestre 2020 -4,1 1º trimestre 2021 -3,8 2º trimestre 2021 1,8 Fonte: SCNT – IBGE, 2021. Os dados foram colocados no Statdisk on-line e analisados ao se pressionar a aba Data e a opção Explora Data – Descriptive Statistics. As estatísticas obtidas estão resumidas na Tabela 3. Tabela 3 – Estatísticas da taxa de crescimento trimestral acumulada de quatro trimestres do Brasil Estatística Valor Média - 0,677% Mediana 0,55% Variância 6,55 Desvio-padrão 2,56% 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/15 Amplitude 6,5% Valor mínimo - 4,5% Primeiro quartil - 3,4% Segundo quartil 0,55 Terceiro quartil 1,6 Valor máximo 2 Fonte: elaborada com base em software on-line Statdisk. Nota-se que as taxas de crescimento brasileiras foram bem baixas no período de 2016 a 2021, refletindo a recessão que o país vem passando há anos. A taxa média de crescimento é na verdade negativa– 0,677%, a mediana é positiva e relativamente pequena (0,55%), indicando que a maioria das taxas é positiva, mas baixa. O desvio-padrão de 2,56% indica uma variação considerável das taxas de crescimento do período. A taxa mínima foi de –4,5% no segundo trimestre de 2016, ou seja, período de recessão aguda, e a maior de 2%, relativamente baixa, já que os dados consideram os quatro trimestres anteriores. Essas estatísticas relativamente simples já nos permitem fazer um panorama relativamente detalhado do crescimento brasileiro do período recente. A principal conclusão é que as taxas de crescimento foram negativas ou muito baixas no período, prejudicando o desempenho econômico nacional. TROCANDO IDEIAS Em um fórum de discussão, discuta os problemas que podem surgir da má interpretação de medidas de posição e/ou dispersão da estatística em situações do cotidiano. NA PRÁTICA A lição proposta é acessar o software estatístico Statdisk on-line, como no conteúdo anterior, calcular as medidas de posição e dispersão do conjunto de dados descrito a seguir e interpretar seus resultados. Os dados são a renda familiar per capita das unidades federativas brasileiras em 2019, já explorados em outro momento e expressos na Tabela 4. Tabela 4 – Renda familiar per capita das unidades federativas brasileiras em 2019 - em R$ 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/15 Rondônia 1111 Acre 890 Amazonas 838 Roraima 1050 Pará 795 Amapá 874 Tocantins 1038 Maranhão 637 Piauí 831 Ceará 939 Rio Grande do Norte 1042 Paraíba 909 Pernambuco 954 Alagoas 729 Sergipe 970 Bahia 912 Minas Gerais 1331 Espírito Santo 1440 Rio de Janeiro 1809 São Paulo 1889 Paraná 1586 Santa Catarina 1709 Rio Grande do Sul 1812 Mato Grosso do Sul 1491 Mato Grosso 1361 Goiás 1284 Distrito Federal 2599 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/15 Fonte: PNAD IBGE, 2021. Passos para a realização da atividade: 1. Acesso ao site do Statdisk; 2. Entre em sua conta; 3. O programa vai abrir sua página inicial com uma planilha vazia; 4. Copie e cole as duas colunas descritas anteriormente; 5. Após colar, clique em Data na barra superior e na opção Explore Data – Descriptive Statistics (Explore os dados – Estatísticas Descritivas); 6. Após abrir a janela, clique em Select Column e coloque a opção 2, já que a primeira coluna ficou com o nome das unidades federativas e a segunda com os dados; 7. Clique em Evaluate (Valorar/Calcular) no retângulo verde; 8. Observe, à esquerda, um conjunto de estatísticas descritivas que será calculado para o conjunto de dados e à direita um histograma será apresentado; 9. Entre as estatísticas calculadas, identifique Sample Size n (tamanho amostral n), mean (média), median (mediana), variance (variância), standard deviation (desvio padrão), range (amplitude), minimum (mínimo), 1st quartile (primeiro quartil), 2nd quartile (segundo quartil), 3rd quartile (terceiro quartil), maximum (máximo). Todas são medidas em reais, exceto a variância, que é medida em reais ao quadrado; 10. Interprete essas estatísticas, o que elas dizem sobre a distribuição da renda familiar per capita entre as unidades federativas do Brasil. Caso não disponha de um computador ou não consiga realizar a lição proposta, procure calcular à mão ou em uma calculadora ao menos a média, mediana e desvio-padrão desse conjunto de dados e interprete os resultados. FINALIZANDO Nesta aula aprendemos sobre algumas medidas que nos ajudam a sintetizar características de conjuntos de dados. Essas medidas estão entre os conceitos fundamentais de toda a estatística e são utilizadas em uma variedade de aplicações. Entender a lógica dessas medidas e como interpretá-las é importante para nosso avanço nos próximos conteúdos. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 15/15 REFERÊNCIAS PNAD IBGE (2021). PNAD – Pesquisa Nacional por Amostra de Domicílios. Disponível em: <https://www.ibge.gov.br/estatisticas/sociais/rendimento-despesa-e-consumo/9127-pesquisa- nacional-por-amostra-de-domicilios.html?=&t=o-que-e>. Acesso em: 4 set. 2021. SCNT – IBGE (2021). Sistema de Contas Nacionais Trimestrais. Disponível em: <https://www.ibge.gov.br/estatisticas/economicas/contas-nacionais/9300-contas-nacionais- trimestrais.html?=&t=series- historicas&utm_source=landing&utm_medium=explica&utm_campaign=pib#evolucao-taxa>. Acesso em: 7 set. 2021. TRIOLA, M. F. Capítulo 3 – Estatísticas para a descrição, exploração e comparação de dados. In: TRIOLA, M. F. Estatística elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 74-135. 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/15 ESTATÍSTICA APLICADA AULA 3 Prof. Tiago Claudino Barbosa 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/15 CONVERSA INICIAL INTRODUÇÃO À PROBABILIDADE Nesta aula, aprenderemos um pouco sobre a teoria da probabilidade, seus conceitos principais e algumas de suas aplicações na estatística. A estatística inferencial, por se basear em amostras, descreve seus resultados em termos probabilísticos. Esse conteúdo inicialmente não parece ser tão conectado aos conteúdos anteriores, mas, ao final desta aula e de conteúdos posteriores, ficará clara a ligação entre esses tópicos e os tópicos mais diretamente relacionadas à estatística. Os esforços de aprendizado são no sentido de entender: (i) o conceito de probabilidade e outros conceitos iniciais relacionados, (ii) a regra da adição; (iii) probabilidade condicional e a regra da multiplicação; (iv) o que é uma distribuição de probabilidade e (v) o exemplo da distribuição de probabilidade binomial. CONTEXTUALIZANDO É possível observar algum padrão que nos ajude a tirar conclusões a partir de variáveis aleatórias que, a princípio, parecem caóticas? Como considerar resultados aleatórios que são independentes uns dos outros dos que são dependentes? Como tomar decisões com base em variáveis aleatórias? Essas perguntas são abordadas na presente aula e serão relevantes para o entendimento dos demais conteúdos. O objetivo é entender os conceitos e a lógica de interpretação dos resultados, não os cálculos em si. TEMA 1 – CONCEITOS INICIAIS Alguns conceitos iniciais são apresentados por Pinheiro et al. (2009): 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/15 Probabilidade é uma descrição numérica do quão provável é a ocorrência de um evento específico; Espaço amostral é o conjunto de todos os resultados possíveis de uma variável aleatória, um exemplo é o lançamento de um dado, há seis resultados possíveis – 1, 2, 3, 4, 5, 6; Um evento é um subconjunto do espaço amostral de interesse. Por exemplo: quais as possibilidades de ocorrer um número par no lançamento de um dado? - 2, 4, 6; Um evento simples é um resultado do espaço amostral que não pode mais ser subdivido em componentes menores, um exemplo – ao se lançar um dado, obter 1 ponto; Experimento aleatório é quando realizamos tentativas repetidas de processos semelhantes e seus resultados são imprevisíveis, ou seja, são uma variável aleatória; Os conceitos de espaço amostral, evento e evento simples se referem a possibilidades de ocorrência da variável ou resultado de interesse, não diz nada sobre probabilidades de ocorrência (Pinheiro et al., 2009). É importante conhecer todos os resultados possíveis de um experimento aleatório. A probabilidade de um evento ou conjunto de eventos nem sempre é conhecida, se os eventos são todos de mesma probabilidade, como é o caso do lançamento de uma moeda ou de um dado, a probabilidade do evento A é: Considerando o caso do lançamento de um dado, a probabilidade de se obter 3 pontos é: Como os pontos dos dados possuem mesma probabilidade de ocorrer, o cálculo da probabilidade se resume a contar os resultados favoráveis ao evento de interesse, no caso o dadodar 3 pontos, e dividir pelo número de resultados possíveis (espaço amostral), no caso 6. Porém, para a maioria dos fenômenos do mundo real, os eventos ou conjuntos de eventos possíveis não possuem a mesma probabilidade de ocorrência. Essas probabilidades muitas vezes nem 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/15 são conhecidas. É possível aproximar a probabilidade real de um evento por sua frequência relativa de ocorrência em experimentos aleatórios de grande tamanho (Larson, Farber, 2010a). Considerando um experimento aleatório, a probabilidade de A fica: A lógica é que se o experimento tem resultados aleatórios, conforme se aumenta o número de resultados obtidos, mais as frequências relativas se aproximam das probabilidades teóricas do fenômeno, a chamada Lei dos Grandes Números. Lógica é similar ao uso de amostras aleatórias para aproximar a população de interesse. Essa lógica fundamenta a chamada Abordagem Frequencista da Estatística, que aproxima as probabilidades de um fenômeno das frequências relativas de experimentos que tentam analisar esse fenômeno (Larson, Farber, 2010b). O entendimento da teoria das probabilidades junto ao conhecimento da estatística descritiva, explorada nas duas primeiras aulas, formam a base da estatística inferencial. Uma das regras básicas da estatística inferencial é que se, sob uma dada premissa, a probabilidade de um evento em particular é muito pequena, a conclusão é que a premissa é provavelmente incorreta (Triola, 2006). Essa questão ficará bastante clara em conteúdos posteriores. O próximo tópico apresenta casos em que as probabilidades de ocorrência de um evento são ou não afetadas pela ocorrência de outros eventos e como isso afeta os cálculos e interpretações das probabilidades. TEMA 2 – EVENTOS INDEPENDENTES E DEPENDENTES Dois eventos A e B são independentes se a ocorrência de um deles não afeta a probabilidade de ocorrência do outro, se a ocorrência de um deles afeta de alguma forma a probabilidade de ocorrência do outro, trata-se de eventos dependentes (Triola, 2006). A regra da soma postula que a probabilidade de ocorrência de um evento A ou de um evento B como resultado de um experimento é igual a soma das probabilidades desses eventos, descontada a probabilidade de ocorrência simultânea do evento A e do evento B (Pinheiro et al., 2009). 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/15 Os eventos A e B são mutuamente exclusivos se não podem ocorrer ao mesmo tempo. Nesse caso, a probabilidade de ocorrer A ou B é: Um exemplo: qual a probabilidade de, ao se lançar um dado, a pontuação ser 2 e 3? Se não forem mutuamente exclusivos, a probabilidade de A ou B deve descontar a probabilidade de que os eventos ocorram simultaneamente, ou seja: Um exemplo: qual a probabilidade de, ao se lançar um dado, A – obter uma pontuação ímpar e B – uma pontuação maior que 3? Probabilidade de A – pontuação par – 2, 4, 6 P (A) – 3/6 = 0,5 Probabilidade de B – pontuação maior que 3 – 4, 5, 6 P (B) – 3/6 = 0,5 Se eventos fossem independentes, P (A ou B) = 1, ou seja, 100%. Porém há sobreposição entre os eventos e essa probabilidade está superestimada, considerando o espaço amostral 1, 2, 3, 4, 5 e 6 e que eventos têm mesma probabilidade. P (A) ou P (B) mostrada acima não engloba os valores 1 e 3 e considera os valores 4 e 6 duas vezes. O evento A ou B engloba os valores – 2, 4, 5 e 6, logo a probabilidade de pontuação ser par ou ser maior que três é: 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/15 TEMA 3 – PROBABILIDADE CONDICIONAL A probabilidade de ocorrer o evento A na primeira tentativa de um experimento, e de ocorrer o evento B na segunda tentativa é descrita pela regra da multiplicação. A regra da adição, explicada no tema anterior, é descrita pelo termo ou, já a regra da multiplicação pelo termo e, no caso a P (A e B). Um ponto importante a considerar é que a probabilidade do segundo evento B deve levar em conta o fato de que o evento A já ocorreu (Triola, 2006). A regra geral é: Probabilidade de ocorrer A e depois B é igual à probabilidade de ocorrência do primeiro evento A multiplicada pela probabilidade de ocorrência do evento B, dado que A já ocorreu, essa última parte é expressa por P (B|A). Se o evento A e B forem independentes, ou seja, a ocorrência de um deles não afeta positiva ou negativamente a probabilidade de ocorrência do outro, a P (B|A) = 0 e expressão se resume a: Um exemplo é a probabilidade de obter dois números um ao se lançar um dado duas vezes. A probabilidade de se obter 1 em um lançamento é de um sexto, como eventos são independentes, ou seja, o resultado alcançado no primeiro lançamento do dado em nada interfere no resultado do segundo lançamento, a probabilidade de obter dois números 1 ao se lançar duas vezes o dado é de 1/6 * 1/6 = 1/36 = 2,8%, uma probabilidade relativamente baixa. A probabilidade de obter três números 1 em três lançamentos do dado seria 1/6 * 1/6 * 1/6 = 1/216 = 0,5%, muito baixa. Nos casos em que a ocorrência de A afeta a probabilidade de ocorrência de B em seguida, diz-se que são casos de probabilidade condicional, logo a P (B|A) é diferente de zero. 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/15 Ou seja, é a probabilidade de ocorrer A e depois B dividida pela probabilidade de A. É a razão entre a probabilidade de ocorrência conjunta de A e B e a probabilidade geral de A. Um exemplo: ao se lançar um dado uma vez, qual a probabilidade de A – resultado ser um número ímpar e B – resultado ser no mínimo 3 pontos (Pinheiro et al., 2009)? Há três números ímpares possíveis para A – 1, 3, 5 Dos seis números do dado, quatro são iguais ou maiores que 3 – 3, 4, 5, 6 Há dois elementos que sobrepõem A e B – 3 e 5 Considerando que há seis resultados possíveis do lançamento de um dado e todos têm a mesma probabilidade de ocorrer, a probabilidade de, ao se lançar um dado, obter um número ímpar e igual ou maior que três é 2/6 ou 1/3. Aplicando a fórmula: A probabilidade de se obter um número igual ou maior que 3, dado que resultado foi ímpar, é de 2/3. Muitas das técnicas estatísticas combinam resultados de diversas variáveis conhecidas para se obter o resultado e/ou a probabilidade de ocorrência de uma variável que dependa dessas outras. Por exemplo: um meteorologista pode determinar que há 40% de probabilidade de chuva com base na frequência relativa de chuva sob condições climáticas semelhantes às que estão ocorrendo no momento. Saber características do ambiente, como temperatura e umidade do ar, faz com que se estime com maior precisão a probabilidade de ocorrência de chuva em determinado dia (Larson, Farber, 2010b). TEMA 4 – DISTRIBUIÇÃO DE PROBABILIDADE Uma distribuição descreve a probabilidade de cada valor possível de uma variável aleatória. Esta deve cobrir todos os resultados possíveis, acumulando 100% das probabilidades, e o valor da 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/15 probabilidade de um valor específico ou intervalo de valores é zero ou positivo, nunca negativo (Pinheiro et al., 2009). Muitas distribuições de probabilidade, na estatística, são descritas por gráficos, tabelas ou por funções que possuem como variável independente o valor da variável de interesse X e variável dependente a probabilidade de ocorrência do valor de X específico (Triola, 2006). Algumas das principais distribuições utilizadas pela estatística e suas derivações serão estudadas mais adiante e em conteúdos posteriores. É importante conhecer a forma, o centro e a variabilidade de uma distribuição de probabilidade para que se possa tomar decisões baseadas em inferências estatísticas (Larson, Farber, 2010b). O conhecimento desses parâmetros das distribuições de probabilidade é fundamental para o uso de técnicas de estatística inferencial. As variáveis aleatórias descritas podem ser tanto discretasquanto contínuas. Uma variável aleatória discreta é uma com resultados contáveis, com números geralmente inteiros, que podem ser finitos ou infinitos; já variáveis aleatórias contínuas têm infinitos valores associados, mesmo que sua amplitude seja finita, já que cada subintervalo pode ser dividido em infinitos números e as escalas não têm vazios ou saltos – esse tipo de variável geralmente está associado a mensurações (Pinheiro et al., 2009). O valor esperado de uma variável aleatória discreta E é a média dos valores ponderados pelas suas probabilidades de ocorrência e seria como sua média, no caso: A variância e o desvio-padrão de distribuições de probabilidade discretas possuem as seguintes fórmulas: 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/15 O caso para variáveis contínuas exige o conhecimento de ferramentas matemáticas mais avançadas, ficando fora do escopo dessa aula o conhecimento de suas fórmulas, porém as distribuições mais utilizadas da estatística já possuem suas distribuições bem analisadas e incorporadas nos diferentes softwares estatísticos, tornando cálculos desse tipo desnecessários. Em muitos casos da estatística, e mesmo da vida real, não sabemos a distribuição de probabilidade detalhada do fenômeno que estamos analisando. Contudo, podemos aproximar, considerando a frequência relativa observada dos resultados (Larson, Farber, 2010b). Considerando o exemplo do lançamento de um dado, o espaço amostral consiste de seis elementos – 1, 2, 3, 4, 5, 6 com igual probabilidade de ocorrência. A distribuição de probabilidade desse fenômeno está expressa na tabela 1 e no gráfico 1. Tabela 1 - Tabela de probabilidades de lançamento de um dado Pontuação do dado Probabilidade 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 Fonte: Barbosa, 2021. Os dados no gráfico foram arredondados para três casas decimais. Gráfico 1 - Gráfico de probabilidade do lançamento de um dado 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/15 Fonte: Barbosa, 2021 Como a probabilidade de ocorrência é igual para qualquer valor da pontuação dos dados, o gráfico de barras tem o formato de um retângulo. Raramente os fenômenos do mundo real são assim, com probabilidades uniformes para toda a escala de valores possível, em geral, as distribuições de probabilidade são bem mais complexas. Um exemplo de distribuição mais complexa seria a soma da pontuação do lançamento de dois dados, o espaço amostral vai de 2 a 12, já que valor mínimo de cada dado é 1, logo a soma mínima do lançamento de dois dados é 2 e a soma máxima é 12, já que valor máximo por dado é 6. Contudo, a probabilidade de ocorrência dos valores difere, como pode ser visto na tabela 2 e no gráfico 2. Tabela 2 - Tabela de probabilidades da soma do lançamento de dois dados Valor da soma Probabilidade 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/15 11 2/36 12 1/36 Fonte: elaborado com base em Pinheiro et al., 2009. Fica claro que a probabilidade de ocorrência dos valores da variável X diferem entre si. O gráfico 2 mostra visualmente os dados da tabela 2. Os resultados foram arredondados para três casas decimais. Gráfico 2 - Gráfico de probabilidade da soma do lançamento de dois dados Fonte: elaborado com base em Pinheiro et al., 2009. Essa distribuição de probabilidades é bem diferente da distribuição de quando se lança um dado. O caso da soma do lançamento de dois dados está bem longe de ser uma distribuição de probabilidade uniforme, já que ela varia substancialmente, com probabilidades maiores nos valores do meio da escala do que nos valores das pontas. A seguir apresentamos a primeira distribuição de probabilidade utilizada com certa frequência na estatística. TEMA 5 – DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL A distribuição de probabilidade binomial descreve variáveis aleatórias que podem ser divididas em duas categorias, como sim ou não, aceitável ou defeituoso, votou em X ou não votou em X, cara ou coroa. Em geral, se classificam os resultados em sucessos e fracassos, sem necessariamente uma 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/15 valoração subjetiva que um sucesso é algo positivo e um fracasso é algo negativo. Duas exigências dessa distribuição é que cada elemento seja independente, ou seja, obter um resultado individual não afeta a probabilidade de se obter o mesmo resultado ou algum outro resultado específico nas outras tentativas e que a probabilidade de obter um sucesso é a mesma para cada tentativa, ou seja, ela se mantém constante (Triola, 2006). A função abaixo descreve a distribuição de probabilidade binomial. Na qual: p é a probabilidade de sucesso q é a probabilidade de fracasso (1-p) n é o número de tentativas X é o número específico de sucessos em n tentativas P (x) é a probabilidade de obter exatamente X sucessos em n tentativas ! fatorial é a multiplicação de fatores decrescentes, exemplo 4! = 4*3*2*1 = 24 Analisar a fórmula dessa distribuição não é relevante para nós, nosso foco é saber sua aplicação e interpretar seus resultados. Abaixo estão as fórmulas que descrevem a média, variância e desvio- padrão da distribuição binomial. Os valores das probabilidades são expressos em decimais. Um exemplo é: qual a chance de obter exatamente sete jurados de origem mexicana entre os doze jurados de um tribunal 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/15 selecionados aleatoriamente de uma população que é 80% de origem mexicana em uma localidade dos EUA (Triola, 2006)? Se formos pela lei da multiplicação de probabilidades e considerarmos a seleção dos jurados independentes uma das outras, o cálculo seria (0,8 = 0,21 ou 21% de chance. Porém, nesse caso não é o valor correto porque assume que os sete primeiros jurados são de origem mexicana e os últimos cinco dos doze não são, mas diversos outros arranjos são possíveis para sete jurados de origem mexicana, e cinco, não. Tomando a distribuição binomial, essa probabilidade cairia para 0,053 ou 5,3% de obter exatamente sete jurados de origem mexicana entre os 12 jurados do tribunal, o valor real é quase um quarto da probabilidade estimada pela lei da multiplicação. Se formos calcular os parâmetros da distribuição desse exemplo, no caso média, variância e desvio-padrão, obteríamos: p - a probabilidade de sucesso é 0,8, no caso, obter um cidadão de origem mexicana em uma seleção aleatória de uma população que é 80% dessa origem; q - a probabilidade de fracasso 0,2, a probabilidade de não se obter um cidadão de origem mexicana em uma seleção aleatória de uma população que é 80% de origem mexicana; n – número de tentativas é 12, já que são 12 jurados selecionados aleatoriamente para compor o júri; Os cálculos abaixo se referem à média, variância e desvio-padrão desse exemplo: = 12*0,8 = 9,6 = 12*0,8*0,2 = 1,92 = 1,38 Para as 12 tentativas desse experimento, a média de sucessos obtidos (cidadãos de origem mexicana selecionados aleatoriamente para o júri) é de 9,6, a variância de 1,92 selecionados para o júri ao quadrado e o desvio-padrão de 1,38 pessoas de origem mexicana selecionadas para o júri. TROCANDO IDEIAS 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/15 Em um fórum de discussão, comente e reflita sobre mais casos práticos em que as regras da adição e da multiplicação para as probabilidades se aplicam, tanto para eventos independentes quanto dependentes. NA PRÁTICA Suponha que um teste de sangue para a detecção de uma doença tenha duas possibilidades de dar resultados enganosos. Primeiro: há uma probabilidade de 3% de o teste dar um resultado falso positivo – quando o exame diz que a pessoa tem a doença quando na verdade ela não tem – e uma probabilidade de 4% de dar falso negativo – quando o exame aponta que a pessoa não tem a doença em questão quandona verdade ela tem. Resultados falsos positivos e falsos negativos são mutuamente excludentes, ou seja, não podem ocorrer ao mesmo tempo para o mesmo exame. Com base nesses dados: 1. Calcule a probabilidade de um teste selecionado aleatoriamente ter resultados enganosos. 2. Se selecionarmos 50 testes aleatoriamente, qual o número esperado de testes que darão resultados enganosos, seja falso positivo ou falso negativo? FINALIZANDO A presente aula abordou alguns conceitos fundamentais da teoria da probabilidade, que são importantes para o entendimento das técnicas e da lógica da estatística inferencial, foco de conteúdos posteriores, em especial o conceito de distribuição de probabilidade. REFERÊNCIAS LARSON, R.; FARBER, B. Capítulo 3 - Probabilidade. In:__ Estatística Aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010a, p. 104-153. LARSON, R.; FARBER, B. Capítulo 4 – Distribuições de Probabilidade Discretas. In:__ Estatística Aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010b, p. 154-191. 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 15/15 PINHEIRO, J. I. D.; DA CUNHA, S. B.; CARVAJAL, S. R.; GOMES, G. C. Capítulo 3 – Introdução ao cálculo de probabilidades. In:__ Estatística Básica: a arte de trabalha com dados. São Paulo: Elsevier, 2009, p. 70-94. TRIOLA, M. F. Capítulo 5 – Distribuições de probabilidade. In: TRIOLA, M. F. Estatística Elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 198-243. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/14 ESTATÍSTICA APLICADA AULA 4 Prof. Tiago Claudino Barbosa 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/14 CONVERSA INICIAL Nesta aula, vamos aprender a principal distribuição de probabilidade utilizada na estatística, a distribuição normal, suas propriedades e como ela dá base para as técnicas e conceitos da estatística inferencial. Relembrando que a estatística inferencial busca realizar generalizações sobre alguma característica de uma população a partir de dados obtidos de uma amostra representativa. Os esforços de aprendizado são no sentido de compreender: (i) o que é a distribuição normal; (ii) que fenômenos ela descreve; (iii) o que é a distribuição amostral e sua ligação com a distribuição normal; (iv) que parâmetros podem ser estimados de forma precisa por estatísticas amostrais; e (v) o que são estimadores pontuais. CONTEXTUALIZANDO Qual é a distribuição de probabilidade de algumas das principais variáveis do mundo real? Como se fundamentam as inferências de uma amostra sobre uma população? Que parâmetros podemos gerar inferências e quais não? Algumas dessas perguntas serão abordadas nesta aula que foca a estatística inferencial. O objetivo é entender os conceitos e aprender a interpretar os resultados, e não os cálculos em si, que hoje em dia são facilmente realizados em softwares estatísticos. TEMA 1 – A DISTRIBUIÇÃO NORMAL A distribuição mais utilizada na estatística é chamada distribuição normal, que descreve vários fenômenos do mundo real e é fundamental para a estatística inferencial. A fórmula dessa distribuição é a seguinte: 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/14 em que e é aproximadamente 2,718 e π é igual a 3,14 e são constantes; logo, são os parâmetros σ e µ, sua média e desvio-padrão que determinam o formato da curva normal. A média fica no exato ponto central da escala X e localiza a linha de simetria da distribuição, e o desvio-padrão mostra o quanto os dados são estendidos ao longo do eixo X (Larson; Ferber, 2010). A distribuição normal é uma distribuição de probabilidade contínua, que possui algumas propriedades: a média, a mediana e a moda são iguais e se localizam no centro da distribuição; a curva da distribuição tem forma de sino e é simétrica em torno da média; a área total sob a curva normal é igual a um; à medida que se distancia da média, a curva se aproxima do eixo X, mas nunca o toca, ou seja, a probabilidade de ocorrência vai diminuindo e tendendo a zero, mas não chega a ser zero (Larson; Ferber, 2010); A Figura 1 mostra o gráfico da distribuição normal e suas características. Figura 1 − Gráfico da distribuição normal 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/14 Crédito: Peter Hermes Furian / Adobe Stock. A média, a mediana e a moda são do mesmo valor, localizado no meio da distribuição em µ. Os dados se concentram ao redor da média, e quanto mais nos afastamos da média, tanto para a esquerda quanto para a direita, menor a probabilidade de ocorrência desses valores. Cerca de 68,2% dos dados da distribuição ocorrem a um desvio-padrão para esquerda ou para a direita da média, ou seja, quase 70%. Se formos considerar dois desvios-padrão para a esquerda ou para a direita da média, a probabilidade acumulada sobe para quase 95%. A três desvios-padrão para a esquerda ou direita, acumulam-se 99,7% da probabilidade, ou seja, valores acima de três desvios-padrão da média, tanto para cima quanto para baixo, são bastante raros. Como foi dito, a distribuição normal é uma distribuição contínua. A área total sob a curva é igual a 1, englobando todas as probabilidades. A probabilidade de ocorrência de cada intervalo de valores vai de 0 (impossível) a 1. O Gráfico 1 mostra um histograma de mil dados gerados aleatoriamente de acordo com a distribuição normal com média 100 e desvio-padrão 10. Gráfico 1 − Exemplo de um histograma de uma distribuição normal com valores gerados por computador Crédito: Elaborado pelo autor 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/14 Notamos o formato de sino das barras, a expressão curva de sino é sinônima da curva que se obtém em um gráfico da distribuição normal. Plotar e analisar um histograma da variável de interesse é uma das formas de se examinar se um conjunto de dados parece seguir uma distribuição normal ou não. De modo a não ser necessário utilizar a complexa fórmula da distribuição normal para se encontrar a probabilidade de ocorrência de valores ou intervalos de valores específicos, foi criada a chamada distribuição normal padrão. Trata-se de uma distribuição normal com média 0 e desvio- padrão 1, para a qual os cálculos de probabilidade já foram tabulados e se encontram prontamente em softwares estatísticos. É possível transformar uma distribuição normal qualquer em uma distribuição padrão ao se calcular o chamado escore Z de cada valor de X. Vamos exemplificar. A escala de QI (quociente de inteligência) é uma das formas de mensuração da inteligência humana, porém não a única. Em geral, os testes são feitos de modo a terem média 100 e desvio-padrão 15. Uma pessoa com QI de 125 está a quantos desvios-padrão da média? Para obter essa informação, calculamos o escore Z de um QI de 125. O resultado é que essa pessoa está a 1,667 desvio-padrão acima da média. A partir das tabelas de probabilidade da distribuição normal padrão, sabe-se que ela está entre os 5% de maior QI em uma população. É possível calcular a probabilidade de ocorrência de um valor ou intervalo de valores de uma distribuição normal ao se padronizar o valor de X desejado e se calcular qual a probabilidade a partir de softwares estatísticos. Usando o Statdisk, primeiro calcule o valor do escore Z e defina se o objetivo é encontrar probabilidade de um intervalo de valores ou valores mais ou menos extremos do que esse. Supondo hipoteticamente que a altura média de homens adultos é 1,8 metro com desvio-padrão de 0,2 metro, qual é a probabilidade de se selecionar aleatoriamente um homem com 1,6 metro ou menos? Para obter esse valor, é preciso calcular o escore Z de 1,6 metro (no caso, -1) e calcular a probabilidade de Z ser igual ou menor que -1. Clique em Analysis e, na primeira opção, Probability Distributions, em seguida clique na primeira opção Normal Distribution. Na caixa Z valuecoloque o valor do escore Z (-1) e clique em Evaluate. Uma série de valores aparecerão à direita. Na quarta linha Left, aparece a probabilidade em termos decimais de valor ser menor ou igual ao escore 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/14 Z específico − no caso, 0,159, em percentual 15,9%, de chance de um homem selecionado aleatoriamente ter 1,6 metro ou menos. Se nossa pergunta fosse a probabilidade de um homem selecionado aleatoriamente ter altura igual ou maior que 1,6 metro, a opção seria a da quinta linha, Right − no caso, 0,841 ou 84,1% de probabilidade de um homem selecionado aleatoriamente ter 1,6 metro de altura ou mais. TEMA 2 – EXEMPLOS DA DISTRIBUIÇÃO NORMAL Há diversas variáveis do mundo real que tendem a seguir uma distribuição normal, tais como o tamanho de partes do corpo de pessoas do mesmo sexo e idade, variáveis metabólicas do corpo humano e animal, a altura de pessoas adultas etc. A distribuição normal pode servir como uma aproximação da distribuição de probabilidade binomial quando o tamanho da amostra não é muito pequeno. O cálculo da probabilidade de X sucessos com base na fórmula binomial é trabalhoso, em especial quando o valor de n e o de X são grandes; assim, a aproximação pela distribuição binomial, com cálculos mais fáceis e padronizados, pode ser muito útil (Larson; Ferber, 2010). As condições para essa aproximação são as seguintes: se np ≥ 5 e nq ≥ 5, a variável aleatória X pode ser aproximada pela distribuição normal com média µ = np e desvio-padrão σ = . Quanto maior o valor de n, mais a distribuição binomial se aproxima de uma distribuição normal (Larson; Ferber, 2010). Vamos exemplificar. Se quisermos descobrir a probabilidade de obter ao menos 55% de homens ao selecionarmos aleatoriamente 200 pessoas para compor nossa amostra de uma população que é de 50% de homens e 50% de mulheres, o cálculo pela fórmula da distribuição binomial seria trabalhoso e repetitivo. A aproximação com a distribuição normal facilita isso. µ − 100 homens (50% de 200) X – 110 homens (55% de homens na amostra de 200) σ – 7,1 homens ( 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/14 A probabilidade de obtermos ao menos 110 homens na nossa amostra é de 8,1% (valor à direita de Z = 1,4), uma probabilidade relativamente baixa. TEMA 3 – A DISTRIBUIÇÃO AMOSTRAL A distribuição amostral de uma estatística se refere à distribuição de todas as estimativas possíveis tiradas de diversas amostras de mesmo tamanho obtidas da mesma população. Equivale repetir a coleta de dados da mesma população infinitas vezes com amostras de mesmo tamanho n. Apesar de inúmeras estatísticas poderem ser calculadas para uma amostra, apenas quatro delas são boas estimadoras dos parâmetros populacionais – média, proporção, variância e outra que é um bom estimador em grandes amostras, o desvio-padrão. Isso se deve à sua distribuição amostral que, sob determinadas condições, pode ser aproximada por uma distribuição normal, que possui propriedades conhecidas que permitem inferências sólidas (Triola, 2006). Um bom estimador tem duas propriedades básicas (Sartoris, 2006): 1) ele não é viesado, ou seja, a média das médias das diferentes amostras é igual à média populacional do parâmetro; 2) dentro dos estimadores não viesados, ele é o que possui a menor variância, propriedade conhecida como eficiência. À medida que o tamanho da amostra aumenta, a distribuição amostral de estimadores não viesados tende a se tornar uma distribuição normal. Na prática, as estatísticas que são bons estimadores dos parâmetros populacionais são a média, a variância e a proporção. O desvio-padrão não é um estimador não viesado diretamente, mas pode ser aproximado se a amostra for relativamente grande. Outras estatísticas como a mediana e a amplitude não são bons estimadores dos parâmetros populacionais (Triola, 2006). A distribuição amostral das médias das amostras tem média igual à média populacional: 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/14 Ela tem a seguinte variância e desvio-padrão (o desvio padrão é também conhecido como erro padrão da média): O parâmetro é geralmente um valor fixo para a população e desconhecido, já o valor do estimador depende dos valores obtidos em cada amostra, ou seja, o estimador é uma variável aleatória que segue uma distribuição de probabilidade (Sartoris, 2006). A estatística inferencial busca generalizar com segurança as conclusões obtidas a partir de uma amostra para toda a população e quantificar as probabilidades de erro envolvidas no processo de extrapolar da parte para o todo (Pinheiro et al., 2009). Um erro muito comum é pensar que a amostra deve conter uma proporção significativa da população analisada. Na verdade, isso não é necessário, o importante é garantir a aleatoriedade na seleção dos componentes da amostra e um n absoluto adequado; não se trata de se obter uma parcela X da população (Triola, 2006). Se amostras de tamanho n ≥ 30 tiradas de uma população com média µ e desvio-padrão σ, a distribuição amostral de médias das amostras se aproxima da distribuição normal; quanto maior o n, maior a aproximação da distribuição amostral com a distribuição normal. Se a população original for normalmente distribuída, a distribuição amostral de médias das amostras é normalmente distribuída para qualquer amostra de tamanho n. Esse é o chamado Teorema do Limite Central, uma das bases da estatística inferencial. Teorema do Limite Central 1. Se o tamanho da amostra é 30 ou mais unidades, a média amostral segue uma distribuição normal, mesmo que a distribuição de probabilidade da população original se afaste da distribuição normal. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/14 2. Se a população original for normalmente distribuída, a distribuição amostral será normal, não importa o tamanho da amostra. 3. Se a amostra for menor do que 30 e a população original não seguir uma distribuição normal, os métodos aqui expostos não se aplicam (Triola, 2006). O Teorema do Limite Central diz que se tamanho amostral for grande o suficiente, a distribuição das médias amostrais pode ser aproximada por uma distribuição normal, não importa qual seja a distribuição de probabilidade da variável original (Triola, 2006). A média aqui citada não é somente o parâmetro média, mas a média das proporções, variâncias e desvios-padrão obtidos nas diferentes amostras. Como dito anteriormente, cada amostra nos dá um valor para o estimador, e como diversas amostras são possíveis e levam a valores de estatísticas diferentes, o estimador é uma variável aleatória. As diferenças entre a média da população e as médias obtidas nas amostras são o chamado erro amostral. TEMA 4 – PARÂMETROS APROXIMÁVEIS Há algumas estatísticas amostrais que são estimadores não viesados e eficientes dos parâmetros populacionais, porém não são todas. Utilizando-se o exemplo de uma população com valores 1, 2 e 5 e feita com reposição, pode-se obter nove amostras diferentes de dois elementos. A partir do cálculo das principais estatísticas apresentadas anteriormente, calcula-se a média das amostras, ou seja, a distribuição amostral e se vê que para a média, a variância e a proporção, as estatísticas amostrais são bons estimadores dos parâmetros populacionais, como pode ser visto na Tabela 1. Tabela 1 − Parâmetros que são estimados sem viés por estatísticas Amostra Média Variância Proporção de números ímpares 1,1 1,2 1,5 2,1 2,2 1 1,5 3 1,5 2 0 0,5 8 0,5 0 1 0,5 1 0,5 0 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/14 2,5 5,1 5,2 5,5 3,5 3 3,5 5 4,5 8 4,5 0 0,5 1 0,5 1 Média da estatística 8/3 26/9 2/3 Parâmetro populacional 8/3 26/9 2/3 A estatística amostral atinge o valor populacional? Sim Sim Sim Fonte: Triola, 2006. A média dos valores das amostras possíveis é igual ao valor do parâmetro.
Compartilhar