Prévia do material em texto
07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/14 ESTATÍSTICA APLICADA AULA 1 Prof. Tiago Claudino Barbosa 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/14 CONVERSA INICIAL INTRODUÇÃO À ESTATÍSTICA Nossa aula busca introduzir conceitos básicos da estatística e mostrar seu imenso potencial de uso na economia e áreas correlatas. Os esforços de aprendizado serão direcionados para e entendimento: (i) do objeto de estudo da estatística e dos seus principais objetivos enquanto ciência aplicada; (ii) de alguns conceitos iniciais aplicados em diversas técnicas estatísticas; (iii) da importância do uso de amostras e da forma de coleta dos dados a serem analisados; (iv) de algumas formas de se resumir grandes conjuntos de dados; (v) de algumas das principais aplicações da estatística na economia. CONTEXTUALIZANDO Em um ano, qual o efeito de um aumento nos gastos do governo na taxa de desemprego no Brasil? Qual o impacto no salário de se ter cursado ensino superior? Esse impacto difere entre os países e regiões e, se sim, por que? Qual o perfil médio e os desejos do público-alvo da minha empresa? Qual a taxa de defeito nas peças que saem da minha linha de produção? Qual a previsão do crescimento do meu mercado nos próximos cinco anos? Essas e outras perguntas de relevância econômica, política e social são respondidas pela estatística. A teoria econômica provê explicações teóricas para o comportamento e a relação entre variáveis econômicas e variáveis do contexto social, porém a verificação empírica dessas teorias e a aplicação para casos concretos dependem da existência de dados adequados e do emprego de técnicas estatísticas. O objetivo desta disciplina é mostrar a base da estatística e suas técnicas, que serão aprofundadas na disciplina de econometria do quarto ano. Os tópicos serão apresentados de forma 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/14 sucinta e introdutória, sendo possível que os alunos se aprofundem em temas de seu interesse ao lerem a bibliografia recomendada. TEMA 1 – O QUE É E PARA QUE SERVE A ESTATÍSTICA? O que é a estatística e qual a sua importância para a economia e áreas correlatas? Essas duas perguntas serão exploradas na aula de hoje. É possível adiantar que a estatística tem um papel central dentro da ciência econômica, ajudando a transpor os modelos teóricos da economia para a análise de situações empíricas do mundo real. As técnicas estatísticas ajudam os economistas a balizar suas previsões sobre o futuro, a testar hipóteses sobre o comportamento dos atores econômicos e suas relações e a estimar a direção e a força das relações entre variáveis econômicas e entre variáveis econômicas e outros fatores do contexto social, como variáveis políticas e sociais (Hoffman, 2006). A importância da estatística é tão grande que uma nova disciplina emergiu dentro da economia através da junção de teoria econômica, modelos matemáticos baseados nessas teorias e uso de técnicas estatísticas para a análise de dados empíricos – a econometria, que será ensinada no último ano do nosso curso. A nossa disciplina de Estatística Aplicada visa ensinar os conceitos e técnicas básicas da estatística utilizados pelos economistas em uma variedade de situações práticas. Os conceitos a serem ensinados não só formam a base para o entendimento da disciplina de Econometria, mas são fundamentais para o aguçamento do senso crítico, para o entendimento de notícias e informações científicas diversas e para a aplicação de conceitos e técnicas para a resolução de problemas que economistas enfrentam no seu trabalho em empresas, governos, entidades sem fins lucrativos ou em seus empreendimentos pessoais. Para iniciarmos nossa jornada, devemos primeiro entender o que é a estatística e quais os objetivos de suas duas principais áreas. “Estatística é a ciência que coleta, organiza, analisa e interpreta dados para a tomada de decisão” (Larson; Farber, 2010, p.3). É aplicada em diversos campos do conhecimento e da ação humana que envolvam dados e decisões, sejam de ordem científica, tecnológica, empresarial, produtiva, comercial, de gestão pública, entre outros. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/14 A matéria-prima da estatística são os dados, que podem ser quantitativos ou qualitativos. Para que esses dados forneçam informações relevantes para situações do mundo real, eles devem ser organizados e analisados com técnicas adequadas. Esse processo de transformação de conjuntos de dados brutos em informações úteis para a tomada de decisão no mundo real é o objetivo principal da estatística. Para a realização desse objetivo, a estatística é dividida em duas partes. A estatística descritiva que tem por objetivo apresentar, organizar e descrever um conjunto de dados de forma sucinta, e a inferência estatística se refere a técnicas que permitem generalizações (inferências), que podem ser feitas sobre características de uma população a partir de amostras e informações incompletas (Hoffman, 2006). Dessa forma, a essência da inferência estatística é aprender algo sobre uma população de interesse a partir da coleta e análise de dados de uma parte menor de seus membros (amostras) (Triola, 2006). Os tópicos abordados nas próximas seções devem tornar esses conceitos mais claros. TEMA 2 – CONCEITOS INICIAIS Alguns conceitos iniciais são necessários para se entender os objetivos e potenciais da estatística. O quadro 1 apresenta uma parte desses conceitos iniciais, sendo os demais conceitos iniciais apresentados em conteúdos posteriores. Quadro 1 – Alguns conceitos básicos da estatística CONCEITO DEFINIÇÃO EXEMPLO Dado Dados são observações coletadas. Altura de estudantes de uma escola, cotações de uma moeda ao longo de um ano. Dado quantitativo Observação numérica representando contagens ou medidas. Peso de latas de refrigerantes produzidas em uma fábrica, lucro de empresas de um determinado país em um ano. Dado qualitativo Observações que podem ser separadas em diferentes categorias conforme alguma característica não numérica. Cores dos carros vendidos por uma concessionária, voto no candidato X em uma eleição, cidade de origem dos funcionários de uma empresa. Variável Um atributo do objeto de estudo considerado que tenha variação. Renda per capita da população de um país, altura de adultos de um país. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/14 Variável aleatória Variável cujos valores provém de um processo aleatório. Resultado do lançamento de um dado ou de uma moeda. População Coleção completa de todos os elementos a serem estudados. Todos os habitantes do Brasil no caso do Censo Demográfico. Parâmetro Medida numérica que descreve alguma característica da população. Proporção de todos os brasileiros que estão em situação de extrema pobreza. Censo Coleta de dados sobre todos os membros de uma população. Censo Demográfico realizado no Brasil a cada dez anos. Amostra Subconjunto de membros selecionados de uma população. Pesquisa de intenção de votos para uma eleição. Estatística Medida numérica que descreve alguma característica de uma amostra. Proporção de eleitores que pretendem votar no candidato A, salário médio de pessoas que se formaram no curso X. Inferência Estatística Generalização sobre algum parâmetro da população de interesse com base em uma estatística obtida de uma amostra dessa população. Projeção da provável vitória de um candidato que tenha obtido intenções de voto muito maiores que outros candidatos em uma amostra. Fonte: Elaborado com base em Triola, 2006. A aplicação desses conceitos em casos práticos deve ser bem demarcada no tempo e no espaço. Por exemplo, se quisermos analisar a distribuição de renda em um determinado território, é preciso demarcar bem qual é esse territórioe a que período do tempo os dados se referem. A distribuição de renda do Brasil em 2018, por exemplo, é diferente da de 2019, e as distribuições de renda das regiões e estados brasileiros também se diferem entre si. Para um melhor entendimento dos conceitos, leia os casos hipotéticos abaixo. Suponha que desejamos saber o desempenho acadêmico de uma escola. Como se trata de uma população de estudantes relativamente pequena, a escola resolve realizar um teste com todos os estudantes (censo). A pontuação no teste dos alunos é a variável de interesse, e o desempenho médio dos alunos é o parâmetro que mede o desempenho acadêmico da escola. É importante assinalar que os resultados refletem o desempenho dessa escola específica em um momento do tempo específico, não podendo ser generalizado para outros contextos. Agora, suponha que desejamos saber qual candidato a uma eleição provavelmente será o vencedor e qual a proporção da população votante de um território (população) que vai votar em 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/14 cada candidato (parâmetro). Como a população é grande, foi decidido realizar uma amostra aleatória com dois mil eleitores. A variável de interesse é a intenção de voto na eleição específica. As proporções de intenção de voto para cada candidato obtidas na amostra são as estatísticas, a partir das quais a aplicação de técnicas estatísticas permite a estimação do parâmetro, chegando-se a conclusões prováveis sobre qual a proporção de votos que cada candidato vai ter na eleição e, logo, qual o provável vencedor, a chamada inferência estatística. Um melhor entendimento das formas de se obter amostras é o nosso próximo tópico. TEMA 3 – AMOSTRAGEM A melhor forma de se conhecer os atributos de uma população seria realizar um censo, no qual todos os membros da população têm seus dados coletados, porém isso nem sempre é viável ou prático. Por exemplo, se quisermos saber a opinião de todos os milhões de brasileiros em idade de votar sobre a aprovação de uma nova lei qualquer, teríamos que realizar um censo que abordasse todos os brasileiros dentro de um espaço curto de tempo, de cidadãos que habitam as grandes metrópoles às comunidades indígenas e ribeirinhas da Amazônia. Isso se tornaria inviável em termos logísticos, técnicos e financeiros, ainda mais se considerarmos que se trata de uma questão pontual. O Brasil realiza, a cada dez anos em média, o Censo Demográfico para a coleta de dados diversos sobre a população brasileira. Esse censo exige elevados recursos e planejamento a longo prazo, e, mesmo assim, falha em capturar informações de todos os cidadãos brasileiros. Muitos não respondem a pesquisa por não estarem em casa no momento em que o recenseador chega para a coleta de dados, por não terem residência fixa, entre outros motivos diversos. Mesmo que sua cobertura seja incompleta, ela pode ser considerada razoável para a maioria das questões. Contudo, por ser realizado a cada dez anos, os dados podem ficar desatualizados nesse meio tempo. Um dado como a taxa de desemprego em 2010 não diz muito sobre o desemprego no Brasil em 2019, ainda mais considerando que essa é uma variável conjuntural que flutua muito de um ano para o outro ou mesmo dentro de um mesmo ano. Há ainda outras questões. Por exemplo, se quisermos avaliar a resistência mecânica de uma peça de nossa linha de produção, teremos que utilizar testes que levem essas peças ao seu limite, ou seja, 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/14 à destruição. Realizar um censo para mensurar a resistência de todas as peças tornaria a linha de produção insustentável. Dadas essas dificuldades para a realização de censos, é possível utilizar amostras, que são subconjuntos da população de interesse, para se estimar algum atributo sobre a população. Há diversas formas de se obter uma amostra, mas a que possui as melhores propriedades e a mais utilizada em análises estatísticas são as amostras aleatórias. Em uma amostra aleatória, todos os membros da população têm a mesma chance de serem selecionados para a amostra (Triola, 2006). Um dos riscos de se utilizar uma amostra é que ela pode não ser representativa da população de interesse, gerando, assim, resultados distorcidos. Uma amostra ruim pode ser pior do que não ter amostra nenhuma. Uma amostra representativa é uma que não tenha vieses de seleção, que são direcionamentos que fazem com que determinados membros de uma população tenham maior chance de serem selecionados ou excluídos de uma amostra. Ao aparecerem em maior ou menor frequência que a parte da população de interesse, eles fazem a amostra ter uma composição diferente, gerando resultados não representativos. Nesse contexto, se quisermos saber qual a renda média das famílias da cidade de São Paulo, não podemos coletar dados somente de pessoas que trabalham na Avenida Faria Lima, conhecida por ser um polo financeiro e uma região de renda elevada. Uma estatística baseada somente em indivíduos dessa região não seria capaz de estimar a renda média de São Paulo, pois seria distorcida por não incorporar pessoas que habitam regiões mais periféricas e de menor renda. A amostra deve sim abarcar pessoas que habitam a região da Faria Lima, mas também pessoas das outras regiões da cidade. A aleatoriedade garante a redução do risco de vieses ao fazer com que todos os segmentos tenham a mesma probabilidade de serem incluídos na amostra. Há ainda riscos de distorções na composição da amostra devido ao acaso, mas são bem baixos. Especialmente em grandes amostras, a aleatoriedade é a melhor maneira de garantir a minimização desses riscos. Nosso próximo tópico mostra algumas formas de organização e resumo de conjuntos de dados. TEMA 4 – DISTRIBUIÇÃO DE FREQUÊNCIA E GRÁFICOS 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/14 Os conjuntos de dados têm algumas propriedades que nos permitem entender seu comportamento e características gerais. Uma dessas propriedades é a distribuição dos dados, que se refere à forma com que os dados são distribuídos ao longo da escala da variável analisada (Triola, 2006). Os valores dos dados podem se concentrar próximos a um ou mais pontos específicos, e há formas de se observar isso visualmente por meio de tabelas e gráficos. Uma forma eficiente de se organizar os dados e entender como eles se distribuem é por meio da construção de tabelas, como a distribuição de frequência, que é uma tabela que divide os valores individualmente ou em classes de valores e reporta a frequência que aqueles valores aparecem no conjunto (Pinheiro et al., 2009). Os procedimentos para a elaboração de uma distribuição de frequência são: (i) organizar os dados em ordem crescente; (ii) definir a amplitude dos valores ao subtrair do valor máximo o valor mínimo; (iii) definir o número de intervalos a serem feitos, em geral de mesma amplitude, e os valores dos seus limites superiores e inferiores; (iii) colocar a frequência de aparecimento no conjunto de dados de valores por intervalo. Atualmente, qualquer software estatístico realiza isso automaticamente, logo devemos focar na interpretação dos resultados. Utilizamos um exemplo real de uma variável econômica de alta relevância para ilustrar esse conceito. A tabela 1 mostra o valor da renda familiar per capita média dos 26 estados brasileiros e do Distrito Federal em 2019. Os dados foram obtidos da Pesquisa Nacional por Amostra de Domicílios (PNAD), que coleta periodicamente dados representativos das unidades federativas do país sobre mercado de trabalho e outras variáveis socioeconômicas. Os valores foram arredondados. Tabela 1 – Renda familiar per capita das unidades federativas do Brasil – em R$ Unidade Federativa Renda per capita familiar - em R$ Rondônia 1.111 Acre 890 Amazonas 838 Roraima 1.050 Pará 795 Amapá 874 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/14 Tocantins1.038 Maranhão 637 Piauí 831 Ceará 939 Rio Grande do Norte 1.042 Paraíba 909 Pernambuco 954 Alagoas 729 Sergipe 970 Bahia 912 Minas Gerais 1.331 Espírito Santo 1.440 Rio de Janeiro 1.809 São Paulo 1.889 Paraná 1.586 Santa Catarina 1.709 Rio Grande do Sul 1.812 Mato Grosso do Sul 1.491 Mato Grosso 1.361 Goiás 1.284 Distrito Federal 2.599 Fonte: IBGE, 2021. A renda familiar per capita é um indicador do grau de desenvolvimento econômico e acesso a consumo de uma região. Quanto maior, melhor. Os dados das unidades federativas brasileiras indicam uma forte variação da renda per capita familiar entre as regiões do país, algumas com renda muito mais elevada do que outros. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/14 Nossa variável de interesse X é a renda familiar per capita das unidades federativas do Brasil. O menor valor (R$637) pertence ao estado do Maranhão, e o maior (R$ 2.599), ao Distrito Federal. Em 2019, a diferença entre a unidade de maior e menor renda foi de R$ 1.961. Arredondando esse valor para R$ 2.000, pode-se dividir os dados em cinco intervalos de igual tamanho de R$ 400. A tabela seguinte apresenta a distribuição de frequência. Tabela 2 – Distribuição de frequência da renda familiar per capita das unidades federativas brasileiras (em R$) Faixa de renda – R$ Frequência Frequência relativa 600-999 12 44,4% 1.000-1.399 7 25,9% 1.400-1.799 4 14,8% 1.800-2.199 3 11,1% 2.200-2.600 1 3,7% Fonte: Elaborada com base em IBGE, 2021. A tabela mostra tanto a frequência absoluta (numérica) quanto relativa (em percentual) das faixas de renda familiar per capita das unidades federativas brasileiras. Enquanto, na tabela 1, com 27 linhas, é difícil ter uma visão de como os dados se distribuem, na tabela de frequência, é possível ver de forma sucinta que quase metade dos estados tem uma renda per capita relativamente baixa, de menos de R$ 1.000, e mais de 70% tem renda per capita inferior a R$ 1.400. Uma outra forma de sintetizar os dados e mostrar como eles se distribuem é construindo gráficos, dos quais o mais usual é o histograma. Um histograma é um gráfico de barras no qual o eixo horizontal representa intervalos de valores da variável de interesse X e o vertical, a frequência que esses valores aparecem no conjunto de dados analisado. A altura das barras é proporcional à frequência de aparecimento dos dados, e as barras são construídas adjacentes umas às outras (Triola, 2006). É basicamente a representação visual da tabela de distribuição de frequência. As barras em geral possuem a mesma largura, representando intervalos de valores de igual magnitude. O gráfico 1 é um histograma dos dados de renda familiar per capita das unidades federativas brasileiras em 2019. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/14 Gráfico 1 – Histograma da renda familiar per capita das unidades federativas do Brasil – em R$ Fonte: Elaborado com base em IBGE, 2021. Os dados refletem o mesmo padrão expresso na tabela de frequência acima: a maioria das unidades federativas brasileiras tem renda per capita relativamente baixa, abaixo de R$ 1,4 mil. Apresentadas essas formas de se visualizar a distribuição dos dados de um conjunto, o próximo tópico mostra alguns dos usos possíveis da estatística na economia. TEMA 5 – EXEMPLOS DE USO NA ECONOMIA As possibilidades de uso da estatística e da disciplina derivada de econometria pelos economistas e profissionais de áreas correlatas são diversas. Elas são disciplinas instrumentais, que ajudam os estudantes e profissionais formados a aplicarem os conhecimentos teóricos adquiridos nas disciplinas de economia a problemas do mundo real. O quadro 2 mostra algumas das aplicações da estatística na economia e exemplos. Quadro 2 – Alguns dos usos da estatística na economia TIPO DE USO EXEMPLO Definição e mensuração de variáveis econômicas PIB, taxa de inflação, distribuição de renda. 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/14 Indicações do estado atual da economia Taxa de crescimento econômico, taxa de desemprego. Previsões sobre variáveis econômicas e financeiras Valor futuro de uma ação; expectativa de crescimento do PIB no próximo ano. Avaliação do impacto de políticas Quanto um aumento de 1% nos gastos públicos hoje vai impactar no PIB do próximo ano? Estimação da relação entre variáveis Quanto o aumento de 1% no preço do meu produto vai impactar na quantidade vendida? Planejamento empresarial Qual o perfil e os desejos do público consumidor da minha marca? Fonte: Barbosa, 2021 Como visto, o potencial de uso da estatística para economistas é imenso. Mais adiante, vamos aprofundar o entendimento dos conceitos e técnicas. TROCANDO IDEIAS Em um fórum de discussão, discuta as limitações e os problemas de se utilizar amostras não aleatórias e não representativas das populações que se deseja analisar. NA PRÁTICA A lição proposta é acessar o site que roda online e gratuitamente o software estatístico Statdisk e construir um histograma dos dados a seguir. Suponha que os dados fictícios representam a renda familiar per capita de 12 pessoas selecionadas aleatoriamente de seu bairro. X – Renda familiar per capita 1000 1100 950 1200 1300 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/14 1450 1325 2000 1600 1900 1875 2100 Passos para a realização da atividade: 1. Acesse o site do Statdisk (<https://www.statdisk.com/accounts/login/?next=/>); 2. Inscreva-se com sua conta Google ou outra; 3. O programa vai abrir sua página inicial com uma planilha vazia; 4. Copie e cole os doze dados acima na primeira célula da planilha em branco; 5. Após colar, clique em Data na barra superior e na opção Histogram; 6. Após abrir a janela, clique em Select Column e coloque a opção 1; 7. Clique em Plot ao final da página; 8. O histograma dos dados será gerado à esquerda, então analise-o. Caso não disponha de um computador ou não consiga realizar a lição proposta, construa um histograma à mão. Lembre-se que é preciso: (i) organizar os dados em ordem crescente; (ii) calcular a amplitude dos valores subtraindo do valor máximo o valor mínimo; (iii) dividir o valor da amplitude em intervalos de igual tamanho, no caso três intervalos são suficientes; (iv) contar a frequência de ocorrência dos valores; (v) desenhar o gráfico a partir desses dados. FINALIZANDO Nesta aula, realizamos uma introdução à estatística, seus conceitos básicos e seu potencial de uso na economia. Aprendemos também algumas formas de organizar e visualizar grandes conjuntos de dados de forma resumida. É importante um entendimento adequado desses tópicos, porque a estatística é uma disciplina cumulativa, logo cada conteúdo tem relação com conteúdos anteriores. https://www.statdisk.com/accounts/login/?next=/ 07/06/2022 20:12 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/14 REFERÊNCIAS HOFFMAN, R. Introdução. In: _____. Estatística para economistas. 4. ed. São Paulo: Cengage Learning, 2006, p. XIII-XIV. IBGE. PNAD – Pesquisa Nacional por Amostra de Domicílios – 2021. Disponível em: <https://www.ibge.gov.br/estatisticas/sociais/rendimento-despesa-e-consumo/9127-pesquisa- nacional-por-amostra-de-domicilios.html?=&t=o-que-e>. Acesso em 29 out. 2021. LARSON, R.; FARBER, B. Introdução à Estatística. In:__ Estatística Aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010, p. 2-30. PINHEIRO, J. I. D.; DA CUNHA, S. B.; CARVAJAL, S. R.; GOMES, G. C. Análise exploratória para uma variável. In:__ Estatística Básica: a arte de trabalha com dados. São Paulo: Elsevier, 2009, p. 11-51. TRIOLA, M. F. Introdução à Estatística. In: _____. Estatística Elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 2-39. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/15 ESTATÍSTICA APLICADA AULA 2 Prof. Tiago Claudino Barbosa07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/15 CONVERSA INICIAL MEDIDAS DE POSIÇÃO E DISPERSÃO Anteriormente, aprendemos a organizar conjuntos de dados e observar como variáveis se distribuem com tabelas de distribuição de frequência e histogramas. Nesta aula, vamos aprender algumas medidas que ajudam a resumir diferentes propriedades de conjuntos de dados e que são utilizadas para a realização de inferências estatísticas. Os esforços de aprendizado são: (i) entender o conceito de medida de posição e seus principais tipos e (ii) entender o conceito de medida de dispersão e seus principais tipos. Ambos os conceitos são centrais para a estatística descritiva e inferencial, abordadas em conteúdo posterior. CONTEXTUALIZANDO Como resumir um conjunto de dados em algumas estatísticas? Como comparar diferentes conjuntos de dados? Que valores representam melhor meu conjunto de dados e em qual grau eles são uma representação precisa? Essas e outras perguntas são elucidadas nesta aula, o entendimento dos conceitos apresentados é fundamental para que possamos realizar uma análise descritiva de conjuntos de dados e são os elementos fundamentais a serem aplicados nas diferentes técnicas de inferência estatísticas a serem apresentadas em conteúdo posterior. O objetivo é entender a lógica das medidas e como interpretá-las, o cálculo em si pode ser feito facilmente em softwares especializados. TEMA 1 – O QUE SÃO MEDIDAS DE POSIÇÃO? 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/15 Anteriormente, aprendemos a utilizar histogramas e distribuições de frequência para analisarmos a distribuição de um conjunto de dados ao longo de seu intervalo de valores. Analisar a distribuição de um conjunto de dados nos permite entender ao redor de quais valores os dados se concentram e se há lacunas na escala para as quais não há dados. Outras duas propriedades de conjuntos de dados muito relevantes tanto para a estatística descritiva quanto para a estatística inferencial serão ensinadas hoje. A primeira são as medidas de posição, que indicam valores ao redor dos quais os dados do conjunto se concentram, e a segunda são as medidas de dispersão, que medem o quanto os dados de um conjunto variam entre si. Uma medida de posição central é um valor numérico representativo de um conjunto de dados que nos mostra um valor típico, uma tendência sobre a qual os dados do conjunto orbitam (Triola, 2006). Alguns conceitos iniciais devem ser retomados e apresentados antes de se adentrar nas medidas de posição em si (Triola, 2006). N – número de elementos que compõem uma população; n – número de elementos que compõem uma amostra; ∑ - operador somatório se refere à soma de todos os elementos de X; Xi – i-ésima unidade do conjunto de dados X. Parâmetro - medida numérica que descreve alguma característica da população, em geral representada por letras gregas, como µ (mi), α (alfa) e β (beta); Estatística - medida numérica que descreve alguma característica de uma amostra, em geral representadas por letras do nosso alfabeto comum, como a e b, letras do nosso alfabeto com algum símbolo sobrescrito, como (x barra), ou como letras gregas com algum símbolo sobrescrito, como (alfa chapéu); Outlier – valor de um conjunto de dados muito discrepante para mais ou para menos de todos os outros dados. TEMA 2 – MÉDIA E MEDIANA 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/15 A média é a medida numérica mais utilizada para descrever um conjunto de dados. A média de um conjunto de dados é calculada pela soma de todos os valores do conjunto dividido pelo número total de unidades do conjunto de dados. Ela tem duas vantagens, (i) as médias amostrais tendem a ser as medidas de centro mais consistentes no sentido que a média de diversas médias amostrais retiradas da mesma população tende a convergir para o valor da média populacional e a apresentar menor variabilidade que as outras medidas de centro e (ii) ela considera todos os valores do conjunto de dados em seu cálculo, refletindo assim de alguma forma na distribuição e na concentração dos dados do conjunto, sua principal desvantagem é que ela é sensível a outliers (Triola, 2006). O Quadro 1 mostra a fórmula e os componentes dos dois principais tipos de média. Quadro 1 – Fórmula e componentes da média populacional e amostral Média populacional Média amostral Onde: é a média populacional é o somatório de todos os valores das unidades i da variável X N é o tamanho da população Onde: é a média amostral é o somatório de todos os valores das unidades i da variável X n é o tamanho da amostra Fonte: Barbosa, 2021. Considere o seguinte conjunto de dados fictício: X – 10, 11, 12, 22, 22, 25, 28, 36 Para obtermos a média, bastaria somar todos esses dados e dividir pelo número de unidades do conjunto de dados n, que é oito. = = = 20,75. A média do conjunto de dados é 20,75. Se conjunto for uma amostra, resultado é uma média amostral, se for a população inteira, é a média populacional. Mediana 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/15 A mediana é o valor que, quando o conjunto de dados é organizado de forma crescente ou decrescente, fica no meio do conjunto. Se tamanho do conjunto de dados é um número par, mediana é a média dos dois valores centrais. Tem a desvantagem de considerar somente um ou dois elementos do conjunto de dados, não dizendo muito sobre a distribuição e a concentração dos dados, tem como vantagem não ser afetada por outliers (Triola, 2006). Para o mesmo conjunto de dados fictício, primeiro se organiza os dados em ordem crescente, depois se identifica o valor do dado que fica no meio, no caso, por número de unidades do conjunto ser par, a mediana é a média dos dois valores centrais, no caso 22 e 22, logo, o valor da mediana é 22. X – 10, 11, 12, 22, 22, 25, 28, 36. TEMA 3 – MODA E SEPARATRIZES A moda é o valor que ocorre com maior frequência em um conjunto de dados (Triola, 2006). Tem a vantagem de não ser influenciada pela presença de outliers e a desvantagem de levar em conta somente o valor mais frequente em seu cálculo, ignorando o restante dos dados. Para sua identificação, é preciso ordenar os dados em ordem crescente ou decrescente e visualizar qual se repete mais vezes. Considerando nosso conjunto de dados. X – 10, 11, 12, 22, 22, 25, 28, 36. Moda é o valor 22, que aparece duas vezes, nenhum outro valor apareceu mais de uma vez. Um conjunto de dados pode ser amodal quando nenhum dos valores aparece em maior frequência que os outros, unimodal quando há uma moda, bimodal quando há duas modas e assim por diante. Em um histograma em que cada dado possível é uma barra, a moda é o valor com a barra mais alta. Separatrizes São medidas que separam o conjunto de dados em subconjuntos com igual número de unidades, ajudando a identificar a forma com que os dados são distribuídos. Não são os valores da variável X que são divididos em intervalos de igual tamanho, mas o número de dados, daí se identifica qual o valor de X que marca o recorte entre uma separatriz e outra. Os intervalos podem ser diversos, quatro (quartil), cinco (quintil), dez (decil), cem (percentil), entre outros. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/15 Por exemplo, se dividirmos a distribuição de renda per capita de todos os brasileiros em dez intervalos (decis) e quisermos saber que valor separa os 10% de menor renda do restante dos brasileiros, basta identificarmos o valor do primeiro decil. 10% da população brasileira ganha uma quantia igual ou menor que esse valor. Retomando nosso conjunto de dados fictício e calculando os valores de seus quartis (intervalos que dividem 25%, 50% e 75% dos dados). X – 10, 11, 12, 22, 22, 25, 28, 36. O cálculo desses valores é relativamente trabalhoso, utilizou-se o Statdisk para o cálculo e para a criação do gráfico a seguir, conhecido comoboxplot. Tabela 1 – Valores dos quartis Medida Valor X Valor mínimo 10 Primeiro quartil 11,5 Segundo quartil 22 Terceiro quartil 26,5 Valor máximo 36 Fonte: elaborada com base em software Statdisk. Figura 1 – Gráfico boxplot dos dados 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/15 Fonte: elaborada com base no software Statdisk. Na escala de cima se coloca os valores da variável X, as pontas da linha são os valores mínimo e máximo do conjunto de dados, os outros três valores destacados são o primeiro quartil (11,5), o segundo quartil (22), que sempre é igual à mediana, e o terceiro quartil (26,5). A escala de baixo mostra os valores possíveis da amostra. Intervalos menores entre os valores indicam que dados são mais concentrados, por exemplo, um quarto dos valores está entre 10 e 11,5 unidades, já o último quarto de valores está menos concentrado, já que varia de 26,5 a 36. O conceito de separatrizes e gráficos como o boxplot ajudam a analisar resumidamente como os dados estão distribuídos e os pontos de concentração de forma parecida às tabelas de distribuição de frequência e histogramas. No exemplo, foi utilizado quartis, mas outras medidas como quintis, decis e percentis poderiam ter sido utilizadas. TEMA 4 – MEDIDAS DE DISPERSÃO Dispersão é o quanto os valores de um conjunto de dados variam entre si. Quanto mais próximos os dados estiverem entre si, menor a dispersão e vice-versa (Triola, 2006). A primeira medida de dispersão analisada é a amplitude. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/15 A amplitude é a diferença entre o valor máximo e o mínimo de um conjunto de dados. Organizando-se os dados em ordem crescente ou simplesmente utilizando um software estatístico, é fácil obter essa estimativa, mas sua utilidade prática é pequena, já que em seu cálculo ela considera somente dois valores extremos de um conjunto de dados, ignorando todas as outras unidades (Triola, 2006). A amplitude não diz nada sobre a distribuição dos dados, não indica se eles estão concentrados perto de um dos extremos ou do outro ou de qualquer outro valor em particular. Considerando nosso conjunto de dados fictício. X – 10, 11, 12, 22, 22, 25, 28, 36. Amplitude = valor máximo - valor mínimo = 36 – 10 = 26. TEMA 5 – VARIÂNCIA E DESVIO PADRÃO As medidas de dispersão mais utilizadas são o desvio padrão e a variância. Ambas utilizam em seu cálculo a média e são interpretadas como o grau de variação dos dados em relação à média. Começando pela variância, ela é calculada pelo somatório de cada valor de X subtraído da média, tudo elevado ao quadrado e dividido pelo tamanho da população ou pelo tamanho da amostra menos um. O Quadro 2 mostra as fórmulas e componentes da variância, que são levemente diferentes se conjunto de dados é uma população ou amostra. Quadro 2 – Fórmula e componentes da variância populacional e amostral Variância populacional Variância amostral Onde: (sigma ao quadrado) é a variância populacional é o somatório de cada valor Xi subtraído da média populacional elevado ao quadrado N é o tamanho da população Onde: é a variância amostral é o somatório de cada valor Xi subtraído da média amostral elevado ao quadrado n – 1 é o tamanho da amostra menos um Fonte: Barbosa, 2021. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/15 Retomando o conjunto de dados fictícios, calcula-se sua variância considerando o conjunto uma população e uma amostra. Os cálculos são relativamente trabalhosos, por isso se utilizou o software Statdisk. X – 10, 11, 12, 22, 22, 25, 28, 36. A variância populacional é menor que a amostral porque na fórmula da variância amostral a divisão ocorre por n-1 e não por N. A unidade de medida da variância é a mesma da variável X, só que elevada ao quadrado, não tendo assim uma interpretação direta, no exemplo seria 74,2 ou 84,8 unidades ao quadrado, uma unidade de medida diferente e não diretamente comparável à unidade de medida dos dados e das medidas de posição. Para corrigir esse problema, usa-se o desvio padrão, que é derivado da fórmula da variância, mas que pertence à mesma unidade de medida da variável X e das outras medidas de posição, sendo assim facilmente interpretável. Sua fórmula e componentes estão no Quadro 3. Quadro 3 – Fórmula e componentes do desvio padrão populacional e amostral Desvio padrão populacional Desvio padrão amostral Onde: (sigma) é o desvio padrão populacional é o somatório de cada valor Xi subtraído da média populacional elevado ao quadrado N é o tamanho da população Onde: é o desvio padrão amostral é o somatório de cada valor Xi subtraído da média amostral elevado ao quadrado n – 1 é o tamanho da amostra menos um Fonte: Barbosa, 2021. Retomando nosso conjunto de dados fictício e utilizando o Statdisk para a realização dos cálculos. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/15 X – 10, 11, 12, 22, 22, 25, 28, 36. 8,6 9,2 O desvio padrão amostral é maior que o populacional pela mesma razão das variâncias, o denominador do primeiro é n-1 e do segundo é N. O valor está na mesma escala da variável original, a média é de 20,75 unidades, o desvio padrão é de 8,6 ou 9,2 unidades de variação em relação à média. O desvio-padrão mede a variação de todos os valores do conjunto de dados em relação à média, tanto para o lado esquerdo quanto para o lado direito da média. Assim como a variância, seu valor pode ser positivo ou zero, caso todos os valores do conjunto de dados sejam iguais, mas ele nunca é negativo. Tem a vantagem de considerar todos os dados em seu cálculo e a desvantagem de ser influenciado pela presença de outliers. As fórmulas dos desvios-padrão são similares às das variâncias, só se extrai a raiz quadrada do valor calculado das variâncias para se obter os desvios - padrão e se eleva os valores dos desvios-padrão ao quadrado para se obter as variâncias. Entendidos esses conceitos, podemos realizar uma análise estatística descritiva do conjunto de dados real a seguir. A Tabela 2 mostra a taxa de crescimento econômico percentual de um trimestre acumulada em relação aos quatro trimestres anteriores entre 2016 e 2021. Por exemplo, a taxa de crescimento de 0,1% no 3º trimestre de 2017 reflete a um aumento no valor do PIB de apenas 0,1% entre o 3º trimestre de 2016 e o 3º trimestre de 2017. Tabela 2 – Taxa de crescimento econômico trimestral – acumulado dos quatro trimestres anteriores Trimestre Taxa de crescimento – em % 1º trimestre 2016 -4,4 2º trimestre 2016 -4,5 3º trimestre 2016 -4,1 4º trimestre 2016 -3,3 1º trimestre 2017 -1,9 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/15 2º trimestre 2017 -0,9 3º trimestre 2017 0,1 4º trimestre 2017 1,3 1º trimestre 2018 1,7 2º trimestre 2018 1,9 3º trimestre 2018 2 4º trimestre 2018 1,8 1º trimestre 2019 1,6 2º trimestre 2019 1,6 3º trimestre 2019 1,4 4º trimestre 2019 1,4 1º trimestre 2020 1 2º trimestre 2020 -2,1 3º trimestre 2020 -3,4 4º trimestre 2020 -4,1 1º trimestre 2021 -3,8 2º trimestre 2021 1,8 Fonte: SCNT – IBGE, 2021. Os dados foram colocados no Statdisk on-line e analisados ao se pressionar a aba Data e a opção Explora Data – Descriptive Statistics. As estatísticas obtidas estão resumidas na Tabela 3. Tabela 3 – Estatísticas da taxa de crescimento trimestral acumulada de quatro trimestres do Brasil Estatística Valor Média - 0,677% Mediana 0,55% Variância 6,55 Desvio-padrão 2,56% 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/15 Amplitude 6,5% Valor mínimo - 4,5% Primeiro quartil - 3,4% Segundo quartil 0,55 Terceiro quartil 1,6 Valor máximo 2 Fonte: elaborada com base em software on-line Statdisk. Nota-se que as taxas de crescimento brasileiras foram bem baixas no período de 2016 a 2021, refletindo a recessão que o país vem passando há anos. A taxa média de crescimento é na verdade negativa– 0,677%, a mediana é positiva e relativamente pequena (0,55%), indicando que a maioria das taxas é positiva, mas baixa. O desvio-padrão de 2,56% indica uma variação considerável das taxas de crescimento do período. A taxa mínima foi de –4,5% no segundo trimestre de 2016, ou seja, período de recessão aguda, e a maior de 2%, relativamente baixa, já que os dados consideram os quatro trimestres anteriores. Essas estatísticas relativamente simples já nos permitem fazer um panorama relativamente detalhado do crescimento brasileiro do período recente. A principal conclusão é que as taxas de crescimento foram negativas ou muito baixas no período, prejudicando o desempenho econômico nacional. TROCANDO IDEIAS Em um fórum de discussão, discuta os problemas que podem surgir da má interpretação de medidas de posição e/ou dispersão da estatística em situações do cotidiano. NA PRÁTICA A lição proposta é acessar o software estatístico Statdisk on-line, como no conteúdo anterior, calcular as medidas de posição e dispersão do conjunto de dados descrito a seguir e interpretar seus resultados. Os dados são a renda familiar per capita das unidades federativas brasileiras em 2019, já explorados em outro momento e expressos na Tabela 4. Tabela 4 – Renda familiar per capita das unidades federativas brasileiras em 2019 - em R$ 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/15 Rondônia 1111 Acre 890 Amazonas 838 Roraima 1050 Pará 795 Amapá 874 Tocantins 1038 Maranhão 637 Piauí 831 Ceará 939 Rio Grande do Norte 1042 Paraíba 909 Pernambuco 954 Alagoas 729 Sergipe 970 Bahia 912 Minas Gerais 1331 Espírito Santo 1440 Rio de Janeiro 1809 São Paulo 1889 Paraná 1586 Santa Catarina 1709 Rio Grande do Sul 1812 Mato Grosso do Sul 1491 Mato Grosso 1361 Goiás 1284 Distrito Federal 2599 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/15 Fonte: PNAD IBGE, 2021. Passos para a realização da atividade: 1. Acesso ao site do Statdisk; 2. Entre em sua conta; 3. O programa vai abrir sua página inicial com uma planilha vazia; 4. Copie e cole as duas colunas descritas anteriormente; 5. Após colar, clique em Data na barra superior e na opção Explore Data – Descriptive Statistics (Explore os dados – Estatísticas Descritivas); 6. Após abrir a janela, clique em Select Column e coloque a opção 2, já que a primeira coluna ficou com o nome das unidades federativas e a segunda com os dados; 7. Clique em Evaluate (Valorar/Calcular) no retângulo verde; 8. Observe, à esquerda, um conjunto de estatísticas descritivas que será calculado para o conjunto de dados e à direita um histograma será apresentado; 9. Entre as estatísticas calculadas, identifique Sample Size n (tamanho amostral n), mean (média), median (mediana), variance (variância), standard deviation (desvio padrão), range (amplitude), minimum (mínimo), 1st quartile (primeiro quartil), 2nd quartile (segundo quartil), 3rd quartile (terceiro quartil), maximum (máximo). Todas são medidas em reais, exceto a variância, que é medida em reais ao quadrado; 10. Interprete essas estatísticas, o que elas dizem sobre a distribuição da renda familiar per capita entre as unidades federativas do Brasil. Caso não disponha de um computador ou não consiga realizar a lição proposta, procure calcular à mão ou em uma calculadora ao menos a média, mediana e desvio-padrão desse conjunto de dados e interprete os resultados. FINALIZANDO Nesta aula aprendemos sobre algumas medidas que nos ajudam a sintetizar características de conjuntos de dados. Essas medidas estão entre os conceitos fundamentais de toda a estatística e são utilizadas em uma variedade de aplicações. Entender a lógica dessas medidas e como interpretá-las é importante para nosso avanço nos próximos conteúdos. 07/06/2022 20:13 UNINTER https://univirtus.uninter.com/ava/web/roa/ 15/15 REFERÊNCIAS PNAD IBGE (2021). PNAD – Pesquisa Nacional por Amostra de Domicílios. Disponível em: <https://www.ibge.gov.br/estatisticas/sociais/rendimento-despesa-e-consumo/9127-pesquisa- nacional-por-amostra-de-domicilios.html?=&t=o-que-e>. Acesso em: 4 set. 2021. SCNT – IBGE (2021). Sistema de Contas Nacionais Trimestrais. Disponível em: <https://www.ibge.gov.br/estatisticas/economicas/contas-nacionais/9300-contas-nacionais- trimestrais.html?=&t=series- historicas&utm_source=landing&utm_medium=explica&utm_campaign=pib#evolucao-taxa>. Acesso em: 7 set. 2021. TRIOLA, M. F. Capítulo 3 – Estatísticas para a descrição, exploração e comparação de dados. In: TRIOLA, M. F. Estatística elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 74-135. 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/15 ESTATÍSTICA APLICADA AULA 3 Prof. Tiago Claudino Barbosa 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/15 CONVERSA INICIAL INTRODUÇÃO À PROBABILIDADE Nesta aula, aprenderemos um pouco sobre a teoria da probabilidade, seus conceitos principais e algumas de suas aplicações na estatística. A estatística inferencial, por se basear em amostras, descreve seus resultados em termos probabilísticos. Esse conteúdo inicialmente não parece ser tão conectado aos conteúdos anteriores, mas, ao final desta aula e de conteúdos posteriores, ficará clara a ligação entre esses tópicos e os tópicos mais diretamente relacionadas à estatística. Os esforços de aprendizado são no sentido de entender: (i) o conceito de probabilidade e outros conceitos iniciais relacionados, (ii) a regra da adição; (iii) probabilidade condicional e a regra da multiplicação; (iv) o que é uma distribuição de probabilidade e (v) o exemplo da distribuição de probabilidade binomial. CONTEXTUALIZANDO É possível observar algum padrão que nos ajude a tirar conclusões a partir de variáveis aleatórias que, a princípio, parecem caóticas? Como considerar resultados aleatórios que são independentes uns dos outros dos que são dependentes? Como tomar decisões com base em variáveis aleatórias? Essas perguntas são abordadas na presente aula e serão relevantes para o entendimento dos demais conteúdos. O objetivo é entender os conceitos e a lógica de interpretação dos resultados, não os cálculos em si. TEMA 1 – CONCEITOS INICIAIS Alguns conceitos iniciais são apresentados por Pinheiro et al. (2009): 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/15 Probabilidade é uma descrição numérica do quão provável é a ocorrência de um evento específico; Espaço amostral é o conjunto de todos os resultados possíveis de uma variável aleatória, um exemplo é o lançamento de um dado, há seis resultados possíveis – 1, 2, 3, 4, 5, 6; Um evento é um subconjunto do espaço amostral de interesse. Por exemplo: quais as possibilidades de ocorrer um número par no lançamento de um dado? - 2, 4, 6; Um evento simples é um resultado do espaço amostral que não pode mais ser subdivido em componentes menores, um exemplo – ao se lançar um dado, obter 1 ponto; Experimento aleatório é quando realizamos tentativas repetidas de processos semelhantes e seus resultados são imprevisíveis, ou seja, são uma variável aleatória; Os conceitos de espaço amostral, evento e evento simples se referem a possibilidades de ocorrência da variável ou resultado de interesse, não diz nada sobre probabilidades de ocorrência (Pinheiro et al., 2009). É importante conhecer todos os resultados possíveis de um experimento aleatório. A probabilidade de um evento ou conjunto de eventos nem sempre é conhecida, se os eventos são todos de mesma probabilidade, como é o caso do lançamento de uma moeda ou de um dado, a probabilidade do evento A é: Considerando o caso do lançamento de um dado, a probabilidade de se obter 3 pontos é: Como os pontos dos dados possuem mesma probabilidade de ocorrer, o cálculo da probabilidade se resume a contar os resultados favoráveis ao evento de interesse, no caso o dadodar 3 pontos, e dividir pelo número de resultados possíveis (espaço amostral), no caso 6. Porém, para a maioria dos fenômenos do mundo real, os eventos ou conjuntos de eventos possíveis não possuem a mesma probabilidade de ocorrência. Essas probabilidades muitas vezes nem 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/15 são conhecidas. É possível aproximar a probabilidade real de um evento por sua frequência relativa de ocorrência em experimentos aleatórios de grande tamanho (Larson, Farber, 2010a). Considerando um experimento aleatório, a probabilidade de A fica: A lógica é que se o experimento tem resultados aleatórios, conforme se aumenta o número de resultados obtidos, mais as frequências relativas se aproximam das probabilidades teóricas do fenômeno, a chamada Lei dos Grandes Números. Lógica é similar ao uso de amostras aleatórias para aproximar a população de interesse. Essa lógica fundamenta a chamada Abordagem Frequencista da Estatística, que aproxima as probabilidades de um fenômeno das frequências relativas de experimentos que tentam analisar esse fenômeno (Larson, Farber, 2010b). O entendimento da teoria das probabilidades junto ao conhecimento da estatística descritiva, explorada nas duas primeiras aulas, formam a base da estatística inferencial. Uma das regras básicas da estatística inferencial é que se, sob uma dada premissa, a probabilidade de um evento em particular é muito pequena, a conclusão é que a premissa é provavelmente incorreta (Triola, 2006). Essa questão ficará bastante clara em conteúdos posteriores. O próximo tópico apresenta casos em que as probabilidades de ocorrência de um evento são ou não afetadas pela ocorrência de outros eventos e como isso afeta os cálculos e interpretações das probabilidades. TEMA 2 – EVENTOS INDEPENDENTES E DEPENDENTES Dois eventos A e B são independentes se a ocorrência de um deles não afeta a probabilidade de ocorrência do outro, se a ocorrência de um deles afeta de alguma forma a probabilidade de ocorrência do outro, trata-se de eventos dependentes (Triola, 2006). A regra da soma postula que a probabilidade de ocorrência de um evento A ou de um evento B como resultado de um experimento é igual a soma das probabilidades desses eventos, descontada a probabilidade de ocorrência simultânea do evento A e do evento B (Pinheiro et al., 2009). 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/15 Os eventos A e B são mutuamente exclusivos se não podem ocorrer ao mesmo tempo. Nesse caso, a probabilidade de ocorrer A ou B é: Um exemplo: qual a probabilidade de, ao se lançar um dado, a pontuação ser 2 e 3? Se não forem mutuamente exclusivos, a probabilidade de A ou B deve descontar a probabilidade de que os eventos ocorram simultaneamente, ou seja: Um exemplo: qual a probabilidade de, ao se lançar um dado, A – obter uma pontuação ímpar e B – uma pontuação maior que 3? Probabilidade de A – pontuação par – 2, 4, 6 P (A) – 3/6 = 0,5 Probabilidade de B – pontuação maior que 3 – 4, 5, 6 P (B) – 3/6 = 0,5 Se eventos fossem independentes, P (A ou B) = 1, ou seja, 100%. Porém há sobreposição entre os eventos e essa probabilidade está superestimada, considerando o espaço amostral 1, 2, 3, 4, 5 e 6 e que eventos têm mesma probabilidade. P (A) ou P (B) mostrada acima não engloba os valores 1 e 3 e considera os valores 4 e 6 duas vezes. O evento A ou B engloba os valores – 2, 4, 5 e 6, logo a probabilidade de pontuação ser par ou ser maior que três é: 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/15 TEMA 3 – PROBABILIDADE CONDICIONAL A probabilidade de ocorrer o evento A na primeira tentativa de um experimento, e de ocorrer o evento B na segunda tentativa é descrita pela regra da multiplicação. A regra da adição, explicada no tema anterior, é descrita pelo termo ou, já a regra da multiplicação pelo termo e, no caso a P (A e B). Um ponto importante a considerar é que a probabilidade do segundo evento B deve levar em conta o fato de que o evento A já ocorreu (Triola, 2006). A regra geral é: Probabilidade de ocorrer A e depois B é igual à probabilidade de ocorrência do primeiro evento A multiplicada pela probabilidade de ocorrência do evento B, dado que A já ocorreu, essa última parte é expressa por P (B|A). Se o evento A e B forem independentes, ou seja, a ocorrência de um deles não afeta positiva ou negativamente a probabilidade de ocorrência do outro, a P (B|A) = 0 e expressão se resume a: Um exemplo é a probabilidade de obter dois números um ao se lançar um dado duas vezes. A probabilidade de se obter 1 em um lançamento é de um sexto, como eventos são independentes, ou seja, o resultado alcançado no primeiro lançamento do dado em nada interfere no resultado do segundo lançamento, a probabilidade de obter dois números 1 ao se lançar duas vezes o dado é de 1/6 * 1/6 = 1/36 = 2,8%, uma probabilidade relativamente baixa. A probabilidade de obter três números 1 em três lançamentos do dado seria 1/6 * 1/6 * 1/6 = 1/216 = 0,5%, muito baixa. Nos casos em que a ocorrência de A afeta a probabilidade de ocorrência de B em seguida, diz-se que são casos de probabilidade condicional, logo a P (B|A) é diferente de zero. 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/15 Ou seja, é a probabilidade de ocorrer A e depois B dividida pela probabilidade de A. É a razão entre a probabilidade de ocorrência conjunta de A e B e a probabilidade geral de A. Um exemplo: ao se lançar um dado uma vez, qual a probabilidade de A – resultado ser um número ímpar e B – resultado ser no mínimo 3 pontos (Pinheiro et al., 2009)? Há três números ímpares possíveis para A – 1, 3, 5 Dos seis números do dado, quatro são iguais ou maiores que 3 – 3, 4, 5, 6 Há dois elementos que sobrepõem A e B – 3 e 5 Considerando que há seis resultados possíveis do lançamento de um dado e todos têm a mesma probabilidade de ocorrer, a probabilidade de, ao se lançar um dado, obter um número ímpar e igual ou maior que três é 2/6 ou 1/3. Aplicando a fórmula: A probabilidade de se obter um número igual ou maior que 3, dado que resultado foi ímpar, é de 2/3. Muitas das técnicas estatísticas combinam resultados de diversas variáveis conhecidas para se obter o resultado e/ou a probabilidade de ocorrência de uma variável que dependa dessas outras. Por exemplo: um meteorologista pode determinar que há 40% de probabilidade de chuva com base na frequência relativa de chuva sob condições climáticas semelhantes às que estão ocorrendo no momento. Saber características do ambiente, como temperatura e umidade do ar, faz com que se estime com maior precisão a probabilidade de ocorrência de chuva em determinado dia (Larson, Farber, 2010b). TEMA 4 – DISTRIBUIÇÃO DE PROBABILIDADE Uma distribuição descreve a probabilidade de cada valor possível de uma variável aleatória. Esta deve cobrir todos os resultados possíveis, acumulando 100% das probabilidades, e o valor da 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/15 probabilidade de um valor específico ou intervalo de valores é zero ou positivo, nunca negativo (Pinheiro et al., 2009). Muitas distribuições de probabilidade, na estatística, são descritas por gráficos, tabelas ou por funções que possuem como variável independente o valor da variável de interesse X e variável dependente a probabilidade de ocorrência do valor de X específico (Triola, 2006). Algumas das principais distribuições utilizadas pela estatística e suas derivações serão estudadas mais adiante e em conteúdos posteriores. É importante conhecer a forma, o centro e a variabilidade de uma distribuição de probabilidade para que se possa tomar decisões baseadas em inferências estatísticas (Larson, Farber, 2010b). O conhecimento desses parâmetros das distribuições de probabilidade é fundamental para o uso de técnicas de estatística inferencial. As variáveis aleatórias descritas podem ser tanto discretasquanto contínuas. Uma variável aleatória discreta é uma com resultados contáveis, com números geralmente inteiros, que podem ser finitos ou infinitos; já variáveis aleatórias contínuas têm infinitos valores associados, mesmo que sua amplitude seja finita, já que cada subintervalo pode ser dividido em infinitos números e as escalas não têm vazios ou saltos – esse tipo de variável geralmente está associado a mensurações (Pinheiro et al., 2009). O valor esperado de uma variável aleatória discreta E é a média dos valores ponderados pelas suas probabilidades de ocorrência e seria como sua média, no caso: A variância e o desvio-padrão de distribuições de probabilidade discretas possuem as seguintes fórmulas: 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/15 O caso para variáveis contínuas exige o conhecimento de ferramentas matemáticas mais avançadas, ficando fora do escopo dessa aula o conhecimento de suas fórmulas, porém as distribuições mais utilizadas da estatística já possuem suas distribuições bem analisadas e incorporadas nos diferentes softwares estatísticos, tornando cálculos desse tipo desnecessários. Em muitos casos da estatística, e mesmo da vida real, não sabemos a distribuição de probabilidade detalhada do fenômeno que estamos analisando. Contudo, podemos aproximar, considerando a frequência relativa observada dos resultados (Larson, Farber, 2010b). Considerando o exemplo do lançamento de um dado, o espaço amostral consiste de seis elementos – 1, 2, 3, 4, 5, 6 com igual probabilidade de ocorrência. A distribuição de probabilidade desse fenômeno está expressa na tabela 1 e no gráfico 1. Tabela 1 - Tabela de probabilidades de lançamento de um dado Pontuação do dado Probabilidade 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 Fonte: Barbosa, 2021. Os dados no gráfico foram arredondados para três casas decimais. Gráfico 1 - Gráfico de probabilidade do lançamento de um dado 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/15 Fonte: Barbosa, 2021 Como a probabilidade de ocorrência é igual para qualquer valor da pontuação dos dados, o gráfico de barras tem o formato de um retângulo. Raramente os fenômenos do mundo real são assim, com probabilidades uniformes para toda a escala de valores possível, em geral, as distribuições de probabilidade são bem mais complexas. Um exemplo de distribuição mais complexa seria a soma da pontuação do lançamento de dois dados, o espaço amostral vai de 2 a 12, já que valor mínimo de cada dado é 1, logo a soma mínima do lançamento de dois dados é 2 e a soma máxima é 12, já que valor máximo por dado é 6. Contudo, a probabilidade de ocorrência dos valores difere, como pode ser visto na tabela 2 e no gráfico 2. Tabela 2 - Tabela de probabilidades da soma do lançamento de dois dados Valor da soma Probabilidade 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/15 11 2/36 12 1/36 Fonte: elaborado com base em Pinheiro et al., 2009. Fica claro que a probabilidade de ocorrência dos valores da variável X diferem entre si. O gráfico 2 mostra visualmente os dados da tabela 2. Os resultados foram arredondados para três casas decimais. Gráfico 2 - Gráfico de probabilidade da soma do lançamento de dois dados Fonte: elaborado com base em Pinheiro et al., 2009. Essa distribuição de probabilidades é bem diferente da distribuição de quando se lança um dado. O caso da soma do lançamento de dois dados está bem longe de ser uma distribuição de probabilidade uniforme, já que ela varia substancialmente, com probabilidades maiores nos valores do meio da escala do que nos valores das pontas. A seguir apresentamos a primeira distribuição de probabilidade utilizada com certa frequência na estatística. TEMA 5 – DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL A distribuição de probabilidade binomial descreve variáveis aleatórias que podem ser divididas em duas categorias, como sim ou não, aceitável ou defeituoso, votou em X ou não votou em X, cara ou coroa. Em geral, se classificam os resultados em sucessos e fracassos, sem necessariamente uma 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/15 valoração subjetiva que um sucesso é algo positivo e um fracasso é algo negativo. Duas exigências dessa distribuição é que cada elemento seja independente, ou seja, obter um resultado individual não afeta a probabilidade de se obter o mesmo resultado ou algum outro resultado específico nas outras tentativas e que a probabilidade de obter um sucesso é a mesma para cada tentativa, ou seja, ela se mantém constante (Triola, 2006). A função abaixo descreve a distribuição de probabilidade binomial. Na qual: p é a probabilidade de sucesso q é a probabilidade de fracasso (1-p) n é o número de tentativas X é o número específico de sucessos em n tentativas P (x) é a probabilidade de obter exatamente X sucessos em n tentativas ! fatorial é a multiplicação de fatores decrescentes, exemplo 4! = 4*3*2*1 = 24 Analisar a fórmula dessa distribuição não é relevante para nós, nosso foco é saber sua aplicação e interpretar seus resultados. Abaixo estão as fórmulas que descrevem a média, variância e desvio- padrão da distribuição binomial. Os valores das probabilidades são expressos em decimais. Um exemplo é: qual a chance de obter exatamente sete jurados de origem mexicana entre os doze jurados de um tribunal 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/15 selecionados aleatoriamente de uma população que é 80% de origem mexicana em uma localidade dos EUA (Triola, 2006)? Se formos pela lei da multiplicação de probabilidades e considerarmos a seleção dos jurados independentes uma das outras, o cálculo seria (0,8 = 0,21 ou 21% de chance. Porém, nesse caso não é o valor correto porque assume que os sete primeiros jurados são de origem mexicana e os últimos cinco dos doze não são, mas diversos outros arranjos são possíveis para sete jurados de origem mexicana, e cinco, não. Tomando a distribuição binomial, essa probabilidade cairia para 0,053 ou 5,3% de obter exatamente sete jurados de origem mexicana entre os 12 jurados do tribunal, o valor real é quase um quarto da probabilidade estimada pela lei da multiplicação. Se formos calcular os parâmetros da distribuição desse exemplo, no caso média, variância e desvio-padrão, obteríamos: p - a probabilidade de sucesso é 0,8, no caso, obter um cidadão de origem mexicana em uma seleção aleatória de uma população que é 80% dessa origem; q - a probabilidade de fracasso 0,2, a probabilidade de não se obter um cidadão de origem mexicana em uma seleção aleatória de uma população que é 80% de origem mexicana; n – número de tentativas é 12, já que são 12 jurados selecionados aleatoriamente para compor o júri; Os cálculos abaixo se referem à média, variância e desvio-padrão desse exemplo: = 12*0,8 = 9,6 = 12*0,8*0,2 = 1,92 = 1,38 Para as 12 tentativas desse experimento, a média de sucessos obtidos (cidadãos de origem mexicana selecionados aleatoriamente para o júri) é de 9,6, a variância de 1,92 selecionados para o júri ao quadrado e o desvio-padrão de 1,38 pessoas de origem mexicana selecionadas para o júri. TROCANDO IDEIAS 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/15 Em um fórum de discussão, comente e reflita sobre mais casos práticos em que as regras da adição e da multiplicação para as probabilidades se aplicam, tanto para eventos independentes quanto dependentes. NA PRÁTICA Suponha que um teste de sangue para a detecção de uma doença tenha duas possibilidades de dar resultados enganosos. Primeiro: há uma probabilidade de 3% de o teste dar um resultado falso positivo – quando o exame diz que a pessoa tem a doença quando na verdade ela não tem – e uma probabilidade de 4% de dar falso negativo – quando o exame aponta que a pessoa não tem a doença em questão quandona verdade ela tem. Resultados falsos positivos e falsos negativos são mutuamente excludentes, ou seja, não podem ocorrer ao mesmo tempo para o mesmo exame. Com base nesses dados: 1. Calcule a probabilidade de um teste selecionado aleatoriamente ter resultados enganosos. 2. Se selecionarmos 50 testes aleatoriamente, qual o número esperado de testes que darão resultados enganosos, seja falso positivo ou falso negativo? FINALIZANDO A presente aula abordou alguns conceitos fundamentais da teoria da probabilidade, que são importantes para o entendimento das técnicas e da lógica da estatística inferencial, foco de conteúdos posteriores, em especial o conceito de distribuição de probabilidade. REFERÊNCIAS LARSON, R.; FARBER, B. Capítulo 3 - Probabilidade. In:__ Estatística Aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010a, p. 104-153. LARSON, R.; FARBER, B. Capítulo 4 – Distribuições de Probabilidade Discretas. In:__ Estatística Aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010b, p. 154-191. 07/06/2022 20:14 UNINTER https://univirtus.uninter.com/ava/web/roa/ 15/15 PINHEIRO, J. I. D.; DA CUNHA, S. B.; CARVAJAL, S. R.; GOMES, G. C. Capítulo 3 – Introdução ao cálculo de probabilidades. In:__ Estatística Básica: a arte de trabalha com dados. São Paulo: Elsevier, 2009, p. 70-94. TRIOLA, M. F. Capítulo 5 – Distribuições de probabilidade. In: TRIOLA, M. F. Estatística Elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 198-243. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/14 ESTATÍSTICA APLICADA AULA 4 Prof. Tiago Claudino Barbosa 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/14 CONVERSA INICIAL Nesta aula, vamos aprender a principal distribuição de probabilidade utilizada na estatística, a distribuição normal, suas propriedades e como ela dá base para as técnicas e conceitos da estatística inferencial. Relembrando que a estatística inferencial busca realizar generalizações sobre alguma característica de uma população a partir de dados obtidos de uma amostra representativa. Os esforços de aprendizado são no sentido de compreender: (i) o que é a distribuição normal; (ii) que fenômenos ela descreve; (iii) o que é a distribuição amostral e sua ligação com a distribuição normal; (iv) que parâmetros podem ser estimados de forma precisa por estatísticas amostrais; e (v) o que são estimadores pontuais. CONTEXTUALIZANDO Qual é a distribuição de probabilidade de algumas das principais variáveis do mundo real? Como se fundamentam as inferências de uma amostra sobre uma população? Que parâmetros podemos gerar inferências e quais não? Algumas dessas perguntas serão abordadas nesta aula que foca a estatística inferencial. O objetivo é entender os conceitos e aprender a interpretar os resultados, e não os cálculos em si, que hoje em dia são facilmente realizados em softwares estatísticos. TEMA 1 – A DISTRIBUIÇÃO NORMAL A distribuição mais utilizada na estatística é chamada distribuição normal, que descreve vários fenômenos do mundo real e é fundamental para a estatística inferencial. A fórmula dessa distribuição é a seguinte: 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/14 em que e é aproximadamente 2,718 e π é igual a 3,14 e são constantes; logo, são os parâmetros σ e µ, sua média e desvio-padrão que determinam o formato da curva normal. A média fica no exato ponto central da escala X e localiza a linha de simetria da distribuição, e o desvio-padrão mostra o quanto os dados são estendidos ao longo do eixo X (Larson; Ferber, 2010). A distribuição normal é uma distribuição de probabilidade contínua, que possui algumas propriedades: a média, a mediana e a moda são iguais e se localizam no centro da distribuição; a curva da distribuição tem forma de sino e é simétrica em torno da média; a área total sob a curva normal é igual a um; à medida que se distancia da média, a curva se aproxima do eixo X, mas nunca o toca, ou seja, a probabilidade de ocorrência vai diminuindo e tendendo a zero, mas não chega a ser zero (Larson; Ferber, 2010); A Figura 1 mostra o gráfico da distribuição normal e suas características. Figura 1 − Gráfico da distribuição normal 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/14 Crédito: Peter Hermes Furian / Adobe Stock. A média, a mediana e a moda são do mesmo valor, localizado no meio da distribuição em µ. Os dados se concentram ao redor da média, e quanto mais nos afastamos da média, tanto para a esquerda quanto para a direita, menor a probabilidade de ocorrência desses valores. Cerca de 68,2% dos dados da distribuição ocorrem a um desvio-padrão para esquerda ou para a direita da média, ou seja, quase 70%. Se formos considerar dois desvios-padrão para a esquerda ou para a direita da média, a probabilidade acumulada sobe para quase 95%. A três desvios-padrão para a esquerda ou direita, acumulam-se 99,7% da probabilidade, ou seja, valores acima de três desvios-padrão da média, tanto para cima quanto para baixo, são bastante raros. Como foi dito, a distribuição normal é uma distribuição contínua. A área total sob a curva é igual a 1, englobando todas as probabilidades. A probabilidade de ocorrência de cada intervalo de valores vai de 0 (impossível) a 1. O Gráfico 1 mostra um histograma de mil dados gerados aleatoriamente de acordo com a distribuição normal com média 100 e desvio-padrão 10. Gráfico 1 − Exemplo de um histograma de uma distribuição normal com valores gerados por computador Crédito: Elaborado pelo autor 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/14 Notamos o formato de sino das barras, a expressão curva de sino é sinônima da curva que se obtém em um gráfico da distribuição normal. Plotar e analisar um histograma da variável de interesse é uma das formas de se examinar se um conjunto de dados parece seguir uma distribuição normal ou não. De modo a não ser necessário utilizar a complexa fórmula da distribuição normal para se encontrar a probabilidade de ocorrência de valores ou intervalos de valores específicos, foi criada a chamada distribuição normal padrão. Trata-se de uma distribuição normal com média 0 e desvio- padrão 1, para a qual os cálculos de probabilidade já foram tabulados e se encontram prontamente em softwares estatísticos. É possível transformar uma distribuição normal qualquer em uma distribuição padrão ao se calcular o chamado escore Z de cada valor de X. Vamos exemplificar. A escala de QI (quociente de inteligência) é uma das formas de mensuração da inteligência humana, porém não a única. Em geral, os testes são feitos de modo a terem média 100 e desvio-padrão 15. Uma pessoa com QI de 125 está a quantos desvios-padrão da média? Para obter essa informação, calculamos o escore Z de um QI de 125. O resultado é que essa pessoa está a 1,667 desvio-padrão acima da média. A partir das tabelas de probabilidade da distribuição normal padrão, sabe-se que ela está entre os 5% de maior QI em uma população. É possível calcular a probabilidade de ocorrência de um valor ou intervalo de valores de uma distribuição normal ao se padronizar o valor de X desejado e se calcular qual a probabilidade a partir de softwares estatísticos. Usando o Statdisk, primeiro calcule o valor do escore Z e defina se o objetivo é encontrar probabilidade de um intervalo de valores ou valores mais ou menos extremos do que esse. Supondo hipoteticamente que a altura média de homens adultos é 1,8 metro com desvio-padrão de 0,2 metro, qual é a probabilidade de se selecionar aleatoriamente um homem com 1,6 metro ou menos? Para obter esse valor, é preciso calcular o escore Z de 1,6 metro (no caso, -1) e calcular a probabilidade de Z ser igual ou menor que -1. Clique em Analysis e, na primeira opção, Probability Distributions, em seguida clique na primeira opção Normal Distribution. Na caixa Z valuecoloque o valor do escore Z (-1) e clique em Evaluate. Uma série de valores aparecerão à direita. Na quarta linha Left, aparece a probabilidade em termos decimais de valor ser menor ou igual ao escore 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/14 Z específico − no caso, 0,159, em percentual 15,9%, de chance de um homem selecionado aleatoriamente ter 1,6 metro ou menos. Se nossa pergunta fosse a probabilidade de um homem selecionado aleatoriamente ter altura igual ou maior que 1,6 metro, a opção seria a da quinta linha, Right − no caso, 0,841 ou 84,1% de probabilidade de um homem selecionado aleatoriamente ter 1,6 metro de altura ou mais. TEMA 2 – EXEMPLOS DA DISTRIBUIÇÃO NORMAL Há diversas variáveis do mundo real que tendem a seguir uma distribuição normal, tais como o tamanho de partes do corpo de pessoas do mesmo sexo e idade, variáveis metabólicas do corpo humano e animal, a altura de pessoas adultas etc. A distribuição normal pode servir como uma aproximação da distribuição de probabilidade binomial quando o tamanho da amostra não é muito pequeno. O cálculo da probabilidade de X sucessos com base na fórmula binomial é trabalhoso, em especial quando o valor de n e o de X são grandes; assim, a aproximação pela distribuição binomial, com cálculos mais fáceis e padronizados, pode ser muito útil (Larson; Ferber, 2010). As condições para essa aproximação são as seguintes: se np ≥ 5 e nq ≥ 5, a variável aleatória X pode ser aproximada pela distribuição normal com média µ = np e desvio-padrão σ = . Quanto maior o valor de n, mais a distribuição binomial se aproxima de uma distribuição normal (Larson; Ferber, 2010). Vamos exemplificar. Se quisermos descobrir a probabilidade de obter ao menos 55% de homens ao selecionarmos aleatoriamente 200 pessoas para compor nossa amostra de uma população que é de 50% de homens e 50% de mulheres, o cálculo pela fórmula da distribuição binomial seria trabalhoso e repetitivo. A aproximação com a distribuição normal facilita isso. µ − 100 homens (50% de 200) X – 110 homens (55% de homens na amostra de 200) σ – 7,1 homens ( 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/14 A probabilidade de obtermos ao menos 110 homens na nossa amostra é de 8,1% (valor à direita de Z = 1,4), uma probabilidade relativamente baixa. TEMA 3 – A DISTRIBUIÇÃO AMOSTRAL A distribuição amostral de uma estatística se refere à distribuição de todas as estimativas possíveis tiradas de diversas amostras de mesmo tamanho obtidas da mesma população. Equivale repetir a coleta de dados da mesma população infinitas vezes com amostras de mesmo tamanho n. Apesar de inúmeras estatísticas poderem ser calculadas para uma amostra, apenas quatro delas são boas estimadoras dos parâmetros populacionais – média, proporção, variância e outra que é um bom estimador em grandes amostras, o desvio-padrão. Isso se deve à sua distribuição amostral que, sob determinadas condições, pode ser aproximada por uma distribuição normal, que possui propriedades conhecidas que permitem inferências sólidas (Triola, 2006). Um bom estimador tem duas propriedades básicas (Sartoris, 2006): 1) ele não é viesado, ou seja, a média das médias das diferentes amostras é igual à média populacional do parâmetro; 2) dentro dos estimadores não viesados, ele é o que possui a menor variância, propriedade conhecida como eficiência. À medida que o tamanho da amostra aumenta, a distribuição amostral de estimadores não viesados tende a se tornar uma distribuição normal. Na prática, as estatísticas que são bons estimadores dos parâmetros populacionais são a média, a variância e a proporção. O desvio-padrão não é um estimador não viesado diretamente, mas pode ser aproximado se a amostra for relativamente grande. Outras estatísticas como a mediana e a amplitude não são bons estimadores dos parâmetros populacionais (Triola, 2006). A distribuição amostral das médias das amostras tem média igual à média populacional: 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/14 Ela tem a seguinte variância e desvio-padrão (o desvio padrão é também conhecido como erro padrão da média): O parâmetro é geralmente um valor fixo para a população e desconhecido, já o valor do estimador depende dos valores obtidos em cada amostra, ou seja, o estimador é uma variável aleatória que segue uma distribuição de probabilidade (Sartoris, 2006). A estatística inferencial busca generalizar com segurança as conclusões obtidas a partir de uma amostra para toda a população e quantificar as probabilidades de erro envolvidas no processo de extrapolar da parte para o todo (Pinheiro et al., 2009). Um erro muito comum é pensar que a amostra deve conter uma proporção significativa da população analisada. Na verdade, isso não é necessário, o importante é garantir a aleatoriedade na seleção dos componentes da amostra e um n absoluto adequado; não se trata de se obter uma parcela X da população (Triola, 2006). Se amostras de tamanho n ≥ 30 tiradas de uma população com média µ e desvio-padrão σ, a distribuição amostral de médias das amostras se aproxima da distribuição normal; quanto maior o n, maior a aproximação da distribuição amostral com a distribuição normal. Se a população original for normalmente distribuída, a distribuição amostral de médias das amostras é normalmente distribuída para qualquer amostra de tamanho n. Esse é o chamado Teorema do Limite Central, uma das bases da estatística inferencial. Teorema do Limite Central 1. Se o tamanho da amostra é 30 ou mais unidades, a média amostral segue uma distribuição normal, mesmo que a distribuição de probabilidade da população original se afaste da distribuição normal. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/14 2. Se a população original for normalmente distribuída, a distribuição amostral será normal, não importa o tamanho da amostra. 3. Se a amostra for menor do que 30 e a população original não seguir uma distribuição normal, os métodos aqui expostos não se aplicam (Triola, 2006). O Teorema do Limite Central diz que se tamanho amostral for grande o suficiente, a distribuição das médias amostrais pode ser aproximada por uma distribuição normal, não importa qual seja a distribuição de probabilidade da variável original (Triola, 2006). A média aqui citada não é somente o parâmetro média, mas a média das proporções, variâncias e desvios-padrão obtidos nas diferentes amostras. Como dito anteriormente, cada amostra nos dá um valor para o estimador, e como diversas amostras são possíveis e levam a valores de estatísticas diferentes, o estimador é uma variável aleatória. As diferenças entre a média da população e as médias obtidas nas amostras são o chamado erro amostral. TEMA 4 – PARÂMETROS APROXIMÁVEIS Há algumas estatísticas amostrais que são estimadores não viesados e eficientes dos parâmetros populacionais, porém não são todas. Utilizando-se o exemplo de uma população com valores 1, 2 e 5 e feita com reposição, pode-se obter nove amostras diferentes de dois elementos. A partir do cálculo das principais estatísticas apresentadas anteriormente, calcula-se a média das amostras, ou seja, a distribuição amostral e se vê que para a média, a variância e a proporção, as estatísticas amostrais são bons estimadores dos parâmetros populacionais, como pode ser visto na Tabela 1. Tabela 1 − Parâmetros que são estimados sem viés por estatísticas Amostra Média Variância Proporção de números ímpares 1,1 1,2 1,5 2,1 2,2 1 1,5 3 1,5 2 0 0,5 8 0,5 0 1 0,5 1 0,5 0 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/14 2,5 5,1 5,2 5,5 3,5 3 3,5 5 4,5 8 4,5 0 0,5 1 0,5 1 Média da estatística 8/3 26/9 2/3 Parâmetro populacional 8/3 26/9 2/3 A estatística amostral atinge o valor populacional? Sim Sim Sim Fonte: Triola, 2006. A média dos valores das amostras possíveis é igual ao valor do parâmetro.Já outras estatísticas, como a mediana, a amplitude e o desvio-padrão, não são bons estimadores do parâmetro populacional, no sentido de serem não viesados, conforme pode ser visto na Tabela 2. Tabela 2 − Parâmetros que são estimados com vieses por estatísticas Amostra Mediana Amplitude Desvio-padrão 1,1 1,2 1,5 2,1 2,2 2,5 5,1 5,2 5,5 1 1,5 3 1,5 2 3,5 3 3,5 5 0 1 4 1 0 3 4 3 0 0 0,707 2,828 0,707 0 2,121 2,828 2,121 0 Média da estatística 8/3 16/9 1,3 Parâmetro populacional 2 4 1,7 A estatística amostral atinge o valor populacional? Não Não Não Fonte: Triola, 2006. Contudo, a média do desvio-padrão não difere tanto do valor do desvio-padrão populacional, sendo assim um estimador razoável se o tamanho da amostra for relativamente grande. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/14 Portanto, se a amostra for relativamente grande, o valor amostral da média, variância, proporção e desvio-padrão são bons estimadores da média, variância, proporção e desvio-padrão populacional. Esses valores amostrais, chamados de estimadores pontuais, são as melhores estimativas que temos. Por isso, as pesquisas de intenção de voto são fidedignas ao apontar as proporções de voto de um candidato. O mesmo ocorre para o desempenho acadêmico médio dos estudantes de uma escola, aproximado pela média do valor obtido em testes aplicados a uma amostra aleatória de estudantes, e para a análise, por exemplo, de qual máquina produz peças com menor variabilidade, ou seja, peças que seguem melhor o padrão adotado, aproximada pela variância ou o desvio-padrão. Estatísticas que são bons estimadores nem sempre acertam o valor dos parâmetros populacionais; essa diferença entre o valor amostral e o populacional é chamado de erro amostral. Não é possível saber se estamos cometendo esse erro e qual é o seu valor real, já que parâmetro é desconhecido, porém podemos estimar probabilisticamente o tamanho desse erro dentro de alguma margem de probabilidade, algo que será explorado posteriormente (Pinheiro et al., 2009). TEMA 5 – EXEMPLOS DE ESTIMADORES PONTUAIS Como dito anteriormente, para alguns parâmetros populacionais as estatísticas amostrais são os melhores estimadores, mas não para todos. A média, a variância, a proporção e o desvio-padrão para grandes amostras são as melhores estimativas que temos de seus correspondentes parâmetros, que são em geral desconhecidos. O Quadro 1 traz alguns exemplos de casos hipotéticos de estatísticas amostrais obtidas de amostras aleatórias que permitem estimar o valor dos parâmetros desconhecidos. Por enquanto, ignore questões como distribuição dos dados amostrais e tamanho da amostra, aspectos que serão trabalhados mais adiante. Quadro 1 − Exemplos hipotéticos de interpretação de estatísticas amostrais Estatísticas amostrais e sua interpretação A média obtida em uma amostra do peso de pessoas adultas foi de 70 kg; como a amostra foi aleatória e relativamente grande, pode-se inferir que o peso médio da população estudada é de cerca de 70 kg. A mediana da mesma amostra acima foi de 68 kg; apesar de a amostra ser aleatória e grande, não é possível inferir se a mediana populacional é 68 kg ou não porque a mediana amostral é um estimador viesado da mediana populacional. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/14 Uma pesquisa de intenção de votos identificou que 50% dos respondentes pretendem votar no candidato A; como a amostra foi aleatória e grande, essa proporção amostral de 50% é a melhor estimativa disponível da proporção populacional. Pode-se concluir que esse candidato tem cerca da metade das intenções de voto e tem chances de vencer a eleição. Em uma pesquisa sobre a produção de um equipamento industrial de uma empresa, identificou-se que a variância do peso das peças era de 0,02 kg, uma margem aceitável segundo os padrões dessa indústria; a variância amostral de 0,02 kg é a melhor estimativa que temos da variância populacional desconhecida. O controle de qualidade de processos em empresas envolve medidas estatísticas, como a média de determinados atributos dos produtos vendidos dentro do padrão, a variância e o desvio-padrão dessas propriedades para medir a variabilidade entre os itens produzidos, a proporção de produtos defeituosos e fora do padrão etc. Obter amostras aleatórias fidedignas é fundamental para esse processo de controle de qualidade e garantia de certificações técnicas diversas. Crédito: Elaborado pelo autor Conforme podemos ver nesses exemplos, para alguns parâmetros as estatísticas correspondentes são as melhores estimativas disponíveis do valor deles. Nesses casos, as estatísticas amostrais brutas são chamadas de estimadores pontuais dos parâmetros, pois fornecem um valor pontual de estimativa. Apesar de serem estimadores não viesados e de menor variância, estimadores pontuais não dizem nada sobre o quanto suas estimativas são precisas, e essa é sua principal falha. Posteriormente, vamos aprender a construir formas de se obter um intervalo de valores com alta probabilidade de conter o verdadeiro valor do parâmetro e suas exigências. Por ora, enfatizamos a importância de as amostras serem aleatórias para que a estatística inferencial possa ocorrer, mas mais adiante veremos que há outras condições necessárias à realização de inferências a partir de amostras. TROCANDO IDEIAS Em um fórum de discussão, debata sobre que conclusões podemos ou não tirar de estatísticas amostrais, como a média, a mediana, a proporção, variância e o desvio-padrão de parâmetros, obtidas de amostras aleatórias. NA PRÁTICA A tarefa proposta é julgar a validade das seguintes afirmações e justificar sua resposta: 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/14 A. Coletamos uma amostra não aleatória e identificamos que 50% dos respondentes preferem comprar em lojas em que já tenham adquirido o mesmo item anteriormente. Podemos concluir que a maioria das pessoas é relativamente conservadora em relação ao consumo e preferem comprar nas mesmas lojas que já tenham comprado o mesmo item? B. Em uma amostra aleatória e grande, é confiável basear nossas conclusões na mediana amostral obtida? C. Em uma amostra aleatória e grande, é confiável basear nossas conclusões sobre uma população com base na média e na variância amostrais obtidas? D. Se a média obtida de uma amostra aleatória e grande indica que o peso dos sacos de cimento produzidos em uma linha de produção está acima do valor especificado na embalagem, é possível concluir que os equipamentos estão desregulados? O fabricante dos equipamentos diz que a variação está dentro do normal. (A resposta está no final da aula.) FINALIZANDO A presente aula descreveu a distribuição normal e fundamentou a capacidade de a estatística inferencial realizar generalizações sobre alguns parâmetros populacionais a partir de dados amostrais. Essas questões serão aprofundadas posteriormente, além de serem introduzidas as duas principais ferramentas da estatística inferencial: a estimação intervalar de parâmetros e o teste de hipóteses. REFERÊNCIAS LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010. PINHEIRO, J. I. D. et al. Estatística básica: a arte de trabalha com dados. São Paulo: Elsevier, 2009. SARTORIS, A. Estatística e introdução à econometria. São Paulo: Saraiva, 2008. TRIOLA, M. F. Estatística elementar. 10. ed. Boston: Pearson Prentice Hall, 2006. RESPOSTAS 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/14 Lembre-se de que somente amostras aleatórias geram resultados confiáveis para a estimativa dos valores dos parâmetros, isso é fundamental; quanto maiores elas forem, mais precisos serão os resultados. Outro ponto é que somente podemos julgar se um valor estipulado para um parâmetro está incorreto se realizarmos um teste estatístico completo que, além de precisar da estatísticaque representa o parâmetro, exige outros dados como variância da estimativa e valores críticos. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/14 ESTATÍSTICA APLICADA AULA 5 Prof. Tiago Claudino Barbosa 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/14 CONVERSA INICIAL Nesta aula, aprofundaremos nosso conhecimento nos dois principais tópicos da estatística inferencial: (i) a estimação de parâmetros e o grau de confiabilidade dessas estimativas; e (ii) o teste de hipóteses sobre o valor dos parâmetros populacionais. Os conceitos da aula anterior de estimador, distribuição amostral e estimador pontual serão importantes para o entendimento desta aula. Os esforços de aprendizado são no sentido de entender: (i) o que são intervalos de confiança e como interpretá-los; (ii) como realizar testes de hipóteses estatísticas; e (iii) como interpretar testes de hipóteses. CONTEXTUALIZANDO Quão precisas são as estimativas de um parâmetro populacional tiradas de uma amostra aleatória? Como testar com base em dados amostrais o valor de um parâmetro? Essas perguntas serão abordadas na presente aula, que tem como foco os dois principais tópicos da inferência estatística: a estimação do valor de parâmetros e o teste de hipóteses estatísticas. TEMA 1 – ESTIMADOR PONTUAL Conforme a aula anterior, somente alguns parâmetros populacionais podem ser estimados de forma não viesada com base em dados amostrais, no caso a média, a proporção e a variância de uma população. O desvio padrão pode ser aproximado se a amostra for relativamente grande, mas outros parâmetros, como a mediana e a amplitude, não podem ser estimados com precisão com base em amostras. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/14 O problema de se utilizar estimadores pontuais como esse é que eles não nos indicam quão boas e precisas essas estimativas são. Para superarmos essa limitação, podemos construir um intervalo de valores ao redor da estimativa pontual que tenha uma grande probabilidade de incluir o verdadeiro valor do parâmetro populacional. Dois conceitos importantes são o nível de significância e o nível de confiança. O nível de confiança indica a probabilidade de que o processo de estimação do intervalo contenha o verdadeiro valor do parâmetro. A sua interpretação é muitas vezes enganosa, pois um nível de confiança de 95% não indica que há 95% de probabilidade de um intervalo de confiança específico conter o verdadeiro valor populacional, por exemplo. Uma vez definido o intervalo, ou ele contém o verdadeiro valor do parâmetro ou não, não é uma questão probabilística. Como o valor do parâmetro é desconhecido, nunca sabemos se um intervalo de confiança específico contém o verdadeiro valor do parâmetro ou não (Pinheiro et al., 2009). O nível de confiança é sobre o processo de estimação. Suponha que se retirem 100 amostras aleatórias de tamanho n da mesma população e se calculem os 100 intervalos de confiança. Um nível de confiança de 95% nos diz que dos 100 intervalos, esperamos que 95 deles contenham o verdadeiro valor do parâmetro populacional. O nível de significância α (alfa) é a probabilidade de um erro amostral maior que o contido no intervalo de confiança, é o complemento do nível de confiança. Ou seja, a probabilidade de que o intervalo não contemple o real valor do parâmetro, em geral fixado em 5% ou 1%, também se trata de uma propriedade de amostras repetidas, assim como o nível de confiança (Pinheiro et al., 2009). O intervalo é construído pela adição e subtração do valor da margem de erro d em relação ao valor do parâmetro θ (Pinheiro et al., 2009). A probabilidade de o valor do parâmetro estar entre a estimativa pontual e mais ou menos a margem de erro em amostras repetidas é igual a 1 – α, o nível de confiança. Os dois próximos tópicos mostram como estimamos esse valor d da margem de erro e como se interpretam seus resultados para a estimação da média, proporção, variância e desvio padrão de populações. 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/14 TEMA 2 – INTERVALO DE CONFIANÇA Em geral, escolhe-se um nível de confiança de 95% ou 99%, logo, um nível de significância de 5% ou 1%. O nível de significância é dividido para as duas caudas da distribuição α/2 e seus valores padronizados são chamados de valores críticos. Um intervalo de confiança simplesmente calcula uma margem de erro para mais ou para menos em relação ao valor do estimador pontual. No caso da média populacional, nossa melhor estimativa pontual é a média amostra . A tabela 1 a seguir mostra a fórmula da margem de erro se o desvio padrão populacional for conhecido, o que raramente ocorre na prática, e se o desvio padrão for desconhecido, nesse último caso, os valores críticos seguem uma distribuição T, que é similar a Z (normal padrão). Tabela 1 – Margem de erro da média populacional Margem de erro se σ conhecido Margem de erro se σ desconhecido E é a margem de erro Z é a distribuição normal padronizada α/2 é o nível de significância bicaudal Zα/2 é o valor crítico positivo e negativo conforme nível de significância bicaudal σ é o desvio padrão populacional n é o tamanho da amostra E é a margem de erro T é a distribuição T α/2 é o nível de significância bicaudal Tα/2 é o valor crítico positivo e negativo conforme nível de significância bicaudal s é o desvio padrão amostral n é o tamanho da amostra Construindo um intervalo de confiança para a média populacional: 1. Verifique se o tamanho amostral é maior que 30, se for menor e a população original parecer ser normalmente distribuída, a amostra é adequada; 2. Se o valor da variância populacional for desconhecido, como geralmente é, ache o valor crítico bicaudal da distribuição T conforme o número de graus de liberdade da amostra, calculado por n-1. Se o valor da variância populacional for conhecido, a distribuição utilizada é a normal padronizada Z e o valor crítico não depende dos graus de liberdade, é obtido diretamente; 3. Calcule a margem de erro conforme alguma das fórmulas acima; 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/14 4. Calcule o valor da margem de erro e adicione e subtraia do valor da média amostral para obter os limites do intervalo de confiança. Suponha que você coletou dados sobre a renda per capita de 100 pessoas selecionadas aleatoriamente. A média obtida foi de R$ 1.000 e o desvio padrão amostral de R$ 100. Calculando o intervalo de confiança com 5% de significância no software Statdisk: O desvio padrão populacional não é conhecido, o valor crítico buscado segue a distribuição T com (n-1) 99 graus de liberdade. E = R$ 19,84 980,16 < µ < 1019,84 Com 95% de confiança, pode-se dizer que a média populacional da renda per capita da população estudada está entre R$ 980 e R$ 1020. TEMA 3 – INTERVALO DE CONFIANÇA, PROPORÇÃO, VARIÂNCIA E DESVIO PADRÃO Neste tema, estimaremos uma proporção populacional. As condições para a aproximação da distribuição binomial pela distribuição normal são satisfeitas. Uma estatística de proporção tirada de uma amostra aleatória com ao menos 30 unidades é a melhor estimativa da proporção populacional. O valor da proporção amostral é chamado de estimativa pontual da proporção populacional. A margem de erro pode ser encontrada na fórmula a seguir: Margem de erro da proporção populacional E é a margem de erro Z é a distribuição normal padrão α/2 é o nível de significância bicaudal Zα/2 é o valor crítico positivo e negativo conforme nível de significância bicaudal é a proporção amostral de sucessos é a proporção amostral de fracassos 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/14 n é o tamanho da amostra Procedimento para construção de intervalos de confiança para p: 1. Verificar se as condições para a aproximação da distribuição binomialpela distribuição normal são satisfeitas; 2. Ache os valores críticos bicaudais correspondentes ao grau de confiança desejado; 3. Calcule a margem de erro; 4. Calcule o valor da margem de erro e adicione e subtraia do valor da proporção amostral para obter os limites do intervalo de confiança. Suponha que tenhamos coletado aleatoriamente a opinião de 1000 pessoas sobre a aprovação ou não de um projeto de lei. A proporção de aprovação na amostra foi de 38%. Calculando o intervalo de confiança com 5% de significância no Statdisk: E aproximadamente 3% 35% < p < 41% Com 95% de confiança, pode-se dizer que a proporção populacional de pessoas que aprovam o projeto de lei específico na população estudada está entre 35% e 41%. Estimando o intervalo de confiança para a variância e desvio padrão: O parâmetro não viesado para estimação pontual é a variância, mas pode-se aproximar também o desvio padrão, as fórmulas para o cálculo de intervalos de confiança estão dadas a seguir: Margem de erro da variância Margem de erro do desvio padrão é a variância populacional estimada n é o tamanho da amostra é a variância amostral valor crítico acumulado à direita valor crítico acumulado à esquerda Os valores críticos dependem do nível de significância α escolhido bicaudal σ é o desvio padrão populacional estimado n é o tamanho da amostra é a variância amostral valor crítico acumulado à direita valor crítico acumulado à esquerda Os valores críticos dependem do nível de significância α escolhido bicaudal 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/14 Procedimento de cálculo do intervalo de confiança da variância e do desvio padrão populacional 1. Verifique se a população tem distribuição normal, essa exigência é fundamental e deve ser cumprida mesmo que a amostra seja grande; 2. Identifique o n da amostra e seus graus de liberdade (n-1); 3. Encontre a estimativa pontual de ; 4. Encontre os valores críticos direito e esquerdo conforme o nível de confiança. Lembre-se que a distribuição chi-quadrado não é simétrica, o valor do lado direito e esquerdo não é o mesmo, dê preferência por calcular em softwares, já que encontrar esses valores é relativamente trabalhoso; 5. Calcule os valores extremos direito e esquerdo e determine o intervalo de confiança ao subtrair o lado esquerdo e adicionar o direito da estimativa pontual; 6. Se o interesse for calcular o desvio padrão, retire a raiz quadrada dos extremos e do valor da variância (Larson, Farber, 2010). Suponha que vendamos caixas de suco de 1 litro (1.000 ml), coletamos aleatoriamente 2000 caixas e as pesamos. A média realmente é 1000 ml e o desvio padrão amostral é de 10 ml. Desejamos saber com maior precisão o quanto nossas caixas de suco variam, para isso, estimamos com 5% de significância um intervalo de confiança do desvio padrão no software Statdisk. Nossa amostra segue uma distribuição normal, como o exigido. 9,69 < σ < 10,31 Com 95% de confiança, o desvio padrão populacional da produção de sucos em relação à média fica entre 9,69 ml e 10,31 mls. TEMA 4 – TESTE DE HIPÓTESES ESTATÍSTICAS Uma hipótese estatística é uma afirmação sobre uma propriedade de uma população. O teste de hipóteses é um procedimento para o teste de uma afirmação sobre o parâmetro de uma população com base em dados amostrais e visa distinguir resultados que facilmente ocorreriam por acaso de resultados que muito provavelmente não ocorreriam por acaso (Triola, 2006). 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/14 É possível realizar testes de hipóteses sobre a média, a proporção, a variância e o desvio padrão populacionais, pelas mesmas razões que é possível obter estimativas não viesadas e eficientes desses mesmos parâmetros e construir intervalos de confiança, como visto acima. É preciso formular duas hipóteses. A hipótese nula em geral é formulada como uma igualdade, e o parâmetro populacional testado é considerado igual a um número específico. A hipótese alternativa contradiz a hipótese nula, colocando que o parâmetro testado é diferente, maior ou menor do que o valor colocado na hipótese nula (Sartoris, 2006). O nível de significância é a probabilidade por meio da qual obter um resultado tão extremo na amostra em relação ao valor que se considera que o parâmetro possua é considerado algo não vindo do acaso, mas uma prova de que o valor considerado do parâmetro na hipótese nula está errado. Ele nos dá o valor crítico por meio do qual se rejeita ou se falha em rejeitar a hipótese nula. Ele pode ser unicaudal, se a hipótese alternativa sugerir que o valor do parâmetro é maior ou menor que certo número; ou bicaudal, quando a hipótese alternativa coloca que o valor do parâmetro é diferente do valor expresso na hipótese nula (Sartoris, 2006). Para cada tipo de parâmetro testado, há fórmulas diferentes que geram um valor chamado estatística de teste, que é comparado com o valor crítico, e, com base nessa comparação, testa-se a validade da hipótese nula (Triola, 2006). A região crítica (ou de rejeição) é o conjunto de todos os valores para os quais a estatística de teste leva à rejeição da hipótese nula (Triola, 2006). O nível de significância é a probabilidade de que a estatística de teste caia na região crítica quando a hipótese nula na verdade é verdadeira, é o risco de rejeitar uma hipótese nula quando ela é verdadeira (Triola, 2006). O Valor-p é a probabilidade de se obter um valor da estatística de teste ao menos tão extremo quanto o obtido por meio dos dados amostrais. Assumindo que a hipótese nula é verdadeira, em geral valores de 0,05 ou menores são considerados como pouco prováveis de ocorrer por acaso e levam à rejeição da hipótese nula (Triola, 2006). O teste sempre tem como base a hipótese nula, e as conclusões podem levar (i) à rejeição da hipótese nula, se o valor da estatística de teste cair na região crítica; ou (ii) à falha em rejeitar a hipótese nula, se a estatística de teste não cai na região crítica (Triola, 2006). 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/14 Pode-se cometer um erro do tipo I, quando se rejeita uma hipótese nula que, na verdade, é verdadeira, representada pelo nível de significância do teste α; ou um erro do tipo II, quando se falha em rejeitar a hipótese nula quando ela na verdade é falsa (Triola, 2006). Testando uma afirmação sobre uma média populacional A amostra tem ao menos 30 elementos ou a população de origem é normalmente distribuída. Se o valor do desvio padrão populacional é conhecido, usa-se a distribuição normal Z, se não, é preciso utilizar a distribuição T. Em geral, não se conhece o desvio padrão populacional. Procedimento para o teste de hipótese: 1. Identifique sua hipótese nula e sua hipótese alternativa; 2. Escolha o nível de significância α; 3. Calcule a estatística de teste conforme a fórmula; 4. Determine o valor e a área crítica. A distribuição t varia conforme o número de graus de liberdade da amostra, determinado por n-1; 5. Encontre o valor-p; 6. Compare o valor da estatística de teste com o valor crítico e interprete o resultado no contexto da afirmação inicial. Suponha que sua empresa produza peças industriais. O diâmetro padrão de uma peça é 10 cm. Após coletarmos uma amostra aleatória de 30 peças, medimos e descobrimos que a média foi de 9,9 cm, abaixo da média padronizada. Como estar no tamanho especificado é importante, testamos se as peças têm realmente média de 10 cm, considerando o desvio padrão amostral de 0,1 cm no software Statdisk com 95% de confiança. – µ = 10 cm (média populacional é 10 cm); 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/14 - µ < 10 cm (média populacional é menor que 10 cm); Estatística de teste t = - 5,4772; Valor crítico de t (29 graus de liberdade unicaudal) = - 1,6991; Valor-p = 0,0000. Como o valor da estatística de teste é bem superior ao valor crítico, rejeitamosa hipótese nula. Dados da amostra indicam que a média populacional do diâmetro das peças é menor que 10 cm, ou seja, as peças estão fora do padrão especificado. TEMA 5 – TESTE DE HIPÓTESE DE PROPORÇÃO, VARIÂNCIA E DESVIO PADRÃO Para testar uma afirmação sobre uma proporção populacional, usa-se a distribuição normal como uma aproximação da distribuição binomial. Condição que np ≥ 5 e nq ≥ 5. Fórmula da estatística de teste abaixo. Estatística de teste para a proporção populacional Z é o valor da estatística de teste é a proporção amostral estimada do sucesso p é a proporção populacional de sucesso considerada q é a proporção populacional de fracasso n é o tamanho da amostra Procedimento para o teste de hipótese: 1. Identifique sua hipótese nula e sua hipótese alternativa; 2. Escolha o nível de significância α; 3. Calcule a estatística de teste conforme a fórmula; 4. Determine o valor e a área crítica uni ou bicaudal; 5. Encontre o valor-p; 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/14 6. Compare o valor da estatística de teste com o valor crítico e interprete o resultado no contexto da afirmação inicial. Suponha que queiramos testar a afirmação de que 20% dos brasileiros preferem carros da cor preta, dita por uma pesquisa de mercado. Para isso, criamos uma amostra aleatória de 100 brasileiros e obtemos uma proporção de 25% que preferem carros da cor preta. Testamos essa hipótese no software Statdisk, adotando um nível de confiança de 95%. – p =20% (20% preferem carros da cor preta); – p > 20% (mais de 20% preferem carros da cor preta); = 0,25; q = 0,8, p = 0,2, n = 100; Estatística de teste Z – 1,25; Valor crítico Z (unicaudal) – 1,6449; Valor-p – 0,1056. Com 95% de confiança, acabamos por não rejeitar a hipótese nula. Apesar de a proporção amostral ser maior que a afirmação sobre a proporção populacional, os resultados não são extremos o suficiente para nos levar a rejeitar a hipótese nula de que 20% dos brasileiros preferem carros da cor preta. Testando uma afirmação sobre o desvio padrão ou variância populacional A população tem distribuição normal, essa é uma exigência mais forte para esse tipo de parâmetro do que a que ocorre nos testes de médias e proporções. A distribuição da estatística de teste é a , com n-1 graus de liberdade. Estatística de teste para a variância ou desvio padrão populacional é o valor da estatística de teste chi-quadrado n é o tamanho da amostra é a variância amostra é a variância populacional 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/14 Procedimentos para o teste de hipótese: 1. Construa a afirmação verbal e matemática identificando as hipóteses nula e alternativa; 2. Escolha o nível de significância; 3. Determine os graus de liberdade n-1; 4. Determine os valores críticos e as regiões de rejeição. Lembre-se de que a distribuição chi- quadrado não é simétrica, o valor do lado direito e esquerdo não é igual com sinal trocado. Dê preferência por calcular em softwares, já que encontrar esses valores é relativamente trabalhoso; 5. Calcule a estatística de teste; 6. Compare o valor da estatística de teste e os valores críticos e escolha entre a rejeição ou a falha em rejeitar a hipótese nula. Suponha que você tenha uma máquina empacotadora automática de trigo que afirma empacotar sacos com média de 100 quilos e desvio padrão de 0,5 quilos. Você está desconfiado de que a máquina empacota sacos com maior variabilidade do que esse desvio padrão sugere. Para isso, você seleciona aleatoriamente 50 sacos de trigo e os mede. A média amostral foi realmente de 100 quilos, já o desvio padrão amostral foi de 0,8 quilos. Utilizando o software Statdisk e 95% de confiança você testa: – σ = 0,5 quilos – σ ≠ 0,5 quilos Os dados seguem estritamente uma distribuição normal, como é exigido para esse teste, e o teste é sobre uma afirmação que leva a valores críticos bicaudais. Estatística de teste Chi-quadrado – 125,44; Valor crítico inferior – 31,55; Valor crítico superior – 70,22; Valor-p – 0,0000. Os dados indicam que, com 95% de confiança, podemos rejeitar a hipótese nula de que o desvio padrão é 0,5 quilos. O desvio padrão parece ser maior que 0,5 quilos, não seguindo o que o 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/14 fabricante afirmou. TROCANDO IDEIAS Em um fórum, discuta as potencialidades e os limites do uso de intervalos de confiança e do teste de hipóteses em situações reais. NA PRÁTICA A proposta é aprender a calcular intervalos de confiança no Statdisk on-line. Considere os seguintes dados: uma amostra aleatória com 1500 pessoas indicou que 20% (300) aprovam um novo projeto de lei. Calcule o intervalo de confiança dessa proporção amostral. Os passos são: 1. Entre no Statdisk on-line; 2. Clique na opção Analysis na barra superior; 3. Clique em Confidence Interval e na primeira opção – Proportion one sample; 4. Coloque na primeira opção Confidence Level (Nível de Confiança) 0,95, equivalente a um nível de confiança de 95%; 5. Em Sample Size, n coloque o tamanho da amostra; 6. Em Number of Sucesses, x coloque o número de sucessos, ou seja, de pessoas que aprovam o novo projeto de lei na amostra; 7. Clique em Evaluate; 8. Obtenha os resultados na terceira linha 95% Confidence Interval (using normal approx); 9. Os resultados da terceira linha estão em números decimais, multiplique por 100, arredonde e adicione o símbolo de %; 10. Interprete os resultados. Qual é o intervalo de confiança da proporção de pessoas que aprovam o projeto de lei? Trata-se de um projeto com alta taxa de aprovação? FINALIZANDO Nesta aula, aprofundamos as técnicas e o entendimento da estatística inferencial por meio dos aprendizados das aulas anteriores. Aprendemos como construir e interpretar intervalos de estimação de parâmetros e como formular e testar hipóteses sobre o valor desses parâmetros. O importante 07/06/2022 20:15 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/14 aqui é o entendimento dos conceitos, da lógica dos procedimentos e da interpretação dos resultados, e não a realização de cálculos trabalhosos que são hoje facilmente realizáveis em softwares estatísticos. A próxima aula apresentará a análise da relação entre duas variáveis, a chamada estatística bivariada. REFERÊNCIAS LARSON, R.; FARBER, B. Intervalos de confiança. In: LARSON, R.; FARBER, B. (Orgs.). Estatística Aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010. p. 250-291. PINHEIRO, J. I. D.; CUNHA, S. B. da.; CARVAJAL, S. R.; GOMES, G. C. Estimação de parâmetros. In: PINHEIRO, J. I. D.; CUNHA, S. B. da.; CARVAJAL, S. R.; GOMES, G. C. (Orgs.). Estatística Básica: a arte de trabalhar com dados. São Paulo: Elsevier, 2009. p. 175-211. SARTORIS, A. Estimação. In: SARTORIS, A. (Org.). Estatística e introdução à econometria. São Paulo: Saraiva, 2008. p. 127-157. TRIOLA, M. F. Estimativas e tamanho amostral. In: TRIOLA, M. F. (Org.). Estatística Elementar. 10. ed. Boston: Pearson Prentice Hall, 2006. p. 244-317. 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/14 ESTATÍSTICA APLICADA AULA 6 Prof. Tiago Claudino Barbosa 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/14 CONVERSA INICIAL As aulas anteriores focaram quase que exclusivamente na análise de uma variável X; porém, na economia, é mais comum o foco da análise ser na relação entre duas ou mais variáveis. Nesta aula, abordaremos as noções de conjuntos de dados pareados e de análise de correlação. Esses conceitos são fundamentais para a preparação para nossa futura aula de econometria, que possui como objeto fundamental a modelagem da relação entre variáveis econômicas e do contexto social. Nesse sentido, nossos esforços de aprendizado nesta aula são no sentido de entender: a. o que são conjuntos de dados bivariados; b. o que é correlação;c. como calcular e interpretar o coeficiente de correlação; d. o que correlações dizem sobre o mundo real e a relação entre variáveis. CONTEXTUALIZANDO Quão forte é a ligação entre variáveis como o preço de uma ação X e o preço de outra ação Y? E a ligação entre anos de estudo e renda futura? Entre uma queda na taxa básica de juros e a taxa de crescimento econômico posterior? A força dessas relações pode ser estimada mediante análise de correlação entre duas variáveis. Há formas mais complexas e detalhadas de se analisar essas relações, como por meio da análise de regressão; contudo, esse assunto será abordado na aula de econometria. Como sempre foi enfatizado, o objetivo é o entendimento dos conceitos, de sua aplicação e interpretação dos resultados, não a realização de cálculos, hoje facilmente realizáveis com uso de softwares estatísticos. TEMA 1 – ESTATÍSTICA BIVARIADA 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/14 As aulas anteriores se concentraram na descrição e na realização de inferências sobre uma variável X, a chamada estatística univariada. Suas aplicações na economia são diversas; contudo, muitas vezes nosso interesse não está em conhecer as propriedades de uma variável sozinha, mas em saber qual a relação entre variáveis e como prever o comportamento de uma variável com base no comportamento de outras variáveis relacionadas, a chamada estatística bivariada, que trata da relação ou comparação entre duas variáveis. Por fim, há o que designamos estatística multivariada, que ocorre quando o número de variáveis comparadas for três ou mais. As estatísticas bi e multivariada formam a base da Econometria, disciplina a ser ensinada no último ano do nosso curso e que representa uma combinação da estatística, da teoria econômica e da matemática aplicada à modelagem econômica. As técnicas da estatística univariada ensinadas nas aulas anteriores serão úteis, para nós, tanto nas aplicações que envolvam somente uma variável, como num melhor entendimento de problemas que necessitem da estatística bi e/ou multivariada. Nossa aula vai apresentar alguns conceitos básicos da estatística bivariada e uma de suas principais técnicas, a análise de correlação. Nosso objetivo é iniciar o estudo da força e do sentido da relação entre duas variáveis, que será aprofundado na disciplina de Econometria. Antes de iniciarmos o estudo da análise de correlação, alguns conceitos iniciais da estatística bivariada devem ser apresentados. Em um conjunto de n pares de dados (Xi, Yi), cada valor de Xi está ligado a um valor de específico de Yi (Hoffman, 2006). A relação entre a variável X e a variável Y pode ser forte, fraca ou inexistente; assim como positiva – quando, conforme o valor de X aumenta, o de Y aumenta também – ou negativa, quando ocorre o contrário. Uma das formas de se visualizar a relação entre duas variáveis é se construindo um diagrama de dispersão, que é um gráfico que contém um eixo X horizontal e outro eixo Y vertical, em um plano cartesiano e no qual se coloca o par ordenado de dados (Xi, Yi) como pontos, no eixo. O Gráfico 1 é um exemplo de um diagrama de dispersão das variáveis X e Y, cujos dados são fictícios. Gráfico 1 – Diagrama de dispersão dos dados fictícios X e Y 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/14 Nota-se que, conforme o valor de X aumenta, o de Y tende a aumentar também, indicando uma relação positiva entre X e Y. O próximo tópico define melhor o que é correlação. TEMA 2 – COEFICIENTE DE CORRELAÇÃO Uma correlação existe entre duas variáveis quando uma delas está relacionada à outra em termos numéricos (Triola, 2006). Há diversas formas de se analisar a associação entre variáveis, e as mais comuns são a análise de correlação e a análise de regressão (esta última a ser ensinada na nossa futura disciplina de Econometria). A correlação mede a força e a direção de relações entre duas variáveis. Sua forma mais comum é o coeficiente de correlação de Pearson, que mede a relação linear entre X e Y. Relações lineares são como retas no plano cartesiano; relações no mundo real muito raramente são perfeitamente lineares, mas muitas se aproximam de um padrão assim. Os Gráficos 2 e 3 mostram, respectivamente, situações em que a relação entre as variáveis são lineares e situações em que há uma relação entre as variáveis, mas ela não é linear. Gráfico 2 – Exemplo de uma relação linear entre X e Y 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/14 Gráfico 3 – Exemplo de uma relação não linear entre X e Y Há outros tipos de relação entre variáveis que não são lineares, logo não são bem capturadas por esse coeficiente. Para cada unidade amostral, se coleta um par de dados sobre duas variáveis de que se deseja conhecer a relação. Se há alguma relação entre as variáveis, um padrão emerge e uma direção da relação pode ser notada (Triola, 2006). O coeficiente de correlação linear r mede a força da relação linear entre dados pareados das variáveis X e Y, em uma amostra: 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/14 . Valor de r próximo a zero indica que não há correlação linear entre X e Y: quanto mais próximo, esse valor, de 1 ou -1, mais forte a correlação. Valores positivos do coeficiente r indicam uma relação positiva entre as variáveis: o aumento de uma das variáveis é, em geral, acompanhado por um aumento na outra variável. Já valores negativos de r indicam variáveis que caminham em direções opostas: o aumento de uma é, em geral, acompanhado por queda na outra variável. O coeficiente linear de correlação r tem seu valor entre -1 e 1, e o valor do coeficiente não muda se todos os valores de uma das variáveis são convertidos para uma escala diferente. O valor é o mesmo: não importando qual variável é X ou Y, o coeficiente mede a força de relações lineares, não relações que sejam não lineares (Triola, 2006). Contudo, correlação não implica relação de causalidade entre as variáveis analisadas, como será visto mais à frente. TEMA 3 – EXEMPLOS DE CORRELAÇÃO É fácil notar, visualmente, a força e a direção da correlação entre duas variáveis com base na construção de diagramas de dispersão (scatterplots). Os cinco gráficos a seguir (Gráficos 4-8) retratam os diferentes tipos de correlação e seu padrão visual, com emprego de dados fictícios. Gráfico 4 – Correlação positiva e forte: valor de r próximo a 1 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/14 Gráfico 5 – Correlação positiva e relativamente fraca: valor de r próximo a 0,5 Gráfico 6 – Correlação negativa e forte: valor de r próximo a -1 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/14 Gráfico 7 – Correlação negativa e relativamente fraca: valor de r próximo a -0,5 Gráfico 8 – Correlação fraca: valor de r próximo a zero 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/14 Quanto mais próximos de uma linha os pontos, mais forte a correlação. Correlações muito fracas parecem mais uma nuvem de pontos dispersos no plano cartesiano, como mostra o Gráfico 8. O Quadro 1 ilustra alguns exemplos de correlações positivas e negativas esperadas entre variáveis econômicas e sociais, de acordo com as teorias mais comuns. Quadro 1 – Correlações esperadas entre algumas variáveis econômicas e sociais Variáveis econômicas e sociais com correlação positiva esperada Variáveis econômicas e sociais com correlação negativa esperada Produto interno bruto (PIB) per capita e número médio de anos de escolaridade Preço de um produto e quantidade/demanda do mesmo produto PIB per capita e expectativa de vida ao nascer Taxa de crescimento econômico e taxa de desemprego Renda dos consumidores e gastos com consumo PIB per capita e taxa de analfabetismo TEMA 4 – TESTE DE HIPÓTESE DE CORRELAÇÃO Muitas vezes, o conjunto de pares de dados utilizados na análise de regressão provém de uma amostra.É possível testar a hipótese de significância do coeficiente de correlação de Pearson entre as duas variáveis, em termos populacionais, com base nos dados amostrais. O parâmetro ρ (rô) é o coeficiente de correlação populacional entre X e Y, um valor fixo e muitas vezes desconhecido. A partir da coleta de uma amostra aleatória de pares de dados, calcula-se o 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/14 coeficiente de correlação de Pearson amostral r (Hoffman, 2006). O teste de hipótese fica assim: Ho – ρ = 0, ou seja, não há relação positiva ou negativa significativa entre X e Y; se Ho – ρ ≠ 0, com ou ρ > 0 ou ρ < 0, há uma relação entre X e Y que é significativamente diferente de zero. Pode-se postular que a relação é diferente de zero e que ela pode ser tanto positiva quanto negativa; ou se pode afirmar que a relação é positiva ou negativa. O procedimento para o teste da força do coeficiente de correlação ρ abrange: a. determine o número de pares de dados na amostra; b. especifique um nível de significância; c. identifique o valor crítico correspondente (uni ou bicaudal); d. determine se | r |> valor crítico; se sim, correlação é estatisticamente significante; caso contrário, correlação amostral não é significante; e. interprete o resultado conforme afirmação original. Em geral, a hipótese nula é formulada como se ρ = 0, ou seja, não há correlação entre as variáveis populacionais e a hipótese alternativa bicaudal ou unicaudal ρ ≠ 0 ou ρ ≥ 0 ou ρ ≤ 0. Testa- se, pelo cálculo de t, se a correlação entre duas variáveis for significante: . Segue-se uma distribuição t, com n-2 graus de liberdade. Se o valor em módulo de r for maior que o valor crítico identificado, rejeita-se a hipótese nula, ou seja, a evidência da amostra corrobora a hipótese alternativa de que há, sim, uma relação entre X e Y, e o sinal do coeficiente de correlação vai indicar se a relação é positiva ou negativa. TEMA 5 – CORRELAÇÃO E CAUSALIDADE A análise de correlação ajuda a estimar a direção e a força da relação linear entre duas variáveis; contudo, ela não nos diz se há alguma relação de causa e efeito entre as variáveis analisadas. Relações de causa e efeito geralmente provêm de teorias de fora da estatística, como a teoria 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/14 econômica. A estatística serve para testar essa teoria e para estimar relações na prática, mas não diz nada sobre mecanismos causais. A interpretação dos resultados da análise de correlação deve ser feita à luz dessas teorias externas à estatística. Há três possibilidades quanto a relações de causa e efeito, em casos que os coeficientes de correlação são elevados: 1. Há uma relação direta de causa e efeito real entre X e Y, e essa conclusão geralmente requer o apoio de uma teoria desenvolvida em outras áreas da ciência. Porém, a correlação em si não diz qual variável causa qual, o que exige, novamente, que se recorra a teorias externas à estatística. Por exemplo, se a análise de correlação da taxa de crescimento econômico de alguns países se correlacionar, de forma forte, com a taxa de aumento no consumo, pode-se dizer que há uma relação entre aumentos na renda das famílias e aumentos no nível de consumo. E é a teoria econômica que fundamenta esse mecanismo causal e diz qual variável afetou qual. 2. Há uma relação indireta entre as variáveis, que não é causal em si. Nesses casos, há fatores externos anteriores que alteraram ambas as variáveis, fazendo com que a correlação fosse forte, porém sem ligação direta através de algum mecanismo causal. Novamente, as teorias nos dizem qual a ordem de causalidade. Um exemplo: suponha que haja uma correlação entre o número de pessoas que usam cachecóis e o número de pessoas gripadas – o uso de cachecóis causou um aumento nos casos de gripe ou vice-versa? Na verdade, nenhuma das duas hipóteses são verdadeiras! um terceiro fator externo ocasionou o aumento simultâneo das duas variáveis, no caso a temperatura fria, que fez as pessoas usarem cachecol mais frequentemente e aumentou a transmissão da gripe. Por sinal, o frio, em si, não causa a gripe, mas tende a aumentar sua incidência, por uma variedade de fatores. 3. Houve uma coincidência: apesar de o coeficiente de correlação ser alto, as duas variáveis não têm ligação nenhuma, seja direta, seja indireta. Um exemplo disso é a correlação positiva e muito forte (r > 0,99) entre o consumo de queijo muçarela, per capita, nos EUA, e o número de doutorados concluídos no país em engenharia civil entre 2000 a 2009 (Vigen, 2015). Não há nenhuma teoria que indique que ambas as variáveis possuem algum tipo de relação, nem o senso comum assim o diz. Logo, essa correlação, apesar de ser bem forte, é uma coincidência e não diz nada sobre a existência de alguma relação entre essas variáveis. Muitos enganos são feitos ao se confundir os conceitos de correlação e causalidade, seja direta, seja indireta. Para os economistas, as teorias econômicas fornecem a base para o entendimento das 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/14 relações entre as variáveis econômicas e do contexto. TROCANDO IDEIAS Em um fórum on-line, pense e descreva situações em que há correlação entre variáveis. Há algum suporte teórico, nelas, que diga qual variável causa qual e se há fatores externos que interferem na relação descrita? NA PRÁTICA A proposta é acessar o software estatístico Statdisk Online (2004-2021) e calcular o coeficiente de correlação entre duas variáveis (Tabela 1): 1. o PIB per capita, em 2010, de 15 países de diferentes regiões e níveis de desenvolvimento do mundo, com base em dólares de 2011; 2. a média de anos de estudo de pessoas com 15 anos ou mais, em 2010, nesses mesmos países. Tabela 1 – PIB per capita em 2010 (em dólares de 2011) e média de anos de estudo de pessoas com 15 anos ou mais nos países pesquisados PAÍS PIB PER CAPITA 2010 – US$ (2011) MÉDIA DE ANOS DE ESTUDO (15 anos ou mais) África do Sul 11.389 9,89 Albânia 9.545 10,44 Argentina 15.842 9,71 Austrália 44.855 11,69 Bélgica 38.178 11,29 Brasil 13.541 8,17 Camarões 2.685 6,41 Chile 18.093 10,35 China 9.337 8,25 El Salvador 6.097 8,06 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/14 Haiti 1.650 5,17 Holanda 44.004 11,71 Irã 17.328 9,15 Malásia 17.913 10,89 Marrocos 6.422 5,27 Fonte: Adaptado de Correlacion, [201-]. Os passos para a realização da atividade são: a. acesse o site do Statdisk Online (2004-2021) em: <https://www.statdisk.com/accounts/login/?ne xt=/>; b. entre em sua conta; c. o programa vai abrir sua página inicial com uma planilha vazia; d. copie e cole as três colunas de dados da Tabela 1, não copie a primeira linha com o título – país, PIB per capita 2010 (US$ 2011) e média de anos de estudo (15 anos ou mais); e. após colar, clique em Analysis e na opção Correlation and Regression; f. na caixa Significance, coloque 0,05; na caixa rolante X Variable Column, coloque 2; e, na Y Variable Column, coloque 3; g. clique em Evaluate – o valor do coeficiente de correlação é o quarto resultado: Correlation coeff. r; h. identifique o valor do coeficiente e interprete seus resultados: qual a força e a direção da relação entre as variáveis; i. analise se, na sua opinião, a relação entre as duas variáveis é causal ou não; se for causal, qual a causa e qual o efeito – saiba que a relação entre escolaridade e nível de riqueza de um país é um assunto polêmico na economia; há relações óbvias, porém a causalidade pode vir de ambos os lados, ou seja, um aumento na renda permite às pessoas estudarem mais e, ao mesmo tempo, um aumento no tempo que as pessoas estudam está associado a um aumento de sua produtividade; logo, aumentos na escolarização de uma população estão associados ao crescimento econômico. FINALIZANDO https://www.statdisk.com/accounts/login/?next=/ 07/06/2022 20:16 UNINTER https://univirtus.uninter.com/ava/web/roa/14/14 Nossa aula nos introduziu a estatística bivariada e a importância da análise das relações entre variáveis, para os economistas. Esses tópicos serão mais bem explorados na disciplina de Econometria, no futuro. O importante a ter em mente é que cálculos estatísticos, hoje, são facilmente realizados com uso de softwares, e o fundamental, para a estatística atual, é entender os conceitos, seu modo de aplicação e como interpretar os resultados obtidos. REFERÊNCIAS CORRELATION between mean Years of schooling and GDP per capita, 2010. Our World in Data, [201-]. Disponível em: <https://ourworldindata.org/grapher/correlation-between-mean-years-of- schooling-and-gdp-per-capita>. Acesso em: 1 nov. 2021. HOFFMAN, R. Correlação e regressão. In: _____. Estatística para economistas. 4. ed. São Paulo: Cengage Learning, 2006. p. 279-308. STATDISK ONLINE. [S.l.]: Triola Stats, 2004-2021. Disponível em: <https://www.statdisk.com/accounts/login/?next=/>. Acesso em: 1 nov. 2021. TRIOLA, M. F. Correlação e regressão. In: _____. Estatística elementar. 10. ed. Boston: Pearson Prentice Hall, 2006. p. 514-587. VIGEN, T. Spurious Correlations. Nova York: Hachette Books, 2015.