Baixe o app para aproveitar ainda mais
Prévia do material em texto
16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 1/15 ESTATÍSTICA APLICADA AULA 2 Prof. Tiago Claudino Barbosa 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 2/15 CONVERSA INICIAL MEDIDAS DE POSIÇÃO E DISPERSÃO Anteriormente, aprendemos a organizar conjuntos de dados e observar como variáveis se distribuem com tabelas de distribuição de frequência e histogramas. Nesta aula, vamos aprender algumas medidas que ajudam a resumir diferentes propriedades de conjuntos de dados e que são utilizadas para a realização de inferências estatísticas. Os esforços de aprendizado são: (i) entender o conceito de medida de posição e seus principais tipos e (ii) entender o conceito de medida de dispersão e seus principais tipos. Ambos os conceitos são centrais para a estatística descritiva e inferencial, abordadas em conteúdo posterior. CONTEXTUALIZANDO Como resumir um conjunto de dados em algumas estatísticas? Como comparar diferentes conjuntos de dados? Que valores representam melhor meu conjunto de dados e em qual grau eles são uma representação precisa? Essas e outras perguntas são elucidadas nesta aula, o entendimento dos conceitos apresentados é fundamental para que possamos realizar uma análise descritiva de conjuntos de dados e são os elementos fundamentais a serem aplicados nas diferentes técnicas de inferência estatísticas a serem apresentadas em conteúdo posterior. O objetivo é entender a lógica das medidas e como interpretá-las, o cálculo em si pode ser feito facilmente em softwares especializados. TEMA 1 – O QUE SÃO MEDIDAS DE POSIÇÃO? Anteriormente, aprendemos a utilizar histogramas e distribuições de frequência para analisarmos a distribuição de um conjunto de dados ao longo de seu intervalo de valores. Analisar a distribuição 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 3/15 de um conjunto de dados nos permite entender ao redor de quais valores os dados se concentram e se há lacunas na escala para as quais não há dados. Outras duas propriedades de conjuntos de dados muito relevantes tanto para a estatística descritiva quanto para a estatística inferencial serão ensinadas hoje. A primeira são as medidas de posição, que indicam valores ao redor dos quais os dados do conjunto se concentram, e a segunda são as medidas de dispersão, que medem o quanto os dados de um conjunto variam entre si. Uma medida de posição central é um valor numérico representativo de um conjunto de dados que nos mostra um valor típico, uma tendência sobre a qual os dados do conjunto orbitam (Triola, 2006). Alguns conceitos iniciais devem ser retomados e apresentados antes de se adentrar nas medidas de posição em si (Triola, 2006). N – número de elementos que compõem uma população; n – número de elementos que compõem uma amostra; ∑ - operador somatório se refere à soma de todos os elementos de X; Xi – i-ésima unidade do conjunto de dados X. Parâmetro - medida numérica que descreve alguma característica da população, em geral representada por letras gregas, como µ (mi), α (alfa) e β (beta); Estatística - medida numérica que descreve alguma característica de uma amostra, em geral representadas por letras do nosso alfabeto comum, como a e b, letras do nosso alfabeto com algum símbolo sobrescrito, como (x barra), ou como letras gregas com algum símbolo sobrescrito, como (alfa chapéu); Outlier – valor de um conjunto de dados muito discrepante para mais ou para menos de todos os outros dados. TEMA 2 – MÉDIA E MEDIANA 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 4/15 A média é a medida numérica mais utilizada para descrever um conjunto de dados. A média de um conjunto de dados é calculada pela soma de todos os valores do conjunto dividido pelo número total de unidades do conjunto de dados. Ela tem duas vantagens, (i) as médias amostrais tendem a ser as medidas de centro mais consistentes no sentido que a média de diversas médias amostrais retiradas da mesma população tende a convergir para o valor da média populacional e a apresentar menor variabilidade que as outras medidas de centro e (ii) ela considera todos os valores do conjunto de dados em seu cálculo, refletindo assim de alguma forma na distribuição e na concentração dos dados do conjunto, sua principal desvantagem é que ela é sensível a outliers (Triola, 2006). O Quadro 1 mostra a fórmula e os componentes dos dois principais tipos de média. Quadro 1 – Fórmula e componentes da média populacional e amostral Média populacional Média amostral Onde: é a média populacional é o somatório de todos os valores das unidades i da variável X N é o tamanho da população Onde: é a média amostral é o somatório de todos os valores das unidades i da variável X n é o tamanho da amostra Fonte: Barbosa, 2021. Considere o seguinte conjunto de dados fictício: X – 10, 11, 12, 22, 22, 25, 28, 36 Para obtermos a média, bastaria somar todos esses dados e dividir pelo número de unidades do conjunto de dados n, que é oito. = = = 20,75. A média do conjunto de dados é 20,75. Se conjunto for uma amostra, resultado é uma média amostral, se for a população inteira, é a média populacional. Mediana 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 5/15 A mediana é o valor que, quando o conjunto de dados é organizado de forma crescente ou decrescente, fica no meio do conjunto. Se tamanho do conjunto de dados é um número par, mediana é a média dos dois valores centrais. Tem a desvantagem de considerar somente um ou dois elementos do conjunto de dados, não dizendo muito sobre a distribuição e a concentração dos dados, tem como vantagem não ser afetada por outliers (Triola, 2006). Para o mesmo conjunto de dados fictício, primeiro se organiza os dados em ordem crescente, depois se identifica o valor do dado que fica no meio, no caso, por número de unidades do conjunto ser par, a mediana é a média dos dois valores centrais, no caso 22 e 22, logo, o valor da mediana é 22. X – 10, 11, 12, 22, 22, 25, 28, 36. TEMA 3 – MODA E SEPARATRIZES A moda é o valor que ocorre com maior frequência em um conjunto de dados (Triola, 2006). Tem a vantagem de não ser influenciada pela presença de outliers e a desvantagem de levar em conta somente o valor mais frequente em seu cálculo, ignorando o restante dos dados. Para sua identificação, é preciso ordenar os dados em ordem crescente ou decrescente e visualizar qual se repete mais vezes. Considerando nosso conjunto de dados. X – 10, 11, 12, 22, 22, 25, 28, 36. Moda é o valor 22, que aparece duas vezes, nenhum outro valor apareceu mais de uma vez. Um conjunto de dados pode ser amodal quando nenhum dos valores aparece em maior frequência que os outros, unimodal quando há uma moda, bimodal quando há duas modas e assim por diante. Em um histograma em que cada dado possível é uma barra, a moda é o valor com a barra mais alta. Separatrizes São medidas que separam o conjunto de dados em subconjuntos com igual número de unidades, ajudando a identificar a forma com que os dados são distribuídos. Não são os valores da variável X que são divididos em intervalos de igual tamanho, mas o número de dados, daí se identifica qual o valor de X que marca o recorte entre uma separatriz e outra. Os intervalos podem ser diversos, quatro (quartil), cinco (quintil), dez (decil), cem (percentil), entre outros. 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 6/15 Por exemplo, se dividirmos a distribuição de renda per capita de todos os brasileiros em dez intervalos (decis) e quisermos saber que valor separa os 10% de menor renda do restante dos brasileiros, basta identificarmos o valor do primeiro decil. 10% da população brasileira ganha uma quantia igual ou menor que esse valor. Retomando nosso conjunto de dados fictício e calculando os valores de seus quartis (intervalos que dividem 25%, 50%e 75% dos dados). X – 10, 11, 12, 22, 22, 25, 28, 36. O cálculo desses valores é relativamente trabalhoso, utilizou-se o Statdisk para o cálculo e para a criação do gráfico a seguir, conhecido como boxplot. Tabela 1 – Valores dos quartis Medida Valor X Valor mínimo 10 Primeiro quartil 11,5 Segundo quartil 22 Terceiro quartil 26,5 Valor máximo 36 Fonte: elaborada com base em software Statdisk. Figura 1 – Gráfico boxplot dos dados 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 7/15 Fonte: elaborada com base no software Statdisk. Na escala de cima se coloca os valores da variável X, as pontas da linha são os valores mínimo e máximo do conjunto de dados, os outros três valores destacados são o primeiro quartil (11,5), o segundo quartil (22), que sempre é igual à mediana, e o terceiro quartil (26,5). A escala de baixo mostra os valores possíveis da amostra. Intervalos menores entre os valores indicam que dados são mais concentrados, por exemplo, um quarto dos valores está entre 10 e 11,5 unidades, já o último quarto de valores está menos concentrado, já que varia de 26,5 a 36. O conceito de separatrizes e gráficos como o boxplot ajudam a analisar resumidamente como os dados estão distribuídos e os pontos de concentração de forma parecida às tabelas de distribuição de frequência e histogramas. No exemplo, foi utilizado quartis, mas outras medidas como quintis, decis e percentis poderiam ter sido utilizadas. TEMA 4 – MEDIDAS DE DISPERSÃO Dispersão é o quanto os valores de um conjunto de dados variam entre si. Quanto mais próximos os dados estiverem entre si, menor a dispersão e vice-versa (Triola, 2006). A primeira medida de dispersão analisada é a amplitude. 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 8/15 A amplitude é a diferença entre o valor máximo e o mínimo de um conjunto de dados. Organizando-se os dados em ordem crescente ou simplesmente utilizando um software estatístico, é fácil obter essa estimativa, mas sua utilidade prática é pequena, já que em seu cálculo ela considera somente dois valores extremos de um conjunto de dados, ignorando todas as outras unidades (Triola, 2006). A amplitude não diz nada sobre a distribuição dos dados, não indica se eles estão concentrados perto de um dos extremos ou do outro ou de qualquer outro valor em particular. Considerando nosso conjunto de dados fictício. X – 10, 11, 12, 22, 22, 25, 28, 36. Amplitude = valor máximo - valor mínimo = 36 – 10 = 26. TEMA 5 – VARIÂNCIA E DESVIO PADRÃO As medidas de dispersão mais utilizadas são o desvio padrão e a variância. Ambas utilizam em seu cálculo a média e são interpretadas como o grau de variação dos dados em relação à média. Começando pela variância, ela é calculada pelo somatório de cada valor de X subtraído da média, tudo elevado ao quadrado e dividido pelo tamanho da população ou pelo tamanho da amostra menos um. O Quadro 2 mostra as fórmulas e componentes da variância, que são levemente diferentes se conjunto de dados é uma população ou amostra. Quadro 2 – Fórmula e componentes da variância populacional e amostral Variância populacional Variância amostral Onde: (sigma ao quadrado) é a variância populacional é o somatório de cada valor Xi subtraído da média populacional elevado ao quadrado N é o tamanho da população Onde: é a variância amostral é o somatório de cada valor Xi subtraído da média amostral elevado ao quadrado n – 1 é o tamanho da amostra menos um Fonte: Barbosa, 2021. 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 9/15 Retomando o conjunto de dados fictícios, calcula-se sua variância considerando o conjunto uma população e uma amostra. Os cálculos são relativamente trabalhosos, por isso se utilizou o software Statdisk. X – 10, 11, 12, 22, 22, 25, 28, 36. A variância populacional é menor que a amostral porque na fórmula da variância amostral a divisão ocorre por n-1 e não por N. A unidade de medida da variância é a mesma da variável X, só que elevada ao quadrado, não tendo assim uma interpretação direta, no exemplo seria 74,2 ou 84,8 unidades ao quadrado, uma unidade de medida diferente e não diretamente comparável à unidade de medida dos dados e das medidas de posição. Para corrigir esse problema, usa-se o desvio padrão, que é derivado da fórmula da variância, mas que pertence à mesma unidade de medida da variável X e das outras medidas de posição, sendo assim facilmente interpretável. Sua fórmula e componentes estão no Quadro 3. Quadro 3 – Fórmula e componentes do desvio padrão populacional e amostral Desvio padrão populacional Desvio padrão amostral Onde: (sigma) é o desvio padrão populacional é o somatório de cada valor Xi subtraído da média populacional elevado ao quadrado N é o tamanho da população Onde: é o desvio padrão amostral é o somatório de cada valor Xi subtraído da média amostral elevado ao quadrado n – 1 é o tamanho da amostra menos um Fonte: Barbosa, 2021. Retomando nosso conjunto de dados fictício e utilizando o Statdisk para a realização dos cálculos. 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 10/15 X – 10, 11, 12, 22, 22, 25, 28, 36. 8,6 9,2 O desvio padrão amostral é maior que o populacional pela mesma razão das variâncias, o denominador do primeiro é n-1 e do segundo é N. O valor está na mesma escala da variável original, a média é de 20,75 unidades, o desvio padrão é de 8,6 ou 9,2 unidades de variação em relação à média. O desvio-padrão mede a variação de todos os valores do conjunto de dados em relação à média, tanto para o lado esquerdo quanto para o lado direito da média. Assim como a variância, seu valor pode ser positivo ou zero, caso todos os valores do conjunto de dados sejam iguais, mas ele nunca é negativo. Tem a vantagem de considerar todos os dados em seu cálculo e a desvantagem de ser influenciado pela presença de outliers. As fórmulas dos desvios-padrão são similares às das variâncias, só se extrai a raiz quadrada do valor calculado das variâncias para se obter os desvios - padrão e se eleva os valores dos desvios-padrão ao quadrado para se obter as variâncias. Entendidos esses conceitos, podemos realizar uma análise estatística descritiva do conjunto de dados real a seguir. A Tabela 2 mostra a taxa de crescimento econômico percentual de um trimestre acumulada em relação aos quatro trimestres anteriores entre 2016 e 2021. Por exemplo, a taxa de crescimento de 0,1% no 3º trimestre de 2017 reflete a um aumento no valor do PIB de apenas 0,1% entre o 3º trimestre de 2016 e o 3º trimestre de 2017. Tabela 2 – Taxa de crescimento econômico trimestral – acumulado dos quatro trimestres anteriores Trimestre Taxa de crescimento – em % 1º trimestre 2016 -4,4 2º trimestre 2016 -4,5 3º trimestre 2016 -4,1 4º trimestre 2016 -3,3 1º trimestre 2017 -1,9 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 11/15 2º trimestre 2017 -0,9 3º trimestre 2017 0,1 4º trimestre 2017 1,3 1º trimestre 2018 1,7 2º trimestre 2018 1,9 3º trimestre 2018 2 4º trimestre 2018 1,8 1º trimestre 2019 1,6 2º trimestre 2019 1,6 3º trimestre 2019 1,4 4º trimestre 2019 1,4 1º trimestre 2020 1 2º trimestre 2020 -2,1 3º trimestre 2020 -3,4 4º trimestre 2020 -4,1 1º trimestre 2021 -3,8 2º trimestre 2021 1,8 Fonte: SCNT – IBGE, 2021. Os dados foram colocados no Statdisk on-line e analisados ao se pressionar a aba Data e a opção Explora Data – Descriptive Statistics. As estatísticas obtidas estão resumidas na Tabela 3. Tabela 3 – Estatísticas da taxa de crescimento trimestral acumulada de quatro trimestres do Brasil Estatística Valor Média - 0,677% Mediana 0,55% Variância 6,55 Desvio-padrão 2,56% 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 12/15 Amplitude 6,5% Valor mínimo - 4,5% Primeiro quartil - 3,4% Segundo quartil 0,55 Terceiro quartil 1,6 Valor máximo 2 Fonte: elaborada com base em software on-line Statdisk.Nota-se que as taxas de crescimento brasileiras foram bem baixas no período de 2016 a 2021, refletindo a recessão que o país vem passando há anos. A taxa média de crescimento é na verdade negativa – 0,677%, a mediana é positiva e relativamente pequena (0,55%), indicando que a maioria das taxas é positiva, mas baixa. O desvio-padrão de 2,56% indica uma variação considerável das taxas de crescimento do período. A taxa mínima foi de –4,5% no segundo trimestre de 2016, ou seja, período de recessão aguda, e a maior de 2%, relativamente baixa, já que os dados consideram os quatro trimestres anteriores. Essas estatísticas relativamente simples já nos permitem fazer um panorama relativamente detalhado do crescimento brasileiro do período recente. A principal conclusão é que as taxas de crescimento foram negativas ou muito baixas no período, prejudicando o desempenho econômico nacional. TROCANDO IDEIAS Em um fórum de discussão, discuta os problemas que podem surgir da má interpretação de medidas de posição e/ou dispersão da estatística em situações do cotidiano. NA PRÁTICA A lição proposta é acessar o software estatístico Statdisk on-line, como no conteúdo anterior, calcular as medidas de posição e dispersão do conjunto de dados descrito a seguir e interpretar seus resultados. Os dados são a renda familiar per capita das unidades federativas brasileiras em 2019, já explorados em outro momento e expressos na Tabela 4. Tabela 4 – Renda familiar per capita das unidades federativas brasileiras em 2019 - em R$ 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 13/15 Rondônia 1111 Acre 890 Amazonas 838 Roraima 1050 Pará 795 Amapá 874 Tocantins 1038 Maranhão 637 Piauí 831 Ceará 939 Rio Grande do Norte 1042 Paraíba 909 Pernambuco 954 Alagoas 729 Sergipe 970 Bahia 912 Minas Gerais 1331 Espírito Santo 1440 Rio de Janeiro 1809 São Paulo 1889 Paraná 1586 Santa Catarina 1709 Rio Grande do Sul 1812 Mato Grosso do Sul 1491 Mato Grosso 1361 Goiás 1284 Distrito Federal 2599 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 14/15 Fonte: PNAD IBGE, 2021. Passos para a realização da atividade: 1. Acesso ao site do Statdisk; 2. Entre em sua conta; 3. O programa vai abrir sua página inicial com uma planilha vazia; 4. Copie e cole as duas colunas descritas anteriormente; 5. Após colar, clique em Data na barra superior e na opção Explore Data – Descriptive Statistics (Explore os dados – Estatísticas Descritivas); 6. Após abrir a janela, clique em Select Column e coloque a opção 2, já que a primeira coluna ficou com o nome das unidades federativas e a segunda com os dados; 7. Clique em Evaluate (Valorar/Calcular) no retângulo verde; 8. Observe, à esquerda, um conjunto de estatísticas descritivas que será calculado para o conjunto de dados e à direita um histograma será apresentado; 9. Entre as estatísticas calculadas, identifique Sample Size n (tamanho amostral n), mean (média), median (mediana), variance (variância), standard deviation (desvio padrão), range (amplitude), minimum (mínimo), 1st quartile (primeiro quartil), 2nd quartile (segundo quartil), 3rd quartile (terceiro quartil), maximum (máximo). Todas são medidas em reais, exceto a variância, que é medida em reais ao quadrado; 10. Interprete essas estatísticas, o que elas dizem sobre a distribuição da renda familiar per capita entre as unidades federativas do Brasil. Caso não disponha de um computador ou não consiga realizar a lição proposta, procure calcular à mão ou em uma calculadora ao menos a média, mediana e desvio-padrão desse conjunto de dados e interprete os resultados. FINALIZANDO Nesta aula aprendemos sobre algumas medidas que nos ajudam a sintetizar características de conjuntos de dados. Essas medidas estão entre os conceitos fundamentais de toda a estatística e são utilizadas em uma variedade de aplicações. Entender a lógica dessas medidas e como interpretá-las é importante para nosso avanço nos próximos conteúdos. 16/06/2022 21:26 UNINTER https://univirtus.uninter.com/ava/web/roa/ 15/15 REFERÊNCIAS PNAD IBGE (2021). PNAD – Pesquisa Nacional por Amostra de Domicílios. Disponível em: <https://www.ibge.gov.br/estatisticas/sociais/rendimento-despesa-e-consumo/9127-pesquisa- nacional-por-amostra-de-domicilios.html?=&t=o-que-e>. Acesso em: 4 set. 2021. SCNT – IBGE (2021). Sistema de Contas Nacionais Trimestrais. Disponível em: <https://www.ibge.gov.br/estatisticas/economicas/contas-nacionais/9300-contas-nacionais- trimestrais.html?=&t=series- historicas&utm_source=landing&utm_medium=explica&utm_campaign=pib#evolucao-taxa>. Acesso em: 7 set. 2021. TRIOLA, M. F. Capítulo 3 – Estatísticas para a descrição, exploração e comparação de dados. In: TRIOLA, M. F. Estatística elementar. 10. ed. Boston: Pearson Prentice Hall, 2006, p. 74-135.
Compartilhar