Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Básica – Prof. Adriana Andrade 1 UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE MATEMÁTICA PROF.: ADRIANA ANDRADE NOTAS DE AULA ESTATÍSTICA DESCRITIVA Estatística Básica – Prof. Adriana Andrade 2 Sumário 1 – Apresentação da Disciplina .................................................................................................................. 3 2 – Variáveis .............................................................................................................................................. 3 3 – Apresentação dos resultados para Variáveis Qualitativas .................................................................... 4 4 – Apresentação dos resultados para Variáveis Quanitativas ................................................................... 8 5 – Somatório ........................................................................................................................................... 14 6 - Medidas de Posição ............................................................................................................................ 14 7 - Quantis (Separatrizes) ......................................................................................................................... 16 8 - Medidas de Dispersão ......................................................................................................................... 17 9 - Formas da Distribuição ....................................................................................................................... 18 10 – Boxplot ............................................................................................................................................. 19 11 – Medidas de Posição para Dados Agrupados em Tabelas de Frequência ......................................... 20 12 - Análise Bidimensional ..................................................................................................................... 23 12.1 - Associação entre Duas Variáveis Quantitativas ................................................................ 23 12.2 – Associação entre Duas Variáveis Qualitativas .................................................................. 25 Estatística Básica – Prof. Adriana Andrade 3 1 – Apresentação da Disciplina Objetivo da Disciplina: apresentação de conceitos e procedimentos elementares da Estatística. Motivação: Usamos estatística diariamente, independente de termos ou não feito um curso de estatística! Os métodos estatísticos estão presentes em diversas áreas, tais como na pesquisa em medicina bem como na análise de marketing sobre avaliações de programas de TV. Definição de estatística: conjunto de princípios e procedimentos que orientam a coleta, o processamento, a organização e a análise de informações utilizadas na tomada de decisão quando há presença de incertezas. Nesta disciplina serão apresentados métodos para: Organizar Descrever Detectar padrões, relações e diferenças Tomar decisões com base nas evidências estatísticas Esquema Estatística Descritiva 2 – Variáveis Variável – Característica observada em um grupo. Pode ser representada por uma letra maiúscula. Tipos de Variável 1 – Variável Qualitativa – resultante de uma classificação por qualidade, tipo ou atributo. Pode decorrer da identificação de um conteúdo. Permite a descrição da diferença entre tipos e elementos indicando a presença ou ausência de uma característica ou propriedade. É formada por categorias. 1.1 – Nominais – categoria apenas “nomeia” o que a variável mensura 1.2 – Ordinais – existe uma ordem entre as categorias possíveis 2 – Variável Quantitativa – mensura quantidade / valor. As diferenças são estabelecidas com base em quantidades relativas a um grau ou a uma distância. É formada por números. 2.1 – Discretas – resultam de contagem e são expressas por números inteiros. 2.2 – Contínuas – resultam de mensuração e são expressas por números reais. Pergunta Problema Hipótese Processamento Tabelas Gráficos Medidas Análise Coleta de dados Estatística Básica – Prof. Adriana Andrade 4 3 – Apresentação dos resultados para Variáveis Qualitativas Após procedermos à coleta de informações sobre um tema do nosso interesse, a próxima etapa da investigação diz respeito ao processamento e apresentação dos dados. Em nosso curso, inicialmente, iremos abordar duas formas de apresentação dos resultados: tabelas de distribuição de freqüências e gráficos. 3.1 – Tabela de Distribuição de Freqüências A forma mais elementar de apresentar os resultados de uma variável é feita a partir da contagem dos resultados possíveis que foram observados. Essa contagem é denominada distribuição de freqüências. Esquema de Tabela para Variáveis Qualitativas Variável Freqüência Absoluta (ni) FreqüênciaRelativa (Proporção) fi Freqüência Relativa (Porcentagem) (%) Categoria 1 n1 f1 f1 x 100 Categoria 2 n2 f2 f2 x 100 .... ... ... ... Categoria k nk fk fk x 100 Total n = n1+n2+...+nk = k i in 1 1 = f1 + ...+fk= k i if 1 100 Fonte: Aula de Estatística – 2° Sem/2008 – Prof. Adriana Andrade. Comparando distribuições – Frequência Relativa Uma forma de comparar grupos considerando a diferença entre os seus respectivos tamanhos pode ser obtida pela padronização da distribuição de freqüência absoluta pelo tamanho dos grupos. Essa padronização ocorre quando calculamos a proporção de casos. Analfabetismo nos municípios do RJ - 2010 Município Analfabetos População Total % Seropédica 5.099 72.907 7,0 Rio de Janeiro 248.539 5.956.414 4,2 Fonte: Censo demográfico 2010 - IBGE Nota: Foram contabilizados apenas os maiores de 5 anos. Descrição dos Elementos da tabela As tabelas devem seguir um padrão dado por uma resolução da ABNT. Esta resolução estabelece que as tabelas devem conter: 1 - Título: é a indicação que, precedendo a tabela, é colocada na parte superior. Em geral deve conter o suficiente para que sejam respondidas as seguintes questões: O quê? (referente ao fato) Onde? (relativo ao lugar) Quando? (corresponde à época) 2 - Cabeçalho: onde são especificadas os componentes da tabela. 3 – Corpo: é representado por colunas e subcolunas dentro das quais as informações serão apresentadas. Linhas e colunas que contém as séries. 4 – Rodapé: destinado para notas, observações pertinentes, bem como a identificação da fonte dos das informações apresentadas. Esclarecimentos de ordem geral. Estatística Básica – Prof. Adriana Andrade 5 As tabelas devem: Ser fechadas no alto e embaixo, por linhas horizontais. Não serem fechadas à direita e à esquerda por linhas verticais Os traços verticais para separação das colunas do corpo da tabela são facultativos. Exemplo: Variável Sexo Distribuição de freqüência da variável Sexo dos alunos Sexo ni fi % Feminino n1 f1 f1 x 100 Masculino n2 f2 f2 x 100 Total n = n1+n2 = 2 1i ni f1 + f2 = 2 1i fi =1 100 Fonte: Aula de Estatística – 1° Sem/2008 – Prof. Adriana Andrade. 3.2 – Tipos de Gráficos para Variáveis Qualitativas Gráfico necessita ter título, padrões de cores e tamanho de fontes adequados. Assim como fonte e legenda.3.2.1 – Gráfico de Setores / Pizza Consiste em um círculo cujos setores (isto é, partes do mesmo círculo) somam 100%. São adequados para comparar o quanto que uma categoria representa sobre o total de casos, bem como para comparar o peso relativo das categorias. Estatística Básica – Prof. Adriana Andrade 6 3.2.2 – Gráfico de Colunas / Barras Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as freqüências ou porcentagens no eixo das ordenadas. Cada categoria será representada por uma barra cuja altura corresponderá às freqüências. Escalas: devem começar em zero. Adequado Inadequado 34 25 0 5 10 15 20 25 30 35 40 Marca A Marca B Itens vendidos % % Estatística Básica – Prof. Adriana Andrade 7 3.2.3 – Gráfico de Coluna/Barra para duas variáveis Este gráfico também é adequado para apresentar a informação relativa a duas ou mais variáveis. Distribuição Percentual do Conceito segundo sexo do aluno de Estatística Básica Conceito Sexo Total Feminino Masculino Aprovado 56 39 45 (22) Reprovado 44 61 55 (27) Total 100 (16) 100 (33) 100 (49) 56 39 44 61 0 20 40 60 80 100 Feminino Masculino Distribuição Percentual da variável coneceito segundo sexo do aluno Reprovado Aprovado 3.2.4 – Pictogramas Gráfico no qual os dados são representados por desenhos ou imagens. Geralmente, são utilizadas figuras ou símbolos alusivos ao problema em estudo. Vantagem: fácil leitura e possui grande atrativo. Desvantagem: distorção das escalas e da proporcionalidade. Média de anos de estudo da população ocupada com 16 anos ou mais de idade, segundo sexo e cor/raça. Brasil, 1996 e 2007 Fonte: Retrato 2008 - 3ª ed - Ipea Estatística Básica – Prof. Adriana Andrade 8 4 – Apresentação dos resultados para Variáveis Quanitativas 4.1 – Tabela para Variáveis Quantitativas Para a realização de tabelas para variáveis quantitativas, iremos construir classes, intervalos ou faixas de valores e contar o número de ocorrências relativas a cada faixa, ou seja, iremos fazer uma agregação dos valores da variável. Esse procedimento evita a construção de tabelas com muitas linhas o que dificulta a análise da informação. Resumindo, iremos trabalhar com uma tabela de classes ou intervalos da variável de interesse. Como agrupar os valores de uma variável quantitativa – Calcular a Amplitude de variação dos valores – Amplitude Total (AT) – Especificar Número de classes (k) – Definir a Amplitude de Classes (h) 1) Amplitude Total É a diferença entre o maior valor observado da variável (Xmax) e o menor (Xmin), fornece o intervalo de variação dos dados. AT = Xmax - Xmin Varáveis com pequena amplitude total podem apresentar pouca variabilidade. Já as variáveis com grande amplitude podem possuir elevada variabilidade entre seus valores observados. Exemplo 1 - Variável número de filhos tidos por estudantes na Rural Valores possíveis: 0 1 2 Percebemos que há pouca variação nos dados, cujo intervalo de variação é dado por: 2-0 = 2 Exemplo 2 – Variável idade dos habitantes do município de Seropédica Valores possíveis: 0, 1, 2, 3, ..., 100, 101, 102. Percebemos que há uma grande variação nos dados, cujo intervalo de variação é dado por: 102-0 = 102. No exemplo 1, podemos enumerar todos os valores possíveis da variável em uma tabela sem maiores dificuldades. Porém, os dados do exemplo 2 para serem dispostos em uma tabela necessitam de uma agrupação dos seus possíveis valores em faixas / classes / intervalos. 2) Especificar o Número de Classes (k) Depois de conhecermos a Amplitude dos dados da variável sob estudo, precisaremos definir o número de classes (k) que iremos utilizar na construção de nossa tabela. Perceba que a amplitude total e o número de classes devem ser considerados conjuntamente para construirmos a tabela de classes. Se a amplitude for muito grande, provavelmente, precisaremos de um número maior de classes. No entanto, essa orientação é limitada, pois o número de classes não varia proporcionalmente com o tamanho de n. Estatística Básica – Prof. Adriana Andrade 9 Na nossa disciplina, iremos utilizar a seguinte regra para especificar o número de classes: nk Comparação entre n e k n k= n 1 1 10 3 20 4 40 6 80 9 160 13 240 15 320 18 400 20 3) Definição da Amplitude de Classe (h) Agora que já sabemos definir o número de classes, coloca-se a questão: qual o tamanho da classe ou qual a amplitude da classe? Quais serão os limites da classe? A amplitude da classe (h) é obtida por: k AT h Com a aplicação dessa expressão iremos obter classes de mesmo tamanho, ou seja, de igual amplitude. O h é uma constante, nesse caso. O pesquisador pode definir o número de classes e os seus respectivos limites baseando-se em sua experiência sobre a variável estudada. Em geral, utilizamos faixas de mesmo tamanho / amplitude. Porém, faixas de tamanho desigual podem ser convenientes para representar valores extremos. Exemplo: Acima de 30 anos. A definição do número de classes dependerá também do interesse do pesquisador. Indicação dos valores que delimitam a classe |-- fechado à esquerda (inclui valor) e aberto à direita (exclui valor). [a,b) Estatística Básica – Prof. Adriana Andrade 10 Exemplo: Análise da variável peso dos alunos do sexo feminino – 2/2008 49 67 54 56 61 51 59 48 52 62 54 53 50 48 53 59 50 70 49 58 77 48 59 50 48 Etapas da Tabela Cálculo da Amplitude Total: AT = =29 Cálculo do número de classes: 525 nk Cálculo do tamanho da classe: 68,5 5 29 5 4877 h Distribuição de freqüência peso dos alunos do sexo feminino – 2/2008 Peso Frequência Absoluta (ni) Frequência Relativa (fi) Percentual (%) Frequência Acumulada (fac%) 48|-- 54 13 0,52 52 52 54|-- 60 7 0,28 28 80 60|-- 66 2 0,08 8 88 66|-- 72 2 0,08 8 96 72|-- 78 1 0,04 4 100 Total 25 1 100 - Freqüência Acumulada fac % - A freqüência acumulada indica quantos elementos ou que porcentagem deles estão abaixo de um certo valor. É obtida pela soma das freqüências de todos os valores da variável menores ou iguais ao valor considerado. ANÁLISE DAS INFORMAÇÕES EM UMA TABELA Os dados em formato de tabela possibilitam a identificação das características e da forma da distribuição de frequência. Devemos observar: - Se a frequência é igual em todas as categorias/classes; - Se cresce ou diminui ao longo da tabela; - Se começa pequena, aumenta e diminui; - Concentrações; - Lacunas Ramo e folha: gráfico que possibilita a organização rápida dos dados. Divide os valores em duas partes: uma será o ramo e o que sobrar constituirá as folhas. A idéia geral é usar os primeiros dígitos de cada valor da variável estudada como ramo e os demais como folhas. Etapas: 1 – Coloque os ramos empilhados numa coluna separados por uma linha vertical; 2 – As folhas serão representadas pelodígito posterior ao ramo; 3 – Usualmente, faz-se a ordenação das folhas dentro de cada ramo. 49 67 54 56 61 51 59 48 52 62 54 53 50 48 53 59 50 70 49 58 77 48 59 50 48 4 8 8 8 8 9 9 5 0 0 0 1 2 3 3 4 4 6 8 9 9 9 6 1 2 7 7 0 7 Estatística Básica – Prof. Adriana Andrade 11 Observações: - Não podemos omitir ramos sem folhas; - Caso ocorra uma elevada concentração de folhas em poucos ramos, podemos subdivir os ramos: 5ª - 0 1 2 3 4 5b - 5 6 7 8 9 4.2 – Tipos de Gráficos para Variáveis Quantitativas 4.2.1 - Coluna / Barra – segue a mesma definição dada para os dados qualitativos. A diferença é que devemos sempre seguir a ordem da variável. Adequado para as variáveis discretas. 4.2.2 - Gráfico de Séries Temporais - serve para representar uma série temporal, ou seja, dados coletados em diferentes momentos do tempo. Fonte: Pesquisa Ibope com 2.506 eleitores. Margem de erro: 2% Estatística Básica – Prof. Adriana Andrade 12 4.2.3 – Histograma de Densidade de Frequência Gráfico de barras contíguas, com as bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva freqüência. No eixo das abscissas temos os intervalos de classes e no eixo das ordenadas as densidades de freqüência (absoluta, relativa ou percentual). Adequado para as variáveis contínuas Este gráfico representa a frequência pela área e não pela altura. Utilizado para representação de variáveis com intervalos com diferentes amplitudes de classe (hi). A densidade é obtida pelo quociente entre a freqüência e a amplitude da classe. i i i h freq d , onde freqi pode ser ni fi ou % A área de cada retângulo será igual a frequência de cada classe; No caso de classes de igual tamanho, a amplitude h é constante, então o gráfico apresentará retângulos de igual base; A vantagem em trabalhar com a densidade de freqüência é evitar que o histograma fique distorcido quando diferentes amplitudes são utilizadas na construção das classes; Distribuição de freqüência da variável número de salários mínimos recebidos por funcionários de uma loja. Classes ni fi hi di hi x di 1|--3 6 0,3 2 0,15 0,30 3|--5 8 0,4 2 0,20 0,40 5|--|10 6 0,3 5 0,06 0,30 Total 20 1 - 0,41 1 Estatística Básica – Prof. Adriana Andrade 13 Histograma de Densidade - Distribuição Salarial Salários D e n s id a d e 2 4 6 8 10 0 .0 0 0 .0 5 0 .1 0 0 .1 5 0 .2 0 0.15 0.2 0.05 Histograma de Frequência Adequado para as variáveis contínuas agrupadas em classes de igual tamanho. 4.2.4 - Polígono de freqüência Utiliza segmentos de reta que ligam os pontos médios das classes em um histograma. Facilita a comparação de dois conjuntos de dados dispostos em histogramas ou em tabelas. Peso Pmi %_fem %_masc 48|-- 54 51 45 5 54|-- 60 57 23 19 60|-- 66 63 15 45 66|-- 72 69 17 31 0 5 10 15 20 25 30 35 40 45 50 45 51 57 63 69 75 % Peso Polígono de Frequência - Variável Peso segundo Sexo do aluno Feminino Masculino Peso fi 48|-- 54 0,52 54|-- 60 0,28 60|-- 66 0,08 66|-- 72 0,08 72|-- 78 0,04 Total 1 Estatística Básica – Prof. Adriana Andrade 14 5 – Somatório A notação de somatório é frequentemente utilizada nas fórmulas de algumas medidas estatísticas. Sua utilidade reside no fato de que o somatório representa de forma resumida a operação de soma de várias parcelas. Para desenvolver um somatório, temos de substituir o valor do índice em cada uma das parcelas e, em seguida realizar, a soma dessas parcelas. Seja X uma variável formada pelos seguintes valores: X = {3, 5, 1, 6, 2} A soma dos valores de X pode ser representada utilizando o somatório dos seus valores dado por n i ix 1 : 1726153 5 1 i ix Algumas propriedades relacionadas ao somatório: 1. )(...)()()( 332211 1 nn n i ii yxyxyxyxyx = n i ix 1 + n i iy 1 2. n i inn n i i xkxxxxkkxkxkxkxkx 1 321321 1 )...(... 3. 2 11 2 n i i n i i xx 4. n i i n i i n i ii yxyx 111 6 - Medidas de Posição Valores que representam a distribuição da variável estudada. 6.1 – Moda (Mo): Categoria / valor que ocorre com mais freqüência na distribuição da variável. Adequada para variáveis qualitativas e quantitativas. Propriedades da Moda: 1. Não depende de todos os valores da variável; 2. Sempre é representada por um dos valores da variável; 3. Não é influenciada por valores atípicos da variável; O que é um valor atípico da variável? Valor que destoa em magnitude dos demais valores do conjunto estudado. Também é denominado de outlier. Identificação: Uma das formas é calcular a AT da distribuição com e sem o valor sob suspeita de ser atípico. Estatística Básica – Prof. Adriana Andrade 15 6.2 – Mediana (Md): valor que ocupa a posição central na distribuição de freqüência da variável quando esta se encontra ordenada. Rol: é a ordenação dos valores observados da variável em ordem crescente. A mediana deixa 50% da distribuição abaixo dela e 50% acima. Propriedades da Mediana 1. Não depende de todos os valores da série, podendo não se alterar com a modificação de alguns deles; 2. Não é influenciada pelos valores atípicos da série. 6.3 – Média Aritmética ( x ): é a soma de todos os valores da variável dividida pelo número de valores observados. A média de uma variável X é dada por n x n xxxx x n i i n 1321 ... Propriedades da média aritmética: 1. Por depender de todos os valores observados, qualquer modificação nos dados fará com que a média fique alterada; 2. É única em um conjunto de dados e nem sempre tem existência real, ou seja, nem sempre é igual a um determinado valor observado, tal como ocorre com a mediana; 3. É afetada por valores atípicos observados, o que a torna uma medida inadequada para representar variáveis com valores atípicos ou conjunto de dados com valores discrepantes/atípicos; 4. A soma da diferença de cada valor observado em relação à média é zero, ou seja, a soma dos desvios é zero. 00)( 1111 xnxxxxx n i i n i n i i n i i 5. A soma dos quadrados dos desvios tomados em relação à média aritmética é um mínimo. Qualquer valor que não seja a média aritmética resultará em um valor superior a n i i xx 1 2)( ; 6. Somando ou subtraindo uma constante não nula aos valores da distribuição da variável, a média aritmética receberá a soma ou subtração da constante. 7. Multiplicando ou dividindo uma constante não nula aos valores da variável, a média ficara multiplicada ou dividida pela constante; Obs.: As duas propriedades 6 e 7d a Média valem também para a Moda e para a Mediana. 8. O produto da média aritmética e o número de observações fornece o total da variável observada. n i ixnx 1 Estatística Básica – Prof. Adriana Andrade16 Média ponderada: utilizada quando há interesse em atribuir pesos diferentes entre os valores da distribuição, ou seja, os valores não possuem a mesma importância n i i n i ii n nn p p px ppp pxpxpxpx x 1 1 21 332211 ... ... 7 - Quantis (Separatrizes) Os quantis (separatrizes) são quantidades que dividem a distribuição de valores em grupos do mesmo tamanho. Os principais quantis são: quartis, decis e os percentis. Quartil: os quartis dividem a distribuição em quatro partes de mesmo tamanho (Q1,Q2,Q3). 0 25% 50% 75% 100% Q1 Q2=Md Q3 Decil: os decis dividem a distribuição em 10 grupos de mesmo tamanho (D1,D2,...,D9). 0 10% 50% 90% 100% D1 D5=Q2=Md D9 Percentil: os percentis dividem a distribuição em 100 grupos de mesmo tamanho (P1,P2,...,P99). Quadro 1 – Fórmula para obtenção da Posição dos Quantis Quantil Fórmula para obter posição Quartil Q1 PQ1 = 0,25(n+1) Q2 PQ2 = 0,50(n+1) Q3 PQ3 = 0,75(n+1) Decil D1 PD1 = 0,10(n+1) D2 PD2 = 0,20(n+1) ... ... D9 PD9 = 0,90(n+1) Percentil P1 PP1 = 0,01(n+1) P10 PP10 = 0,10(n+1) ... ... P99 P99 = 0,99(n+1) Exemplo: Variável – tempo de espera em atendimento de ambulatório Posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Valor 34 43 46 58 63 63 66 68 71 72 73 73 75 76 82 83 86 90 91 93 95 Q1 D4 Md P60 Q3 Md Q1 Q3 D4 P60 Posição 11 5,5 16,5 8,8 13,2 Valor 73 63 84,5 69,5 75,5 Estatística Básica – Prof. Adriana Andrade 17 8 - Medidas de Dispersão As medidas de dispersão auxiliam a descrição dos dados realizada a partir das medidas de posição, sobretudo as de tendência central (média, moda e mediana). Elas fornecem informações se os dados estão ou não próximos uns dos outros, bem como se as medidas utilizadas são adequadas para representar o conjunto de dados. Da mesma forma que é importante descobrir qual valor representa a tendência do conjunto, é relevante obter uma medida resumo de como as observações se posicionam em relação a esse padrão. 8.1 – Amplitude Total (AT): É a diferença entre o maior e o menor valor do conjunto de dados. Fácil de calcular, mesmo para grandes conjuntos de dados, e de fácil entendimento. Sua limitação reside em não considerar os valores intermediários perdendo a informação de como os dados estão distribuídos e/ou concentrados. AT = Xmax - Xmin 8.2 – Amplitude Interquartílica (AI): É a diferença entre o terceiro e o primeiro quartil. Esta medida é mais estável que a amplitude total por não considerar os valores mais extremos. Esta medida abrange 50% dos dados e é útil para identificar valores atípicos. AI = Q3-Q1 8.3 – Variância e Desvio padrão: são medidas que mensuram o grau de dispersão de um conjunto de dados em relação à média. A variância que é definida por: 2 1 2 1 2 )( x n x n xx XVAR n i i n i i Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades quadráticas, o que dificulta a sua interpretação. Esse problema é resolvido extraindo-se a raiz quadrada da variância, definindo-se, assim, o desvio padrão: 2 1 2 1 2 )( x n x n xx XDP n i i n i i A unidade do desvio padrão é a mesma da média. Por exemplo, se a média é em reais, o desvio padrão também se exprime em reais. A variância, por outro lado, se exprime em quadrados de unidades (ex. reais²) Propriedades das Medidas de Dispersão 1. Todas as medidas de dispersão são não negativas; 2. Somando-se uma mesma constante não nula (k) a todas as observações, as medidas de dispersão não se alteram, pois ocorre apenas uma translação dos valores; 3. Quando somamos ou subtraímos uma constante (k) a todos os valores de uma variável (X), a sua VARIÂNCIA fica INALTERADA, pois a variância de uma constante é igual a zero; 4. Quando multiplicamos ou dividimos todos os valores de uma variável (X) por uma constante, a sua VARIÂNCIA fica multiplicada ou dividida pelo QUADRADO da constante 5. Quando multiplicamos ou dividimos todos os valores de uma variável (X) por uma constante (k), o seu DESVIO PADRÃO fica multiplicado ou dividido pela constante. 6. Quando somamos ou subtraímos uma constante (k) a todos os valores de uma variável (X), o seu DESVIO PADRÃO fica INALTERADO, pois o desvio padrão de uma constante é igual a zero. Estatística Básica – Prof. Adriana Andrade 18 8.4 – Coeficiente de Variação É uma medida de dispersão relativa definida como a razão entre o desvio padrão e a média. O resultado é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem. Então: 100 )( )( X XDP XCV A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados e, conseqüentemente, se a média é uma boa medida para representar esses dados. É utilizado também para comparar conjuntos com unidades de medidas distintas. Quanto mais próximo de zero, mais homogêneo é o conjunto de dados e mais representativa será sua média. 9 - Formas da Distribuição 9.1 – Simetria e Assimetria: Podemos avaliar graficamente o formato de uma distribuição de freqüência de uma variável a partir da relação entre a média, a moda e a mediana. Uma distribuição é dita simétrica quando apresenta o mesmo valor para a moda, a média e a mediana. Há uma convergência, uma concentração dos valores da distribuição em torno das medidas de tendência central. Quando esta igualdade não acontece, temos uma distribuição assimétrica. Coeficiente de Assimetria: É o grau de desvio, ou afastamento da simetria, de uma distribuição. Usado apenas em séries unimodais, é a quantificação do quão assimétrica é a distribuição. )( )( XDP MoX Ia Ia = 0 : MoX a distribuição simétrica Ia < 0 : MoX a distribuição é assimétrica à esquerda ou possui uma assimetria negativa Ia > 0 : MoX a distribuição é assimétrica à direita ou possui uma assimetria positiva 9.2 – Curtose: Curtose é o grau de achatamento da distribuição da variável. O quanto uma curva de freqüência será achatada em relação a uma curva normal de referência. Temos três padrões básicos de curtose: 1 – Mesocúrtica: a curva da distribuição da variável não é muito achatada, nem muito afilada. Dados bem distribuídos em torno da média; 2 – Platicúrtica: curva da distribuição da variável bem achatada. Elevada dispersão; 3 – Leptocúrtica: – curva da distribuição da variável é bem afilida. Baixa dispersão. Estatística Básica – Prof. Adriana Andrade 19 Temos uma expressão para quantificar o grau de curtose de uma variável: Coeficiete de Curtose )(2 1090 13 PP QQ Ip Ip = 0,263 Mesocúrtica Ip < 0,263 Leptocúrtica Ip > 0,263 Platicúrtica Exemplo: Variável Idade Posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Valor 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 70,0 5 2055,23 )( )( XDP MoX Ia 20,0 5,185,322 205,25 )(2 1090 13 PP QQ Ip 10 – Boxplot Gráficoque possibilita a análise da forma, dispersão e posição dos dados. Representação gráfica do quartis. Permite visualização rápida do centro, dispersão e (as)simetria dos dados, mais a eventual presença de valores extremos. Ideal para comparar mais de uma variável. Etapas de Contrução 1 – Construa um eixo com os valores da variável; 2 – Construa uma caixa retangular estendendo-se de Q1 a Q3, e trace uma linha na direção do valor da mediana; 3 – Defina as cercas: Cercas inferior - estende-se de Q1 até o menor valor que não seja atípico. Cerca superior - estende-se de Q3 até o maior valor que não seja atípico. Um valor x é considerado atípico se: x < Li = Q1-1,5*AI – Neste caso utilize o valor calculado x > Ls = Q3+1,5*AI – Neste caso utilize o valor calculado PQ1=(22+1)*0,25= 5,75 Q1=(20+20)/2 = 20 Md=Q2 => (22+1)*0,50 = 11,5 Q2=(21+22)/2 = 21,5 PQ3= (22+1)*0,75 = 17,25 => Q2 = (25+26)/2) = 25,5 AI = Q1-Q3 = 25,5-20 = 57,5 Li = Q1-1,5*AI = 20-(1,5*5,5) = 20-8,25= 11,75 Ls = Q3+1,5*AI = 25,5+(1,5*5,5) = 25,5+8,5= 33,75 XMin = 18 > Li = 11,75 Utilize XMin como cerca inferior. XMax = 37 > Ls = 33,75 Utilize Ls como cerca superior. Estatística Básica – Prof. Adriana Andrade 20 Boxplot da Variável Idade 21N = Idade 40 30 20 10 20 21 11 – Medidas de Posição para Dados Agrupados em Tabelas de Frequência Quanto a variável de interesse apresenta-se com seus valores agrupados em uma tabela de freqüência, ou seja, quando os valores originais não estão disponíveis, temos dados agrupados ou grupados. Para calcular as medidas resumo de interesse, precisaremos adotar alguns procedimentos que irão viabilizar a realização dos cálculos das medidas. O primeiro procedimento é calcular para cada classe de freqüência da variável o seu respectivo Ponto Médio (Pmi). O Ponto Médio da classe pode ser visto como o valor representante da classe obtido por: Pmi = lim inferior + limite superior 2 Repare que iremos calcular as medidas resumos com base no ponto médio de cada classe da tabela, ou seja, sem precisar de todos os valores do conjunto de dados. Por isso o resultado não será igual ao obtido a partir do cálculo realizado com dados brutos. Isso ocorre, pois iremos calcular as medidas a partir de uma representação dos dados, representação essa que já é um resumo e, por isso, não contém todas as informações originais. Conseqüentemente, as medidas calculadas partem de um conjunto de menor variabilidade. 11.1 – Média Aritmética No caso dos dados grupados a média é obtida a partir de uma ponderação dos valores da tabela, onde os pesos são as freqüências absolutas de cada classe. A fórmula da média para dados grupados é obtida a partir de um ajuste na expressão da média aritmética: i k i i i k i i nn fPm n nPm n nPmnPmnPm X 1 12211 ... 11.2 - Moda: Para obter o valor da moda em uma tabela de dados grupados, primeiramente, identificaremos a classe modal, aquela que possui a maior freqüência. 11.2.1 – Moda bruta – é o Pm da classe modal Estatística Básica – Prof. Adriana Andrade 21 11.2.2 - Método de Czuber Leva em consideração as relações de distância entre a freqüência da classe modal e as freqüências das classes adjacentes. hliMo pa a Czuber onde: il = limite inferior da classe modal a = diferença entre a freqüência absoluta da classe modal e a freqüência da classe anterior p = diferença entre a freqüência absoluta da classe modal e a freqüência da classe posterior h = amplitude da classe 11.2.3 - Método de King Leva em consideração apenas as freqüências das classes adjacentes à classe modal. h nn n lMo postant post iking )( h FF F LiMoking '' ', onde: il = limite inferior da classe modal antn = freqüência absoluta da classe anterior à classe modal postn = freqüência absoluta da classe posterior à classe modal h = tamanho/amplitude da classe 11.3 - Mediana: encontra-se na classe com freqüência acumulada maior ou igual a 50%. Obtida pela seguinte expressão: h n fac liMd Mdi ant n 2 , onde il = limite inferior da classe que contém a mediana n = tamanho da amostra, ou seja, quantidade de observações. fac = freqüência absoluta acumulada da classe anterior a classe mediana n Md = freqüência absoluta da classe mediana h = tamanho/amplitude da classe 11.4 - Cálculo das Separatrizes(Quantis) para classes de freqüência h n facP liSep Sep abs antSep il = limite inferior da classe que contém a separatriz; P = Fórmula da posição da separatriz; nSep = freqüência absoluta da classe que contém a separatriz; Estatística Básica – Prof. Adriana Andrade 22 fac = freqüência absoluta acumulada da classe vizinha anterior a classe que contém a separatriz h = tamanho/amplitude da classe; 11.5 – Variância e Desvio Padrão Para dados em tabelas de freqüências o desvio padrão é obtido por: n nxPm XDP n i ii 1 2 )( = 2 1 2 )( x n nPm XDP n i ii n i ii fxPmXDP 1 2 )( = 2 1 2 )( xfPmXDP n i ii Tabela Auxiliar – Variável nº de repententes por turma em Estatísitca Básica em 2009 Classe ni Pmi Pmini % Fac% fac 10|--16 6 13 78 0,30 0,30 6 169 1014 16|--22 7 19 133 0,35 0,65 13 361 2527 22|--28 3 25 75 0,15 0,80 16 625 1875 28|--34 4 31 124 0,20 1,00 20 961 3844 Total 20 - 410 1 2,6 - 2116 9260 2 iPm ii nPm 2 Estatística Básica – Prof. Adriana Andrade 23 12 - Análise Bidimensional Análise bidimensional é o termo utilizado para expressar o estudo de um fenômeno a partir da observação conjunta de duas variáveis. O objetivo da análise da distribuição conjunta de duas variáveis reside na investigação de como essas variáveis estão relacionadas e na avaliação do grau de dependência entre elas. Busca-se explicar como uma variável se comporta em função do desempenho de outra, de modo que possamos prever melhor o resultado de uma delas mediante o conhecimento da outra. 12.1 - Associação entre duas variáveis quantitativas Para avaliar associação linear entre duas variáveis quantitativas, iremos trabalhar com dois procedimentos. O primeiro refere-se ao diagrama de dispersão e o segundo ao Coeficiente de Correlação Linear. 12.1.1 – Diagrama de Dispersão O gráfico de dispersão é feito utilizando o plano cartesiano. Em cada eixo iremos especificar os valores de cada variável. Em seguida, iremos atribuir um ponto aos pares de valores (x,y). O exemplo a seguir ilustra o gráfico de dispersão para as variáveis peso e altura dos alunos da disciplina estatística básica. Gráfico de Dispersão das variáveis Peso e Altura Altura 2,01,91,81,71,61,5 P e so 90 80 70 60 50 40 30 À medida que os valores da variável altura aumentam verificamos que os valores da variável peso também aumentam. Este resultado é esperado, pois é provável que pessoas mais altas tendam a apresentar peso mais elevado que as pessoas de menor estatura. Pelo diagrama de dispersão percebemos, então,que há uma associação linear entre as variáveis peso e altura. Temos três tipos de padrões básicos a serem visualizados nos diagramas de dipersão: 1 – Correlação positiva - as duas variáveis variam no mesmo sentido, ou seja, quando os valores de uma aumentam ou diminuem ocorre o mesmo com a outra variável. Os pontos parecem que estão ao redor de uma reta crescente, portanto, dizemos que há uma associação crescente entre as variáveis; 2 - Correlação negativa - as duas variáveis variam em sentido oposto, ou seja, quando os valores de uma aumentam os valores da outra variável diminuem. Há uma associação decrescente entre as Estatística Básica – Prof. Adriana Andrade 24 variáveis. Os pontos parecem que estão ao redor de uma reta decrescente, portanto, dizemos que há uma associação decrescente entre as variáveis; 3 – Ausência de correlação – os pontos estão distribuídos de forma aleatória no plano. 12.1.2 – Covariância e Coeficiente de Correlação Linear Uma maneira de quantificar a associação linear entre duas variáveis quantitativas é obtida pelo cálculo da Covariância e do Coeficiente de Correlação. A covariância entre os valores das variáveis X e Y é dada por n yyxx YXCov n i ii 1 ))(( ),( . De forma mais conveniente podemos escrever: yx n yx YXCov n i ii 1),( , ou seja, podemos falar que a covariância é a média dos produtos das variáveis menos o produto das médias. A covariância mede o grau de associação linear entre variáveis. Entretanto, ela é afetada pela escala na qual foram mensuradas as variáveis, logo, seus valores podem variar entre e o que introduz uma dificuldade para avaliação da magnitude do grau de associação. Para superar essa limitação, iremos calcular o Coeficiente de Correlação. O Coeficiente de Correlação é uma medida adimensional, obtida a partir da covariância entres as variáveis X e Y e pelos seus respectivos desvios-padrões e é obtido por: YX ii SS YXCov XDP yy XDP xx YXCor ),( )()( ),( , onde Cov (X,Y) representa a covariância e SX e SY correspondem, respectivamente, ao desvio padrão da variável X e o desvio padrão da variável Y. O Coeficiente de Correlação linear varia entre –1 e 1.Quanto mais próximo de –1 e 1, mais forte será a associação linear entre as variáveis. Quanto mais próximo a 0 mais fraca será a associação. O sinal do coeficiente indica o tipo de associação: Positiva – as duas variáveis variam no mesmo sentido. Negativa – as duas variáveis variam em sentido oposto. Para calcular o Coeficiente de Correlação, iremos aplicar a seguinte fórmula: 2222 1),( ynyxnx yxnyx YXCor i i i i n i ii As parcelas da expressão do Coeficiente de Correlação serão calculadas utilizando uma tabela auxiliar. Estatística Básica – Prof. Adriana Andrade 25 Vamos aplicar? Exemplo: Calcular o Coeficiente de Correlação entre as variáveis peso e altura para 5 indivíduos: 1º Passo: Fazer a tabela auxiliar Tabela Auxiliar Indíviduo Altura (X) Peso (Y) i ii yx i ix 2 i iy 2 1 160 50 8.000 25.600 2.500 2 165 54 8.910 27.225 2.916 3 165 55 9.075 27.225 3.025 4 170 65 11.050 28.900 4.225 5 170 64 10.880 28.900 4.096 Total = 5 830 288 47.915 137.850 16.762 2º Passo: Calcular média 166 5 8301 n xi x n i 6,57 5 2881 n Yi y n i 3º Passo: Calcular o Coeficiente com os valores obtidos 97,0 6,575762.16)1665(850.137 57,6)166(5-47.915 ),( 22 YXCOR O coeficiente de correlação de 0,97 indica que existe uma forte associação linear entre as variáveis altura e peso. Concluímos também que essa associação é positiva, pois a medida que os valores de altura aumentam, os valores de peso também aumentam. 12.2 – Associação entre Duas Variáveis Qualitativas 12.2.1 - Tabelas de dupla entrada Os dados em uma tabela de dupla entrada serão dispostos de maneira similar a uma matriz Altura (X) 160 165 165 170 170 Peso (Y) 50 54 55 65 64 Gráfico de Dispersão entre as variáveis Altura e Peso 45 50 55 60 65 70 158 160 162 164 166 168 170 172 Altura Pe so Estatística Básica – Prof. Adriana Andrade 26 X Y Total Y1 Y2 Yn X1 n11 n12 n1n n1. X2 n21 n22 n2n n2. ... ... ... ... ... Xr nr1 nr1 nrn nr. Total n.1 n.2 n.n n.. A distribuição conjunta de duas variáveis qualitativas pode ser apresentada em tabelas de duas entradas. Ex.: Análise da avaliação do prefeito do Rio entre homens e mulheres Distribuição conjunta das freqüências das variáveis Avaliação do prefeito do Rio e Sexo. Avaliação Sexo Total Feminino Masculino Positiva 140 100 240 Negativa 60 200 260 Total 200 300 500 Distribuições marginais: são obtidas a partir dos totais de linha e dos totais de coluna da tabela de distribuição conjunta de duas variáveis. Mulheres = 200 Homens = 300 Positivo = 240 Negativo = 260 Distribuição conjunta: obtida pela interseção entre duas categorias das variáveis da tabela. Mulheres e Positiva= 140 Homens e Positiva = 100 Mulheres e Negativa = 60 Homens e Negativa = 260 Temos três formas de calcular os percentuais em tabelas de dupla entrada: 1) Calcular os percentuais em relação ao total geral (n) da tabela: Distribuição conjunta dos percentuais das variáveis Avaliação do prefeito do Rio e Sexo Avaliação Sexo Total Feminino Masculino Positiva 28 20 48 Negativa 12 40 52 Total 40 60 100 Análise: 48% dos entrevistados possuem avaliação positiva; 40% dos entrevistados são homens; 52% dos entrevistados fizeram uma avaliação negativa do prefeito, tendo o maior percentual ocorrido entre os homens (40%). 2) Calcular os percentuais em relação aos totais de linha da tabela: Estatística Básica – Prof. Adriana Andrade 27 Distribuição conjunta dos percentuais das variáveis Avaliação do prefeito do Rio e Sexo Avaliação Sexo Total Feminino Masculino Positiva 58 42 100 Negativa 23 77 100 Total 40 60 100 Análise: Entre os que fizeram uma avaliação positiva, 58% são mulheres e 42% são homens; Dado que entrevistado tem uma avaliação negativa, 77% são homens; Dentre os que possuem uma avaliação negativa, 23% são mulheres. 3) Calcular os percentuais em relação aos totais de coluna da tabela: Distribuição conjunta das variáveis Avaliação do prefeito do Rio e Sexo (%). Avaliação Sexo Total Feminino Masculino Positiva 70 33 48 Negativa 30 67 52 Total 100 100 100 Análise: Dado que o entrevistado é homem, 67% possui avaliação negativa; 33% dos entrevistados do sexo masculino têm avaliação positiva; Entre as mulheres, prevalece a avaliação positiva (77%); Distribuição percentual da avaliação dado que o sexo é feminino: 70% positiva ; 30% negativa Independente do sexo: 48% tem avaliação positiva e 52% negativa. Quando adicionamos a variável sexo no estudo da avaliação, percebemos um novo aspecto da outra variável, ou seja, o sexo da pessoa parece influenciar o comportamento da variável avaliação do prefeito do Rio. Dizemos, então, que a avaliação do prefeito depende do sexo do entrevistado.Podemos ainda escrever da seguinte forma: Variável Dependente ou Explicada: Avaliação do prefeito do Rio Variável Independente ou Explicativa: Sexo Dicas para identificar variável explicativa: 1 - Perguntar quem vem antes: sexo ou avaliação? 2 – Perguntar quem influencia: sexo influencia avaliação ou avaliação influencia sexo? 12.2.2 – Medida de Associação entre duas variáveis qualitativas - Qui-quadrado de Pearson ( 2 ) A medida que quantifica a associação entre duas variáveis qualitativas é denominada Qui-quadrado de Pearson ( 2 ). Essa medida é calculada a partir dos valores observados da distribuição. Para avaliar a existência de associação ou de dependência entre as variáveis, iremos comparar as freqüências observadas no estudo com as freqüências esperadas em uma situação na qual não há associação entre as Estatística Básica – Prof. Adriana Andrade 28 duas variáveis em estudo (freqüência esperada assumindo a independência entre as variáveis), ou seja, no caso em que as variáveis são independentes. As freqüências esperadas são obtidas por: )( )()( geralTotal jcolunadaTotalilinhadaTotal e ji Distribuição das freqüências esperadas Avaliação Sexo Feminino Masculino Positiva e11 e12 Negativa e21 e22 e11= 96 500 240200 e12= 144 500 240300 e21= 104 500 260200 e22= 156 500 260300 Caso as freqüências observadas sejam próximas às freqüências esperadas (na situação de independência), podemos concluir que não há associação entre as variáveis. Valores esperados assumindo a independência entre as duas variáveis Avaliação Sexo Feminino Masculino Positiva 96 144 Negativa 104 156 Uma medida que reporta a distância entre esses valores é obtida pelo cálculo do Qui-quadrado ( 2 ). i j ij ijij e eo 2 2 )( , com ijo e ije representando, respectivamente, as freqüências observadas e esperadas na linha i e coluna j. A medida 2 usa a diferença entre ijo e ije elevada ao quadrado para evitar o cancelamento de termos positivos por negativos. A divisão por ije objetiva padronizar a medida, relativizando o tamanho da diferença encontrada. Exemplo: [fo=5 fe=10] [fo=70 fe=75] é maior o impacto do desvio de |-5| em relação a 10 do que em 75. Para o exemplo analisado temos: 64,64 156 )156200( 104 )10460( 144 )144100( 96 )96140( 22222 Um critério para avaliar a magnitude do 2 , ou seja, se o valor do 2 é ou não uma evidência a favor da existência de associação entre as variáveis, é obtido pelo cálculo do Coeficiente de Contingência dado por: Estatística Básica – Prof. Adriana Andrade 29 n C 2 2 O Coeficiente de Contingência é uma valor entre 0 e 1. Quanto mais próximo de 1, maior é a evidência a favor da existência de associação entre as variáveis. Quanto mais próximo de 0, tem-se indício de que a associação entre as variáveis é fraca ou até mesmo inexistente. Em alguns casos, mesmo existindo uma associação perfeita entre as variáveis, o Coeficiente de Contingência pode ser menor do que 1. Para superar essa limitação, usualmente, utiliza-se uma correção no Coeficiente de Contingência. )1)(1( 2 cl n C Para nosso exemplo, temos que o Coeficiente de Contingência é dado por: 34,0 50064,64 64,64 C Com base no valor do coeficiente podemos concluir que existe uma associação de fraca a moderada entre as variáveis avaliação do prefeito do rio e sexo do entrevistado. Obtivemos um pequeno ganho no conhecimento da avaliação do prefeito quando conhecemos o sexo do indivíduo. Essa informação deve ser considerada no desenvolvimento de uma campanha para elevar o índice de popularidade do prefeito entre seus eleitores.
Compartilhar