Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Vital Prof. Maria Lídia Coco Terra Departamento de Estatística Universidade Federal da Paraíba - UFPB João Pessoa, 26 de outubro de 2011 Medidas de Posição Vimos anteriormente a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de frequências. Aqui, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados (valores de uma variável quantitativa, isto é, informações numéricas), relativos à observação de determinado fenômeno de forma reduzida. Estes índices estatísticos são as Medidas de Posição que são também chamadas de medidas de tendência central e estabelecem valores em torno dos quais os dados se distribuem. Dizemos ainda que esse nome é dado pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores centrais. Média Aritmética Simples Se dispomos de um conjunto de valores da amostra(ordenados ou não) podemos calcular sua média aritmética simples por X = n∑ i=1 Xi n = X1 + . . .+ Xn n , no caso amostral, em que n representa o número de indivíduos da amostra. Média Aritmética Simples Exemplo: Abaixo, temos uma amostra de 10 crianças de 5 anos de idade em uma creche de João Pessoa, onde foram coletadas informações referentes a seus pesos (em Kg). 23, 0 20, 2 22, 0 19, 0 25, 0 28, 8 24, 0 21, 0 27, 0 21, 0 Temos que n = 10 e obtemos X através de X = 23, 0+ 20, 2+ 22, 0+ 19, 0+ 25, 0+ 28, 8+ 24, 0+ 21, 0+ 27, 0+ 21, 0 10 = 230, 0 10 = 23, 0. Propriedades da Média Aritmética P1) A soma dos desvios com relação à média é nula, isto é, n∑ i=1 (Xi − X ) = 0. P2) Somando-se ou subtraindo-se uma constante “a” a todos os valores do conjunto, a média fica aumentada ou diminuida dessa constante. Ou seja, Y = X + a, a média de Y é Y = X + a. P3) Multiplicando-se ou dividindo-se uma constante “b” a todos os valores do conjunto, a média fica multiplicada ou dividida por essa constante. Ou seja, Y = bX , a média de Y é Y = bX . Vantagens e desvantagens da média V 1 É a medida mais conhecida e de maior uso; V 2 É facilmente calculável; V 3 Pode ser tratada algebricamente; V 4 Serve para compararmos conjuntos semelhantes; V 5 É particularmente indicada para dados que possuem os valores simétricos em relação a um valor médio e de frequência máxima (um histograma pode ajudar nessa identificação); D1 É uma medida de tendência central que por uniformizar os valores de um conjunto de dados, não representa bem os conjuntos que revelam tendências extremas. Ou seja, é grandemente influenciada pelos valores extremos (grandes) do conjunto; D2 Não pode ser calculada para distribuições de frequências com limites indeterminados (indefinidos); D3 Só deve ser utilizada quando a distribuição dos dados for simétrica (normal ou Gaussiana). Mediana A mediana de um conjunto de dados, que denotaremos por Md , pode ser definida como o valor que divide a série ordenada em duas partes iguais, em relação à quantidade de elementos. Em outras palavras, é o valor que ocupa o centro da distribuição, ou seja, 50% dos elementos da série são menores do que ela e 50% dos elementos da série são maiores do que ela. Exemplo: No Rol, temos: Mediana Podemos encontrar o elemento mediano de um conjunto de dados da seguinte forma: 1) Se n é ímpar: a mediana será o elemento que ocupar a posição n+1 2 no rol de dados ordenados, ou seja, EMd = n+1 2 , em que EMd representa o elemento mediano. Exemplo: Sejam X1 = 2, X2 = −2, X3 = 6, X4 = 1 e X5 = 3. Ordenando os valores temos, −2, 1, 2, 3, 6. O elemento mediano é dado por EMd = n+12 = 5+1 2 = 6 2 = 3. Ou seja, a mediana será o valor que ocupar a posição 3 do rol. Daí, concluimos que Md = 2. Mediana 2) Se n é par: a mediana será a média aritmética simples dos elementos que ocuparem as posições n2 e n 2 + 1 no rol de dados ordenados. Ou seja, teremos dois elementos centrais ou dois elementos medianos, dados por 1o¯EMd = n2 e 2 o ¯EMd = n2 + 1. Exemplo: Sejam X1 = 2, X2 = −2, X3 = 6, X4 = 1, X5 = 3 e X6 = 5. Ordenando os valores temos, −2, 1, 2, 3, 5, 6. Os elementos centrais são dados por 1o¯EMd = n2 = 6 2 = 3 e 2o¯EMd = n2 + 1 = 6 2 + 1 = 3+ 1 = 4. A mediana será a média aritmética simples entre os valores que ocuparem as posições 3 e 4, ou seja, Md = 2+32 = 5 2 = 2, 5. Vantagens e desvantagens da Mediana V 1 A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto de dados; V 2 A mediana é utilizada especialmente para distribuições assimétricas, mas pode ser utilizada para dados com distribuição simétrica também. D1 Suas propriedades não são bem compreendidas por muitas pessoas; D2 Não é levada em consideração na maior parte dos testes estatísticos. Moda A moda de um conjunto de dados, que denotaremos por Mo, é o valor que ocorre com maior frequência. Exemplo: 1, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 8. Temos que o valor mais frequente é 6, logo, Mo = 6. Observação: 1 A moda pode não existir. Neste caso, dizemos que o conjunto de dados é amodal. Exemplo: 1, 1, 2, 2, 3, 3, 4, 4, 5, 5 2 A moda pode não ser única. Exemplo: 2, 2, 3, 3, 3, 4, 4, 5, 5, 5. Temos dois valores mais frequentes: 3 e 5. Moda de Dados Tabulados Não-agrupados em Classes Neste caso, obtemos a moda simplesmente identificando o valor mais frequente na tabela. Exemplo: Tabela: Tipo sanguíneo em uma amostra de 820 doadores do HEMOPE. Recife, 2007. Tipo Sanguíneo Número de Doadores O 417 A 292 B 94 AB 17 Total 820 Fonte: Dados Hipotéticos Moda de Dados Tabulados Não-agrupados em Classes Nessa amostra, o grupo sanguíneo O ocorreu com maior frequencia. Então, a moda nessa amostra é o tipo sanguíneo O. Vantagens e desvantagens da moda V 1 Não é influenciada por valores extremos (grandes) do conjunto de dados; V 2 Pode ser calculada para distribuições com limites indeterminados (indefinidos) na maioria dos casos. D1 Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar com a modificação de alguns deles; Medidas de Dispersão As medidas de posição apresentadas fornecem a informação dos dados apenas a nível pontual, sem ilustrar outros aspectos referentes à forma como os dados estão distribuídos na amostra. Exemplo: Sejam quatro conjuntos A, B , C e D com os seguintes valores: A: 7, 7, 7, 7, 7 B: 5, 6, 7, 8, 9 C: 4, 5, 7, 9, 10 D: 0, 5, 10, 10, 10 Note que XA = 7, XB = 7, XC = 7 e XD = 7 Medidas de Dispersão • No exemplo, percebe-se que apesar de constituídos de valores diferentes, os grupos revelam uma mesma média aritmética. • É possível notar que em cada grupo os valores se distribuem diferentemente em relação à média. • É preciso uma medida estatística complementar para melhor caracterizar cada conjunto apresentado. • As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto são as medidas de dispersão ou de variabilidade, onde se destacam a amplitude total, a variância, o desvio padrão e o coeficiente de variação. Em princípio, diremos que entre dois ou mais conjuntos de dados, o mais disperso (ou menos homogêneo) é aquele que tem a maior medida de dispersão. Medidas de Dispersão • As medidas de dispersão são úteis para avaliar o grau de variabilidade ou de dispersão dos valores de um conjunto. Essas medidas proporcionam um conhecimento mais completo sobre o fenômeno que se está analisando, permitindo estabelecer comparações entre fenômenos de mesma natureza. • O objetivo maior será, portanto, construir medidas que avaliem a representatividade da média. • Veremos algumas dessas medidas a seguir. Amplitude Total É a diferença entre o maior e o menor valor da série, ou seja, AT = Xmáx− Xmín A amplitude é útil para nos dar uma ideia do campo de variação da série. Verifica-se que a amplitude como medida de dispersão é limitada. Desvio Médio É definido como a média aritmética dos desvios absolutos e pode ser obtido através de DM = n∑ i=1 ∣∣Xi − X ∣∣ n , onde X é a média aritmética simples. Variância A variância de um conjunto de dados (amostra ou população) mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética do conjunto. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação. Variância A variância é definida como a soma dos quadrados dos desvios com relação à média, dividida pelo número de elementos (ou pelo número de elementos menos um, no caso amostral, como veremos). Ou seja, dada a amostra, temos que S2 = n∑ i=1 ( Xi − X )2 n − 1 = 1 n − 1 {( n∑ i=1 X 2i ) − nX 2 } , Variância Observação Importante: A equação de S2 é utilizada quando nosso interesse não se restringe à descrição dos dados mas, partindo da amostra, visamos tirar inferências válidas para sua respectiva população. Desvantagem de uso da Variância • Quando elevemos ao quadrado a diferença Xi − X , a unidade de medida dos dados também fica elevada ao quadrado. • Exemplo: se a unidade de medida dos dados for metros, a variância será expressa em metros quadrados. • Em alguns casos, a unidade de medida ao quadrado nem fará sentido. Desvantagem de uso da Variância Comentários Importantes • Apesar de útil para descrever a variabilidade do conjunto de observações, o fato mencionado torna um pouco inviável a análise, dado que a unidade de medida fica elevada ao quadrado. • O interessante é ter uma medida que descreva a variabilidade das informações com a mesma eficiência da variância, porém, que esteja na mesma escala em que estão os dados fornecidos. • Esta medida se chama Desvio Padrão. Desvio Padrão É definido como a raiz quadrada positiva da variância e apresenta as mesmas propriedades desta, com a vantagem de ser expresso na mesma unidade dos dados. De fato, é a medida de dispersão mais utilizada. Dada a amostra, a expressão do desvio padrão é dada por s = √ s2 Exemplo: Sejam as notas de quatro alunos em cinco provas de estatística. Aluno Prova 1 Prova 2 Prova 3 Prova 4 Prova 5 Antônio 5 5 5 5 5 João 6 4 5 4 6 José 10 5 5 5 0 Pedro 10 10 5 0 0 Vamos calcular todas as medidas descritas anteriormente. Exemplo: Aluno P1 P2 P3 P4 P5 X AT DM Var D.P. Antônio 5 5 5 5 5 0 0 0 0 0 João 6 4 5 4 6 5 2 0, 8 1 1 José 10 5 5 5 0 5 10 2 12, 5 3, 54 Pedro 10 10 5 0 0 5 104 4 25 54 • O que observamos no cálculo das 4 medidas apresentadas até o momento: Que as notas de Antônio não variaram, as notas de João variaram menos que as de José e as notas de Pedro variaram mais do que as dos outros. • Note que o desvio padrão torna mais viável a comparação. Você pode falar da variação em relação à média a partir do desvio padrão • Casos como o de Antônio são muito difíceis de se encontrar na prática. A variabilidade faz com que essa dificuldade seja considerada naturalmente. Coeficiente de Variação de Pearson • É uma medida de dispersão relativa que serve para comparar dois ou mais conjuntos de dados de unidades diferentes. • É útil para responder perguntas do tipo: (1) Dada uma pesquisa com 50 pacientes em um hospital, será que o grau de variação de peso e altura é o mesmo? (2) Dada uma amostra com 50 pacientes diabéticos tratados com um medicamento que contém 5% de uma substância X , será que o nível de variação em relação ao efeito do tratamento será o mesmo se utilizarmos 10% da substância X? Coeficiente de Variação de Pearson • Mede o grau de concentração dos dados em torno de sua média. É obtido através das expressões CV = S X • Nas expressões acima temos que: X é a média aritmética da variável na amostra e S é o desvio-padrão amostral. • Pode-se denotar CV também em termos percentuais, bastando fazer CV × 100%. Exemplo: • As alturas (em cm) de uma amostra de crianças de 8 anos foram medidas e destas foi concluído que a altura média era de 128 cm. • O desvio-padrão das alturas era de 12 cm. • O mesmo foi feito para uma amostra de crianças de 12 anos, onde a média obtida foi 158 cm e desvio-padrão igual a 14 cm. Exemplo: GRUPO X s CV Crianças de 8 anos 128 12 CV = 12128 ∼= 0, 093 Crianças de 12 anos 158 14 CV = 14158 ∼= 0, 088 Embora, observando o desvio-padrão dos grupos, pareça que a altura de crianças de 12 anos tem maior variabilidade, observando o Coeficiente de Variação de Pearson, verificamos que a altura de crianças de 8 anos varia mais que a altura de crianças de 12 anos. Outro exemplo: Considere a tabela de valores a seguir: Valores X S CV (X ) 1 - 2 - 3 2 1 0, 5 100 - 200 - 300 200 100 0, 5 Novamente: • O coeficiente de variação mede o grau de concentração dos dados em torno de sua média. • Embora, observando o desvio-padrão dos grupos, pareça que o segundo grupo tem maior variabilidade, porém observando o Coeficiente de Variação, verificamos que a não há diferença entre os grupos no que diz respeito à variabilidade. Introdução ao estudo da correlação • Existem situações nas quais há interesse em estudar o comportamento conjunto de uma ou mais variáveis; • Em muitos casos, a explicação de um fenômeno de interesse pode estar associado a outros fatores (variáveis) que contribuem de algum modo para a ocorrência deste fenômeno. • O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um tipo de gráfico, chamado gráfico de dispersão. Gráfico de Dispersão Estudo da Correlação Para desenhar um diagrama de dispersão, é necessário sempre fazer o eixo cartesiano para identificar os pontos das variáveis quantitativas consideradas: • Representa-se primeiramente uma das variáveis no eixo das abscissas (variável X) e a outra variável no eixo das ordenadas (variável Y) • Os valores das variáveis são marcados sob os respectivos eixos e então marca-se um ponto para cada par de valores. Exemplo Quadro 1: Comprimento (em cm) e peso (em kg) de cães No Comprimento Peso No Comprimento Peso 1 104 23.5 11 98 15.0 2 107 22.7 12 95 14.9 3 103 21.1 13 92 15.1 4 105 21.5 14 104 22.2 5 100 17.0 15 94 13.6 6 104 28.5 16 99 16.1 7 108 19.0 17 98 18.0 8 91 14.5 18 98 16.0 9 102 19.0 19 104 20.0 10 99 19.5 20 100 18.3 Fonte: ARAÚJO e HOSSNE (1977) Exemplo Figura 1: Comprimento (em cm) e peso (em kg) de cães Correlação O objetivo do estudo da correlação é a determinação do grau de relacionamento entre duas variáveis emparelhadas. O termo “correlação” significa “co-relacionamento”, pois indica até que ponto os valores de uma variável estão relacionados com os da outra. Se os pontos observados das variáveis, digamos (X ,Y ) representados num diagrama de dispersão parecem descrever um comportamento próximo a uma reta, dizemos que temos uma correlação linear. Correlação Positiva e Correlação Negativa Uma vez que há uma relação entre X e Y , isto é, quando há um comportamento de Y em relação ao aumento de X no mesmo sentido, temos a existência de tipos de relações entre as variáveis. Dizemos que a correlação é positiva se a tendência é crescente, ou seja, valores pequenos de X fornecem valores pequenos de Y e vice-versa (ver figura (a) a seguir) . A correlação é negativa se a tendência é decrescente (figura (b) a seguir) e é nula se nenhuma tendência é observada (figura (c) a seguir). Correlação Positiva e Correlação Negativa Observações importantes: • Uma correlação positiva não indica que aumentos sucessivos em uma variável causam aumentos sucessivos naoutra. O mesmo acontece se tivermos uma correlação negativa. • É mais correto falar sobre o comportamento das variáveis estatisticamente. Ou seja, é mais correto afirmar que há evidência estatística suficiente para afirmar que uma variável pode influenciar no aumento ou diminuição da outra variável. O que contribuirá para um poder de decisão maior dada a evidência será o cálculo de um coeficiente, chamado coeficiente de correlação. Exemplo Tabela 1: Consumo individual diário de proteínas de origem animal, em gramas, e coeficiente de natalidade, em 14 países País Consumo Diário de Proteínas Coeficiente de Natalidade Formosa 4.7 45.6 Malásia 7.5 39.7 Índia 8.7 33.0 Japão 9.7 27.0 Iugoslávia 11.2 25.9 Grécia 15.2 23.5 Itália 15.2 23.4 Bulgária 16.8 22.2 Alemanha 37.3 20.0 Irlanda 46.7 19.1 Dinamarca 56.1 18.3 Austrália 59.9 18.0 Estados Unidos 61.4 17.9 Suécia 62.6 15.0 Fonte: CASTRO (1961) continuação No exemplo, temos uma correlação negativa: Coeficiente de Correlação Linear Como dito anteriormente, o coeficiente de correlação dará uma contribuição para a tomada de decisão sobre a relação entre duas variáveis de interesse. Mais especificamente, o coeficiente de correlação fornece uma medida do grau e do sinal da correlação linear entre estas variáveis. Coeficiente de Correlação Linear Fórmula do coeficiente de correlação: r = n∑ i=1 xiyi − ( n∑ i=1 xi )( n∑ i=1 yi ) n√√√√√√√√√√ n∑ i=1 x2i − ( n∑ i=1 xi )2 n n∑ i=1 y2i − ( n∑ i=1 yi )2 n Coeficiente de Correlação Linear Com alguma simplificação, temos que r = n∑ i=1 xiyi − n · X · Y√√√√( n∑ i=1 x2i − nX 2 ) · ( n∑ i=1 y2i − nY 2 ) = n∑ i=1 xiyi − n · X · Y√ (n − 1)S2X √ (n − 1)S2Y Coeficiente de Correlação Linear Temos que −1 ≤ r ≤ 1 • Se r = −1, dizemos que a correlação é perfeita negativa. • Se r = 0, dizemos que a correlação é nula. • Se r = 1, dizemos que a correlação é perfeita positiva. • Se 0 < r < 1, dizemos que a correlação é positiva. • Se −1 < r < 0, dizemos que a correlação é negativa. Alguns exemplos Correlação Positiva Negativa x y x y 1 1 1 7 2 2 2 4 3 4 3 4 4 5 4 3 5 8 5 1 Alguns exemplos Alguns exemplos Cálculos intermediários para obtenção do coeficiente de correlação linear no caso de correlação positiva x y x2 y2 xy 1 1 1 1 1 2 2 4 4 4 3 4 9 16 12 4 5 16 25 20 5 8 25 64 40 15 20 55 110 77 r = 77− 15·205√( 55− 1525 )( 110− 2025 ) = 0.98 Alguns exemplos Cálculos intermediários para obtenção do coeficiente de correlação linear no caso de correlação negativa x y x2 y2 xy 1 7 1 49 7 2 4 4 16 8 3 4 9 16 12 4 3 16 9 12 5 1 25 1 5 15 19 55 91 44 r = 44− 15·195√( 55− 1525 )( 91− 1925 ) = −0.95
Compartilhar