Prévia do material em texto
Responsável pelo Conteúdo: Prof Ms Alexandre Silva Medidas de Tendência Central e de Dispersão Vamos abordar um assunto importante no que diz respeito a transmissão das informações relativas à amostra ou população estudada. A condensação dos dados facilita a compreensão das características essenciais de uma amostra ou população, em se tratando de dados obtidos desses. Para viabilizar essa etapa, usamos as medidas de tendência central e de dispersão. Hoje vamos conhecer um pouco mais sobre essas medidas. Atenção Para um bom aproveitamento do curso, leia o material teórico atentamente antes de realizar as atividades. É importante também respeitar os prazos estabelecidos no cronograma. Fonte: http://pro.corbis.com/Enlargement/Enlargeme nt.aspx?id=42-15490559&caller=search Vamos pensar na seguinte situação: Um pesquisador investigou 7 alunos universitários para saber quantas pessoas fazem uso do computador em suas respectivas residências. Vejam os dados coletados: Aluno Sônia Marcela Fábio Maria Joana Carlos Paulo Quantidade de pessoas que usam computador em casa 2 0 1 1 0 0 10 Considerando os dados acima, é correto afirmar que a média de usuários de computador nas residências dos alunos entrevistados é de 2 usuários por residência? Justifique. Resposta: Depende. Se fizéssemos a soma de todos os usuários e dividíssemos pelo numero de alunos entrevistados, com certeza encontraríamos que, em média, há 2 usuários de computador em cada residência. No entanto, se fizermos uma análise estatística adequada, perceberíamos que na casa de Paulo algo de diferente, se comparado às demais casas, acontece: lá há 10 usuários de computador!! Percebam que é um valor que foge do padrão normal dos demais usuários. O correto seria que excluíssemos esse valor, para encontrarmos o “padrão real”, ou seja, a caracterização real dos usuários em cada casa. Se fizéssemos essa exclusão, teríamos uma média de 0,66 usuários, o que parece mais sensato, uma vez que há mais de uma casa onde não há usuários de computador. Em termos estatísticos, poderíamos dizer que, ao incluir todos, de Sônia a Paulo, teríamos uma média maior e um desvio padrão alto, e isso não caracterizaria adequadamente a amostra. Por outro lado, excluindo o valor extremo 10, teríamos a média menor que “2” e um desvio padrão menor, indicando o caráter homogêneo e real da amostra. Resumindo todo esse raciocínio: não seria correto afirmar que em cada casa há 2 usuários de computador em média. Contextualização 1- MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central são muito confiáveis quanto mais representativo for o conjunto de elementos da amostra ou da população. Se o conjunto de elementos for bem selecionado, se guardar características semelhantes da população que foi extraída e se for suficientemente grande, melhor os dados refletirão o que poderíamos encontrar na população. Pode-se dizer também que essas medidas – de tendência central e de dispersão- são uma primeira caracterização dos conjuntos populacionais ou amostrais. 1.1 Média Aritmética A média aritmética consiste na soma dos valores de um conjunto de dados, divididos pelo número de elementos. Veja o exemplo abaixo. Considere o seguinte conjunto de dados: 11 10 10 12 23 24 30 A média aritmética será = 11+10+10+12+23+24+30 / 7 = 17,14 Material Teórico Observação: Frequentemente a média aritmética vem acompanhada de outra medida: o desvio padrão. Essa é uma medida de dispersão e indica o quanto os valores se “afastam” ou se “aproximam da média”. Observação 2: A média aritmética é muito influenciada por valores extremos, ou seja, valores muito menores ou maiores influenciam de forma marcante o valor real da média. Fonte: http://pro.corbis.com/Enlargement/Enlargement.aspx?id=42-17346030&cat=20,14,17,15,16,19&caller=search Dividir a conta em um bar (rachar a conta!) é um bom exemplo prático de média aritmética. A fórmula para cálculo da média aritmética é: Onde o X com uma barra significa média aritmética de uma amostra e n o número de indivíduos da amostra. Exercício resolvido: Uma nutricionista decidiu investigar a circunferência abdominal de 10 gerentes de uma grande empresa multinacional interessados em perder peso por meio de um programa de reeducação alimentar. As medidas seguem abaixo: Gerentes 1 2 3 4 5 6 7 8 9 10 Circunferência 88 83 79 76 78 70 80 82 86 105 Devemos primeiro determinar qual o tamanho da amostra (n): Como no caso temos 10 gerentes, então dizemos que n = 10. Cada gerente representa um valor de x como segue: x1 = 88 x2 = 83 x3 = 79 x4 = 76 x5 = 78 x6 = 70 x7 = 80 x8 = 82 x9 = 86 x10 = 105 Substituindo na fórmula teremos: 88+83+79+76+78+70+80+82+86+105 = 827 = 82,7 10 10 Dizemos então que: A média da circunferência abdominal dos 10 gerentes é de 82,7 cm. 1.2 Mediana A mediana é outra medida que indica a caracterização do conjunto de valores. Essa indica o valor que divide ao meio o conjunto de valores, isto é, indica o valor que ocupa a posição central do conjunto de valores, não sofrendo qualquer interferência dos valores extremos. O seu cálculo depende da ordenação dos dados, o que corresponde em colocá-los em ordem crescente ou decrescente. Continuando com exemplo usado no calculo da média: 11 10 10 12 23 24 30 A mediana seria assim calculada: 10 10 11 12 23 24 30 Segue um exemplo com n par: 11 10 10 12 23 24 10+12= 22 22 ÷ 2= 11 Portanto, neste exemplo, 11 é a mediana da distribuição apresentada. 1.3 Moda Moda é o valor que ocorre com maior frequência. Essa medida, juntamente com a média e a mediana, ajudam a compreender o padrão homogêneo dos dados. Quando essas três medidas estão próximas, podemos dizer que o conjunto de dados é homogêneo, ou seja, não há valores extremos, mas sim uma tendência de que boa parte dos números localizam-se próximos a essas três medidas. Se um conjunto de dados possui um único valor que se repete com maior frequência, diz-se que o conjunto e unimodal; quando dois números aparecem com maior frequência, é bimodal; se três ou mais números aparecem com maior frequência, é multimodal. A ausência de moda caracteriza-se um conjunto amodal. Essa é a mediana, pois é o valor central de um conjunto de dados. Quando o número de valores for ímpar (como no caso acima), a mediana será sempre o valor do meio. Fonte: http://pro.corbis.com/Enlargement/Enlargement.aspx?id=42-21052967&cat=20,14,17,15,16,19 Como o n é par soma-se os dois valores centrais e divide-se por “2”. Veja o exemplo abaixo. Considere o seguinte conjunto de dados: 0 1 1 2 3 4 4 4 5 Analisando os dados, observa-se que o número “4” é o número que se repete com maior frequência (3 vezes). Dessa forma dizemos que o conjunto é unimodal. Vamos analisar outro conjunto de dados: 0 1 1 1 3 4 4 4 5 Analisando os dados, observa-se que os números “1” e “4” se repetem com maior frequência (3 vezes cada um). Dessa forma dizemos que o conjunto é biimodal. 2. MEDIDAS DE DISPERSÃO Asmedidas de tendência central, vistas anteriormente, ajudam a explicar a tendência central dos dados, ou seja, o quanto esse conjunto é homogêneo. Essas medidas precisam estar acompanhadas de outras informações que indique a VARIABILIDADE dos dados, isto é, o quanto os valores divergem em relação aos valores de caracterizarão geral da população ou amostra. Considere a situação apresentada no livro Introdução à bioestatística, da autora Sônia Vieira (2008): “Considerando 2 domicílios, sendo que em um deles moram 7 pessoas, todas com 22 anos de idade. A média de idade será de 22 anos. No outro domicilio, poderíamos ter a mesma média de idade, no entanto, nesse segundo domicilio, moram uma garota de 17 anos, um garoto com 23 anos, duas crianças de 2 e 3 anos, respectivamente, além de uma mulher de 38 anos, outra criança de 8 anos e uma senhora de 65 anos. “ Nesse exemplo acima, temos dois conjuntos de valores, cuja variabilidade é diferente, embora a média seja a mesma. No primeiro conjunto de valores, a variabilidade é bem menor, condição contraria a que ocorre no segundo grupo, no qual a variabilidade é maior, pois as idades variam do 2 até os 65 anos. 2.1 Quartis e Percentis Já aprendemos que a mediana é o valor que divide ao meio o conjunto de valores. Poderíamos dizer também que a mediana indica que, abaixo daquele valor temos 50% das observações, dos valores. Mas, há situações em que podemos dividir o conjunto de valores em partes menores. Quartis, Decis e Percentis indicam essa possbilidade. Sendo assim, o primeiro quartil indica que 25% dos valores estão abaixo desse valor; o segundo quartil indica que 50% da amostra está abaixo desse valor. E assim por diante. Veja o modelo abaixo: 25% 25% 25% 25% Já os percentis consideram as posições dividindo o conjunto de valores em 100 partes. Da mesma forma que o quartil, o percentil 70, por exemplo, indica que 70% dos valores de um conjunto encontram-se abaixo desse valor. Observação: Percebam, no modelo esquemático abaixo, que uma posição (ou valor) pode ser indicada de mais uma forma. 25% 25% 25% 25% 1o quartil 2o quartil 3o quartil 50% dos valores 75% dos valores 50% 2o. quartil Percentil 50 2.2 Amplitude, Mínimo e Máximo A amplitude explica a variabilidade de valores, e por isso é considerada uma medida de dispersão. É definida como a diferença entre o maior e o menor valor de um determinado conjunto de valores. Menor, também chamado de mínimo, é o menor valor de um determinado conjunto de valores. Maior, também chamado de máximo, é o maior valor de um determinado conjunto de valores. 2.3 Variância e Desvio Padrão Essas duas medidas indicam a variabilidade, distância dos valores em torno do valor médio encontrado para um determinado conjunto de dados (valores). Se menores- a variância e o desvio padrão-, indicam pouca variabilidade dos valores, caracterizando um conjunto de valores mais homogêneo, ou seja, a de variabilidade pequena. Observação: assim como a média, a amplitude é muito influenciada por valores extremos, isto é, um valor muito baixo ou muito alto altera facilmente essa medida e pode, em determinados casos, não representar a real variabilidade do conjunto de valores, pois houve o comprometimento em razão desse(s) valor(es) extremo(s). Maior - menor A M P L I T U D E Considere as informações abaixo: Percebam que tanto a variância quanto o desvio padrão partem do cálculo da distância de um valor em relação à media ( ). Faz-se a somatória dessas distâncias e, por “necessidades” matemáticas, eleva-se ao quadrado (para eliminar os valores negativos das distâncias), ou extraímos a raiz quadrada (pois queremos eliminar a elevação ao quadrado de uma determinada medida. Exercício Resolvido: Vamos considerar o seguinte conjunto de notas de um determinado aluno: 5,0 6,0 5,0 9,0 Calcule a Variância e o Desvio Padrão. Variância é representada por s, pela fórmula dada, precisamos subtrair cada valor de x da média da amostra, somar todos estes valores, elevar o resultado ao quadrado e depois dividir por n-1. Vamos fazer passo a passo: Abaixo a fórmula do desvio padrão. Fonte: Curso de Bioestatística Profa. Dra. Ângela Paes, 2006 Definiremos como Variância a soma dos quadrados dos desvios de cada observação em relação à media, dividida por “(n-1)” E Desvio Padrão como a raiz quadrada da variância. S = Vamos calcular em primeiro lugar a média: = (5+6+5+9)÷4 = 25÷4 = 6,25 Vamos subtrair cada valor de x da média amostral. x x 5 - 6,25 -1,25 6 - 6,25 -0,25 5 - 6,25 -1,25 9 - 6,25 +2,75 Agora, vamos elevar os valores obtidos ao quadrado x x 5 - 6,25 -1,25 1,56 6 - 6,25 -0,25 0,0625 5 - 6,25 -1,25 1,5625 9 - 6,25 +2,75 7,5625 Notas dos alunos Média calculada X menos a média Precisamos então somar os quadrados obtidos: x x 5 - 6,25 -1,25 1,56 6 - 6,25 -0,25 0,0625 + 5 - 6,25 -1,25 1,5625 9 - 6,25 +2,75 7,5625 =10,75 A fórmula pede que este valor (10,75), seja dividido por n-1. No nosso exemplo n = 4 (quatro notas), então 4-1 = 3 Então: 10,75 ÷ 3 = 3,58 Portanto: s (variância) é igual a 3,58. O desvio padrão é representado por s2. s2 é igual a raiz quadrada de s (variância), então: s2 = s2 = s2 = 1,89 ou seja, o desvio padrão das notas deste aluno é 1,89, sendo que a média foi 6,25 2.4 Coeficiente de Variação Esse medida indica a dispersão dos valores em relação à média. Para se calcular o coeficiente de variação, usamos o desvio padrão e a média. Percebam que o CV não possuirá unidade de medida (é adimensional). Dessa forma, podemos comparar a dispersão de valores para dados quantitativos que utilizaram medidas diferentes, como metros e quilogramas. O uso de coeficientes não é tão frequente quanto o uso das outras medidas discutidas nesse capitulo. Os coeficientes são importantes na elaboração de indicadores de saúde. CONCLUSÃO As medidas de tendência central e de dispersão são úteis na compreensão e caracterização dos dados populacionais ou amostrais. A apresentação dessas medidas ajuda a entender o caráter homogêneo ou não dos dados, bem como a forma de dispersão dos mesmos em relação a um determinado valor médio. CV= desvio padrão / média x 100 ELA MERCEDES MEDRANO DE TOSCANO (Minas Gerais). Estatística usando Excell: Belo Horizonte: 2001. 43 p. Disponível em: <www.est.ufmg.br/~mercedes/est%20usando%20excel.pdf>. Acesso em: 07 set. 2009. Material Complementar Arango, H.G. Bioestatística- Teórica e Computacional. 2.ed. Rio de Janeiro: Guanabara Koogan, 2005. (acompanha CD demonstrativo). Vieira, S. Princípios de Estatística. 1.ed. São Paulo: Pioneira Thomsoom Learning, 2003. Vieira, S. Introdução à Bioestatística. 4ed. Rio de Janeiro: Elsevier, 2008. Triola, M.F. Introdução à Estatística. Rio de Janeiro: LTC, 2005 Referências _________________________________________________________________________________ _________________________________________________________________________________ __________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ Anotações