Baixe o app para aproveitar ainda mais
Prévia do material em texto
ENGENHARIA Professora Márcia Kubiak Sato, Esp. Estatística - Engenharia - Aula 5 - pág.1/7 Aula 5 - Medidas de Variabilidade – Desvio, Variância e Desvio Padrão “Sempre há resistência quando a Ciência avança” Mayana Zatz1 (1947- ). Bióloga e geneticista brasileira, nascida em Tel Aviv Até julho de 2007 havia publicado 280 trabalhos científicos Considere a seguinte situação: Grupo A – dois alunos com notas iguais a 2,0 e 7,0. A média 2 de notas deste grupo é 5,4 2 )72( . Grupo B – dois alunos com notas iguais a 4,0 e 5,0. A média deste grupo é 5,4 2 )54( . Se levarmos em consideração apenas à informação da média de cada grupo, seremos forçados a concluir que os dois grupos são iguais. No entanto, como podemos observar, os dois grupos são diferentes. O grupo A tem notas 2,0 e 7,0 e o grupo B tem notas 4,0 e 5,0. Imagine um grupo C, também de dois alunos, que possuam notas 9,0 e 0,0. A média deles também é 4,5, no entanto este grupo apresenta notas bem diferentes daquelas dos outros grupos. O que quero dizer é que a média não é uma boa representação dos dados de um conjunto, pelo menos, não isoladamente. Precisamos ter alguma medida do quanto os dados estão espalhados em torno da média. Do quanto os dados estão dispersos. Observe o grupo A. Temos as notas 2,0 e 7,0, onde uma delas, a nota 2,0, está 2,5 abaixo da média, enquanto que a nota 7,0 está 2,5 acima da média. No grupo B as notas 4,0 e 5,0 estão 0,5, respectivamente, abaixo e acima da média. No grupo C este espalhamento é ainda maior. Uma nota está 4,5 abaixo da média, enquanto que a outra está 4,5 acima da média. Isto feito com estes conjuntos pequenos é fácil de analisar. A questão é: O que fazer para um grande número de dados? 1 Professora do Departamento de Biologia do Instituto de Biociências da Universidade de São Paulo. Desde 2005, exerce o cargo de pró- reitora de pesquisa da USP. Pesquisadora renomada em genética humana, com contribuições principalmente no campo de doenças neuromusculares (distrofias musculares, paraplegias espásticas, esclerose lateral amiotrófica) em que é pioneira, atualmente seu laboratório no Centro de Estudos do Genoma Humano da USP também realiza relevantes pesquisas no campo de células-tronco. O currículo Lattes da Dr.a Zatz está em http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4783424Z0 ENGENHARIA Professora Márcia Kubiak Sato, Esp. Estatística - Engenharia - Aula 5 - pág.2/7 DESVIO Para nos ajudar a responder esta questão, vamos apresentar alguns conceitos. O primeiro deles é o conceito de DESVIO. O desvio é a diferença entre a média e o valor da variável. Desta forma, no grupo A, onde as notas são 2,0 e 7,0, com média 4,5, podemos afirmar que o desvio da medida 2,0 é 4,5 – 2 = 2,5, enquanto que, o desvio da medida 7,0 é 4,5 – 7 = – 2,5. No grupo B as notas, ou medidas, 4,0 e 5,0, possuem desvios iguais a 4,5 – 4 = 0,5 e 4,5 – 5 = – 0,5. Assim podemos dizer que o grupo B é menos espalhado que o grupo A pois apresenta menores desvios, em módulo. Já o grupo C é o mais espalhado. De qualquer maneira não podemos esquecer que estes grupos são pequenos. Se tivermos que trabalhar com uma grande quantidade de dados calcular os desvios não irá resolver. Veja a tabela a seguir. 2,522 2,720 3,125 2,250 3,220 3,000 3,725 2,890 3,110 3,520 3,100 3,200 2,780 3,155 2,150 3,300 3,250 A média destes dados é 3,001. 2 A expressão média aqui refere-se a média aritmética ou seja n x x . ENGENHARIA Professora Márcia Kubiak Sato, Esp. Estatística - Engenharia - Aula 5 - pág.3/7 Desta forma cada um dos desvios podem ser vistos na tabela a seguir. medida desvio 2,522 0,479 2,720 0,281 3,125 -0,124 2,250 0,751 3,220 -0,219 3,000 0,001 3,725 -0,724 2,890 0,111 3,110 -0,109 3,520 -0,519 3,100 -0,099 3,200 -0,199 2,780 0,221 3,155 -0,154 2,150 0,851 3,300 -0,299 3,250 -0,249 Olhando para todos estes desvios não temos como analisar se o conjunto de medidas é muito ou pouco espalhado em torno da média. Alguns desvios são positivos, pois as medidas são inferiores à média, enquanto que outros desvios são negativos, pois existem valores maiores que a média. Somar todos os desvios não ajuda, pois esta soma é sempre nula, na medida em que os valores positivos cancelam os valores negativos. VARIÂNCIA Para resolvermos este impasse vamos definir outro conceito, o de VARIÂNCIA 3 . A variância é uma medida do espalhamento de dados de um conjunto, ou seja, é uma medida da dispersão de dados de um conjunto. Como os sinais positivos e negativos fazem com que os desvios se anulem, eles serão eliminados elevando-se todos os desvios ao quadrado. Isto pode ser visto na próxima tabela. 3 O termo variância foi introduzido por Ronald Fisher(1890-1962), estatístico, biólogo evolucionário e geneticista inglês, num ensaio de 1918 intitulado de The Correlation Between Relatives on the Supposition of Mendelian Inheritance. O conceito de variância é análogo ao conceito de momento de inércia em mecânica clássica. ENGENHARIA Professora Márcia Kubiak Sato, Esp. Estatística - Engenharia - Aula 5 - pág.4/7 medida desvio (desvio) 2 2,522 0,479 0,229 2,720 0,281 0,079 3,125 -0,124 0,015 2,250 0,751 0,564 3,220 -0,219 0,048 3,000 0,001 0,000 3,725 -0,724 0,524 2,890 0,111 0,012 3,110 -0,109 0,012 3,520 -0,519 0,269 3,100 -0,099 0,010 3,200 -0,199 0,040 2,780 0,221 0,049 3,155 -0,154 0,024 2,150 0,851 0,724 3,300 -0,299 0,089 3,250 -0,249 0,062 Para termos uma medida geral, vamos efetuar a soma da terceira coluna, ou seja, a soma dos quadrados dos desvios. Este valor é 2,751. É claro que quanto maior for o conjunto de dados maior será a soma. Assim precisaríamos dividir esta soma, 2,751, por um número que dependesse do número de dados. Este número é chamado de graus de liberdade e é igual a n – 1, onde n é o número de medidas. Em nosso exemplo n = 17 e portanto os graus de liberdade são 16. Feito isto, ou seja, 1719,0 16 751,2 obtemos a variância do conjunto de dados. A variância é tradicionalmente representada por 2. Se fizermos isto com os grupos A, B e C originais, iremos encontrar, respectivamente, 12,5, 0,5 e 40,5, indicando que o grupo B é o menos disperso entre eles, enquanto que o grupo C é o mais disperso. No entanto a variância não possui a mesma dimensão dos dados originais, visto que ocorreu a elevação ao quadrado de todos os desvios. Para mantermos a dimensão original vamos apresentar mais um conceito. ENGENHARIAProfessora Márcia Kubiak Sato, Esp. Estatística - Engenharia - Aula 5 - pág.5/7 DESVIO PADRÃO O desvio padrão 4 é a raiz quadrada da variância e tem a mesma dimensão dos dados originais. O desvio padrão é tradicionalmente representado por . Para a tabela de 17 entradas o desvio padrão é 0,4147. Para os grupos A, B e C, o desvio padrão, para cada um deles, é, respectivamente, 3,54; 0,71 e 6,36. Os comandos MS-Excel para média, variância e desvio padrão, são respectivamente MEDIA, VAR e DESVPAD. Em todos estes comandos deverá existir o intervalo de células da matriz de dados. Em tempo: A relação entre o desvio padrão e a média é chamada de coeficiente de variação (CV), muitas vezes expressa em porcentagem. UM POUCO DE MATEMÁTICA Chamando os dados por x1, x2, x3, ..., xn ou ainda genericamente por xi onde i varia de 1 a n, temos que a média é n x x n xxxx x in ...321 . Os desvios são representados por )( xxi . Os desvios ao quadrado são representadas por 2)( xxi . A soma dos desvios ao quadrado, 2 xxi . A variância é representada por 1 2 2 n xxi . O desvio padrão por 1 2 n xxi 4 O termo desvio padrão foi introduzido na estatística por Karl Pearson (1857-1936) no seu livro de 1894: "Sobre a dissecção de curvas de frequência assimétricas". Karl Pearson foi o fundador do primeiro departamento universitário do mundo dedicado à estatística, em Londres, em 1911. ENGENHARIA Professora Márcia Kubiak Sato, Esp. Estatística - Engenharia - Aula 5 - pág.6/7 Exercícios 1) Para o conjunto de dados 3 , 1 e 5, determine a média, a variância, o desvio padrão e o coeficiente de variação. Resolução x1 = 3 x2 = 1 x3 = 5 3 3 9 3 513 n x x i Desvios x1 - x = 3 - 3 = 0 x2 - x = 1 - 3 = -2 x3 - x = 5 - 3 = 2 Observe que se somarmos os desvios o resultado será zero. Desvios ao quadrado (x1 - x ) 2 = (0) 2 = 0 (x2 - x ) 2 = (-2) 2 = 4 (x3 - x ) 2 = (2) 2 = 4 A soma dos desvios ao quadrado (xi -x ) 2 = 0 + 4 + 4 = 8 Cálculo da variância 4 2 8 )13( 8 1 2 2 n xxi Cálculo do desvio padrão = (2) = (4) = 2 Cálculo do coeficiente de variação CV = %7,66667,0 3 2 x ENGENHARIA Professora Márcia Kubiak Sato, Esp. Estatística - Engenharia - Aula 5 - pág.7/7 2) Repita o item 1 para os dados 55, 57 e 53. Compare com os resultados anteriores e comente. 3) Determinar para os dados a seguir a média, a variância e o desvio padrão. Os dados a seguir referem-se às freqüências para a pressão arterial, em milímetros de mercúrio, de cães adultos anestesiados e após laparotomia, de acordo com ARAÚJO e HOSSNE (1977); 130,0; 107,5; 135,0; 100,0; 134,5; 121,5; 107,5; 105,0; 125,0; 130,0; 145,0; 158,5; 135,0; 140,0; 120,0; 100,0; 135,0; 125,0; 110,0; 102,0; 121,5; 111,5; 107,5; 127,5; 104,5; 102,5; 119,5; 107,5; 99,0; 120,0; 90,5; 101,5; 90,5; 115,5; 113,0; 116,0; 143,0; 104,5; 102,5; 107,5; 125,5; 93,0; 82,5; 115,0; 136,5;101,5; 124,0; 117,5; 103,5. 4) Para a tabela a seguir determine a média, a variância e o desvio padrão. Tempo de internação, em dias, de pacientes acidentados no trabalho, em um dado hospital. 7 8 1 7 13 6 12 12 3 17 4 2 4 15 2 14 3 5 10 8 9 8 5 3 2 7 14 12 10 8 1 6 4 7 7 11
Compartilhar