Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 4 Medidas de Assimetria, Curtose e Correlação Objetivo: Compreender a importância de se avaliar o grau de assimetria e de curtose (achatamento) da distribuição para se avaliar a qualidade das medidas- resumo. Compreender a importância de se avaliar o grau de correlação entre duas variáveis quantitativas. 1 Medidas de Assimetria Diagnosticar se uma dada distribuição é ou não simétrica é fundamental em Estatística, pois como discutimos antes, uma distribuição altamente assimétrica enfraquece o valor da média como medida síntese dos dados, pois a média é abalada por valores extremos. Além disso, muitos todos testes estatísticos para tomada de decisão sob incerteza dependem de hipóteses sobre distribuições simétricas, como a distribuição Normal, que estudaremos mais adiante nesse curso. Daí a importância desse tópico em Estatística. Toda distribuição pode ser classi cada como simétrica, assimétrica à direita (ou positiva) e assimétrica à esquerda (ou negativa). Os grá cos abaixo ilustram os três casos: Simétrica ( �Xn �= Med �= Mo) 1 Assimétrica à Direita (Mo < Med < �Xn) Assimétrica à Esquerda ( �Xn < Med < Mo) Há várias medidas de assimetria, mas nesse curso nos ateremos apenas ao Coe ciente de Assimetria de Pearson (As). Ele é dado pela fórmula: As = �Xn �Mo S onde �Xn, Mo e S são, respectivamente, a média, a moda e o desvio-padrão da amostra. Decisão: (a) Se As = 0, então a distribuição é simétrica. (b) Se As > 0, então a distribuição é assimétrica positiva ou à direita. (c) Se As < 0, então a distribuição é assimétrica negativa ou à esquerda. Além disso: (i) se jAsj � 0; 15, a distribuição é considerada simétrica; (i) se 0; 15 < jAsj � 1, a assimetria é considerada moderada; (ii) se jAsj > 1, a assimetria é considerada forte. 2 Medidas de Curtose As medidas de curtose avaliam o grau de achatamento da distribuição. Com referência ao grau de achatamento, podemos classi car a distribuição como Lep- tocúrtica (pouco achatada),Mesocúrtica (médio achatada) ePlaticúrtica (muito achatada), conforme os grá cos abaixo: 2 Há várias medidas de curtose, mas nos ateremos apenas ao Coe ciente de Curtose de Pearson (K) dado pela fórmula: K = �4 �22 onde �4 = Pn i=1 � xi � �Xn �4 n e �2 = Pn i=1 � xi � �Xn �2 n Decisão: (a) Se K < 3, então a distribuição é platicúrtica. (b) Se K = 3, então a distribuição é mesocúrtica. (c) Se K > 3, então a distribuição é leptocúrtica. Observe que, se a distribuição é platicúrtica, isso indica que há uma grande variabilidade da variável observada, o que enfraquece o valor de medidas de posição como a média, por exemplo. Já numa distribuição leptocúrtica, temos alta con- centração dos dados, o que torna as medidas-resumo potencialmente mais repre- sentativas. É pela conjunção da assimetria com a curtose que podemos avaliar apropriadamente as medidas de posição calculadas. Exemplo 1 Suponha uma amostra de 10 elementos de uma população com os seguintes resultados: 5, 15, 15, 15, 25, 25, 25, 25, 35, 35. Assim, temos: �Xn = 5 + 3� 15 + 4� 20 + 2� 35 10 = 220 10 �Xn = 22. Mo = 25 3 S2 = (5� 22)2 + 3� (15� 22)2 + 4� (25� 22)2 + 2� (35� 22)2 9 = 289 + 147 + 36 + 338 9 = 810 9 S2 = 90 e S = p 90 �= 9; 4868 Assim As = �Xn �Mo S = 22� 25 9; 4868 = �0; 3162 Como As < 0, então a distribuição é assimétrica negativa ou à esquerda. Além disso, como 0; 15 < jAsj = 0; 3162 � 1, a assimetria é considerada moderada. Analisemos agora os dados, quanto ao grau de achatamento (curtose). �4 = P10 i=1 � xi � �X10 �4 10 = (5� 22)4 + 3� (15� 22)4 + 4� (25� 22)4 + 2� (35� 22)4 10 = 83:521 + 7:203 + 324 + 57:122 10 = 148:170 10 �4 = 14:817 �2 = P10 i=1 � xi � �X10 �2 10 = (5� 22)2 + 3� (15� 22)2 + 4� (25� 22)2 + 2� (35� 22)2 10 = = 289 + 147 + 36 + 338 10 = 810 10 �2 = 81 Assim K = �4 �22 = 14:817 (81)2 = 14:817 6:561 K �= 2; 2583 Portanto, como K �= 2; 2583 < 3, então a distribuição é platicúrtica. Exercício 1 Foi comparado o desempenho na Escala de Desenvolvimento de Pen- samento Lógico (EPL), de Longeot, entre sujeitos dos cursos de graduação em Psi- cologia, Biologia e Física da USP, freqüentando o primeiro e o último ano. Essa escala, baseada na Teoria do Desenvolvimento do Pensamento Lógico de Piaget, per- mite classi car o sujeito em um dentre cinco níveis de desenvolvimento: Concreto A (0 a 4 pontos) ou B (5 a 10 pontos); Pré-formal (11 a 17 pontos); Formal A (18 a 23 pontos) ou B (24 a 28 pontos). Os resultados obtidos foram os seguintes: 4 Sexo Masculino: Média: 22; 30 Mediana: 22; 00 Moda: 22; 00 1o Quartil: 20; 00 3o Quartil: 25; 00 Variância: 7; 51 Mínimo: 17; 00 Máximo: 26; 00 Sexo Feminino: Média: 20; 88 Mediana: 21; 00 Moda: 22; 00 1o Quartil: 19; 00 3o Quartil: 23; 00 Variância: 11; 93 Mínimo: 10; 00 Máximo: 28; 00 (a) Qual dos grupos (masculino ou feminino) evidencia desempenho mais heterogêneo? Justi que com base a uma medida estatística apropriada. (b) Há evidência de dados discrepantes (outliers) no grupo masculino? Jus- ti que. (c) Há evidência de dados discrepantes (outliers) no grupo feminino? Jus- ti que. (d) Analise a assimetria da distribuição dos escores do grupo masculino. (e) Analise a assimetria da distribuição dos escores do grupo feminino. Exercício 2 Houve uma denúncia por parte dos operários de uma indústria de que, toda vez que ocorreria um acidente em uma seção da indústria, ocorreriam outros em outras seções mais ou menos no mesmo horário. Em outras palavras, os acidentes não estavam ocorrendo ao acaso. Para veri car esta hipótese, foi feita uma contagem do número de acidentes por hora durante um certo número de dias (24 horas por dia). Os resultados da pesquisa estão abaixo: Número de Acidentes por Hora 0 1 2 3 4 5 6 7 8 Número de Horas 200 152 60 30 13 9 7 5 4 (a) Qual o número médio de acidentes por hora? (b) E o número mediano? (c) Qual é a moda? (d) Qual é o desvio-padrão? (e) Avalie os dados quanto à assimetria. (f) Avalie os dados quanto à curtose. 3 Coe ciente de Correlação Vimos anteriormente que o diagrama de dispersão (scatterplot) é usado quando desejamos avaliar a relação entre duas variáveis. A visualização é um primeiro passo para um entendimento dessa possível inuência de uma variável sobre outra, mas há que se medir a correlação entre elas. O coe ciente de correlação (r) é a medida comumente utilizada para se avaliar a correlação linear entre duas variáveis quantitativas. 5 Suponha que tenhamos uma amostra de n pares de dados (xi; yi), i = 1; 2; :::; n, onde x é a variável explicativa (também denominada independente ou covariável), que procura explicar o comportamento da variável resposta y (também denominada dependente). Assim, por exemplo, se desejamos saber se o número de cigarros fumados por dia tem relação com a capacidade pulmonar, então x é o número de cigarros fumados por uma unidade experimental e y a medição de sua capacidade pulmonar. Assim temos um conjunto de dados do tipo Covariável (x) x1 x2 : : : xn Variável Resposta (y) y1 y2 : : : yn O coe ciente de correlação é expresso pela seguinte fórmula: r = Pn i=1 � xi � �Xn � : � yi � �Yn �qPn i=1 � xi � �Xn �2qPn i=1 � yi � �Yn �2 ou então de forma mais simpli cada para o cálculo: r = n Pn i=1 xi:yi � ( Pn i=1 xi) : ( Pn i=1 yi)q n Pn i=1 x 2 i � ( Pn i=1 xi) 2 q n Pn i=1 y 2 i � ( Pn i=1 yi) 2 onde �Xn e �Yn são as médias da covariável e da variável resposta, respectivamente. A correlação pode ser positiva, negativa ou nula. Vejamos com exemplos grá cos os três casos: 6 Vemos que na correlação linear positiva, a melhor reta que passa por entre os pontos tem coeciente angular positivo, indicando que, quando a variável explicativa cresce, a variável resposta tende a crescer também. No exemplo puramente ilustra- tivo acima, a nota do vestibular tem correlação positiva com a média das notas da graduação de 18 alunos que participaram da amostra. Vemos que na correlação linear negativa, a melhor reta que passa por entre os pontos tem coe ciente angular negativo, indicando que, quando a variável explica- tiva cresce, a variável resposta tende a decrescer. No exemplo acima, as horas de treinamento, à luz da amostra de 20 funcionários de uma dada indústria, guardam uma correlação negativa com o número de acidentes. Vemos que na correlação linear nula, os pontos se distribuem no plano carte- siano como uma nebulosa, não havendo qualquer indicação de uma melhor reta que passe próximo aos pontos. Nesse exemplo, não há qualquer correlação entre altura do indivíduo e o seu quociente de inteligência (QI), avaliado através de uma amostra de 25 indivíduos. 7 Propriedades do Coe ciente de Correlação (r) (1) O coe ciente de correlação é sempre um número entre �1 e 1, isto é, r 2 [�1; 1], e mede o grau de ajuste da reta aos pontos no plano cartesiano. (2) Se r está próximo a �1, há uma forte correlação negativa, ou seja, há uma reta de coe ciente angular negativo passando muito próximo aos pontos amostrais. (Se r = �1, então essa reta passa exatamente sobre todos os pontos, ou seja, os pontos são colineares.) Se r está próximo de 0, não há correlação linear, os pontos se comportam como uma nebulosa ou têm comportamento fortemente não linear. E se r está próximo de 1, há uma forte correlação positiva, ou seja, há uma reta de coe ciente angular positivo passando muito próximo aos pontos amostrais. (Se r = 1, então essa reta passa exatamente sobre todos os pontos, ou seja, os pontos são colineares.) (3) O coe ciente de correlação é também expresso na forma percentual. Assim se r = �0; 87, então pode-se escrever r = �87%, signi cando que a correlação entre as duas variáveis em estudo é negativa e bastante alta. Além disso, o valor r2 = (�0; 87)2 = 0; 7569 = 75; 69% nos informa que 75; 69% da variabilidade da variável resposta é explicada pela covariável em estudo, e que, portanto, 24; 31% (100%�75; 69%) da variabilidade da variável resposta não é explicada pela variável explicativa. O coe ciente r2 é chamado de coe ciente de determinação. É preciso, no entanto, ressaltar que mesmo uma alta correlação entre duas variáveis não signi ca necessariamente uma relação de causa-efeito entre elas! Re- lações de causalidade são atribuídas pela conhecimento cientí co sobre as variáveis envolvidas, pois poderíamos ter por exemplo uma alta correlação numérica entre grau de calvície e grau de miopia, sem no entanto ter qualquer relação causal médica plausível para isso. Portanto, é preciso cautela ao se tirar conclusões em estudos de correlação entre variáveis. 3.1 A Reta de Regressão Mais do que medir o grau de correlação linear entre duas variáveis quantitati- vas, interessa-nos também obter a equação da melhor reta que passa pelos pontos observados, pois através dessa reta podemos estimar a variável resposta para valores não observados da variável explicativa. A melhor reta é obtida através do Cálculo Diferencial, pelo uso da derivação parcial e sua demostração está além do escopo desse curso introdutório. Depois de constatar que existe uma correlação linear signi cante, podemos então escrever uma equação linear que descreva a relação entre as variáveis x e y. Essa equação chama-se reta de regressão ou reta do ajuste ótimo. Denominemos y^i, o valor estimado da variável resposta pela reta de regressão à luz do valor da variável explicativa xi. Então podemos descrever (dada a existência de uma relação linear entre as variáveis): y^i = axi + b 8 O Método de Mínimos Quadrados, desenvolvido por Gauss, consiste em obter a e b, a m de minimizar a soma dos quadrados dos erros entre o valor observado da variável resposta e seu valor estimado pela reta de regressão, isto é, minimizar nX i=1 (yi � y^i)2 = nX i=1 (yi � axi � b)2 , conforme a ilustração abaixo: Assim, pode-se mostrar através do Cálculo Diferencial que a = n Pn i=1 xi:yi � ( Pn i=1 xi) : ( Pn i=1 yi) n Pn i=1 x 2 i � ( Pn i=1 xi) 2 e b = �Yn � a: �Xn. Vamos então ilustrar com um exemplo o uso do coe ciente de correlação e da reta de regressão. Exemplo 2 Suponha que desejemos avaliar a correlação entre o número de faltas dos alunos em sala de aula e a média nal de suas provas em Matemática num dado ano letivo. Para isso, selecionamos aleatoriamente 7 alunos para a amostra, obtendo-se os dados abaixo. Aluno Falta Média Final 1 8 78 2 2 92 3 5 90 4 12 58 5 15 43 6 9 74 7 6 81 9 A primeira coisa a se fazer, como dissemos antes, é construir um diagrama de dispersão para avaliar gra camente uma possível relação entre as variáveis em estudo. No nosso caso, a variável explicativa, ou covariável, x, é o número de faltas e a variável resposta, y, é a média nal do ano letivo. O diagrama de dispersão é dado por: Pelo diagrama de dispersão, vemos que há indicíos de uma boa correlação linear negativa entre número de faltas e média nal, indicando que quanto mais faltas tem um aluno, mais a sua média nal tende a decrescer. Precisamos agora medir a correlação entre as variáveis em estudo. Para isso, prepararemos uma tabela com as somas necessárias para o cálculo do coe ciente de correlação r. Aluno xi yi xi:yi x2i y 2 i 1 8 78 624 64 6:084 2 2 92 184 4 8:464 3 5 90 450 25 8:100 4 12 58 696 144 3:364 5 15 43 645 225 1:849 6 9 74 666 81 5:476 7 6 81 486 36 6:561 Somas 57 516 3:751 579 39:898 Assim temos 7X i=1 xi:yi = 3:751, 7X i=1 xi = 57, 7X i=1 yi = 516, 7X i=1 x2i = 579 e 7X i=1 y2i = 39:898. Utilizando a fórmula simpli cada para r, temos r = 7 P7 i=1 xi:yi � �P7 i=1 xi � : �P7 i=1 yi �q 7 P7 i=1 x 2 i � �P7 i=1 xi �2q 7 P7 i=1 y 2 i � �P7 i=1 yi �2 = 7� 3:751� 57� 516p 7� 579� 572p7� 39:898� 5162 = �3:155p 804 p 13:030 10 r �= �0; 975 ou r �= �97; 5% Vemos então uma alta correlação negativa entre as duas variáveis em estudo, con rmando nossa análise do diagrama de dispersão. O coe ciente de determinação é dado por r2 = (�0; 975)2 = 0; 9506 = 95; 06%. Assim apenas 4; 94% das notas nais não são explicadas pelo número de faltas dos alunos. Vamos agora então obter a equação da reta de regressão y^i = axi + b onde a = 7 P7 i=1 xi:yi � �P7 i=1 xi � : �P7 i=1 yi � 7 P7 i=1 x 2 i � �P7 i=1 xi �2 = 7� 3:751� 57� 516 7� 579� 572 = �3:155 804 a �= �3; 924 b = �Y7 � a: �X7 = 516 7 � (�3; 924) :57 7 b �= 105; 667 A reta de regressão tem a equação dada por y^i = �3; 924xi + 105; 667. Observe que de fato o coe ciente angular da reta é negativo, indicando a correlação negativa entre as variáveis no estudo. De posse desta reta, podemos estimar valores de média nal para números de faltas não observadas na amostra. Por exemplo, qual seria a média nal esperada para um aluno que tivesse 4 faltas no ano letivo? Teríamos então y^ = �3; 924� 4 + 105; 667 = 89; 97 Ou seja, esperaríamos que um aluno com 4 faltas obtivesse média nal de 89; 97. Exercício 3 Muitas vezes, a determinação da capacidade de produção instalada para certo tipo de indústria em certas regiões é um processo difícil e custoso. Como alternativa, pode-se estimar a capacidade de produção através da escolha de uma outra variável de medida mais fácil e que esteja linearmente relacionada com ela. Suponha que foram observados os valores para as variáveis: capacidade de pro- dução instalada, potência instalada e área construída, conforme tabela abaixo: 11 Cap. Prod.Inst. (ton.) 4 5 4 5 8 9 10 11 12 12 Potência Inst. (1000 kW) 1 1 2 3 3 5 5 6 6 6 Área Construída (100 m) 6 7 10 10 11 9 12 10 11 14 (a) Com base num critério estatístico, qual das variáveis (potência instalada ou área construída) você escolheria para estimar a capacidade de produção instalada? Justi que solidamente. (b) Tendo escolhido a variável que melhor estima a capacidade de produção in- stalada, obtenha a reta de regressão das variáveis envolvidas. Exercício 4 Com o objetivo de veri car até que ponto o "status" da relação amorosa - casamento ou namoro - inui na percepção do amor por parte dos jovens, foi apli- cada uma escala de atitudes em 16 pares, sendo oito compostos de namorados e oito de casados. Uma das suposições das autoras era que entre casados haveria maior concordância de atitude do que entre namorados, ou seja, que os dois membros do mesmo par teriam o mesmo enfoque no amor - romântico ou não. Os resultados apenas dos 8 pares casados estão apresentados abaixo. Comparação entre Homens e Mulheres Casados quanto ao Grau de Romantismo: Casais Mulher (X) Homem (Y) 1 72 75 2 73 72 3 74 76 4 74 75 5 73 69 6 73 73 7 72 67 8 70 72 Pede-se: (a) Construir um Diagrama de Dispersão para os dados coletados. (b) Determinar o Coe ciente de Correlação Linear, e tirar conclusões. (c) Determinar a reta de regressão de Y como variável resposta e X como covar- iável. (d) Determinar a reta de regressão de X como variável resposta e Y como covar- iável. (e) Estimar o grau de romantismo da mulher, quando o homem apresenta resul- tado 74. (f) Estimar o grau de romantismo do homem, quando a mulher apresenta resul- tado 71. Exercício 5 (Fórum de Discussão) Proponha uma atividade prática em sala de aula para o tratamento de duas variáveis quantitativas com o objetivo de se analisar a possível relação funcional entre elas, fazendo assim um diálogo da Estatística com a Matemática. 12
Compartilhar