Buscar

Medidas de Assimetria, Curtose e Correlação

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Aula 4
Medidas de Assimetria, Curtose e
Correlação
Objetivo: Compreender a importância de se avaliar o grau de assimetria e
de curtose (achatamento) da distribuição para se avaliar a qualidade das medidas-
resumo. Compreender a importância de se avaliar o grau de correlação entre duas
variáveis quantitativas.
1 Medidas de Assimetria
Diagnosticar se uma dada distribuição é ou não simétrica é fundamental em
Estatística, pois como discutimos antes, uma distribuição altamente assimétrica
enfraquece o valor da média como medida síntese dos dados, pois a média é abalada
por valores extremos. Além disso, muitos todos testes estatísticos para tomada de
decisão sob incerteza dependem de hipóteses sobre distribuições simétricas, como a
distribuição Normal, que estudaremos mais adiante nesse curso. Daí a importância
desse tópico em Estatística.
Toda distribuição pode ser classi…cada como simétrica, assimétrica à direita
(ou positiva) e assimétrica à esquerda (ou negativa). Os grá…cos abaixo ilustram os
três casos:
Simétrica ( �Xn �= Med �= Mo)
1
Assimétrica à Direita (Mo < Med < �Xn)
Assimétrica à Esquerda ( �Xn < Med < Mo)
Há várias medidas de assimetria, mas nesse curso nos ateremos apenas ao
Coe…ciente de Assimetria de Pearson (As). Ele é dado pela fórmula:
As =
�Xn �Mo
S
onde �Xn, Mo e S são, respectivamente, a média, a moda e o desvio-padrão da
amostra.
Decisão:
(a) Se As = 0, então a distribuição é simétrica.
(b) Se As > 0, então a distribuição é assimétrica positiva ou à direita.
(c) Se As < 0, então a distribuição é assimétrica negativa ou à esquerda.
Além disso:
(i) se jAsj � 0; 15, a distribuição é considerada simétrica;
(i) se 0; 15 < jAsj � 1, a assimetria é considerada moderada;
(ii) se jAsj > 1, a assimetria é considerada forte.
2 Medidas de Curtose
As medidas de curtose avaliam o grau de achatamento da distribuição. Com
referência ao grau de achatamento, podemos classi…car a distribuição como Lep-
tocúrtica (pouco achatada),Mesocúrtica (médio achatada) ePlaticúrtica (muito
achatada), conforme os grá…cos abaixo:
2
Há várias medidas de curtose, mas nos ateremos apenas ao Coe…ciente de
Curtose de Pearson (K) dado pela fórmula:
K = �4
�22
onde
�4 =
Pn
i=1
�
xi � �Xn
�4
n
e
�2 =
Pn
i=1
�
xi � �Xn
�2
n
Decisão:
(a) Se K < 3, então a distribuição é platicúrtica.
(b) Se K = 3, então a distribuição é mesocúrtica.
(c) Se K > 3, então a distribuição é leptocúrtica.
Observe que, se a distribuição é platicúrtica, isso indica que há uma grande
variabilidade da variável observada, o que enfraquece o valor de medidas de posição
como a média, por exemplo. Já numa distribuição leptocúrtica, temos alta con-
centração dos dados, o que torna as medidas-resumo potencialmente mais repre-
sentativas. É pela conjunção da assimetria com a curtose que podemos avaliar
apropriadamente as medidas de posição calculadas.
Exemplo 1 Suponha uma amostra de 10 elementos de uma população com os
seguintes resultados: 5, 15, 15, 15, 25, 25, 25, 25, 35, 35.
Assim, temos:
�Xn =
5 + 3� 15 + 4� 20 + 2� 35
10
=
220
10
�Xn = 22.
Mo = 25
3
S2 =
(5� 22)2 + 3� (15� 22)2 + 4� (25� 22)2 + 2� (35� 22)2
9
=
289 + 147 + 36 + 338
9
=
810
9
S2 = 90 e S =
p
90 �= 9; 4868
Assim
As =
�Xn �Mo
S
=
22� 25
9; 4868
= �0; 3162
Como As < 0, então a distribuição é assimétrica negativa ou à esquerda. Além
disso, como 0; 15 < jAsj = 0; 3162 � 1, a assimetria é considerada moderada.
Analisemos agora os dados, quanto ao grau de achatamento (curtose).
�4 =
P10
i=1
�
xi � �X10
�4
10
=
(5� 22)4 + 3� (15� 22)4 + 4� (25� 22)4 + 2� (35� 22)4
10
=
83:521 + 7:203 + 324 + 57:122
10
=
148:170
10
�4 = 14:817
�2 =
P10
i=1
�
xi � �X10
�2
10
=
(5� 22)2 + 3� (15� 22)2 + 4� (25� 22)2 + 2� (35� 22)2
10
= =
289 + 147 + 36 + 338
10
=
810
10
�2 = 81
Assim
K = �4
�22
=
14:817
(81)2
=
14:817
6:561
K �= 2; 2583
Portanto, como K �= 2; 2583 < 3, então a distribuição é platicúrtica.
Exercício 1 Foi comparado o desempenho na Escala de Desenvolvimento de Pen-
samento Lógico (EPL), de Longeot, entre sujeitos dos cursos de graduação em Psi-
cologia, Biologia e Física da USP, freqüentando o primeiro e o último ano. Essa
escala, baseada na Teoria do Desenvolvimento do Pensamento Lógico de Piaget, per-
mite classi…car o sujeito em um dentre cinco níveis de desenvolvimento: Concreto
A (0 a 4 pontos) ou B (5 a 10 pontos); Pré-formal (11 a 17 pontos); Formal A (18
a 23 pontos) ou B (24 a 28 pontos). Os resultados obtidos foram os seguintes:
4
Sexo Masculino:
Média: 22; 30 Mediana: 22; 00
Moda: 22; 00 1o Quartil: 20; 00
3o Quartil: 25; 00 Variância: 7; 51
Mínimo: 17; 00 Máximo: 26; 00
Sexo Feminino:
Média: 20; 88 Mediana: 21; 00
Moda: 22; 00 1o Quartil: 19; 00
3o Quartil: 23; 00 Variância: 11; 93
Mínimo: 10; 00 Máximo: 28; 00
(a) Qual dos grupos (masculino ou feminino) evidencia desempenho mais
heterogêneo? Justi…que com base a uma medida estatística apropriada.
(b) Há evidência de dados discrepantes (outliers) no grupo masculino? Jus-
ti…que.
(c) Há evidência de dados discrepantes (outliers) no grupo feminino? Jus-
ti…que.
(d) Analise a assimetria da distribuição dos escores do grupo masculino.
(e) Analise a assimetria da distribuição dos escores do grupo feminino.
Exercício 2 Houve uma denúncia por parte dos operários de uma indústria de que,
toda vez que ocorreria um acidente em uma seção da indústria, ocorreriam outros em
outras seções mais ou menos no mesmo horário. Em outras palavras, os acidentes
não estavam ocorrendo ao acaso. Para veri…car esta hipótese, foi feita uma contagem
do número de acidentes por hora durante um certo número de dias (24 horas por
dia). Os resultados da pesquisa estão abaixo:
Número de Acidentes por Hora 0 1 2 3 4 5 6 7 8
Número de Horas 200 152 60 30 13 9 7 5 4
(a) Qual o número médio de acidentes por hora?
(b) E o número mediano?
(c) Qual é a moda?
(d) Qual é o desvio-padrão?
(e) Avalie os dados quanto à assimetria.
(f) Avalie os dados quanto à curtose.
3 Coe…ciente de Correlação
Vimos anteriormente que o diagrama de dispersão (scatterplot) é usado quando
desejamos avaliar a relação entre duas variáveis. A visualização é um primeiro passo
para um entendimento dessa possível in‡uência de uma variável sobre outra, mas
há que se medir a correlação entre elas. O coe…ciente de correlação (r) é a
medida comumente utilizada para se avaliar a correlação linear entre duas variáveis
quantitativas.
5
Suponha que tenhamos uma amostra de n pares de dados (xi; yi), i =
1; 2; :::; n, onde x é a variável explicativa (também denominada independente ou
covariável), que procura explicar o comportamento da variável resposta y (também
denominada dependente). Assim, por exemplo, se desejamos saber se o número
de cigarros fumados por dia tem relação com a capacidade pulmonar, então x é o
número de cigarros fumados por uma unidade experimental e y a medição de sua
capacidade pulmonar. Assim temos um conjunto de dados do tipo
Covariável (x) x1 x2 : : : xn
Variável Resposta (y) y1 y2 : : : yn
O coe…ciente de correlação é expresso pela seguinte fórmula:
r =
Pn
i=1
�
xi � �Xn
�
:
�
yi � �Yn
�qPn
i=1
�
xi � �Xn
�2qPn
i=1
�
yi � �Yn
�2
ou então de forma mais simpli…cada para o cálculo:
r =
n
Pn
i=1 xi:yi � (
Pn
i=1 xi) : (
Pn
i=1 yi)q
n
Pn
i=1 x
2
i � (
Pn
i=1 xi)
2
q
n
Pn
i=1 y
2
i � (
Pn
i=1 yi)
2
onde �Xn e �Yn são as médias da covariável e da variável resposta, respectivamente.
A correlação pode ser positiva, negativa ou nula. Vejamos com exemplos
grá…cos os três casos:
6
Vemos que na correlação linear positiva, a melhor reta que passa por entre os
pontos tem coeciente angular positivo, indicando que, quando a variável explicativa
cresce, a variável resposta tende a crescer também. No exemplo puramente ilustra-
tivo acima, a nota do vestibular tem correlação positiva com a média das notas da
graduação de 18 alunos que participaram da amostra.
Vemos que na correlação linear negativa, a melhor reta que passa por entre
os pontos tem coe…ciente angular negativo, indicando que, quando a variável explica-
tiva cresce, a variável resposta tende a decrescer. No exemplo acima, as horas de
treinamento, à luz da amostra de 20 funcionários de uma dada indústria, guardam
uma correlação negativa com o número de acidentes.
Vemos que na correlação linear nula, os pontos se distribuem no plano carte-
siano como uma nebulosa, não havendo qualquer indicação de uma melhor reta que
passe próximo aos pontos. Nesse exemplo, não há qualquer correlação entre altura
do indivíduo e o seu quociente de inteligência (QI), avaliado através de uma amostra
de 25 indivíduos.
7
Propriedades do Coe…ciente de Correlação (r)
(1) O coe…ciente de correlação é sempre um número entre �1 e 1, isto é, r 2
[�1; 1], e mede o grau de ajuste da reta aos pontos no plano cartesiano.
(2) Se r está próximo a �1, há uma forte correlação negativa, ou seja, há uma
reta de coe…ciente angular negativo passando muito próximo aos pontos amostrais.
(Se r = �1, então essa reta passa exatamente sobre todos os pontos, ou seja, os
pontos são colineares.) Se r está próximo de 0, não há correlação linear, os pontos
se comportam como uma nebulosa ou têm comportamento fortemente não linear.
E se r está próximo de 1, há uma forte correlação positiva, ou seja, há uma reta
de coe…ciente angular positivo passando muito próximo aos pontos amostrais. (Se
r = 1, então essa reta passa exatamente sobre todos os pontos, ou seja, os pontos
são colineares.)
(3) O coe…ciente de correlação é também expresso na forma percentual. Assim
se r = �0; 87, então pode-se escrever r = �87%, signi…cando que a correlação
entre as duas variáveis em estudo é negativa e bastante alta. Além disso, o valor
r2 = (�0; 87)2 = 0; 7569 = 75; 69% nos informa que 75; 69% da variabilidade da
variável resposta é explicada pela covariável em estudo, e que, portanto, 24; 31%
(100%�75; 69%) da variabilidade da variável resposta não é explicada pela variável
explicativa. O coe…ciente r2 é chamado de coe…ciente de determinação.
É preciso, no entanto, ressaltar que mesmo uma alta correlação entre duas
variáveis não signi…ca necessariamente uma relação de causa-efeito entre elas! Re-
lações de causalidade são atribuídas pela conhecimento cientí…co sobre as variáveis
envolvidas, pois poderíamos ter por exemplo uma alta correlação numérica entre
grau de calvície e grau de miopia, sem no entanto ter qualquer relação causal médica
plausível para isso. Portanto, é preciso cautela ao se tirar conclusões em estudos de
correlação entre variáveis.
3.1 A Reta de Regressão
Mais do que medir o grau de correlação linear entre duas variáveis quantitati-
vas, interessa-nos também obter a equação da melhor reta que passa pelos pontos
observados, pois através dessa reta podemos estimar a variável resposta para valores
não observados da variável explicativa. A melhor reta é obtida através do Cálculo
Diferencial, pelo uso da derivação parcial e sua demostração está além do escopo
desse curso introdutório.
Depois de constatar que existe uma correlação linear signi…cante, podemos
então escrever uma equação linear que descreva a relação entre as variáveis x e y.
Essa equação chama-se reta de regressão ou reta do ajuste ótimo.
Denominemos y^i, o valor estimado da variável resposta pela reta de regressão
à luz do valor da variável explicativa xi. Então podemos descrever (dada a existência
de uma relação linear entre as variáveis):
y^i = axi + b
8
O Método de Mínimos Quadrados, desenvolvido por Gauss, consiste em
obter a e b, a …m de minimizar a soma dos quadrados dos erros entre o valor
observado da variável resposta e seu valor estimado pela reta de regressão, isto
é, minimizar
nX
i=1
(yi � y^i)2 =
nX
i=1
(yi � axi � b)2 ,
conforme a ilustração abaixo:
Assim, pode-se mostrar através do Cálculo Diferencial que
a =
n
Pn
i=1 xi:yi � (
Pn
i=1 xi) : (
Pn
i=1 yi)
n
Pn
i=1 x
2
i � (
Pn
i=1 xi)
2
e
b = �Yn � a: �Xn.
Vamos então ilustrar com um exemplo o uso do coe…ciente de correlação e
da reta de regressão.
Exemplo 2 Suponha que desejemos avaliar a correlação entre o número de faltas
dos alunos em sala de aula e a média …nal de suas provas em Matemática num
dado ano letivo. Para isso, selecionamos aleatoriamente 7 alunos para a amostra,
obtendo-se os dados abaixo.
Aluno Falta Média Final
1 8 78
2 2 92
3 5 90
4 12 58
5 15 43
6 9 74
7 6 81
9
A primeira coisa a se fazer, como dissemos antes, é construir um diagrama
de dispersão para avaliar gra…camente uma possível relação entre as variáveis em
estudo. No nosso caso, a variável explicativa, ou covariável, x, é o número de faltas
e a variável resposta, y, é a média …nal do ano letivo. O diagrama de dispersão é
dado por:
Pelo diagrama de dispersão, vemos que há indicíos de uma boa correlação
linear negativa entre número de faltas e média …nal, indicando que quanto mais
faltas tem um aluno, mais a sua média …nal tende a decrescer. Precisamos agora
medir a correlação entre as variáveis em estudo. Para isso, prepararemos uma tabela
com as somas necessárias para o cálculo do coe…ciente de correlação r.
Aluno xi yi xi:yi x2i y
2
i
1 8 78 624 64 6:084
2 2 92 184 4 8:464
3 5 90 450 25 8:100
4 12 58 696 144 3:364
5 15 43 645 225 1:849
6 9 74 666 81 5:476
7 6 81 486 36 6:561
Somas 57 516 3:751 579 39:898
Assim temos
7X
i=1
xi:yi = 3:751,
7X
i=1
xi = 57,
7X
i=1
yi = 516,
7X
i=1
x2i = 579 e
7X
i=1
y2i = 39:898.
Utilizando a fórmula simpli…cada para r, temos
r =
7
P7
i=1 xi:yi �
�P7
i=1 xi
�
:
�P7
i=1 yi
�q
7
P7
i=1 x
2
i �
�P7
i=1 xi
�2q
7
P7
i=1 y
2
i �
�P7
i=1 yi
�2
=
7� 3:751� 57� 516p
7� 579� 572p7� 39:898� 5162
=
�3:155p
804
p
13:030
10
r �= �0; 975 ou r �= �97; 5%
Vemos então uma alta correlação negativa entre as duas variáveis em estudo,
con…rmando nossa análise do diagrama de dispersão. O coe…ciente de determinação
é dado por r2 = (�0; 975)2 = 0; 9506 = 95; 06%. Assim apenas 4; 94% das notas
…nais não são explicadas pelo número de faltas dos alunos.
Vamos agora então obter a equação da reta de regressão
y^i = axi + b
onde
a =
7
P7
i=1 xi:yi �
�P7
i=1 xi
�
:
�P7
i=1 yi
�
7
P7
i=1 x
2
i �
�P7
i=1 xi
�2
=
7� 3:751� 57� 516
7� 579� 572
=
�3:155
804
a �= �3; 924
b = �Y7 � a: �X7
=
516
7
� (�3; 924) :57
7
b �= 105; 667
A reta de regressão tem a equação dada por
y^i = �3; 924xi + 105; 667.
Observe que de fato o coe…ciente angular da reta é negativo, indicando a correlação
negativa entre as variáveis no estudo.
De posse desta reta, podemos estimar valores de média …nal para números de
faltas não observadas na amostra. Por exemplo, qual seria a média …nal esperada
para um aluno que tivesse 4 faltas no ano letivo? Teríamos então
y^ = �3; 924� 4 + 105; 667
= 89; 97
Ou seja, esperaríamos que um aluno com 4 faltas obtivesse média …nal de 89; 97.
Exercício 3 Muitas vezes, a determinação da capacidade de produção instalada
para certo tipo de indústria em certas regiões é um processo difícil e custoso. Como
alternativa, pode-se estimar a capacidade de produção através da escolha de uma
outra variável de medida mais fácil e que esteja linearmente relacionada com ela.
Suponha que foram observados os valores para as variáveis: capacidade de pro-
dução instalada, potência instalada e área construída, conforme tabela abaixo:
11
Cap. Prod.Inst. (ton.) 4 5 4 5 8 9 10 11 12 12
Potência Inst. (1000 kW) 1 1 2 3 3 5 5 6 6 6
Área Construída (100 m) 6 7 10 10 11 9 12 10 11 14
(a) Com base num critério estatístico, qual das variáveis (potência instalada ou
área construída) você escolheria para estimar a capacidade de produção instalada?
Justi…que solidamente.
(b) Tendo escolhido a variável que melhor estima a capacidade de produção in-
stalada, obtenha a reta de regressão das variáveis envolvidas.
Exercício 4 Com o objetivo de veri…car até que ponto o "status" da relação amorosa
- casamento ou namoro - in‡ui na percepção do amor por parte dos jovens, foi apli-
cada uma escala de atitudes em 16 pares, sendo oito compostos de namorados e oito
de casados. Uma das suposições das autoras era que entre casados haveria maior
concordância de atitude do que entre namorados, ou seja, que os dois membros do
mesmo par teriam o mesmo enfoque no amor - romântico ou não. Os resultados
apenas dos 8 pares casados estão apresentados abaixo.
Comparação entre Homens e Mulheres Casados quanto ao Grau de Romantismo:
Casais Mulher (X) Homem (Y)
1 72 75
2 73 72
3 74 76
4 74 75
5 73 69
6 73 73
7 72 67
8 70 72
Pede-se:
(a) Construir um Diagrama de Dispersão para os dados coletados.
(b) Determinar o Coe…ciente de Correlação Linear, e tirar conclusões.
(c) Determinar a reta de regressão de Y como variável resposta e X como covar-
iável.
(d) Determinar a reta de regressão de X como variável resposta e Y como covar-
iável.
(e) Estimar o grau de romantismo da mulher, quando o homem apresenta resul-
tado 74.
(f) Estimar o grau de romantismo do homem, quando a mulher apresenta resul-
tado 71.
Exercício 5 (Fórum de Discussão) Proponha uma atividade prática em sala de
aula para o tratamento de duas variáveis quantitativas com o objetivo de se analisar
a possível relação funcional entre elas, fazendo assim um diálogo da Estatística com
a Matemática.
12

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes