Buscar

Estatística Aula 03 Relacionando Variáveis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 6 páginas

Prévia do material em texto

1
Relacionando Variáveis
Exemplo: Para 68 empregados de uma empresa foram medidas as variáveis salário Inicial 
no emprego, Salário atual,,Sexo, Idade, número de anos de estudo (Anos_escola) , e anos 
de experiência no trabalho (Exp)
26.5856.92817942,6322247,868
0.9227.581614105,166768,367
15.0851.501217785,3617326,666
6.2559.08815377,618266,865
0.2544.501214064,317863,664
:::::::
2.9230.0819012835,927173,66
5.7535.1716010938,020333,05
20.0046.2512010721,412332,64
12.0041.1715010721,422697,33
13.0041.9219017326,628282,52
0.2528.501608349,915994,51
ExpIdadeAnos_escolaSexoSal_atualSal_inicialIndivíduo
O salário atual varia com sexo?
24.83513.6329.8018.3516.3114.89411.76932F
41.35725.02217.10512.4588.9558.06919.50736M
Maximo Q3MedianaQ1MinimoD.PadrãoMédianSexo
40000350003000025000200001500010000
9
8
7
6
5
4
3
2
1
0
salFinal
Fr
e
q
u
e
n
c
y
Histogram of salFinal -Homens
250002250020000175001500012500100007500
12
10
8
6
4
2
0
salFinal
Fr
e
q
u
e
n
c
y
Histogram of salFinal - Mulheres
MF
45000
40000
35000
30000
25000
20000
15000
10000
5000
Sexo
sa
lF
in
a
l
Boxplot of salFinal
MF
17500
15000
12500
10000
7500
5000
Sexo
s
a
lI
n
ic
ia
l
Boxplot of salInicial
2
Considerando 2 variáveis categóricas
Exemplo: Vamos categorizar a variável anos de estudo
Até 8 anos – categoria 1
De 9 a 12 anos – categoria 2
13 ou mais anos – categoria 3
AnosEstudo Frequencia Absoluta Porcentagem 
1 11 16,18 
2 23 33,82 
3 34 50,00 
Freqüência 
Sexo Absoluta Porcentagem 
Feminino 32 47,05 
Masculino 36 52,95
Como investigar a associação entre duas variáveis categóricas?
A distribuição de anos de estudo depende do sexo?
Distribuição dos trabalhadores segundo sexo e anos de estudo
68342311Total
362295M
3212146F
>129 a 12<=8
TotalAnos de EstudoSexo
68
(100)
34 
(50,0
0)
23 
(33,8
2)
11
(16,18)Total
36
(100)
22
(61,11)
9
(25,00)
5
(13,89)M
32
(100)
12
(37,50)
14
(43,75)
6
(18,75)F
>129 a 12<=8
Total
Anos de Estudo
Sexo
A distribuição de sexos depende da categoria de anos de estudo?
68
(100)34 (100)23 (100)
11
(100)Total
36
(52,94)
22
(64,71)
9
(39,13)
5
(45,45)F
32
(47,06)
12
(35,29)
14
(60,87)
6
(54,55)M
>129 a 12<=8
Total
Anos de Estudo
Sexo
1 2 3
M
F
distribuição de sexo por caegoria de anos de estudo
anos de estudo
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
F M
13ou mais
9 a 12
<=8
distribuição de anos de estudo por caegoria de sexo
sexo
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
3
A distribuição do salário atual depende da distribuição do salário inicial?
Isto é existe associação entre as variáveis?
1750015000125001000075005000
45000
40000
35000
30000
25000
20000
15000
10000
5000
Sal_inicial
S
a
l_
a
tu
a
l
Diagrama de dispersão de salário atual versus salario Inicial
Construir diagramas de dispersão
Quantificar a força da associação
(a) 
 
 
Ausência de associação linear 
r= 0,056 
(b) 
 
Associação linear positiva 
r=0,94 
( c) 
 
Associação linear negativa 
r = -0,94 
(d) 
 
Associação linear positiva 
r = 0,49 
(e) 
 
Associação linear negativa 
r = -0,61 
(f) 
 
Associação não linear 
r=0,061 
 
( g) 
 
Associação lienar positiva perfeita 
r = 1 
(h) 
 
Associação lienar negativa perfeita 
r = -1 
O diagrama de dispersão é construído a partir das observações (x,y) das 
varáveis X e Y de interesse, obtidas para n indivíduos.
xnynn
:::
:::
x4y44
x3y33
x2y22
x1y11
Variável XVariável YIndivíduo
• Cada ponto no gráfico representa um indivíduo.
• Ao construir o diagrama o comprimento do eixo vertical não deve ser muito 
menor que o comprimento do eixo horizontal.
• A Associação entre as variáveis é linear (pontos estão próximos de uma reta)
• A associação é positiva (Quanto maior o salário inicial maior o salário atual) 
4
Como quantificar a associação entre 2 variáveis quantitativas?
Vamos apresentar duas medidas: covariância e correlação
615,69695,0510
645,03757,859
1050,071137,828
981,88629,317
1295,871842,96
1544,751280,505
744,90695,194
1737,321933,513
1951,002486,122
1166,771117,251
Y – Gastos (reais)X – Renda (reais)Indivíduo
Dados de renda e gastos mensais de 10 pessoas
2500200015001000500
2000
1750
1500
1250
1000
750
500
Renda
G
a
s
to
s
Diagrama de Dsipersão de Gastos versus Renda
Covariância amostral entre 2 variáveis X e Y 
 
( )( )yyxx
n
s i
n
i
ixy −−
−
= ∑
=11
1
 
 
• A covariância a variação conjunta de 2 variáveis. Ela é positiva se Y aumenta 
com o aumento de X é negativa quanto Y decresce com o aumento de X. 
• O valor da covariância pode variar de ∞− a ∞+ . 
• A unidade de medida da covariância é dada pelo produto das unidades de 
medida das variáveis em questão. 
 
 Para o exemplo acima sxy = 263496 reais x reais 
Na tabela abaixo é exemplificado o cálculo da covariância 
 
Indivíduo x y )( xx − )( yy − ))(( yyxx −− 
1 1117.25 1166.77 -140,3, -90,78 12736,43 
2 2486.12 1951.00 1228,57 693,45 851951,90 
3 1933.51 1737.32 675,96 479,77 324305,30 
4 695.19 744.90 -562,36 -512,65 288293,90 
5 1280.50 1544.75 22,95 287,20 6591,24 
6 1842.90 1295.87 585,35 38,32 22430,61 
7 629.31 981.88 -628,24 -275,67 173186,90 
8 1137.82 1050.07 -119,73 -207,48 24841,58 
9 757.85 645.03 -499,70 -612,52 306076,20 
10 695.05 615.69 -562,50 -641,86 361046,30 
Soma 0 0 2371460 
 
55,1257=x
 
33,1173=y
 
233496
110
2371460
=
−
=xys
 
5
Entendendo a covariância 
 
 
Qual o sinal das contribuições )yy)(xx( ii −− em cada um dos quadrantes 
definidos por x e y? 
E usual apresentar as covariâncias entre vários pares de variáveis na forma de 
uma matriz: matriz de variâncias e covariâncias 
 
Exemplo: 
 
Matriz de covariâncias 
 anosestudo idade exp salfinal salinicial 
anosestudo 11.87 -18.04 -9.52 17778.41 8885.53 
idade -18.04 163.13 104.92 -35860.51 -10187.53 
exp -9.52 104.92 109.55 -17600.28 -2167.16 
salfinal 17778.41 -35860.51 -17600.28 60231619.28 20931398.72 
salinicial 8885.53 -10187.53 -2167.16 20931398.72 11180536.00 
 
 
• A matriz simétrica: COV(x1,x2) = COV(x2,x1) 
 
• Na diagonal da matriz temos as Variâncias: COV(x1,x1) = VAR(x1) 
 
 
COV(idade, anosestudo) = COV(anosestudo, idade) = -18,04 anos x anos 
 
COV(anosestudo,anoestudo) = VAR(anosestudo) = 11,87 anos2 
O salário final está mais fortemente associado com a idade ou com o salário 
inicial? 
 
Não podemos responder esta pergunta usando a covariância. Ela depende da 
unidade de medida. 
 
Para responder esta pergunta vamos utilizar o coeficiente de correlação de 
linear de Pearson 
 
 
Correlação linear 
yx
xy
y
i
n
i x
i
xy
ss
s
s
yy
s
xx
n
r =








−






−
−
= ∑
=11
1
 
 
onde sx e sy são os desvios padrão das variáveis X e Y. 
 
⇒ O coeficiente de correlação linear rxy mede o grau de associação linear entre 
duas variáveis. 
⇒ O coeficiente de correlação não possui unidade de medida. 
 -1 < r < 1 
 
 r < 0 → associação linear negativa entre as variáveis 
 r = 0 → não há associaçãolinear entre as variáveis 
 r > 0 → associação linear positiva entre as variáveis 
 r = -1 → correlação linear inversa perfeita 
 r = 1 → correlação linear direta perfeita 
6
 
⇒ Quanto mais próximos os pontos no diagrama de dispersão estiverem de 
uma reta, mais próxima a correlação estará de 1 ou –1 
⇒ Observe o gráfico (f). Mesmo com uma forte associação entre as variáveis a 
correlação é próxima de zero. Isto acontece porque o coeficiente de Pearson é 
adequado para medir associações lineares. Portanto é boa pratica construir o 
diagrama de dispersão antes de interpretar os coeficientes 
 
 reais 62,459 s reais 25,634 s 
 reais x reais 233496s
yx
xy
==
=
0,9038 
 reais 62,459 x reais 25,634
 reais x reais 233496
rxy ==
Cálculo da correlação entre gasto e renda
Y – gastos X – renda
Exemplo: Matriz de correlação 
 
 anosestudo idade exp salfinal salinicial 
anosestudo 1.00 -0.41 -0.26 0.66 0.77 
idade -0.41 1.00 0.78 -0.36 -0.24 
exp -0.26 0.78 1.00 -0.22 -0.06 
salfinal 0.66 -0.36 -0.22 1.00 0.81 
salinicial 0.77 -0.24 -0.06 0.81 1.00 
 
⇒ A matriz é simétrica 
 
 
 corr(exp, idade) = corr(idade, exp) = 0,78 
 
 
⇒ Os elementos da diagonal são iguais a 1. (grafico de x versus x é uma reta)

Outros materiais

Outros materiais