Buscar

Aula 5 - Assoc Variaveis (2)

Prévia do material em texto

Aula 5 – Associação entre variáveis
Prof. Dra. Flávia Cristina M. Queiroz Mariano
UNIFESP – São José dos Campos
BCT - 1º sem./2019
Existe uma relação entre a altura de pessoas e
o sexo em dada comunidade?
P1: Qual a frequência esperada de uma pessoa
dessa população ter mais de 170 cm?
P2: Qual a frequência esperada de uma mulher (ou
homem) ter mais de 170 cm?
Motivação:
homem) ter mais de 170 cm?
�Mesma resposta: não há associação entre as
variáveis altura e sexo. Caso
contrário, existe uma provável
associação.
Quando consideramos duas variáveis (ou dois
conjuntos de dados), podemos ter 3 situações e as técnicas
de análise são diferentes.
a) as duas qualitativas (tabela de contingência)
b) as duas quantitativas (gráficos de dispersão)
c) qualitativa e quantitativa (tabela de contingência)
Associação entre variáveis
A quantificação do grau de associação entre duas
variáveis é feita pelos chamados coeficientes de
associação ou correlação. Essas medidas descrevem, por
meio de um único número, a dependência entre duas
variáveis. Esses coeficientes geralmente variam de 0 a 1 ou
-1 a +1, e a proximidade do zero indica falta de associação.
• Quando estamos interessados no comportamento
conjunto de duas variáveis, os dados podem ser
resumidos em tabelas de dupla entrada (ou
contingência).
Exemplo: Uma pesquisa é feita entre alunos do
primeiro ano da faculdade e perguntou-se aos
Associação entre variáveis
primeiro ano da faculdade e perguntou-se aos
alunos se trabalhavam (variável X) e o número de
vestibulares prestados (variável Y).
Neste caso, cada elemento do corpo da tabela dá
a frequência observada das realizações
simultâneas das duas variáveis.
Tabela 1: Freqüências absolutas conjunta das variáveis X e Y:
X\Y 1 2 3 Total
sim 4 2 2 8
Tabela de frequência marginal de X
Tabela de frequências conjunta
nao 5 6 1 12
Total 9 8 3 20
Tabela de frequência marginal de Y
• Tabelas de frequências marginal ou individual
X freq
sim 8
Y 1 2 3 Total
Tabela de frequências conjunta
sim 8
nao 12
Total 20
freq 9 8 3 20
Exemplo) Deseja-se determinar se a criação de
determinado tipo de cooperativa está associada a
um fator regional:
Tabela de freqüências absolutas (relativas) segundo o Tipo
de Cooperativa (X) e o Estado (Y)
Associação entre variáveis qualitativas
de Cooperativa (X) e o Estado (Y)
Tipo de Cooperativa
Estado Consumidor Produtor Escola Outros Total
SP 214 33% 237 37% 78 12% 119 18% 648 100%
PR 51 17% 102 34% 126 42% 22 7% 301 100%
RS 111 18% 304 51% 139 23% 48 8% 602 100%
Total 376 24% 643 42% 343 22% 189 12% 1551 100%
Se não houvesse associação (dependência),
esperaríamos que em cada estado tivesse 24% de
cooperativas de consumidores, 42% de cooperativas de
produtores, 22% de escolas e 12% outros tipos. Assim, o
número esperado de cooperativas de consumidores em SP
seria 648*0,24 = 157, e assim por diante.
Tabela de frequências esperadas, assumindo independência entre as 2 variáveis.Tabela de frequências esperadas, assumindo independência entre as 2 variáveis.
Tipo de Cooperativa
Estado Consumidor Produtor Escola Outros Total
SP 157 24% 269 42% 143 22% 79 12% 648
PR 73 24% 125 42% 67 22% 37 12% 301
RS 146 24% 250 42% 133 22% 73 12% 602
Total 376 24% 643 42% 343 22% 189 12% 1551
Comparando as duas tabelas, podemos verificar a
discrepância existente entre os valores observados e os
valores esperados, caso as variáveis forem
independentes.
Tabela de Desvios entre frequências observadas e esperadas
Tipo de Cooperativa
Estado Consumidor Produtor Escola Outros TotalEstado Consumidor Produtor Escola Outros Total
SP 57 20,69 -32 3,81 -65 29,55 40 20,25 0
PR -22 6,63 -23 3,90 59 51,96 -15 6,08 0
RS -35 8,39 54 11,66 6 0,27 -25 8,56 0
Total 0 0 0 0 0
Para comparar os desvios é interessante
padronizá-los e transformá-los em positivos. E,
então, obter o coeficiente de contingência:
,
)(
1 1
2
2 ∑∑
= =
−
=
r
i
s
j ij
ijij
e
eo
χ
Qui-Quadrado de Pearson
onde oij são as frequências observadas da i-
ésima categoria de X e j-ésima categoria de Y, eij
são as frequências esperadas.
• Um valor grande de χ2 indica associação entre
as variáveis. Como interpretar quão grande?!!
1 1= =i j ije
No exemplo…
• Para facilitar a interpretação da associação definiu-se o
coeficiente de contingência corrigido, que assume valores
entre 0 e 1:
( ) ( ) ( )
.75,171
73
7348
...
269
269237
157
157214)(
222
1 1
2
2 =
−
++
−
+
−
=
−
=∑∑
= =
r
i
s
j ij
ijij
e
eo
χ
136,01551
75,1712
=== nT
χ
• Quanto mais próximo de 1 maior é associação entre a
criação de cooperativas e algum fator regional. Como o
valor de T=0,14 (bem próximo de 0) conclui-se que não
há associação entre os estados e tipo de
cooperativas.
136,0
)14)(13(
1551
)1)(1(
=
−−
=
−−
=
sr
nT
Exemplo: Existe associação entre o número de
clientes e o tempo de serviço de agentes de uma
companhia de seguros?
Uma forma bastante útil de verificar a
associação entre variáveis quantitativas
é pelo gráfico de dispersão.
Associação entre variáveis quantitativas
Ind.
Anos de 
serviço 
(X)
N. de 
clientes 
(Y)
A 2 48
Associação entre variáveis qualitativas
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62
H 8 58
I 8 64
J 10 72
0
10
20
30
40
50
60
70
80
0 2 4 6 8 10 12
Associação entre variáveis qualitativas
Resp: Parece que sim, pois à medida que 
aumenta o tempo de serviço, o número de 
clientes também aumenta.
• A medida que se utiliza com mais frequência
para quantificar o grau de uma associação
linear, é o coeficiente de correlação. Esta
medida avalia o quanto a nuvem de pontos do
gráfico de dispersão se aproxima de uma reta.
Correlação e Covariância
• Na definição do coeficiente de correlação de
pares de variáveis, está implícita a definição de
uma medida que dá uma ideia da variabilidade
conjunta existente entre as variáveis e que é a
covariância amostral.
• Dados n pares de valores (x1, y1), (x2,y2), …, (xn, yn), 
chama-se de coeficiente de correlação entre as 
duas variáveis X e Y a:
∑
=





 −





 −
=
n
i
n
i
i
zz
Ydp
yy
Xdp
xx
n
YXcorr
1 )()(
1
),(
Coeficiente de correlação
ou seja, a média dos produtos dos valores 
padronizados das variáveis.
O coeficiente de correlação satisfaz:
-1 ≤ corr(X,Y) ≤ 1 
∑
=
=
n
i
yx
n
zz
1
Associações entre 2 variáveis quantitativas
• Correlação positiva: 
corr(X,Y) ≈ 1
• Correlação negativa 
ou inversa: 
corr(X<Y) ≈-1 
• Não há correlação: 
corr(X,Y) ≈ 0.
• Correlação moderada:
|corr(X,Y)| ≈ 0,5.
No exemplo: coeficiente de correlação
Agente X Y X-Xm Y-Ym (X-Xm)/dp(X) (Y-Ym)/dp(Y) z_x*z_y
A 2 48 -3,7 -8,5 -1,54 -1,05 1,61
B 3 50 -2,7 -6,5 -1,12 -0,80 0,90
C 4 56 -1,7 -0,5 -0,71 -0,06 0,04
D 5 52 -0,7 -4,5 -0,29 -0,55 0,16
E 4 43 -1,7 -13,5 -0,71 -1,66 1,17
F 6 60 0,3 3,5 0,12 0,43 0,05
XX − YY − )(Xdp
XX
zX
−
=
)(Ydp
YY
zY
−
=
YX zz
F 6 60 0,3 3,5 0,12 0,43 0,05
G 7 62 1,3 5,5 0,54 0,68 0,37
H 8 58 2,3 1,5 0,95 0,18 0,18
I 8 64 2,3 7,5 0,95 0,92 0,88
J 10 72 4,3 15,5 1,78 1,91 3,41
média 5,7 56,5 0 0 0 0 0,876795
d. padrão 2,41 8,11 2,41 8,11 1,00 1,00
Correlação não implica necessariamente causalidade
Links:
•https://economiadependrive.wordpress.com/2014/09/25/correlacao-
nao-implica-em-causalidade/
•http://www.astropt.org/2011/10/16/correlacao-nao-implica-
necessariamente-causalidade/
•http://www.businessinsider.com/spurious-correlations-by-tyler-vigen-
2014-5
Ao encontrarmos uma correlação entre 
eventos, buscamos estabelecer uma 
relação de causalidade entre eles. 
No entanto, se duas variáveis têm correlação não 
nula, não podemos já inferir que uma causa a outra!
Covariância
• É uma medida equivalente que mede a
associação entre duas variáveis quantitativas.
Def: Dados n pares de valores (x1, y1), …,(xn, yn), a
covariância entre as duas variáveis X e Y é:
ou seja, a média dos
produtos dos valores
yyxx
n
ii∑ −− ))((
produtos dos valores
centrados das variáveis.
Alémdisso, o coeficiente de correlação pode ser
escrito como:
n
yyxx
YX i
ii∑
=
−−
= 1
))((
),cov(
)()(
),cov(
),(
YdpXdp
YX
YXcorr =
Neste caso, analisa-se o que acontece com a
variável quantitativa dentro de cada nível da
variável qualitativa.
� Veja o Exemplo:
Medidas-resumo para a var. salário, segundo o grau de instrução, na Companhia MB.
Associação entre variável qualitativa e quantitativa
Medidas-resumo para a var. salário, segundo o grau de instrução, na Companhia MB.
n Média dp(X) var(x) X(1) q1 q2 q3 X(n)
Fundam. 12 7,84 2,79 7,77 4,00 6,01 7,13 9,16 13,65
Médio 18 11,54 3,62 13,10 5,73 8,84 10,91 14,48 19,40
Superior 6 16,48 4,11 16,89 10,53 13,65 16,74 18,38 23,30
Todos 36 11,12 4,52 20,46 4 7,55 10,17 14,06 23,30
Fundamental Médio Superior
� Box-plots de salário segundo grau de instrução.
O salário aumenta conforme aumenta o nível
de educação do indivíduo � sugere
dependência entre as variáveis.
• O grau de associação entre as duas variáveis é
definido como o ganho relativo na variância,
devido à introdução da variável qualitativa, é
dado por:
)var(
)var(
1
)var(
)var()var(2
X
X
X
XX
R −=
−
=
Coeficiente de determinação
em que 0≤R2≤1 e
onde k é o número de categorias, vari(X) denota
a variância de X dentro da categoria i e N é
o número total de dados.
,
)(var
)var( 1
N
Xn
X
k
i
ii∑
==
Voltando ao último exemplo...
96,11
366812
)89,16(6)10,13(18)77,7(12
)var( =
=++
++
=X
415,0
96,11
12 =−=R
� Portanto, podemos dizer que 41,5% da
variação total do salário é explicada pela
variável grau de instrução.
415,0
46,20
96,11
12 =−=R
1) Verifique se existe ou não associação entre o
sexo e a carreira escolhida por 200 alunos de
Física e Ciências Sociais:
Masculino Feminino Total
Física 100 20 120
Ciências Sociais 40 40 80
Exercícios:
2) Faça os seguintes exercícios da seção “4.9-
Problemas e Complementos”: nº18, 20, 21, 22,
25, 28, 30, 35 (Páginas 94 a 99 – Bussab e
Morettin, 2010).
Ciências Sociais 40 40 80
Total 140 60 200

Continue navegando