Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 5 – Associação entre variáveis Prof. Dra. Flávia Cristina M. Queiroz Mariano UNIFESP – São José dos Campos BCT - 1º sem./2019 Existe uma relação entre a altura de pessoas e o sexo em dada comunidade? P1: Qual a frequência esperada de uma pessoa dessa população ter mais de 170 cm? P2: Qual a frequência esperada de uma mulher (ou homem) ter mais de 170 cm? Motivação: homem) ter mais de 170 cm? �Mesma resposta: não há associação entre as variáveis altura e sexo. Caso contrário, existe uma provável associação. Quando consideramos duas variáveis (ou dois conjuntos de dados), podemos ter 3 situações e as técnicas de análise são diferentes. a) as duas qualitativas (tabela de contingência) b) as duas quantitativas (gráficos de dispersão) c) qualitativa e quantitativa (tabela de contingência) Associação entre variáveis A quantificação do grau de associação entre duas variáveis é feita pelos chamados coeficientes de associação ou correlação. Essas medidas descrevem, por meio de um único número, a dependência entre duas variáveis. Esses coeficientes geralmente variam de 0 a 1 ou -1 a +1, e a proximidade do zero indica falta de associação. • Quando estamos interessados no comportamento conjunto de duas variáveis, os dados podem ser resumidos em tabelas de dupla entrada (ou contingência). Exemplo: Uma pesquisa é feita entre alunos do primeiro ano da faculdade e perguntou-se aos Associação entre variáveis primeiro ano da faculdade e perguntou-se aos alunos se trabalhavam (variável X) e o número de vestibulares prestados (variável Y). Neste caso, cada elemento do corpo da tabela dá a frequência observada das realizações simultâneas das duas variáveis. Tabela 1: Freqüências absolutas conjunta das variáveis X e Y: X\Y 1 2 3 Total sim 4 2 2 8 Tabela de frequência marginal de X Tabela de frequências conjunta nao 5 6 1 12 Total 9 8 3 20 Tabela de frequência marginal de Y • Tabelas de frequências marginal ou individual X freq sim 8 Y 1 2 3 Total Tabela de frequências conjunta sim 8 nao 12 Total 20 freq 9 8 3 20 Exemplo) Deseja-se determinar se a criação de determinado tipo de cooperativa está associada a um fator regional: Tabela de freqüências absolutas (relativas) segundo o Tipo de Cooperativa (X) e o Estado (Y) Associação entre variáveis qualitativas de Cooperativa (X) e o Estado (Y) Tipo de Cooperativa Estado Consumidor Produtor Escola Outros Total SP 214 33% 237 37% 78 12% 119 18% 648 100% PR 51 17% 102 34% 126 42% 22 7% 301 100% RS 111 18% 304 51% 139 23% 48 8% 602 100% Total 376 24% 643 42% 343 22% 189 12% 1551 100% Se não houvesse associação (dependência), esperaríamos que em cada estado tivesse 24% de cooperativas de consumidores, 42% de cooperativas de produtores, 22% de escolas e 12% outros tipos. Assim, o número esperado de cooperativas de consumidores em SP seria 648*0,24 = 157, e assim por diante. Tabela de frequências esperadas, assumindo independência entre as 2 variáveis.Tabela de frequências esperadas, assumindo independência entre as 2 variáveis. Tipo de Cooperativa Estado Consumidor Produtor Escola Outros Total SP 157 24% 269 42% 143 22% 79 12% 648 PR 73 24% 125 42% 67 22% 37 12% 301 RS 146 24% 250 42% 133 22% 73 12% 602 Total 376 24% 643 42% 343 22% 189 12% 1551 Comparando as duas tabelas, podemos verificar a discrepância existente entre os valores observados e os valores esperados, caso as variáveis forem independentes. Tabela de Desvios entre frequências observadas e esperadas Tipo de Cooperativa Estado Consumidor Produtor Escola Outros TotalEstado Consumidor Produtor Escola Outros Total SP 57 20,69 -32 3,81 -65 29,55 40 20,25 0 PR -22 6,63 -23 3,90 59 51,96 -15 6,08 0 RS -35 8,39 54 11,66 6 0,27 -25 8,56 0 Total 0 0 0 0 0 Para comparar os desvios é interessante padronizá-los e transformá-los em positivos. E, então, obter o coeficiente de contingência: , )( 1 1 2 2 ∑∑ = = − = r i s j ij ijij e eo χ Qui-Quadrado de Pearson onde oij são as frequências observadas da i- ésima categoria de X e j-ésima categoria de Y, eij são as frequências esperadas. • Um valor grande de χ2 indica associação entre as variáveis. Como interpretar quão grande?!! 1 1= =i j ije No exemplo… • Para facilitar a interpretação da associação definiu-se o coeficiente de contingência corrigido, que assume valores entre 0 e 1: ( ) ( ) ( ) .75,171 73 7348 ... 269 269237 157 157214)( 222 1 1 2 2 = − ++ − + − = − =∑∑ = = r i s j ij ijij e eo χ 136,01551 75,1712 === nT χ • Quanto mais próximo de 1 maior é associação entre a criação de cooperativas e algum fator regional. Como o valor de T=0,14 (bem próximo de 0) conclui-se que não há associação entre os estados e tipo de cooperativas. 136,0 )14)(13( 1551 )1)(1( = −− = −− = sr nT Exemplo: Existe associação entre o número de clientes e o tempo de serviço de agentes de uma companhia de seguros? Uma forma bastante útil de verificar a associação entre variáveis quantitativas é pelo gráfico de dispersão. Associação entre variáveis quantitativas Ind. Anos de serviço (X) N. de clientes (Y) A 2 48 Associação entre variáveis qualitativas A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 0 10 20 30 40 50 60 70 80 0 2 4 6 8 10 12 Associação entre variáveis qualitativas Resp: Parece que sim, pois à medida que aumenta o tempo de serviço, o número de clientes também aumenta. • A medida que se utiliza com mais frequência para quantificar o grau de uma associação linear, é o coeficiente de correlação. Esta medida avalia o quanto a nuvem de pontos do gráfico de dispersão se aproxima de uma reta. Correlação e Covariância • Na definição do coeficiente de correlação de pares de variáveis, está implícita a definição de uma medida que dá uma ideia da variabilidade conjunta existente entre as variáveis e que é a covariância amostral. • Dados n pares de valores (x1, y1), (x2,y2), …, (xn, yn), chama-se de coeficiente de correlação entre as duas variáveis X e Y a: ∑ = − − = n i n i i zz Ydp yy Xdp xx n YXcorr 1 )()( 1 ),( Coeficiente de correlação ou seja, a média dos produtos dos valores padronizados das variáveis. O coeficiente de correlação satisfaz: -1 ≤ corr(X,Y) ≤ 1 ∑ = = n i yx n zz 1 Associações entre 2 variáveis quantitativas • Correlação positiva: corr(X,Y) ≈ 1 • Correlação negativa ou inversa: corr(X<Y) ≈-1 • Não há correlação: corr(X,Y) ≈ 0. • Correlação moderada: |corr(X,Y)| ≈ 0,5. No exemplo: coeficiente de correlação Agente X Y X-Xm Y-Ym (X-Xm)/dp(X) (Y-Ym)/dp(Y) z_x*z_y A 2 48 -3,7 -8,5 -1,54 -1,05 1,61 B 3 50 -2,7 -6,5 -1,12 -0,80 0,90 C 4 56 -1,7 -0,5 -0,71 -0,06 0,04 D 5 52 -0,7 -4,5 -0,29 -0,55 0,16 E 4 43 -1,7 -13,5 -0,71 -1,66 1,17 F 6 60 0,3 3,5 0,12 0,43 0,05 XX − YY − )(Xdp XX zX − = )(Ydp YY zY − = YX zz F 6 60 0,3 3,5 0,12 0,43 0,05 G 7 62 1,3 5,5 0,54 0,68 0,37 H 8 58 2,3 1,5 0,95 0,18 0,18 I 8 64 2,3 7,5 0,95 0,92 0,88 J 10 72 4,3 15,5 1,78 1,91 3,41 média 5,7 56,5 0 0 0 0 0,876795 d. padrão 2,41 8,11 2,41 8,11 1,00 1,00 Correlação não implica necessariamente causalidade Links: •https://economiadependrive.wordpress.com/2014/09/25/correlacao- nao-implica-em-causalidade/ •http://www.astropt.org/2011/10/16/correlacao-nao-implica- necessariamente-causalidade/ •http://www.businessinsider.com/spurious-correlations-by-tyler-vigen- 2014-5 Ao encontrarmos uma correlação entre eventos, buscamos estabelecer uma relação de causalidade entre eles. No entanto, se duas variáveis têm correlação não nula, não podemos já inferir que uma causa a outra! Covariância • É uma medida equivalente que mede a associação entre duas variáveis quantitativas. Def: Dados n pares de valores (x1, y1), …,(xn, yn), a covariância entre as duas variáveis X e Y é: ou seja, a média dos produtos dos valores yyxx n ii∑ −− ))(( produtos dos valores centrados das variáveis. Alémdisso, o coeficiente de correlação pode ser escrito como: n yyxx YX i ii∑ = −− = 1 ))(( ),cov( )()( ),cov( ),( YdpXdp YX YXcorr = Neste caso, analisa-se o que acontece com a variável quantitativa dentro de cada nível da variável qualitativa. � Veja o Exemplo: Medidas-resumo para a var. salário, segundo o grau de instrução, na Companhia MB. Associação entre variável qualitativa e quantitativa Medidas-resumo para a var. salário, segundo o grau de instrução, na Companhia MB. n Média dp(X) var(x) X(1) q1 q2 q3 X(n) Fundam. 12 7,84 2,79 7,77 4,00 6,01 7,13 9,16 13,65 Médio 18 11,54 3,62 13,10 5,73 8,84 10,91 14,48 19,40 Superior 6 16,48 4,11 16,89 10,53 13,65 16,74 18,38 23,30 Todos 36 11,12 4,52 20,46 4 7,55 10,17 14,06 23,30 Fundamental Médio Superior � Box-plots de salário segundo grau de instrução. O salário aumenta conforme aumenta o nível de educação do indivíduo � sugere dependência entre as variáveis. • O grau de associação entre as duas variáveis é definido como o ganho relativo na variância, devido à introdução da variável qualitativa, é dado por: )var( )var( 1 )var( )var()var(2 X X X XX R −= − = Coeficiente de determinação em que 0≤R2≤1 e onde k é o número de categorias, vari(X) denota a variância de X dentro da categoria i e N é o número total de dados. , )(var )var( 1 N Xn X k i ii∑ == Voltando ao último exemplo... 96,11 366812 )89,16(6)10,13(18)77,7(12 )var( = =++ ++ =X 415,0 96,11 12 =−=R � Portanto, podemos dizer que 41,5% da variação total do salário é explicada pela variável grau de instrução. 415,0 46,20 96,11 12 =−=R 1) Verifique se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Física e Ciências Sociais: Masculino Feminino Total Física 100 20 120 Ciências Sociais 40 40 80 Exercícios: 2) Faça os seguintes exercícios da seção “4.9- Problemas e Complementos”: nº18, 20, 21, 22, 25, 28, 30, 35 (Páginas 94 a 99 – Bussab e Morettin, 2010). Ciências Sociais 40 40 80 Total 140 60 200
Compartilhar