Baixe o app para aproveitar ainda mais
Prévia do material em texto
Cap. 4 Análise Bidimensional Até agora: organizar e resumir informações pertinentes a uma única variável. Ex: salário, N° filhos, grau de instrução. Mas frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias. 5 Indivíduo X1 X2 … Xj … Xp 1 x11 x12 … x1j … x1p 2 x11 x22 … x2j … x2p … … … … … … … i x11 xi2 … xij … xip … … … … … … … n x11 xn2 … xnj … xnp Matriz: Colunas: Variáveis Linhas: indivíduos Total np dados N° Estado civil Grau de instrução N° de filhos Salário (x sal. mín) Anos Meses Região de procedência 1 solteiro ens. fundamental 0 4 26 3 interior 2 casado ens. fundamental 1 4,56 32 10 capital 3 casado ens. fundamental 2 5,25 36 5 capital 4 solteiro ens. médio 0 5,73 20 10 outra 5 solteiro ens. fundamental 0 6,26 40 7 outra 6 casado ens. fundamental 0 6,66 28 0 interior 7 solteiro ens. fundamental 0 6,86 41 0 interior 8 solteiro ens. fundamental 0 7,39 43 4 capital 9 casado ens. médio 1 7,59 34 10 capital 10 solteiro ens. médio 0 7,44 23 6 outra 11 casado ens. médio 2 8,12 33 6 interior 12 solteiro ens. fundamental 0 8,46 27 11 capital 13 solteiro ens. médio 0 8,74 37 5 outra 14 casado ens. fundamental 3 8,95 44 2 outra 15 casado ens. médio 0 9,13 30 5 interior 16 solteiro ens. médio 0 9,35 38 8 outra 17 casado ens. médio 1 9,77 31 7 capital Tabela 2.1 6 Objetivo: explorar relações (similaridades) entre as colunas, ou algumas vezes entre as linhas. A distribuição conjunta de frequências será um instrumento poderoso para a compreensão do comportamento dos dados. Podemos ter dois (ou mais conjuntos de dados provenientes) da observação da mesma variável. Ex: {x1,..., xn} e {y1,..., yn}. 7 8 N° Estado civil Sc 1 casado 4,56 2 casado 5,25 3 casado 6,66 4 casado 7,59 5 casado 8,12 6 casado 8,95 7 casado 9,13 8 casado 9,77 9 casado 9,8 10 casado 11,06 11 casado 12,79 12 casado 13,23 13 casado 13,6 14 casado 14,69 15 casado 14,71 16 casado 15,99 17 casado 16,61 18 casado 17,26 19 casado 19,4 20 casado 23,3 N° Estado civil Ss 1 solteiro 4 2 solteiro 5,73 3 solteiro 6,26 4 solteiro 6,86 5 solteiro 7,39 6 solteiro 7,44 7 solteiro 8,46 8 solteiro 8,74 9 solteiro 9,35 10 solteiro 10,53 11 solteiro 10,76 12 solteiro 11,59 13 solteiro 12 14 solteiro 13,85 15 solteiro 16,22 16 solteiro 18,75 ss = 9,87 salários; dp(Ss ) = 3,81 salários. sc =12,12 salários; dp(Sc ) = 4, 79 salários. Ex: comparar o salário dos funcionários solteiros e casados. Variável S: Salário (x sal. mín). Reordenando os dados, separamos os dados dos dois grupos. Exemplo: Quando consideramos duas variáveis (ou conjunto de dados), podemos ter três situações: a) As duas variáveis são qualitativas; b) As duas variáveis são quantitativas (exemplo anterior); e c) Uma variável é qualitativa e outra é quantitativa. As técnicas de análise de dados nas três situações são diferentes. Contudo, em todas as situações, o objetivo é encontrar as possíveis relações ou associações entre as duas variáveis. 9 Analisar o comportamento das variáveis Y: grau de instrução e V: região de procedência. A linha dos totais fornece a distribuição da variável Y, ao passo que a coluna dos totais fornece a distribuição da variável V. As distribuições assim obtidas são chamadas de distribuições marginais, enquanto a Tabela constitui a distribuição conjunta de Y e V. 10 Ens. Fundamental Ens. Médio Ens. Superior Total Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 V Y Tabela 4.2 Podemos construir tabelas com as frequências relativas (fi). Existem três possibilidades: a) Em relação ao total geral; b) Em relação ao total de cada linha; c) Ou em relação ao total de cada coluna. De acordo com o objetivo do problema em estudo, uma delas será a mais conveniente. 11 12 Ens. Fundamental Ens. Médio Ens. Superior Total Capital 11% 14% 6% 31% Interior 8% 19% 6% 33% Outra 14% 17% 6% 36% Total 33% 50% 17% 100% V Y Tabela 4.3 Ens. Fundamental Ens. Médio Ens. Superior Total Capital 33% 28% 33% 31% Interior 25% 39% 33% 33% Outra 42% 33% 34% 36% Total 100% 100% 100% 100% V Y Tabela 4.4 Tabela 4.3 apresenta a distribuição conjunta das frequências relativas, expressas como proporções do total geral. Tabela 4.4 apresenta a distribuição conjunta das proporções em relação ao total de colunas. 13 Exercício: Utilizando os dados das Tabelas 4.2, 4.3 e 4.4: a) Qual a porcentagem de funcionários que têm o ensino médio? b) Qual a porcentagem daqueles que têm o ensino médio e são do interior? c) Dentre os funcionários do interior, quantos por cento têm o ensino médio? 14 N° Estado civil Grau de rução N° de filhos Salário (x sal. mín) Anos Meses Região de procedência 1 solteiro ens. fundamental 0 4 26 3 interior 2 casado ens. fundamental 1 4,56 32 10 capital 3 casado ens. fundamental 2 5,25 36 5 capital 4 solteiro ens. médio 0 5,73 20 10 outra 5 solteiro ens. fundamental 0 6,26 40 7 outra 6 casado ens. fundamental 0 6,66 28 0 interior 7 solteiro ens. fundamental 0 6,86 41 0 interior 8 solteiro ens. fundamental 0 7,39 43 4 capital 9 casado ens. médio 1 7,59 34 10 capital 10 solteiro ens. médio 0 7,44 23 6 outra 11 casado ens. médio 2 8,12 33 6 interior 12 solteiro ens. fundamental 0 8,46 27 11 capital 13 solteiro ens. médio 08,74 37 5 outra 14 casado ens. fundamental 3 8,95 44 2 outra 15 casado ens. médio 0 9,13 30 5 interior 16 solteiro ens. médio 0 9,35 38 8 outra 17 casado ens. médio 1 9,77 31 7 capital 18 casado ens. fundamental 2 9,8 39 7 outra 15 N° Estado civil Grau de instrução N° de filhos Salário (x sal. mín) Anos Meses Região de procedência 18 casado ens. fundamental 2 9,8 39 7 outra 19 solteiro ens. superior 0 10,53 25 8 interior 20 solteiro ens. médio 0 10,76 37 4 interior 21 casado ens. médio 1 11,06 30 9 outra 22 solteiro ens. médio 0 11,59 34 2 capital 23 solteiro ens. fundamental 0 12 41 0 outra 24 casado ens. superior 0 12,79 26 1 outra 25 casado ens. médio 2 13,23 32 5 interior 26 casado ens. médio 2 13,6 35 0 outra 27 solteiro ens. fundamental 0 13,85 46 7 outra 28 casado ens. médio 0 14,69 29 8 interior 29 casado ens. médio 5 14,71 40 6 interior 30 casado ens. médio 2 15,99 35 10 capital 31 solteiro ens. superior 0 16,22 31 5 outra 32 casado ens. médio 1 16,61 36 4 interior 33 casado ens. superior 3 17,26 43 7 capital 34 solteiro ens. superior 0 18,75 33 7 capital 35 casado ens. médio 2 19,4 48 11 capital 36 casado ens. superior 3 23,3 42 2 interior 16 Exercício: X: número de empregos nos últimos dois anos. Y: salário mais recente em número de salários mínimos. Indivíduo X Y 1 1 6 2 3 2 3 2 4 4 3 1 5 2 4 6 2 1 7 3 3 8 1 5 9 2 2 10 3 2 11 2 5 12 3 2 13 1 6 14 2 6 15 3 2 16 4 2 17 1 5 18 2 5 19 2 1 20 2 1 Indivíduo X Y 21 2 4 22 3 2 23 4 1 24 1 5 25 2 4 26 3 2 27 4 1 28 1 5 29 4 4 30 3 3 31 2 2 32 1 1 33 4 1 34 2 6 35 4 2 36 3 1 37 1 4 38 3 2 39 2 3 40 2 5 17 a) Usando a mediana, classifique os indivíduos em dois níveis, alto e baixo, para cada uma das variáveis, e construa a distribuição de frequências conjunta das duas classificações. md(X) = x n 2 ! " # $ % & + x n 2+1 ! " # $ % & 2 = x 20 2 ! " # $ % & + x 21 2 +1 ! " # $ % & 2 = 2+ 2 2 = 2 md(Y ) = y n 2 ! " # $ % & + y n 2+1 ! " # $ % & 2 = y 20 2 ! " # $ % & + y 21 2 +1 ! " # $ % & 2 = 2+3 2 = 2,5 i xi 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 10 2 11 2 12 2 13 2 14 2 15 2 16 2 17 2 18 2 19 2 20 2 i xi 21 2 22 2 23 2 24 3 25 3 26 3 27 3 28 3 29 3 30 3 31 3 32 3 33 3 34 3 35 4 36 4 37 4 38 4 39 4 40 4 18 Indivíduo X Y Classificação 1 1 6 baixo; alto 13 1 6 baixo; alto 8 1 5 baixo; alto 17 1 5 baixo; alto 24 1 5 baixo; alto 28 1 5 baixo; alto 37 1 4 baixo; alto 32 1 1 baixo; baixo 14 2 6 alto; alto 34 2 6 alto; alto 11 2 5 alto; alto 18 2 5 alto; alto 40 2 5 alto; alto 3 2 4 alto; alto 5 2 4 alto; alto 21 2 4 alto; alto 25 2 4 alto; alto 39 2 3 alto; alto 9 2 2 alto; baixo 31 2 2 alto; baixo Indivíduo X Y Classificação 6 2 1 alto; baixo 19 2 1 alto; baixo 20 2 1 alto; baixo 7 3 3 alto; alto 30 3 3 alto; alto 2 3 2 alto; baixo 10 3 2 alto; baixo 12 3 2 alto; baixo 15 3 2 alto; baixo 22 3 2 alto; baixo 26 3 2 alto; baixo 38 3 2 alto; baixo 4 3 1 alto; baixo 36 3 1 alto; baixo 29 4 4 alto; alto 16 4 2 alto; baixo 35 4 2 alto; baixo 23 4 1 alto; baixo 27 4 1 alto; baixo 33 4 1 alto; baixo 19 a) Usando a mediana, classifique os indivíduos em dois níveis, alto e baixo, para cada uma das variáveis, e construa a distribuição de frequências conjunta das duas classificações. b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? c) Qual a porcentagem das pessoas que ganham pouco? d) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham pouco? e) A informação adicional dada em (d) alterou significativamente a porcentagem observada em (c)? O que isso significa? Baixo Alto Total Baixo 1 (2,5%) 7 (17,5%) 8 (20%) Alto 19 (47,5%) 13 (32,5%) 32 (80%) Total 20 (50%) 20 (50%) 40 (100%) Y X Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis qualitativas é descrever a associação entre elas. Queremos descobrir o grau de dependência entre elas. De modo que possamos prever melhor o resultado de uma delas quando conhecemos a realização da outra. Ex: se quisermos estimar qual a renda média de uma família, a informação adicional sobre a classe social a que ela pertence nos permite estimar com maior precisão essa renda, pois existe uma dependência entre as duas variáveis: renda familiar e classe social. 20 Exemplo: Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração. Distribuição conjunta das proporções: 21 Masculino Feminino Total Economia 85 35 120 Administração 55 25 80 Total 140 60 200 Masculino Feminino Total Economia 61% 58% 60% Administração 39% 42% 40% Total 100% 100% 100% Uma vez que as distribuições marginais e as distribuições conjuntas são próximas, ou seja, seguem a mesma tendência, podemos afirmar que não existe associação, i.e., dependência entre as variáveis. Isto quer dizer que a escolha do curso independe do sexo. Ex: 22 Masculino Feminino Total Física 100 (71%) 20 (33%) 120 (60%) Ciências Sociais 40 (29%) 40 (67%) 80 (40%) Total 140 (100%) 60 (100%) 200 (100%) Quando existe associação entre variáveis, sempre é interessante quantificar essa associação. Quantificação do grau de associação: coeficientes de associação ou correlação. Essas são medidas que descrevem, por meio de um único número, a associação (dependência) entre duas variáveis. Esses coeficientes usualmente variam entre -1 e +1, e a proximidade de zero indica falta de associação. 23 Ex. Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional. Valores esperados (assumindo independência) 24 Estado Tipo de CooperaQva Total Consumidor Produtor Escola Outras São Paulo 214 (33%) 237 (37%) 78 (12%) 119 (18%) 648 (100%) Paraná 51 (17%) 102 (34%) 126 (42%) 22 (7%) 301 (100%) R. G. do Sul 111 (18%) 304 (51%) 139 (23%) 48 (8%) 602 (100%) Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551 (100%) Estado Tipo de CooperaQva Total Consumidor Produtor Escola Outras São Paulo 156 (24%) 272 (42%) 142 (22%) 78 (12%) 648 (100%) Paraná 72 (24%) 127 (42%) 66 (22%) 36 (12%) 301 (100%) R. G. do Sul 144 (24%) 254 (42%) 132 (22%) 72 (12%) 602 (100%) Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551 (100%) Comparando as duas tabelas, podemos verificar discrepâncias existentes entre os valores observados, e os valores esperados. A Tabela seguinte apresenta os desvios: valores observados (oi) menos valores esperados (ei). Já dentro entre parênteses temos: 25 Estado Tipo de CooperaQva Consumidor Produtor Escola Outras São Paulo 58 (21,56) -‐35 (4,5) -‐64 (28,84) 41 (21,55) Paraná -‐21 (6,12) -‐25 (4,92) 60 (54,54) -‐14 (5,44) R. G. do Sul -‐33 (7,56) 50 (9,84) 7 (0,37) -‐24 (8,0) (oi − ei )2 ei (4.1) Por que utilizar ? a. A soma total dos resíduos é nula (assim como visto anteriormente na definição de Medidas de Dispersão). b. A casela Escola-São Paulo é aquela que apresenta maior desvio. A casela Escola-Paraná também apresenta desvio alto, mas o valor esperado é menor. Portanto, se fossemos considerar os desvios relativos, aquele correspondente ao segundo caso seria bem maior. 26 (oi − ei )2 ei Uma medida do afastamento global pode ser dada pela soma de todas as medidas (4.1). Assim teríamos: Um valor grande de χ2 (qui-quadrado) indica associação entre as variáveis. 27 χ 2 = 21,56+ 6,12+ 7,56+ 4,5+ 4,92+ 9,84+ 28,84+ 54,54+ 0,37+ 21,55+ 5, 44+8 =173,24. Pearson definiu uma medida de associação, chamada coeficiente de contingência, dada por: C não varia entre 0 e 1. Para evitar isso, costuma-se definir um outro coeficiente, dado por 28 χ 2 = 21,56+ 6,12+ 7,56+ 4,5+ 4,92+ 9,84+ 28,84+ 54,54+ 0,37+ 21,55+ 5, 44+8 =173,24. C = χ 2 χ 2 + n = 173,24 173,24+1551 = 0,31697516 T = χ 2 / n (r −1)(s−1) = 173,24 /1551 (3−1)(4−1) = 0,11 29 B1 B2 … Bj … Bs Total A1 n11 n12 … n1j … n1s n1. A2 n21 n22 … n2j … n2s n2. … … … … … … … … Ai ni1 ni2 … nij … nis ni. … … … … … … … … Ar nr1 nr2 … nrj … nrs nr. Total n.1 n.2 … n.j … n.s n.. Y X χ 2 = Σ i=1 r Σ j=1 s (nij − nij*)2 nij* Para variáveis quantitativas, podemos utilizar o mesmo procedimento adotado para variáveis qualitativas, entretanto, variáveis quantitativas permitem procedimentos analíticos e gráficos mais refinados. Ex: 30 Agente Anos de serviço (X) Número de clientes (Y) A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas, é o gráfico de dispersão. Neste tipo de gráfico temos os possíveis valores (x, y) na ordem que aparecem. 31 40 45 50 55 60 65 70 0 2 4 6 8 10 N ú m er o d e cl ie n te s Anos de serviço Parece haver uma associação entre as variáveis, dado que à medida que o tempo de serviço aumenta, aumenta o número de clientes. Ex: X: resultado obtido no teste (máximo = 100 pontos) Y: tempo, em minutos, necessário para operar a máquina. 32 330 340 350 360 370 380 390 40 50 60 70 80 90 100 Te m p o Resultado teste Indivíduo X Y A 45 343 B 52 368 C 61 355 D 70 334 E 74 337 F 76 381 G 80 345 H 90 375 Quantificar a associação entre as variáveis. Relação linear variando de -1 a +1. Coeficiente de Correlação Linear. 33 corr(X,Y ) = 1n xi − x dp(X) " # $ % & ' yi − y dp(y) " # $ % & ' i=1 n ∑ (4.7) corr(X,Y ) = cov(X,Y )dp(X)dp(Y ) (4.11) cov(X,Y ) = (xi − x)(yi − y) i=1 n ∑ n (4.10) Ex: 34 Agente Anos de serviço x Número de clientes y zx.zy A 2 48 -‐3,7 -‐8,5 -‐1,54 -‐1,05 1,61 B 3 50 -‐2,7 -‐6,5 -‐1,12 -‐0,80 0,90 C 4 56 -‐1,7 -‐0,5 -‐0,71 -‐0,06 0,04 D 5 52 -‐0,7 -‐4,5 -‐0,29 -‐0,55 0,16 E 4 43 -‐1,7 -‐13,5 -‐0,71 -‐1,66 1,17 F 6 60 0,3 3,5 0,12 0,43 0,05 G 7 62 1,3 5,5 0,54 0,68 0,37 H 8 58 2,3 1,5 0,95 0,18 0,18 I 8 64 2,3 7,5 0,95 0,92 0,88 J 10 72 4,3 15,5 1,78 1,91 3,41 Total 57 565 0 0 -‐ -‐ 8,77 x − x y− y x − xdp(X) = zx y− y dp(Y ) = zy corr(X,Y ) = 8, 7710 = 0,877 35 -15 -10 -5 0 5 10 15 20 -6 -4 -2 0 2 4 6 y -M éd ia (Y ) x - Média (X) -2 -1 0 1 2 3 -2,0 -1,0 0,0 1,0 2,0 zy zx Equação alternativa para calcular o coeficiente de correlação. 36 corr(X,Y ) = xiyi − nxy∑ x2i − nx 2 ∑( ) y2i − ny2∑( ) (4.9)
Compartilhar