Prévia do material em texto
Caṕıtulo 1 Análise Bidimensional 1.1 Introdução Este caṕıtulo estuda a análise conjunta de duas variáveis ou mais variáveis, buscando entender o comportamento conjunto dessas variáveis. É muito comum, nas Ciências Sociais e Humanas, o interesse em verificar se duas variáveis se apresentam associadas num certo conjunto de elementos. Por exemplo, pode-se ter o interesse em verificar se o percentual de desnutrição infantil varia de acordo com a faixa de renda, o que caracteriza uma associação entre essas variáveis. Esse tipo de análise passa pelas distribuições conjuntas de frequências de grande importância para a compreensão do comportamento dos dados. O principal objetivo da distribuição conjunta é descrever o grau de associação entre as variáveis, possibilitando descrever o comportamento de uma variável quando conhecemos a realização da outra. Quando consideramos duas variáveis, podemos ter três situações: a) as duas variáveis são qualitativas ( Ex: sexo x grau de escolaridade); b) as duas variáveis são quantitativas (Ex: altura x peso); c) uma variável é qualitativa e outra quantitativa (Ex: sexo x altura). Quando as variáveis são qualitativas, os dados são resumidos em tabelas de contingência ( ou de dupla entrada), onde aparecerão as frequências absolutas de indiv́ıduos que aparecem simultaneamente nas duas categorias. Quando temos variáveis quantitativas usamos a distribuição de frequências conjuntas e gráficos de dispersão ou de quantis. Quando temos o caso c), em geral analisamos o que acontece com a variável quantitativa dentro das categorias da variável qualitativa. 1 2 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL 1.2 Variáveis Qualitativas Exemplo 1: Um supermercado quer verificar se o modo de pagamento dos clientes nesse estabelecimento está associado ao peŕıodo do dia em que fazem as compras. Existem três modos de efetuar os pagamentos: por cheque, dinheiro e cartão de crédito. A seguinte tabela de contingência 3 × 3 apresenta os resultados obtidos numa amostra de 4000 clientes: Tabela 1.1: Distribuição conjunta da forma de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009. Forma Peŕıodos Pagamento Manhã Tarde Noite Total Dinheiro 125 350 75 550 Cartão 650 1400 650 2700 Cheque 225 250 275 750 Total 1000 2000 1000 4000 Fonte: Dados Fict́ıcios. Vamos considerar que a variável X representa a forma de pagamento e a variável Y representa o peŕıodo do dia. Desta forma, a linha de totais fornece a distribuição da variável X e a coluna dos totais fornece a distribuição da variável Y . Estas distribuições recebem o nome de Distribuições marginais de X e de Y . A Tabela 1 foi construida utilizando-se a frequência absoluta das ocorrências por categoria. Porém, outras distribuições conjuntas podem ser construidas considerando- se as frequências relativas: • em relação ao total geral; • em relação ao total de cada linha; • e em relação ao total de cada coluna. A distribuição mais conveniente a ser usada vai depender do objetivo da pesquisa. 1.2. VARIÁVEIS QUALITATIVAS 3 Tabela 1.2: Distribuição conjunta, em porcentagens, da forma de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009. Forma Peŕıodos Pagamento Manhã Tarde Noite Total Dinheiro 3,175% 8,75% 1,875% 13,75% Cartão 16,25% 35% 16,25% 67,5% Cheque 5,625% 6,25% 6,875% 18,75% Total 25% 50% 25% 100% Fonte: Dados Fict́ıcios. Tabela 1.3: Distribuição conjunta das porcentagens em relação às colunas, da forma de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009. Forma Peŕıodos Pagamento Manhã Tarde Noite Total Dinheiro 12,5% 17,5% 7,5% 13,75% Cartão 65% 70% 65% 67,5% Cheque 22,5% 12,5% 27,5% 18,75% Total 100% 100% 100% 100% Fonte: Dados Fict́ıcios. Tabela 1.4: Distribuição conjunta das porcentagens em relação às linhas, da forma de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009. Forma Peŕıodos Pagamento Manhã Tarde Noite Total Dinheiro 22,72% 63,64% 13,64% 100% Cartão 24,1% 51,8% 24,1% 100% Cheque 30% 33,3% 36,7% 100% Total 25% 50% 25% 100% Fonte: Dados Fict́ıcios. Vamos continuar nossa análise considerando a Tabela 1.3 que mostram as por- centagens da forma de pagamento X em cada peŕıodo Y . Estas porcentagem são importantes pois nos possibilitam comparar a relação (ou grau de associação) entre aestas variáveis. Podemos observar que , independentemente do peŕıodo, 13,75% dos pagamentos são feitos em dinheiro; 67,5% em cheques e 18,75% em cartão (coluna do total). As- sim, não existindo associação entre as variáveis esperaŕıamos esta mesma proporção para cada peŕıodo. 4 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL Considerando nossos dados originais na tabela abaixo,vamos dar ińıcio a nossa análise bivariada. Tabela 1.5: Distribuição conjunta da forma de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009. Forma Peŕıodos Pagamento Manhã Tarde Noite Total Dinheiro 125 350 75 550 Cartão 650 1400 650 2700 Cheque 225 250 275 750 Total 1000 2000 1000 4000 Fonte: Dados Fict́ıcios. Para iniciarmos a análise precisamos calcular as frequências esperadas (eij) de ocorrência dado que já possuimos as frequências observadas (oij) das ocorrências. eij = Total da Coluna× Total da Linha Total Geral . No nosso exemplo o ı́ndice i representa a forma de pagamento e o ı́ndice j repre- senta o peŕıodo do dia. Assim, temos a seguinte tabela: Tabela 1.6: Distribuição das frequências observadas e esperadas, da forma de paga- mento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009. Forma Peŕıodos Pagamento Manhã Tarde Noite oij eij oij eij oij eij Dinheiro 125 137,5 350 275 75 137,5 Cartão 650 675 1400 1350 650 675 Cheque 225 187,5 250 375 275 187,5 Fonte: Dados Fict́ıcios. A partir daqui, o problema está em encontrar uma medida que nos forneça o grau de associação entre as variáveis. Para isso, vamos estudar o Coeficiente de Contingência. 1.2. VARIÁVEIS QUALITATIVAS 5 1.2.1 Coeficiente de Contingência Para definirmos o Coeficiente de Contingência vamos continuar a análise em nosso exemplo, calculando inicialmente as diferenças entre as frequências observadas e esperadas, isto é, (oij − eij), como segue: Tabela 1.7: Distribuição dos desvios entre as frequências observadas e esperadas da forma de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009. Forma Peŕıodos Pagamento Manhã Tarde Noite Total Dinheiro -12,5 75 -62,5 0 Cartão -25 50 -25 0 Cheque 37,5 -125 87,5 0 Total 0 0 0 0 Fonte: Dados Fict́ıcios. Para quantificar esses desvios vamos considerar os desvios relativos, rij, que levam em conta o numero diferente de clientes em cada peŕıodo. rij = (oij − eij)2 eij . Assim, podemos calcular a medida de afastamento global usando-se a soma desses valores. Essa nova medida chama-se χ2 (qui-quadrado) e é dada por χ2 = ∑ i ∑ j (oij − eij)2 eij . Considerando nosso exemplo, teŕıamos, χ2 = (−12,5)2 137,5 + (−25)2 675 + (37,5)2 187,5 + (75)2 275 + (50)2 1350 + (−125)2 375 + (−62,5)2 137,5 + (−25)2 675 + (87,5)2 187,5 = 152,04. Com o resultado obtido fica dif́ıcil definir se essa associação é alta ou baixa entre as variáveis, deveria ser zero se não existisse associação. Assim, um famoso estat́ıstico K. Pearson sugeriu o Coeficiente de Contingência C, conforme definido C = √ χ2 χ2 + n , 6 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL sendo n o numero total de observações. Este coeficiente varia entre os número 0 e 1, sendo 0 quando não existe associação. Mas, algumas vezes, mesmo ocorrendo associação perfeita C pode não ser igual a 1. Desta forma, uma alternativa é realizar uma correção na medida C ficando então chamada de Coeficiente de Contingência Corrigido C∗, dado por C∗ = C√ (t−1) t , sendot o menor valor entre o número de colunas e o número de linhas. Podemos considerar na tabela abaixo as possiveis interpretaçãoes do Coeficiente de Contingência. Porém, as interpretações dependem de cada contexto em particu- lar. Tabela 1.8: Guia de interpretação do Coeficente de Contingência, dado os valores numéricos. C e C∗ Interpretação 0 Não existe associação 0,01 a 0,19 Associação muito fraca 0,20 a 0,39 Associação fraca 0,4 a 0,6 Associação moderada 0,61 a 0,89 Associação forte 0,90 a 0,99 Associação muito forte / Quase perfeita 1 Associação perfeita Fonte: Shimakura, 2006. Assim, em nosso exemplo teremos: C = √ 152, 04 152, 04 + 4000 = 0, 1924 C∗ = 0, 1924√ (3 − 1)/3 = 0, 2351. Indicando um grau de associação fraca entre as variáveis. 1.3 Variáveis Quantitativas Quando estamos trabalhando com duas variáveis quantitativas X e Y , a análise inicial é feita construindo o Diagrama de Dispersão entre as duas variáveis. Este di- agrama indica, em um primeiro momento, se existe ou não associação (ou correlação) entre as variáveis X e Y . 1.3. VARIÁVEIS QUANTITATIVAS 7 • Correlação Linear Positiva: Y tende a aumentar quando X aumenta. • Correlação Linear Negativa: Y tende a diminuir quando X aumenta. Observando-se uma associação (ou correlação) entre as variáveis quantitativas X e Y , necessitamos quantificar o grau de associação entre elas. Considerando uma associação linear, ou seja, defineremos um medida que nos mostre o quanto uma nuvem de pontos do diagrama de dispersão está próximo a uma reta. E a medida a ser utilizada é o Coeficiente de Correlação, conforme difinido abaixo. Def.: Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), chamamos de coefi- ciente de correlação entre as duas variáveis X e Y a relação Cor(X,Y ) = 1 n ∑n i=1(xi − X̄)(yi − Ȳ ) DP (X)DP (Y ) . Ou ainda, Cor(X,Y ) = ∑ [(X − X̄)(Y − Ȳ )]√∑ (X − X̄)2 √∑ (Y − Ȳ )2 . O coeficeinte de correlação linear assume sempre valores entre −1 e 1. • Cor(X,Y ) = −1, associação negativa perfeito.. • Cor(X,Y ) = 1, associação positiva perfeito. • Cor(X,Y ) = 0, não tem associação. Podemos considerar na tabela abaixo as possiveis interpretaçãoes do Coeficiente de Correlação. Porém, as interpretações dependem de cada contexto em particular. 8 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL Tabela 1.9: Guia de interpretação do Coeficente de Correlaçao positivo ou negativo , dado os valores numéricos. Corr(X, Y ) Interpretação 0 Não existe Correlação 0,01 a 0,19 Correlação muito fraca (+ ou -) 0,20 a 0,39 Correlação fraca (+ ou -) 0,4 a 0,6 Correlação moderada (+ ou -) 0,61 a 0,89 Correlação forte (+ ou -) 0,90 a 0,99 Correlação muito forte / Quase perfeita (+ ou -) 1 Correlação perfeita (+ ou -) Fonte: Shimakura, 2006. Exemplo: Um relatório da diretoria de da empresa Café com Leite, divulgou os seguintes dados ( expressos em milhões de reais) financeiros, referentes ao peŕıodo de 1999 a 2009, Rio de Janeiro, RJ. Volume Vendas X 1000 1300 1500 1400 2200 2900 3700 4100 5900 7000 Dividendos Distribuidos Y 20 40 51 67 72 109 114 171 192 236 Fonte: Dados fict́ıcios. O que podemos sobre a associação entre as variáveis? Resolução: X Y (X − X̄) (Y − Ȳ ) (X − X̄)(Y − Ȳ ) (X − X̄)2 (Y − Ȳ )2 1000 20 -2100 -87,2 183120 4410000 7603,84 1300 40 -1800 -67,2 120960 3240000 4515,84 1500 51 -1600 -56,2 89920 2560000 3158,44 1400 67 -1700 -40,2 68340 2890000 1616,04 2200 72 -900 -35,2 31680 810000 1239,04 2900 109 -200 1,8 -360 40000 3,24 3700 114 600 6,8 4080 360000 46,24 4100 171 1000 63,8 63800 1000000 4070,44 5900 192 2800 84,8 237440 7840000 7191,04 7000 236 3900 128,8 502320 15210000 16589,44 X̄ = 3100 Ȳ = 107, 2 0 0 1301300 38360000 46033,6 r = 1301300√ 38360000 √ 46033, 6 = 0, 979. Desta forma, podemos concluir que existe uma correlação quase perfeita positiva.