Buscar

CAP3-A-AnaliseBidimensional-aluno (1)

Prévia do material em texto

Caṕıtulo 1
Análise Bidimensional
1.1 Introdução
Este caṕıtulo estuda a análise conjunta de duas variáveis ou mais variáveis,
buscando entender o comportamento conjunto dessas variáveis. É muito comum, nas
Ciências Sociais e Humanas, o interesse em verificar se duas variáveis se apresentam
associadas num certo conjunto de elementos. Por exemplo, pode-se ter o interesse
em verificar se o percentual de desnutrição infantil varia de acordo com a faixa de
renda, o que caracteriza uma associação entre essas variáveis. Esse tipo de análise
passa pelas distribuições conjuntas de frequências de grande importância para a
compreensão do comportamento dos dados.
O principal objetivo da distribuição conjunta é descrever o grau de associação
entre as variáveis, possibilitando descrever o comportamento de uma variável quando
conhecemos a realização da outra.
Quando consideramos duas variáveis, podemos ter três situações:
a) as duas variáveis são qualitativas ( Ex: sexo x grau de escolaridade);
b) as duas variáveis são quantitativas (Ex: altura x peso);
c) uma variável é qualitativa e outra quantitativa (Ex: sexo x altura).
Quando as variáveis são qualitativas, os dados são resumidos em tabelas de
contingência ( ou de dupla entrada), onde aparecerão as frequências absolutas de
indiv́ıduos que aparecem simultaneamente nas duas categorias. Quando temos
variáveis quantitativas usamos a distribuição de frequências conjuntas e gráficos
de dispersão ou de quantis. Quando temos o caso c), em geral analisamos o que
acontece com a variável quantitativa dentro das categorias da variável qualitativa.
1
2 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL
1.2 Variáveis Qualitativas
Exemplo 1: Um supermercado quer verificar se o modo de pagamento dos clientes
nesse estabelecimento está associado ao peŕıodo do dia em que fazem as compras.
Existem três modos de efetuar os pagamentos: por cheque, dinheiro e cartão de
crédito. A seguinte tabela de contingência 3 × 3 apresenta os resultados obtidos
numa amostra de 4000 clientes:
Tabela 1.1: Distribuição conjunta da forma de pagamento,
por peŕıodo, no supermercado Farinha Azul,
Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 125 350 75 550
Cartão 650 1400 650 2700
Cheque 225 250 275 750
Total 1000 2000 1000 4000
Fonte: Dados Fict́ıcios.
Vamos considerar que a variável X representa a forma de pagamento e a variável
Y representa o peŕıodo do dia. Desta forma, a linha de totais fornece a distribuição
da variável X e a coluna dos totais fornece a distribuição da variável Y . Estas
distribuições recebem o nome de Distribuições marginais de X e de Y .
A Tabela 1 foi construida utilizando-se a frequência absoluta das ocorrências por
categoria. Porém, outras distribuições conjuntas podem ser construidas considerando-
se as frequências relativas:
• em relação ao total geral;
• em relação ao total de cada linha;
• e em relação ao total de cada coluna.
A distribuição mais conveniente a ser usada vai depender do objetivo da pesquisa.
1.2. VARIÁVEIS QUALITATIVAS 3
Tabela 1.2: Distribuição conjunta, em porcentagens, da forma de pagamento, por
peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 3,175% 8,75% 1,875% 13,75%
Cartão 16,25% 35% 16,25% 67,5%
Cheque 5,625% 6,25% 6,875% 18,75%
Total 25% 50% 25% 100%
Fonte: Dados Fict́ıcios.
Tabela 1.3: Distribuição conjunta das porcentagens em relação às colunas, da forma
de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 12,5% 17,5% 7,5% 13,75%
Cartão 65% 70% 65% 67,5%
Cheque 22,5% 12,5% 27,5% 18,75%
Total 100% 100% 100% 100%
Fonte: Dados Fict́ıcios.
Tabela 1.4: Distribuição conjunta das porcentagens em relação às linhas, da forma
de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 22,72% 63,64% 13,64% 100%
Cartão 24,1% 51,8% 24,1% 100%
Cheque 30% 33,3% 36,7% 100%
Total 25% 50% 25% 100%
Fonte: Dados Fict́ıcios.
Vamos continuar nossa análise considerando a Tabela 1.3 que mostram as por-
centagens da forma de pagamento X em cada peŕıodo Y . Estas porcentagem são
importantes pois nos possibilitam comparar a relação (ou grau de associação) entre
aestas variáveis.
Podemos observar que , independentemente do peŕıodo, 13,75% dos pagamentos
são feitos em dinheiro; 67,5% em cheques e 18,75% em cartão (coluna do total). As-
sim, não existindo associação entre as variáveis esperaŕıamos esta mesma proporção
para cada peŕıodo.
4 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL
Considerando nossos dados originais na tabela abaixo,vamos dar ińıcio a nossa
análise bivariada.
Tabela 1.5: Distribuição conjunta da forma de pagamento,
por peŕıodo, no supermercado Farinha Azul,
Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 125 350 75 550
Cartão 650 1400 650 2700
Cheque 225 250 275 750
Total 1000 2000 1000 4000
Fonte: Dados Fict́ıcios.
Para iniciarmos a análise precisamos calcular as frequências esperadas (eij) de
ocorrência dado que já possuimos as frequências observadas (oij) das ocorrências.
eij =
Total da Coluna× Total da Linha
Total Geral
.
No nosso exemplo o ı́ndice i representa a forma de pagamento e o ı́ndice j repre-
senta o peŕıodo do dia. Assim, temos a seguinte tabela:
Tabela 1.6: Distribuição das frequências observadas e esperadas, da forma de paga-
mento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite
oij eij oij eij oij eij
Dinheiro 125 137,5 350 275 75 137,5
Cartão 650 675 1400 1350 650 675
Cheque 225 187,5 250 375 275 187,5
Fonte: Dados Fict́ıcios.
A partir daqui, o problema está em encontrar uma medida que nos forneça o
grau de associação entre as variáveis.
Para isso, vamos estudar o Coeficiente de Contingência.
1.2. VARIÁVEIS QUALITATIVAS 5
1.2.1 Coeficiente de Contingência
Para definirmos o Coeficiente de Contingência vamos continuar a análise em nosso
exemplo, calculando inicialmente as diferenças entre as frequências observadas e
esperadas, isto é, (oij − eij), como segue:
Tabela 1.7: Distribuição dos desvios entre as frequências observadas e esperadas da
forma de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro,
2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro -12,5 75 -62,5 0
Cartão -25 50 -25 0
Cheque 37,5 -125 87,5 0
Total 0 0 0 0
Fonte: Dados Fict́ıcios.
Para quantificar esses desvios vamos considerar os desvios relativos, rij, que levam
em conta o numero diferente de clientes em cada peŕıodo.
rij =
(oij − eij)2
eij
.
Assim, podemos calcular a medida de afastamento global usando-se a soma desses
valores. Essa nova medida chama-se χ2 (qui-quadrado) e é dada por
χ2 =
∑
i
∑
j
(oij − eij)2
eij
.
Considerando nosso exemplo, teŕıamos,
χ2 =
(−12,5)2
137,5
+
(−25)2
675
+
(37,5)2
187,5
+
(75)2
275
+
(50)2
1350
+
(−125)2
375
+
(−62,5)2
137,5
+
(−25)2
675
+
(87,5)2
187,5
= 152,04.
Com o resultado obtido fica dif́ıcil definir se essa associação é alta ou baixa
entre as variáveis, deveria ser zero se não existisse associação. Assim, um famoso
estat́ıstico K. Pearson sugeriu o Coeficiente de Contingência C, conforme definido
C =
√
χ2
χ2 + n
,
6 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL
sendo n o numero total de observações. Este coeficiente varia entre os número 0
e 1, sendo 0 quando não existe associação. Mas, algumas vezes, mesmo ocorrendo
associação perfeita C pode não ser igual a 1.
Desta forma, uma alternativa é realizar uma correção na medida C ficando então
chamada de Coeficiente de Contingência Corrigido C∗, dado por
C∗ =
C√
(t−1)
t
,
sendot o menor valor entre o número de colunas e o número de linhas.
Podemos considerar na tabela abaixo as possiveis interpretaçãoes do Coeficiente
de Contingência. Porém, as interpretações dependem de cada contexto em particu-
lar.
Tabela 1.8: Guia de interpretação do Coeficente de Contingência, dado os valores
numéricos.
C e C∗ Interpretação
0 Não existe associação
0,01 a 0,19 Associação muito fraca
0,20 a 0,39 Associação fraca
0,4 a 0,6 Associação moderada
0,61 a 0,89 Associação forte
0,90 a 0,99 Associação muito forte / Quase perfeita
1 Associação perfeita
Fonte: Shimakura, 2006.
Assim, em nosso exemplo teremos:
C =
√
152, 04
152, 04 + 4000
= 0, 1924 C∗ =
0, 1924√
(3 − 1)/3
= 0, 2351.
Indicando um grau de associação fraca entre as variáveis.
1.3 Variáveis Quantitativas
Quando estamos trabalhando com duas variáveis quantitativas X e Y , a análise
inicial é feita construindo o Diagrama de Dispersão entre as duas variáveis. Este di-
agrama indica, em um primeiro momento, se existe ou não associação (ou correlação)
entre as variáveis X e Y .
1.3. VARIÁVEIS QUANTITATIVAS 7
• Correlação Linear Positiva: Y tende a aumentar quando X aumenta.
• Correlação Linear Negativa: Y tende a diminuir quando X aumenta.
Observando-se uma associação (ou correlação) entre as variáveis quantitativas
X e Y , necessitamos quantificar o grau de associação entre elas. Considerando uma
associação linear, ou seja, defineremos um medida que nos mostre o quanto uma
nuvem de pontos do diagrama de dispersão está próximo a uma reta. E a medida a
ser utilizada é o Coeficiente de Correlação, conforme difinido abaixo.
Def.: Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), chamamos de coefi-
ciente de correlação entre as duas variáveis X e Y a relação
Cor(X,Y ) =
1
n
∑n
i=1(xi − X̄)(yi − Ȳ )
DP (X)DP (Y )
.
Ou ainda,
Cor(X,Y ) =
∑
[(X − X̄)(Y − Ȳ )]√∑
(X − X̄)2
√∑
(Y − Ȳ )2
.
O coeficeinte de correlação linear assume sempre valores entre −1 e 1.
• Cor(X,Y ) = −1, associação negativa perfeito..
• Cor(X,Y ) = 1, associação positiva perfeito.
• Cor(X,Y ) = 0, não tem associação.
Podemos considerar na tabela abaixo as possiveis interpretaçãoes do Coeficiente
de Correlação. Porém, as interpretações dependem de cada contexto em particular.
8 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL
Tabela 1.9: Guia de interpretação do Coeficente de Correlaçao positivo ou negativo
, dado os valores numéricos.
Corr(X, Y ) Interpretação
0 Não existe Correlação
0,01 a 0,19 Correlação muito fraca (+ ou -)
0,20 a 0,39 Correlação fraca (+ ou -)
0,4 a 0,6 Correlação moderada (+ ou -)
0,61 a 0,89 Correlação forte (+ ou -)
0,90 a 0,99 Correlação muito forte / Quase perfeita (+ ou -)
1 Correlação perfeita (+ ou -)
Fonte: Shimakura, 2006.
Exemplo: Um relatório da diretoria de da empresa Café com Leite, divulgou os
seguintes dados ( expressos em milhões de reais) financeiros, referentes ao peŕıodo
de 1999 a 2009, Rio de Janeiro, RJ.
Volume Vendas
X 1000 1300 1500 1400 2200 2900 3700 4100 5900 7000
Dividendos
Distribuidos Y 20 40 51 67 72 109 114 171 192 236
Fonte: Dados fict́ıcios.
O que podemos sobre a associação entre as variáveis?
Resolução:
X Y (X − X̄) (Y − Ȳ ) (X − X̄)(Y − Ȳ ) (X − X̄)2 (Y − Ȳ )2
1000 20 -2100 -87,2 183120 4410000 7603,84
1300 40 -1800 -67,2 120960 3240000 4515,84
1500 51 -1600 -56,2 89920 2560000 3158,44
1400 67 -1700 -40,2 68340 2890000 1616,04
2200 72 -900 -35,2 31680 810000 1239,04
2900 109 -200 1,8 -360 40000 3,24
3700 114 600 6,8 4080 360000 46,24
4100 171 1000 63,8 63800 1000000 4070,44
5900 192 2800 84,8 237440 7840000 7191,04
7000 236 3900 128,8 502320 15210000 16589,44
X̄ = 3100 Ȳ = 107, 2 0 0 1301300 38360000 46033,6
r =
1301300√
38360000
√
46033, 6
= 0, 979.
Desta forma, podemos concluir que existe uma correlação quase perfeita positiva.

Mais conteúdos dessa disciplina