CAP3-A-AnaliseBidimensional-aluno (1)

Estatistica Basica I

•

UNOPAR

Rita Cassia

04/08/2023

Prévia do material em texto

Caṕıtulo 1
Análise Bidimensional
1.1 Introdução
Este caṕıtulo estuda a análise conjunta de duas variáveis ou mais variáveis,
buscando entender o comportamento conjunto dessas variáveis. É muito comum, nas
Ciências Sociais e Humanas, o interesse em verificar se duas variáveis se apresentam
associadas num certo conjunto de elementos. Por exemplo, pode-se ter o interesse
em verificar se o percentual de desnutrição infantil varia de acordo com a faixa de
renda, o que caracteriza uma associação entre essas variáveis. Esse tipo de análise
passa pelas distribuições conjuntas de frequências de grande importância para a
compreensão do comportamento dos dados.
O principal objetivo da distribuição conjunta é descrever o grau de associação
entre as variáveis, possibilitando descrever o comportamento de uma variável quando
conhecemos a realização da outra.
Quando consideramos duas variáveis, podemos ter três situações:
a) as duas variáveis são qualitativas ( Ex: sexo x grau de escolaridade);
b) as duas variáveis são quantitativas (Ex: altura x peso);
c) uma variável é qualitativa e outra quantitativa (Ex: sexo x altura).
Quando as variáveis são qualitativas, os dados são resumidos em tabelas de
contingência ( ou de dupla entrada), onde aparecerão as frequências absolutas de
indiv́ıduos que aparecem simultaneamente nas duas categorias. Quando temos
variáveis quantitativas usamos a distribuição de frequências conjuntas e gráficos
de dispersão ou de quantis. Quando temos o caso c), em geral analisamos o que
acontece com a variável quantitativa dentro das categorias da variável qualitativa.
1
2 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL
1.2 Variáveis Qualitativas
Exemplo 1: Um supermercado quer verificar se o modo de pagamento dos clientes
nesse estabelecimento está associado ao peŕıodo do dia em que fazem as compras.
Existem três modos de efetuar os pagamentos: por cheque, dinheiro e cartão de
crédito. A seguinte tabela de contingência 3 × 3 apresenta os resultados obtidos
numa amostra de 4000 clientes:
Tabela 1.1: Distribuição conjunta da forma de pagamento,
por peŕıodo, no supermercado Farinha Azul,
Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 125 350 75 550
Cartão 650 1400 650 2700
Cheque 225 250 275 750
Total 1000 2000 1000 4000
Fonte: Dados Fict́ıcios.
Vamos considerar que a variável X representa a forma de pagamento e a variável
Y representa o peŕıodo do dia. Desta forma, a linha de totais fornece a distribuição
da variável X e a coluna dos totais fornece a distribuição da variável Y . Estas
distribuições recebem o nome de Distribuições marginais de X e de Y .
A Tabela 1 foi construida utilizando-se a frequência absoluta das ocorrências por
categoria. Porém, outras distribuições conjuntas podem ser construidas considerando-
se as frequências relativas:
• em relação ao total geral;
• em relação ao total de cada linha;
• e em relação ao total de cada coluna.
A distribuição mais conveniente a ser usada vai depender do objetivo da pesquisa.
1.2. VARIÁVEIS QUALITATIVAS 3
Tabela 1.2: Distribuição conjunta, em porcentagens, da forma de pagamento, por
peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 3,175% 8,75% 1,875% 13,75%
Cartão 16,25% 35% 16,25% 67,5%
Cheque 5,625% 6,25% 6,875% 18,75%
Total 25% 50% 25% 100%
Fonte: Dados Fict́ıcios.
Tabela 1.3: Distribuição conjunta das porcentagens em relação às colunas, da forma
de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 12,5% 17,5% 7,5% 13,75%
Cartão 65% 70% 65% 67,5%
Cheque 22,5% 12,5% 27,5% 18,75%
Total 100% 100% 100% 100%
Fonte: Dados Fict́ıcios.
Tabela 1.4: Distribuição conjunta das porcentagens em relação às linhas, da forma
de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 22,72% 63,64% 13,64% 100%
Cartão 24,1% 51,8% 24,1% 100%
Cheque 30% 33,3% 36,7% 100%
Total 25% 50% 25% 100%
Fonte: Dados Fict́ıcios.
Vamos continuar nossa análise considerando a Tabela 1.3 que mostram as por-
centagens da forma de pagamento X em cada peŕıodo Y . Estas porcentagem são
importantes pois nos possibilitam comparar a relação (ou grau de associação) entre
aestas variáveis.
Podemos observar que , independentemente do peŕıodo, 13,75% dos pagamentos
são feitos em dinheiro; 67,5% em cheques e 18,75% em cartão (coluna do total). As-
sim, não existindo associação entre as variáveis esperaŕıamos esta mesma proporção
para cada peŕıodo.
4 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL
Considerando nossos dados originais na tabela abaixo,vamos dar ińıcio a nossa
análise bivariada.
Tabela 1.5: Distribuição conjunta da forma de pagamento,
por peŕıodo, no supermercado Farinha Azul,
Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro 125 350 75 550
Cartão 650 1400 650 2700
Cheque 225 250 275 750
Total 1000 2000 1000 4000
Fonte: Dados Fict́ıcios.
Para iniciarmos a análise precisamos calcular as frequências esperadas (eij) de
ocorrência dado que já possuimos as frequências observadas (oij) das ocorrências.
eij =
Total da Coluna× Total da Linha
Total Geral
.
No nosso exemplo o ı́ndice i representa a forma de pagamento e o ı́ndice j repre-
senta o peŕıodo do dia. Assim, temos a seguinte tabela:
Tabela 1.6: Distribuição das frequências observadas e esperadas, da forma de paga-
mento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro, 2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite
oij eij oij eij oij eij
Dinheiro 125 137,5 350 275 75 137,5
Cartão 650 675 1400 1350 650 675
Cheque 225 187,5 250 375 275 187,5
Fonte: Dados Fict́ıcios.
A partir daqui, o problema está em encontrar uma medida que nos forneça o
grau de associação entre as variáveis.
Para isso, vamos estudar o Coeficiente de Contingência.
1.2. VARIÁVEIS QUALITATIVAS 5
1.2.1 Coeficiente de Contingência
Para definirmos o Coeficiente de Contingência vamos continuar a análise em nosso
exemplo, calculando inicialmente as diferenças entre as frequências observadas e
esperadas, isto é, (oij − eij), como segue:
Tabela 1.7: Distribuição dos desvios entre as frequências observadas e esperadas da
forma de pagamento, por peŕıodo, no supermercado Farinha Azul, Rio de Janeiro,
2009.
Forma Peŕıodos
Pagamento Manhã Tarde Noite Total
Dinheiro -12,5 75 -62,5 0
Cartão -25 50 -25 0
Cheque 37,5 -125 87,5 0
Total 0 0 0 0
Fonte: Dados Fict́ıcios.
Para quantificar esses desvios vamos considerar os desvios relativos, rij, que levam
em conta o numero diferente de clientes em cada peŕıodo.
rij =
(oij − eij)2
eij
.
Assim, podemos calcular a medida de afastamento global usando-se a soma desses
valores. Essa nova medida chama-se χ2 (qui-quadrado) e é dada por
χ2 =
∑
i
∑
j
(oij − eij)2
eij
.
Considerando nosso exemplo, teŕıamos,
χ2 =
(−12,5)2
137,5
+
(−25)2
675
+
(37,5)2
187,5
+
(75)2
275
+
(50)2
1350
+
(−125)2
375
+
(−62,5)2
137,5
+
(−25)2
675
+
(87,5)2
187,5
= 152,04.
Com o resultado obtido fica dif́ıcil definir se essa associação é alta ou baixa
entre as variáveis, deveria ser zero se não existisse associação. Assim, um famoso
estat́ıstico K. Pearson sugeriu o Coeficiente de Contingência C, conforme definido
C =
√
χ2
χ2 + n
,
6 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL
sendo n o numero total de observações. Este coeficiente varia entre os número 0
e 1, sendo 0 quando não existe associação. Mas, algumas vezes, mesmo ocorrendo
associação perfeita C pode não ser igual a 1.
Desta forma, uma alternativa é realizar uma correção na medida C ficando então
chamada de Coeficiente de Contingência Corrigido C∗, dado por
C∗ =
C√
(t−1)
t
,
sendot o menor valor entre o número de colunas e o número de linhas.
Podemos considerar na tabela abaixo as possiveis interpretaçãoes do Coeficiente
de Contingência. Porém, as interpretações dependem de cada contexto em particu-
lar.
Tabela 1.8: Guia de interpretação do Coeficente de Contingência, dado os valores
numéricos.
C e C∗ Interpretação
0 Não existe associação
0,01 a 0,19 Associação muito fraca
0,20 a 0,39 Associação fraca
0,4 a 0,6 Associação moderada
0,61 a 0,89 Associação forte
0,90 a 0,99 Associação muito forte / Quase perfeita
1 Associação perfeita
Fonte: Shimakura, 2006.
Assim, em nosso exemplo teremos:
C =
√
152, 04
152, 04 + 4000
= 0, 1924 C∗ =
0, 1924√
(3 − 1)/3
= 0, 2351.
Indicando um grau de associação fraca entre as variáveis.
1.3 Variáveis Quantitativas
Quando estamos trabalhando com duas variáveis quantitativas X e Y , a análise
inicial é feita construindo o Diagrama de Dispersão entre as duas variáveis. Este di-
agrama indica, em um primeiro momento, se existe ou não associação (ou correlação)
entre as variáveis X e Y .
1.3. VARIÁVEIS QUANTITATIVAS 7
• Correlação Linear Positiva: Y tende a aumentar quando X aumenta.
• Correlação Linear Negativa: Y tende a diminuir quando X aumenta.
Observando-se uma associação (ou correlação) entre as variáveis quantitativas
X e Y , necessitamos quantificar o grau de associação entre elas. Considerando uma
associação linear, ou seja, defineremos um medida que nos mostre o quanto uma
nuvem de pontos do diagrama de dispersão está próximo a uma reta. E a medida a
ser utilizada é o Coeficiente de Correlação, conforme difinido abaixo.
Def.: Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), chamamos de coefi-
ciente de correlação entre as duas variáveis X e Y a relação
Cor(X,Y ) =
1
n
∑n
i=1(xi − X̄)(yi − Ȳ )
DP (X)DP (Y )
.
Ou ainda,
Cor(X,Y ) =
∑
[(X − X̄)(Y − Ȳ )]√∑
(X − X̄)2
√∑
(Y − Ȳ )2
.
O coeficeinte de correlação linear assume sempre valores entre −1 e 1.
• Cor(X,Y ) = −1, associação negativa perfeito..
• Cor(X,Y ) = 1, associação positiva perfeito.
• Cor(X,Y ) = 0, não tem associação.
Podemos considerar na tabela abaixo as possiveis interpretaçãoes do Coeficiente
de Correlação. Porém, as interpretações dependem de cada contexto em particular.
8 CAPÍTULO 1. ANÁLISE BIDIMENSIONAL
Tabela 1.9: Guia de interpretação do Coeficente de Correlaçao positivo ou negativo
, dado os valores numéricos.
Corr(X, Y ) Interpretação
0 Não existe Correlação
0,01 a 0,19 Correlação muito fraca (+ ou -)
0,20 a 0,39 Correlação fraca (+ ou -)
0,4 a 0,6 Correlação moderada (+ ou -)
0,61 a 0,89 Correlação forte (+ ou -)
0,90 a 0,99 Correlação muito forte / Quase perfeita (+ ou -)
1 Correlação perfeita (+ ou -)
Fonte: Shimakura, 2006.
Exemplo: Um relatório da diretoria de da empresa Café com Leite, divulgou os
seguintes dados ( expressos em milhões de reais) financeiros, referentes ao peŕıodo
de 1999 a 2009, Rio de Janeiro, RJ.
Volume Vendas
X 1000 1300 1500 1400 2200 2900 3700 4100 5900 7000
Dividendos
Distribuidos Y 20 40 51 67 72 109 114 171 192 236
Fonte: Dados fict́ıcios.
O que podemos sobre a associação entre as variáveis?
Resolução:
X Y (X − X̄) (Y − Ȳ ) (X − X̄)(Y − Ȳ ) (X − X̄)2 (Y − Ȳ )2
1000 20 -2100 -87,2 183120 4410000 7603,84
1300 40 -1800 -67,2 120960 3240000 4515,84
1500 51 -1600 -56,2 89920 2560000 3158,44
1400 67 -1700 -40,2 68340 2890000 1616,04
2200 72 -900 -35,2 31680 810000 1239,04
2900 109 -200 1,8 -360 40000 3,24
3700 114 600 6,8 4080 360000 46,24
4100 171 1000 63,8 63800 1000000 4070,44
5900 192 2800 84,8 237440 7840000 7191,04
7000 236 3900 128,8 502320 15210000 16589,44
X̄ = 3100 Ȳ = 107, 2 0 0 1301300 38360000 46033,6
r =
1301300√
38360000
√
46033, 6
= 0, 979.
Desta forma, podemos concluir que existe uma correlação quase perfeita positiva.