Buscar

Aula 7 - Análise Bidimensional_completa

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

*
Análise Bidimensional 
Referências: 
	BUSSAB e MORETTIN, Cap. 4.
		
*
Análise Bidimensional
Foi visto até aqui como organizar os dados e resumir as informações de apenas uma variável. Frequentemente, porém, deseja-se analisar o comportamento conjunto de duas ou mais variáveis aleatórias.
Neste caso, os dados são exibidos na forma de uma matriz com as colunas indicando as variáveis e as linhas reportando os indivíduos (ou observações/ elementos).
O objetivo neste tipo de análise é explorar as relações entre as variáveis, como similaridade entre as colunas ou entre as linhas. Assim como no estudo do comportamento de apenas uma variável, a distribuição conjunta das frequências é um instrumento fundamental na análise de duas ou mais variáveis. 
*
*
Análise Bidimensional
A tabela abaixo mostra a notação de uma matriz com p variáveis X1, X2, ... Xp de n indivíduos, totalizando np dados. 
*
*
Análise Bidimensional
Quando são consideradas duas variáveis (ou dois conjuntos de dados), podemos ter três situações:
As duas variáveis são qualitativas
As duas variáveis são quantitativas
Uma variável é qualitativa e outra é quantitativa
As técnicas de análise são distintas em cada caso:
No caso (a): resumem-se os dados em tabelas de contingência ou dupla entrada. 
No caso (b): gráficos de dispersão ou de quantis.
No caso (c): os dados da variável quantitativa são categorizados de acordo com os atributos da variável qualitativa.
 
*
*
Análise Bidimensional
É importante ficar claro que o interesse principal neste tipo de análise é encontrar possíveis relações ou associações entre as duas variáveis, que podem ser detectadas por meio de gráficos ou medidas numéricas. 
Uma variável tem associação com a outra se, dado o conhecimento sobre uma delas, muda-se o a opinião sobre o comportamento da outra. 
Por exemplo: relação entre a altura e o sexo (homem ou mulher) das pessoas. 
Qual a frequência esperada de pessoas com mais de 170 cm de altura?
Qual a frequência esperada de uma mulher ter mais de 170 cm de altura?
Se a resposta para as duas pergunta for a mesma, então se diz que não há associação entre as variáveis altura e sexo. Se as respostas diferirem, então provavelmente há uma associação, e é preciso incorporar essa informação para se compreender melhor o comportamento das variáveis. 
 
*
*
Variáveis Qualitativas
Pretende-se analisar o comportamento conjunto das variáveis Y: grau de instrução e V: região de procedência de um conjunto de dados de 36 empregados de uma determinada companhia. A distribuição de frequências é representada pela tabela de dupla entrada abaixo (tabela 2). 
A linha dos totais fornece a distribuição da variável Y, e a coluna dos totais a distribuição da variável V. Essas duas distribuições são denominadas distribuições marginais, enquanto que a tabela 2 constitui a distribuição conjunta de Y e V. 
*
*
Variáveis Qualitativas
Os dados também podem ser expressos em termos de frequências relativas (proporções), como no caso unidimensional (apenas uma variável). Neste caso, há três possibilidades de se expressar a proporção de cada casela da tabela:
Em relação ao total geral;
Em relação ao total de cada linha
Ou em relação ao total de cada coluna. 
Uma dessas três formas se mostrará mais conveniente a depender do objetivo do estudo. 
A Tabela 3 a seguir traz a distribuição das frequências relativas, expressas como proporção do total geral. 
*
*
Variáveis Qualitativas
Com base nas informações da tabela 3, pode-se afirmar que 11% dos empregados vêm da capital e têm o ensino fundamental. 
Os totais nas margens fornecem as distribuições unidimensionais de cada uma das variáveis. Por exemplo, 31% dos empregados vem da capital, 33% do interior e 36% de outras regiões.
Note que, devido a aproximações das divisões, a distribuição das proporções introduz algumas divergências não existentes (coluna instrução superior).
*
*
Variáveis Qualitativas
A Tabela 4 apresenta a distribuição das proporções em relação ao total das colunas. Neste caso, pode-se afirmar que, entra os empregados com instrução até o ensino fundamental, 33% vê da capital, enquanto que entre os que tem o ensino médio essa proporção é de 28%. A partir desta tabela pode-se comparar o a distribuição da procedência dos indivíduos conforme o grau de instrução. 
Exercício: Usando a distribuição conjunta de frequências das variáveis Y e V, construa a distribuição das proporções em relação ao total das linhas.
*
*
Medidas de Associação entre Variáveis Qualitativas
Coeficientes de correlação ou associação: medidas que descrevem, por meio de um único número, a associação ou dependência entre duas variáveis. 
Exemplo: Na Pesquisa Perfil Graduando UFU de 2014, levantou-se uma série de características de uma amostra de tamanho n= 9.048 alunos de graduação. 
Um dos objetivos da pesquisa era verificar se a informação sobre o tipo de escola em que o graduando cursou ensino médio dependia do tipo de matrícula do aluno (ingressante ou graduando). 
*
*
Medidas de Associação entre Variáveis Qualitativas
A Tabela 5 traz os resultados da distribuição de frequências conjunta dessas duas variáveis “tipo de escola” e “ tipo de aluno” 
*
*
Medidas de Associação entre Variáveis Qualitativas
Os dados da Tabela 5 indicam certa dependência entre as variáveis. Caso não houvesse associação, esperaríamos que a proporção de alunos veteranos e ingressantes fosse a mesma, dentro de cada categoria da variável “Tipo de Escola”. 
Ou seja, seria esperado observar cerca de 60% dos alunos (veteranos e ingressantes) tendo cursado apenas escola pública, 4% deles tendo feito parte do Ensino Médio em escola pública, cerca de 6% tendo feito parte do Ensino Médio em escola Particular e em torno de 30% terem cursado somente Escola Particular. 
Pelos dados da tabela, claramente essas expectativas não foram confirmadas. Isto indica que houve uma mudança no perfil dos graduandos que entram na UFU em 2014, em termos de tipo de escola de origem, relativamente aos alunos que entraram na universidade em anos anteriores. 
*
*
Medidas de Associação entre Variáveis Qualitativas
Então, por exemplo, o número esperado de alunos veteranos tendo cursado somente escola pública seria 0,59*5.982 = 3.529 (e não 3.198). O número esperado de ingressantes na mesma situação seria 0,59*3.066=1.809 (e não 2.138). A Tabela 6 traz esses resultados. 
*
*
Medidas de Associação entre Variáveis Qualitativas
Comparando as duas tabelas, observa-se a diferença entre os valores observados (tabela 5) e os valores esperados caso as variáveis não fossem associadas (tabela 6). Na tabela 7 abaixo os desvios estão resumidos: valores observados menos valores esperados (oi - ei).
*
*
Medidas de Associação entre Variáveis Qualitativas
*
*
Medidas de Associação entre Variáveis Qualitativas
Uma forma de resumir em um único valor este “ afastamento” das observações vis a vis aos valores previstos é usar a medida denominada χ2 (qui-quadrado) de Person. Esta medida é dada pela soma de todos os desvios quadrados relativos 
Usando os dados do exemplo (tabela 7):
χ2= 31,11+ 0,01 +0,81 + 52,69 + 59,86 + 2,54 + 8,25 + 78,10= 233,38
Um valor grande de χ2 indica associação entre as variáveis, o que parece ser o caso. 
Se a hipótese de não associação (ou independência) entre as variáveis for verdadeira, o valor de χ2 deve ser próximo de zero. 
*
*
Medidas de Associação entre Variáveis Qualitativas
Outra medida de associação baseada em χ2, também proposta por Pearson, é chamada de coeficiente de contingência, dada por: 
Contudo, C também não varia entre 0 e 1. Para contornar este inconveniente, costuma-se definir um outro coeficiente, dado por:
Em que r é o número de categorias da variável X e s o número de categorias da variável
Y. A medida T atinge o máximo igual a 1 se r = s. 
No exemplos, tem-se C= 0,159 e T= 0,08.
O uso do χ2 no se dá nas análises de aderência (testes mais avançados sobre a distribuição de probabilidade das variáveis – independência, normalidade, etc.)
*
*
Associação entre Variáveis Quantitativas
Quando as variáveis são ambas quantitativas, a análise feita para variáveis qualitativas também pode ser empregada: a distribuição conjunta das variáveis pode ser representada em tabelas de dupla entrada e, com base nas distribuições marginais, pode-se estudar a associação entre as variáveis. 
Além disso, outras técnicas mais sofisticadas cabem na análise de associação entre as variáveis quantitativas, como os gráficos de dispersão e a medida de correlação. 
Como exemplo, considere os dados da Tabela 8 a seguir para uma amostra de 13 trabalhadores americanos em que Y é o salário (em US$) e X o QI.
Na Figura 1 tem-se o gráfico de dispersão das variáveis X e Y da Tabela 8. Esse tipo de gráfico mostra os pares de valores (x, y) na ordem em que aparecem na amostra. Neste exemplo, parece haver uma associação entre as variáveis, pois, em média, quando maior o QI do indivíduo, maior o salário. 
*
*
Associação entre Variáveis Quantitativas
Tabela 8 - Salário (Y) e QI (X) de uma amostra de trabalhadores americanos.
*
*
Associação entre Variáveis Quantitativas
Figura 1 - Gráfico de dispersão para as variáveis Y: salário e X: QI
*
*
Associação entre Variáveis Quantitativas
Considere agora outro exemplo, em que X é anos de experiência no mercado de trabalho e Y é anos de trabalho para o mesmo empregador. O gráfico de dispersão está na figura 2 abaixo. Neste caso, parece haver alguma associação entre as variáveis?
		Figura 2 - Gráfico de dispersão para as variáveis Y: 			permanência no mesmo empregador e X: experiência
*
*
Associação entre Variáveis Quantitativas
Os gráficos ajudam muito a verificar se há associação entre duas variáveis quantitativas e de que tipo é essa associação.
No entanto, é necessário quantificar a associação existente. Existem várias formas de associação possíveis. A mais simples delas é a associação linear, com a qual iremos trabalhar aqui.
Para quantificar a associação linear, define-se uma medida que avalia o quão próxima de uma reta encontra-se a nuvem de pontos no gráfico de dispersão.
Considere novamente um gráfico de dispersão (Figura 3) para as variáveis Y: salário e X: QI, mas agora com as variáveis transformadas para fazer com que a origem do gráfico se localize no centro da nuvem de dispersão (para cada valor da variável X e Y na amostra, subtraiu-se sua média).
*
*
Associação entre Variáveis Quantitativas
Figura 3 - Gráfico de dispersão para as variáveis Y: salário e X: QI
*
*
Associação entre Variáveis Quantitativas
Foi visto que salário e QI apresentam uma associação linear direta ou positiva e nota-se agora, com as variáveis transformadas, que a grande maioria dos pontos se situa no primeiro e terceiro quadrantes do gráfico de dispersão mostrado na Figura 3. 
Nos quadrantes 1 e 3, as coordenadas dos pontos tem o mesmo sinal e, portanto, o produto delas será sempre positivo. Assim , a soma do produto das coordenadas será um número positivo, pois existem mais produtos positivos do que negativos. 
Já no caso das variáveis Y: permanência no mesmo empregador e X: experiência, no gráfico de dispersão com as variáveis transformadas mostrado na Figura 4 vê-se que a maioria dos pontos da nuvem se encontra nos quadrantes 2 e 4, em que as coordenadas dos pontos tem sinais opostos. Neste caso, a soma do produto das coordenadas tende a dar um valor negativo.
*
*
Associação entre Variáveis Quantitativas
Figura 3 - Gráfico de dispersão para as variáveis Y: permanência com o mesmo empregador e X: experiência no mercado de trabalho 
*
*
Associação entre Variáveis Quantitativas
Por fim, pode ser que a soma do produto das coordenadas seja zero, se a distribuição dos pontos da nuvem nos 4 quadrantes seja mais simétrica ou circular. Neste caso, não há relação linear entre as variáveis analisadas, como parece ser o caso da relação entre as variáveis X e Y na Figura 5 (c) abaixo. 
Figura 5 – Tipos de associação entre variáveis
*
*
Associação entre Variáveis Quantitativas
O coeficiente de correlação (linear) é uma medida do grau de associação entre duas variáveis e também da proximidade dos dados a uma reta.
Para o seu cálculo, será usada essa ideia da “soma do produto das coordenadas”. Porém, como essa soma é sensível ao número de pontos, trabalha-se com a média da soma do produto das coordenadas.
Além disso, as variáveis originais (X e Y, no caso) precisam ser transformadas da seguinte maneira: 
Subtrai-se a média (para que a origem dos dados seja o ponto zero)
Divide-se pelo desvio padrão (de forma a ponderar os valores de X e Y de forma inversamente proporciona a sua dispersão). 
Para os dados do Exemplo em que X: QI e Y: salário, esses novos valores das variáveis são mostrados na Tabela 9
*
*
Associação entre Variáveis Quantitativas
Tabela 9 – Cálculo do coeficiente de correlação
Portanto, neste exemplo, o grau de associação linear entre os salários e o QI dos indivíduos é quantificado por 52,5%.
*
*
Coeficiente de Correlação
*
*
Associação entre variáveis qualitativas e quantitativas
Quando se tem uma variável qualitativa e outra quantitativa, para analisar a associação entre elas costuma-se ver o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa. Isto pode ser feito usando-se medidas resumo, histogramas, box plots ou ramo e folhas.
Como exemplo, vamos usar novamente os dados da pesquisa sobre o Perfil Graduando UFU 2014.
Vamos analisar o comportamento da renda per capita dos graduandos segundo a cidade de localização do Campus e o tipo de aluno (se veterano ou ingrssante) .
*
*
Associação entre variáveis qualitativas e quantitativas
A Tabela abaixo contém medidas resumo da variável “renda per capita familiar”para cada categoria “cidade de localização do Campus”.
A Figura a seguir apresenta uma visualização gráfica por meio de box plots.
*
*
Associação entre variáveis qualitativas e quantitativas
*
*
Associação entre variáveis qualitativas e quantitativas
*
A Tabela abaixo contém medidas resumo da variável “renda per capita familiar” de acordo com o tipo de aluno “veterano ou ingressante”. 
A Figura a seguir apresenta uma visualização gráfica por meio de box plots.
*
Associação entre variáveis qualitativas e quantitativas
*
*
Associação entre variáveis qualitativas e quantitativas
*
A leitura desses dados sugere alguma dependência da renda per capita de acordo com a cidade de localização do Campus ou o tipo de aluno?
Novamente, é muito útil quantificar o grau de dependência entre as variáveis e as variâncias podem ser utilizadas como insumos para se construir uma medida. 
A variância total da variável quantitativa mede a dispersão dos dados globalmente. Se a variância dentro de cada categoria for pequena e menor do que a global, isso significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e, portanto, existe uma relação entre as duas variáveis.
Observe que, nos exemplos apresentados, a variância da renda per capita dentro de cada de “ Campus” ou “ tipo de aluno” em geral é menor que a variância total observada. 
*
Associação entre variáveis qualitativas e quantitativas
*
A medida-resumo da variância entre as categorias da variável qualitativa é uma “média” das variâncias, ponderada pelo número de observações em cada categoria:
Em que k é o número de categorias e vari(Y) denota a variância de Y dentro da categoria i, i=1, 2, ... K. 
*
Associação entre variáveis qualitativas e quantitativas
*
Pode-se mostrar que , de forma que o grau de associação entre duas variáveis pode ser definido como o “ganho relativo na variância”, obtido pela introdução da variável qualitativa:
Note que . O R-quadrado é usado em análise de variância em regressão, tópicos a serrem abordados mais adiante.
*
Associação entre variáveis qualitativas e quantitativas
*
Voltando aos exemplos apresentados:
Para o caso renda per capita x Campus, 
e Var(Y)= 621.101,61. De modo que 
Dizemos, neste caso, que 1,79% da variação total observada na renda per capita dos graduandos é explicada pela variável “cidade de localização do Campus”.
Calcule agora o valor do R-quadrado para o caso da renda per capita x tipo de aluno e verifique qual tipo de relação se mostra maior: entre renda e campus ou entre renda e tipo de aluno. 
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais