A maior rede de estudos do Brasil

Grátis
5 pág.
Análise Exploratória - Duas variáveis

Pré-visualização | Página 1 de 2

Análise Exploratória
Para Duas Variáveis – Capítulo 2
Relação entre Variáveis Qualitativas:
> para relacionar duas variáveis qualitativas deve-se construir uma tabela de contingência, contendo frequências cruzadas relativas a essas duas variáveis. 
Ainda utilizando os dados antropométricos da tabela de 4 mulheres.
- O que está circulado em verde são as marginais da variável categoria (22 ativas e 23 sedentárias). E para o IMC, as marginais são 27 para normais e 18 para sobrepeso. 
> com base na tabela de contingência, devem ser calculados os percentuais de linha e coluna, obtidos em duas tabelas de percentuais. 
- Essas tabelas são feitas da seguinte maneira: primeiro se fixa uma linha (categoria) da tabela 2.1 e calcula o percentual correspondente a cada coluna (IMC) com respeito ao total de linha. Para a outra tabela se faz o contrário, fixa uma coluna (IMC) e calcula o percentual correspondente a cada linha (categoria), com respeito ao total de coluna. 
Percentuais de linha: na tabela 2.1 há 22 mulheres no total que são ativas, dentre elas 18 estão na Classe de IMC “normal” e 4 em sobrepeso. Para encontrarmos a porcentagem fazemos:
Interpretação: O percentual do grupo que tem o seu índice de massa corporal em nível considerado normal é mais de duas vezes maior entre as mulheres ativas do que entre as sedentárias. 
Gráfico de barras para notar a influência física no peso.
Percentuais de coluna: uma vez fixada a coluna na tabela 2.1, tem-se 27 mulheres no total que estão na classe normal de IMC, dentre elas 18 são ativas e 9 sedentárias. Para encontrarmos a porcentagem fazemos:
das mulheres da classe normal de IMC são da categoria ativa. 
das mulheres da classe normal de IMC são da categoria sedentária. 
Interpretação: O percentual relativo à categoria das mulheres ativas (ou seja, não sedentárias) é três vezes maior entre as que têm o índice de massa corporal dentro de um padrão de normalidade do que entre aquelas que apresentam sobrepeso. 
Relação entre Variáveis Quantitativas:
> o coeficiente de correlação (rxy) é capaz de indicar o grau de interdependência linear entre duas variáveis quantitativas X e Y. Esse coeficiente pode assumir qualquer valor real entre -1 e 1.
- Quanto mais próximo de 1 ou de -1 estiver o valor de rxy, mais forte será a relação linear entre as 2 variáveis. 
- Assim como a média e o desvio-padrão, o coeficiente de correlação é pouco resistente à presença de observações discrepantes; fazendo com que seu valor, em módulo, diminua muito.
> para analisar esse grau de interdependência cria-se um diagrama de dispersão, que é um sistema de eixos coordenados onde os valores (xi, yi) estão localizados como pontos. 
> a disposição dos pontos no gráfico dispersão (sistema de eixos coordenados) fornecerá o valor do coeficiente de correlação:
Quanto mais próximos os pontos estiverem da reta, mais próximo o rxy estará de +1. 
> a covariância entre X e Y é calculada por:
Onde Sx e Sy são desvio-padrões de X e Y, respectivamente. 
> como calcular o coeficiente de correlação entre X e Y?
- Também pode ser calculada a partir da covariância:
Exemplo 2.3: tabela fixa per capita versus renda per capita – cálculo do número de linhas telefônicas por mil habitantes em um estado do Brasil a partir da renda per capita do estado.
X = renda per capita
Y = telefonia fixa per capita
- Para encontrarmos o valor do coeficiente de correlação:
- Para realizar o gráfico telefonia fixa per capita (y) em função renda per capita (x):
A renda per capita está em milhares (103).
Interpretação: Tanto o valor de rxy como o gráfico sugerem que há uma forte dependência linear positiva entre a renda per capita e a telefonia fixa per capita. Esse comportamento está dentro do esperado, uma vez que, quanto maior é o poder aquisitivo da população, maior tende a ser o seu consumo de bens e serviços. 
> quando há um desvio/informação discrepante /assimetria em um dos dados da variável é possível medir o grau de associação entre as duas variáveis do mesmo jeito a partir da aplicação logarítmica sobre as variáveis. Ou seja, considera-se novas variáveis: u=ln(x) e v=ln(y). 
Rio sendo o valor muito destoante dos demais antes da aplicação logarítmica. 
Após a aplicação de log, o gráfico fica mais apresentável.
Interpretação: tanto o valor calculado de r como o gráfico sugerem que há uma forte interdependência linear positiva entre as variáveis u=ln(x) e v=ln(y). ou seja, quanto maior o número de hotéis em uma cidade, maior é o número de acomodações à disposição do público na rede de hotelaria. 
Exercício 2.1: Condições de trabalho vistas por empregados de diferentes setores de uma empresa. Essa é uma pesquisa de clima organizacional, ou seja, uma pesquisa de opinião através da qual se pretende investigar o nível de satisfação dos empregados. Quais das seguintes afirmações são corretas?
Exemplo 2.3: O impacto da propaganda sobre as vendas. Para isso, uma empresa obteve dados relativos a 10 produtos seus:
Descrição: para o primeiro produto houve 10x103 reais de investimento em propaganda, cuja receita obtida com a venda foi de 100x103 reais. 
a) Obter um gráfico de dispersão de x e y:
A figura sugere uma tendência de as vendas aumentarem quanto maior for o investimento em propaganda.
b) Calcular as médias amostrais de x e y:
10 = total de observações/produtos que foram analisados.
c) Calcular o coeficiente de correlação entre x e y:
Para isso, construiu-se uma tabela com várias colunas contendo as seguintes variáveis:
Como esse conjunto de dados tem n=10 observações, então temos o i variando de 1 a 10 observações.
Agora, para o cálculo do coeficiente de correlação, precisamos apenas utilizar os valores obtidos das variáveis.
Esse valor indica que há relação linear forte entre as variáveis investimento em propaganda e receita de vendas. 
O Ajuste da Reta de Regressão por Mínimos Quadrados: 
> quando se verifica através do coeficiente de correlação (ou pelo aspecto do diagrama de dispersão) que existe uma forte relação linear entre duas variáveis x e y, pode ser de interesse calcular a equação da reta que representa esta relação, e conhecer qual reta melhor se ajusta aos pontos do gráfico de dispersão.
y = a + b.x
Y = variável dependente, cujo comportamento se deseja explicar.
X = varável independente/explicativa, a ser usada para explicar o comportamento da variável y. 
Essa equação nos permite calcular/estimar o valor de y0 a partir de seu valor correspondente na variável x, ou seja, a um determinado valor x0.
> como a relação de dependência linear entre y e x no é perfeita, introduz-se na equação de regressão da reta um termo relativo ao erro do modelo de predição:
y = a + b.x + erro
O erro pode ser positivo caso esteja acima da reta, ou negativo, caso esteja abaixo. 
b = coeficiente angular da reta, mede a inclinação. Ao passar de um ponto a outro sobre a reta, b mede a relação .
a = coeficiente linear. É o valor da ordenada (y) quando x=0, ou seja, o ponto em que a reta intercepta o eixo y 
Para calcular os valores de a e b a partir dos dados obtidos são:
Entre todas as retas do tipo y = a + b.x, a reta obtida pelo método dos mínimos quadrados é aquela que torna mínima a soma:
Exemplo: Novamente o impacto da propaganda sobre as vendas. 
a) Calcule, por mínimos quadrados, os parâmetros da reta y = a + b.x
R: lembrando que y = vendas e x = investimento em propagandas. 
Para calcular o valor de a e b por mínimos quadrados, onde n = 10: 
y = 85 + 5,5.x
b) Calcule o valor estimado das vendas quando o investimento em propaganda é de 3 mil reais. 
R: como as observações estão expressas em milhares de reais, esse x será = a 35.
y = 85 + 5,5.x
y = 85 + 5,5 . 35
y = 217,5 mil reais.
c) Forneça uma interpretação para o coeficiente b no contexto deste problema. 
R: o coeficiente b mede o quociente , isto é, a variação da receita da venda (y) sobre a variação do investimento em propaganda (x). Ou seja, nesse contexto, a média para cada aumento de 1.000 reais no investimento em propaganda haverá um