Buscar

I - REGRESSAO teoria

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

MEDIDAS DE ASSOCIAÇÃO
ASSOCIAÇÃO ENTRE VARIÁVEIS 
I.	ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS
TABELA DE CONTINGÊNCIA
	È a forma usual de apresentar uma distribuição conjunta de duas variáveis.
TESTE DE INDEPENDÊNCIA
	Usado para verificar a existência de associação entre duas variáveis qualitativas, com base em uma amostra de observações disposta numa tabela de contingência. Para se realizar o teste se faz necessário definir duas hipóteses, onde se tem que:
 (não existe associação)
 (existe associação)
A estatística do teste segue uma distribuição 
(Qui-quadrado), sendo obtida através da expressão:
 
, com graus de liberdade igual a: 
, onde
oij = valor observado da i-ésima linha com a j-ésima coluna e eij = valor esperado correspondente a i-ésima linha com a j-ésima coluna.
Adotando nível de significância 
, pode-se obter 
 na tabela Qui-quadrado, tendo como regra de decisão:
 aceita H0 
 rejeita H0
COEFICIENTE DE CONTIGÊNCIA
Tem como objetivo medir o grau de associação entre duas variáveis qualitativas e é obtido a partir de:
	
Ex. Uma empresa automobilística deseja verificar a existência de associação entre a dimensão do carro e o sexo. Para isso, analisou as vendas registradas em dois últimos meses, através da distribuição conjunta:
	Tamanho do Carro
	SEXO
	
	Feminino
	Masculino
	Total
	Pequeno
	200 (71%)
	40 (33%)
	240 (60%)
	Médio
	80 (29%)
	80 (67%)
	160 (40%)
	Total
	280 (100%) 
	120 (100%)
	400 (100%)
Comparando a distribuição das proporções do tamanho dos carros, independente do sexo, com as distribuições diferenciadas por sexo, observamos uma disparidade bem acentuada nas proporções. Assim parece haver uma maior concentração de mulheres que preferem o carro pequeno, enquanto os homens optaram pelos carros médios. Não havendo dependência entre as variáveis, esperaríamos as mesmas proporções para homem e mulher. Neste caso, as variáveis sexo e tamanho do carro parecem ser dependentes. Para verificar se estas diferenças são estatisticamente significativas se realiza o teste de independência, onde as freqüências esperadas são os valores constantes na tabela a seguir:
Tabela dos valores esperados:
	Tamanho do Carro
	SEXO
	
	Feminino
	Masculino
	Total
	Pequeno
	168
	72
	240
	Médio
	112
	48
	160
	Total
	280
	120
	400
Caso houvesse independência esperaríamos que ambos (homem e mulher) comprassem 40% dos carros médios e 60% dos carros pequenos. Então, o número esperado de carros pequenos vendidos para as mulheres seria de 280*0,6 = 168 e homens 120*0,6 = 72.
Logo, 
. Como 
, o teste rejeita a hipótese nula, evidenciando associação entre o tamanho do carro e o sexo.
	Comprovada a existência de associação entre as variáveis, mede-se o grau de associação entre as variáveis, de modo que possamos prever melhor o resultado de uma delas quando conhecemos a realização da outra. Entre as medidas existentes que quantificam a dependência entre variáveis qualitativas, iremos conhecer o coeficiente de contingência “C”, cujo valor varia de zero até um, onde a proximidade do zero indica total independência. Calculando o valor de C, temos
 
. Então, 0,34 indica o grau de dependência entre as variáveis.
 
II.	ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS
DIAGRAMA DE DISPERSÃO
É um procedimento gráfico utilizado para se verificar a associação entre variáveis quantitativas.
Ex1. Levantamento realizado para analisar o tempo na atividade dos corretores e nº de imóveis vendidos por uma imobiliária, estão relacionados a seguir:
	Anos de Serviço
	Vendas
	 2
	 48
	 4
	 56
	 5
	 64
	 6
	 60
	 8
	 72
Através da disposição dos dados, observamos que parece haver uma dependência entre as variáveis, pois à medida que aumenta o tempo de experiência eleva o número de imóveis vendidos.
Ex2. Pesquisa feita com 15 famílias de renda bruta mensal entre oito e vinte salários mínimos e o percentual de gastos com assistência médica.
	Renda (s.m.)
	8,00
	9,00
	9,50
	10,00
	10,20
	11,80
	12,00
	12,50
	13,00
	13,40
	14,00
	15,00
	17,00
	18,50
	20,00
	%
	10,00
	8,50
	8,00
	7,60
	7,40
	7,20
	7,00
	7,50
	6,50
	6,30
	6,10
	5,80
	5,50
	5,00
	5,20
Observando o gráfico de dispersão, temos que à medida que se aumenta a renda, diminui a proporção dos gastos com assistência médica.
COEFICIENTE DE CORRELAÇÃO
	Dos exemplos apresentados, verificamos que a representação gráfica das variáveis quantitativas ajuda a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associabilidade.
	Visualizado a existência de relação, se faz necessário quantificar essa associabilidade. Existem muitos tipos de associação possíveis, e neste momento iremos apresentar a relação linear. Ou seja, iremos definir uma medida que irá dizer o quanto a nuvem de pontos do gráfico de dispersão aproxima-se de uma reta. Como no caso das variáveis qualitativas, essa medida assumirá7 valores entre –1 e 1.
Coeficiente de Correlação da amostra  
Coeficiente de Correlação da população  
.
Para os exemplos acima observamos r = 0,95 para a 1ª situação e r= -0,92 no 2º exemplo. Daí tem-se que o grau de associabilidade entre tempo de experiência e venda é positivo e de 95%, enquanto a relação entre renda e gastos com assistência médica é de 92% e esta correlação é negativa. Estes valores foram obtidos acessando no excel 
 em seguida seleciona-se na “categoria da função – Estatística” e “nome da função – correl” e por último informar os valores de x e y correspondente, para se obter o coeficiente de correlação.
ANÁLISE DE REGRESSÃO
INTRODUÇÃO
	Observamos que baseado no diagrama de dispersão, conseguiremos visualizar a existência ou não, de relação entre duas variáveis. Identificada a existência desta relação, podemos através do coeficiente de correlação medir o seu grau de relacionamento, porém se faz necessário que se estabeleça um modelo que interprete a relação funcional existente entre as variáveis.
Para se atingir tal objetivo, teremos como instrumento a análise de regressão, que se constituí num conjunto de métodos e técnicas para o estabelecimento de fórmulas empíricas que interpretem esta relação com boa aproximação. 
 
MODELO DE REGRESSÃO
	Suponhamos que Y seja uma variável que desejamos estudar e prever seu comportamento. É de se esperar que a variável Y (dependente) sofra influência das variáveis: 
(independentes) e que exista uma função “g” que expressa tal dependência, ou seja:
Ocorre, porém que dentre estas variáveis listadas existe algumas que sua relação não é forte, ou não exercemos controle sobre elas. Portanto, utiliza-se um número menor de variáveis (k), e o modelo será:
Todas as influencias das variáveis 
 sobre as quais não exercemos controle, serão consideradas casuais, e associaremos uma variável aleatória , obtendo o seguinte modelo de regressão: 
, onde 
 será a componente funcional do modelo e  a parte aleatória. 
MODELO DE REGRESSÃO LINEAR SIMPLES
Quando a função que relaciona as variáveis é do tipo 
, temos o modelo de regressão linear simples: 
.
	Como vemos o valor de Y é formado pelos componentes funcional, que representa a influência de X sobre Y e o aleatório  representando a influência de outros fatores. 
	Ao utilizarmos este modelo, se faz necessário estimarmos os parâmetros  e . Nesse caso, designaremos por “a” e “b” os estimadores de  e , respectivamente. A partir da amostra de “n” pares de observações, obteremos as estimativas de “a” e “b” e, dessa forma, a estimativa do modelo através da fórmula: 
.
Exercício:
Verificamos pormeio do diagrama de dispersão a existência de relação e em seguida medimos este grau de relacionamento entre as variáveis: experiência de trabalho e as vendas realizadas, bem como a proporção dos gastos realizados com assistência médica e a renda. Iremos agora obter a função que explicará este relacionamento.
Equação que explica o relacionamento entre tempo de trabalho e as vendas. → 
Equação da proporção dos gastos com assistência médica e a renda. → 
COEFICIENTE DE DETERMINAÇÃO OU EXPLICAÇÃO
 É uma medida de ajustamento de um modelo estatístico, em relação aos valores observados. O R2 varia entre 0 e 1, indicado em percentagem, o quanto o modelo consegue explicar a relação entre as variáveis.
ANÁLISE DOS RESÍDUOS
Tanto na Regressão Linear Simples quanto na Regressão Múltipla, as suposições do modelo ajustado precisam ser validadas para que os resultados sejam confiáveis. Chamamos de Análise dos Resíduos um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos resíduos. Como visto anteriormente, o resíduo � é dado pela diferença entre a variável resposta observada � e a variável resposta estimada � , isto é
�
�
T
	� 
	
A ideia básica da análise dos resíduos é que, se o modelo for apropriado, os resíduos devem refletir as propriedades impostas pelo termo de erro do modelo. Tais suposições são
	� 
	
em que � com
i. � e � são independentes � ;
ii. � (constante);
iii. � (normalidade);
iv. Modelo é linear;
v. Não existir outliers (pontos atípicos) influentes.
 
Na Regressão Múltipla, além das suposições listadas acima, precisamos diagnosticar colinearidade e multicolinearidade entre as variáveis de entrada para que a relação existente entre elas não interfira nos resultados, causando inferências errôneas ou pouco confiáveis. 
As técnicas utilizadas para verificar as suposições descritas acima podem ser informais (como gráficos) ou formais (como testes). As técnicas gráficas, por serem visuais, podem ser subjetivas e por isso técnicas formais são mais indicadas para a tomada de decisão. O ideal é combinar as técnicas disponíveis, tanto formais quanto informais, para o diagnóstico de problemas nas suposições do modelo.
Algumas técnicas gráficas para análise dos resíduos são: 
Gráfico dos resíduos versus valores ajustados: verifica a homoscedasticidade do modelo, isto é, σ2 constante. 
Gráfico dos resíduos versus a ordem de coleta dos dados: avaliar a hipótese de independência dos dados. 
Papel de probabilidade normal: verificar a  normalidade dos dados. Ver detalhes em Papel de Probabilidade no conteúdo de Inferência. 
Gráfico dos Resíduos Studentizados versus valores ajustados: verifica se existem outliers em Y. 
Gráfico dos Resíduos Padronizados versus valores ajustados: verifica se existem outliers em Y. 
Gráfico do Leverage (Diagonal da Matriz H): verifica se existem outliers em X. 
Para a análise formal dos resíduos, podemos realizar os seguintes testes:
Testes  de Normalidade em que detalhes estão contidos no conteúdo de Inferência. 
Teste de Durbin-Watson para testar independência dos resíduos. 
Teste de Breusch-Pagan e Goldfeld-Quandt para testar se os resíduos são homoscedásticos. 
Teste de falta de ajuste para verificar se o modelo ajustado é realmente linear.�
�
�
_277666124.unknown
_277666444.unknown
_277666764.unknown
_277667404.unknown
_277667084.unknown
_140186916.unknown
_277664204.unknown
_277663884.unknown
_176676424.unknown
_277409028.xls
Gráf2
		10
		8.5
		8
		7.6
		7.4
		7.2
		7
		7.5
		6.5
		6.3
		6.1
		5.8
		5.5
		5
		5.2
%
Salário mínimo
%
Proporção dos gastos com assistência médica em relação a renda - fev/2004
Plan1
		
		Renda (s.m.)		%
		* 8.0		* 10.0
		* 9.0		* 8.5
		* 9.5		* 8.0
		* 10.0		* 7.6
		* 10.2		* 7.4
		* 11.8		* 7.2
		* 12.0		* 7.0						Renda (s.m.)		8.00		9.00		9.50		10.00		10.20		11.80		12.00		12.50		13.00		13.40		14.00		15.00		17.00		18.50		20.00
		* 12.5		* 7.5						%		10.00		8.50		8.00		7.60		7.40		7.20		7.00		7.50		6.50		6.30		6.10		5.80		5.50		5.00		5.20
		* 12.9		* 6.7
		* 13.0		* 6.5
		* 13.4		* 6.3
		* 14.0		* 6.1
		* 15.0		* 5.8
		* 17.0		* 5.5
		* 18.5		* 5.0
		* 20.0		* 5.2
Plan1
		0
		0
		0
		0
		0
		0
		0
		0
		0
		0
		0
		0
		0
		0
		0
%
Salário mínimo
%
Proporção dos gastos com assistência médica em relação a renda - fev/2004
Plan2
		
Plan3
		
_277408068.unknown
_277147792.unknown
_277148112.unknown
_277148752.unknown
_277149072.unknown
_277149712.unknown
_277150032.unknown
_277150352.unknown
_277150672.unknown
_277148432.unknown
_176676104.unknown
_176675464.unknown
_176675144.unknown
_176674824.unknown
_176674504.unknown
_176674184.unknown
_176673864.unknown
_176673544.unknown
_176673224.unknown
_176672904.unknown

Outros materiais