Buscar

Capítulo 14 Regressao multipla

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

�PAGE �
�PAGE �21�
Capítulo 14. Regressão linear múltipla 
14.1 Introdução 
14.2 Comentários sobre as variáveis na equação de regressão.
14.3 Regressão múltipla em termos matriciais. 
14.4 Os coeficientes de regressão como valores padronizados e percentagens 
14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão
14.6 Comparando R2 entre equações de tamanhos diferentes.
14.7 R2 Ajustado.
14.8 ANOVA para testar a significância da equação inteira: teste F. 
14.9 Teste de hipotese para os coeficientes individuais.
14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade
14.11 Exemplo com as variáveis binárias. 
14.12 Multicolinearidade
14.13 Questões e exercícios. 
14.14 Referências
Lista de tabelas
Tabela 14.1. - As dimensões das matrizes no estimador de b.
Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios. 
Tabela 14.3 – A matriz de dados X
Tabela 14.4 – Os coeficientes e as várias maneiras de calcular a força de relacionamento. 
Tabela 14.5 –R2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002)
Tabela 14.6 – ANOVA, Estatística F e valor p
Tabela 14.7 – Teste de hipótese para coeficientes individuais. 
Tabela 14.8 - Variáveis binárias para Sazonalidade.
Tabela 14.9 – Vendas semanais e vendas acumuladas na estação, T = 104
Tabela 14.10 – A matriz X de dados da regressão para as primeiras 9 semanas de 2005
Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis
Tabela 14.12 – Teste F
Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas
Tabela 14.14 – Teste F, D2006 excluída
Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída
Tabela 14.16 – Previsões das vendas na segunda metade da estação de 2008
14.1 Introdução 
No capítulo anterior sobre regressão simples, foram apresentados os procedimentos sugeridos para a estimação de equações em apenas duas variáveis, a dependente e a independente. Embora relações simples em duas variáveis sejam raras na prática, a apresentação serve para mostrar os elementos básicos estatísticos da área. Neste capítulo, vamos iniciar nossa entrada no reino da realidade. As equações permitidas e analisadas pulam para outro nível de complexidade e qualidade. No ambiente de múltiplas possibilidades na escolha de variáveis independentes, é importante considerar como a seleção de variáveis deve proceder, para que variáveis irrelevantes são eliminadas da equação, e variáveis relevantes sejam incluídas. 
A equação de Regressão múltipla proporciona que o lado direito da equação está aberto para receber qualquer número de variáveis independentes. Na forma dinâmica para séries temporais, assunto do próximo capítulo, essas variáveis podem se caracterizar por defasagens no tempo. Mas Desde que este capítulo é apenas uma introdução à regressão múltipla, a parte da análise sobre as defasagens nas variáveis será comentado no capítulo 15. Contudo, neste capítulo vamos apresentar a equação de regressão na seguinte forma estática, sem considerar o aspecto de tempo:
Y = a + b1X1 + b2X2 + b3X3 +... + eNID(0,σe)
Na equação, foram colocadas explicitamente somente três variáveis independentes (X1,X2,X3) como fonte de explicação da variável dependente Y, mas claramente mais variáveis independentes podem ser colocadas se for o caso, e se os graus de liberdade (número de dados observados – número de coeficientes estimados) não sofrem uma queda desproporcionada. Finalmente, a última expressão na equação é o erro, que deve ser NID(0,σe), quer dizer, distribuído Normalmente, e os erros devem ser Independentes entre si (erros não devem ser auto correlacionados), com média zero e desvio padrão constante σe. 
14.2 Comentários sobre as variáveis na equação de regressão.
Quais tipos de variáveis podemos usar para Y e X? Como já vimos no capítulo anterior, a variável dependente é a fonte do erro da regressão, Y também terá que ser uma variável aleatória e contínua. Na prática, isso quer dizer que a variável Y não deve sofrer restrições sobre seus possíveis valores, mas sim tem potencial de assumir valores longe da média, 4 ou 5 desvios padrão da média em geral são suficientes. Esta característica vai garantir que a distribuição de Y é simétrica, um requisito estatístico da distribuição normal para simplificar os procedimentos matemáticos e assegurar coeficientes não enviesados, quer dizer, boas estimativas próximas aos valores existentes na grande população desconhecida. Na prática, a variável não precisa ser estreitamente contínua, mas sim se for um número de contagem como 0,1,2,3,5, etc., então teria que ter amostras grandes, maiores que 150 observações para avaliar o formato do histograma e verificar normalidade. Quando Y for severamente assimétrica e discreta com poucos valores, a matemática exigida pelos procedimentos de regressão será de uma complicação maior e procedimentos na área de regressão linear e não linear generalizada terão que ser utilizados, fora do alcance neste livro.� De qualquer maneira, o pesquisador experiente e criativo saberia trabalhar com essas características restritivas do Y e fazer bons trabalhos em regressão com os procedimentos mais simples deste livro.
Enquanto Y é restrita na sua forma por exigências estatísticas, os valores de X são praticamente livres de restrições, assumindo valores contínuos ou discretos. Os números binários 0 e 1 serão utilizados para diferenciar qualidades não necessariamente mensuráveis como homem/mulher ou americano/iraquiano. Uma seqüência temporal (1,2,3,4...) podem refletir tendência nos dados ou algum tipo de sazonalidade. A discussão sobre essas variáveis fica na seção 14.10. 
Os procedimentos de Capítulo 16 sobre o planejamento de experimentos também se baseia na teoria de regressão linear múltipla. 
14.3 Regressão múltipla em termos matriciais. 
Vamos repetir a equação de regressão múltipla, já vista em cima, com T observações em três variáveis para cada conjunto de dados observado. 
Y1 = a + b1X1,1 + b2X1,2 + e1NID(0,σe)
Y2 = a + b1X2,1 + b2X2,2 + e2NID(0,σe)
Y3 = a + b1X3,1 + b2X3,2 + e3NID(0,σe)
...
...
YT = a + b1XT,1 + b2XT,2 + eTNID(0,σe)
onde Y1, Y2, Y3, … YT são todos os valores observados de Yt, e, similarmente, X1,1, X2,1, X3,1, ... XT,1 são os T valores observados de Xt,1 e, finalmente, X1,2, X2,2, X3,2, ... XT,2 são os valores observados de Xt,2. Ha uma grande economia de espaço se as T equações forem escritos em termos matriciais:
Y = Xb + e
com Y vetor coluna com todos os T valores de Yt, e X é uma matriz de variáveis independentes onde a primeira coluna é de valores unitários para estimar o intercepto (a) e as outras colunas são as variáveis Xt,1 e Xt,2:
O vetor coluna e contem os T erros, e o vetor coluna b contem os 3 coeficientes (a, b1 e b2). Seguindo a mesma metodologia de regressão simples, minimizando a soma dos erros quadrados (min e´e) e desenvolvendo as equações resultam em estimadores para os três coeficientes:
onde X´ é a matriz transposta e ()-1 significa a inversa da matriz. É sempre boa idéia checar a consistência das linhas e colunas das matrizes na expressão multiplicativa em cima. Por inspeção é fácil ver que o resultado dos coeficientes estimados é consistente com as dimensões das matrizes (tabela 14.1). È fácil ver que as dimensões são consistentes e, portanto, as multiplicações para desenvolver a expressão para o estimador de b são viáveis. É interessante entender o significado e o poder de explicação originando das manipulações matriciais da equação. Várias variáveis e inúmeras observações para cada variável sofrem as manipulações apropriadas e o resultado é condensado em uma relação de poucos coeficientes. Embora a relação entre os números originais fosse incompreensível na forma de tabelas ou gráficos, com a ajudados poucos coeficientes estimados por regressão múltipla o pesquisador revela possíveis ligações entre as variáveis. 
	Matriz
	Dimensão
	b
	3 x 1
	X
	T x 3
	Y
	T x 1
	e
	T x 1
Tabela 14.1 - As dimensões das matrizes no estimador de b.
Vamos logo para um exemplo. Considere os dados na tabela 14.2. São de um experimento industrial feito para testar o efeito de duas variáveis no peso (gramas) do produto. Uma variável é a temperatura (temp) da autoclave em graus Celsius e a outra variável é a composição química (CQ) medida como uma percentagem que satura o produto antes de entrar na autoclave. As temperaturas variam em 4 níveis (100,110,120,130), e a composição química em 3 níveis (0,04; 0,02; 0,38), 12 é o número de combinações possíveis, cada uma dando uma resposta diferente em peso. Estes dados serão considerados também no capitulo 16 sobre planejamento de experimentos.
	Ensaio
	Resposta peso (Y)
	Temperatura (temp)
	Composição química % (CQ)
	1
	67,1
	100
	4
	2
	64
	110
	4
	3
	44,3
	120
	4
	4
	45,1
	130
	4
	5
	69,8
	100
	20
	6
	58,5
	110
	20
	7
	46,3
	120
	20
	8
	44,1
	130
	20
	9
	74,5
	100
	38
	10
	60,7
	110
	38
	11
	49,1
	120
	38
	12
	47,6
	130
	38
Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios.
A matriz X dos dados tem o seguinte formato:
	
	Temperatura (temp)
	Composição química % (CQ)
	1
	100
	4
	1
	110
	4
	1
	120
	4
	1
	130
	4
	1
	100
	20
	1
	110
	20
	1
	120
	20
	1
	130
	20
	1
	100
	38
	1
	110
	38
	1
	120
	38
	1
	130
	38
Tabela 14.3 – A matriz de dados X
A primeira coluna de X é necessária para estimar o valor do intercepto (interseção)�. Para os dados da tabela 14.2 e 14.3, a multiplicação matricial resulta em 
ou podemos reescrever a equação de regressão na sua forma mais explicita: 
peso = 156,61 - 0,89temp + 0,086CQ + e
Os coeficientes estimados medem o impacto (força) de uma variação na variável independente na variável resposta. O coeficiente de valor - 0,89 significa que uma variação de temperatura de 1 grau causa uma queda no peso de – 0,89 gramas. Sendo a variável CQ uma percentagem, o coeficiente significa que uma alteração de um ponto percentual aumenta o peso em 0,086gramas. As variâncias e covariâncias dos coeficientes 
 também podem ser expressas em forma matricial:
	151,253
	-1,276
	-14,865
	-1,276
	0,011
	-2,4E-15
	-14,865
	-1,3E-15
	71,930
onde se é o desvio padrão dos erros (erro padrão). No caso aqui de duas variáveis independentes e o intercepto, a matriz de variâncias e covariâncias tem nove elementos: três variâncias no diagonal 
e seis covariâncias fora do diagonal, e sendo matriz simétrica, há três covariâncias distintas entre os três coeficientes. A matriz de variâncias e covariâncias é utilizada para testes de hipótese, para indicar se a regressão estimada demonstra relações significantes entre as variáveis, e se cada coeficiente de regressão é significantemente diferente de zero ou não. 
14.4 Os coeficientes de regressão como valores padronizados e percentagens 
Mesmo que a interpretação do coeficiente seja bastante intuitiva e útil, existem pelo menos duas outras maneiras de apresentar o resultado do relacionamento entre variáveis, apropriadas em situações diversas, ou como percentuais ou como coeficientes padronizados. A vantagem de converter os coeficientes em percentagens ou valores padronizados é que o coeficiente deixa de ser dependente da unidade de medida. Quando o coeficiente depende da unidade de medida das variáveis, a interpretação do coeficiente pode ficar mais difícil. No exemplo dos dados da tabela 14.2, peso medido em quilos ou libras altera o valor do coeficiente, dificultando a análise da força da relação. 
Para converter O valor do coeficiente em variação percentual, O engenheiro e economista utilizam um conceito chamado de elasticidade (ElasYX). A variação percentual de uma variável causada pela variação percentual em outra pode ser escrita assim, 
, onde o coeficiente estimado é multiplicado pela razão entre as médias. Com os dados apresentados na tabela 14.3, para o coeficiente de temperatura, a elasticidade é
ElasYX = - 0,89*115/55,925 = -1,83.
Uma variação de temperatura de um por cento causa um declínio no peso de 1,83 por cento. Agora nota-se que não há referencia ás unidades de medida. Até mesmo peso medido em libras ou onças e temperatura medida em graus Kelvin, a validade do coeficiente em percentagem continua. 
Em outras situações pode ser conveniente converter (padronizar) o coeficiente em termos de desvios padrão. Muitos pesquisadores preferem esta conversão. Este tipo de coeficiente leva em conta diretamente a variabilidade das duas variáveis. Matematicamente muito parecido com a elasticidade, o coeficiente beta é definido assim, 
, onde o coeficiente estimado é multiplicado pela razão dos dois desvios padrão. Para o coeficiente de temperatura a conversão para desvio padrão leva 
betaYX = -0,89*11,677/11,109 = -0,936.
A interpretação é que se a temperatura variar em um desvio padrão, vai haver uma variação de 0,936 desvio padrão no peso. Na tabela 14.4, temos um resumo dos resultados do exemplo. Nota-se que a conversão do coeficiente da composição química revela uma causalidade relativamente fraca entre as duas variáveis. A elasticidade é um pouco mais que 0,03, o que quer dizer se a composição química for dobrar (aumento de 100%), o peso iria aumentar em apenas 3%. Analisando o valor do coeficiente beta de 0,112 oferece percepção semelhante, que uma variação de um desvio padrão em composição química levaria apenas uma variação de peso em 0,112 desvio padrão. 
	
	Média
	Desvio padrão
	Coeficiente original
	elasYX
	Coeficiente beta
	Interseção
	
	
	156,62
	
	
	Temperatura
	115
	11,677
	-0,89
	-1,832
	-0,936
	Composição química
	20,6
	14,5
	0,0859
	0,0317
	0,112
	Y = Peso
	55,925
	11,109
	
	
	
Tabela 14.4 – Os coeficientes e as várias maneiras de calcular a força de relacionamento.
14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão
Muitas dessas suposições já foram mencionadas neste capítulo ou no capítulo anterior de regressão simples, mas nesta seção são mais bem organizadas em um único lugar e melhor elaboradas. Quase todas as suposições são colocadas em termos teóricos de valor esperado, nada mais do que o valor de convergência de um estimador em amostras cada vez maiores. Violações das suposições causam uma falha na representatividade dos estimadores no sentido de que valores estimados podem se desviar sistematicamente dos valores corretos. É necessário averiguar nos dados e nas relações entre dados a subordinação às suposições, e na presença de transgressões, as medidas cabíveis terão que ser tomadas. 
1. Erro de regressão não enviesado. O valor esperado do erro é igual a zero. E(e) = 0. Já vimos isso em capítulos anteriores. Se o erro não for zero então os procedimentos estão criando um viés permanente desnecessário, e faltam justamente monitoramento e aprendizagem no processo de estimação. 
2. Homocedasticidade. O valor esperado da variância do erro de regressão, é constante. E(e2) = constante = (e2. Veja Figura 13.7 (Erros residuais para o modelo inversa de volume). Se isso não for verdadeiro então os testes de hipótese nos coeficientes e nos intervalos de confiança podem sofrer de estimativas erradas, e, portanto a relevância das estimativas não é verificável. 
3. Independência. Entre erros separados por uma defasagem constante, não deve existir nenhum relacionamento, em outras palavras, a auto-covariância (auto-correlação) entre erros é zero. Erros são independentes um do outro. COV(et,et-j) = 0: Pode-se falar tecnicamente que entre erros não é permitida auto-correlação.
Estas primeiras três suposições em muitostextos são colocadas em uma única palavra: os erros de regressão têm que ser esféricos. Esta palavra dá a idéia de aleatoriedade na nuvem de dados, sem padrão, mas sem distorções. 
4. Normalidade. Os erros de regressão seguem a distribuição normal. et ( N(0, (e). Esta suposição não é absolutamente necessária porque, em determinados casos, outras distribuições são apropriadas, como a Poisson ou a exponencial só para falar em duas alternativas. No entanto, na grande maioria das pesquisas, a distribuição normal é a mais apropriada e funciona bem. 
1, 2, 3 e 4 Resumidas. Podemos apresentar a seguinte expressão
et = NID(0, (e2I)
como um sumário das 4 primeiras suposições. A expressão (e2I significa uma multiplicação entre a matriz de identidade I e a variância dos erros. A expressão resultante tem todos os elementos na diagonal idênticos (variâncias idênticas) e fora do diagonal, o lugar das covariâncias, os elementos são iguais a zero, indicando independência entre erros. Quando os elementos na diagonal são desiguais, então temos o problema de heterocedastidade, e se houver elementos não nulos fora da diagonal, então há um problema de auto correlação e portanto dependência nos erros. Na presença destas duas violações das suposições 2. e 3., a análise da significância dos coeficientes é inviabilizada. O procedimento de mínimos quadrados sob a suposição de erros esféricos é chamado de mínimos quadrados ordinários (MQO), o assunto dos capítulos do livro sobre regressão; e sob a suposição de erros não esféricos é mínimos quadrados generalizados (MQG). Essa segunda área de regressão mais avançada não será abordada nesse livro. 
5. Seguindo a idéia de que os erros têm de ser independentes, isso também significa que não deve existir nenhuma relação entre os erros e as variáveis independentes, ou seja, covariancias entre os erros e as variáveis podem ser calculadas e devem ser nulas: cov(et,X) = 0. Esse tipo de independência nos erros pode ser avaliado graficamente em diagramas de dispersão de XY, como foi feito no último capítulo na seção 13.7 (Normalidade, independência e a constância da variância dos erros residuais). Quase todos os pacotes de software para regressão fazem esse tipo de avaliação gráfica. 
6. Multicolinearidade. Não é permitido relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0. Relacionamento entre variáveis independentes é chamado de multicolinearidade, e resulta em variâncias inflacionadas, artificialmente maiores que as verdadeiras, que inviabiliza a análise da significância dos coeficientes. Para resolver esse problema, uma das variáveis correlacionadas é eliminada, ou é construído um índice combinando as duas ou mais variáveis. Há um exemplo típico de multicolinearidade sobre uma loja de sapatos querendo explicar lucro como função de tipos de sapatos vendidos. Só que no lado direito da equação, o consultor considerou como variáveis distintas vendas de sapatos do pé direito e sapatos do pé esquerdo. Os coeficientes não demonstraram significância em função das variâncias extremamente grandes e o consultor concluiu ingenuamente seguindo os resultados estatísticos enviesados da regressão que a venda de sapatos não afetava o lucro da loja.
7. Linearidade. Fica claro a partir da própria equação que nós estamos supondo uma relação linear entre as variáveis. No entanto, é uma relação intrinsecamente linear, pois se for necessário pode transformar uma variável antes de ela entrar na equação, produzindo assim relações não lineares entre as variáveis originais. Transformações comuns são a logarítmica, inversa, exponencial, o produto de duas variáveis independentes, entre muitas outras. 
14.6 Comparando R2 entre equações de tamanhos diferentes.
No capítulo 13 sobre regressão simples, foi introduzida uma medida de adesão ou representatividade da reta estimada frente às observações chamada de R2, o coeficiente de determinação. Veja seção 13.5 (Coeficiente de determinação - R2.). No contexto de regressão múltipla, esta medida se caracteriza por uma grande desvantagem especialmente quando utilizada para comparar uma equação contra outra: o valor de R2 é diretamente relacionado ao número de variáveis na equação. Quer dizer, cada vez que se acrescentam mais uma variável na equação, o valor de R2 sempre aumenta, mesmo se tratando de variáveis irrelevantes na explicação de Y. A seguir, apresentaremos uma rápida demonstração desta característica de R2, mesmo fugindo do propósito do livro de evitar a matemática aprofundada, na luz da popularidade da medida e, por sinal, o seu mal-uso. 
Colocar duas equações para comparar, destacando o erro residual como função dos coeficientes. Nota-se que a primeira equação tem uma variável independente a mais X2:
1a. equação: e(a, b1, b2) = Y - a + b1X1 + b2X2 
2a. equação: e(a, b1) = Y - a + b1X1 
Vamos mostrar que o erro da primeira equação é sempre menor que o erro da segunda equação (e portanto R2 maior), até mesmo com qualquer variável X2 relevante ou não para explicar Y. Como ponto de referencia, na primeira equação vamos estimar a, b1, b2 por mínimos quadrados, MIN((e(a,b1,b2))2 que resulta em SQE(
) minimizados. Os valores estimados (
) são valores únicos otimizados, sendo valores que resultam da minimização dos erros quadrados. Quaisquer outros valores para a, b1, b2 (não otimizados) necessariamente correspondem ao valor de SQE(a, b1, b2) maior, não minimizada. Por exemplo, fazendo b2 = 0 fica claro que a SQE(a, b1, 0) deve ser maior que SQE(
).
SQE(
) ≤ SQE(a, b1, 0) 
Deve ser claro que a segunda SQE com b2 = 0 é que pertence à segunda equação contando com uma variável a menos, (2a. equação: e(a, b1) = Y - a + b1X1 ). Conseqüentemente, será sempre o caso do coeficiente de determinação da primeira equação, R2(
), ser maior que o coeficiente R2 da segunda equação, R2(a, b1, 0), independentemente da relevância da nova variável X2 incluída. Conseqüentemente uma maneira enganadora e desonesta de conseguir um R2 alto para agradar o gerente do setor é através de equações recheadas com muitas variáveis, e nem precisam ser variáveis relevantes para explicar Y. 
Na próxima seção, vamos corrigir esta falha do R2 e apresentar o R2 ajustado. 
14.7 R2 Ajustado.
Como demonstrado acima, cada vez que uma nova variável é acrescentada à equação de regressão, o valor de R2 aumenta pondo em duvida a sua utilidade como medida de adesão. A solução para esse problema é o R2 ajustado, corrigido pelos graus de liberdade, definido assim: 
onde (T–1) são graus de liberdade associados a SQT, e (T – k -1) são os graus de liberdade associados a SQE, onde k é o número de variáveis independentes. Por causa da inclusão do parâmetro k na medida, com impacto negativo se for aumentado, o R2 ajustado não necessariamente aumenta se o número de variáveis inclusas na equação aumentarem. É interessante notar que SQT / T-1 é a variância de Y e, similarmente, SQE / T-k-1 é a variância do erro de regressão. Então, podemos reescrever a equação como:
ou na sua forma amostral
Desde que R2 ajustado é inversamente relacionado com a variância do erro de regressão
, na avaliação de uma equação em relação à outra, o pesquisador poderia usar qualquer uma das medidas de adesão, o R2 ajustado ou a variância do erro de regressão 
e necessariamente chega as mesmas conclusões. Deve-se sempre procurar aumentar o R2 ajustado, ou diminuir a variância dos erros, que é a mesma coisa, validando assim a inclusão de uma nova variável na equação. No entanto, muitos pesquisadores preferem usar o R2 não ajustado porque ele tem um apelo intuitivo na sua amplitude variando entre zero e um. Acham e muitas vezes são enganados, que um valor próximo à unidade garante uma equação adequada e, infelizmente, como vimos acima, não é necessariamente o caso. Alguns pesquisadores utilizam somente a variância do erro de regressão 
(o erro padrão) para medir a representatividade da regressão frente aos erros residuais, pelasimplicidade e consistência. 
Para completar esta seção, colocamos a relação entre o R2 ajustado e o tradicional R2. Fica claro que a transformação de R2 em R2 ajustado é uma operação aritmética muito simples. 
Com os dados da tabela 14.2, o R2 foi calculado para a equação de regressão com as duas variáveis independentes temp e CQ, e o resultado foi R2 = 0,89 e R2aj = 0,865. Veja um resumo dos resultados na tabela 14.5. Por outro lado, a equação de regressão foi estimada com uma única variável independente, a temperatura e o resultado foi R2 = 0,877 e R2aj = 0,865. Como esperado, o valor de R2 é menor em função do menor número de variáveis independentes. O pesquisador desprevenido escolheria a equação com duas variáveis independentes como a melhor, mas provavelmente se engana. Por sinal, o R2aj é constante entre as duas equações, indicando o efeito fraco ou não existente da variável composição química CQ já verificado anteriormente. Na tabela podemos ver que o resultado do erro padrão favorece a equação com duas variáveis, mas o favorecimento é mínimo e questionável, avaliando a pequena diferença entre as duas medidas. A tomada de decisão baseada em evidencias tão fracas é insustentável. O pesquisador precisa investigar mais a situação, levantar dados novos e buscar conclusões contundentes. 
	
	temp e CQ
	somente temp
	R2
	0,890
	0,877
	R2 aj
	0,865
	0,865
	Erro padrão 
	4,080
	4,086
	Observações (n)
	12
	12
Tabela 14.5 –R2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002)�
14.8 ANOVA para testar a significância da equação inteira: teste F. 
O primeiro e mais básico teste de hipótese que deve ser executado para averiguar o grau de veracidade das estimativas é um teste com a estatística F sobre todas as estimativas simultaneamente. Esse tópico foi tratado na seção 13.10 (Teste de hipótese da representatividade da equação como um todo, a estatística F). Contudo, o teste F é mais bem explicado no contexto de regressão múltipla. Suponha que o modelo de regressão é o seguinte, com 3 variáveis independentes:
Y = a + b1X1 + b2X2 + b3X3 + e
Na linguagem de teste de hipóteses, as hipóteses nula e alternativa são: 
H0: b1 = b2 = b3 = 0
H1: não há igualdade a zero
A hipótese nula é muito abrangente e essencial para a continuação da pesquisa. O pesquisador que não tem condições de rejeitar a hipótese nula de todos os coeficientes nulos, está na linha de pesquisa errada. Sem evidências que algum coeficiente é não nulo significa que a equação de regressão proposta não consegue explicar absolutamente nada. Nota-se que se Ho for rejeitada, algo na equação é significante, mas ainda não sabemos qual ou quais coeficientes são os relevantes. Sabemos apenas que pelo menos algum coeficiente é estatisticamente importante. Esse teste de hipotese depende dos valores de SQR e SQE. Lembremo-nos de um resultado anterior em regressão simples, e que indiretamente já foi utilizado neste capítulo na seção sobre o R2 ajustado (14.7):
SQT = SQR + SQE
Da seção anterior, vimos que SQT tem graus de liberdade = T – 1. Vimos também que SQE tem graus de liberdade = T – k – 1. Por subtração, SQR tem grau de liberdade = (T – 1) – (T – k – 1) = k, o número de variáveis independentes. Com estas informações, podemos calcular a estatística F(k,T – k - 1) para testar a hipótese nula acima. A estatística F é calculada com a seguinte expressão:
F(k, T – k – 1) = (SQR/k) / (SQE/(T – k – 1) )
ou em outra forma:
F(k, T – k - 1) = ((SQT –SQE)/k) / (SQE/(T – k – 1) )
O nível de significância α normalmente escolhido é de 5% ou 1%, mas de qualquer maneira o valor de F é associado a um valor p, a area da cauda da distribuição. É fácil encontrar tabelas da distribuição de F e os valores p. O resultado desse teste de hipótese nos pacotes computacionais vem sempre em forma de tabela, e é chamado de análise de variância – ANOVA. Quando o SQT é muito próximo a SQE, o valor de F(k,T – k – 1) é muito baixo aproximando-se a zero. Significa que as estimativas da equação não valem muita coisa. No final, os erros da regressão (SQE) sendo quase iguais aos erros totais (SQT) expressam bem o caso de uma equação de regressão que não consegue explicar melhor a variável dependente do que a própria média de Y. Portanto, as estimativas dos coeficientes são não significantes. Nesse caso, Ho não pode ser rejeitada e o pesquisador deve encontrar outra linha de pesquisa. Nota-se que o SQT implicitamente contem a suposição de que b1 = b2 = b3 = 0.�
Vamos voltar para os dados da tabela 14.2 e calcular o valor de F(k=2, T-k-1=9) da regressão. Os resultados numéricos podem ser organizados na seguinte maneira, 
	
	
	
	
	
	
	 
	gl
	SQ
	MQ
	F
	valor - p
	Regressão
	k = 2
	1207,9
	603,9
	36,27
	4,93E-05
	Erro Residual
	T-k-1=9
	149,8
	16,6
	
	
	Total
	t – 1 = 11
	1357,7
	 
	 
	 
gl = grau de liberdade; SQ = Soma de Quadrados; MQ = Média de Quadrados
Tabela 14.6 – ANOVA, Estatística F e valor p.
O valor da estatistica F é relativamente alto igual a 36,27 (= 603,9/16,6) e valor p correspondente igual a 0,0000493, praticamente igual a zero. Portanto, podemos rejeitar a hipotese nula e concluir que a equação de regressão tem elementos de relação significante entre a variavel resposta, peso, e pelo menos uma das variáveis independentes, temperatura e composição química. 
Não é muito difícil mostrar que a estatística F é diretamente relacionada a R2. 
F(k, T – k- 1) = (R2/k) / (1-R2)/(T- k -1) 
No entanto, é surpreendente que dependendo dos valores de T e k (T-k-1 com valor baixo e k com valor alto), altos valores de R2 não necessariamente significam valores de F suficientemente altos para rejeitar a H0 de ausência de relação entre variáveis. Para julgar a veracidade de equações de regressão, e reconfirmando a conclusão na seção sobre o R2 ajustado, o pesquisador deve confiar mais na estatística F e muito menos no R2.
No final, a expressão para F é também muito parecida com o R2 ajustado, envolvendo somas quadradas divididas por graus de liberdade. A demonstração da relação entre o R2 ajustado e a estatística F é deixada para o aluno como exercício nas horas vagas de domingo a noite. 
Em relatórios e em trabalhos científicos, na apresentação para verificar significância na regressão, seria suficiente mostrar ou o valor da estatística F e o valor p correspondente, ou a variância dos erros residuais. No entanto, especialmente nas áreas das engenharias, é tradicional, mas desnecessário, o pesquisador mostrar todas as medidas de aderência apresentadas nesse capítulo, o erro padrão, F, R2 e R2 ajustado. Em alguns softwares específicos (e profissionais) para regressão, o R2 não é mais relatado, reconhecendo a sua fraqueza como medida de adesão. Contudo a tradição e cultura do seu ambiente de trabalho precisam ser sempre respeitadas, e se o gerente desejar a presença do R2 nos relatórios é melhor colocá-lo. 
14.9 Teste de hipotese para os coeficientes individuais.
O teste de hipótese para a significância de coeficientes individuais foi visto na seção 13.12 (Teste de hipótese, o exemplo de coeficientes individuais de regressão) no contexto de regressão simples. O procedimento para regressão múltipla é idêntico. Vamos voltar ao exemplo dos dados da tabela 14.2. Foram calculadas as estatísticas da equação de regressão cujos coeficientes já foram apresentados:
peso = 156,61 - 0,89temp+ 0,086CQ + e
todos os outros resultados dos coeficientes individuais estão na tabela 14.7.
	 
	Coeficientes
	Erro padrão
	estatística t
	valor-P
	Interseção
	156,615
	12,299
	12,734
	0,000
	Temperatura (temp)
	-0,891
	0,105
	-8,457
	0,000
	Composição química % (CQ)
	0,086
	0,085
	1,013
	0,338
Tabela 14.7 – Teste de hipótese para coeficientes individuais. 
As estatísticas t para a interseção (a) e para a temperatura (temp) são altos e os valores-p correspondentesbaixos que nos dois casos determina a rejeição da hipótese nula de coeficientes individuais iguais a zero. Por outro lado, o valor-p relativamente alto associado ao coeficiente de composição química determina a aceitação da hipótese nula. Podemos concluir que não há evidência suficiente para endossar algum efeito causado pela composição química, e portanto esta variável pode ser tirada da equação. A não significância da variável CQ já foi indicada pela análise de R2 ajustado, e agora com a insignificância vindo da estatística t o resultado é comprovado mais uma vez. 
. 
14.10 Variável binária� e outras variáveis artificiais: tendência e sazonalidade
A variável binária é criada artificialmente para ser utilizada em regressões com o fim de diferenciar aspectos qualitativos e não mensuráveis. Um exemplo muito claro é de diferenciar homens e mulheres. Um estudo de salários numa empresa, por exemplo, terá uma série de variáveis explicatórias (Xi) que caracterizam os funcionários, como anos na empresa, nível escolar, idade, todas variáveis quantitativas, mas terá que levar em conta também a variável “gênero”. Na matriz de dados haverá uma coluna para gênero, zero se for homem e a unidade se for mulher. A equação da regressão terá a seguinte forma:
Y = a + dD + b1X1 + b2X2 + … + et
onde D é a binária, zero para homem e unidade para mulher. Será estimado então o coeficiente d. Nota-se que o coeficiente d modifica o intercepto. Quando estamos analisando as mulheres, D será igual a unidade e o intercepto será igual a (a + d), e analisando os homens o intercepto será simplesmente a, pois D é zero para os homens. Conseqüentemente, o coeficiente d mede o diferencial entre os salários dos homens e mulheres levando em conta todas as outras variáveis.
Outro procedimento possível é, nesse caso, criar duas novas variáveis, uma para homem e outra para mulher, e segue então a mesma metodologia. A equação é:
Y = a + d1Dm + d2Dh + b1X1 + b2X2 + … + et
A matriz de dados terá uma coluna para homens e outra para as mulheres. Se a observação pertence às mulheres então a coluna das mulheres ganha o valor unidade, e a coluna dos homens ganha o valor zero. E se a observação pertence a um homem então a coluna dos homens ganha unidade e a das mulheres ganha zero. No entanto, nesse caso há um problema chamado de armadilha da variável binária. Para desvendar esse problema temos que olhar a matriz de dados, simplificada com apenas uma variável X1:
A primeira coluna é a coluna unitária para calcular o intercepto (a). A segunda coluna é a coluna das mulheres Dm, e a terceira coluna é a dos homens Dh. Finalmente, a última coluna traz a variável mensurável X1. Agora temos que pensar no papel da matriz na estimativa do vetor de coeficientes 
. Veja que a matriz X entra como (X´X)-1. A matriz X´X é manipulada e o resultado colocado a seguir, onde Th e Tm são o número total de homens e mulheres respectivamente:
O problema que da origem a armadilha é que a inversa da matriz não existe, pois o determinante é igual a zero. Conseqüentemente, os estimadores para o vetor b que dependem da inversão da matriz não são calculáveis. Por sinal, a matriz de covariâncias também depende da inversão da matriz. Isso ocorre porque há uma relação linear entre as três primeiras linhas que se repete nas três primeiras colunas. A relação linear significa que o determinante é nulo. Muitos pacotes de software não avisam a presença desta característica da matriz, conseguem fazer uma falsa inversão da matriz, e produzem resultados completamente errados. O pesquisador tem que ficar atenta à armadilha: se forem utilizadas variáveis binárias fechadas, quer dizer, o número de variáveis binárias sendo igual ao número de características em análise (homens como uma variável e mulheres como outra), o intercepto tem que ser eliminado da equação. Assim, a armadilha da variável binária será resolvida. 
Um dos usos mais populares de variáveis binárias é para desazonalizar dados em séries temporais. No caso de dados mensais, cada mês do ano é representado por uma variável binária. Isso acrescenta 12 variáveis à equação e implica na omissão do intercepto para evitar a armadilha. Por exemplo, quando o dado corresponde à janeiro, então a binária para janeiro ganha valor unitário, e quando não for janeiro ganha zero. Veja na tabela 14.8, os valores binários para todos os meses do ano. 
	
	DJAN
	DFEV
	DMAR
	DAB
	..
	..
	..
	..
	..
	..
	..
	..
	JAN
	1
	0
	0
	0
	..
	..
	..
	..
	..
	..
	..
	..
	FEV
	0
	1
	0
	0
	..
	
	
	
	
	
	
	..
	MAR
	0
	0
	1
	0
	..
	
	
	
	
	
	
	..
	ABR
	0
	0
	0
	1
	..
	
	
	
	
	
	
	..
	MAI
	0
	0
	0
	0
	1
	
	
	
	
	
	
	..
	JUN
	0
	0
	0
	0
	..
	1
	
	
	
	
	
	..
	JUL
	..
	..
	..
	..
	
	
	1
	
	
	
	
	..
	AGO
	..
	
	
	
	
	
	
	1
	
	
	
	..
	SET
	..
	
	
	
	
	
	
	
	1
	
	
	..
	OUT
	..
	
	
	
	
	
	
	
	
	1
	
	..
	NOV
	..
	
	
	
	
	
	
	
	
	
	1
	..
	DEZ
	..
	..
	..
	..
	..
	..
	..
	..
	..
	..
	..
	1
	JAN
	1
	
	
	
	
	
	
	
	
	
	
	
	FEV
	0
	1
	
	
	
	
	
	
	
	
	
	
	...
	0
	0
	1
	
	
	
	
	
	
	
	
	
	...
	0
	0
	0
	1
	
	
	
	
	
	
	
	
	...
	..
	0
	0
	
	1
	
	
	
	
	
	
	
	DEZ
	..
	
	
	
	
	
	
	
	
	
	
	1
	JAN
	1
	
	
	
	
	
	
	
	
	
	
	
	...
	..
	1
	
	
	
	
	
	
	
	
	
	
	...
	..
	
	1
	
	
	
	
	
	
	
	
	
	DEZ
	..
	
	
	
	
	
	
	
	
	
	
	1
Tabela 14.8 - Variáveis binárias para Sazonalidade.
O uso das variáveis sazonais resulta em uma equação de regressão como a seguinte:
Y = aDJAN + bDFEV + cDMAR +... + e
com coeficientes estimados a, b, c, … cada coeficiente representando a sazonalidade do respectivo mês. Do mesmo modo, a variável binária pode representar um ano ou os dias da semana, se for o caso, sendo sazonalidade definida como qualquer padrão repetitivo e constante no decorrer da série temporal. Em muitos pacotes computacionais especializados para regressão, a criação de variáveis binárias é praticamente automática em função do seu uso tão comum. 
14.11 Exemplo com as variáveis binárias. 
Vamos ver agora um exemplo prático da realidade de fábricas de confecções. A confecção necessita de uma previsão de demanda para seu item mais popular, um pijama para criança. A estação de venda dura 30 semanas todo ano. São disponíveis dados históricos de 2005 a 2008, esse último ano ainda incompleto. A previsão será montada com o suporte de uma regressão múltipla, mas a empresa não tem tempo nem recursos para juntar várias variáveis independentes do setor e da economia. Opta pela utilização de variáveis artificiais na equação, entre variáveis binárias para os anos e o número da semana da estação de 1 a 30. Veja os dados (espaço em branco significa zero) das vendas na forma original na tabela 14.9. A matriz de dados X é apresentada na tabela 14.10, e merece alguns comentários. 
Tabela 14.9 – Vendas semanais e vendas acumuladas na estação, T = 104
Do total de 104 observações, a tabela 14.10 mostra somente as primeiras 9, sem perda de informação no contexto da explicação. A variável D2005 representa uma variável binária para a estação do ano de 2005, valor um quando o ano é 2005 e zero pelo contrário. Os demais anos (2006, 2007, 2008) têm variáveis binárias semelhantes. Devido ao fato que cada estação de venda tem 30 semanas, a variável S representa o número da semana. Esta variável vai captar a tendência linear das vendas acumuladas durante a estação, na mesma maneira que a variável t captou a tendência de vendas de camisetas no capítulo anterior sobre regressão simples. As duas últimas colunas da matriz X são o quadrado do número da semana e o cúbico do número da semana, e devem captar tendências não lineares. 
Tabela 14.10 – A matriz X de dados da regressão para as primeiras 9 semanasde 2005
A equação de regressão múltipla terá 7 coeficientes para estimar, 4 coeficientes para as variáveis binárias representando os anos das estações e 3 coeficientes para captar tendências lineares e não-lineares na série, e terá o seguinte formato: 
Vendas = b1D2005 + b2D2006 + b3D2007 + b4D2008 + c1S + c2S2 + c3S3 + e
Nota-se a ausência do coeficiente a, a constante da equação. O coeficiente a foi eliminado da equação por causa do problema da armadilha da variável binária comentada acima. 
Vamos agora andar passo a passo no procedimento de mínimos quadrados para estimar a equação. Veja os resultados iniciais da estimação da equação com todas as variáveis na tabela 14.11. 
	R-Quadrado
	0,968
	R-quadrado ajustado
	0,956
	Erro padrão
	1478,549
	Observações
	104
Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis
.
Já é notável o tamanho do R2 e o R2 ajustado, quase igual a 1,0, indicando que o inicio desse processo já mostra fortes possibilidades de encontrar estimativas relevantes para o propósito de montar previsões para o final da estação do ano 2008. Na tabela 14.12, são apresentados os resultados do teste F. O valor-p é realmente praticamente zero, mais uma vez dando expectativas boas que a equação é relevante. 
	ANOVA
	
	
	
	
	
	 
	gl
	SQ
	MQ
	F
	valor-P
	Regressão
	7
	6448079082
	921154155
	421
	4,2E-69
	Resíduo
	97
	212052256
	2186106
	
	
	Total
	104
	6660131338
	 
	 
	 
Tabela 14.12 – Teste F
Finalmente, na tabela 14.13 temos os resultados para os coeficientes individuais. Com a exceção do coeficiente para o ano 2006, todas as estimativas são significantes com valores-P praticamente iguais ao zero. 
	 
	Coeficientes
	Erro padrão
	estatística t
	valor-P
	D2005
	-6668,2
	667,1
	-10,00
	0,000
	D2006
	-501,6
	667,1
	-0,75
	0,454
	D2007
	-4623,8
	667,1
	-6,93
	0,000
	D2008
	-3921,3
	721,8
	-5,43
	0,000
	S
	2848,0
	175,6
	16,22
	0,000
	Squad
	-94,25
	13,40
	-7,04
	0,000
	Scúb
	0,96
	0,29
	3,33
	0,001
Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas
Daqui, o próximo passo não é difícil adivinhar. Desde que o coeficiente de D2006 não é significante e, portanto a hipótese nula de coeficiente nulo não pode ser rejeitada, o pesquisador permite que a variável seja eliminada do modelo. Assim, a equação fica encurtada no seguinte formato:
Vendas = b1D2005 + b3D2007 + b4D2008 + c1S + c2S2 + c3S3 + e
Pela nova tabela ANOVA e o teste F, houve algumas melhorias na equação, especialmente nos graus de liberdade dos resíduos, pois foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.
	ANOVA
	
	
	
	
	
	 
	gl
	SQ
	MQ
	F
	valor-P
	Regressão
	6
	6,45E+09
	1,07E+09
	494
	2,38E-70
	Resíduo
	98
	2,13E+08
	2176411
	
	
	Total
	104
	6,66E+09
	 
	 
	 
Tabela 14.14 – Teste F, D2006 excluída
Nota-se também que o valor da soma de quadrados do resíduo dividido pelos graus de liberdade 2176411, a variância dos erros residuais, melhorou e isso significa que necessariamente o R2 ajustado também melhorou. Na tabela 14.15, todos os coeficientes são significativos com valores-p da estatística t praticamente iguais a zero. 
	 
	Coeficientes
	Erro padrão
	estatística t 
	valor-P
	D2005
	-6248,74
	364,99
	-17,12
	0,00
	D2007
	-4204,37
	364,99
	-11,52
	0,00
	D2008
	-3519,15
	483,59
	-7,28
	0,00
	S
	2739,72
	100,21
	27,34
	0,00
	Squad
	-87,10
	9,41
	-9,26
	0,00
	Scúb
	0,82
	0,22
	3,70
	0,00
Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída
Na sua forma final, a equação pode ser escrita assim,
Vendas = - 6248,74D2005 - 4204,37D2007 - 3519,15D2008 + 2739,72S - 87,10S2 + 0,82S3 
Concluindo esse exemplo, a fábrica de confecções precisa previsões de venda para a estação de 2008 da semana 15 a 30, verificado na tabela 14.9 acima. Substituindo os valores apropriados na equação proporciona as previsões desejadas. Para ficar claro como as previsões são calculadas, veja a primeira linha de tabela 14.16. A previsão de vendas acumuladas até a semana 15 é 20760, e esse valor vem da equação estimada:
20760 = -3519,15*1+2739,72*15 - 87,10*152 + 0,82*153
As variáveis binárias associadas aos anos 2005 e 2007 não entram no cálculo, pois a previsão é para 2008. Vários exercícios no final do capítulo apontam as diversas dúvidas que surjam durante o processo de regressão por mínimos quadrados. 
	Ano
	Semana
	vendas soma acumulada da estação
	2008
	15
	20760
	2008
	16
	21394
	2008
	17
	21933
	2008
	18
	22381
	2008
	19
	22744
	2008
	20
	23027
	2008
	21
	23235
	2008
	22
	23372
	2008
	23
	23444
	2008
	24
	23455
	2008
	25
	23411
	2008
	26
	23316
	2008
	27
	23175
	2008
	28
	22994
	2008
	29
	22777
	2008
	30
	22529
Tabela 14.16 – Previsões das vendas na segunda metade da estação de 2008
O gerente da fábrica ficou satisfeito com o procedimento de previsão de vendas através de regressão múltipla por variáveis artificiais. Pelo menos, agora as previsões têm base sólida nos dados passados e qualquer argumentação dos colegas para alterar a previsão exige lucidez e lógica. Os funcionários que conhecem melhor o mercado nesse ambiente de trabalho com métodos estatísticos aplicados conseguem se destacar em comparação com os outros menos experientes. 
14.12 Multicolinearidade
Na seção 14.5 sobre as suposições básicas, foi colocado a suposição numero 6 de multicolinearidade. Não é permitido relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0. O resultado para a análise de regressão da presença de correlação entre variaveis independentes são erros padrão dos coeficientes enviesados com valores altos demais, e portanto a indicação de coeficientes nulos quando na realidade sao significantes e não nulos. Em outras palavras, forte correlação entre variaveis independenetes confunde a análise da equação estimada dificultando a distinção entre variaveis como relevantes ou não. Para resolver o problema, as variaveis correlacaionadas tem que ser eliminadas da equação ou duas ou mais variaveis correlacaionadas tem que ser combinadas como indice. 
As vezes a multicoliniaeridade existe entre variaveis mas ainda nao é um problema nos procedimentos de regressao, principalmente quando as variaveis e os seus coeficientes sao significantes pela estatistica t. A significancia dos coeficientes significa que a multicolinearidade embora existente foi superada pela força da relação entre as variaveis. Por outro lado, multicolinearidade se torna problematica quando a equação é muito fraca, por exemplo quando nao passa pelo teste da estatistica F, ou quando quase todas as variaveis e seus coeficientes sao insignificantes. Nesses casos, o pesquisador é obrigado calcular os coeficientes de correlação entre as variaveis independentes e se tiver valores altos então ele deve eliminar algumas variaveis ou trabalhar com índices de combinações das variaveis similhantes. 
14.13 Questões e exercícios. 
1. Na seção 14.3, para o exemplo de temperatura e composição química, faça os cálculos sem a coluna unitária na matriz X. Comentar os resultados comparando-os com os resultados do texto. 
Resposta: os coeficientes de inclinação alteram os seus valores e também a matriz de covariâncias sofrem a modificação dos valores originais. Na verdade, todas as estimativas são interdependentes e se for alterado um valor então os outros também alteram em maior ou menor grau. A eliminação do intercepto da equação é equivalente dizer que seu valor foi obrigatoriamente fixo em zero, não é mais o seu valor otimizado e, portanto os outros valores estimados vão sofrer compensações. 
2. Na seção 14.6, ANOVA para testar a significância da equação inteira: testeF, várias relações matemáticas foram apresentadas entre o R2 e a estatística F. Mostrar a relação entre o R2 ajustado e a estatística F. 
Resposta: São muito parecidos, dependendo essencialmente dos mesmos parâmetros. Colocar a estatística F primeiro, e substituir a relação entre as várias somas dos quadrados. 
3. Na seção 14.8 sobre as variáveis binárias, uma equação de previsão foi estimada usando regressão múltipla mas nenhuma variável independente real foi utilizada, apenas variáveis artificiais. Para prever vendas, qual a sua sugestão para a escolha de variáveis reais?
Resposta: É comum, no próprio setor da fábrica, que existem revistas especializadas dos sindicatos empresariais que publicam regularmente os índices industriais relevantes. No caso de vendas, as variáveis como inflação, taxa de juro, talvez a taxa de cambio, entre outros podem ser relevantes e a sua obtenção é fácil. Dados demográficos como as taxas de crescimento da população, a estrutura educacional, o tipo de consumidor, etc. também não são difíceis de encontrar. Acesso aos dados não é nenhum problema hoje em dia, mas sim o tempo e os recursos necessários para adquirir os dados é considerado pesado por muitas empresas e assim elas dependem das variáveis artificiais como apresentados neste capítulo. 
4. Retornando a seção 14.8 e o exemplo das vendas, a tendência da série foi estimada utilizando a seqüência das trinta semanas da estação. A série foi expandida para mais duas variáveis usando o quadrado e o cúbico para captar a tendência não linear da série. Refazer os cálculos, mas incluir uma variável nova que é a série das semanas de 1 a 30 agora elevada ao expoente 4. Comparar os resultados com os do texto e comentar.
Resposta: os resultados da equação se alteram substancialmente, mas as previsões são essencialmente as mesmas. Podemos concordar que as duas equações são adequadas para calcular as previsões, e o fato é que não tem muita diferença. Parece que a nova não linearidade permitida pelo uso da variável S4 substituiu a variável binária dos anos das estações. 
5. Calcular o valor da estatística Bera-Jarque para o exemplo das vendas da seção 14.11. 
Resposta: O valor calculado não é maior que 6 que significa a aceitação da normalidade dos erros. 
6. Montar o gráfico dos erros residuais do exemplo das vendas da seção 14.11. O que pode ser concluído? 
Resposta: No gráfico, os erros residuais não parecem aleatórios, e, portanto isso pode ser um grande problema na utilização da equação. Por outro lado, as previsões sendo aceitas como adequadas e esclarecedoras pela fábrica e pelos funcionários mais ligados a área, o monitoramento dos erros residuais das previsões nesse caso deve ser muito cuidadoso.� Enquanto os novos dados observados são coletados cada semana, eles devem ser comparados com as previsões, medindo os erros de previsão e se for necessário na presença de erros relativamente grandes, os coeficientes da equação de regressão devem ser re-estimados. 
14.14 Referências
Paulino, C. D.; Singer, J.M. (2006). Análise de Dados Categorizados. 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p.
Souza, G.P. Samohyl, R.W., Miranda, R.G. (2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.
� EMBED Equation.3 ���
� EMBED Equation.3 ���
� EMBED Equation.3 ���
� EMBED Equation.3 ���
� EMBED Equation.3 ���
� Veja o livro de Paulino, C. D. ; Singer, J.M. (2006). Análise de Dados Categorizados. 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p.
� A literatura e livros textos utilizam livremente para significar o mesmo conceito: intercepto, interseção e constante da equação. Nossa preferência pela expressão intercepto não é definitivo. 
� Todos os cálculos neste capítulo foram feitos e adaptados do Excel (2002).
� Alguns autores dão outro nome para SQT, SQRestrita em função da restrição nos coeficientes b1 = b2 = b3 = 0. Em aplicações de regressão múltipla mais avançadas, o valor de qualquer coeficiente pode ser restrito e o teste de F prossegue para testar a significância desses valores específicos. 
� A expressão em inglês ainda é muito utilizada no Brasil, variável dummy. Também é chamada de variável indicadora.
� Como monitorar os erros de previsão é um tópico importante do livro de Souza, G.P. Samohyl, R.W., Miranda, R.G. (2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.
_1295860228.unknown
_1295878956.unknown
_1296399803.unknown
_1296571173.unknown
_1296453562.unknown
_1295881379.unknown
_1295867836.unknown
_1295876735.unknown
_1295861646.unknown
_1295867697.unknown
_1288524171.unknown
_1295858915.unknown
_1295855817.unknown
_1287992994.unknown
_1288516628.unknown
_1288516663.unknown
_1112598872.unknown

Continue navegando