Buscar

unidade ll resumo

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM) 
O modelo de regressão linear múltipla (MRLM), no qual a variável Y pode ser explicada por 
mais de uma variável, pressupondo uma relação linear entre cada uma das variáveis 
independentes e a variável dependente. O modelo de regressão múltipla, por exemplo, com k 
variáveis independentes, é expresso na equação: 
yi = α + β1 X1i + β2 X2i + β3 X3i + ... + βk Xki + ei , i = 1, ..., n 
Em que: 
y é a variável dependente; 
x1 , x2 , . . . , xk são as variáveis independentes; 
k é o número de variáveis independentes no modelo; 
i denota as n observações da amostra. 
Os parâmetros β1 , β2 , β1 ... βk são desconhecidos, e teremos que estimá-los utilizando, 
novamente, o método dos mínimos quadrados ordinários (MMQO), que busca os valores dos 
β’s que minimizam a soma dos quadrados dos erros. 
Hipóteses 
Para estimarmos os parâmetros desconhecidos do nosso modelo em questão, precisamos 
elaborar algumas hipóteses. 
São elas: 
• Linearidade: yi = α + β1 X1i + β2 X2i + β3 X3i + ... + βk Xki + ei , i = 1, ..., n 
• Exogeneidade: E[ei | x11, x21, x31, ... xki] = 0. A exigência de que o erro e a variável 
explicativa sejam não correlacionados. 
• Homocedasticidade: Var[ei | x11, x21, x31, ... xki] = E[ei 2 | x1i, x2i, x3i, ... xki] = σ2 . A 
variância do erro é constante, igualdade de variâncias, ou homocedasticidade. Requer que a 
variância dos erros (ei ) seja constante em relação a todos os valores de X, isto é, a 
variabilidade dos valores de Y é a mesma quando X é um valor baixo ou quando X é um valor 
elevado. A igualdade das variâncias é importante para se realizar inferências em relação aos 
parâmetros α, βs. Havendo problemas na não confirmação da hipótese de homocedasticidade, 
podemos utilizar os modelos de mínimos quadrados ponderados ou as transformações de 
dados. 
• Não autocorrelação dos erros: Cov[ei , ej | xi , xj ] = E[ei , ej | xi , xj ] = 0. O erro de uma 
observação não pode estar correlacionado com o erro de outra observação. Portanto, 
covariância é igual a zero (o resultado em qualquer experimento não tem efeito no termo do 
erro de qualquer outro experimento). Os erros (ei ) devem ser independentes entre si. 
Devemos incluir mais uma hipótese: 
Não existe colinearidade perfeita entre as variáveis explicativas. Ou seja, uma variável 
explicativa não é função linear perfeita da outra. 
O pressuposto da normalidade requer que os erros (ei ) sejam normalmente distribuídos para 
cada um dos valores de X. A análise de regressão é relativamente robusta em relação a 
afastamentos do pressuposto da normalidade, isto é, desde que a distribuição dos erros em 
cada um dos níveis de X não seja extremamente diferente de uma distribuição normal, 
inferências em relação aos parâmetros α, βs não serão seriamente afetadas. 
 
No modelo de regressão linear simples, a inclinação β1 representa a alteração na média 
aritmética de Y para cada unidade de alteração em X e não leva em consideração nenhuma 
outra variável. Entretanto, no modelo de regressão linear múltipla com duas variáveis 
independentes, a inclinação β1 representa a alteração na média aritmética de Y para cada 
unidade de alteração em X1 , levando-se em consideração o efeito de X2 . A equação a seguir 
define o modelo de regressão múltipla com duas variáveis independentes: 
yi = α + β1 X1i + β2 X2i + ei , i = 1, ..., n 
Em que: 
α = intercepto de Y; 
β1 = inclinação de Y em relação à variável X1 , mantendo-se constante a variável X2 ; 
β2 = inclinação de Y em relação à variável X2 , mantendo-se constante a variável X1 ; 
ei = erro aleatório em Y para a observação i. 
Os quatro pressupostos de regressão: LINI (Linearidade, Independência dos erros, 
Normalidade de erros e Igualdade de variâncias). 
 
Os testes de regressão são de três tipos: de coeficientes, de resíduos e de estabilidade: 
• Teste de coeficientes: tipos de testes sobre os coeficientes de uma regressão: 
— Variável omitida: determina se uma ou mais variáveis omitidas de uma regressão deveriam 
ter sido incluídas ou não (através de uma regressão auxiliar incluindo as variáveis omitidas). 
— Variável redundante: determina se uma ou mais variáveis da regressão podem ser excluídas 
sem maiores consequências. A hipótese nula é que os coeficientes das variáveis selecionadas 
na regressão não são todos estatisticamente diferentes de zero. Se a hipótese for rejeitada, as 
variáveis não são redundantes, isto é, não podem ser excluídas da regressão sem 
comprometer o nível de explicação da variável dependente. 
• Teste de resíduos: tipos de testes sobre os resíduos de uma regressão: 
— Normalidade: em geral, os testes existentes para modelos de regressão só são válidos em 
amostras pequenas quando se assume que os distúrbios aleatórios têm distribuição normal, 
mas há sempre que se ter cuidados com a possibilidade de viés em amostras pequenas. 
— Correlograma do resíduo (do resíduo quadrado): esta opção apresenta as autocorrelações 
e autocorrelações parciais dos resíduos (ao quadrado) da equação estimada para um número 
especificado de defasagens. 
— Heterocedasticidade: uma das hipóteses do modelo de regressão é a de 
homocedasticidade, isto é, a de que a variância teórica do termo de distúrbio aleatório, 
condicional em relação às variáveis independentes, seja constante. Caso contrário, se a 
variância muda ao longo de diferentes intervalos de tempo ou em função de variáveis 
independentes, temos o caso de heterocedasticidade que acaba invalidando todos os testes de 
hipóteses baseados em estatísticas t (Student), F (Snedecor) e qui-quadrado 
• Teste de estabilidade: tipos de teste para avaliar se os parâmetros da regressão são estáveis 
ao longo do intervalo de estimativa: 
— Teste Chow: a estabilidade dos parâmetros é verificada dividindo-se o intervalo da amostra 
em duas partes e estimando-se novamente os parâmetros em cada subamostra. O teste 
compara a soma dos quadrados dos resíduos da regressão original com a soma dos quadrados 
dos resíduos das novas regressões feitas a partir das subamostras. Caso haja uma diferença 
significativa nas estimativas, pode-se concluir que houve, a partir do ponto de quebra da 
amostra, uma mudança estrutural no relacionamento entre as variáveis do modelo. 
— Teste de estabilidade Ramsey RESET: é um teste geral para erros de especificação que 
podem ter diversas origens, como variáveis independentes omitidas, forma funcional 
incorreta, erros de medida em variáveis, erros de simultaneidade e inclusão de valores 
defasados da variável dependente quando os resíduos têm correlação serial. 
Exemplo de análise de regressão: 
Teoria econômica > Modelo Matemático > Modelo Econométrico> Dados> Estimação do 
Modelo> Teste de Hipóteses> Previsão> Aplicação do Modelo 
COVARIÂNCIA E COEFICIENTE DE CORRELAÇÃO 
A covariância mede a força do relacionamento entre duas variáveis em termos absolutos 
através da seguinte equação 
Cov (X,Y )=∑ ( x - média de X) x (y- média de Y)/ n 1 
A correlação (representada por r) está sempre entre -1 e 1. O valor -1 corresponde à 
correlação negativa perfeita e o valor de +1 corresponde à correlação positiva perfeita; já o 
coeficiente de correlação (zero) indica que as duas variáveis não estão correlacionadas 
linearmente. 
O R múltiplo = 0,8778 representa o coeficiente de correlação múltiplo. Lembre-se de que na 
regressão linear simples o R múltiplo representa o coeficiente de correlação simples (r), que 
mede o grau de relacionamento linear entre duas variáveis, e nos modelos de regressão linear 
múltipla o R múltiplo representa o coeficiente de correlação múltiplo (r), que mede o grau de 
relacionamento linear entre uma variável e um conjunto de outras variáveis. As técnicas de 
análise de correlação e regressão estão intimamente ligadas. 
Teste de hipótese para um coeficiente de correlação populacional 
Precisamos determinar se existe evidênciasuficiente para decidir que o coeficiente de 
correlação populacional ρ é representativo em um nível especificado de significância α (por 
exemplo, α = 0,01 significa que em 1% das vezes podemos dizer que o coeficiente de 
correlação populacional é significante quando ele realmente não é, ou seja, é o erro que 
podemos cometer). Utiliza-se o teste de hipótese para ρ, que pode ser monocaudal ou 
bicaudal. O nosso interesse é no teste bicaudal, a seguir especificado: 
H0 : ρ = 0 (não existe correlação significativa) 
H0 : ρ ≠ 0 (existe correlação significativa) 
A distribuição amostral para r é uma distribuição t de Student com n - 2 graus de liberdade. 
No exemplo que envolve as duas variáveis, utilizamos onze pares de dados para obtermos r = 
0,8778. 
Vamos testar a significância desse coeficiente de correlação utilizando α = 0,01: 
H0 : ρ = 0 (não existe correlação significativa); 
H0 : ρ ≠ 0 (existe correlação significativa). 
A distribuição amostral para r = 0,8778 é uma distribuição t com n - 2 graus de liberdade. 
Temos 11 - 2 = 9. Uma vez que o teste é bicaudal, α = 0,01 e g. l. = 6, os valores críticos são -
2,26 e 2,26 e as regiões de rejeição são t < - 2,26 e t > 2,26. 
Rejeitamos a hipótese nula, visto que t calculado está na região de rejeição. Ao nível de 1%, há 
evidência suficiente para concluir que existe uma correlação linear significante entre o preço e 
a produção de açúcar. 
Correlação e causalidade: é possível que a relação das variáveis tenha sido causada por uma 
terceira variável, ou por uma combinação de muitas outras variáveis, mas neste caso a 
causalidade se confirma com a base teórica. 
 
Coeficiente de determinação (r2) 
O coeficiente de determinação mede o grau de ajustamento da reta de regressão aos dados 
observados. Indica a proporção da variação total da variável dependente, que é explicada pela 
variação da variável independente. 
A análise de correlação se dedica a inferências estatísticas das medidas de associação linear 
que se seguem: 
• coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento linear entre 
duas variáveis; 
• coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento linear entre 
uma variável e um conjunto de outras variáveis. 
As técnicas de análise de correlação e regressão estão intimamente ligadas. 
r2 é uma medida descritiva da qualidade do ajustamento obtido, indicando a proporção real 
da variância 
Para um número fixo n de observações, quanto melhor for o ajuste dos dados, tanto maior 
será o valor de r2. Portanto, r2 pode ser visto como uma medida descritiva da qualidade do 
ajuste obtido – isto é, a variável independente (X: preço) explica 77% das variações da 
produção de açúcar. Ao considerar modelos de regressão múltipla, esse procedimento evita 
uma característica do R-quadrado que tende a aumentar sempre que adicionamos novas 
variáveis independentes, mesmo que a sua contribuição seja pouca para o poder explicativo da 
regressão. Utilizar o R-quadrado ajustado é de extrema importância quando se está 
comparando dois ou mais modelos de regressão que estão prevendo a mesma variável 
dependente, mesmo tendo um número diferente de variáveis independentes. 
Quando um valor de y^ é previsto a partir de um valor de x, a previsão é uma estimativa 
pontual. Pretendemos, agora, calcular uma estimativa intervalar para um valor previsto y. 
Primeiramente devemos calcular o erro-padrão da estimativa Se, que é o desvio-padrão dos 
valores de yi, observados em torno do valor y previsto para um dado valor de xi . 
Intuitivamente sabemos que quanto maior é a dispersão entre uma série de números ou 
população, maior será a dificuldade de se ajustar uma reta aos pontos. A dispersão pode ser 
estimada pela dispersão dos dados amostrais em relação à reta de regressão. O erro-padrão da 
estimativa (Se) é uma medida que avalia o grau de precisão da reta de regressão. 
 
Erro-padrão do coeficiente linear (ou do intercepto) 
O erro-padrão do intercepto (coeficiente linear da reta α) indica aproximadamente a distância 
entre os coeficientes estimados α^ e o coeficiente linear populacional α, devido à dispersão 
dos dados amostrais. Assim, quanto menor for o erro Sα^ , melhor será a precisão da 
estimativa. 
 
Erro-padrão do coeficiente angular 
Analogamente ao Sα^ , o erro do coeficiente Sb^ é a medida aproximada da distância entre a 
estimativa b^ e o coeficiente angular populacional b^. 
 
Inferências sobre o coeficiente angular 
Em algumas situações, mesmo não havendo relacionamento (causalidade) entre as variáveis 
na população, os dados amostrais podem sugerir a existência de relação. Isso ocorre quando, 
devido a fatores aleatórios, os dados extraídos da população dispõem-se de forma que seja 
possível traçar uma reta em que se ajustam esses pontos. Por essa razão, sempre é preciso 
verificar se o modelo linear obtido é realmente significativo (base teórica, a lógica de causa e 
efeito). 
Então podemos calcular o intervalo de confiança para β com 95% de confiança: 
ICβ (95%): ICβ (95%): 663,29 - 2,26 x 120,67 < β < 663,29 + 2,26 x 120,67 
ICβ (95%): 390,33 < β < 936,26 
Estimamos que o coeficiente angular β pertence ao intervalo [390,33; 936,26] com um nível de 
confiança de 95%. 
Se o intervalo de confiança para β incluir o zero, não poderemos rejeitar a hipótese nula. 
Caso o intervalo definido não inclua o zero, rejeitamos a hipótese nula, admitindo um de erro 
(5%), de que há relação significativa entre as variáveis. 
No nosso cálculo, o intervalo definido não inclui o zero. Podemos, portanto, rejeitar a hipótese 
nula (H0 : β = 0), concluindo, com um nível de confiabilidade de 95%, que há relação 
significativa entre as variáveis na população. 
 Outra maneira de testarmos a hipótese nula (β = 0) é analisar a significância do coeficiente de 
regressão. 
O valor t de Student pode ser interpretado como o número de desvios-padrões que o 
estimador β ^ dista do ponto zero. Quanto maior for essa distância, maior será a chance de β ^ 
ser diferente de 0, portanto, garantindo a existência do modelo de regressão (relação entre X e 
Y). 
Para calcular a probabilidade (valor - P) de obtermos uma estatística t igual ou superior a esse 
valor, vamos utilizar a função estatística do Excel (DISTT). 
Para o nosso caso, valor - P = DISTT (teste; graus de liberdade; caudas). 
Onde: 
• teste = t teste (Stat-t deve ser inserido com seu valor em módulo, isto é, positivo); 
• graus de liberdade = n - k - 1 (graus de liberdade dos resíduos, sendo n o número de 
observações e k o número de variáveis independentes); 
• caudas = o teste do valor-P bicaudal deve ser sempre igual a 2. 
Nível de significância do teste α (erro permitido): 
• valor - P = DISTT (5,50; 9; 2) retorna o valor 0,0003817, de modo que: 
— se o valor - P for ≤ α, rejeitaremos a hipótese nula; 
— se o valor - P for > α, aceitaremos a hipótese nula. 
O erro permitido é de 5% (α = 0,05). Assim, o valor-P é bem menor que 0,05. Significa 
rejeitarmos a hipótese nula (H0 : β = 0) de que não há associação entre X e Y. 
 
Teste de hipótese 
É importante também aplicarmos o teste de hipótese ao nosso modelo de regressão. 
A hipótese nula é: 
os valores de x não têm qualquer relacionamento com os valores de y. 
Veja: 
H0 : β = 0; 
H1 : β ≠ 0 (teste bilateral). 
A hipótese nula é confirmada pela equação Y ^ i = a + bXi + ei , quando se constata que não 
haverá qualquer relação entre x e y se o verdadeiro valor do coeficiente angular for zero. 
Podemos calcular o valor dessa estatística. Testamos a existência do efeito de regressão entre 
duas variáveis em estudo. A hipótese nula é de não existência de regressão, enquanto a 
hipótese alternativa é aquela que contempla a regressão. 
Exemplo: 
podemos usar essa equação para prever a expectativa de produção de açúcar com base no 
preço a seguir: US$ 15,00. 
Solução:devemos substituir cada renda em x na equação. 
Calculando o valor previsto y^: y^ = 23.508,98 + 663,29X = 23.508,98 + 663,29 x 15,00 = 
33.458,33 
Quando o preço for de US$ 15,00, a produção de açúcar chegará a 33.458 mil toneladas. 
Os valores previstos têm sentido somente para valores de x no intervalo de dados (8,00 a 
25,00 dólares) ou próximos a eles. 
 
Intervalos de previsão 
Uma vez que as equações de regressão são determinadas usando dados amostrais e supõe-se 
que x e y tenham uma distribuição normal bivariada, podemos construir um intervalo de 
previsão para o verdadeiro valor de y. 
Duas variáveis terão uma distribuição normal bivariada se, para cada valor fixo de x, os valores 
correspondentes de y tiverem distribuição normal e, para cada valor fixo de y, os valores 
correspondentes de x forem normalmente distribuídos. 
 
Anova (análise de variância) 
É a análise dos pressupostos básicos e validação dos testes estatísticos no grau de ajustamento 
de um modelo de regressão. 
Pelo diagrama de dispersão, é possível visualizar se as relações entre as variáveis X e Y são 
lineares através de uma reta ajustada aos pontos observados. Entre as causas de 
autocorrelação, se erramos na escolha da equação a ser ajustada aos pontos observados e em 
vez de escolhermos uma relação não linear optamos por ajustar uma reta, o gráfico dos 
resíduos irá mostrar uma tendência positiva (ou negativa), significando que uma outra função 
(não linear) deveria ser escolhida. Outra situação é a seguinte: se por acaso uma variável 
explicativa (X) de grande importância for omitida do modelo, a tendência dessa variável 
passará a constar, a refletir no comportamento do resíduo. 
A autocorrelação serial se baseia na ideia de que os resíduos contêm mais informação sobre a 
variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos 
técnicos, o resíduo ainda pode ser sistematizado. Exemplos de autocorrelação são 
normalmente encontrados em trabalhos que utilizam séries de tempo como dados de análise. 
 
 
AVALIAÇÃO DO CONTEÚDO INFORMACIONAL DOS RESÍDUOS 
A análise de resíduos revela: 
• se a presunção de normalidade da distribuição dos resíduos se confirma; 
• se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em 
torno da reta de regressão é uniforme; 
• se há ou não uma variável não identificada que deve ser incluída no modelo; 
• se a ordem em que os dados foram coletados (por exemplo, tempo da observação) tem 
algum efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no 
modelo; 
• se a presunção de que os resíduos não são correlacionados está satisfeita. 
Na plotagem dos resíduos, para que os dados atendam às premissas, o gráfico anterior deve 
mostrar uma faixa horizontal centrada em torno do zero, sem mostrar uma tendência positiva 
ou negativa, ou seja, os resíduos devem estar distribuídos aleatoriamente em torno de zero, 
sem nenhuma observação discrepante. 
Existe um tópico dentro dos estudos econométricos que trata especificamente da análise dos 
resíduos, um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo 
de regressão com base nos resíduos. 
Para verificar se de fato não há correlação, utilizaremos o teste Durbin-Watson. 
O modelo pressupõe que: 
• a correlação entre os resíduos seja zero; 
• o efeito de uma observação seja nulo sobre a outra; 
• não haja causalidade entre os resíduos e a variável X e, por consequência, a variável Y. 
. O coeficiente de Durbin-Watson mede a correlação entre cada um dos resíduos e o resíduo 
da observação anterior: 
• H0 : não existe correlação serial dos resíduos. 
• H1 : existe correlação serial dos resíduos. 
Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são 
eficientes e apresentam maior erro-padrão. 
 
Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são 
eficientes e apresentam maior erro-padrão. 
São possíveis causas em séries temporais: 
• inércia; 
• viés de especificação: 
— falta de variáveis; 
— forma funcional incorreta. 
• defasagem nos efeitos das variáveis; 
• manuseio dos dados: interpolação/extrapolação. 
A solução é formular corretamente a relação funcional ou tornar a série estacionária. 
Quando resíduos sucessivos são positivamente correlacionados, o valor de DW se aproxima de 
0. Se os resíduos não forem correlacionados, o valor de DW estará próximo de 2. Se existir 
uma autocorrelação negativa, caso mais raro, DW será maior do que 2 (podendo aproximar de 
seu valor máximo, que é 4). 
 
Avaliando a homocedasticidade 
Quando o pressuposto da homocedasticidade está satisfeito, significa que a variância dos 
resíduos é igual a uma constante para todos os valores de X. A variância dos resíduos é 
indicada pela largura da dispersão dos resíduos, quando o valor de x aumenta. Se essa largura 
aumentar ou diminuir quando o valor de x aumentar, a variância não será constante. Esse 
problema é denominado heterocedasticidade. A violação do pressuposto da 
homocedasticidade compromete a eficiência das estimativas do modelo de regressão. 
O teste de Pesaran-Pesaran consiste em detectar a presença de heterocedasticiade com base 
nos resultados da regressão em que a variável dependente representa os valores dos 
quadrados dos resíduos (e2 ) e a variável independente é constituída pelos valores estimados 
da variável dependente (y^). 
Avaliando a normalidade 
Os testes de significância e os intervalos de confiança das estimativas do modelo de regressão 
são baseados no pressuposto da normalidade, isto é, que os resíduos apresentam distribuição 
normal. A violação da normalidade gera estimativas não eficientes, de maior erro-padrão, e 
suas causas podem estar ligadas a alguns aspectos relacionados ao modelo, tais como omissão 
de variáveis explicativas importantes, inclusão de variável explicativa irrelevante para o 
modelo e utilização de relação matemática incorreta (forma funcional) para análise entre as 
variáveis do modelo. 
Utilizaremos o teste não paramétrico do Kolmogorov-Smirnov para avaliar a normalidade e 
testar a proximidade ou a diferença entre a frequência observada e a esperada. 
Hipóteses: H0 : distribuição normal; 
H1 : distribuição não é normal. 
Para a identificação da normalidade nos resíduos, compara-se a distribuição dos resíduos com 
a curva normal através do teste de Jarque-Bera envolvendo a estatística qui-quadrado com 2 
graus de liberdade: 
JB = n . [A2 /6 + (C-3)2 /24] 
Onde: 
A = assimetria; 
C = curtose. 
Neste nosso caso, temos: 
n = número de observações (n = 11); 
A = assimetria (A = - 0,3757); 
C = curtose (C = - 0,9185). 
Os resíduos devem apresentar a mesma variância para cada observação de X. 
Intervalo de confiança para a regressão: duas alternativas 
Quando calculamos o valor de y^ considerando um valor para a variável X, há duas alternativas 
que levam ao mesmo resultado para y^, mas que produzem resultados diferentes com relação 
ao intervalo de confiança. 
Variação em torno de uma reta de regressão 
• Variação total: é a soma dos quadrados das diferenças entre o valor y de cada par ordenado 
e a média de y. 
• Variação explicada: é a soma dos quadrados das diferenças entre cada valor previsto de y e a 
média de y (explicada pela relação X e Y). 
• Variação inexplicada: é a soma dos quadrados das diferenças entre cada valor de y de cada 
par ordenado e cada valor de y previsto correspondente (não pode ser explicada pela relação x 
e y e isso ocorre devido ao acaso ou a outras variáveis). 
Uma propriedade importante é a de que a variabilidade total poderá ser decomposta em duas 
partes: 
• uma, devida aos possíveis efeitos aleatórios (não controlados) que recaiam sobre cada 
experimento, que será definida como variabilidade residual; 
• outra, a variabilidadeatribuída ao efeito da regressão, se este realmente existir.

Continue navegando

Outros materiais