unidade ll resumo

1

0

1

0

Julia Gabriela Gusmão

28/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.363 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM)
O modelo de regressão linear múltipla (MRLM), no qual a variável Y pode ser explicada por
mais de uma variável, pressupondo uma relação linear entre cada uma das variáveis
independentes e a variável dependente. O modelo de regressão múltipla, por exemplo, com k
variáveis independentes, é expresso na equação:
yi = α + β1 X1i + β2 X2i + β3 X3i + ... + βk Xki + ei , i = 1, ..., n
Em que:
y é a variável dependente;
x1 , x2 , . . . , xk são as variáveis independentes;
k é o número de variáveis independentes no modelo;
i denota as n observações da amostra.
Os parâmetros β1 , β2 , β1 ... βk são desconhecidos, e teremos que estimá-los utilizando,
novamente, o método dos mínimos quadrados ordinários (MMQO), que busca os valores dos
β’s que minimizam a soma dos quadrados dos erros.
Hipóteses
Para estimarmos os parâmetros desconhecidos do nosso modelo em questão, precisamos
elaborar algumas hipóteses.
São elas:
• Linearidade: yi = α + β1 X1i + β2 X2i + β3 X3i + ... + βk Xki + ei , i = 1, ..., n
• Exogeneidade: E[ei | x11, x21, x31, ... xki] = 0. A exigência de que o erro e a variável
explicativa sejam não correlacionados.
• Homocedasticidade: Var[ei | x11, x21, x31, ... xki] = E[ei 2 | x1i, x2i, x3i, ... xki] = σ2 . A
variância do erro é constante, igualdade de variâncias, ou homocedasticidade. Requer que a
variância dos erros (ei ) seja constante em relação a todos os valores de X, isto é, a
variabilidade dos valores de Y é a mesma quando X é um valor baixo ou quando X é um valor
elevado. A igualdade das variâncias é importante para se realizar inferências em relação aos
parâmetros α, βs. Havendo problemas na não confirmação da hipótese de homocedasticidade,
podemos utilizar os modelos de mínimos quadrados ponderados ou as transformações de
dados.
• Não autocorrelação dos erros: Cov[ei , ej | xi , xj ] = E[ei , ej | xi , xj ] = 0. O erro de uma
observação não pode estar correlacionado com o erro de outra observação. Portanto,
covariância é igual a zero (o resultado em qualquer experimento não tem efeito no termo do
erro de qualquer outro experimento). Os erros (ei ) devem ser independentes entre si.
Devemos incluir mais uma hipótese:
Não existe colinearidade perfeita entre as variáveis explicativas. Ou seja, uma variável
explicativa não é função linear perfeita da outra.
O pressuposto da normalidade requer que os erros (ei ) sejam normalmente distribuídos para
cada um dos valores de X. A análise de regressão é relativamente robusta em relação a
afastamentos do pressuposto da normalidade, isto é, desde que a distribuição dos erros em
cada um dos níveis de X não seja extremamente diferente de uma distribuição normal,
inferências em relação aos parâmetros α, βs não serão seriamente afetadas.

No modelo de regressão linear simples, a inclinação β1 representa a alteração na média
aritmética de Y para cada unidade de alteração em X e não leva em consideração nenhuma
outra variável. Entretanto, no modelo de regressão linear múltipla com duas variáveis
independentes, a inclinação β1 representa a alteração na média aritmética de Y para cada
unidade de alteração em X1 , levando-se em consideração o efeito de X2 . A equação a seguir
define o modelo de regressão múltipla com duas variáveis independentes:
yi = α + β1 X1i + β2 X2i + ei , i = 1, ..., n
Em que:
α = intercepto de Y;
β1 = inclinação de Y em relação à variável X1 , mantendo-se constante a variável X2 ;
β2 = inclinação de Y em relação à variável X2 , mantendo-se constante a variável X1 ;
ei = erro aleatório em Y para a observação i.
Os quatro pressupostos de regressão: LINI (Linearidade, Independência dos erros,
Normalidade de erros e Igualdade de variâncias).

Os testes de regressão são de três tipos: de coeficientes, de resíduos e de estabilidade:
• Teste de coeficientes: tipos de testes sobre os coeficientes de uma regressão:
— Variável omitida: determina se uma ou mais variáveis omitidas de uma regressão deveriam
ter sido incluídas ou não (através de uma regressão auxiliar incluindo as variáveis omitidas).
— Variável redundante: determina se uma ou mais variáveis da regressão podem ser excluídas
sem maiores consequências. A hipótese nula é que os coeficientes das variáveis selecionadas
na regressão não são todos estatisticamente diferentes de zero. Se a hipótese for rejeitada, as
variáveis não são redundantes, isto é, não podem ser excluídas da regressão sem
comprometer o nível de explicação da variável dependente.
• Teste de resíduos: tipos de testes sobre os resíduos de uma regressão:
— Normalidade: em geral, os testes existentes para modelos de regressão só são válidos em
amostras pequenas quando se assume que os distúrbios aleatórios têm distribuição normal,
mas há sempre que se ter cuidados com a possibilidade de viés em amostras pequenas.
— Correlograma do resíduo (do resíduo quadrado): esta opção apresenta as autocorrelações
e autocorrelações parciais dos resíduos (ao quadrado) da equação estimada para um número
especificado de defasagens.
— Heterocedasticidade: uma das hipóteses do modelo de regressão é a de
homocedasticidade, isto é, a de que a variância teórica do termo de distúrbio aleatório,
condicional em relação às variáveis independentes, seja constante. Caso contrário, se a
variância muda ao longo de diferentes intervalos de tempo ou em função de variáveis
independentes, temos o caso de heterocedasticidade que acaba invalidando todos os testes de
hipóteses baseados em estatísticas t (Student), F (Snedecor) e qui-quadrado
• Teste de estabilidade: tipos de teste para avaliar se os parâmetros da regressão são estáveis
ao longo do intervalo de estimativa:
— Teste Chow: a estabilidade dos parâmetros é verificada dividindo-se o intervalo da amostra
em duas partes e estimando-se novamente os parâmetros em cada subamostra. O teste
compara a soma dos quadrados dos resíduos da regressão original com a soma dos quadrados
dos resíduos das novas regressões feitas a partir das subamostras. Caso haja uma diferença
significativa nas estimativas, pode-se concluir que houve, a partir do ponto de quebra da
amostra, uma mudança estrutural no relacionamento entre as variáveis do modelo.
— Teste de estabilidade Ramsey RESET: é um teste geral para erros de especificação que
podem ter diversas origens, como variáveis independentes omitidas, forma funcional
incorreta, erros de medida em variáveis, erros de simultaneidade e inclusão de valores
defasados da variável dependente quando os resíduos têm correlação serial.
Exemplo de análise de regressão:
Teoria econômica > Modelo Matemático > Modelo Econométrico> Dados> Estimação do
Modelo> Teste de Hipóteses> Previsão> Aplicação do Modelo
COVARIÂNCIA E COEFICIENTE DE CORRELAÇÃO
A covariância mede a força do relacionamento entre duas variáveis em termos absolutos
através da seguinte equação
Cov (X,Y )=∑ ( x - média de X) x (y- média de Y)/ n 1
A correlação (representada por r) está sempre entre -1 e 1. O valor -1 corresponde à
correlação negativa perfeita e o valor de +1 corresponde à correlação positiva perfeita; já o
coeficiente de correlação (zero) indica que as duas variáveis não estão correlacionadas
linearmente.
O R múltiplo = 0,8778 representa o coeficiente de correlação múltiplo. Lembre-se de que na
regressão linear simples o R múltiplo representa o coeficiente de correlação simples (r), que
mede o grau de relacionamento linear entre duas variáveis, e nos modelos de regressão linear
múltipla o R múltiplo representa o coeficiente de correlação múltiplo (r), que mede o grau de
relacionamento linear entre uma variável e um conjunto de outras variáveis. As técnicas de
análise de correlação e regressão estão intimamente ligadas.
Teste de hipótese para um coeficiente de correlação populacional
Precisamos determinar se existe evidênciasuficiente para decidir que o coeficiente de
correlação populacional ρ é representativo em um nível especificado de significância α (por
exemplo, α = 0,01 significa que em 1% das vezes podemos dizer que o coeficiente de
correlação populacional é significante quando ele realmente não é, ou seja, é o erro que
podemos cometer). Utiliza-se o teste de hipótese para ρ, que pode ser monocaudal ou
bicaudal. O nosso interesse é no teste bicaudal, a seguir especificado:
H0 : ρ = 0 (não existe correlação significativa)
H0 : ρ ≠ 0 (existe correlação significativa)
A distribuição amostral para r é uma distribuição t de Student com n - 2 graus de liberdade.
No exemplo que envolve as duas variáveis, utilizamos onze pares de dados para obtermos r =
0,8778.
Vamos testar a significância desse coeficiente de correlação utilizando α = 0,01:
H0 : ρ = 0 (não existe correlação significativa);
H0 : ρ ≠ 0 (existe correlação significativa).
A distribuição amostral para r = 0,8778 é uma distribuição t com n - 2 graus de liberdade.
Temos 11 - 2 = 9. Uma vez que o teste é bicaudal, α = 0,01 e g. l. = 6, os valores críticos são -
2,26 e 2,26 e as regiões de rejeição são t < - 2,26 e t > 2,26.
Rejeitamos a hipótese nula, visto que t calculado está na região de rejeição. Ao nível de 1%, há
evidência suficiente para concluir que existe uma correlação linear significante entre o preço e
a produção de açúcar.
Correlação e causalidade: é possível que a relação das variáveis tenha sido causada por uma
terceira variável, ou por uma combinação de muitas outras variáveis, mas neste caso a
causalidade se confirma com a base teórica.

Coeficiente de determinação (r2)
O coeficiente de determinação mede o grau de ajustamento da reta de regressão aos dados
observados. Indica a proporção da variação total da variável dependente, que é explicada pela
variação da variável independente.
A análise de correlação se dedica a inferências estatísticas das medidas de associação linear
que se seguem:
• coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento linear entre
duas variáveis;
• coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento linear entre
uma variável e um conjunto de outras variáveis.
As técnicas de análise de correlação e regressão estão intimamente ligadas.
r2 é uma medida descritiva da qualidade do ajustamento obtido, indicando a proporção real
da variância
Para um número fixo n de observações, quanto melhor for o ajuste dos dados, tanto maior
será o valor de r2. Portanto, r2 pode ser visto como uma medida descritiva da qualidade do
ajuste obtido – isto é, a variável independente (X: preço) explica 77% das variações da
produção de açúcar. Ao considerar modelos de regressão múltipla, esse procedimento evita
uma característica do R-quadrado que tende a aumentar sempre que adicionamos novas
variáveis independentes, mesmo que a sua contribuição seja pouca para o poder explicativo da
regressão. Utilizar o R-quadrado ajustado é de extrema importância quando se está
comparando dois ou mais modelos de regressão que estão prevendo a mesma variável
dependente, mesmo tendo um número diferente de variáveis independentes.
Quando um valor de y^ é previsto a partir de um valor de x, a previsão é uma estimativa
pontual. Pretendemos, agora, calcular uma estimativa intervalar para um valor previsto y.
Primeiramente devemos calcular o erro-padrão da estimativa Se, que é o desvio-padrão dos
valores de yi, observados em torno do valor y previsto para um dado valor de xi .
Intuitivamente sabemos que quanto maior é a dispersão entre uma série de números ou
população, maior será a dificuldade de se ajustar uma reta aos pontos. A dispersão pode ser
estimada pela dispersão dos dados amostrais em relação à reta de regressão. O erro-padrão da
estimativa (Se) é uma medida que avalia o grau de precisão da reta de regressão.

Erro-padrão do coeficiente linear (ou do intercepto)
O erro-padrão do intercepto (coeficiente linear da reta α) indica aproximadamente a distância
entre os coeficientes estimados α^ e o coeficiente linear populacional α, devido à dispersão
dos dados amostrais. Assim, quanto menor for o erro Sα^ , melhor será a precisão da
estimativa.

Erro-padrão do coeficiente angular
Analogamente ao Sα^ , o erro do coeficiente Sb^ é a medida aproximada da distância entre a
estimativa b^ e o coeficiente angular populacional b^.

Inferências sobre o coeficiente angular
Em algumas situações, mesmo não havendo relacionamento (causalidade) entre as variáveis
na população, os dados amostrais podem sugerir a existência de relação. Isso ocorre quando,
devido a fatores aleatórios, os dados extraídos da população dispõem-se de forma que seja
possível traçar uma reta em que se ajustam esses pontos. Por essa razão, sempre é preciso
verificar se o modelo linear obtido é realmente significativo (base teórica, a lógica de causa e
efeito).
Então podemos calcular o intervalo de confiança para β com 95% de confiança:
ICβ (95%): ICβ (95%): 663,29 - 2,26 x 120,67 < β < 663,29 + 2,26 x 120,67
ICβ (95%): 390,33 < β < 936,26
Estimamos que o coeficiente angular β pertence ao intervalo [390,33; 936,26] com um nível de
confiança de 95%.
Se o intervalo de confiança para β incluir o zero, não poderemos rejeitar a hipótese nula.
Caso o intervalo definido não inclua o zero, rejeitamos a hipótese nula, admitindo um de erro
(5%), de que há relação significativa entre as variáveis.
No nosso cálculo, o intervalo definido não inclui o zero. Podemos, portanto, rejeitar a hipótese
nula (H0 : β = 0), concluindo, com um nível de confiabilidade de 95%, que há relação
significativa entre as variáveis na população.
Outra maneira de testarmos a hipótese nula (β = 0) é analisar a significância do coeficiente de
regressão.
O valor t de Student pode ser interpretado como o número de desvios-padrões que o
estimador β ^ dista do ponto zero. Quanto maior for essa distância, maior será a chance de β ^
ser diferente de 0, portanto, garantindo a existência do modelo de regressão (relação entre X e
Y).
Para calcular a probabilidade (valor - P) de obtermos uma estatística t igual ou superior a esse
valor, vamos utilizar a função estatística do Excel (DISTT).
Para o nosso caso, valor - P = DISTT (teste; graus de liberdade; caudas).
Onde:
• teste = t teste (Stat-t deve ser inserido com seu valor em módulo, isto é, positivo);
• graus de liberdade = n - k - 1 (graus de liberdade dos resíduos, sendo n o número de
observações e k o número de variáveis independentes);
• caudas = o teste do valor-P bicaudal deve ser sempre igual a 2.
Nível de significância do teste α (erro permitido):
• valor - P = DISTT (5,50; 9; 2) retorna o valor 0,0003817, de modo que:
— se o valor - P for ≤ α, rejeitaremos a hipótese nula;
— se o valor - P for > α, aceitaremos a hipótese nula.
O erro permitido é de 5% (α = 0,05). Assim, o valor-P é bem menor que 0,05. Significa
rejeitarmos a hipótese nula (H0 : β = 0) de que não há associação entre X e Y.

Teste de hipótese
É importante também aplicarmos o teste de hipótese ao nosso modelo de regressão.
A hipótese nula é:
os valores de x não têm qualquer relacionamento com os valores de y.
Veja:
H0 : β = 0;
H1 : β ≠ 0 (teste bilateral).
A hipótese nula é confirmada pela equação Y ^ i = a + bXi + ei , quando se constata que não
haverá qualquer relação entre x e y se o verdadeiro valor do coeficiente angular for zero.
Podemos calcular o valor dessa estatística. Testamos a existência do efeito de regressão entre
duas variáveis em estudo. A hipótese nula é de não existência de regressão, enquanto a
hipótese alternativa é aquela que contempla a regressão.
Exemplo:
podemos usar essa equação para prever a expectativa de produção de açúcar com base no
preço a seguir: US$ 15,00.
Solução:devemos substituir cada renda em x na equação.
Calculando o valor previsto y^: y^ = 23.508,98 + 663,29X = 23.508,98 + 663,29 x 15,00 =
33.458,33
Quando o preço for de US$ 15,00, a produção de açúcar chegará a 33.458 mil toneladas.
Os valores previstos têm sentido somente para valores de x no intervalo de dados (8,00 a
25,00 dólares) ou próximos a eles.

Intervalos de previsão
Uma vez que as equações de regressão são determinadas usando dados amostrais e supõe-se
que x e y tenham uma distribuição normal bivariada, podemos construir um intervalo de
previsão para o verdadeiro valor de y.
Duas variáveis terão uma distribuição normal bivariada se, para cada valor fixo de x, os valores
correspondentes de y tiverem distribuição normal e, para cada valor fixo de y, os valores
correspondentes de x forem normalmente distribuídos.

Anova (análise de variância)
É a análise dos pressupostos básicos e validação dos testes estatísticos no grau de ajustamento
de um modelo de regressão.
Pelo diagrama de dispersão, é possível visualizar se as relações entre as variáveis X e Y são
lineares através de uma reta ajustada aos pontos observados. Entre as causas de
autocorrelação, se erramos na escolha da equação a ser ajustada aos pontos observados e em
vez de escolhermos uma relação não linear optamos por ajustar uma reta, o gráfico dos
resíduos irá mostrar uma tendência positiva (ou negativa), significando que uma outra função
(não linear) deveria ser escolhida. Outra situação é a seguinte: se por acaso uma variável
explicativa (X) de grande importância for omitida do modelo, a tendência dessa variável
passará a constar, a refletir no comportamento do resíduo.
A autocorrelação serial se baseia na ideia de que os resíduos contêm mais informação sobre a
variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos
técnicos, o resíduo ainda pode ser sistematizado. Exemplos de autocorrelação são
normalmente encontrados em trabalhos que utilizam séries de tempo como dados de análise.

AVALIAÇÃO DO CONTEÚDO INFORMACIONAL DOS RESÍDUOS
A análise de resíduos revela:
• se a presunção de normalidade da distribuição dos resíduos se confirma;
• se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em
torno da reta de regressão é uniforme;
• se há ou não uma variável não identificada que deve ser incluída no modelo;
• se a ordem em que os dados foram coletados (por exemplo, tempo da observação) tem
algum efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no
modelo;
• se a presunção de que os resíduos não são correlacionados está satisfeita.
Na plotagem dos resíduos, para que os dados atendam às premissas, o gráfico anterior deve
mostrar uma faixa horizontal centrada em torno do zero, sem mostrar uma tendência positiva
ou negativa, ou seja, os resíduos devem estar distribuídos aleatoriamente em torno de zero,
sem nenhuma observação discrepante.
Existe um tópico dentro dos estudos econométricos que trata especificamente da análise dos
resíduos, um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo
de regressão com base nos resíduos.
Para verificar se de fato não há correlação, utilizaremos o teste Durbin-Watson.
O modelo pressupõe que:
• a correlação entre os resíduos seja zero;
• o efeito de uma observação seja nulo sobre a outra;
• não haja causalidade entre os resíduos e a variável X e, por consequência, a variável Y.
. O coeficiente de Durbin-Watson mede a correlação entre cada um dos resíduos e o resíduo
da observação anterior:
• H0 : não existe correlação serial dos resíduos.
• H1 : existe correlação serial dos resíduos.
Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são
eficientes e apresentam maior erro-padrão.

Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são
eficientes e apresentam maior erro-padrão.
São possíveis causas em séries temporais:
• inércia;
• viés de especificação:
— falta de variáveis;
— forma funcional incorreta.
• defasagem nos efeitos das variáveis;
• manuseio dos dados: interpolação/extrapolação.
A solução é formular corretamente a relação funcional ou tornar a série estacionária.
Quando resíduos sucessivos são positivamente correlacionados, o valor de DW se aproxima de
0. Se os resíduos não forem correlacionados, o valor de DW estará próximo de 2. Se existir
uma autocorrelação negativa, caso mais raro, DW será maior do que 2 (podendo aproximar de
seu valor máximo, que é 4).

Avaliando a homocedasticidade
Quando o pressuposto da homocedasticidade está satisfeito, significa que a variância dos
resíduos é igual a uma constante para todos os valores de X. A variância dos resíduos é
indicada pela largura da dispersão dos resíduos, quando o valor de x aumenta. Se essa largura
aumentar ou diminuir quando o valor de x aumentar, a variância não será constante. Esse
problema é denominado heterocedasticidade. A violação do pressuposto da
homocedasticidade compromete a eficiência das estimativas do modelo de regressão.
O teste de Pesaran-Pesaran consiste em detectar a presença de heterocedasticiade com base
nos resultados da regressão em que a variável dependente representa os valores dos
quadrados dos resíduos (e2 ) e a variável independente é constituída pelos valores estimados
da variável dependente (y^).
Avaliando a normalidade
Os testes de significância e os intervalos de confiança das estimativas do modelo de regressão
são baseados no pressuposto da normalidade, isto é, que os resíduos apresentam distribuição
normal. A violação da normalidade gera estimativas não eficientes, de maior erro-padrão, e
suas causas podem estar ligadas a alguns aspectos relacionados ao modelo, tais como omissão
de variáveis explicativas importantes, inclusão de variável explicativa irrelevante para o
modelo e utilização de relação matemática incorreta (forma funcional) para análise entre as
variáveis do modelo.
Utilizaremos o teste não paramétrico do Kolmogorov-Smirnov para avaliar a normalidade e
testar a proximidade ou a diferença entre a frequência observada e a esperada.
Hipóteses: H0 : distribuição normal;
H1 : distribuição não é normal.
Para a identificação da normalidade nos resíduos, compara-se a distribuição dos resíduos com
a curva normal através do teste de Jarque-Bera envolvendo a estatística qui-quadrado com 2
graus de liberdade:
JB = n . [A2 /6 + (C-3)2 /24]
Onde:
A = assimetria;
C = curtose.
Neste nosso caso, temos:
n = número de observações (n = 11);
A = assimetria (A = - 0,3757);
C = curtose (C = - 0,9185).
Os resíduos devem apresentar a mesma variância para cada observação de X.
Intervalo de confiança para a regressão: duas alternativas
Quando calculamos o valor de y^ considerando um valor para a variável X, há duas alternativas
que levam ao mesmo resultado para y^, mas que produzem resultados diferentes com relação
ao intervalo de confiança.
Variação em torno de uma reta de regressão
• Variação total: é a soma dos quadrados das diferenças entre o valor y de cada par ordenado
e a média de y.
• Variação explicada: é a soma dos quadrados das diferenças entre cada valor previsto de y e a
média de y (explicada pela relação X e Y).
• Variação inexplicada: é a soma dos quadrados das diferenças entre cada valor de y de cada
par ordenado e cada valor de y previsto correspondente (não pode ser explicada pela relação x
e y e isso ocorre devido ao acaso ou a outras variáveis).
Uma propriedade importante é a de que a variabilidade total poderá ser decomposta em duas
partes:
• uma, devida aos possíveis efeitos aleatórios (não controlados) que recaiam sobre cada
experimento, que será definida como variabilidade residual;
• outra, a variabilidadeatribuída ao efeito da regressão, se este realmente existir.