Buscar

AULA 21 - Qualidade do ajuste da Regressão

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Universidade Federal do Rio Grande do Norte 
Centro de Tecnologia - CT 
Departamento de Engenharia de Produção 
ESTATÍSTICA PARA ENGENHARIA 
DE PRODUÇÃO
Prof. Luciano Queiroz
Natal/RN 03/04/14
Sumário
Qualidade do ajuste
Suposições do Modelo
O relacionamento entre y e a variável regressora é linear;
Os termos de erro (e1, e2, ..., en) são variáveis aleatórias 
independentes;
Média dos erros é igual a 0;
Variância dos erros é igual a 2;
Os erros tem distribuição normal (i = 1, 2, ..., n).
• Modelo: yi =  + xi + ei
Qualidade do ajuste
 Ajustou-se uma equação de regressão entre X e Y. E a qualidade do ajuste?
Análise de variância do modelo 
Coeficiente de determinação
análise dos resíduos
 A reta obtida não explica os dados perfeitamente;
 Nem todos os valores da amostra estão contidos na reta e 
quanto mais afastados estiverem pior será a representação 
das amostras;
 A análise da variância envolve dividir a variável y em duas 
partes: a parte explicada pela regressão e a não explicada 
(resíduos). 
 Um valor elevado da variância indica que os pontos estão 
dispersos em relação a reta. Um valor pequeno indica que os 
pontos tendem a ficar próximos a reta.
Análise da variância do modelo
Análise da variância do modelo
x
yyr ii  ˆ
yi
xi
ei di
bxay ˆ
y
yyd ii 
iii yye ˆ
Desvio em relação à 
média aritmética:
Desvio em relação à 
reta de regressão
(resíduo da regressão):
ri
Desvio da equação ajustada
em torno da média
(regressão):
yi
^
Somas de quadrados
SQT
variação total
SQR
variação explicada
pela equação de
regressão
SQE
variação não
explicada pela 
equação
  
2
yyi
= 
  
2ˆ yyi
+    2ˆ ii yy
Somas de quadrados
1 28,80 99,00 
2 27,90 101,10 
3 27,00 102,70 
4 25,20 103,00 
5 22,80 105,40 
6 21,50 107,00 
7 20,90 108,70 
8 19,60 110,80 
9 17,10 112,10 
10 18,90 112,40 
11 16,00 113,60 
12 16,70 113,80 
13 13,00 115,10 
14 13,60 115,40 
15 10,80 120,00 
Observação
Porosidade 
Concreto (y)
Peso Unitário 
Amostra (X)
Observação
Porosidade 
Concreto (y)
Peso Unitário 
Amostra (X)
438,06 
426,62 
11,44 
SQT
SQR
SQE
Medida da qualidade do ajuste:
Coeficiente de 
determinação (R2)
R2 = 
Variação
total
Variação
explicada
=
 (yi - y)
2
 (yi - y)
2^
O R2 é freqüentemente conhecido como a proporção da variação de y 
observada que pode ser explicada pela variável regressora X.
Medida da qualidade do ajuste:
Coeficiente de determinação (R2)
R2 = 
Variação
total
Variação
explicada
=
 (yi - y)
2
 (yi - y)
2^
=
SQR
SQT
0  R2  1
Quanto mais alto é o valor de R2, mais o modelo de regressão linear 
simples consegue explicar a variação de Y.
Medida da qualidade do ajuste:
R2= 0,974
438,06 
426,62 
11,44 
R2 = 
Variação
total
=
 (yi - y)
2
 (yi - y)
2^
=
SQR
SQT
Variação
explicada
Coeficiente de determinação
 Se R2 for pequeno, não existe relação linear entre as
variáveis X e Y
 Se R2 for pequeno, o pesquisador irá desejar encontrar um
modelo alternativo (modelo não linear, de regressão
múltipla, etc.)
Análise dos resíduos:
 Valores preditos:
ii
bxay ˆ
iii
yye ˆ
• Resíduos:
yi
xi
ei
iyˆ
bxay ˆ
Análise dos resíduos
x
y e
x
Gráfico dos dados:
(xi, yi)
Gráfico dos resíduos:
(xi, ei)
As suposições do modelo parecem satisfeitas? Sim, os erros estão
aleatoriamente distribuídos em torno do valor e = 0.
Análise dos resíduos
As suposições do modelo parecem satisfeitas? Não, existe um outlier.
O que pode ser feito? Pode ser um erro, situação atípica (descartar ou corrigir). Fazer
análise sem este(s) valor(es) e verificar se as estimativas dos coeficientes mudam
muito. Fazer uma transformação nos dados, mudar o modelo, coletar mais dados.
Gráfico dos dados:
(xi, yi)
x
y
Gráfico dos resíduos:
(xi, ei)
resídu
o
0
x
Análise dos resíduos
Gráfico dos dados:
(xi, yi)
Gráfico dos resíduos:
(xi, ei)
As suposições do modelo parecem satisfeitas? Não, variância aumentando. O
que pode ser feito? Por exemplo, transformação logarítmica tanto nos valores de
X como nos valores de Y.
x
y e
0
x
Análise dos resíduos
Gráfico dos resíduos: (xi, ei)
As suposições do modelo parecem satisfeitas? Não, modelo não adequado. O
que pode ser feito? fazer transformações em X e/ou Y, por exemplo, fazer uma
transformação logarítmica na variável X ou a transformação 1/X.
resíduo
0 x
Análise dos resíduos
Gráfico dos dados:
(xi, yi)
Gráfico dos resíduos:
(xi, ei)
As suposições do modelo parecem satisfeitas? Não, modelo não está adequado e a
variância está aumentando. O que pode ser feito?
Por exemplo: transformação logarítmica em Y. 
x
y e
0
x
Exercício
Exercício
Exercício
Exercício
24
Testando o coeficiente r
Exemplo: Agora, vejamos um exemplo de um teste de
hipóteses que estuda 15 pares ordenados
selecionados aleatoriamente em que r = 0,548.
Utilizando o processo de cinco passos, podemos
determinar se esse coeficiente de correlação linear é
significativamente diferente de zero no nível de
significância 0,02.
25
Testando o coeficiente r
H0: 𝛽 = 0 e H1: 𝛽 ≠ 0
Estatística do teste: r, com gl = n – 2
𝛼 = 0,02
26
Testando o coeficiente r
27
Análise dos Estimadores
.
yc = a + b.xi
yc = 0,2825 – 0,3109xi
REGRESSÃO DE PCCRÉDITO (Y) SOBRE PCTVM (X)
Os estimadores a e b da equação: 
 são estatisticamente significativos?
 são estatisticamente diferentes de zero?
Teste de significância do modelo 
(Inferência estatística para )
 Estimação de intervalos: Uma variável normal padronizada 
baseia-se na distribuição normal do estimador de mínimos 
quadrados ordinários. Na estatística, a confiabilidade de 
uma estimador é medida pelo seu erro padrão. 
 Por isso, em vez de confiar apenas na estimativa do ponto, 
trabalhamos com a estimativa de intervalo. Este intervalo é 
conhecido como intervalo de confiança.
 1 -  = intervalo de confiança
  = nível de significância
 O intervalo de confiança serve para indicar o valor verdadeiro do
parâmetro populacional com determinado grau de probabilidade.
 Isto é, se eu fizer o procedimento amostral 100 vezes, ao menos em
95 delas, o valor do parâmetro estará dentro do intervalo
informado.
 A reta obtida na amostra é uma das muitas retas possíveis.
Erro Padrão da Estimativa 
 A estimativa de σ é chamada erro padrão da estimativa e é denotada por S.
 
22
ˆ
2






n
SQE
n
yy
S
ii
SQE = variação não
explicada pela equação
Erro Padrão 
 O erro padrão de b indica, aproximadamente, quão distante o 
coeficiente b está do coeficiente da população ϐ devido à 
variabilidade amostral.
 
22
ˆ
2






n
SQE
n
yy
S
ii
2~
ˆ


 n
b
statistic t
s
bb
t
 Estima-se o intervalo de variação de b em torno do parâmetro populacional B
 Utiliza-se a distribuição t , que é a distribuição z ajustada para (n – k) graus de 
liberdade, tendo em vista que o desvio padrão populacional é desconhecido
2 2b bb t S B b t S    
Intervalo de Confiança para o coeficiente b
Exemplo
1 28,80 99,00 
2 27,90 101,10 
3 27,00 102,70 
4 25,20 103,00 
5 22,80 105,40 
6 21,50 107,00 
7 20,90 108,70 
8 19,60 110,80 
9 17,10 112,10 
10 18,90 112,40 
11 16,00 113,60 
12 16,70113,80 
13 13,00 115,10 
14 13,60 115,40 
15 10,80 120,00 
Observação
Porosidade 
Concreto (y)
Peso Unitário 
Amostra (X)
Observação
Porosidade 
Concreto (y)
Peso Unitário 
Amostra (X)
Exemplo
438,06 
426,62 
11,44 
 
94,0
13
44,11
22
ˆ
2







n
SQE
n
yy
S
ii
179.849,73 – 1.640,10/15 = 521,196
Raiz Sxx = 22,83
N = 15
= 0,94/22,83 = 0,041
Intervalo de Confiança para b
•
2 2b bb t S B b t S    
O limite inferior será b – 2,16*Sb = -0,90 – 2,16*0,04 = -0,99
O limite superior será b + 2,16*Sb = -0,90 +2,16*0,04 = -0,82
Exemplo – Erro padrão para a 
21
a e
xx
XS S
n S
  179.849,73 – 1.640,10/15 = 521,196
 
94,0
13
44,11
22
ˆ
2







n
SQE
n
yy
S
ii
Intervalo de confiança para a
•
O limite inferior será a -2,16*Sa = 118,91– 2,16*4,5 = 109,19
O limite superior será a +2,16*Sa = 118,91 +2,16*4,5 = 128,63
38
Testando o coeficiente b
 Será que o modelo de regressão linear obtido é útil para projetar valores de y?
 A hipótese nula estabelece que as variáveis x e y da população não são relacionadas,
isto é, I
 H0: B = 0
 H1: B  0
39
Testando o coeficiente b.
Teste pelo nível de significância
 O teste consiste em comparar o t calculado com o t 
crítico a um dado nível de significância
 cálculo de t =
b - B
Sb
b
Sb
 Como não se conhece o parâmetro, faz-se B = 0
 = então, t calculado = 
 Se ltl calculado > ltl crítico: rejeita H0 e b é válido ≠ 0
 Se ltl calculado < ltl crítico: aceita H0 e b não é válido = 0
Exemplo
b 
Sb
-0,90/0,04 = -22,02
O valor de t tabelado é -2,16. Logo, como o valor de |t| calc é maior que 
|t| tabelado, rejeita-se ho e conclui que b é diferente de zero.
41
Testando o coeficiente b
Com a Região Crítica: Se o Intervalo 
estimado contiver o valor hipotético 
de B, aceita H0, que será, 
estatisticamente igual a zero.
Com o P-VALUE: Se a probabilidade 
estimada for maior que α, aceita H0. 
42
Análise da Regressão
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 90,0% Superior 90,0%
Interseção 0,2825 0,0260 10,862 0,0000 0,2258 0,3391 0,2361 0,3288 
pctvm -0,3109 0,0949 -3,278 0,0066 (0,5176) (0,1043) (0,4800) (0,1419) 
Valor p (p-value)
Consiste em comparar valor p calculado (p-value) com o nível de 
significância requerido pelo pesquisador/consultor
Caso o p-value seja menor que o nível de significância previamente 
estabelecido:
Rejeita-se H0: B é válido, ou seja, diferente de zero
43
Testando a equação da reta
 A distribuição F representa uma análise de variância (ANOVA)
 Quanto maior, mais adequada a reta
 Em regressão simples, F = t2
Variação Explicada
Variação não Explicada
F 
44
F =
 (yc – y)
2
i = 1
n
K - 1
 (yi – yc)
2
i = 1
n
n - k
Onde:
n = nº de observações da amostra
k = nº de amostras /nº de variáveis
(k – 1) graus de 
liberdade
(n – k) graus de 
liberdade
Testando a equação da reta 
.
45
Testando a equação da reta 
.
46
Estatísticas ANOVA
 gl: graus de liberdade para a distribuição F
 SQ: soma dos quadrados dos desvios 
da regressão e dos resíduos
 MQ: média dos quadrados dos desvios (SQ/gl)
MQ da regressão = variância explicada
MQ dos resíduos = variância não explicada
 F: MQ da regressão / MQ dos resíduos
 F de significação: p-value da estatística F 
47
Análise de Regressão
 Análise da Variância
 Notar que F = t2
ANOVA
gl SQ MQ F F de significação
Regressão 1 4.029053 4.029053 7.5247854 0.017827567
Resíduo 12 6.425251 0.535438
Total 13 10.4543
48Análise de Dados - Regressão 
(Excel)
 Ferramentas  Análise de dados  Regressão
 Caixa de diálogo:
 Intervalo Y de entrada: selecionar
 Intervalo X de entrada: selecionar
 Constante é zero: selecionar quando se quiser que a reta passe 
pela origem (a=0)
 Rótulos: marcar quando a seleção dos dados anteriores 
contiver o título da coluna
 Nível de confiança: informar o nível de significância (0,05; 
0,025; etc.)
 Opções de saída: indicar a célula onde se deseja a resposta
49
Testando a equação da reta 
.
50
Testando a equação da reta 
.
51
Testando a equação da reta 
52
Testando a equação da reta 
53
Testando a equação da reta 
54
Intervalo de confiança para a 
regressão
55
Intervalo de confiança para a 
regressão
56
Intervalo de confiança para a 
regressão
57
Testando a equação da reta 
Agora, vejamos como podemos usar todas essas
informações para determinar a variância de y em relação
a ̀ linha de regressão. Suponha que você̂ se mude para
uma nova cidade e encontre um emprego. Natural- mente,
você̂ estará ́ preocupado com os problemas que enfrentará
para ir e voltar do trabalho. Por exemplo, você̂ gostaria de
saber quanto tempo levará para ir de carro até seu
trabalho todas as manhãs. Vamos usar “a distância de ida
para o trabalho” como uma medida de onde você̂ mora.
Você̂ vive a x milhas do trabalho e quer saber quanto
tempo levara ́ para chegar lá ́ todos os dias. Quinze dos seus
colegas de trabalho foram questiona- dos quanto ao
tempo gasto e a distância percorrida para chegar ao
trabalho.
58
Testando a equação da reta 
59
Testando a equação da reta 
60
Testando a equação da reta 
61
Testando a equação da reta 
62
Testando a equação da reta 
 Pela abordagem do r:
 R = 0,878
 Valor-P <<<< 0,01
 Valor-P< 𝛼 (0,05) -> Rejeita-se H0.
63
Inferência
Portanto, 12,44 a 21,30 e ́
o intervalo de confiança
de 95% para μy|x = 7. Isto
é, com 95% de
confiança, o tempo
médio de percurso para
aqueles que viajam 7
milhas (11,27 km) está
entre 12,44 minutos (12
min e 26 s) e 21,30
minutos (21 min e 18 s).

Outros materiais