Correlacao e Regressao

breadcrumb-separator

UFRGS

bianca windberg

em 25/03/2018

Conteúdos escolhidos para você

Tarefa 2 (2)

ESTÁCIO

TEMA 10 - Correlação e Regressão

UNICARIOCA

04_Estatistica

UFRJ

Análise Preditiva

Análise Preditiva

Bioestatistica resumo

Bioestatistica resumo

UVV

Perguntas dessa disciplina

Durante o acompanhamento da produção de milho em duas áreas experimentais, um pesquisador observou que, conforme aumentava a dose de nitrogênio apl...

UNIASSELVI

avaliação de experimentação agrícola Durante o acompanhamento da produção de milho em duas áreas experimentais, um pesquisador observou que, confor...

UNEMAT

3. Na engenharia de irrigação, a eficiência do uso da água depende da modelagem precisa da resposta biométrica da planta. A correlação de Pearson e a

UNIASSELVI

1. Em um estudo sobre produtividade de feijão, um grupo de pesquisadores avaliou a relação entre a quantidade de irrigação semanal (em milímetros) ...

Uniasselvi

7. Um engenheiro agrônomo construiu um modelo de regressão linear simples para relacionar a dose di de nitrogênio aplicada (em kg/ha) à produtivida...

Uniasselvi

Material

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

Tarefa 2 (2)

ESTÁCIO

TEMA 10 - Correlação e Regressão

UNICARIOCA

04_Estatistica

UFRJ

Análise Preditiva

Análise Preditiva

Bioestatistica resumo

Bioestatistica resumo

UVV

Perguntas dessa disciplina

Durante o acompanhamento da produção de milho em duas áreas experimentais, um pesquisador observou que, conforme aumentava a dose de nitrogênio apl...

UNIASSELVI

avaliação de experimentação agrícola Durante o acompanhamento da produção de milho em duas áreas experimentais, um pesquisador observou que, confor...

UNEMAT

3. Na engenharia de irrigação, a eficiência do uso da água depende da modelagem precisa da resposta biométrica da planta. A correlação de Pearson e a

UNIASSELVI

1. Em um estudo sobre produtividade de feijão, um grupo de pesquisadores avaliou a relação entre a quantidade de irrigação semanal (em milímetros) ...

Uniasselvi

7. Um engenheiro agrônomo construiu um modelo de regressão linear simples para relacionar a dose di de nitrogênio aplicada (em kg/ha) à produtivida...

Uniasselvi

Prévia do material em texto

1
� Coeficiente de Correlação
� Regressão Linear Simples
Inferência Estatística
Correlação e Regressão
Profª Lisiane Selau
Correlação
� Os testes de hipóteses vistos até agora analisam 
informações referentes a uma única variável, porém 
frequentemente estamos interessados em analisar o 
comportamento conjunto de duas variáveis.
� Com duas variáveis também pode ser de interesse 
conhecer se elas têm algum tipo de associação entre si.
� se valores baixos (altos) de uma das variáveis implicam 
em valores altos (ou baixos) da outra variável. 
Exemplos:
� relação entre a altura dos pais e a altura dos filhos,
� relação entre renda familiar e número de filhos.
2
Profª Lisiane Selau
�Uma forma bastante útil de se observar a relação entre 
duas variáveis é o gráfico de dispersão. 
�Em geral vamos supor que há uma variável dependente 
(Y) que depende de outra variável preditora (X).
�O diagrama de dispersão fornece uma ideia do tipo de 
relacionamento entre as duas variáveis. 
� pais altos (X) e filhos altos (Y), 
� renda familiar alta (X) e baixo número de filhos (Y).
Gráfico de Dispersão
3
Profª Lisiane Selau
Exemplo: Observe os seguintes diagramas de dispersão que 
dizem respeito ao número do calçado (tamanho da sapatilha) e 
a altura dos atletas que estão a escalar uma montanha e, no 
segundo caso, à relação entre a altitude e a temperatura.
4
Pode concluir-se que há uma relação entre a altura de uma pessoa e o 
número de sapatilha que usa?
À medida que se subia a montanha a temperatura subia ou descia?
Profª Lisiane Selau
4
Exemplo:
Após uma regulagem eletrônica um veículo apresenta um
rendimento ideal no que tange a consumo de
combustível. Contudo, com o passar do tempo esse
rendimento vai se degradando. Os dados a seguir
representam o rendimento medido mês a mês após a
regulagem.
X: meses após a regulagem 1 2 3 4 5 6 
Y: rendimento 10,7 10,9 10,8 9,3 9,5 10,4 
X: meses após a regulagem 7 8 9 10 11 12 
Y: rendimento 9,0 9,3 7,6 7,6 7,9 7,7 
5
Profª Lisiane Selau
Rendimento de combustível
6
Tempo após a regulagem
Co
0 2 4 6 8 10 12
7
8
9
10
11
12
Profª Lisiane Selau
Coeficiente de Correlação de Pearson
(
S x y
n
x y
xy i i
i i
= -∑
∑∑ )( )
n
S x x
xx i
i
= -∑
∑2
2( )
-S y
n
y
yy i
i= ∑
∑2
2( )
yyxx
xy
SS
S
r
×
=
7
� Para uma amostra de n pares de valores (x,y) o
coeficiente de correlação linear de Pearson r fornece
uma medida da relação linear que existe entre duas
variáveis X e Y.
Profª Lisiane Selau
Apesar de r ser um valor adimensional, ele não é uma taxa e, 
portanto, o resultado não deve ser expresso em percentagem. 
� r positivo ⇒ correlação positiva entre x e y
� r negativo ⇒ correlação negativa entre x e y
� r próximo de 0 indica uma correlação fraca entre x e y
Interpretação do coeficiente
r Interpretação da correlação
0 a 0,40 Fraca
0,40 a 0,60 Regular
0,60 a 0,80 Boa
0,80 a 0,99 Forte
1 Perfeita
8
Profª Lisiane Selau
9
Interpretação do coeficiente
r=+1
Positiva perfeita
r=+0,9
Positiva forte
r=+0,1
Positiva fraca
r=-1
Negativa perfeita
r= -0,5
Negativa regular
Profª Lisiane Selau
10
Interpretação do coeficiente
r=0 r=0 r=0
Profª Lisiane Selau
11
Exercício:
Observe os seguintes 
diagramas de dispersão.
1 Indique, pela letra correspondente, aqueles em que se observa:
a) uma associação positiva;
b) uma associação negativa.
2 Indique, pela letra correspondente, o diagrama em que não há 
uma associação clara entre as duas variáveis.
Profª Lisiane Selau
11
12
Exercício:
Observe os diagramas de dispersão.
Em qual deles lhe parece haver um maior grau de associação 
entre as variáveis x e y ?
Explique o seu raciocínio.
Profª Lisiane Selau
12
Voltando ao exemplo: cálculos iniciais
Meses(X) Rendimento(Y) X^2 Y^2 X*Y
1 10,7 1 114,49 10,7
2 10,9 4 118,81 21,8
3 10,8 9 116,64 32,4
4 9,3 16 86,49 37,2
5 9,5 25 90,25 47,5
6 10,4 36 108,16 62,4
7 9 49 81 63
8 9,3 64 86,49 74,4
9 7,6 81 57,76 68,4
10 7,6 100 57,76 76
11 7,9 121 62,41 86,9
12 7,7 144 59,29 92,4
78 110,7 650 1039,55 673,1
6,5 9,225
Σxi = 78 Σxi2 = 650
Σyi = 110,7 Σyi2 = 1039,55 Σxi yi = 673,1
13
Profª Lisiane Selau
Cálculos 
Interpretação: Existe uma correlação linear inversa na amostra
entre tempo após a regulagem e rendimento; passa o tempo e diminui o
rendimento do combustível. A intensidade desta correlação é forte.
( ) ( ) 143/1278650nxxS 22i2ixx =−=−=∑ ∑
( ) ( ) 18,34/12110,71039,55nyyS 22i2iyy =−=−=∑ ∑
( )( ) 46,45110,7)/12(78673,1nyxyxS iiiixy −=×−=−=∑ ∑∑
0,907
18,34 x 143
46,45
SS
S
r
yyxx
xy
−=
−
=
×
=
14
Σxi = 78 Σxi2 = 650
Σyi = 110,7 Σyi2 = 1039,55 Σxi yi = 673,1
Profª Lisiane Selau
15
Correlação ≠≠≠≠ Causalidade
� O coeficiente de correlação não mede a relação causa e 
efeito entre as variáveis, apesar de que essa relação possa 
estar presente.
� Um exemplo é a forte correlação positiva entre as vendas 
anuais de chicletes e a taxa de criminalidade nos EUA. 
� Obviamente, não podemos concluir que haja a relação de 
causa e efeito e que para reduzir a taxa de criminalidade 
bastaria proibir a venda de chicletes. 
� O que se observa é que as duas variáveis são dependentes 
do tamanho da população, e é essa relação mútua com a 
terceira variável (tamanho da população) que produz a 
correlação forte e positiva entre a venda de chicletes e a 
incidência de crimes nos EUA. 
Profª Lisiane Selau
� Observada uma amostra de seis pares, pode-se perceber que
a correlação é quase um, isto é, r ≅ 1. No entanto, observe o que
ocorre quando mais pontos são acrescentados, isto é, quando se
observa a população!
Teste de hipótese para coeficiente de correlação
16
0
10
20
30
40
50
10 15 20 25 30
r r r r ≅≅≅≅ 1111
ρ ρ ρ ρ ≅≅≅≅ 0000
Profª Lisiane Selau
16
� Uma correlação amostral não significa necessariamente uma
correlação populacional. É necessário testar o coeficiente de
correlação para verificar se a correlação amostral é também
populacional.
� A hipótese da existência de uma relação entre X e Y, pode ser
formulada usando-se:
H0 : ρ = 0 (não existe correlação)
HA : ρ ≠ 0 (existe correlação)
onde a letra ρ é usada para representar o valor populacional do
coeficiente de correlação. Pode ser demonstrado que o valor da
estatística T pode ser calculado usando:
2n2
t~
r1
2nrT
−
−
−
=
Teste de hipótese para coeficiente de correlação
17
Profª Lisiane Selau
0-tαααα/2 tαααα/2
αααα/2 αααα/2
Teste de hipótese para coeficiente de correlação
� Assim a hipótese da existência de uma relação entre X e Y
pode ser verificada diretamente a partir do valor amostral do
coeficiente de correlação. Assim, a hipótese nula será
rejeitada se o valor t calculado for maior que o tabelado:
� Para o exemplo em estudo tem-se:
ou seja, descarta-se a hipótese nula e conclui-se que deve
existir correlação entre as variáveis estudadas.
2n/2,tt −> α
0,0,025;102
H se-rejeita 2,228t6,82
0,907)(1
2120,907t ⇒=>−=
−−
−−
=
18
Profª Lisiane Selau
19
Outro exemplo: Suponha que uma amostra de n = 12, alunos 
forneceu um coeficiente de correlação amostral de r = 0,66, entre 
X = “nota em cálculo” e Y = “nota em estatística”. Verifique se é 
possível afirmar que uma nota boa em cálculo está relacionada 
com uma nota boa em estatística a 5% de significância.
19
H0 : ρ = 0
HA : ρ ≠ 0
2r1
2nrt
−
−
= 2,778
0,661
2120,66
2
=
−
−
=
2,228-2,228
� α = 5% e ν = n - 2 = 10
Conclusão: Rejeita-se H0, isto é, a 5% de significância, pode-
se afirmar que a notade cálculo deve estar relacionada com 
a de estatística.
Profª Lisiane Selau
19
20
Outra opção de análise é trabalhar com a significância do 
resultado obtido (2,778), isto é, o valor p. Para isto, deve-se 
calcular P(|t10| > 2,778). Utilizando o Excel, tem-se:
20
Conclusão: Como a significância do resultado (1,95%) é menor 
que a significância do teste (5%) é possível rejeitar a hipótese nula.
Profª Lisiane Selau
20
21
Exercício:
Considere os dados abaixo, referentes às variáveis vendas 
e espaço nas prateleiras (em cm2) para produtos.
Calcule o valor do coeficiente de correlação, interprete e 
teste sua significância a 5%.
Espaço (X): 340 230 405 325 280 195 265 300 350 410
Vendas (Y): 71 65 83 74 67 56 57 78 84 65 
r = 0,6420
tc = 2,368 e ttab = 2,306
21
Profª Lisiane Selau
Regressão Linear Simples
� Em muitos problemas há duas ou mais variáveis que são
relacionadas, e pode ser importante modelar essa relação.
� Por exemplo, pode-se ter interesse em predizer
� as vendas futuras de um produto em função do seu preço,
� a perda de peso de uma pessoa em decorrência do número de
dias que se submete a uma determinada dieta,
� a despesa de uma família com médico e remédios em função da
renda,
� o consumo per capita de certos alimentos em função do seu valor
nutritivo e do gasto com propaganda na TV,
� a produção de uma determinada cultura em função da quantidade
de nutriente aplicada no solo.
Profª Lisiane Selau
22
� Outro exemplo, as vendas de um produto podem estar
relacionadas ao valor gasto em marketing com esse produto. Assim,
é possível construir um modelo relacionando vendas a gastos com
marketing, e então pode-se usar esse modelo para fins previsão de
vendas.
� Em geral vamos supor que há uma variável dependente (ou
variável de resposta) Y que depende de uma variável preditora (ou
variável explicativa) X.
�A regressão linear simples estima uma equação matemática (ou
modelo) que dado o valor de X (variável preditora), prevê o valor de
Y (variável dependente).
� É dito regressão linear simples, pois supõe-se tendência linear
entre as variáveis e simples por ser uma única variável preditora.
Profª Lisiane Selau
23
� Modelo de regressão linear simples
Y = β0 + β1 X + ε erro aleatório
� O coeficiente β0 é a interseção (valor de Y para X = 0).
�O coeficiente β1 é a inclinação da reta, que pode ser positiva,
negativa ou nula.
� Se há n pares de dados (y1, x1), ..., (yn, xn) é possível estimar
os parâmetros β0 e β1 usando o Método dos Mínimos
Quadrados.
� Temos então , estimativas amostrais de β0 e β1. O
uso do método conduz às seguintes estimativas:
XY 1ββ ˆˆ −=0
10 ββ ˆˆ e 
( )( )
( )∑ ∑
∑ ∑∑
−
−
=
nxx
nyxyx
2
i
2
i
iiii
1βˆ
Profª Lisiane Selau
24
Exemplo: Após uma regulagem eletrônica um veículo
apresenta um rendimento ideal no que tange a consumo
de combustível. Contudo, com o passar do tempo esse
rendimento vai se degradando. Os dados a seguir
representam o rendimento medido mês a mês após a
regulagem. Ajuste um modelo linear a esses dados.
X:meses após a regulagem 1 2 3 4 5 6
Y : rendimento 10,7 10,9 10,8 9,3 9,5 10,4
X:meses após a regulagem 7 8 9 10 11 12
Y : rendimento 9,0 9,3 7,6 7,6 7,9 7,7
Profª Lisiane Selau
25
Rendimento de combustível
Tempo após a regulagem
Co
0 2 4 6 8 10 12
7
8
9
10
11
12
Profª Lisiane Selau
26
Cálculos iniciais
Meses(X) Rendimento(Y) X^2 Y^2 X*Y
1 10,7 1 114,49 10,7
2 10,9 4 118,81 21,8
3 10,8 9 116,64 32,4
4 9,3 16 86,49 37,2
5 9,5 25 90,25 47,5
6 10,4 36 108,16 62,4
7 9 49 81 63
8 9,3 64 86,49 74,4
9 7,6 81 57,76 68,4
10 7,6 100 57,76 76
11 7,9 121 62,41 86,9
12 7,7 144 59,29 92,4
78 110,7 650 1039,55 673,1
6,5 9,225
Σ x = 78 Σ x2 = 650
Σ y = 110,7 Σ y2 = 1039,55
Σ x y = 673,1
6,50X =
9,225Y =
Profª Lisiane Selau
27
Estimativa dos parâmetros:
= -46,45 / 143,00 = -0,325
= 9,225 - (-0,325) 6,50 = 11,34
Equação de regressão
Y = 11,34 - 0,325 X
6,50X =
9,225Y =
Σ x = 78 Σ x2 = 650
Σ y = 110,7 Σ x y = 637,1
Cálculos
( )( )
( )∑ ∑
∑ ∑∑
−
−
=
nxx
nyxyx
2
i
2
i
iiii
1βˆ
XY 1ββ ˆˆ −=0
( ) ( ) 143/1278650nxx 22i2i =−=−∑ ∑
1βˆ
0βˆ
( )( ) 46,45110,70)/12(78673,1nyxyx iiii −=×−=−∑ ∑∑
Profª Lisiane Selau
28
Coeficiente de Determinação
r2 é conhecido como Coeficiente de Determinação
r2 = quadrado do coeficiente de correlação r
r2 equivale a proporção da variância dos valores de Y que
pode ser atribuída à regressão com a variável X.
� Para o exemplo, resultou r2 =(-0,907)2 = 0,82, ou seja,
82% da variabilidade nos resultados de rendimento de
combustível pode ser devida ao tempo decorrido após a
regulagem.
18% da variabilidade total é devido a outros fatores que
não foram investigados.
Profª Lisiane Selau
29
Variância dos Estimadores
Para verificar a precisão das estimativas, determinar
intervalos de confiança e testar hipóteses é importante
conhecer a variância dos estimadores.
Uma estimativa da variância residual, σ2, vem dada por
S2 = SQR / (n-2), onde
E a partir de S2 obtém-se as estimativas das variâncias
de b1 e b0 :






+=
=
XX
2
22
0 b
XX
22
1 b
S
X
n
1SS
SSS
XY1YY SbSSQR −=
Profª Lisiane Selau
30
Intervalos de Confiança e Testes de Hipótese
Como os resíduos de Y supostamente seguem a
distribuição Normal, e como os valores de a e b são
funções lineares de Y:
Esses resultados podem ser usados em testes de hipótese.
Por exemplo, se a hipótese é:
então calcula-se:
t = (b1 - β10) / Sb1
� H0 é rejeitada se .
( ) ( )21 1120 00 , , bb NbNb σβσβ →→
0
0
11
110
:
:
ββ
ββ
≠
=
AH
H
2n,2/tt −α>
Profª Lisiane Selau
31
O intervalo de confiança para β1 virá dado por
Uma hipótese testada com frequência é:
Isto é, testa-se se a inclinação é igual a zero, o que
equivale a testar se existe uma relação entre Y e X.
t = (b1 - β10) / Sb1 � t = b1 / Sb1
que deve ser comparado com o valor tabelado .
Como sempre, H0 será rejeitado se .
2n,2/t −α
22 −> ,nα/tt
1 b2/111 b2/1 StbStb αα +<β<−
0:
0:
1
10
≠
=
β
β
 
 
AH
H
Profª Lisiane Selau
32
� Usando os dados do problema do consumo de
combustível, obtenha as estimativas para a variância
residual e para a variância dos parâmetros b0 e b1.
Construa um intervalo de confiança para a inclinação
b1 e verifique a hipótese .
Estimativa das variâncias
SQR S b SYY XY= − =1 3 24,
 0,351=S ; 123,0
S
X
n
1SS
0476,0S ; 00227,0S/SS
569,0S ; 324,0)2n/(SQRS
0 b
XX
2
22
0 b
1 bXX
22
1 b
2
=







+=
===
==−=
Profª Lisiane Selau
33
Intervalo de confiança para b1
t0,025;10 = 2,228
-0,325 - 2,228 (0,0476)< β1 < -0,325 + 2,228 (0,0476)
-0,431< β1 < -0,219
Como esse intervalo não inclui o zero, a hipótese β1 = 0
é rejeitada, ou seja, existe uma relação entre o
consumo de combustível e o tempo decorrido após a
regulagem.
Profª Lisiane Selau
34
Previsão de valores de Y
� A análise de regressão produz uma relação entre as
variáveis consideradas, a qual pode ser usada para
prever valores de Y.
� Dado um certo valor de X = x0, há dois tipos de
previsão: previsão de um valor médio de Y e previsão
de um valor individual de Y.
� Nos dois casos a estimativa pontual de Y é a mesma,
mas a amplitude do intervalo de confiança é diferente.
� O intervalo de confiança é mais amplo para o caso de
previsões de valores individuais.
Profª Lisiane Selau
35
Previsão de um valor médio de Y
� A variância da previsão de um valormédio de Y vem
dada por:
�Como pode ser visto, a variância da previsão é mínima
quando x0 = e aumenta quando x0 afasta-se de .
� Assim, o intervalo de confiança para a previsão de um
valor médio virá dado por:
µY = (b0 + b1 X0) ± tα/2 ; n-2 p YS
X X
( )








−
+=
XX
2
022
pY S
Xx
n
1SS
Profª Lisiane Selau
36
� A variância da previsão de valores individuais de Y
segue o mesmo comportamento observado para os
valores médios. Contudo, a variância é maior no caso de
valores individuais.
� A variância da previsão de um valor individual de Y vem
dada por:
� De modo que o intervalo de confiança para a previsão
de um valor individual de Y é:
Y = (b0 + b1 X0) ± tα/2 ; n-2
( )








−
++=
XX
2
022
Yp S
Xx
n
11SS
p YS
Previsão de um valor individual de Y
Profª Lisiane Selau
37
Usando os dados do problema do consumo de
combustível, obtenha os intervalos de confiança de
95% para a previsão de um valor médio e um valor
individual de Y para um tempo x0 = 8 meses.
Y = 11,34 - 0,325 X = 8,74 ; = 0,0157( )
XXS
X 20 −x
597,0S ; 356,00157,0
12
11324,0S
179,0S ; 0321,00157,0
12
1324,0S
p Y
2
p Y
p Y
2
p Y
==


 ++=
==


 +=
Profª Lisiane Selau
38
� Valor médio para x0 = 8 
µY = 8,74 ± 2,228 . (0,179)
µY = 8,74 ± 0,399 ⇒ (8,341 – 9,139)
� Valor individual para x0 = 8 
Y = 8,74 ± 2,228 . (0,597)
Y = 8,74 ± 1,33 ⇒ (7,41 – 10,07)
Tempo após a regulagem
Co
0 2 4 6 8 10 12
7
8
9
10
11
12
Profª Lisiane Selau
39
Análise da Validade do Modelo
A adequação do ajuste e as suposições do modelo podem
ser verificadas através de uma análise dos resíduos. Os
resíduos padronizados são calculados como:
Ri =
Adequação do ajuste
A adequação do ajuste é testada plotando os resíduos em
função de X. Se o ajuste for bom, os resíduos seguirão
um padrão aleatório. Caso contrário, alguma tendência
curvilínea será observada.
( )y b b x
S
i i− +0 1 XY1YY
SbSSQR −=
2n/SQRS2 −=
Profª Lisiane Selau
40
Na figura a seguir, (a) representa uma situação onde o
ajuste é adequado, enquanto (b) representa uma situação
onde o modelo linear não se ajusta bem aos dados.
X
Re
0 4 8 12 16 20
-2
-1
0
1
2
Re
0 4 8 12 16 20
-2
-1
0
1
2
X
(a) (b)
Figura 10.3: Análise de Resíduos
Profª Lisiane Selau
41
X
Re
0 4 8 12 16 20
-2
-1
0
1
2
(a)
X
Re
0 4 8 12 16 20
-3
-2
-1
0
1
2
3
(b)
Figura 10.4: Verificação da Homogeneidade da Variança
Homogeneidade da variância
� A suposição de homogeneidade da variância σ2 ao
longo de todo o intervalo de X também pode ser verificada
analisando o gráfico de Resíduos × X.
� A figura a seguir apresenta uma situação (a) onde
verifica-se a suposição de homogeneidade, enquanto que
em (b) essa suposição é violada.
Profª Lisiane Selau
42
Normalidade dos Resíduos
� O teste da normalidade da distribuição dos resíduos
pode ser feito plotando-se os resíduos em papel de
probabilidade ou utilizando testes analíticos de
normalidade, como o teste do Chi-quadrado ou o teste
de Kolmorov-Smirnov.
� Se as suposições são rejeitadas, muitas vezes uma
transformação matemática nos valores de X e Y
(logaritmo, inverso, raiz quadrada) irá gerar valores
transformados com resíduos normalmente distribuídos.
� Então o problema é analisado no espaço das variáveis
transformadas e ao final retorna-se ao espaço original.
Profª Lisiane Selau
43
Intervalo de Variação para X
� A variância da inclinação b1 aumenta quando se reduz o
intervalo de variação de X. Se o intervalo é pequeno, Sb1 será
grande e nesse caso será difícil rejeitar a hipótese H0 : b1 = 0.
� Em outras palavras, se a relação entre X e Y é medida em
um intervalo reduzido de X, os parâmetros estimados não terão
muito significado estatístico.
� Se o objetivo é construir um modelo de regressão, deve-se
coletar dados nos extremos do intervalo de X, ou seja, nos
limites de interesse e viabilidade práticos ou nos limites em que
se supõe válida a relação linear.
Profª Lisiane Selau
44
Dados Atípicos
� Algumas vezes, o conjunto de dados pode estar
contaminado com alguns dados atípicos. Esses dados
atípicos podem ser o resultado do efeito de algum fator
externo ao estudo, ou podem ser simplesmente um erro
de leitura e registro.
� Existe um procedimento para testar a significância de
um dado atípico. Este procedimento está baseado na
determinação de uma nova equação, com o dado
atípico eliminado, seguido de um teste de hipótese
comparando os valores preditos pela equação original
com aqueles preditos pela nova equação.
Profª Lisiane Selau
45
� A análise de variância também é aplicável aos
problemas de regressão.
� A hipótese nula, H0 : β1 = 0, será rejeitada sempre que
f > fα, 1, n-2
� A tabela ANOVA, contendo o formulário prático para o
cálculo das Somas Quadradas e os demais
desenvolvimentos até o teste F:
Fonte de
Variação
SQ GDL MQ F
Regressão SQReg = b1 SXY 1 MQReg MQReg/MQR
Residual SQR=SYY - b1SXY n - 2 MQR
Total SYY n - 1
A Análise de Variância e a Regressão
Profª Lisiane Selau
46
Exemplo: Faça a análise de variância para o problema
do consumo de combustível e confirme a significância do
modelo de regressão linear.
Solução:
Já tínhamos calculado as Somas Quadradas SYY e
SQR como:
SYY = 18,34 ; SXY = - 46,45 ; b1 = - 0,325
SQR = 3,24
Assim
SQReg = b1 SXY = - 0,325 (- 46,45) = 15,10
De modo que a ANOVA resulta:
Profª Lisiane Selau
47
O valor de F calculado (46,6) é muito maior que o
tabelado (4,96) e assim confirma-se a significância
do modelo.
Nota: o coeficiente de determinação r2 também pode
ser calculado usando:
r2 =
Fonte de
Variação
SQ GDL MQ F
Regressão 15,10 1 15,10 46,6
Residual 3,24 10 0,324
Total 18,34 11
SQ g
SYY
Re ,
,
,= =
1510
18 34 0 82 ou 82%
Profª Lisiane Selau
48