A maior rede de estudos do Brasil

Grátis
67 pág.
APOSTILA 03

Pré-visualização | Página 3 de 17

por Mínimos Quadrados 
 
Um coeficiente de correlação descreve a associação linear entre variáveis porém, para 
investigar e modelar a relação entre elas, usa-se a Análise de Regressão. 
Para se ajustar um modelo de regressão por mínimos quadrados a variável resposta 
deve ser quantitativa. 
O que se deseja, freqüentemente, com base em dados amostrais, é estimar o valor da 
variável y, correspondente ao conhecimento de uma variável x. Isto pode ser feito mediante a 
estimativa da função linear f(x) = y = 0 + 1x. 
 Observe, porém, que as linhas que várias pessoas podem traçar para este conjunto de 
pontos seriam, provavelmente, similares, desde que o gráfico tenha um padrão bem definido. 
Porém, elas não seriam idênticas, de forma que os valores preditos para variável resposta 
poderiam diferir também. 
 Para um conjunto de dados sem um padrão óbvio no gráfico; diferentes pessoas 
poderiam traçar diferentes linhas sobre os dados, permitindo grandes diferenças entre os 
valores preditos. Usando a Análise de Regressão, qualquer um obterá exatamente a mesma 
linha reta. Este processo é chamado de ajuste de uma reta de regressão. O método usado 
mais freqüentemente para ajustar uma reta usa um princípio chamado de Mínimos 
Quadrados. Este método será descrito posteriormente.. 
UFBA- Instituto de Matemática – Departamento de Estatística 
 
Disciplina: MAT236 - Métodos Estatísticos Página 11 
 
Observe a Figura 14. 4 a seguir. O princípio de mínimos quadrados envolve ajustar 
uma reta passando por pontos de forma que as diferenças verticais entre todos os pontos e a 
reta são calculadas. Então, estas diferenças são elevadas ao quadrado para dar aos pontos 
acima e abaixo da reta a mesma importância (as diferenças ao quadrado são todas 
positivas). As diferenças são então somadas. A “melhor” reta é aquela que minimiza esta 
soma das diferenças ao quadrado, sendo chamada, de mínimos quadrados. 
 
 
 
 
 
 
 
 
 
 
Figura 14.4 – Processo de Mínimos Quadrados 
 
Já vimos que uma relação linear entre duas variáveis pode ser expressa através da 
equação: 
𝑦 = 𝛽0 + 𝛽1𝑥 + 𝜀, 
em que, 𝛽0é o intercepto, 𝛽1 é a inclinação e  é o erro. Esta equação é a que se obteria 
medindo-se a população inteira de valores de x e y. Na realidade, apenas uma amostra é 
medida e usa-se esta amostra para estimar a reta. A reta estimada por meio da amostra pela 
regressão de mínimos quadrados será denotada por: 
𝑦 = 𝑏0 + 𝑏1𝑥, 
em que 𝑏0 e 𝑏1 são estimativas de 𝛽0 e 𝛽1 , respectivamente. O valor 𝑏0 é o valor predito de 
𝑦 quando x é zero e é chamado de intercepto da reta desde que ele é o local em que a reta 
intercepta o eixo vertical. O valor 𝑏1 é o incremento em 𝑦 resultante do incremento de uma 
unidade em x e é chamado de inclinação da reta. 
O método de Mínimos Quadrados é baseado na soma dos quadrados dos resíduos, 𝜀, 
ou seja: 
AR
C
O
N
SU
M
O
10
20
30
40
50
60
70
80
90
100
0 2 4 6 8 10 12 14 16
Reta dos mínimos 
quadrados minimiza os 
valores ao quadrado de 
todas as diferenças 
verticais como estas. 
=  
UFBA- Instituto de Matemática – Departamento de Estatística 
 
Disciplina: MAT236 - Métodos Estatísticos Página 12 
 
 𝜀𝑖
2
𝑛
𝑖=0
= (𝑦𝑖 − 𝛽0 − 𝛽𝑖𝑥𝑖)
2
𝑛
𝑖=0
, 
 
fazendo-se tal soma a menor possível. A solução deste problema matemático fornece as 
seguintes expressões para 𝑏0 e 𝑏1: 
 
Ou 
 
e 
 
em que yi e xi são os valores observados das variáveis Y e X e 𝑥 e 𝑦 são as respectivas 
médias amostrais destas variáveis. 
 
O modelo de regressão adotado para o Exemplo 14.1 é dado por: 
𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜖𝑖 , 𝑖 = 1 , … , 35 
 
Vamos ajustar agora um modelo de regressão linear simples com dados do Exemplo 14.1. 
b0 =
1675792,38𝑥595,3 − 7657,60𝑥130103,39
35𝑥1675792,38 − (7657,62)
= 94,96 
e 
𝑏1 =
35𝑥130103,39 − 595,3𝑥7657,6
35𝑥1675792,38 − (7657,62)
= −0,3563 ≈ −0,36 
 
UFBA- Instituto de Matemática – Departamento de Estatística 
 
Disciplina: MAT236 - Métodos Estatísticos Página 13 
 
portanto, o modelo de regressão ajustado é expresso por: 
𝑦𝑖 = 94,96 − 0,36𝑥𝑖 , 𝑖 = 1, 2, … , 35. (14.5) 
 
Esta equação de regressão mostra que para cada aumento de um volt na tensão na 
rede elétrica a variação no corte das gavetas diminui, em média, 0,36 mm. Como o intervalo 
dos valores observados de x não contempla o valor zero, o valor 94,96 não tem um 
significado particular como termo separado do modelo de regressão. 
 
Análise de Variância no Modelo de Regressão 
 
A Analise de Variância é baseada na partição da variação total da variável dependente 
Y que pode ser decomposta em duas partes: uma explicada pelo modelo de regressão 
ajustado e outra não explicada, conforme mostra a equação abaixo. 
 (𝑌𝑖 − 𝑌 )
2
𝑛
𝑖=1
= (𝑌𝑖 − 𝑌 )
2
𝑛
𝑖=1
+ (𝑌𝑖 − 𝑌𝑖 )
2
𝑛
𝑖=1
 (14.6). 
O termo do lado esquerdo de (14.6) é a soma dos quadrados das observações em relação 
ao seu valor médio e representa uma medida da variabilidade total dos dados de Y. Esta 
soma é denotada por SQTotal = (Yi − Y )
2n
i=1 . O primeiro termo do lado direito de (14.6) é a 
soma dos quadrados explicada pelo modelo de regressão, sendo denotada por 𝑆𝑄Regress ão =
 (Yi − Y )
2n
i=1 enquanto o segundo termo é a soma de quadrados residual SQ𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 =
 (Yi − Yi )
2n
i=1 que não é explicada pelo modelo de regressão. O modelo será melhor 
ajustado quanto maior for a variação explicada 𝑆𝑄regress ão em relação á variação total SQtotal . 
Simbolicamente, podemos representar a equação (14.6) por: 
SQTotal = 𝑆𝑄Regress ão + SQ𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 . 
Análise de Variância é resumida através Tabela 14.3 adiante. Esta tabela pode ser 
utilizada para testar as seguintes hipóteses: 
H0 : β1 = 0 
H1 : β1 ≠ 0. 
Neste teste, não rejeitar H0 significa que não existe relação linear entre x e y. Para 
testar estas hipóteses de interesse, será usando a estatística F=(𝑀𝑄regress ão)/( 𝑀𝑄𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 ). 
Supondo que o erro 𝜀 tem distribuição Normal com média 0 e variância 𝜎2, pode ser 
mostrado que F tem distribuição de Fisher-Snedecor com 1 e n-2 graus de liberdade que 
correspondem ao numerador e ao denominador, respectivamente.. 
UFBA- Instituto de Matemática – Departamento de Estatística 
 
Disciplina: MAT236 - Métodos Estatísticos Página 14 
 
O critério do teste é o seguinte: rejeita-se H0, ao nível α de significância, se F > F(α, 1; 
n − 2), em que F(α, 1; n − 2) é o α percentil da distribuição Fisher-Snedecor com 1 e n − 2 
graus de liberdade, respectivamente. Caso contrário, a hipótese H0 não deve ser rejeitada. 
 
Tabela 14.3: Tabela de Análise de Variância para o Modelo de Regressão Linear Simples. 
Fonte de 
variação 
Graus de 
liberdade (gl) 
Soma de 
quadrados (SQ) 
Quadrados 
médios (MQ) 
F 
Regressão 1 𝑆𝑄Regress ão 𝑀𝑄Regress ão =
𝑆𝑄Regress ão
1
 𝐹 =
𝑀𝑄Regress ão
𝑀𝑄𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙
 
Residual n-2 SQ𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 
𝑀𝑄𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 =
SQ𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙
𝑛 − 2
 
 
 
Total n-1 SQ𝑇𝑜𝑡𝑎𝑙 
 
Para uma amostra n pares (x, y), a soma de quadrados total associada a variabilidade 
total de Y tem n-1 graus de liberdade e a soma de quadrados de resíduo tem n-2 graus de 
liberdade. Os quadrados médios são obtidos dividindo as somas de quadrados pelos 
correspondentes graus de liberdade. 
Quando as somas de quadrados forem calculadas manualmente, elas podem ser 
obtidas através das seguintes expressões dadas adiante. 
SQ𝑇𝑜𝑡𝑎𝑙 = (𝑦𝑖 − 𝑦 )
2
𝑛
𝑖=1

Crie agora seu perfil grátis para visualizar sem restrições.