Buscar

Apostila de Análise de Regressão - Edição 7

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 243 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 243 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 243 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
 
 
 
 
 
 
 
 
ANÁLISE DE REGRESSÃO 
APLICADA À PESQUISA 
AGRÍCOLA 
 
 
 
 Manoel Carlos Gonçalves 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7
a
 EDIÇÃO - 2010 
Revista e Ampliada 
 
 
2 
 
 
 
 
 
 
 
 
 
Manoel Carlos Gonçalves 
Professor Associado da UFGD 
 
 
 
 
 
 
 
 
ANÁLISE DE REGRESSÃO 
APLICADA À PESQUISA 
AGRÍCOLA 
 
 
 
 7
a
 Edição – Revista e Ampliada 
 
 
 
 
 
 
 
 
Universidade Federal da Grande Dourados 
2010 
 
3 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4 
 
 
 
 
 
 
APRESENTAÇÃO 
 
Com a ampla utilização de microcomputadores e o desenvolvimento de 
aplicativos computacionais de estatística, as técnicas de regressão, correlação, 
covariância, superfície de resposta e outras técnicas relacionadas, estão sendo 
grandemente aplicadas na análise e interpretação de dados experimentais. Entretanto, 
raros são os livros em português, que apresentam os vários princípios e métodos 
utilizados na análise de dados por meio destas técnicas. 
Diante do exposto foi realizado um esforço no sentido de apresentar um livro 
que proporcione aos estudantes, pesquisadores e docentes os conhecimentos teóricos 
básicos e as aplicações dos vários métodos e procedimentos de regressão linear simples 
e múltipla, regressão não-linear, correlação simples e parcial, análise de co-variância, 
metodologia de superfície de resposta, dentre outros. Sem perda de informações básicas 
fundamentais, procurou-se enfocar, principalmente, os ensinamentos de como analisar e 
interpretar os dados provenientes de pesquisa agrícola. 
Todas as incorreções existentes neste livro são de inteira responsabilidade do 
autor. Desde já agradecemos as críticas e eventuais correções por parte dos leitores, o 
que, seguramente, contribuirá para a melhoria deste livro em novas edições. 
O autor 
 
 
 
 
 
PREFÁCIO À 7
a
 EDIÇÃO 
 
 Nesta edição foi acrescentado um capítulo que aborda os conceitos básicos de 
estatística (Capítulo I). O Capítulo III sobre Regressão Linear Simples foi ampliado, 
principalmente para acomodar informações sobre Valor Esperado das Somas de 
Quadrados e Teste para Falta de Ajuste. Foi acrescentado ainda um capítulo sobre 
diagnóstico de problemas e medidas corretivas em análise de regressão (Capítulo XIII). 
Agradecemos aos leitores, principalmente os estudantes de pós-graduação pelas 
sugestões apresentadas para o aperfeiçoamento do livro. Certamente que, algumas 
incorreções, ainda permanecem, de forma que críticas e sugestões para a melhoria do 
texto ora apresentado serão sempre bem vindas. 
 
O autor. 
 
5 
 
 
 
SUMÁRIO 
 
 
0 - INTRODUÇÃO ...................................................................................................... 01 
 
 
I – CONCEITOS BÁSICOS DE ESTATÍSTICA .......................................................... .05 
 
 
 
 
II - CONCEITOS DE REGRESSÃO E CORRELAÇÃO .................................................27 
 
 
III - REGRESSÃO LINEAR SIMPLES ...........................................................................30 
 
 
IV - CORRELAÇÃO SIMPLES ......................................................................................48 
 
 
V - REGRESSÃO LINEAR MÚLTIPLA ........................................................................57. 
 
 
VI - CORRELAÇÃO MÚLTIPLA E PARCIAL ..............................................................67. 
 
 
VII - REGRESSÃO POLINOMIAL ............................................................................... 72 
 
 
VIII - REGRESSÃO NÃO LINEAR ........................................................................... 81 
 
 
IX - ANÁLISE DE COVARIÂNCIA .......................................................................... 100 
 
 
X - USO DE VARIÁVEIS BINÁRIAS (“DUMMY”) ..................................................... 124 
 
XI - ABORDAGEM MATRICIAL EM REGRESSÃO LINEAR ............................. 136 
 
 
 
XII - METODOLOGIA DE SUPERFÍCIE DE RESPOSTA .............................................. 156 
 
 
XIII – DIAGNÓSTICOS E MEDIDAS CORRETIVAS EM ANÁLISE DE 
REGRESSÃO..................................................................................................... 179 
 
 
6 
 
 
XIV - EXERCÍCIOS RESOLVIDOS, PROPOSTOS E COMENTÁRIOS ADICIONAIS . 199 
 
 
BIBLIOGRAFIA ...................................................................................................... 238 
APÊNDICE ............................................................................................................ 241 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7 
 
 
CAPÍTULO 0 
 
 
INTRODUÇÃO 
 
 
 
0.1 - Procedimentos para Comparações Múltiplas versus Fatores Quantitativos 
 
O problema de comparações múltiplas tem recebido muita atenção na literatura 
estatística. Entretanto, isto não significa que este seja o melhor procedimento a ser 
empregado numa determinada situação. Embora as comparações múltiplas sejam 
frequentemente empregadas após uma análise de variância exploratória dos dados 
experimentais, existem situações onde elas não devem ser aplicadas. 
As fontes de variação que afetam uma variável nem sempre são controláveis por 
um delineamento experimental. Em muitas áreas da pesquisa agropecuária a variação 
nas medições experimentais de uma variável é causada, numa grande extensão, por 
outras variáveis relacionadas. Para incorporar explicitamente os dados destas variáveis 
influentes na inferência e comparação das respostas médias através de procedimentos de 
comparações múltiplas. Frequentemente, é preciso encontrar a natureza do 
relacionamento e então utilizar esta informação para melhorar a descrição e as 
inferências acerca da variável de interesse primário. O estabelecimento da relação entre 
as variáveis é importante também porque o valor da variável resposta pode ser predito 
ou mesmo controlado e otimizado pela “manipulação” dos fatores que influenciam o 
processo. 
Isto ocorre com tratamentos quantitativos, tais como, densidade de plantas ou 
dose de fertilizante aplicado, em mais de dois níveis, onde existe uma continuidade, e, 
portanto, um relacionamento entre um nível de tratamento e outro, de forma que o 
número de níveis de tratamentos possível de ser testado é infinito. Embora apenas uns 
poucos níveis de tratamento possam ser testados num ensaio de campo, o pesquisador 
geralmente está interessado em toda a faixa de níveis de tratamentos. 
Consequentemente, os tipos de comparações de médias que se focalizam apenas sobre o 
tratamento que está sendo testado não são adequados para estes casos. Portanto, os 
procedimentos de comparações múltiplas seriam inúteis para fatores quantitativos. 
Entretanto, é frequente na literatura biológica, curvas, ou mais comumente linhas 
retas ligadas, que apresentam barras verticais de desvio padrão calculados 
individualmente para cada dose-resposta observada, adornadas com uma barra de 
diferença crítica baseada no teste t de Student (DMS) ou no teste de Tukey; pode-se 
encontrar ainda letras que são colocadas para indicar a significância de grupos de 
médias de fatores quantitativos com base no teste de Duncan. A lamentável 
consequência disto é que geralmente inferências úteis são perdidas, obscurecidas por 
uma rede de testes independentes com taxas de erro variáveis e às vezes explícitas. Em 
alguns casos, linhas de pesquisas importantes podem ser deixadas de lado porque uma 
tendência real dos dados não foi detectada, devidoao mal uso de um instrumento que é 
a inferência estatística. 
8 
 
Observa-se, portanto, que os procedimentos de comparações múltiplas são 
frequentemente sujeitos a mal usos e abusos nas suas aplicações práticas. Dois tipos 
patentes de abusos são: a utilização de tais procedimentos na comparação de 
tratamentos que são fatoriais na sua natureza e na comparação de vários níveis de 
fatores quantitativos. No primeiro caso, os graus de liberdade da soma de quadrados de 
tratamentos poderia ser particionada em efeitos principais e interações. No outro caso, a 
análise de regressão é a técnica apropriada. Se a regressão for significativa, não é 
necessário qualquer procedimento de comparação múltipla, porque todos os níveis de 
tratamentos (inclusive algum intermediário não utilizado no experimento) apresentam 
efeitos significativamente diferentes. É sempre preferível e até recomendável, 
particionar os graus de liberdade da soma de quadrados de tratamentos, no caso de 
experimentos fatoriais ou se os tratamentos consistem de vários níveis de um fator, 
antes de examinar os dados experimentais. 
Com fatores quantitativos (por exemplo, temperatura, umidade, pH, doses de um 
fertilizante), a análise de regressão ou ajustamento de curvas é a técnica mais 
apropriada. Os graus de liberdade e a soma de quadrados de tratamentos podem ser 
particionadas em componentes devidos a regressão linear (1° grau), quadrática (2° 
grau), cúbica (3° grau) ou quártica (4° grau). Quando se tem um conhecimento prévio 
do modelo estatístico que se ajusta aos dados (por exemplo, logístico, Mitscherlich, 
Gompertz, etc.) estas equações podem ser utilizadas. Entretanto, na maioria dos 
experimentos agronômicos, o modelo matemático é adaptado através de polinômios da 
forma Y = b0 + b1X + b2X
2
 + ... + bnX
n
. Dentro de uma faixa limitada da variável 
independente, a aproximação polinomial é geralmente satisfatória, se a resposta 
desejada não for para um nível fora da faixa experimental de X, caso em que uma curva 
assintótica seria ajustada. 
Ao comparar os efeitos de, por exemplo, 20, 30, 40 e 50 ppm de P sobre a 
produtividade de grãos de soja, se a regressão linear e/ou quadrática da resposta for 
significativa, então não é necessário qualquer procedimento de comparação múltipla. 
Suponha que a equação ajustada seja = 15,4 + 23,6X, então espera-se um aumento de 
23,6 unidades em y para cada unidade de aumento em X. Desta forma, não somente 20 
e 40 ppm serão significativamente diferentes, mas também 20 e 20,1 ppm. É claro que, 
a diferença entre os efeitos de 20 e 20,1 ppm será muito pequena; entretanto, os testes 
de significância usuais não dizem respeito à magnitude da diferença, mas apenas se 
existe ou não uma diferença verdadeira, não importando quão pequena ela seja. As 
considerações anteriores são válidas também para o caso de dois ou mais fatores 
quantitativos. Se a regressão é significativa, todas as combinações (não apenas aquelas 
usadas no experimento, mas também comparações intermediárias), são 
significativamente diferentes. Portanto, a utilização de comparações múltiplas seria 
totalmente inútil. 
Pode ser provado, através de lógica não algébrica, que os testes de comparações 
múltiplas são falhos para os casos de fatores quantitativos com vários níveis. Considere, 
por exemplo, um estudo de dose-resposta com quatro níveis da dose, denominados 1, 2, 
3 e 4. Não é bastante óbvio que, um teste de significância entre duas respostas médias 
quaisquer, deve ser incompleto pelo fato de não se usar a influência das médias vizinhas 
que estão a elas relacionadas? Não seria a diferença de resposta entre o Nível 2 e o 
Nível 4 mais eficientemente julgada com o conhecimento das respostas dos Níveis 1 e 
3? Entretanto, quando a evidência desta diferença é buscada através de um teste t, 
9 
 
exatamente a mesma inferência seria obtida se os Níveis 1 e 3 fossem observados ou 
não; enquanto que, o teste de componentes ortogonais (ajuste de equações de regressão) 
leva em conta todos os níveis. 
Portanto, faz-se necessário propagar o poder, utilidade e simplicidade da 
decomposição de graus de liberdade de tratamentos em componentes de soma de 
quadrados de regressão. 
 
0.2 - Análise de Variância versus Análise de Regressão 
 
O modelo de análise de variância tem sido estudado com bastante detalhe. Isto 
tem permitido que o formato da análise de variância seja utilizado para testar regressões 
através da partição da soma de quadrados total em uma soma de quadrados devido à 
regressão e uma soma de quadrados de resíduo. Entretanto, pode-se erroneamente, 
submeter a uma análise de variância padrão dados que deveriam ser analisados através 
de regressão. Por exemplo, o Quadro 0.1 a seguir contém os resultados de um 
experimento com 7 tratamentos (isto é, 7 níveis de fertilizante) com 2 repetições. O 
Quadro 0.2 sumariza os resultados de uma análise de variância padrão. 
 
Quadro 0.1. Dados de produção de milho, organizados para uma análise de 
variância com um critério de classificação. 
 
Tratamentos (Níveis de Fertilizante) 
 
90 
 
100 
 
110 
 
120 
 
130 
 
140 
 
150 
 
Total 
 
 
 
85 
 
90 
 
95 
 
100 
 
100 
 
95 
 
88 
 
 
 83 92 94 101 99 93 90 1305 
 
Yij
 
 
168 
 
182 
 
189 
 
201 
 
199 
 
188 
 
178 
 
1305 
Yij
2 14112 15564 17861 20201 19801 17672 15844 122059 
Y
r
ij






2
 
14112 
 
16562 
 
17860,5 
 
20200,5 
 
19800,5 
 
17862 
 
15842 
 
122049,5 
 
 
 
 
 
 
 
10 
 
Quadro 0.2. Quadro de análise de variância dos dados de produção de milho. 
 
Fontes de Variação 
 
Graus de 
Liberdade 
 
Soma de Quadrados 
 
Quadrado Médio 
 
 F 
 
Tratamentos 
 
6 
 
404,857 
 
67,476 
 
49,72** 
Resíduo 7 9,500 1,357 
 
Total 
 
13 
 
414,375 
 
 
 
 
 
O valor tabelado de F(6; 7) é 7,19, ao nível de 1%. Consequentemente, pode-se 
concluir que há diferença significativa entre os tratamentos. Deve ser observado que o 
modelo para análise de variância considera os tratamentos como sendo qualitativos. 
Como resultado deste fato, 6 graus de liberdade estão associados com a soma de 
quadrados de tratamentos. Por outro lado, reconhecendo-se a natureza quantitativa dos 
tratamentos e determinando-se um relacionamento funcional (ou seja, Y=a+b1N+ b2N
2
), 
nota-se que a análise de regressão requer apenas 2 graus de liberdade (veja Quadro 0.3 a 
seguir). 
 
Quadro 0.3. Resultados da regressão múltipla polinomial, sumarizados no 
formato de análise de variância, para os dados de produção de milho. 
 
F.V. 
 
G.L. 
 
S.Q. 
 
Q.M. 
 
F 
 
Regressão 
 
2 
 
385,451 
 
192,726 
 
73,336** 
Resíduo 11 28,906 2,628 
 
Total 
 
13 
 
414,375 
 
 
 
 
 
Portanto, se estamos lidando com dados quantitativos e estamos interessados 
numa relação funcional, devemos usar análise de regressão. Se temos uma mistura de 
dados quantitativos e qualitativos, devemos usar regressão com variáveis “dummy” ou a 
análise de covariância. Por outro lado, se temos apenas dados qualitativos ou se o 
relacionamento funcional não é possível, devemos usar a análise de variância. 
A análise de regressão é um instrumento estatístico poderoso. Entretanto, não é 
um substituto do bom senso ou do julgamento de um técnico experimentado. A 
regressão permite a estimação de relacionamento funcionais e assim extrai grande 
quantidade de informação de um conjunto de dados aparentemente confusos, reduzindo-
os a umas poucas estatísticas básicas. 
 
11 
 
 
 
CAPÍTULO II 
 
 
CONCEITOS DE REGRESSÃO E CORRELAÇÃO 
 
 
2.1 - Introdução 
Até presentemente lidou-se com problemas de inferência estatística, que 
envolviam uma distribuição univariada, ou seja, com a distribuição de uma única 
variável X. Analisava-se apenas uma característica de cada vez nos experimentos(produção, germinação ou peso de matéria seca, por exemplo). Agora volta-se a atenção 
para problemas que envolvem uma distribuição bivariada, uma distribuição que contém 
duas variáveis, ou seja, X e Y. O espaço amostral de um experimento bivariado é um 
conjunto de pares ordenados das medições realizadas. Por exemplo, para cada estudante 
pode-se medir o peso e altura; para cada planta pode-se avaliar peso da matéria seca e 
produção de grãos. 
O problema fundamental da inferência estatística que envolve uma distribuição 
bivariada é determinar a verdadeira relação entre X e Y; isto é, como as duas variáveis 
comportam-se, uma em relação à outra. A intenção é estabelecer este tipo de 
relacionamento na forma de alguma equação, para que com base em X se possa estimar 
o valor médio de Y; tal equação pode ser referida como uma relação de estimação. 
O procedimento de estimação é também uma técnica de predição, que é a função 
básica de qualquer ciência natural e social. Nas ciências naturais é frequentemente 
possível fazer-se predições devido às relações de causa e efeito existentes entre duas ou 
mais variáveis. Por exemplo, existe uma relação de causa e efeito entre a quantidade de 
precipitação pluviométrica e a quantidade de trigo colhido num hectare. 
Entretanto, a predição não requer necessariamente a existência de uma relação 
de causa e efeito, ou seja, o relacionamento funcional de duas variáveis não implica 
numa relação de causa e efeito. 
2.2 - Covariância, Correlação e Independência Estatística 
Frequentemente, quando se conduz um experimento, duas ou mais variáveis 
aleatórias são observadas simultaneamente, não apenas para estudar seus 
comportamentos probabilísticos individuais, mas também para determinar o grau de 
relacionamento entre essas variáveis. 
Sejam duas variáveis X e Y: 
Valores de X: X1, X2, ..., Xk 
Valores de Y: Y1, Y2, ..., Yk 
Existem k - 1 pares de valores distintos (Xi, Yj, com i = 1, 2, ..., k e j = 1, 2, ..., 1, 
para (X, Y). A expressão f(Xi, Yj) representa a probabilidade de X e Y assumirem 
simultaneamente os valores de Xi, Yj, respectivamente; ou seja, f(Xi, Yj) = P(X=X1 e 
Y=Yj). A distribuição de probabilidade conjunta pode ser apresentada em forma de uma 
tabela de dupla entrada (veja a seguir) que mostra os distintos valores de X e Y nas duas 
12 
 
margens e que tem como células interiores as probabilidades correspondentes aos pares 
de valores. As células de probabilidades são frequentemente apresentadas como uma 
fórmula ao invés de uma tabela de dupla entrada. 
 
Tabela 2.1. Distribuição de Probabilidade Conjunta de X e Y. 
 
Valores de 
 
Valores deY 
 
X 
 
Y1 
 
Y2 
 
... 
 
Y1 
 
X1 
 
f(X1, Y1) 
 
f(X1, Y2) 
 
... 
 
f(X1, Y1) 
X2 f(X2, Y1) f(X2, Y2) ... f(X2, Y1) 
... 
Xk f(Xk, Y1) f(Xk, Y2) ... f(Xk, Y1) 
 
A covariância entre X e Y é uma medida numérica da variação conjunta das 
duas variáveis aleatórias e é definida como a esperança do produto (X-x) (Y-y). 
Intuitivamente diz-se que, X e Y variam na mesma direção se é alta a probabilidade de 
que grandes valores de X estejam associados a grandes valores de Y e pequenos valores 
de X estejam associados a pequenos valores de Y. Em tal caso, os valores dos desvios 
(X-x) e (Y-y) são positivos ou negativos com uma alta probabilidade, de forma que o 
produto (X-x) (Y-y) é predominantemente positivo. Consequentemente, a esperança 
do produto é positiva e alta. Por outro lado, se X e Y tendem a variar em direções 
opostas, os valores positivos de (X-x) são mais frequentemente associados como os 
valores negativos de (Y-y) e vice-versa. O produto é então predominantemente 
negativo e a esperança é negativa. Desta forma, o sinal e a magnitude de E [(X-x) (Y-
y)] é, evidentemente, o reflexo da direção e do grau de relacionamento entre X e Y. 
Assim, tem-se que: 
COV (X, Y) = E [(X-x) (Y-y)] 
ou COV (X, Y) = E (XY) - x y . Esta fórmula de covariância é fácil de ser 
computada porque x e y são obtidos de distribuições marginais, restando apenas o 
cálculo de E (XY). 
Partindo do conceito geral de esperança como sendo a soma de valor x 
probabilidade, tem-se: 
E (XY) =  todas as células [valor de XY para cada célula] x [probabilidade da 
célula] 
O valor da COV (X,Y) depende das unidades de medições associadas com X e 
Y. É desejável ter uma medida de relação para as duas variáveis que não dependa das 
unidades de medidas. Isto é conseguido dividindo-se a covariância pelos desvios 
13 
 
padrões de X e Y. A medida resultante é chamada de correlação entre X e Y, sendo 
dado por: 
Corr(X,Y) = COV(X,Y) =xy 
 x y 
A correlação apresenta as seguintes propriedades: 
(a) A Corr(X, Y) é sempre um número entre -1 e +1. Os dois valores extremos 
são atingidos quando X e Y estão relacionados por uma linha reta com inclinação 
negativa ou positiva, respectivamente. 
(b) A Corr(X, Y) permanece invariável quando são adicionadas constantes às 
variáveis ou se as variáveis são multiplicadas por constantes que tenham o mesmo sinal. 
Duas variáveis aleatórias X e Y são independentes se o evento que X assume um 
valor específico Xi é independente do evento que Y assume um valor específico Yj. Pela 
definição de eventos independentes, tem-se: 
P (X = Xi Y = Yj) = P (X = Xi) P (Y = Yj). Então define-se que as variáveis 
aleatórias X e Y são independentes se f(Xi, Yj) = f(Xi) f(Yj), para todos os pares de 
valores (Xi, Yj) na distribuição de probabilidade conjunta. 
Se X e Y são independentes, então: 
E(XY) = E(X) E(Y) =  Xi f(Xi)  Yj f(Yj) 
Portanto, a independência de X e Y implica que COV (X, Y) = 0 e que Corr (X, 
Y) = 0. O inverso, porém, não é necessariamente verdadeiro, ou seja, duas variáveis 
aleatórias podem ser não correlacionadas e ainda assim serem dependentes. Mas, se as 
variáveis aleatórias são conjuntamente normais, o coeficiente de correlação igual a zero 
implica que elas são independentes. 
A função densidade conjunta mais comum é a função densidade conjuntamente 
normal. Diz-se que duas variáveis aleatórias X1 e X2 são normais e conjuntamente 
distribuídas se, e somente se, sua distribuição de probabilidade conjunta é a distribuição 
normal bivariada. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
14 
 
 
CAPÍTULO III 
 
 
REGRESSÃO LINEAR SIMPLES 
 
 
3.1 - Introdução 
A variável que é a base da estimação é convencionalmente chamada de variável 
independente e designada por X, e a variável cujo valor deve ser estimado é chamada de 
variável dependente designada por Y. Quando é formulada uma equação para estimar Y 
a partir de X, tal equação é denominada de uma regressão de Y sobre X. 
A técnica de análise de regressão é realmente um procedimento de estimação 
e/ou predição. A análise de regressão geralmente é classificada em dois tipos: simples e 
múltipla. A regressão simples envolve apenas duas variáveis, tal como a regressão de Y 
sobre X. A regressão múltipla envolve três ou mais variáveis, uma das quais é a variável 
dependente que deve ser estimada com base nos valores das outras. As variáveis podem 
ter um relacionamento linear (aditivo nos parâmetros da regressão) ou não-linear. 
Quando descobre-se que duas variáveis estão relacionadas, frequentemente 
deseja-se conhecer quão próximo é este relacionamento. O grau de aproximação do 
relacionamento é comumente referido como a correlação entre as variáveis. O problema 
de correlação está intimamente associado com o de regressão e é uma parte integrante 
da análise bivariada. 
 A utilização de modelos de regressão pode ter os objetivos seguintes: 
 
a) Predição – Como se espera que uma parte da variação de Y seja explicada pela 
variável X, então se pode utilizar o modelo para obter valores de Y 
correspondentes a valores de X que não estavam entre os estudados. Esse 
processo é denominado de predição e, são utilizadosvalores de X que estão 
dentro do intervalo de variação estudado. Este talvez seja o uso mais comum dos 
modelos de regressão. 
b) Seleção de variáveis – Geralmente não se sabe precisamente quais são as 
variáveis que afetam significativamente a variação de Y. Então, conduzem-se 
estudos onde estão presentes muitas variáveis. A análise de regressão pode 
auxiliar no processo de seleção de variáveis, indicando aquelas cuja contribuição 
não seja importante. 
c) Estimação de parâmetros – Dado um modelo e um conjunto de dados referente 
às variáveis respostas e preditoras (explicativas), ajustar o modelo aos dados, ou 
estimar parâmetros, significa obter valores (estimativas) para os parâmetros do 
modelo, por algum processo, tendo por base o modelo e os dados observados. 
Em alguns casos, o valor do coeficiente (estimativa do parâmetro) tem valor por 
si, como no caso do estudo de estabilidade e adaptabilidade de cultivares. Em 
outros casos, o interesse está em uma função dos parâmetros estimados 
(coeficientes), como no caso do cálculo de doses ótimas de nutrientes nos 
estudos de nutrição de plantas. 
15 
 
d) Inferência – O ajuste de um modelo de regressão tem por objetivo ainda realizar 
inferências estatísticas sobre as estimativas obtidas, como por exemplo, testes de 
hipóteses e intervalos de confiança. 
 
3.2 - Regressão Linear Simples 
 Suponha que a relação verdadeira entre as variáveis X e Y seja uma reta, e que 
cada observação Y, em cada nível de X, seja uma variável aleatória. 
 
Então, o valor esperado de Y para cada valor de X é dado por: 
 
  0 1E Y X X   , sendo os parâmetros da equação da reta, 0 e 1 , constantes 
(coeficientes) desconhecidos. Assim, dados n pares de valores, (X1,Y1), (X2,Y2), ..., 
(XnYn), se for admitido que Y é função linear de X, pode-se estabelecer uma regressão 
linear simples, cujo modelo estatístico é dado por: 
 
0 1
Y Xi i i     , i = 1, 2, ..., n , em que 0
 e 
1
 são os parâmetros a serem 
estimados. 
Ao se utilizar este modelo, pressupõe-se que: 
a) A relação entre Y e X é linear; 
b) Os valores de X são fixos (ou controlados); 
c) A média do erro é nula, isto é, ( ) 0E i  ; 
d) Para um dado valor de X, a variância do erro i , é sempre 
2 , ou seja, 
     
22 2 2( )Var E E Ei i i i    
    
 
, o que implica em 
   
2 2 2( )Var Y E Y E Y X Ei i i i i 
    
 
. Assim, diz-se que se tem 
homocedasticia do erro ou da variável independente. 
e) O erro de uma observação é independente do erro de outra observação, ou seja, 
( , ) ( , ) ( ) ( ) 0Cov E E Ei i ii i i
       
  
 , para i i ; 
f) Os erros têm distribuição normal. Desta forma, combinando as pressuposições 
(c), (d) e (e) tem-se  20,NIDi  e, portanto  2,0 1Y NID Xi i   . A 
suposição de normalidade é necessária para a aplicação de testes de hipóteses e 
obtenção de intervalos de confiança. 
 
 
A solução do sistema de equações normais, obtido pelo método de quadrados mínimos, 
possui as seguintes propriedades: 
 
a) O ponto  ,X Y é um ponto da reta estimada ˆ ˆˆ 0 1Y Xi i   ; 
16 
 
b) Tem-se que    ˆ ˆˆˆ 00 11 1 1
n n n
Y Y Y Xi i i i i
i i i
         
  
 , o que implica que 
ˆ
1 1
n n
Y Yi i
i i
 
 
; 
c) Tem-se que ˆ ˆˆ ( ) 0
0 11 1
n n
X X Y Xi i i i i
i i
      
 
; 
d) Tem-se que  ˆ ˆ ˆ ˆˆ ˆ ˆ ˆ ˆ 00 1 0 11 1 1 1
n n n n
Y X Xi i i i i i i
i i i i
              
   
; 
e) Os estimadores de quadrados mínimos ˆ
0
 e ˆ
1
 são funções lineares das 
observações Yi‟s, ou seja, ˆ1 1
n
c Yi i
i
  

, em que: 
 
 
2 2
11
X X xi ic ni n
xX X ii ii

 


 e 
ˆ
0 1
n
d Yi i
i
  

, sendo 
1
d c Xi in
  . Tem-se que 0
1
n
ci
i


 , 1
1
n
c Xi i
i


 , 
1
1
n
di
i


 , 0
1
n
d Xi i
i


; 
f) Os estimadores de quadrados mínimos de 
0
 e de 
1
 são não viesados, ou 
seja,  ˆ0 0E   e  ˆ1 1E   ; 
g) A variância dos estimadores de quadrados mínimos de 
0
 e 
1
 é mínima entre 
as variâncias de quaisquer outros estimadores lineares em Y de 
0
 e 
1
 
(Teorema de Gauss). Dado que 
 
 
3.3.Valor Esperado das Somas de Quadrados: 
 
a) Soma de Quadrados Total (SQTotal) 
 
Tem-se que  
2
1
n
SQTotal Y Yi
i
 

 , sendo 
0 1
Y Xi i i     e 
0 1
Y X     . Então, 1 1( )i i i i iY Y X X x             e 
     
2 22 2 2
1 1 11 1 1 1
n n n n
SQTtotal x x xi i i i i i
i i i i
                  
   
. 
Desta forma,    
22 2( ) 2
1 11 1 1
n n n
E SQTotal x E E xi i i i
i i i
     
   
         
    
 
e após substituições e rearranjos algébricos obtém-se 
 2 2 2( ) 11 1
n
E SQTotal x ni
i
   

. 
 
b) Soma de Quadrados de Regressão (SQReg) 
 
17 
 
Tem-se que  
2 2 2ˆRe
11 1
n n
SQ g Y Y xi i
i i
   
 
 e 2
1 1
n n
x X xi i i
i i
 
 
. Então, 
 
2
12 2 2 2 2( Re )
1 11 1 1 12
1
n n n n
E SQ g E x x E x E x Yi i i i ini i i i
xi
i
 
   
        
       
 
 
 e 
após algumas substituições, tem-se 2 2 2( Re )
1 1
n
E SQ g xi
i
  

. 
 
c) Soma de Quadrados de Desvio (SQDes) 
 
Como ReSQDes SQTotal SQ g  , tem-se que 
 2 2 2 2 2 2( ) ( ) ( Re ) 11 11 1
n n
E SQDes E SQTotal E SQ g x n xi i
i i
          
 
 
ou   2( ) 2E SQDes n   . 
 
d) Estimador da variância residual 
 
Tem-se   2( ) 2E SQDes n   , logo 2
2
SQDes
E
n

 
 
 
. Desta forma, um 
estimador não viesado para 2 (variância residual) é dado por 
2ˆ
2
SQDes
QMDes
n
  

. 
Seja o seguinte exemplo: foram estudadas as pressões sanguíneas de 58 
mulheres acima de 30 anos de idade, em determinada região. As idades foram 
agrupadas em classes de 10 anos e a pressão média foi calculada para cada classe 
(citado em SNEDECOR & COCHRAN, 1971). 
 
Ponto Médio das 
 
Média da Pressão 
 
Desvios em relação à média 
 
Classes de Idade (X) 
 
Sanguínea (Y) 
 
x 
 
y 
 
35 
 
114 
 
-20 
 
-27 
45 124 -10 -17 
55 143 0 2 
65 158 10 17 
75 166 20 25 
 
Totais = 275 
 
705 
 
0 
 
0 
Médias = 55 141 0 0 
18 
 
 
 
Quadrados 
 
Produtos 
 
x
2
 
 
y
2
 
 
xy 
 
400 
 
729 
 
540 
100 289 170 
0 4 0 
100 289 170 
400 625 540 
 
1000 
 
1936 
 
1380 
 
Computar a análise de regressão. 
Resolução: 
1) O primeiro passo para o entendimentto da regressão é construir um gráfico 
(diagrama de dispersão) de Y em função de X. 
2) A linha reta “traçada” na Figura 1 é a regressão amostral de Y sobre X. Sua 
posição é fixada por dois resultados: 
a) Ela passa no ponto O‟ ( , )X Y que é o ponto determinado pela média de cada 
amostra. Para as pressões e idades este é o ponto (55, 141); 
b) Sua inclinação é a taxa de b unidades de Y por unidade de X, onde b é o 
coeficiente de regressão amostral. 
Tem-se que x=X X e y=Y Y e b=
xy
x

 2
=
1380
1000
1 38 , unidades de 
pressão sanguínea por ano de idade. 
 
 
19 
 
 
Figura 3.1. Regressão Amostral de Y sobre X. 
 
c) A equação de regressão amostral de Y sobre X é então escrita como: 
Y Y bx  ou y bx , onde Y é o valor estimado e y o desvio estimado de Y 
que corresponde a qualquer desvio x. Se x=20 anos, então y=(1,38)(20) = 27,6 unidades 
de pressão sanguínea. 
Considerando os dados originais, a equação de regressão é  ( )Y Y b X X   , 
que para o caso da pressão fica 
Y -141=1,38 (X-55) 
Y=141+1,38 (X-55) 
Y=65,1+1,38X 
Para X=75 Y=168,6 ou P(75; 168,6) 
d) As medidas da precisão do ajustamento da reta aos dados são obtidas através 
do cálculo de Y e dos desvios em relação à regressão (Y- Y=dy.x): 
 
 
 
 
 
20 
 
 
 
Classes de Idade (X) 
 
Pressão Média (Y)Pressão Média Estimada ( Y ) 
 
35 
 
114 
 
113,4 
45 124 127,2 
55 143 141,0 
65 158 154,8 
75 166 168,6 
 
Somas 
 
 
 
 
 
 
Desvios em relação 
à regressão 
(Y- Y=dy x) 
 
Quadrado do 
desvio 
(d
2
yx) 
 
0,6 
 
0,36 
-3,2 10,24 
2,0 4,00 
3,2 10,24 
-2,6 6,76 
 
dy x=0,0 
 
d
2
yx=31,60 
 
Tem-se que S yx
d yx
n
2
2
2
31 60
3
10 53


 
,
, onde d
2
yx é a SQD, n-2 são os 
graus de liberdade e S
2
yx é o quadrado médio do desvio em relação à regressão. Então 
Syx S yx  2 10 53 3 24, , unidades de pressão sanguínea, onde Syx é o desvio 
padrão amostral da regressão. Particularmente, tem-se o desvio padrão amostral do 
coeficiente de regressão, que é dado por Sb Syx x   / , / ,2 3 24 1000 0 102 
unidades de pressão sanguínea, com n-2=3 g.l. 
e) Um testede significância de b é dado por 
t
b
Sb
 , com gl=n-2. Então: t5%(3 g.l.)=5,84 
t = 1,38 / 0,102 = 13,5** com gl=3 
21 
 
f) O valor de d
2
yx pode ser calculado diretamente pela fórmula: 
d
2
yx=y
2
[(xy)
2
/x
2
]=1936-[(1380)
2
/1000]=31,60 
g) Ao ajustar uma regressão, as seguintes quantidades básicas devem ser obtidas: 
n, X , Y , x
2
, y
2
 e xy. Tem-se: 
 
X, Y X
2
=X
2
-(X)
2
/n 
  
X
2
, Y
2
 Y
2
=Y
2
-(Y)
2
/n 
 
XY xy=(X-X )(Y-Y ) 
  
(X)(Y)/n Y
2
=XY-(X)(Y)/n 
 
h) Cálculos de uma regressão linear simples 
 
Idade (anos), X 
 
35 
 
45 
 
55 
 
65 
 
75 
Pressão, Y 114 124 143 158 166 
 
Cálculos: 
 
1ª Sessão 
 
2ª Sessão 
 
3ª Sessão 
 X=275 Y=705 n=5 
 X =55 Y =141 XY=40155 
 X
2
=16125 Y
2
=101341 
 (X)
2
/n=15125 (Y)
2
/n=99405 (X)(Y)/n=38775 
 
 
 
x
2
=1000 
 
y
2
=1936 
 
xy=1380 
 
 
3.4 - Teste para falta de ajuste (ou teste de linearidade) 
 
 Sabe-se que o  
21 12 ˆˆ
2 21 1
n n
QMDes Y Yi i in ni i
   
  
 da análise de variância 
da regressão é um estimador não viesado da variância residual ( 2 ), sob a suposição de 
que o modelo ajustado é correto. Supondo que o modelo proposto seja 
( ) ( ) ( )E Y X Y Xi i i i i      e que o modelo correto seria 
*( ) ( ) ( )E Y X Y Xi i i i i      . Pode ser deduzido que o termo ( ) ( )i i iB X X   , 
que representa o viés no caso em que ( )
0 1
X Xi i    e 
2( )
0 1 2
X X Xi i i      , estará incluído em i . Para os modelos anteriores tem-se: 
22 
 
*( ) 0E i  e 
* 2 2( )E i 
  
  
; * Bi i i   , ( )E Bi i  e 
 
2
2 * 2 2( )E B Bi i i i  
 
    
  
. Essas expressões mostram que se utilizando o 
modelo proposto, se ele for correto 0Bi  e o QMDes será uma estimativa não 
tendenciosa para a variância residual, ou seja, 2( )E QMDes  ; por outro lado, se o 
modelo proposto não for correto, então 
12 2( )
2
E QMDes Bin
 

. 
 Se o modelo proposto for de regressão linear simples, um gráfico pode mostrar 
essa falta de ajuste. Entretanto, quando o modelo é mais complexo, ou então existe mais 
de uma variável explicativa, fica mais difícil mostrar graficamente. Desta forma, torna-
se necessário a obtenção de uma estimativa da variância residual ( 2 ) que seja 
independente do modelo. Isso pode ser obtido por meio do planejamento de observações 
repetidas de Y para cada X, ou seja, considera-se k níveis de Xi , para os quais são 
observados ni valores de Y. Portanto, as observações coletadas são do tipo 
( 1,2, , ; 1,2, )Y i k j nij i  . Essa nova estimativa de 
2 é dada pelo Quadrado 
Médio do Resíduo de uma análise de variância em que cada nível de X é considerado 
como um tratamento e Y a variável resposta. Nesse caso têm-se então o desvio da 
regressão e o resíduo (ou erro puro); as expressões utilizadas para obtenção do 
erro puro são: 
 
1 2
Y Y Yini i iYi ni
  
 , 
2
1 1
nk i
Yij
i j
Y
N
 
 
 e 
1
k
N ni
i
 

. Tem-se 
 
      Y Y Y Y Y Yij ij i i      , e, portanto, 
 
         
2 2 2
2
1 1 1 1 1 1 1 1
n n n nk k k ki i i i
Y Y Y Y Y Y Y Y Y Yij ij i i ij i i
i j i j i j i j
              
       
, ou 
 
seja, SQTotal SQTrat SQErroPuro  , em que 
 
2
2
1 1 1 1
n nk ki i
SQTotal Y Y Y Cij ij
i j i j
      
   
 ; 
2
1 1
nk i
Yij
i j
C
N
 
      , sendo 
1
k
N ni
i
 

; 
 
   
2
2 2
1 1 1 1
n Tk k ki iSQTrat Y Y n Y Y Ci i i ni j i i i
        
   
 ; 
 
23 
 
 
2
1 1
nk i
SQErroPuro Y Y SQTotal SQTratij i
i j
    
 
, uma vez que 
 
         . 0.
1 1 1 1 1
n n Yk k ki i iY Y Y Y Y Y Y Y Y Y Y nij i i i ij i i i i ni j i j i i
 
             
       
 . Essas 
expressões são equivalentes ao modelo estatístico de um delineamento inteiramente 
casualizado dado por 
 
Yij i ij     , cujo esquema de análise de variância é o seguinte: 
 
Fontes de Variação GL SQ 
Trat (níveis de X) 
Resíduo 
k – 1 
N – k 
SQTrat 
SQRes 
Total N – 1 SQTotal 
 
O que se deseja verificar agora é verificar se existe uma relação linear entre as médias 
de tratamentos (níveis de X) e os Yi´s, isto é, desdobrar os (k - 1) graus de liberdade de 
tratamentos em 1 grau de liberdade para Regressão Linear e (k – 2) graus de liberdade 
para desvio da regressão. Então, o modelo para médias de tratamentos é dado por: 
 
( )
0 1 1
E Y X xi i i       , sendo ( )E Yi estimado por 
 
ˆ ˆ ˆˆ ˆ
0 1
Y X xi i i i       , em que: 
ˆ ˆ
0 1
Y X   e 1ˆ
1 2
1
k
n x Yi i i
i
k
n xi i
i





 . Tem-se então, 
para um dado Xi , que 
 
   ˆ ˆY Y Y Y Y Yi i i i     , ou seja, 
 
Tratamentos (Entre níveis de X) = falta de ajuste + efeito do modelo. Portanto, 
 SQTrat = SQDesvios de Reg + SQReg ou 
 
 SQDesvio = SQTrat - SQReg , sendo 
2
12 2ˆRe
1 1 2
1
k
n x Yi i ik i
SQ g n xi i ki
n xi i
i

 
 
  



 . Desta forma, o novo quadro de análise de 
variância fica da forma seguinte: 
 
 
 
24 
 
 
Fontes de 
Variação 
GL SQ QM F 
Regressão 
Linear 
Desvio de 
Regressão 
Tratamentos 
Resíduo 
 
1 
 
k – 2 
k – 1 
N – k 
 
SQReg 
 
SQDes 
SQTrat 
SQRes 
 
QMReg 
 
QMDes 
QMTrat 
QMRes 
 
FReg 
 
FDes 
FTrat 
Total N – 1 SQTotal 
 
 
Pode ser verificado que 
 
   
2
0 12 1
2 2
k
n X Xi i iSQDes iE QMDes E
k k
  

  
        
. Para testar a falta de 
ajuste (ou linearidade) do modelo deve-se testar a hipótese 
 
   : 00 0 1 0 1H X X X X           . Sob essa hipótese tem-se 
 
  2E QMDes  e 
1 2
22
SQDes
k



 . Além disso, 
1 2Re
2
SQ s
N k



. Logo, a 
estatística 
 
 
2;Re
QMDes
F F
Des k N kQM s

 
. Portanto, rejeita-se 
0
H , a 100 % 
de probabilidade, se 
2; ;
F F
Des k N k 

 
 ou se  Pr 2;F FDesk N k    . Isso 
significa que o modelo linear não satisfaz, devendo-se procurar outro modelo. Além 
disso, faz-se também o teste para a regressão linear, isto é, o teste da hipótese: 
 
: 0
0 1
H   versus : 0
1
Ha   . 
 
Exemplo de Aplicação: Os dados mostrados a seguir referem-se a concentrações de CO2 
(X) aplicadas sobre folhas de trigo a uma temperatura de 35
o
C e a quantidades de CO2 
(Y, cm
3
/dm
2
/hora) absorvido pelas folhas (Extraído de MEAD & CURNOW, 1990) 
 
Amostra 1 2 3 4 5 6 7 8 9 10 11 
X 
Y 
75 
0,00 
100 
0,65 
100 
0,50 
120 
1,00 
130 
0,95 
130 
1,30 
160 
1,80 
190 
2,80 
200 
2,50 
240 
4,30 
250 
4,50 
 
a) Com base no modelo Yij i ij     tem-se a análise de variância seguinte: 
 
 
 
25 
 
 
Fontes de 
Variação 
GL SQ QM F 
Tratamentos 
(entre níveis de 
X) 
Resíduo 
 
 
7 
2 
 
 
132,71 
 2,89 
 
 
18,96 
 1,44 
 
 
13,14
 
Total 9135,60 
 
b) Com base no modelo 
0 1
Y Xij i ij     tem-se a análise de regressão seguinte: 
 
Fontes de 
Variação 
GL SQ QM F 
Regressão 
Linear 
Desvio de 
Regressão 
 
1 
 
8 
 
 90,83 
 
 44,77 
 
90,83 
 
5,60 
 
16,23
** 
Total 9 135,60 
 
 
 
c) Combinando-se os dois resultados anteriores tem-se: 
 
Fontes de 
Variação 
GL SQ QM F 
Regressão 
Linear 
Desvio de 
Regressão 
 
1 
 
6 
 
 90,83 
 
 41,88 
 
90,83 
 
 6,98 
 
62,93
** 
 
 4,84
ns
 
Tratamentos 
Resíduo 
7 
2 
132,71 
 2,89 
 
 1,44 
 
Total 9 
 
 
d) As principais conclusões das análises são: como para falta de ajuste, F = 4,84 < F6; 
2;0,05 ou Pr (F6; 2 > 4,84) = 0,1812 > 0,05, não se rejeita H0, a 5% de probabilidade de 
Erro Tipo I. Pode ser constatado ainda que o teste para a hipótese : 0
0 1
H   é 
significativo a 1% de probabilidade, indicando a tendência linear. Se a falta de ajuste 
fosse significativa, seria concluído que o modelo linear usado não era adequado, 
havendo necessidade de se utilizar um outro modelo. Neste caso, o quadrado médio 
26 
 
residual não estimaria corretamente a variância residual ( 2 ), pois estaria incluindo um 
erro sistemático devido ao uso de um modelo inadequado. 
3.5 - Modelo Matemático na Regressão Linear 
Três pressuposições básicas são feitas sobre a relação entre Y e X: 
1) Para cada X selecionado há uma distribuição normal de Y a partir da qual o 
valor amostral de Y é extraído ao acaso. Se desejado, pode ser extraído mais de um Y 
de cada distribuição; 
2) A população de valores de Y que corresponde a um X selecionado tem uma 
média que localiza-se sobre a linha reta       ( )X X x, onde  e  são 
parâmetros da equação de regressão; 
3) Em cada população, o desvio padrão de Y em torno de sua média +x, tem o 
mesmo valor, denotado por yx. 
O modelo matemático é concisamente especificado pela equação Y=+x+, 
onde  é uma variável aleatória extraída de N(0, yx). Neste modelo, Y é a soma de 
uma parte aleatória, , e de uma parte fixada por x. A parte fixada determina uma média 
para cada x. Estas médias localizam-se sobre a linha reta representada por =+x, que 
é a reta de regressão da população. O parâmetro  é a média da população que 
corresponde a x=0; desta forma  especifica a altura (interseção) da reta quando X=X. 
O  é a inclinação da reta de regressão, ou seja, a variação em Y por unidade de 
aumento em x. O  é independente de x e normalmente distribuído, ou seja, N(0, 
yx). 
 
 
 
 
 
 =  + x 
 
yx 
27 
 
Figura 3.2. Representação do modelo de regressão linear. A 
distribuição normal de Y em torno da linha de 
regressão  + x é mostrada para 3 valores 
selecionados de X. 
 
 
 
 
Figura 3.3. Propriedade de uma linha de regressão. 
 
 
3.6 - Y como um Estimador de  =  + x 
Para qualquer x, o valor computado de Y estima o que corresponde a  =  + 
x.. Tem-se que: 
Y Y b x      ( ) ( ) . Assim, a diferença entre Y e  tem duas fontes, 
ambos devido ao  aleatório. 
O valor de Y , possibilita também julgar se um Y individual observado está 
abaixo ou acima de seu valor médio para o X em questão. Algebricamente tem-se: 
dyx Y Y x Y bx Y b x                ( ) ( ) ( ) 
A quantidade S yx d yx n2 2 2  ( ) é um estimador não tendencioso de 2yx, 
que é a variância dos . 
 
3.7 - O Método dos Quadrados Mínimos 
A escolha de Y e b para estimar os parâmetros  e  é uma aplicação de um 
princípio amplamente usado em problemas de estimação estatística e conhecido como o 
método dos quadrados mínimos. Para explicar este método, seja  e  dois estimadores 
 =  + x  
  
 
 
  
 
 
  
 
 
 
 
 Unidade de Variação em X 
28 
 
quaisquer de  e . Para os pares de observações (Y, X) a quantidade Y x    mede 
o quanto a regressão ajustada erra ao estimar Y. No método dos quadrados mínimos  e 
 são escolhidos de forma que minimize a soma dos quadrados desses erros, isto é, 
minimiza-se (Y x    )2. O cientista Gauss demonstrou que estimadores obtidos 
desta forma são: (1) não tendenciosos e (2) têm os menores erros padrões. 
 
3.8 - Estimativa do Intervalo de Confiança para  e Teste de Hipóteses Anuladas 
Uma vez obtidas as estimativas pontuais dos parâmetros da regressão da 
população, deve-se em seguida estabelecer as estimativas de seus intervalos de 
confiança e testar as hipóteses acerca destes parâmetros. 
Em amostras aleatórias b é distribuído com uma variância estimada por 
S
2
b=S
2
yx/x
2
. Uma vez que a quantidade (b-)/Sb segue a distribuição t com n-2 graus 
de liberdade, pode ser dito com 95% de confiança que 
b t S b t Sb b   0 025 0 025, , 
Ao invés de estimativa do intervalo de confiança de , o interesse pode centrar-
se em testar a hipótese nulidade H0 : =0. Neste caso, tem-se que t=(b-)/Sb, com n-2 
graus de liberdade. Este valor é comparado com o tabelado, ao nível de significância 
desejado. 
 
3.9 - Predição da Linha de Regressão (ou da Média) da População 
Aqui serão feitas inferências acerca de =+x, isto é, sobre a altura da linha de 
regressão da população no ponto X. A estimativa amostral de  é  .Y Y bx  O erro na 
predição é dado por  ( ) ( )Y Y b x       . Mas, uma vez que Y=+x+, tem-se 
que Y    , dando  ( )Y b x      . O termo  tem variância 2yx/n e b é 
distribuído em torno de  com variância 
2
yx/x
2
. Finalmente, a independência dos  
garante que estas duas fontes de erro não são correlacionados, de forma que a variância 
de sua soma é a soma das duas variâncias. Isto fornece  2 2 2 21 ( / / )Y yx n x x   . O 
erro padrão estimado de Y é S Syx n x xy ( / ) ( / ) 1
2 2 , com n-2 graus liberdade. 
Correspondendo a qualquer Y (estimativa pontual de ), há um intervalo de 
confiança para a estimativa que é dado por  ,  , Y t S Y t Sy y   0 05 0 05 . 
 
3.10 - Predição de um novo Y Individual 
A regressão é utilizada também para predizer o valor individual de Y para um 
novo membro da população para a qual X tinha sido avaliado. O valor a ser predito é 
novamente Y Y bx  ; uma vez que Y=+x+, o erro de predição agora torna-se 
 ( ) ( )Y Y Y b x        . O elemento aleatório  para o novo membro é uma 
fonte adicional de incerteza. Assim, o quadrado médio do erro do valor a ser predito 
contém outro termo, sendo S Y
S yx
n
x S yx
x
S yx2
2 2 2
2   

. 
29 
 
Uma vez que o termo originado da variância de  geralmente predomina, o erro 
padrão é escrito como S Syx
n
x
x
y   1
1 2
2
. 
Os dois problemas de predição têm a característica interessante de que a 
predição, Y , é exatamente a mesma nos dois problemas, mas o erro padrão da predição 
difere. Para evitar a confusão, use os símbolos  e S  quando a média da população 
está sendo predita e, Y e S quando um Y individual está sendo predito. 
 
3.11 - Partição da Soma de Quadrados da Variável Dependente (Análise de 
Variância da Regressão) 
Os cálculos de regressão podem ser vistos como um processo de partição de Y
2
 
em três partes úteis e significantes:     Y Y n xy x d yx2 2 2 2 2  ( ) / ( ) / . Cada 
uma destas porções podem ser exatamente associadas com a soma de quadrados de um 
segmento das ordenadas Y. Para ilustrar isto, considere a tabela e a figura a seguir: 
Tabela 3.1. Conjunto de dados para ilustrar a partição de Y
2
. 
 
X 
 
2 
 
4 
 
6 
 
8 
 
10 
 
12 
 
14 
 
X=56 
Y 4 2 5 9 3 11 8 Y=42 
 
 
 n X Y x y xy     7 8 6 112 68 562 2; ; ; ; ;   
 
 
Figura 3.4. A ordenada em X=12 é dividida em 2 
partes, Y =6 e y=5. Então y é dividido 
em y=2 e dyx=3. 
30 
 
Assim, Y Y y dy x       . 6 2 3 11. Na Figura 4, a ordenada em X=12 é 
particionada em 3 segmentos: Y Y y dy x  . , onde  y Y Y bx   é o desvio do 
ponto Y sobre a linha ajustada. 
Correspondendo à relação Y Y y dy x   . , tem-se a seguinte identidade nas 
somas dos quadrados    Y Y y d yx2 2 2 2   . A soma de quadrados da ordenada 
y
2
 e os desvios em relação à regressão d
2
yx já são conhecidos. Falta identificar 
(y)
2
/n com Y2 e ( ) / xy x2 2 com y 2. Primeiro, 
( ) ( )

Y
n
nY
n
nY Y
2 2
2 2   . 
Isto é, a correção para a média é simplesmente a soma de quadrados da média tomada n 
vezes. Segundo, 
( ) ( )
( )





   
xy
x
xy
x
x b x b x y
2
2
2
2 2
2 2 2 2 2 2    . Desta forma, a soma 
de quadrados atribuível à regressão passa a ser a soma de quadrados dos desvios dos 
pontos Y sobre a linha ajustada em relação à sua média. 
Correspondendo à partição de Y2 há uma partição dos graus de liberdade total 
em 3 partes. Então as partições são mostradas na tabela a seguir: 
 
 
 
F.V. 
 
Símbolo 
 
G.L. 
 
S.Q. 
 
Q.M. 
 
A média 
 
Y 
 
1 
 
(Y)
2
/n=252 
 
 
Regressão b 1 (xy)
2
/x
2
=28 
Desvio em relação 
a regressão 
 
dyx 
 
n-2=5 
 
d
2
yx=40 
 
S
2
yx=8 
 
Total 
 
Y 
 
n=7 
 
Y
2
=320 
 
 
 
 Total Corrigido: Y
2 
= 28+40 = 68; g.l. = n-1 = 6 
 
As n=7 observações contribuem com 7 g.l., dos quais 1 está associado com a 
média e 1 com a inclinação (coeficiente de regressão, b), deixando 5 para os desvios em 
relação à regressão. Na maioria das aplicações, a partição das somas de quadrados e 
graus de liberdade fica: 
 
 
 
 
31 
 
 
Tabela 3.2. Análise de variância de Y. 
 
F.V. 
 
G.L. 
 
S.Q. 
 
Q.M. 
 
F 
 
Regressão 
 
1 
 
28 
 
28 
 
3,5
ns
 
Desvio da Regressão 5 40 8 
 
Total Corrigido 
 
6 
 
68 
 
 
 
 
 
F0,05(1;5)=6,61 
A variável F(1, n-2) é o quadrado da variável t(n-2), isto é, F=t
2
. 
A percentagem da variação total, em torno da média Y , que é explicada pela 
regressão é dada por R
SQ gressão
SQ Total Corrigido
2 
Re
. Na realidade, r é a correlação entre Y 
e Y e geralmente é chamado de coeficiente de correlação. Neste exemplo, 
R 2
28
68
39 9%  , . 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
32 
 
 
CAPÍTULO IV 
 
REGRESSÃO E CORRELAÇÃO LINEAR SIMPLES 
 
REGRESSÃO LINEAR 
 
Introdução 
A variável que é a base da estimação é convencionalmente chamada de variável 
independente e designada por X, e a variável cujo valor deve ser estimado é chamada de 
variável dependente designada por Y. Quando é formulada uma equação para estimar Y 
a partir de X, tal equação é denominada de uma regressão de Y sobre X. 
A técnica de análise de regressão é realmente um procedimento de estimação 
e/ou predição. A análise de regressão geralmente é classificada em dois tipos: simples e 
múltipla. A regressão simples envolve apenas duas variáveis, tal como a regressão de Y 
sobre X. A regressão múltipla envolve três ou mais variáveis, uma das quais é a variável 
dependente que deve ser estimada com base nos valores das outras. As variáveis podem 
ter um relacionamento linear (aditivo nos parâmetros da regressão) ou não-linear. 
Quando descobre-se que duas variáveis estão relacionadas, frequentemente 
deseja-se conhecer quão próximo é este relacionamento. O grau de aproximação do 
relacionamento é comumente referido como a correlação entre as variáveis. O problema 
de correlação está intimamente associado com o de regressão e é uma parte integrante 
da análise bivariada. 
 A utilização de modelos de regressão pode ter os objetivos seguintes: 
 
e) Predição – Como se espera que uma parte da variação de Y seja explicada pela 
variável X, então se pode utilizar o modelo para obter valores de Y 
correspondentes a valores de X que não estavam entre os estudados. Esse 
processo é denominado de predição e, são utilizados valores de X que estão 
dentro do intervalo de variação estudado. Este talvez seja o uso mais comum dos 
modelos de regressão. 
f) Seleção de variáveis – Geralmente não se sabe precisamente quais são as 
variáveis que afetam significativamente a variação de Y. Então, conduzem-se 
estudos onde estão presentes muitas variáveis. A análise de regressão pode 
auxiliar no processo de seleção de variáveis, indicando aquelas cuja contribuição 
não seja importante. 
g) Estimação de parâmetros – Dado um modelo e um conjunto de dados referente 
às variáveis respostas e preditoras (explicativas), ajustar o modelo aos dados, ou 
estimar parâmetros, significa obter valores (estimativas) para os parâmetros do 
modelo, por algum processo, tendo por base o modelo e os dados observados. 
Em alguns casos, o valor do coeficiente (estimativa do parâmetro) tem valor por 
si, como no caso do estudo de estabilidade e adaptabilidade de cultivares. Em 
outros casos, o interesse está em uma função dos parâmetros estimados 
(coeficientes), como no caso do cálculo de doses ótimas de nutrientes nos 
estudos de nutrição de plantas. 
33 
 
h) Inferência – O ajuste de um modelo de regressão tem por objetivo ainda realizar 
inferências estatísticas sobre as estimativas obtidas, como por exemplo, testes de 
hipóteses e intervalos de confiança. 
 
Três pressuposições básicas são feitas sobre a relação entre Y e X: 
1) Para cada X selecionado há uma distribuição normal de Y a partir da qual o 
valor amostral de Y é extraído ao acaso. Se desejado, pode ser extraído mais de um Y 
de cada distribuição; 
2) A população de valores de Y que corresponde a um X selecionado tem uma 
média que localiza-se sobre a linha reta       ( )X X x, onde  e  são 
parâmetros da equação de regressão; 
3) Em cada população, o desvio padrão de Y em torno de sua média +x, tem o 
mesmo valor, denotado por yx. 
O modelo matemático é concisamente especificado pela equação Y=+x+, 
onde  é uma variável aleatória extraída de N(0, yx). Neste modelo, Y é a soma de 
uma parte aleatória, , e de uma parte fixada por x. A parte fixada determina uma média 
para cada x. Estas médias localizam-se sobre a linha reta representada por =+x, que 
é a reta de regressão da população. O parâmetro  é a média da população que 
corresponde a x=0; desta forma  especifica a altura (interseção) da reta quando X=X. 
O  é a inclinação da reta de regressão, ou seja, a variação em Y por unidade de 
aumento em x. O  é independente de x e normalmente distribuído, ou seja, N(0, 
yx). 
 
 
 
 
 
 
 =  + x 
 
yx 
34 
 
Figura 3.2. Representação do modelo de regressão linear. 
A distribuição normal de Y em torno da linha de regressão  + 
x é mostrada na Figura para 3 valores selecionados de X. 
 
 
 
 
Figura 3.3. Propriedade de uma linha de regressão. 
 
3.6 - Y como um Estimador de  =  + x 
Para qualquer x, o valor computado de Y estima o que corresponde a  =  + 
x.. Tem-se que: 
Y Y b x      ( ) ( ) . Assim, a diferença entre Y e  tem duas fontes, 
ambos devido ao  aleatório. 
O valor de Y , possibilita também julgar se um Y individual observado está 
abaixo ou acima de seu valor médio para o X em questão. Algebricamente tem-se: 
dyx Y Y x Y bx Y b x                ( ) ( ) ( ) 
A quantidade S yx d yx n2 2 2  ( ) é um estimador não tendencioso de 2yx, 
que é a variância dos . 
 
3.7 - O Método dos Quadrados Mínimos 
A escolha de Y e b para estimar os parâmetros  e  é uma aplicação de um 
princípio amplamente usado em problemas de estimação estatística e conhecido como o 
método dos quadrados mínimos. Para explicar este método, seja  e  dois estimadores 
quaisquer de  e . Para os pares de observações (Y, X) a quantidade Y x    mede 
 =  + x  
  
 
 
  
 
 
  
 
 
 
 
 Unidade de Variação em X 
35 
 
o quanto a regressão ajustada erra ao estimar Y. No método dos quadrados mínimos  e 
 são escolhidos deforma que minimize a soma dos quadrados desses erros, isto é, 
minimiza-se (Y x    )2. O cientista Gauss demonstrou que estimadores obtidos 
desta forma são: (1) não tendenciosos e (2) têm os menores erros padrões. 
 
3.8 - Estimativa do Intervalo de Confiança para  e Teste de Hipóteses Anuladas 
Uma vez obtidas as estimativas pontuais dos parâmetros da regressão da 
população, deve-se em seguida estabelecer as estimativas de seus intervalos de 
confiança e testar as hipóteses acerca destes parâmetros. 
Em amostras aleatórias b é distribuído com uma variância estimada por 
S
2
b=S
2
yx/x
2
. Uma vez que a quantidade (b-)/Sb segue a distribuição t com n-2 graus 
de liberdade, pode ser dito com 95% de confiança que 
b t S b t Sb b   0 025 0 025, , 
Ao invés de estimativa do intervalo de confiança de , o interesse pode centrar-
se em testar a hipótese nulidade H0 : =0. Neste caso, tem-se que t=(b-)/Sb, com n-2 
graus de liberdade. Este valor é comparado com o tabelado, ao nível de significância 
desejado. 
 
3.9 - Predição da Linha de Regressão (ou da Média) da População 
Aqui serão feitas inferências acerca de =+x, isto é, sobre a altura da linha de 
regressão da população no ponto X. A estimativa amostral de  é  .Y Y bx  O erro na 
predição é dado por  ( ) ( )Y Y b x       . Mas, uma vez que Y=+x+, tem-se 
que Y    , dando  ( )Y b x      . O termo  tem variância 2yx/n e b é 
distribuído em torno de  com variância 
2
yx/x
2
. Finalmente, a independência dos  
garante que estas duas fontes de erro não são correlacionados, de forma que a variância 
de sua soma é a soma das duas variâncias. Isto fornece  2 2 2 21 ( / / )Y yx n x x   . O 
erro padrão estimado de Y é S Syx n x xy ( / ) ( / ) 1
2 2 , com n-2 graus liberdade. 
Correspondendo a qualquer Y (estimativa pontual de ), há um intervalo de 
confiança para a estimativa que é dado por  ,  , Y t S Y t Sy y   0 05 0 05 . 
 
3.10 - Predição de um novo Y Individual 
A regressão é utilizada também para predizer o valor individual de Y para um 
novo membro da população para a qual X tinha sido avaliado. O valor a ser predito é 
novamente Y Y bx  ; uma vez que Y=+x+, o erro de predição agora torna-se 
 ( ) ( )Y Y Y b x        . O elemento aleatório  para o novo membro é uma 
fonte adicional de incerteza. Assim, o quadrado médio do erro do valor a ser predito 
contém outro termo, sendo S Y
S yx
n
x S yx
x
S yx2
2 2 2
2   

. 
36 
 
Uma vez que o termo originado da variância de  geralmente predomina, o erro 
padrão é escrito como S Syx
n
x
x
y   1
1 2
2
. 
Os dois problemas de predição têm a característica interessante de que a 
predição, Y , é exatamente a mesma nos dois problemas, mas o erro padrão da predição 
difere. Para evitar a confusão, use os símbolos  e S  quando a média da população 
está sendo predita e, Y e S quando um Y individual está sendo predito. 
 
3.11 - Partição da Soma de Quadrados da Variável Dependente (Análise de 
Variância da Regressão) 
Os cálculos de regressão podem ser vistos como um processo de partição de Y
2
 
em três partes úteis e significantes:     Y Y n xy x d yx2 2 2 2 2  ( ) / ( ) / . Cada 
uma destas porções podem ser exatamente associadas com a soma de quadrados de um 
segmento das ordenadas Y. Para ilustrar isto, considere a tabela e a figura a seguir: 
Tabela 3.1. Conjunto de dados para ilustrar a partição de Y
2
. 
 
X 
 
2 
 
4 
 
6 
 
8 
 
10 
 
12 
 
14 
 
X=56 
Y 4 2 5 9 3 11 8 Y=42 
 
 
 n X Y x y xy     7 8 6 112 68 562 2; ; ; ; ;   
 
 
Figura 3.4. A ordenada em X=12 é dividida em 2 
partes, Y =6 e y=5. Então y é dividido 
em y=2 e dyx=3. 
37 
 
Assim, Y Y y dy x       . 6 2 3 11. Na Figura 4, a ordenada em X=12 é 
particionada em 3 segmentos: Y Y y dy x   . , onde  y Y Y bx   é o desvio do 
ponto Y sobre a linha ajustada. 
Correspondendo à relação Y Y y dy x   . , tem-se a seguinte identidade nas 
somas dos quadrados    Y Y y d yx2 2 2 2   . A soma de quadrados da ordenada 
y
2
 e os desvios em relação à regressão d
2
yx já são conhecidos. Falta identificar 
(y)
2
/n com Y2 e ( ) / xy x2 2 com y 2. Primeiro, 
( ) ( )

Y
n
nY
n
nY Y
2 2
2 2   . 
Isto é, a correção para a média é simplesmente a soma de quadrados da média tomada n 
vezes. Segundo, 
( ) ( )
( )





   
xy
x
xy
x
x b x b x y
2
2
2
2 2
2 2 2 2 2 2    . Desta forma, a soma 
de quadrados atribuível à regressão passa a ser a soma de quadrados dos desvios dos 
pontos Y sobre a linha ajustada em relação à sua média. 
Correspondendo à partição de Y2 há uma partição dos graus de liberdade total 
em 3 partes. Então as partições são mostradas na tabela a seguir: 
 
 
 
 
F.V. 
 
Símbolo 
 
G.L. 
 
S.Q. 
 
Q.M. 
 
A média 
 
Y 
 
1 
 
(Y)
2
/n=252 
 
 
Regressão b 1 (xy)
2
/x
2
=28 
Desvio em relação 
a regressão 
 
dyx 
 
n-2=5 
 
d
2
yx=40 
 
S
2
yx=8 
 
Total 
 
Y 
 
n=7 
 
Y
2
=320 
 
 
 
 
 Total Corrigido: Y
2 
= 28+40 = 68; g.l. = n-1 = 6 
As n=7 observações contribuem com 7 g.l., dos quais 1 está associado com a 
média e 1 com a inclinação (coeficiente de regressão, b), deixando 5 para os desvios em 
relação à regressão. Na maioria das aplicações, a partição das somas de quadrados e 
graus de liberdade fica: 
 
 
 
 
38 
 
 
 
Tabela 3.2. Análise de variância de Y. 
 
F.V. 
 
G.L. 
 
S.Q. 
 
Q.M. 
 
F 
 
Regressão 
 
1 
 
28 
 
28 
 
3,5
ns
 
Desvio da Regressão 5 40 8 
 
Total Corrigido 
 
6 
 
68 
 
 
 
 
 
F0,05(1;5)=6,61 
A variável F(1, n-2) é o quadrado da variável t(n-2), isto é, F=t
2
. 
A percentagem da variação total, em torno da média Y , que é explicada pela 
regressão é dada por R
SQ gressão
SQ Total Corrigido
2 
Re
. Na realidade, r é a correlação entre Y 
e Y e geralmente é chamado de coeficiente de correlação. Neste exemplo, 
R 2
28
68
39 9%  , . 
 
 
CORRELAÇÃO SIMPLES 
 
 
4.1 - Introdução 
A análise de regressão é apropriada para quando uma variável aleatória Y 
depende de uma variável causal X que frequentemente é controlada pelo pesquisador e a 
análise é conduzida para determinar o efeito de X sobre Y, ou a capacidade de X para 
predizer Y. Por outro lado, o objetivo principal do pesquisador pode ser estudar o grau 
de relacionamento entre duas variáveis aleatórias, nenhuma das quais podendo ser 
considerada como causa da outra. 
Um conjunto de dados constituído de medições de X e Y, feitas sobre uma 
amostra de n materiais experimentais, pode ser vista como uma amostra aleatória 
bivariada (X1, Y1), (X2, Y2), ..., (Xn, Yn), onde os diferentes pares são independentes. A 
partir desta perspectiva, um estudo da relação entre essas variáveis é efetuado através da 
análise de correlação. 
O primeiro passo no estudo de uma relação consiste em colocar as observações 
sobre um gráfico. O diagrama de dispersão fornece uma boa ajuda no discernimento da 
natureza da relação. 
 
4.2 - Coeficiente de Correlação Amostral 
39 
 
Um tipo simples de associação entre as variáveis X e Y produz pares de valores 
ou, graficamente, pontos que distribuem-se em torno de uma linha reta. Uma pequena 
dispersão, em torno da linha indica forte associação; uma grande dispersão é uma 
manifestação de associação fraca. Uma medida numérica desta relação é chamada de 
coeficiente de correlação da amostra ou, às vezes, de coeficiente de correlação 
momento-produto de Pearson. Este coeficiente é dado por: 
 
r
X X Y Y
X X Y Y
i
n
i i
i
i
n
i
i
n

 















 

 
( )( )
( ) ( )
1
2
1
2
1
 , onde (X1, Y1), ... (Xn, Yn) 
são n pares de observações, cada par tendo a mesma distribuição bivariada. 
O coeficientede correlação da população, para uma distribuição bivariada, é 
definido por xy
YX
)Y,X(COV
)Y,X(Corr 

 . A estatística r é um análogo amostral de , 
como pode-se ver substituindo os parâmetros da população pelos seus análogos da 
amostra. Isto é, substitui-se COV (X, Y) por ( )( ) / ( ),X X Y Y n Xi i   1
2 por 
( )( ) / ( ),X X Y Y n Xi i   1
2 e  2Y por ( ) / ( )Y Y ni  
2 1 . Portanto, o 
coeficiente de correlação da amostra r pode ser considerado um estimador da correlação 
populacional . 
Outra fórmula de r, útil em cálculos manuais é: 
r
X Y X Y
X X Y Y
i i i
i
n
i
n
i
i
n
i i
i
n
i
n
i i
i
n
i
n








































 
 
 
 
11 1
2
1
2
1
2
1
2
1
 
O r pode assumir valores entre -1 e 1. A proporção de variabilidade nos valores 
de Y que pode ser explicada por uma relação linear com X é precisamente r
2
. Assim, 
para r=0,90, tem-se que 81% da variabilidade nos valores de Y é explicada por uma 
relação linear com X. 
 
Figura 4.1. Correspondência entre os valores de r e a quantidade de dispersão. 
 r = 0,9 r = 0,5 r = 0,0 r = -0,9 r = -0,5 
40 
 
 
As principais propriedades de r são: 
(1) r deve estar entre -1 e +1; 
(2) o valor numérico de r mede a intensidade da relação linear e o sinal de r 
indica a direção da relação; 
(3) r2 é a proporção da variabilidade nos valores de Y que é explicada por uma 
linha reta, ajustada pelo método dos quadrados mínimos; 
(4) r não varia se os valores de X são modificados para aX+b e os de Y para 
cY+d, onde a e c são constantes que têm o mesmo sinal. 
O coeficiente de correlação amostral, r, mede a intensidade da relação linear de 
duas variáveis. Pode haver o caso em que X e Y são fortemente relacionados mas que a 
relação é curvilínea. Às vezes a curva pode ser tal que r é aproximadamente zero, o que 
indica uma falta de relação linear; mas não afirma que não existe qualquer relação. 
Nenhuma medida de relação é apropriada quando o diagrama de dispersão divide-se em 
dois ou mais aglomerados de pontos. As figuras a seguir ilustram esses casos. 
 
Figura 4.2. - O coeficiente de correlação linear. 
 
A. Uma forte relação ao longo de uma curva para a qual r é quase zero. 
B. Relação não linear. 
C. Amostras provenientes de duas populações. 
Uma alta correlação amostral não significa necessariamente qualquer relação 
causal entre duas variáveis. A observação de que duas variáveis tendem a variar 
simultaneamente numa certa direção não implica na presença de uma relação direta de 
causa e efeito entre elas. Pode acontecer que uma terceira variável é que realmente está 
causando a correlação observada entre as duas variáveis. A falsa correlação que é 
produzida é chamada de correlação sem sentido. Quando usa-se o coeficiente de 
correlação como uma medida de relação, deve-se ter o cuidado de evitar que uma 
variável “emboscada” possa afetar qualquer das variáveis que estão sendo estudadas. 
Numa amostra bivariada uma importante questão a ser considerada é se as duas 
variáveis aleatórias são ou não correlacionadas. Quando a população é modelada como 
uma população bivariada normal, existe um teste simples para a hipótese nulidade 
H0:=0. Neste tipo de modelo, =0 é equivalente à independência das duas variáveis. A 
estatística apropriada para testar a independência num modelo normal bivariado é: 
41 
 
t
n r
r



2
1 2( )
 , que tem distribuição t de Student com graus de liberdade igual a 
n-2. 
Dada uma alternativa bilateral para o teste, a hipótese nula, é rejeitada se o valor 
observado deste teste de significância for maior que t/2 ou menor que -t/2. Em outras 
palavras, para testar H0:=0 versus H1:  0, com base em n pares de observações 
obtidos, a partir de uma população normal bivariada, tem-se que: 
Rejeita-se H0 se 
n r
r
t



2
1 2
2 com g.l.=n-2 para t. 
O teste é dado por: 
F
n r
r



( )2
1
2
2
 que é comparado com F(1, n-2). Observa-se que a estatística F é 
o quadrado da estatística t. F=t
2
. 
 
Uma forma simples de obter o intervalo de confiança para , utiliza a estatística 
Z de Fisher que é dada por: 
Z
r
re



1
2
1
1
log
( )
( )
. Demonstra-se que a estatística Z tem distribuição 
aproximadamente normal. A média da distribuição de Z é aproximadamente 
E Z Ze( ) log
( )
( )




1
2
1
1


 e sua variância é aproximadamente VAR
nz


1
3
. 
Portanto, Z é ND Z
n
,
1
3





 . 
Calcula-se Z a partir da equação anterior ou obtém-se seu valor em tabela 
própria. Um intervalo de confiança para Z pode ser formado como: Z  Z*(1-/2) 
1 3/ ( )n  , onde Z* representa a distribuição normal padronizada. 
 
 
 
EXERCÍCIO DE APLICAÇÃO - REGRESSÃO LINEAR SIMPLES 
Para ilustrar o procedimento da análise de regressão linear simples consideremos 
os dados de produção de arroz de um experimento com quatro níveis de nitrogênio, 
como mostrado no quadro a seguir. O principal objetivo da análise é estimar uma 
resposta linear de produção de arroz para as doses de nitrogênio aplicadas e, testar se 
esta resposta linear é significativa (citado em GOMEZ & GOMEZ, 1984). 
 
 
 
42 
 
 
Tabela 4.1. Experimento de fertilizante em arroz. 
 
Doses de Nitrogênio 
 
Produção de Grãos 
(Kg/ha) (Kg/ha) 
 
0 
 
4230 
50 5442 
100 6661 
150 7150 
 
Resolução: 
(1) Computar as médias X e Y , as somas de quadrados corrigidos x
2
 e y
2
, e a 
soma de produtos cruzados corrigida xy das variáveis X e Y, através das fórmulas 
seguintes: 
X
X
n
Y
Y
n
x X X
y Y Y xy X X Y Y
i
i i i
   
    
 
 
   
; ; ( ) ;
( ) ; ( )( )
2 2
2 2
 
onde (Xi, Yi) representa o i=ésimo par dos valores X e Y. Para o nosso exemplo, n=4 
pares de valores de produção de arroz (Y) e doses de nitrogênio (X). O quadro a seguir 
contém as médias, as somas de quadrados corrigida e a soma de produtos cruzados 
corrigida. 
(2) Computar as estimativas dos parâmetros  e  da equação de regressão (Y = 
+X). Como a Y bX e b
xy
x
  

 2
, onde a é a estimativa de  e b a estimativa de 
, temos que 
b e a
a
   

249745
12500
19 966 5870 75 19 96 75
4374
, , ( , )( );
 
Assim, a regressão linear estimada é dada por  ,Y a bX X   4374 19 96 para 0  X 
 150. 
(3) Colocar os pontos observados num gráfico e traçar a linha reta estimada pela 
equação de regressão: 
a) plotar os n pontos observados; 
b) usando a regressão linear estimada anteriormente, compute os valores Y, um 
que corresponde ao menor valor de X (Xmín.) e outro ao maior valor de X 
(Xmáx.): 
Ymín. = a+b(Xmín.) =4374+19,96 (0) = 4374 Kg/ha 
43 
 
Ymáx. = a+b(Xmáx.) = 4374+19,96 (150) = 7368 Kg/ha 
c) plotar os dois pontos (Xmín., Ymín.) e (Xmáx., Ymáx.) sobre o plano (X, Y) e 
traçar a reta entre os dois pontos, como pode ser observado na figura a seguir: 
 
Figura 4.3. Regressão linear estimada entre produção de grãos 
(Y) e dose de nitrogênio (X). 
Tabela 4.2. Cálculo da equação de regressão linear simples de produção de grãos 
sobre doses de nitrogênio. 
 
Doses de N 
 
Produção 
 
Desvios em relação 
 
Quadrado dos Desvios 
 
Produtos de 
(Kg/ha) (Kg/ha) à Média Desvios 
(X) (Y) 
x 
 
y 
 
x
2
 
 
y
2
 
(x) (y) 
 
0 
 
4230 
 
-75 
 
-1640,75 
 
5625 
 
2692061 
 
123056 
50 5442 -75 -428,75 625 183287 10719 
100 6661 25 790,25 625 624495 19756 
150 7150 75 1279,25 5625 1636481 95944 
 
Somas=300 
 
23483 
 
00 
 
0,00 
 
12500 
 
5136864 
 
249475 
 
Médias=75 
 
5870,75 
 
00 
 
0,00 
 
3125 
 
1284216 
 
62368,75 
 
A representação gráfica de uma regressão linear apresenta as seguintes 
características: 
Ymáx.= 7368 
Ymín.= 4374 
Y=4374+19,96X 
(r=0,98*) 
44 
 
a) areta deve ser traçada dentro da faixa de valores de Xmín. e Xmáx.. A 
extrapolação da linha para fora destes limites não é válida; 
b) a reta deve passar através do ponto ( , )X Y ; 
c) b é a inclinação da reta; 
d) se extendermos a reta ela deve interceptar o eixo Y no valor de a. 
(4) Testar a significância de : 
a) computar o quadrado médio do resíduo; 
S y x
d y x
n
y xy x
n
2
2 2 2 2
2 2
 





   ( ) /
 
b) computar o valor da estatística tb 
t
b
S
b
S y x
x
b
b
 
2
2
 
c) compare o valor tb computado com o valor t tabelado com n-2 g.l. O valor  é 
julgado significativamente diferente de zero se o valor absoluto de tb é maior que o 
valor tabelado de t ao nível de significância prescrito. 
No nosso exemplo temos: 
S y x
e tb
2
25136864 249475 12500
4 2
78921
19 96
78921
12500
7 94
 



 
( ) /
,
,
 
O valor tabelado de t, aos níveis de significância de 5% e 1%, com (n-2)=2 g.l., 
são 4,303 e 9,925, respectivamente. Portanto, a resposta linear da produção de arroz em 
função de variações das doses aplicadas de N, dentro da faixa de 0 a 150 Kg N/ha, é 
estatisticamente significativa ao nível de significância de 5%. 
(5) Construir um intervalo de confiança (100-)% para , como: 
I. C b t
S y x
x
. 


2
2
, onde t é o valor de t tabelado com (n-2) g.l. ao nível  
de significância. Para nosso exemplo, o intervalo com 95% de confiança para  é 
computado como: 
 
 
I. C b t
S y x
x
.
, ,
, ,
,15; ,
,95%
19 96 4 303
78921
12500
19 96 10 81
9 30 77
0 05
2
2
 

 
 

 
45 
 
Assim, espera-se que o aumento em produção de grãos para todo aumento de 1 
Kg/ha na dose aplicada de N, dentro da faixa de 0 a 150 Kg/ha, esteja localizado entre 
9,15 Kg/ha e 30,77 Kg/ha, em 95% das vezes. 
(6) Testar a hipótese que   0: 
a) computar o valor ta como: 
t
a
S y x
n
X
x
a 

 






0
2
2
2
1

 
b) compare o valor ta computado com o valor t tabelado com (n-2) g.l. e a um 
nível de significância prescrito. Rejeita-se a hipótese que   0 se o valor absoluto de 
t computado for maior que o valor t tabelado correspondente. 
Nesse exemplo, embora, provavelmente não haja necessidade de realizar teste de 
significância para , ilustraremos este procedimento testando se  (isto é, produção na 
dose 0 Kg N/ha) é significativamente diferente de 4000 Kg/ha. Então, tem-se: 
 
ta 








4374 4000
78921
1
4
75
12500
2
 
O valor t tabelado com (n-2) = 2 g.l., ao nível de significância de 5%, é de 4,303. 
Então o valor de  não é significativamente diferente de 4000 Kg/ha. 
 
 
EXERCÍCIO DE APLICAÇÃO - CORRELAÇÃO LINEAR SIMPLES 
1) Para ilustrar a relação entre a resposta e tratamento consideremos os dados do 
exercício anterior. Como os dados foram obtidos de um experimento no qual todos os 
outros fatores, exceto os tratamentos, foram mantidos constantes, é bastante lógico 
assumir que os tratamentos são a causa primária de variação na resposta da cultura. 
Assim, aplicamos a análise de correlação simples para determinar a intensidade da 
relação linear entre a resposta da cultura (representada por produção de grãos) como 
variável dependente e tratamento (doses de N) como variável dependente. 
a) Compute o coeficiente de correlação simples, r, como: 
       
r
xy
x y
  

 2 2
249475
12500 5136864
0 985, 
b) Compare o valor absoluto do r computado com o valor r tabelado com (n-2) = 
2 g.l., o qual é 0,950 ao nível de significância de 5% e 0,990 ao nível de 1%. Uma vez 
que o valor r computado é maior que o tabelado a 5%, o coeficiente de correlação é 
declarado como significativo ao nível de significância de 5%. O valor computado de 
r=0,985 indica que (100) (0,985)
2
 = 97% da variação na produção média é devida a 
função linear das doses de nitrogênio aplicado. O valor de r relativamente alto é também 
um indicativo da proximidade entre a linha de regressão estimada e os pontos 
observados. 
46 
 
Devemos adicionar aqui uma nota de cuidado em relação à magnitude do r 
computado e seus graus de liberdade correspondentes. O valor de r tabelado cai 
rapidamente com o aumento do número de graus de liberdade, que é uma função de n 
(número de pares de observações usados na computação do valor r). Assim, quanto 
menor for n maior deve ser o valor r, para ser declarado como significativo. Portanto, 
uma boa prática na apresentação de resultados de regressão e correlação é especificar o 
tamanho da amostra. 
2) Para ilustrar a relação entre duas respostas, usaremos dados sobre nitrogênio 
protéico solúvel (X1) e clorofila total (X2) em folhas, obtidos de sete amostras de uma 
cultivar de arroz. Neste caso, não está claro se há uma relação causa e efeito entre as 
duas variáveis e, mesmo que houvesse, seria difícil especificar qual é a casa e qual é o 
efeito. Portanto, a análise de correlação simples é aplicada para medir o grau de 
associação linear entre as duas variáveis sem especificar a relação causal. 
a) Computar as médias, somas de quadrados corrigidas e soma de produtos 
corrigida, como no quadro a seguir: 
Tabela 4.3. Cálculo de uma correlação simples entre nitrogênio protéico solúvel 
(X1) e clorofila total (X2) em folhas de arroz. 
 
N 
 
N protéico 
solúvel 
 
Clorofila 
Total 
 
Desvios 
 
Quadrado 
 
Produtos 
da mg/folha mg/folha dos Desvios de 
Desvios 
Amostra (X1) (X2) 
X1 
 
X2 
 
X1
2
 
 
X2
2
 
(X1) (X2) 
 
1 
 
0,60 
 
0,44 
 
-0,37 
 
-0,38 
 
0,1369 
 
0,1444 
 
0,1406 
2 1,12 0,96 0,15 0,14 0,0225 0,0196 0,0210 
3 2,10 1,90 1,13 1,08 1,2769 1,1664 1,1639 
4 1,16 1,51 0,19 0,69 0,0361 0,4761 0,1311 
5 0,70 0,46 -0,27 -0,36 0,0729 0,1296 0,0972 
6 0,80 0,44 -0,17 -0,38 0,0289 0,144 0,0646 
7 0,32 0,04 -0,65 -0,78 0,4225 0,6084 0,5070 
 
Soma 
 
6,80 
 
5,75 
 
0,01 
 
0,01 
 
1,9967 
 
2,6889 
 
2,1819 
 
Média 
 
0,97 
 
0,82 
 
 
b) Computar o coeficiente de correlação, r: 
  
r  
2
1 9967 2 6889
0 942
,1819
, ,
, 
47 
 
c) Compare o valor absoluto do r computado com os valores de r tabelado, com 
(n-2) = 5 g.l., os quais são 0,754 ao nível de significância de 5% e 0,874 ao nível de 1%. 
Então, o coeficiente de correlação é significativamente diferente de zero ao nível de 
probabilidade de 1%. Este valor de r altamente significativo indica que há uma forte 
evidência que o N protéico solúvel e a clorofila total, nas folhas de arroz, estão 
altamente associados um com o outro numa forma linear: folhas com alto teor de 
nitrogênio protéico solúvel têm um alto teor de clorofila e vice-versa. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
48 
 
 
 
CAPÍTULO V 
 
 
REGRESSÃO LINEAR MÚLTIPLA 
 
 
 
5.1 – Introdução 
 
O exame, tanto do método experimental quanto do processo de coleta dos dados, 
pode revelar a existência de outras variáveis causais, além de X, que influenciam a 
variável resposta Y, mas que não foram consideradas na análise de regressão linear 
simples. O não controle de outras variações que influenciam a resposta durante a 
condução do experimento, pode obscurecer a verdadeira relação entre Y e X, devido ao 
aumento da variância residual, 
2
. 
Portanto, para obter um modelo de predição útil, bem como estimadores não 
tendenciosos e eficientes, deve-se coletar dados de todas as variáveis que influenciam a 
variável resposta Y e incorporá-las explicitamente na análise de regressão. Devido a 
presença de mais de uma variável preditora (causal), este tipo de modelo é chamado de 
modelo de regressão múltipla, sendo denotado por 
Y X X Xn n         1 1 2 2 . . . . Na regressão linear simples, a equação define 
uma linha onde cada ponto representa uma média populacional estimada. Na regressão 
múltipla, a equação define um plano ou hiperplano onde cada

Continue navegando