Buscar

Unidade_02_Texto

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ANÁLISE DE 
REGRESSÃO 
 
 
 
1. Introdução 
 
2. A regressão linear 
 
3. Método dos mínimos quadrados 
 
4. Inferência em análise de regressão 
 
5. O coeficiente de determinação (r2) 
 
6. Intervalos de confiança 
 
7. Observações discrepantes 
 
8. Conclusão 
 
 
 
 
 
 
1. INTRODUÇÃO 
 
O objetivo principal da análise de regressão é predizer o valor de uma variável (a 
variável dependente), desde que seja conhecido o valor de uma variável 
associada (a variável independente). A equação de regressão é a fórmula 
algébrica para determinação do valor previsto da variável dependente. 
 
Mais especificamente, a análise de regressão compreende o exame de dados 
amostrais para saber se e como duas ou mais variáveis estão relacionadas uma 
com a outra numa população, propiciando, como resultado, uma equação 
matemática que descreva o relacionamento. Tal equação pode ser usada para 
estimar ou predizer valores futuros de uma variável quando se conhecem ou se 
supõem conhecidos os valores da outra variável. 
 
Os dados para a análise de regressão resultam de observações de variáveis 
emparelhadas. Para um problema de duas variáveis, cada observação origina dois 
valores, um para cada variável. Por exemplo, um estudo que envolva 
características do mercado específico (de carros usados) poderia focalizar níveis 
de quilometragem e preços de carros. 
 
 
2. REGRESSÃO LINEAR 
 
A regressão linear simples constitui uma tentativa de estabelecer uma equação 
matemática linear (linha reta) que descreva o relacionamento entre duas variáveis 
e que seja fácil de lidar e de interpretar. 
 
 
2.1 Equação Linear 
 
Duas importantes características da equação linear são o coeficiente angular da 
reta e a cota da reta em determinado ponto. Uma equação linear tem a forma: 
y = a + bx 
em que a e b são valores que se determinam com base nos valores amostrais; a 
é a cota da reta em x=0, e b é o coeficiente angular. A variável y é aquela a ser 
predita, e x é o valor preditor. 
 
 
 
 
 
 
A Fig.1 ilustra a relação entre o gráfico de uma reta e sua equação. A reta, com 
equação y = a + bx, intercepta o eixo dos y's no ponto y = a. Esse ponto é 
chamado intercepto-y. O coeficiente angular da reta, b, indica a variação de y por 
unidade de variação de x. 
 
Fig.1 A reta de regressão 
 
 
 
 y = a + bx 
 y Coef. angular = b = ∆y 
 x ∆x 
y = a 
 
 
 
 
 
 
 
Consideremos a equação linear y = 5 + 3x. A reta intercepta o eixo dos y's no 
ponto em que y = 5. O coeficiente da reta é 3, o que significa que a cada unidade 
de variação em x, correspondem 3 unidades de variação de y. Podemos usar a 
equação para determinar valores de y correspondentes a valores de x, como se vê 
na tabela abaixo. 
 
Valor de x Valor de y (Calculado de y = 5 + 3 x x) 
 2,0 5 + 3 x 2,0 = 11,0 
 3,1 5 + 3 x 3,1 = 14,3 
 7,2 5 + 3 x 7,2 = 26,6 
 
2.2 Decisão por um Tipo de Relação 
 
Deve-se atentar para o fato de que nem todas as situações são bem aproximadas 
por uma equação linear. Por isso, em geral é necessário desenvolver um trabalho 
preliminar para determinar se um modelo linear é adequado. O processo mais 
simples consiste em grafar os dados e ver se uma relação linear é adequada. 
Vejamos os gráficos da Fig.2: 
 
Fig.2 situações diversas para regressões lineares 
 
 a. b. 
 
 
 
 
 
 
 
 
 
 
c. d. 
 
 
 
 
 
 
 
 
 
 
 
Quando os dados não podem ser aproximados por um modelo linear, as 
alternativas são procurar um modelo não-linear conveniente, ou transformar os 
dados para a forma linear. 
 
 
 
2.2.1 Análises de séries cronológicas 
 
Vamos verificar a pertinência de equações lineares, analisando as relações entre 
variáveis. O que se espera é que os dados históricos expressem relações causais 
e que, ademais, sejam estáveis no tempo. Com isto, as previsões tornam-se 
extremamente simples e baratas de serem obtidas. 
 
Infelizmente para o analista, sua ação neste campo não será das mais fáceis. 
Vemos, na próxima seqüência de figuras, que, em alguns casos, encontramos 
produtos, marcas e serviços, cuja demanda progride regularmente com o passar 
do tempo (Fig.3a), enquanto, em outros casos, há comportamentos menos 
previsíveis. 
 
A Fig.3b, em especial, sugere produtos - bastante influenciados pelo ambiente 
econômico -, cujas vendas variam na dependência de promoções de preços, 
campanhas publicitárias, modas passageiras etc. Nesse caso, análises de séries 
cronológicas e jogos estatísticos não serão de grande valia. O desamparo do 
analista poderá diminuir pela recorrência a métodos de opinião (de compradores, 
de especialistas ou de força de vendas). 
 
Entre os extremos aludidos acima, temos as situações intermediárias, 
representadas pela Fig.3c, em que vemos 3(três) forças sistemáticas reais em 
atuação, sendo a primeira a tendência que resulta do processo de crescimento e 
de desenvolvimento econômicos. 
 
A segunda força é o ciclo, que motiva os movimentos variáveis das vendas e 
resulta, muitas vezes, das variações das atividades econômicas. 
 
Por fim, temos a força sistemática dada pela estação, que decorre de eventos 
sazonais como férias e condições climáticas, em especial. 
 
E se tudo isto não bastasse, temos de lidar ainda com fatores erráticos como 
greves, concorrência inesperada, pacotes governamentais, dentre outros. 
Fig. 3a Fig. 3b Fig. 3c 
 
 
 
 
 
 
 
 
 
 
 
2.3 Determinação da Equação Matemática 
 
Com o objetivo de levantarmos um modelo preditivo, com base na análise de 
regressão, vamos nos utilizar do exemplo do Quadro 1, para determinar se há 
alguma relação entre quilometragem e preços dos carros de um determinado 
modelo. Isto é, queremos saber se e como o preço dos veículos varia com a 
quilometragem dos mesmos. Em linguagem de regressão, a quilometragem seria 
a variável independente, ou explicativa, e o preço dos veículos a variável 
dependente, ou explicada. Ademais, é tradicional usar o símbolo x para 
representar valores da variável independente e o símbolo y para valores da 
variável dependente. 
 
Repetindo: 
Na regressão, os valores "y" são preditos com base em valores dados ou 
conhecidos de "x". A variável "y" é chamada dependente, e a variável "x", variável 
independente. 
 
Suponha-se que tenhamos coligido dados de venda do veículo "GOL", modelo CL, 
ano 1992, junto a vendedores de veículos em Belo Horizonte (na zona de 
comércio do Estádio Mineirão). Segue uma possível tabela de apresentação de 
dados amostrais, originados aleatoriamente. 
 
Quadro 1. Quilometragens e preços dos veículos 
 
Observação Quilometragem 
(1.000 kms) 
Preços 
Negociados 
(R$1.000) 
1 40 1000 
2 30 1500 
3 30 1200 
4 25 1800 
5 50 800 
6 60 1000 
7 65 500 
8 10 3000 
9 15 2500 
10 20 2000 
11 55 800 
12 40 1500 
13 35 2000 
14 30 2000 
 
 
Os dados da tabela acima são plotados no gráfico da Fig.4 a fim de decidirmos se 
uma reta descreve adequadamente os dados. Conquanto seja evidente a 
impossibilidade de achar uma reta que passe por cada um dos pontos do 
diagrama, parece que uma relação linear é razoavelmente consistentecom os 
dados amostrais. 
 
Fig.4 Expressão gráfica dos dados do Quadro 1 
 
Preço ($) 
 
 
 
 
 
 
 
 
 
 
 
 km 
 
 
3. O MÉTODO DOS MÍNIMOS QUADRADOS 
 
O método mais usado para ajustar uma linha reta a um conjunto de pontos é 
conhecido como método dos mínimos quadrados. A reta resultante do uso desse 
método, tem duas características importantes: (1)a soma dos desvios verticais dos 
pontos em relação à reta é zero, e (2)a soma dos quadrados desses desvios é 
mínima (isto é, nenhuma outra reta daria menor soma de quadrados de tais 
desvios). Simbolicamente, o valor minimizado será: 
 
∑(yi - yc)2 
 
sendo, 
Yi
 
 = um valor observado de y 
Yc = o valor de y calculado a partir do método dos mínimos quadrados, com os 
valores xi correspondentes a yi. 
 
Os valores de a e b para a reta Yc = a + bx que minimiza a soma dos quadrados 
dos desvios são dados por: 
 
b = n∑(XY) - ∑X∑Y 
 n∑X2 - (∑X)2 
 
a = ∑Y - bΣX 
 n 
Podemos usar o método dos mínimos quadrados para obter uma reta para o 
exemplo dos preços dos veículos face às quilometragens apresentadas. Das 
equações acima é evidente que para determinar a equação linear, devemos 
primeiro calcular ∑X, ∑Y, ∑X2, ∑XY, além de ∑Y2 para uso no cálculo do 
coeficiente de determinação, conforme veremos adiante. 
 
Note-se que, sendo n (o número de observações amostrais) igual a 14, teremos: 
 b = -38,56 a = 2.934 
 
Vale dizer, a equação de regressão resultante é: yc = 2.934 - 38,56x 
 
A equação pode ser interpretada da seguinte forma: o preço esperado dos 
veículos é de $2.934 menos $38,56 para cada 1.000 kms rodados. Por exemplo: 
para um veículo com 20.000 kms rodados, a equação sugere um preço de $2.163. 
 
Outrossim, cabe reconhecermos certos fatos relativos à equação de regressão. 
Um deles é que se trata de uma relação média e, assim, um carro com 
determinada quilometragem não custará, necessariamente, o preço previsto pela 
equação. 
 
Outro ponto importante é que seria muito arriscado extrapolar essa equação entre 
preço e quilometragem para fora do âmbito dos dados. Vale dizer que se estamos 
contentes em verificar uma relação causal de preço e quilometragem em Belo 
Horizonte, nada nos autoriza a extrapolar conclusões para o Rio de Janeiro, por 
exemplo, cidade litorânea com enormes problemas derivados da ação da maresia 
sobre os carros. 
 
 
4. INFERÊNCIA EM ANÁLISE DE REGRESSÃO 
 
Os dados amostrais usados para calcular uma reta de regressão podem ser 
encarados como um número relativamente pequeno de observações possíveis, 
provenientes de uma população infinita de pares de valores. Nesse sentido, a reta 
de regressão calculada pode ser encarada como uma estimativa da relação real, 
porém desconhecida, que existe entre as duas variáveis na população. Logo, os 
coeficientes de regressão a e b servem como estimativas pontuais dos dois 
parâmetros populacionais correspondentes, A e B, e a equação Yc= a + bx, é 
uma estimativa da relação populacional y = A + BX + e, onde e representa a 
dispersão na população (variável estocástica). 
 
A Fig.5 ilustra o conceito de uma população de pares de valores. Note-se que, 
mesmo nessa população, os valores não se dispõem segundo uma única linha 
reta, mas tendem a apresentar certo grau de dispersão. De fato, se não houvesse 
dispersão na população, todas as observações amostrais estariam sobre uma 
reta, e não haveria necessidade de fazer inferências quanto aos verdadeiros 
valores populacionais. Infelizmente, na vida real, são poucos os exemplos de 
população sem dispersão. 
 
 
Fig.5 Dados populacionais 
 
 
 
 
 
 
 
 
 
 
Uma pergunta que se pode fazer é: "Por que existe dispersão?" A resposta está 
no fato de não existir um relacionamento perfeito entre duas variáveis na 
população. Há outros fatores que influenciam os valores da variável dependente, 
talvez mesmo um número surpreendentemente grande de influências não 
consideradas na análise de regressão. 
 
Os níveis de preços de carros, no caso em questão, são influenciados por outros 
fatores além da quilometragem: condições climáticas, idade e profissão dos 
vendedores, propaganda etc. Deveriam tais variáveis ser incluídas no estudo? A 
influência de cada uma delas provavelmente é pequena, e o custo da inclusão de 
tais fatores na análise supera o benefício que adviria de sua consideração. Além 
disso, um ou dois fatores geralmente respondem por quase toda a gama da 
variável dependente, de modo que pouco se ganha procurando explicar 
completamente como se determina o preço dos veículos, no nosso exemplo. E o 
que é mais importante, o número de variáveis explanatórias potenciais é tão 
grande que seria sem dúvida impossível (ou altamente improvável) obter uma 
descrição perfeita. Uma conseqüência disso é que sempre haverá alguma 
dispersão. Assim é que há muitas equações de regressão diferentes, que 
poderiam concebivelmente ser obtidas, conforme sugerido na Fig.6. 
 
 
 
 
Fig.6 Possibilidades de retas de regressão 
 
y = a+bx 
 
 
 
 
 
 
 
 
A dispersão na população significa que, para qualquer valor de x, haverá muitos 
valores possíveis de y. Assim, se se vende um lote de veículos com igual 
quilometragem, os preços variarão conforme ilustra a Fig.7. 
 
 
Fig.7 Dispersão em torno da reta Fig.8 Dispersão em torno 
 de regressão da média 
y 
 Freq. Relativa 
 (%) 
 
 
 
 
 
 
 
 
 x ym 
 
A análise de regressão supõe que, para cada valor possível de x, há uma 
distribuição de y's potenciais que segue a lei normal. Tal é a chamada distribuição 
condicional (isto é, dado x). A distribuição condicional equivale a uma fatia vertical 
da população tomada em dado valor de x. A média de cada distribuição 
condicional é igual ao valor médio de y na população para esse particular x: y = A 
+ BX e estimada por yc = a + bx. Vejamos a Fig.9 que segue. 
 
 
 
 
 
 
Fig.9 A restrição de "normalidade" na análise de regressão 
 
 
Reta de Regressão 
(Valores de Yc) 
 
 
 
 
 
 
 
 
 
 
0 x1 x2 x3 
 
Admite-se, além disso, que todas as distribuições condicionais tenham o mesmo 
desvio-padrão e que Y seja uma variável aleatória (isto é, os X's podem ser pré-
selecionados, mas não os Y's). Assim, as hipóteses da análise de regressão são 
as seguintes: 
 
a) Existem dados de mensurações tanto para X como para Y. 
b) A variável dependente é aleatória. 
c) Para cada valor de X há uma distribuição condicional de Y's que é normal. 
d) Os desvios padrões de todas as distribuições condicionais são iguais. 
 
 
 
5. O COEFICIENTE DE DETERMINAÇÃO (r2) 
 
Uma medida útil associada à análise de regressão é o grau em que as predições 
baseadas na equação de regressão superam as predições baseadas num Y 
médio, Ym. Isto é, se as predições baseadas na reta não são melhores que as 
baseadas no valor médio de y, então não adianta dispormos de uma equação de 
regressão. Nesse caso, o coeficiente de determinação, r2, nos auxilia na aferição 
da qualidade do modelo para fins de previsão. 
 
 
Consideremos a dispersão de pontos na Fig. 10, em torno de um valor Ym, em 
oposição à dispersão (vertical) de pontos em torno da reta de regressão, tal como 
na Fig. 11. Se a dispersãoassociada à reta é menor que a dispersão associada ao 
Ym, as predições baseadas na reta serão melhores. 
 
 
 
Fig. 10 Fig.11 
y 
Dispersão de pontos em torno da 
média do grupo ( y
_
) 
y Dispersão de pontos em torno da 
reta (yc) 
 yc 
 
y
_
 
 
y
_
 
 
 
 
 
 x x
 
 
A variação de pontos em torno de ym é chamada variação total e se calcula como 
uma soma de desvios elevados ao quadrado: 
 variação total = ∑(yi - ym)2 
 
Já os desvios verticais dos yi's em relação à reta de regressão chamam-se 
"variação não-explicada", porque não podem ser explicadas somente pelo valor de 
“x” (isto é, ainda há uma dispersão, mesmo depois de se levar em conta a reta). A 
variação não-explicada se calcula como a soma de quadrados em relação à reta: 
 variação não-explicada = ∑(yi - yc)2 
 
 
A quantidade de desvio explicada pela reta de regressão é a diferença entre a 
variação total e a variação não-explicada, ou: 
 
variação explicada = variação total - variação não-explicada 
 
A percentagem de variação explicada, r2, é a razão da variação explicada para a 
variação total: 
 
r2 = variação explicada = variação total - variação não-explicada 
 variação total variação total 
 
 
 
 
 
Um modo simples de cálculo deste coeficiente nos é dado a seguir: 
 
r2 = a∑y + b∑(xy) - nym2 
 ∑y2 - nym
2
 
em que ym2 = y médio ao quadrado = 
y
n
∑





2
 
 
Para nosso exemplo, temos: r2 = 0,81 
 
O valor de r2 pode variar de 0 a 1. Quando a variação não-explicada constitui uma 
grande percentagem da variação total (isto é, a variação explicada é uma 
percentagem pequena), r2 será pequeno. Inversamente, quando a dispersão em 
torno da reta de regressão é pequena face à variação total dos valores de Y em 
torno de sua média, isso significa que a variação explicada responde por uma 
grande percentagem da variação total, e r2 estará muito próximo de 1,00. 
 
Logo, o fato de que r2 seja igual a 0,81, em nosso exemplo, indica que 
aproximadamente 81% da variação nos preços dos veículos estão relacionados 
com a quilometragem dos mesmos. Em outras palavras, 19% da variação não é 
explicada pela quilometragem, assim sendo, as predições baseadas na equação 
de regressão se aproximarão satisfatoriamente dos níveis de preços 
efetivos.Portanto, o fato de r2 não estar próximo de zero sugere que a equação é 
melhor que a média Ym como preditor. 
 
 
6. INTERVALOS DE CONFIANÇA PARA A MÉDIA 
 
O modelo desenvolvido em termos da equação da reta nos é útil para previsões 
da variável resposta (Y) para níveis desejados da variável controle (X). Além 
disso, é fundamental que saibamos o intervalo de confiança dentro do qual deva 
ocorrer o valor da variável dependente, a partir de um valor qualquer da variável 
independente. Vale dizer que importa saber o intervalo de confiança para o preço, 
relativamente a possíveis quilometragens. 
 
 
 
 
 
 
Para tanto, a fórmula de cálculo nos é dada por: 
 
IC = y ± t(n-2) x Se x 
( )
( )
1
2
2
2
1
2
n
X X
X
X
n
m
+
−
−












∑
∑
 
 
em que t(n-2) é a estatística t-Student, para (n-2) graus de liberdade. Por exemplo, 
como temos 14 observações, resulta haver 12 graus de liberdade (GL). Enfim, 
desejando-se um grau de certeza para o intervalo de confiança (95%, por 
exemplo) e tendo-se os GL's (12, no nosso caso), basta recorrer a uma tabela 
estatística para a determinação do valor de t(n-2). 
 
Exemplo: Qual a estimativa de preço médio para o grupo de carros de de 
quilometragem de 45.000 kms, a um grau de certeza de 95%? 
 
Y(45) = 2.934 - 38,56 x 45 = 1.199 
 
e, 
 
IC = 1.199 ± 2,179 x Se x (1/14 + (45 - 36,07)2 / 3.608,9)1/2 
 
Ademais, "Se" nos é dado por: 
 
Se = 
Y a Y b XY
n
2
1
2
2
− −
−






∑∑∑
 
 
em que n é o número de observações, igual a 14, no exemplo. Assim, 
 
Se = (39.960.000 - 2.934 x 21.600 + 38,56 x 640.000)1/2 = 325,3 
 14 - 2 
 
E o intervalo de confiança fica dado por: 
 
IC(45) = 1.199 ± 2,179 x 325,3 x (1/14 + (45 - 36,07)2 / 3.608,9)1/2 
IC(45) = 1.199 ± 216,75 
 
 
 
 
Outros exemplos já calculados: 
 
IC(36) = 1.546 ± 189,4 IC(50) = 1.006 ± 250,8 
IC(45) = 1.199 ± 216,8 
 
Interpretação: de acordo aos dados coletados de quilometragem e preços, pode-
se esperar que o preço médio dos veículos com quilometragem média de 45.000 
kms se situe no intervalo de $1.415,6 e $982,0, dado um grau de certeza de 95%. 
 
 
 
 
7. OBSERVAÇÕES DISCREPANTES 
 
É freqüente, em análise de regressão, o aparecimento de pontos cujo 
comportamento é bastante diferenciado das demais observações. A existência 
dessas observações discrepantes num conjunto de dados pode trazer problemas 
sérios no ajuste do modelo e na estimativa dos parâmetros. As dificuldades podem 
ser melhor entendidas através do exemplo a ser discutido. 
 
Na quadro a seguir aparecem dados sobre o número de telefones (X) e a 
arrecadação de ICMS - Imposto de Circulação de Mercadorias e de Serviços (Y), 
em 10(dez) sub-regiões administrativas do Estado de São Paulo. 
 
Também foram adicionadas 3(três) outras sub-regiões: São Sebastião, São José 
dos Campos e Região Metropolitana de São Paulo. As observações foram 
padronizadas em relação ao número de habitantes de cada sub-região. Estamos 
interessados em ajustar o modelo de equação linear ==> Y = a + bx. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Quadro 2. Número de Telefones e Arrecadação de ICMS 
 
 
Sub-região X Y 
Dracena 42 1,95 
Adamantina 44 2,39 
Avaré 48 2,50 
Catanduva 53 3,22 
Araçatuba 56 3,63 
Lins 58 3,54 
Assis 58 3,65 
Franca 65 4,49 
São Carlos 68 5,78 
 
Extras 
 
 
São Sebastião 77 1,14 
São José dos Campos 86 13,94 
São Paulo 138 12,66 
 
 
X = No de telefones x 100 y = Total de ICMS (em R$1.000) 
 No de habitantes No de habitantes 
 
Para exemplificar a influência de observações discrepantes na modelagem, vamos 
considerar quatro conjuntos de dados: 
 
 
(i) Caso 1: formado pelas 9 sub-regiões básicas. 
(ii) Caso 2: formado pelas 9 sub-regiões e São Sebastião. 
(iii)Caso 3: formado pelas 9 sub-regiões e São José dos Campos 
(iv) Caso 4: formado pelas 9 sub-regiões e São Paulo. 
 
Para o caso 1, obtemos o modelo ajustado 
 Yc = -3,484 + 0,127x r2 = 0,93 
 
O modelo estimado para o caso 2 é 
 Yc = 1,468 + 0,031x r2 = 0,07 
 
Em primeiro lugar convém observar a grande diferença entre as estimativas dos 
dois modelos. A observação introduzida está "arruinando" o modelo, tirando-lhe 
qualquer força preditiva. 
 
O caso 3 é estimado por 
 Yc = -9,832 + 0,248x r2 = 0,85 
 
e tem comportamento inverso; a nova observação não altera substancialmente a 
qualidade explicativa do modelo. 
 
Finalmente, no caso 4, embora a nova observação seja diferente das demais, ela 
não altera muito a estimativa do primeiro modelo, pois está alinhada com os 
demais valores. O modelo, ajustado neste caso é 
 Yc = -2,700 + 0,112x r2 = 0,99 
 
Essas diferenças ficam mais realçadas quando comparamos as estatísticas 
associadas aos modelos conforme apresentado no quadro 3. 
 
Quadro 3. Estatísticas Associadas aos 4 Modelos 
 
Caso A b r2 n 
1 -3,484 0,12793% 9 
2 1,468 0,031 7% 10 
3 -9,832 0,248 85% 10 
4 -2,700 0,112 99% 10 
 
 
Existem várias razões para o aparecimento de pontos discrepantes. Alguns são 
resultados claros de erro de mensuração, e devem ser corrigidos ou então 
removidos do conjunto básico de dados. Para outros, após cuidadosa análise das 
informações, encontra-se uma razão para a inadequação daquela observação, o 
que justificaria sua eliminação, já que não esperaríamos outros pontos como 
aquele na população. Por exemplo, no caso 2 sabemos que a sub-região de São 
Sebastião é uma região litorânea, com muitas residências temporárias, o que 
justificaria uma alta taxa de telefones, e com poucas sedes de empresa na região, 
acarretando uma baixa arrecadação do ICMS. Como não esperamos outra sub-
região com tais características, é razoável ajustar o modelo sem essa observação. 
 
Outras vezes, o caso é perfeitamente legítimo, com nada de improvável ou 
excepcional ocorrendo, mas com o par observado formando um ponto discrepante 
em relação aos demais. Pode ser, inclusive, um daqueles possíveis pontos, pouco 
prováveis de ocorrer, mas dentro das especificações do modelo. Aqui a eliminação 
da observação pode produzir modelos de pouco interesse para explicar o 
fenômeno real, e a manutenção do ponto introduz as dificuldades discutidas 
acima. Tem sido procedimento usual a estimativa sem a observação, mas na 
análise ressalta-se o fato, chamando a atenção para que a análise seja adequada 
para aqueles pontos bem comportados, havendo porém a possibilidade de 
existência de pontos com um particular comportamento atípico. Diríamos que o 
caso 3 está nesta situação, já que esperamos algumas outras poucas sub-regiões 
cuja arrecadação do ICMS deva ser alta, mas o nível de telefones nem tanto. 
Assim, o modelo 1 seria adotado com ressalvas. 
 
Quanto à situação do caso 4, embora o ponto discrepante não altere muito as 
estimativas do modelo, somos da opinião de que pontos desse tipo devam ser 
eliminados, pois, nesse caso, ele é praticamente único no Estado de São Paulo, 
com valor exagerado da variável preditora x. 
 
Assim, a presença de elementos discrepantes é um problema muito sério para 
construção de modelos de regressão, e envolve três etapas: 
(i) identificação de possíveis pontos discrepantes; 
(ii) avaliação dos efeitos sobre os estimadores e previsões; 
(iii)análise criteriosa para eliminação da observação. 
 
 
8. CONCLUSÃO 
 
A regressão linear é uma técnica destinada a estimar o relacionamento entre duas 
variáveis, indo ao ponto de equacionar matematicamente tal relacionamento. A 
equação gerada por meio do método dos mínimos quadrados pode ser usada para 
predição de valores de uma variável dependente, face aos movimentos da outra 
variável, dita independente. Já as relações lineares são relativamente simples, 
fáceis de interpretar e servem de aproximação para muitas relações da vida real. 
 
Finalmente, realçamos que o coeficiente de determinação, o qual aponta a 
qualidade do modelo preditivo, demonstra, muitas vezes, a base frágil sobre a qual 
se assenta a ação empresarial. À luz de nossa experiência, tais coeficientes em 
torno de 0,65 já representam alento considerável à ação executiva.

Outros materiais