Buscar

ESTAT_MÓDULO_06

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ESTATÍSTICA-MÓDULO-06 MANUEL 1 
MÓDULO- 06 - CORRELAÇÃO E REGRESSÃO 
 
Correlação - Um dos maiores problemas do investigador de fenômenos humanos e físicos é 
estabelecer um modelo matemático que descreva e explique o fenômeno real com uma boa 
aproximação. Para isso, é necessário que se consiga medir e avaliar o grau de relação 
existente entre as variáveis do modelo. Assim, correlação é o estudo da interdependência entre 
duas ou mais variáveis quantitativas. Podemos medir, por exemplo, se a demanda de um 
produto decresce linearmente com o acréscimo do seu preço, ou, se o número de filhos de uma 
família tem uma relação forte com o grau de instrução dos pais. 
 
A correlação pode ser simples ou múltipla. 
 
Correlação Linear Simples: quando se estuda a relação entre duas variáveis. 
Correlação Linear Múltipla: quando se estuda a relação entre mais de duas variáveis. 
 
Correlação Linear Simples - Para avaliar o grau de correlação linear entre duas variáveis 
aleatórias X e Y usa-se o coeficiente de correlação de Pearson assim definido: 
 
     
r
n xy x y
n x x n y y


  
 
 2
2
2
2
 , onde n é o número de observações. 
 
Demonstra-se que r varia entre -1 e 1. 
 
 
 
 
Correlação Linear Positiva - a correlação linear será positiva se valores crescentes de Y 
estão associados a valores crescentes de X, ou valores decrescentes de Y estiverem 
associados a valores decrescentes de X. ( 0 < r < 1) (FIG-A) 
 
 
 
Correlação Linear Positiva Perfeita - a correlação será perfeita se os pontos estiverem 
perfeitamente alinhados como mostra a figura abaixo (r = 1). (FIG-B) 
 
 
 
-1  r  1 
ESTATÍSTICA-MÓDULO-06 MANUEL 2 
Correlação Linear Negativa - quando valores crescentes de Y estão associados a valores 
decrescentes de X, ou valores decrescentes de Y estiverem associados a valores crescentes 
de X. 
(-1< r < 0). (FIG-C) 
 
 
 
Correlação Negativa Perfeita - quando os pontos estão perfeitamente alinhados em sentidos 
opostos, ou seja valores crescentes de Y correspondem a valores decrescentes de X e vice-
versa. (r = -1) (FIG-D) 
 
 
 
Correlação Nula - quando não há relação entre as variáveis X e Y, ou seja, quando as 
variações de X e Y são independentes. ( r = 0 ) (FIG-E) 
 
 
Neste caso as variáveis X e Y são ditas independentes. 
 
Observações: 
 
1- Observando os diagramas de dispersão conclui-se que, quanto mais os pontos estiverem próximos da 
reta, mais forte será a correlação, ou seja, r estará mais próximo de  1. Quanto mais fraca for a 
correlação, mais próximo de zero(0) será o coeficiente de correlação(r). 
 
2- Se duas variáveis aleatórias X e Y são independentes o coeficiente de correlação entre elas será zero (0). 
 
3- Para o cálculo da correlação é conveniente montar uma tabela como a seguinte: 
 
Y X X2 Y2 X x Y 
 
 Y  X  X2  Y2  X x Y 
 
ESTATÍSTICA-MÓDULO-06 MANUEL 3 
Exemplo-1: Calcular o coeficiente de correlação linear para as variáveis X e Y 
 
X Y X
2
 Y
2
 X x Y 
2 10 4 100 20 
4 8 16 64 32 
6 6 36 36 36 
8 10 64 100 80 
10 12 100 144 120 
 = 30 46 220 444 288 
 
 
   
r 
  
    
 
5 288 30 46
5 220 30 5 444 46
60
144 22
0 416
2 2 ,
, 
 
Covariância - a covariância representa a variação de X e Y, e é assim definida: 
 
S
XY nXY
nX Y,


, ou S
XY
n
XYX Y,  

  média do produto menos o produto das médias 
 
Onde: 
SXY - covariância entre as variáveis X e Y 
X - média aritmética de X 
Y - média aritmética de Y 
n - número de observações 
 
Uma outra fórmula também muito utilizada para a covariância é: 
   
n
YYXX   média dos produtos dos desvios. 
A partir do conceito de covariância, obtém-se uma fórmula mais simplificada para o coeficiente 
de correlação: 
 
r
S
S S
X Y
X Y


,
 , onde 
 
Sxy - covariância entre X e Y 
Sx - desvio-padrão de X 
Sy - desvio-padrão de Y 
 
Exemplo-2: Usando os dados da tabela do Exemplo-1, calcular o coeficiente de correlação 
entre as variáveis X e Y. 
 
Temos: X = 30/5 = 6 Y = 46/5 = 9,2 
 
S
2
x = 
( )x x
n
x
n
x
i i
 
 2 2 2 = 220
5
62 = 44-36 = 8  Sx = 2,83 
 
S
2
Y = 
( )y y
n
y
n
y
i i
 
 2 2 2 = 444
5
9 22 , = 88,8 - 84,64 = 4,16  SY = 2,04 
 
A covariância é dada por: SXY = 
288 5 6 9 2
5
   ,
  SXY = 2,4 
 
Assim, o coeficiente de correlação será: r
S
S S
X Y
X Y


,
  r = 
2 4
5 77
,
,
  r = 0,416 
ESTATÍSTICA-MÓDULO-06 MANUEL 4 
Regressão 
 
Regressão Linear Simples - a análise de regressão tem por objetivo descrever através de um 
modelo matemático, a relação existente entre duas variáveis(X e Y) a partir de n observações 
dessas variáveis. Supondo X a variável explicativa (independente) e Y a variável explicada 
(dependente) pode-se escrever que: Y = f (X) , ou seja, a variável Y é função da variável X. 
Considera-se que Y é uma variável aleatória e que a relação entre X e Y não é regida apenas 
por um lei matemática. Assim, a relação entre X e Y deve ser escrita de forma mais correta 
como Y= f (X) + e, onde e é uma variável que irá captar as influências sobre Y não decorrentes 
de X. Assim, a regressão linear simples busca determinar a equação de uma reta que descreva 
a relação entre duas variáveis. A reta que é descrita por esta equação chama-se reta de 
regressão. 
 
O processo de determinação dos parâmetros da reta de regressão é chamado de ajustamento 
 
A reta ajustada é representada por: 
 
Y a bX  , onde a e b são os parâmetros do modelo: 
 
a - ponto onde a reta ajustada corta o eixo da variável Y (coeficiente linear-intercept). 
b - tangente de ângulo que a reta forma com uma paralela ao eixo da variável X 
 (coeficiente angular). 
 
O processo para obtenção da reta ajustada é denominado método dos mínimos quadrados. 
Este processo consiste em minimizar a soma dos quadrados dos desvios entre Y e Y , ou seja: 
 
   
222 )()ˆ( bXaYYYê é mínima, onde: 
 
Y - valor observado (real). 
Y - valor estimado (pelo modelo de regressão). 
 
Para obtenção dos estimadores de a e b aplica-se a condição necessária de mínimo à função 
 
( )Y Y 2 , 
 
ou seja, deriva-se em relação aos parâmetros (a e b) e iguala-se as derivadas a zero. 
 
 
Os parâmetros a e b são dados por: 
 
a = Y - bxX 
 
 
b
n XY X Y
n X X




 2 2( )
 ou 
 
 
b
S
S
XY
X
 2 , onde: SXY é a covariância entre X e Y e S
2
x é a variância de X. 
 
ESTATÍSTICA-MÓDULO-06 MANUEL 5 
Propriedades 
 
Covariância (SXY) 
SXY > 0  correlação positiva entre X e Y 
SXY = 0  não há correlação 
SXY < 0  correlação negativa entre X e Y 
 
Coeficiente Angular (b) 
b > 0  correlação positiva (a reta forma um ângulo agudo com o eixo dos X (0<  < 90º) 
b = 0  não há correlação (reta paralela ao eixo dos X) 
b < 0  correlação negativa(a reta forma um ângulo obtuso com o eixo dos X ( > 90º) 
 
Coeficiente Linear (a) 
a > 0  a reta corta o eixo dos y acima da origem 
a = 0  a reta passa pela origem 
a < 0  a reta corta o eixo dos y abaixo da origem 
 
Hipóteses da Análise de Regressão - Pressupostos Básicos 
 
1- iii ebXaY  Equação linear do modelo de regressão 
2- Normalidade - ei (desvio-resíduos) é uma variável aleatória com distribuição Normal 
3- Média zero - todos os desvios tem média zero. 
4- Homocedasticidade - todos os desvios tem a mesma variância ( 
2
). 
5- Os desvios são não auto-regressivos - significa que os desvios são independentes, assim: 
 Covariância (ei , ej ) = 0 se i  j , ou seja a covariância entre dois desvios quaisquer é zero. 
6- Xi não estocástico - Xi é uma variável não estocástica, os valores de Xi são conhecidos e 
perfeitamente determinados. 
 
Exemplo- A tabela abaixo exibe o consumo de determinado item no período de 2002 a 2010. 
 
Ano Consumo 
Valor Real 
y = a + bx 
Valor Previsto 
2002 1 
2003 2 
2004 4 
2005 4 
2006 5 
2007 7 
20088 
2009 9 
2010 12 
2011 ? 
 
Sabendo-se que os valores dos parâmetros para a reta ajustada são a = - 0,57 e b = 1,27, e que as 
condições de mercado permanecem inalteradas, a previsão de consumo para 2011 será: 
 a. 37,53 
 b. 13,27 
 c. 12,13 
 d. 46,61 
 
Utilizando o modelo bxay ˆ , quais foram os erros de previsão para os anos de 2004 e 2005 ? 
Erro Absoluto = Valor Previsto pelo modelo - Valor Real do Consumo 
 
Se quisermos expressar o erro em termos relativos teremos: 
Erro Relativo = (Valor Previsto - Valor Real) / Valor Real.

Outros materiais