Buscar

Regressão Linear1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

CORRELAÇÃO E REGRESSÃO LINEAR1 
 
 
1- COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON 
O coeficiente de correlação linear amostral de Pearson é dado por: 
yyxx
xy
SS
S
r =
 
 
onde  −−= ))(( yyxxS xy é a soma dos produtos 
 −= 2)( xxS xx 
 −= 2)( yyS yy 
 
2- PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO LINEAR 
 
Propriedade: -1  r  1 
 
Classificação da correlação: 
r = 1, correlação linear positiva e perfeita 
r = -1, correlação linear negativa e perfeita 
r = 0, inexistência de correlação linear, mas podemos ter outro tipo de relação não linear. 
 
Para que uma relação possa ser escrita por meio do coeficiente de correlação é imprescindível que ela se 
aproxime de uma função linear. Uma maneira prática de verificar a linearidade da relação é a inspeção do 
diagrama de dispersão. Se os pontos apresentam saliências ou reentrâncias muito acentuadas, 
provavelmente trata-se de correlação curvilínea. 
 
Para podermos tirar algumas conclusões significativas sobre o comportamento simultâneo das variáveis 
analisadas, é necessário que: 
0,6 < r  1 correlação linear positiva forte 
0,3 < r  0,6 correlação relativamente fraca entre as variáveis 
0  r  0,3 correlação linear é muito fraca e praticamente, nada podemos concluir sobre a 
 relação entre as variáveis em estudo. 
 
-1  r < -0,6 correlação linear negativa forte 
-0,6  r < -0,3 correlação relativamente fraca entre as variáveis 
-0,3  r  0 correlação linear é muito fraca e praticamente, nada podemos concluir sobre a 
 relação entre as variáveis em estudo. 
 
 
1 Adaptado de CORDEIRO, A.; STORANI, K. Probabilidade e Estatística à Administração. 2013. (Apostila). 
 
3- REGRESSÃO LINEAR SIMPLES 
 
Dado um conjunto de observações X e Y, dizemos que existe uma relação aproximadamente linear de Y em 
função de X, se o valor ajustado 
^
Y puder ser determinado por: 
 
bXaY +=
^
 
 
 
Onde os valores a e  são os coeficientes determinados por: 
 
onde b é o coeficiente angular da reta; 
 
, 
onde a é o intercepto. 
 
Exemplo 1: Considerando-se uma indústria produtora de pastilhas e y variável representada pela produção 
diária de pastilhas e x número de máquinas com defeitos, encontre: 
a) as médias das variáveis x e y; 
b) o gráfico de x versus y. 
c) o coeficiente de correlação linear. 
d) equação da reta ajustada pelo método dos mínimos quadrados. 
 
Dados: 
As médias das variáveis números de defeitos por máquina (x) e produção diária de pastilhas (y) são dadas 
por: 
diária) produção de (média 092,6
am)apresentar máquinas as que defeitos de número do (média 267,3
__
__
=
=
y
x
 
 
O gráfico de x versus y é dado a seguir. Observe que existe um comportamento razoavelmente linear 
decrescente no gráfico abaixo: 
 
700060005000
6
5
4
3
2
1
Número de peças produzidas
N
º 
d
e
 m
á
q
u
in
a
s
 c
o
m
 d
e
fe
ito
 
GRÁFICO - Dispersão dos Dados 
 
O coeficiente de correlação linear r é dado por: 
920,0−==
yyxx
xy
SS
S
r 
 
Note que o valor de r é próximo de -1, indicando forte associação linear de x versus y. 
Entretanto, como o valor é negativo verificamos que o comportamento é linear decrescente. 
 
Equação da reta ajustada pelo Método de Mínimos Quadrados: 
 
(I) xy 5,150,12 −= 
 
Esta equação de regressão linear de X sobre Y mostra que a reta de regressão (I) apresenta coeficiente 
angular negativo b = -1,5. 
Isto significa que para cada unidade acrescida em X, ocorre um decréscimo de 1,5 em Y, ou seja, para cada 
uma máquina a mais com defeito, têm-se a produção das pastilhas diminuídas em 1,5. 
Quando a variável x = 0 tem-se y = 12,500, ou seja, quando nenhuma máquina apresentar defeito o número 
de produção diária de pastilhas seria 12.500. 
 
4- ESTUDO DE CASO 
 
Considere uma indústria produtora de cabos coaxial, que por medida da norma ISO, necessita a cada mês, 
realizar inspeção em sua indústria e avaliar os seguintes itens: consumo médio do produto que realiza a solda 
do cabo, número de acidentes ocorridos em um mês, condições físicas de suas instalações, condições 
salariais de seus funcionários, preocupação com meio ambiente, entre outras especificações. Com base nos 
itens descritos acima a indústria recebe uma nota da empresa certificadora da norma técnica. 
 
 
 
 
Utilizando uma técnica de amostragem obtêm-se 11 amostras de cabos produzidos nas filiais espalhadas pelo 
Brasil. Os itens analisados são: quantidade de condução de dados e a nota média recebida pela certificadora 
da ISO. 
 
Cidade onde se 
encontra a máquina 
Y= Nota 
média do cabo 
X = Quantidade de 
condução de dados do 
cabo 
Belo Horizonte 5 1,1 
Brasília 3 0,6 
Campinas 2 0,7 
Curitiba 9 1,6 
Goiânia 5 0,9 
Porto Alegre 2 0,1 
Ribeirão Preto 5 1,3 
Rio de Janeiro 1 0,4 
Salvador 6 1,25 
Santos 9 1,9 
São Paulo 8 1,9 
 
Com base nos dados descritos acima, encontre: 
a) as médias das variáveis x e y; 
b) o gráfico de x versus y; 
c) o coeficiente de correlação linear; 
d) equação da reta ajustada pelo método dos mínimos quadrados. 
 
Resultados: 
 
As médias das variáveis quantidade de condução de dados do cabo (X) e nota média do cabo são dadas por: 
𝑥 = 1,0681 
𝑦 = 5 
 
O gráfico de x versus y é apresentado a seguir. Observe que existe um comportamento linear crescente. 
210
9
8
7
6
5
4
3
2
1
0
Quantidade de condução de dados do cabo
N
o
ta
 m
é
d
ia
 d
o
 c
a
b
o
 
GRÁFICO - Dispersão dos dados. 
 
 
O coeficiente de correlação linear r é dado por: 
9380,0==
yyxx
xy
SS
S
r 
 
Note que o valor de r é próximo de 1, indicando forte associação linear crescente de x versus y. 
 
Equação da reta ajustada pelo Método de Mínimos Quadrados: 
xy 447,4222,0 += (I) 
 
Esta equação de regressão linear de X sobre Y mostra que a reta de regressão (I) apresenta coeficiente 
angular b = 4,447. 
Isto significa que para cada unidade acrescida em X (quantidade de condução de dados do cabo), ocorre um 
acréscimo de 4,447 em Y (nota recebida pela empresa certificadora). 
Neste caso, a nota média foi com a variável quantidade correlacionada apenas com a variável quantidade de 
condução de dados. 
É importante ressaltar, entretanto que, a nota média pode depender de outras variáveis. Quando a variável 
reposta depende de duas ou mais variáveis, deve-se utilizar a técnica de regressão múltipla. 
 
 
 
 
 
 
 
Exemplo 1: 
 
x =5,1 ; =y 5,6 
 
bxaŷ += 
 
 −
  −
=
22
)x(xn
yxxyn
b = =
−
−
25650251041
756755942
,,
,,
=
391
75266,
0,682 
 
xbya −= = 5,3 – (0,682)(5,1) = 5,3 – 3,48 = 1,82 
 
A reta ajustada para este exemplo é: bxaŷ +=  x,,ŷ 6820821 −= 
 
 
Interpretação 
Para um aumento de uma unidade no tempo de estudo (x=1), a nota na prova ( ŷ ) aumenta, em média, 0,682. 
 
 
Gráfico da reta ajustada 
 
Para traçarmos a reta no gráfico, basta determinar dois de seus pontos: 
X=0  ŷ =1,82 – 0,682(0) = 1,82 
X=10  ŷ =1,82 – 0,682(10) = 1,82 + 6,82 = 8,64. 
 
 
Previsão de uma variável através do conhecimento da outra 
 
Estime a nota de um aluno que teve 6 horas de estudo 
 
x= 6. bxaŷ +=  x,,ŷ 6820821 −=  )(,,ŷ 66820821 += = 1,82+4,092 = 5,91 
 
 
O aluno que estuda 6 horas, obtém uma nota estimada de 5,91. 
 
 
 
 
 
Scatterplot (NEW.STA 10v*10c)
y=1,821+0,682*x+eps
VAR1
VA
R2
1
3
5
7
9
11
0 2 4 6 8 10 12 14
 
Exemplo 2: São dados os valores médios de pesos de meninos com idades entre 7 e 12 anos, inclusive. Verifique 
se existe correlação entre essas duas variáveis. O peso dos meninos varia em função da idade? Qual é o grau 
de relacionamento entre essas duas variáveis? Estime o modelo de regressão para explicar essa relação. Estime 
o peso de uma criança13 anos. 
 Pesos médios de crianças do sexo masculino, da cidade de São Paulo, segundo a idade, em 1975. 
Idade (anos) Peso (Kg) 
7 22,2 
8 24,4 
9 27,1 
10 29,5 
11 32,4 
12 35,4 
 
 
Considere que: 
 =x 57 
 =y 171 
 =
2
x 559 
 =
2
y 4995,78 
 =xy 1670,7 
 
x =9,5 
 
y =28,5 
 
Sxx=105 
 
Syy=733,68 
 
Sxy=277,2 
 
n=6 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Exercícios 
 
1- Em um estudo da relação entre idade e a condição física de adultos, mediu-se a força da mão direita em um 
grupo de homens adultos. Os dados obtidos foram: 
 
Idade (X) Força (Y) 
30 86 
23 88 
43 80 
56 83 
29 93 
52 87 
59 71 
42 91 
23 76 
27 82 
59 88 
24 100 
24 92 
37 97 
62 78 
 
a) Construa um diagrama de dispersão de condição física por idade. A tendência parece linear? 
b) Obtenha o coeficiente de correlação entre as duas variáveis e comente. 
c) Ache a equação da reta para prever a força a partir da idade. 
d) Qual a sua previsão de força para um homem de 36 anos? E para um homem de 70 anos? 
 
 
2- Seja considerado o conjunto de dados sobre a taxa de evasão do ensino fundamental público, em 
porcentagem, para o período entre 1990 e 2000, para o município de Araraquara. 
Anos Taxa de evasão (%) 
1990 10,11 
1991 9,06 
1992 8,55 
1993 10,06 
1994 7,76 
1995 8,23 
1996 6,29 
1997 2,67 
1998 2,44 
1999 1,77 
2000 1,49 
 
a) Fazer o diagrama de dispersão; 
b) Determinar o coeficiente de correlação linear; 
c) Determinar a equação de regressão linear ajustada. 
d) Supondo que a tendência se mantenha, qual seria a taxa de evasão esperada no ano de 2005? 
 
 
3- Considere os dados referentes a consumo diário de café com relação à idade. 
Y: Consumo diário de xícaras de café (em xícaras). 
X: Idade (em anos). 
 
 
 
 
 
 
 
 
Idade (em anos). Café (em xícaras). 
16 1 
38 2 
39 3 
36 8 
37 5 
22 2 
31 7 
36 4 
10 0 
 
a) Fazer o diagrama de dispersão; 
b) Determinar o coeficiente de correlação; 
c) Determinar a equação de regressão linear ajustada. 
d) Qual o consumo previsto para uma idade de 25 anos? 
 
 
 
4- Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um antibiótico. Dez 
amostras de 50 gramas cada foram guardadas a diferentes temperaturas, e após 15 dias mediu-se a potência. 
Os resultados estão no quadro abaixo. 
 
 
Temperatura (X) 30º 30º 50º 50º 50º 70º 70º 70º 90º 90º 
Potência (Y) 38 43 32 26 33 19 27 23 14 21 
 
a) Faça o diagrama de dispersão. 
b) Calcule o coeficiente de correlação. 
c) Determine a equação da reta que prevê a potência em função da temperatura. 
d) Qual a potência estimada (prevista) para um antibiótico guardado a uma temperatura de 80º?

Continue navegando