Buscar

Regressão e Correlação Estatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 Prof. Dr. Hercules de Souza 
 
REGRESSÃO E 
CORRELAÇÃO 
LINEAR 
 
 
 
 
 
1 
2 Prof. Dr. Hercules de Souza 
Análise de regressão é utilizada com o 
objetivo de previsão. O propósito é o 
desenvolvimento de um modelo 
estatístico que possa ser utilizado para 
prever os valores de uma variável 
dependente ou variável de resposta. 
2 
3 Prof. Dr. Hercules de Souza 
Análise de correlação é utilizada para 
medir a força de associação entre 
variáveis numéricas, por exemplo, 
determinar a correlação entre o preço 
de embalagem com seis unidades de 
refrigerante e o preço do frango em 
locais diferentes. 
3 
4 Prof. Dr. Hercules de Souza 
Diagrama de dispersão: Suponha que 
um engenheiro de uma grande empresa 
queira desenvolver um modelo 
estatístico para prever a concentração 
de um componente e o tempo de uma 
reação química. 
4 
5 Prof. Dr. Hercules de Souza 
Para tanto foi coletada uma amostra 
aleatória com 20 elementos. Por 
questões de simplicidade vamos 
considerar como variável explicativa ou 
independente, a concentração, para 
prever os valores de uma variável 
dependente, no caso, o tempo de 
reação. 
5 
6 Prof. Dr. Hercules de Souza 
Elementos Concentração 
(ppm) 
Tempo de reação 
(s) 
1 907 11,20 
 
2 926 11,05 
 
3 506 6,84 
 
4 741 9,21 
 
5 789 9,42 
 
6 889 10,08 
 
7 874 9,45 
 
8 510 6,73 
 
9 529 7,24 
 
10 420 6,12 
 
11 679 7,63 
 
12 872 9,43 
 
13 924 9,46 
 
14 607 7,64 
 
15 452 6,92 
16 729 8,95 
17 794 9,33 
18 844 10,23 
19 1010 11,77 
20 621 7,41 
 
6 
7 Prof. Dr. Hercules de Souza 
Diagrama de dispersão 
 
 
7 
8 Prof. Dr. Hercules de Souza 
Tipos De Modelos De Regressão 
 
 
8 
9 Prof. Dr. Hercules de Souza 
Determinação da equação da 
Regressão Linear Simples 
 
A questão principal é determinar um 
modelo que melhor se ajuste aos 
dados. Para o exemplo apresentado 
pode-se perceber que existe uma 
relação linear, entre concentração e 
tempo de reação. 
9 
10 Prof. Dr. Hercules de Souza 
 
 
 
 
Y corresponde à variável dependente, no 
caso tempo de reação (s); 
X corresponde à variável independente, no 
caso concentração (ppm). 
AXBY
__
10 
11 Prof. Dr. Hercules de Souza 
 
 
A análise de regressão significa encontrar 
a linha reta que melhor se ajuste aos 
dados. 
11 
12 Prof. Dr. Hercules de Souza 
 
O melhor ajuste significa a tentativa de 
encontrar a linha reta para a qual as 
diferenças entre os valores reais de Y, 
tempo de reação, e os valores que 
seriam previstos a partir da linha de 
regressão sejam os menores possíveis. 
 
12 
13 Prof. Dr. Hercules de Souza 
 
 
A equação acima depende da 
determinação dos dois coeficientes A e 
B. Uma técnica matemática que 
determina esses valores e que minimiza 
essa diferença é conhecida como: 
MÉTODO DOS MÍNIMOS 
QUADRADOS. 
AXBY
__
13 
14 Prof. Dr. Hercules de Souza 
n
1i
_
22
i
n
1i
__
ii
n
1i
i_
n
1i
i_
__
XnX
YXnYX
B
n
X
X
n
Y
Y
XBYA
14 
15 Prof. Dr. Hercules de Souza 
O Termo n, nas equações, corresponde 
ao número de elementos da amostra, 
no caso n é igual a 20, pois são 
consideradas 20 elementos na amostra 
considerada. 
15 
16 Prof. Dr. Hercules de Souza 
Amostra Concent. T. reação X
2 
Y
2 
XY 
1 907 11,20 822649 125,44 10158,40 
2 926 11,05 857476 122,10 10232,30 
3 506 6,84 256036 46,79 3461,04 
4 741 9,21 549081 84,82 6824,61 
5 789 9,42 622521 88,74 7432,38 
6 889 10,08 790321 101,61 8961,12 
7 874 9,45 763876 89,30 8259,30 
8 510 6,73 260100 45,29 3432,30 
9 529 7,24 279841 52,42 3829,96 
10 420 6,12 176400 37,45 2570,40 
11 679 7,63 461041 58,22 5180,77 
12 872 9,43 760384 88,92 8222,96 
13 924 9,46 853776 89,49 8741,04 
14 607 7,64 368449 58,37 4637,48 
15 452 6,92 204304 47,89 3127,84 
16 729 8,95 531441 80,10 6524,55 
17 794 9,33 630436 87,05 7408,02 
18 844 10,23 712336 104,24 8617,24 
19 1010 11,77 1020100 138,53 11887,70 
20 621 7,41 385641 54,91 4601,61 
∑ 14.623 176,11 11.306.209 1.602,10 134.127,90 
 
 
16 
17 Prof. Dr. Hercules de Souza 
423,2)15,731()00873,0(8055,8XBYA
00873,0
55,602.614
07,365.5
B
)15,731(20209.306.11
)8055,8()15,731()20(90,127.134
XnX
YXnYX
B
15,731
20
623.14
n
X
X
8055,8
20
11,176
n
Y
Y
2n
1i
_
22
i
n
1i
__
ii
n
1i
i_
n
1i
i_
17 
18 Prof. Dr. Hercules de Souza 
Portanto, a equação que melhor se 
ajusta aos dados do exemplo inicial 
será: 
 
 
 
423,2X00873,0Y
18 
19 Prof. Dr. Hercules de Souza 
Agora inserindo a equação obtida acima 
no diagrama de dispersão, teríamos: 
 
 
19 
20 Prof. Dr. Hercules de Souza 
 
 
 
ERRO PADRÃO DA 
ESTIMATIVA 
20 
21 Prof. Dr. Hercules de Souza 
 
A curva de regressão, obtida 
anteriormente pelo MÉTODO DOS 
MÍNIMOS QUADRADOS, é útil para 
previsões de um valor Y (variável 
dependente) em função de um valor de 
X (variável independente). 
21 
22 Prof. Dr. Hercules de Souza 
 
É importante também desenvolver uma 
estatística que mensure a variabilidade 
dos reais valores de Y, através dos 
valores previstos de Y. 
22 
23 Prof. Dr. Hercules de Souza 
 
Uma medida dessa variabilidade em 
torno da linha de regressão é chamada 
de ERRO PADRÃO DA ESTIMATIVA, 
se assemelhando ao desvio padrão 
visto anteriormente, e definido como: 
23 
24 Prof. Dr. Hercules de Souza 
 
 
 
2n
)YY(
S
n
1i
2
î
^
i
YX
onde Yi corresponde ao valor real de Y para um dado valor de X, e î
^
Y corresponde ao 
valor previsto de Y para um dado valor de X. 
24 
25 Prof. Dr. Hercules de Souza 
134.127,90YX
176,11Y
1.602,10Y
2n
YXBYAY
S
n
1i
ii
n
1i
i
n
1i
2
i
n
1i
ii
n
1i
i
n
1i
2
i
YX
25 
26 Prof. Dr. Hercules de Souza 
497,0247,0
18
449,4
S
220
90,127.13400873,011,176423,210,602.1
S
00873,0Be423,2A
YX
YX
26 
27 Prof. Dr. Hercules de Souza 
 
Ou seja, o ERRO PADRÃO DA 
ESTIMATIVA, no exemplo dado, é igual 
a 0,497, e representa uma medida da 
variação em torno da linha ajustada da 
regressão. 
27 
28 Prof. Dr. Hercules de Souza 
A interpretação do erro padrão da 
estimativa é análoga a do desvio 
padrão. Assim como o desvio padrão 
mede a variabilidade em torno da média 
aritmética, o erro padrão da estimativa 
mede a variabilidade em torno da linha 
ajustada da regressão. 
28 
29 Prof. Dr. Hercules de Souza 
O erro padrão da estimativa pode ser 
utilizado para se fazerem inferências 
sobre um valor previsto de Y e para 
determinar se existe relação 
estatisticamente significativa entre as 
duas variáveis. 
 
29 
30 Prof. Dr. Hercules de Souza 
 
 
MEDIDAS DE VARIAÇÃO 
NA REGRESSÃO E NA 
CORRELAÇÃO 
30 
31 Prof. Dr. Hercules de Souza 
Para examinar como a variável 
independente, (concentração), prevê 
bem a variável dependente, (tempo de 
reação), são desenvolvidas algumas 
medidas de variação. 
31 
32 Prof. Dr. Hercules de Souza 
A primeira medida é chamada SOMA 
TOTAL DOS QUADRADOS (STQ), 
sendo uma medida de variação dos 
valores de Y em torno da sua média 
aritmética. 
32 
33 Prof. Dr. Hercules de Souza 
Essa somatotal dos quadrados pode ser 
subdividida em VARIAÇÕES 
EXPLICADAS ou SOMA DOS 
QUADRADOS DEVIDA À 
REGRESSÃO (SQReg), que é 
atribuída à relação entre X e Y, e 
33 
34 Prof. Dr. Hercules de Souza 
 
VARIAÇÕES INEXPLICADAS OU 
SOMA DE QUADRADOS DOS 
RESÍDUOS (SQR), que é atribuída a 
outros fatores diferentes da relação 
entre X e Y. 
 
 
 
SQRgSQSTQ Re
34 
35 Prof. Dr. Hercules de Souza 
SQRSTQgReSQ
YnY)YY(STQ
SQRYXBYAY)YY(
n
1i
n
1i
_
22
i
2
_
i
n
1i
n
1i
ii
n
1i
i
n
1i
2
i
2
^
ii
35 
36 Prof. Dr. Hercules de Souza 
3635,51449,49145,46SQRgReSQSTQ
:sejaou
9145,468055,82090,127.13400873,011,176423,2gReSQ
YnYXBYAgReSQ
3634,51)8055,8(2010,602.1YnYSTQ
449,490,127.13400873,011,176423,210,602.1SQR
2
n
1i
n
1i
2
iii
n
1i
222
i
36 
37 Prof. Dr. Hercules de Souza 
 
 
COEFICIENTE DE 
DETERMINAÇÃO 
37 
38 Prof. Dr. Hercules de Souza 
O coeficiente de determinação mede a 
proporção da variação, que é explicada 
pela variável independente no modelo 
de regressão. Esse coeficiente é igual à 
SOMA DOS QUADRADOS DEVIDA À 
REGRESSÃO, dividida pela SOMA 
TOTAL DOS QUADRADOS: 
38 
39 Prof. Dr. Hercules de Souza 
 
STQ
gReSQ
r
2
39 
40 Prof. Dr. Hercules de Souza 
Para o exemplo de tempo de reação 
relacionado à concentração, temos, que 
esse coeficiente será: 
 
 
 
913,0
3635,51
9145,46
STQ
gReSQ
r
2
40 
41 Prof. Dr. Hercules de Souza 
 
Isso significa que aproximadamente 
91,3% da variação no tempo de reação 
podem ser explicados pela variabilidade 
na concentração 
41 
42 Prof. Dr. Hercules de Souza 
Esse é um exemplo em que existe uma 
forte relação linear entre duas variáveis. 
Podemos também dizer que somente 
8,7 % da variabilidade da amostra 
podem ser explicados por fatores 
diferentes daquele que é levado em 
conta no modelo de regressão linear. 
42 
43 Prof. Dr. Hercules de Souza 
Para interpretar o COEFICIENTE DE 
DETERMINAÇÃO, alguns estatísticos 
sugerem que seja calculado um r2 
ajustado para refletir tanto número de 
variáveis explicativas no modelo quanto 
o tamanho da amostra 
43 
44 Prof. Dr. Hercules de Souza 
 
2n
1n
)r1(1r
22
ajustado
44 
45 Prof. Dr. Hercules de Souza 
 
908,0
220
120
)913,01(1
2n
1n
)r1(1r
22
ajustado
Ou seja, 90,8%, que não deixa de ser um resultado semelhante a 
91,3%. 
45 
46 Prof. Dr. Hercules de Souza 
 
 
COEFICIENTE DE 
CORRELAÇÃO 
46 
47 Prof. Dr. Hercules de Souza 
A regressão e a correlação são duas 
técnicas separadas, a regressão se 
refere à previsão e a correlação se 
refere à associação. 
47 
48 Prof. Dr. Hercules de Souza 
Em uma análise de correlação estamos 
interessados em medir o grau de 
associação entre duas variáveis, esses 
valores abrangem desde -1 para a 
correlação negativa perfeita até +1 para 
a correlação positiva perfeita, indicando 
que todos os pontos estão sobre uma 
linha reta com inclinação positiva. 
48 
49 Prof. Dr. Hercules de Souza 
 
Valores do coeficiente de correlação 
próximos de zero indicam que X e Y 
não estão linearmente relacionados. 
49 
50 Prof. Dr. Hercules de Souza 
Se uma análise de regressão já foi feita e 
o coeficiente de determinação já foi 
calculado, o coeficiente de correlação 
pode ser calculado pelo simples cálculo 
da raiz quadrada do coeficiente de 
determinação. 
50 
51 Prof. Dr. Hercules de Souza 
Logo para o nosso exemplo inicial: 
 
 
 
955,0913,0
Indicando uma forte associação entre 
 a concentração e o tempo de reação. 
51 
52 
 
 
OUTROS MODELOS 
DE REGRESSÃO 
Prof. Dr. Hercules de Souza 
53 
 
 
Existe muitas situações nas quais não é 
desejável, ou mesmo possível, 
descrever um fenômeno através de um 
modelo de regressão linear. 
 
Prof. Dr. Hercules de Souza 
54 
 
REGRESSÃO LOGARÍTMICA 
Y = A +B·ln x 
 
 
REGRESSÃO EXPONENCIAL 
Y= A·eB·x ln Y = ln A + Bx 
 
Prof. Dr. Hercules de Souza 
55 
 
REGRESSÃO DE POTÊNCIA 
Y = A·xB ln Y = ln A + B ln x 
 
REGRESSÃO INVERSA 
Y= A + B·1/x 
 
REGRESSÃO QUADRÁTICA 
Y = A + Bx + Cx2 
 Prof. Dr. Hercules de Souza

Outros materiais