Buscar

Correlação e regressão linear_mod

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística e Probabilidade Aplicada 
Prof. Diogo F. dos Santos
Correlação e regressão linear
Correlação e regressão linear
Já aprendemos como representar um conjunto de dados a partir de
medidas de tendência central e como medir a dispersão desses dados.
Contudo, as vezes estamos interessados na relação entre duas variáveis
e se é linear. Assim, é possível ajustar uma função para predizer o valor
de uma variável, dado o valor da outra.
Correlação
A correlação entre duas variáveis existe quando os valores de uma
variável estão relacionados com os valores de outra variável. Se a
relação dos valores dessas variáveis for linear, então essa associação é
chama de correlação linear.
Correlação linear
Inicialmente, a correlação
linear é verificada
fazendo um diagrama de
dispersão, com os pares
𝑥𝑖 , 𝑦𝑖 , e a exploração
visual do gráfico para
verificar se existe uma
tendência linear. Como
nos gráficos (a) e (b) ao
lado.
Coeficiente de correlação linear
De forma objetiva, a medida da força da correlação linear é calculada
com o coeficiente de correlação linear 𝒓 , também chamado de
Coeficiente de Pearson, em homenagem ao matemático Karl Pearson
(1857-1936). O coeficiente de correlação linear 𝒓 é dado por
𝑟 =
𝑛σ𝑥𝑦 − σ𝑥σ𝑦
𝑛σ𝑥2 − σ𝑥 2 𝑛σ𝑦2 − σ𝑦 2
,
onde 𝑥 e 𝑦 são as variáveis relacionada e 𝑛 é o número de pares de
dados amostrais. O arredondamento do valor de 𝒓 pode ser calculado
com 3 casas decimais.
Propriedades do coeficiente de correlação linear
1) O valor de 𝒓 de está ente −1 e 1, isto é, −1 ≤ 𝑟 ≤ 1.
2) A correlação linear é verificada sempre aos pares.
3) O valor de 𝒓 não mede uma relação que não é linear.
4) O valor de 𝒓 não é afetado pela escolha de 𝑥 e 𝑦.
5) O valor de 𝒓 é muito sensível a valores atípicos.
6) O valor de 𝒓 independe das unidades de 𝑥 e 𝑦.
Requisitos a serem satisfeitos para calcular o 𝒓
1) Os dados são uma amostra aleatória simples de dados
quantitativos.
2) Os pontos grafados no diagrama de dispersão se aproximam do
padrão de uma reta.
3) O diagrama de dispersão mostra que não há valores atípicos.
Exemplo de como calcular o valor de 𝑟
Os custos emparelhados (aos pares) de um pedaço de pizza e da tarifa
de uma passagem de metrô em Nova Iorque ao longo dos anos são
mostrados a seguir:
Ano 1960 1973 1986 1995 2002 2003
Custo da pizza 0,15 0,35 1,00 1,25 1,75 2,00
Tarifa de metrô 0,15 0,35 1,00 1,35 1,50 2,00
Passos para efetuar o cálculo de 𝑟
1) Escolher qual conjunto de dados é a variável 𝑥 e qual é 𝑦.
2) Verificar os requisitos a serem satisfeitos para calcular o 𝒓.
3) Colocar cada tipo de dado 𝑥 e 𝑦 nas colunas de uma tabela.
4) Acrescentar mais três colunas para 𝑥2, 𝑦2 e 𝑥𝑦 e realizar os cálculos.
5) Efetuar a somatória de todas as colunas.
6) Calcular o 𝒓 a partir da fórmula.
Resolução do exercício
Passo 1
𝑥 = Custo da pizza
𝑦 = Tarifa de metrô
Custo da pizza ($)
Ta
ri
fa
 d
e 
m
et
rô
 (
$
)
Passo 2
0
0,3
0,6
0,9
1,2
1,5
1,8
2,1
0 0,3 0,6 0,9 1,2 1,5 1,8 2,1
𝑥 𝑦
0,15 0,15
0,35 0,35
1,00 1,00
1,25 1,35
1,75 1,50
2,00 2,00
Resolução do exercício
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
0,15 0,15 0,0225 0,0225 0,0225
0,35 0,35 0,1225 0,1225 0,1225
1,00 1,00 1 1 1
1,25 1,35 1,5625 1,8225 1,6875
1,75 1,50 3,0625 2,25 2,625
2,00 2,00 4 4 4
σ𝑥 = 6,5 σ𝑦 = 6,35 σ𝑥2 = 9,77 σ𝑦2 = 9,2175 σ𝑥𝑦 = 9,4575
𝑥 = Custo da pizza; 𝑦 = Tarifa de metrô
Passo 3
Passo 4
Passo 5
Número 
de dados
𝑛 = 6
Resolução do exercício
𝑟 =
𝑛σ𝑥𝑦 − σ𝑥 σ𝑦
𝑛σ𝑥2 − σ𝑥 2 𝑛σ𝑦2 − σ𝑦 2
𝑟 =
6 ∙ 9,4575 − 6,5 ∙ 6,35
6 ∙ 9,77 − 6,5 2 6 ∙ 9,2175 − 6,35 2
𝑟 =
15,47
15,6609
𝑟 = 0,988
Passo 6
σ𝑥 = 6,5 σ𝑦 = 6,35 σ𝑥2 = 9,77 σ𝑦2 = 9,2175 σ𝑥𝑦 = 9,4575
Erros comuns envolvendo a correlação linear
• Concluir que correlação implica causalidade.
Exemplo: Quanto maior for o consumo de sorvete, maior será a taxa 
de crime.
• Uma correlação mais forte que outra não significa que é melhor, só 
tem uma intensidade diferente.
Exercícios para determinar o valor de 𝑟
1) Os valores emparelhados de Índice de Preço ao Consumidor (IPC), o
custo de uma fatia de pizza e a tarifa de metrô em Nova Iorque são
listados a seguir. Calcule os coeficientes de correlação entre
(a) IPC e pizza e (b) IPC e metrô.
Ano 1960 1973 1986 1995 2002 2003
IPC 30,2 48,3 112,3 162,2 191,9 197,8
Custo da pizza 0,15 0,35 1,00 1,25 1,75 2,00
Tarifa de mêtro 0,15 0,35 1,00 1,35 1,50 2,00
R.: 1a) 0,985 1b) 0,978
Exercícios para determinar o valor de 𝑟
2) Pesquisadores observaram que as adolescentes são muito mais
propensas a gerar bebês com baixo peso ao nascer do que as mulheres
adultas. Como esses bebês têm taxas de mortalidade mais altas,
inúmeras investigações se concentraram na relação entre a idade da mãe
e o peso do bebê ao nascer. Um desses estudos obteve os dados a seguir
sobre x = idade materna (anos) e y = peso do bebê (g).
x 15 17 18 15 16 19 17 16 18 19
y 2289 3393 3271 2648 2897 3327 2970 2535 3138 3573
R.: 0,884
Exercícios para determinar o valor de 𝑟
3) O Teste de Oxidação de Óleo de Turbina (TOST) e o Teste de Oxidação de
Bomba Rotativa (RBOT) são dois procedimentos diferentes para avaliar a
estabilidade de oxidação de óleos de turbina a vapor. Um artigo relatou
as observações x = tempo TOST (h) e y = tempo RBOT (min) para 12
amostras de óleo.
x 4200 3600 3750 3675 4050 2770 4870 4500 3450 2700 3750 3300
y 370 340 375 310 350 200 400 375 285 225 345 285
R.: 0,923
Exercícios para determinar o valor de 𝑟
4) O artigo “Size Effect in Shear Strength of Large Beams—Behavior
and Finite Element Modelling” relatou um estudo de várias
características de grandes vigas profundas e rasas de concreto
armado testadas até a falha. Considere os seguintes dados sobre
x = força do cubo e y = força do cilindro (ambos em MPa):
x 55,1 44,83 46,32 51,1 49,89 45,2 48,18 46,7 54,31 41,5
y 49,1 31,2 32,8 42,6 42,5 32,7 36,21 40,4 37,42 30,8
x 47,5 52 52,25 50,86 51,66 54,77 57,06 57,84 55,22
y 35,34 44,8 41,75 39,35 44,07 43,4 45,3 39,08 41,89
R.: 0,761
Exercícios para determinar o valor de 𝑟
5) O arsênico é encontrado em muitas águas subterrâneas e em algumas águas
superficiais. Pesquisas recentes sobre efeitos na saúde levaram a Agência de
Proteção Ambiental a reduzir os níveis permitidos de arsênico na água potável,
assim, muitos sistemas de água não são mais compatíveis com os padrões. Isso
despertou interesse no desenvolvimento de métodos para remover o arsênico. Os
dados que acompanham o x = pH e y = arsênio removido (%) por um processo
específico foram lidos em um gráfico de dispersão no artigo “Optimizing Arsenic
Removal During Iron Removal: Theoretical and Practical Considerations”.
x 7,01 7,11 7,12 7,24 7,94 7,94 8,04 8,05 8,07
y 60 67 66 52 50 45 52 48 40
x 8,90 8,94 8,95 8,97 8,98 9,85 9,86 9,86 9,87
y 23 20 40 31 26 9 22 13 7 R.: -0,950
Regressão linear
Regressão linear é o processo de
traçar uma reta através dos
pares de dados em um diagrama
de dispersão. A reta resume
esses dados, o que é útil quando
fazemos previsões, conforme o
gráfico ao lado.
Essa reta de regressão ou de
melhor ajuste é calculada a
partir do coeficiente de
correlação 𝒓 , obtendo uma
equação de regressão linear.
Equação de regressão
Dada uma coleção de dados amostrais emparelhados, a equação de regressão
𝑦 = 𝑎 + 𝑏𝑥
descreve a relação entre as duas
variáveis 𝑥 e 𝑦, onde 𝑎 é o intercepto
e 𝑏 é a inclinação da reta. A equação
de regressão expressa a relação entre
𝑥 e 𝑦. Geralmente, é utilizada para
prever valores que estão fora do
conjunto de dados, sendo dado o
valor de 𝑥 para calcular o de 𝑦.
Definição dos coeficientes 𝑎 e 𝑏
A inclinação 𝑎 e o intercepto 𝑏 são encontrados com as seguintes fórmulas.
𝑏 =
𝑛σ𝑥𝑦 − σ𝑥 σ𝑦
𝑛σ𝑥2 − σ𝑥 2
𝑒 𝑎 =
σ𝑦σ𝑥2 −σ𝑥σ𝑥𝑦
𝑛σ𝑥2 − σ𝑥 2
ou de outro modo com
𝑏 = 𝑟
𝑠𝑦
𝑠𝑥
𝑒 𝑎 = ത𝑦 − 𝑏 ҧ𝑥 ,
sendo 𝑟 o coeficiente de correlação linear, 𝑠𝑥 e 𝑠𝑦 os desvios-padrão e ҧ𝑥 e ത𝑦
as média aritméticas dos dados de 𝑥e 𝑦. Na maioria das situações os
coeficientes 𝑎 e 𝑏 podem ser arredondados para três dígitos significativos.
Uso da equação de regressão para predições
As equações de regressão podem ser úteis para a predição do valor da
variável, dado algum valor da outra variável. Ao fazermos tais predições,
devemos considerar o seguinte:
A equação de regressão é um bom 
modelo?
• A reta se ajusta aos dados
• 𝒓 indica que há uma correlação
linear
• A predição não está muito além dos
dados amostrais (extrapolação)
Substitua o valor
de 𝑥 na equação
de regressão
𝑦 = 𝑎 + 𝑏𝑥
O melhor valor
predito de 𝑦 é
ത𝑦 (a média)
Sim
Não
Exemplo
Calcule e desenhe a reta de regressão para o exemplo anterior dos
custos emparelhados do custo de um pedaço de pizza e da tarifa de
uma passagem de metrô em Nova Iorque ao longo dos anos. Realize o
cálculo para os dois pares de equações com os dados já calculados e
preveja o valor da tarifa de metrô quando o custo do pedaço de pizza
for 1,50 dólares.
Exemplo
Cálculo da equação de regressão com o primeiro par de equações:
σ𝑥 = 6,5 σ𝑦 = 6,35 σ𝑥2 = 9,77 σ𝑦2 = 9,2175 σ𝑥𝑦 = 9,4575
𝑏 =
𝑛σ𝑥𝑦 − σ𝑥 σ𝑦
𝑛σ𝑥2 − σ𝑥 2
⟹ 𝑏 =
6 ∙ 9,4575 − 6,5 ∙ 6,35
6 ∙ 9,77 − 6,5 2
⟹ 𝑏 = 0,945
𝑥 = Custo da pizza; 𝑦 = Tarifa de metrô
𝑎 =
σ𝑦σ𝑥2 − σ𝑥σ𝑥𝑦
𝑛σ𝑥2 − σ𝑥 2
⟹ 𝑎 =
6,35 ∙ 9,77 − 6,5 ∙ 9,4575
6 ∙ 9,77 − 6,5 2
⟹ 𝑎 = 0,0346
Logo, a equação da
reta é dada por
𝑦 = 𝑎 + 𝑏𝑥 .
Substituindo os
coeficientes, obtém-se
𝑦 = 0,0346 + 0,945𝑥
Número 
de dados
𝑛 = 6
Exemplo
Cálculo da equação de
regressão com o segundo
par de equações:
Coeficientes
𝑏 = 0,988 ∙
0,7067
0,7386
⟹ 𝑏 = 0,945
𝑥 = Custo da pizza; 𝑦 = Tarifa de metrô
𝑥 𝑦 𝑥 − ҧ𝑥 2
0,15 0,15 0,871
0,35 0,35 0,538
1,00 1,00 0,00694
1,25 1,35 0,0278
1,75 1,50 0,444
2,00 2,00 0,840
σ𝑥 = 6,5 σ𝑦 = 6,35 σ =2,728
Desvio-padrão
𝑠𝑥 =
σ 𝑥 − ҧ𝑥 2
𝑛 − 1
⟹ 𝑠𝑥 = 0,7386
Logo, a equação da reta é
dada por
𝑦 = 0,0346 + 0,945𝑥 .
Médias
ҧ𝑥 =
σ𝑥
𝑛
=
6,5
6
= 1,0833 ത𝑦 =
σ𝑦
𝑛
=
6,35
6
= 1,0583
𝑎 = ത𝑦 − 𝑏 ҧ𝑥 ⟹ 𝑎 = 1,0583 − 0,945 ∙ 1,0833
𝑎 =0,0346
𝑠𝑦 =
σ 𝑦 − ത𝑦 2
𝑛 − 1
⟹ 𝑠𝑦 = 0,7067
𝑟 = 0,988
Exemplo: Como fazer a reta de regressão
Custo da pizza ($)
Ta
ri
fa
 d
e 
m
et
rô
 (
$
)
0
0,3
0,6
0,9
1,2
1,5
1,8
2,1
0 0,3 0,6 0,9 1,2 1,5 1,8 2,1
Para fazer o gráfico da equação
da reta de regressão linear são
necessários dois pontos. Para
isso, podemos calculá-los com
uma tabela 𝑥𝑦, como a seguir.
𝑥 𝑦 = 0,0346 + 0,945𝑥
0,3 𝑦 = 0,3181
2 𝑦 = 1,9246
Exemplo: Como prever um valor
O cálculo de um valor que não existe no conjunto de dados com a equação
de regressão é realizado com a inserção do valor de uma das variáveis na
equação, como a seguir.
Equação de regressão → 𝑦 = 0,0346 + 0,945𝑥
Custo da pizza → 𝑥 = 1,50
Logo,
𝑦 = 0,0346 + 0,945 ∙ 1,50
𝑦 = 1,45
,
Portanto, a tarifa de metrô será de $1,45 quando o custo de pedaço de pizza for $1,50.

Continue navegando