Buscar

Questão - Bioestatística - Regressão linear

Prévia do material em texto

1) Um estudo avaliou a concentração de um poluente em um rio urbano, a partir 
de uma indústria que descarta rejeitos diretamente no rio (dados abaixo). 
Forneça: 
a) A força e a direção de associação entre estas duas variáveis. 
b) Agora identifique a variável resposta e a variável preditora, e use regressão 
linear para avaliar se a variável resposta sofre influência da variável preditora, ao 
nível de 5%. 
c) Agora use a equação de regressão linear genérica e forneça uma previsão da 
concentração do poluente a 500 metros da fonte poluidora, onde se encontra uma 
vila de moradores. 
Distância a partir da fonte 
poluidora 
Concentração do 
poluente 
2 11,5 
4 10,2 
6 10,3 
8 9,68 
10 9,02 
 
- RESOLUÇÃO - 
a) A força e a direção de associação entre estas duas variáveis. 
 
Média de x: (2+4+6+8+10) / 5 = 6 
Desvio padrão de x: √ ((2 - 6)² + (4 - 6)² + (6 - 6)² + (8 - 6)² + (10 - 6)²) / (5 - 1) = √10 
Sx = 3.1623 
Média de y: (11.5+10.2+10.3+9.68+9.02) / 5 = 50.7 / 5 = 10.14 
Desvio padrão de y: √[ ((11.5 - 10.14)² + (10.2 - 10.14)² + (10.3 - 10.14)² + (9.68 - 10.14)² 
+ (9.02 - 10.14)²) / (5 - 1) ] = √0.8362 
Sy=0,9144 
Agora, vamos calcular a soma dos produtos desvios da média (SPD) e as somas dos 
quadrados dos desvios (SQx e SQy): 
SPD = (2-6)(11.5-10.14) + (4-6)(10.2-10.14) + (6-6)(10.3-10.14) + (8-6)(9.68-10.14) + 
(10-6)*(9.02-10.14) = -10,96 
SQx = (2-6)² + (4-6)² + (6-6)² + (8-6)² + (10-6)² = 40 
SQy = (11.5-10.14)² + (10.2-10.14)² + (10.3-10.14)² + (9.68-10.14)² + (9.02-10.14)² = 
3,3448 
Agora podemos calcular o coeficiente de correlação r: 
r = SPD / sqrt(SQx * SQy) = -10,96/sqrt(40*3,3448) = -0.9475 
Coeficiente de correlação: - 0,9475 
O coeficiente de correlação indica uma forte associação negativa entre a distância a partir 
da fonte poluidora e a concentração do poluente no rio. Isso significa que, à medida que 
a distância aumenta, a concentração do poluente tende a diminuir. 
Para testar a significância dessa correlação, vamos calcular o coeficiente de determinação 
r²: 
r² = (-0.9475)² = 0.8977 
O coeficiente de determinação indica que 89,77% da variação na concentração do 
poluente pode ser explicada pela distância a partir da fonte poluidora. 
 
b) Agora identifique a variável resposta e a variável preditora, e use regressão 
linear para avaliar se a variável resposta sofre influência da variável preditora, ao 
nível de 5%. 
 
A variável resposta (ou dependente) é a concentração do poluente e a variável preditora 
(ou independente) é a distância a partir da fonte poluidora. 
b = SPD / SQx = -10,96/40 = -0,274 
a = ȳ - b * x̄ = 10,14 – (- 0,274)*6=11,784 
Assim, a equação da reta de regressão é: 
y = 11,784 - 0.274x 
Podemos interpretar o coeficiente de inclinação b como a variação esperada na 
concentração do poluente para cada unidade de aumento na distância a partir da fonte 
poluidora. Nesse caso, a cada 1 metro de distância, espera-se uma redução média de 0.274 
unidades na concentração do poluente. 
Para avaliar a significância da relação linear entre as variáveis, vamos calcular o 
coeficiente de correlação ajustado R² e realizar um teste de hipótese para o coeficiente de 
inclinação b. 
O coeficiente de correlação ajustado R² é calculado como: 
R²aj = 1 - (1 - r²) * (n - 1) / (n - k - 1) 
R²aj = 1 - ((N-1)/(N-K-1)) * (1 - R²) 
R²aj = 1 - ((5-1)/(5-2-1)) * (1 - 0.9475) 
R²aj = 0.895 
Portanto, o coeficiente de correlação ajustado é de 0.895, indicando que a variável 
"Distância a partir da fonte poluidora" explica cerca de 89,5% da variação observada na 
variável "Concentração do poluente", levando em consideração o número de graus de 
liberdade no modelo. Podemos rejeitar a hipótese nula de que o coeficiente angular é zero 
e concluir que há uma relação significativa entre as variáveis. A concentração do poluente 
sofre influência significativa da distância a partir da fonte poluidora. 
c) Agora use a equação de regressão linear genérica e forneça uma previsão da 
concentração do poluente a 500 metros da fonte poluidora, onde se encontra uma 
vila de moradores. 
y = 11,784 - 0.274x 
Substituindo o valor x = 500m ou 0,5 km, temos: 
y = 11,784 - 0.274*(0,500) = 11,647 
Nesse caso, a previsão da concentração do poluente a 500 metros da fonte poluidora é de 
11,647 unidades de concentração.

Continue navegando