Buscar

Capítulo_5-Curso_de_Matemática

Prévia do material em texto

�PAGE �
�PAGE �35�
Introdução à Estatística
Capítulo 5
Correlação e Regressão
5.1 Análise Bivariada
	Esta parte da Estatística, lida com uma amostra (parte de uma população) de dados emparelhados, como mostra o exemplo abaixo:
O medicamento A é utilizado para combater um certo tipo de doença, porém se este for utilizado por um período prolongado, pode causar problemas neurológicos. Os dados a seguir foram obtidos de 10 pacientes que usaram o medicamento A. Esses dados registram o número de anos que cada paciente usou este medicamento (x), em função de um diagnóstico médico sobre o grau em que o sistema neurológico desses pacientes foram afetados (y). Esta última variável foi medida segundo uma escala de 0 a 10. 
N.º de anos que usou o medicamento A
2
3
3
4
5
6
6
8
8
10
Grau de afecção do sistema neurológico
1
2
4
4
5
7
8
8
9
9
Fonte: Ministério da Saúde
	Com esses dados emparelhados, vamos procurar determinar se há alguma relação entre as duas variáveis e, em caso afirmativo, identificar a relação. Por exemplo, com os dados da tabela acima, procuraremos determinar se há relação entre o número de anos que um paciente usou um certo medicamento e o grau de afecção do seu sistema neurológico. Se existe tal relação, vamos traduzi-la por uma equação, de modo que possamos predizer o quanto o sistema neurológico desses pacientes foram afetados, de uma maneira geral. Antes de começarmos esta análise, será preciso definir o que é uma variável.
5.1.1 Variável
Definição
Variável é, convencionalmente, o conjunto de resultados possíveis de um fenômeno.
Ex: Estatura, peso, tempo, colesterol, tempo de gestação, cor da pele, cor dos olhos, números de anos, qualquer tipo de graus ou notas, etc.
5.2 Correlação
Definição
Existe uma correlação entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra.
5.2.1 Coeficiente de Correlação Linear de Pearson(
Definição
O coeficiente de correlação linear de Pearson (r), mede o grau de relacionamento linear entre os valores de duas variáveis em uma amostra.
	Para calcularmos o coeficiente de correlação de Pearson, entre duas variáveis (x e y), usaremos a fórmula abaixo:
Obs:
Devemos arredondar o coeficiente de correlação linear (r) para três casas decimais
O valor de r poderá variar de -1 a 1, isto é, -1 ( r ( 1.
Se r ( 0, diremos que a correlação linear é positiva.
Se r ( 0, diremos que a correlação linear é negativa.
Se r = 0, diremos que não existe correlação linear entre as variáveis.
5.3 Diagrama de Dispersão
Definição
Dadas duas variáveis x e y, denominamos diagrama de dispersão aos pares ordenados (x, y) representados em um sistema de coordenadas cartesianas.
As figuras abaixo ilustram alguns exemplos:
Obs: O fato de a correlação linear ser nula não implica em afirmar que não existe correlação entre as variáveis x e y. A correlação pode ser, por exemplo, quadrática.
5.4 Interpretação do Coeficiente de Correlação Linear
	Devemos interpretar o valor calculado de r. Como já foi afirmado acima, o valor de r poderá variar de –1 a 1. Se o valor de r está próximo de 0, concluímos que não correlação linear significativa entre x e y, mas se r está próximo de –1 ou 1, concluímos que existe correlação linear significativa entre x e y. Como a expressão “próximo de” é vaga, adotaremos o seguinte critério de decisão: 
Definição
Se o módulo do valor calculado de r excede o valor na Tabela A6 (Anexo 1), concluímos que há correlação linear significativa entre as variáveis. Em caso contrário, não há correlação linear significativa entre as variáveis.
Exercício 5.1: O medicamento A é utilizado para combater um certo tipo de doença, porém se este for utilizado por um período prolongado, pode causar problemas neurológicos. Os dados a seguir foram obtidos de 8 pacientes que usaram o medicamento A. Esses dados registram o número de anos que cada paciente usou este medicamento (x), em função de um diagnóstico médico sobre o grau que os sistema neurológico desses pacientes foram afetados (y). Esta última variável foi medida segundo uma escala de 0 a 10. 
N.º de anos que usou o medicamento A
2
3
3
4
5
6
6
8
8
10
Grau de afecção do sistema neurológico
1
2
4
4
5
7
8
8
9
9
Fonte: Ministério da Saúde
Calcule o coeficiente de correlação linear de Pearson (r).
Construa o diagrama de dispersão
Determine se existe correlação linear significativa entre as variáveis (utilize ( = 0,05), e diga qual o tipo de correlação.
5.5 Regressão
	Até o momento, analisamos dados espalhados com o objetivo de determinar se havia correlação linear significativa entre duas variáveis. Vamos agora descrever esta relação determinado a equação da reta que a representa. Essa reta é chamada reta de regressão, e sua equação é a equação de regressão.
Definição
Dada uma coleção de dados amostrais emparelhados, a equação de regressão 
descreve a relação entre duas variáveis. O gráfico da equação de regressão é chamado reta de regressão (ou reta de melhor ajuste, ou reta de mínimos quadrados).
	Essa definição expressa uma relação entre x (chamada variável independente e 
(chamada variável dependente). É importante lembrar que estamos investigando apenas relações lineares.
	O principal objetivo desse capítulo é utilizar dados amostrais emparelhados para estimar a equação de regressão. Para isso, basta calcularmos os valores dos parâmetros a e b (da equação de regressão) com a ajuda das fórmulas:
 e 
onde:
	n é o número de observações;
	
 é a média aritmética dos valores da variável x, isto é, 
;
	
 é a média aritmética dos valores da variável y, isto é, 
.
Exercício 5.2: Considerando os dados do exercício 5.1:
Determine a equação de regressão.
Construa a reta de regressão no diagrama de dispersão.
5.6 Predições (Estimativas)
	As equações de regressão podem ser úteis quando usadas para predizer (estimar) o valor de uma variável, dado um valor determinado de uma outra variável. Se a reta de regressão se ajusta bem aos dados, então tem sentindo utilizar sua equação para fazer predições, desde que não ultrapassemos os limites dos valores disponíveis (exceto quando considerações teóricas ou experimentais demonstrem tal possibilidade). Entretanto, só devemos utilizar a equação de regressão se o coeficiente de correlação de Pearson (r) indica a existência de uma correlação linear significativa.
5.7 Erro Padrão de Estimativa
	Após uma equação de regressão ter sido ajustada a um conjunto de pontos, podemos calcular o erro que cometemos quando estimamos o valor de uma variável, dado um valor determinado da outra variável. Este erro é chamado erro padrão de estimativa.
Definição
O erro padrão de estimativa, denotado por se, é uma medida das diferenças (ou distâncias) entre os valores amostrais y observados e os valores preditos 
 obtidos através da reta de regressão.
	Para calcularmos erro padrão de estimativa, usaremos a seguinte fórmula:
5.8 Intervalo de Confiança para um y Individual
	Com o auxílio do erro padrão de estimativa se, podemos construir estimativas intervalares que nos dirão quão confiáveis são realmente as nossas estimativas pontuais de y, isto é, a estimativa intervalar seguinte, se aplica a um y individual.
Definição
Dado um valor fixo de x (vamos chamá-lo de x0), o intervalo de predição para um determinado y é
onde a margem de erro E é
e x0 representa o valor dado de x, t( é o nível de confiança com n – 2 graus de liberdade (Tabela A3 do anexo 1) e se é o erro padrão de estimativa.
Exercício 5.3: Considerando os dados do exercício 5.1:
Estime o valor da variável y quando x = 7, isto é, estime o grau de afecção do sistema neurológico para uma pessoa que usou este medicamento por 7 anos.
Calcule o erro padrão de estimativa.
Construa um intervalo de predição de 90% de confiança para x = 7.
Exercícios
Dados obtidos de 8 pacientes que sofreram de enfisema. Esses dados registramo número de anos que cada paciente fumou (x), em função de um diagnóstico médico sobre o grau em que os pulmões desses pacientes afetados (y). Esta última variável foi medida segundo uma escala de 0 a 10.
N.º de anos que fumou (x)
Grau de afecção dos pulmões (y)
27
4
38
6
24
4
50
8
41
7
44
7
30
5
35
5
(x =
(y =
 Fonte: Ministério da Saúde (1995)
Calcule o coeficiente de correlação linear de Pearson (r).
Determine se existe correlação linear significativa entre as variáveis (utilize ( = 0,01), e diga qual o tipo de correlação.
Determine a equação de regressão.
Construa o diagrama de dispersão com a reta de regressão.
Estime o grau de afecção dos pulmões de uma pessoa que fumou por 40 anos.
Calcule o erro padrão de estimativa.
Construa um intervalo de 90% de confiança para x = 40.
Bibliografia Suplementar
[1]	TRIOLA, M. Introdução à Estatística. Rio de Janeiro, LTC, 1999.
[2]	TOLEDO, G.L. e OVALLE, I.I. Estatística Básica. São Paulo, Atlas, 1995.
[3] LEVINE, D.L., et al. Estatística: Teoria e Aplicações. Rio de Janeiro, LTC, 1998.
Correlação Linear Positiva
0 ( r ( 1
Correlação Linear Negativa
-1 ( r ( 0
Correlação Nula
r = 0
( Karl Pearson (1857-1936)
Capítulo 5: Correlação e Regressão
_1089531873.unknown
_1089532029.unknown
_1089534583.unknown
_1089534758.unknown
_1089532030.unknown
_1089532027.unknown
_1089532028.unknown
_1089531890.unknown
_1089527530.unknown
_1089531694.unknown
_1089531730.unknown
_1089531541.unknown
_1033483586.unknown

Continue navegando