Baixe o app para aproveitar ainda mais
Prévia do material em texto
�PAGE � �PAGE �35� Introdução à Estatística Capítulo 5 Correlação e Regressão 5.1 Análise Bivariada Esta parte da Estatística, lida com uma amostra (parte de uma população) de dados emparelhados, como mostra o exemplo abaixo: O medicamento A é utilizado para combater um certo tipo de doença, porém se este for utilizado por um período prolongado, pode causar problemas neurológicos. Os dados a seguir foram obtidos de 10 pacientes que usaram o medicamento A. Esses dados registram o número de anos que cada paciente usou este medicamento (x), em função de um diagnóstico médico sobre o grau em que o sistema neurológico desses pacientes foram afetados (y). Esta última variável foi medida segundo uma escala de 0 a 10. N.º de anos que usou o medicamento A 2 3 3 4 5 6 6 8 8 10 Grau de afecção do sistema neurológico 1 2 4 4 5 7 8 8 9 9 Fonte: Ministério da Saúde Com esses dados emparelhados, vamos procurar determinar se há alguma relação entre as duas variáveis e, em caso afirmativo, identificar a relação. Por exemplo, com os dados da tabela acima, procuraremos determinar se há relação entre o número de anos que um paciente usou um certo medicamento e o grau de afecção do seu sistema neurológico. Se existe tal relação, vamos traduzi-la por uma equação, de modo que possamos predizer o quanto o sistema neurológico desses pacientes foram afetados, de uma maneira geral. Antes de começarmos esta análise, será preciso definir o que é uma variável. 5.1.1 Variável Definição Variável é, convencionalmente, o conjunto de resultados possíveis de um fenômeno. Ex: Estatura, peso, tempo, colesterol, tempo de gestação, cor da pele, cor dos olhos, números de anos, qualquer tipo de graus ou notas, etc. 5.2 Correlação Definição Existe uma correlação entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra. 5.2.1 Coeficiente de Correlação Linear de Pearson( Definição O coeficiente de correlação linear de Pearson (r), mede o grau de relacionamento linear entre os valores de duas variáveis em uma amostra. Para calcularmos o coeficiente de correlação de Pearson, entre duas variáveis (x e y), usaremos a fórmula abaixo: Obs: Devemos arredondar o coeficiente de correlação linear (r) para três casas decimais O valor de r poderá variar de -1 a 1, isto é, -1 ( r ( 1. Se r ( 0, diremos que a correlação linear é positiva. Se r ( 0, diremos que a correlação linear é negativa. Se r = 0, diremos que não existe correlação linear entre as variáveis. 5.3 Diagrama de Dispersão Definição Dadas duas variáveis x e y, denominamos diagrama de dispersão aos pares ordenados (x, y) representados em um sistema de coordenadas cartesianas. As figuras abaixo ilustram alguns exemplos: Obs: O fato de a correlação linear ser nula não implica em afirmar que não existe correlação entre as variáveis x e y. A correlação pode ser, por exemplo, quadrática. 5.4 Interpretação do Coeficiente de Correlação Linear Devemos interpretar o valor calculado de r. Como já foi afirmado acima, o valor de r poderá variar de –1 a 1. Se o valor de r está próximo de 0, concluímos que não correlação linear significativa entre x e y, mas se r está próximo de –1 ou 1, concluímos que existe correlação linear significativa entre x e y. Como a expressão “próximo de” é vaga, adotaremos o seguinte critério de decisão: Definição Se o módulo do valor calculado de r excede o valor na Tabela A6 (Anexo 1), concluímos que há correlação linear significativa entre as variáveis. Em caso contrário, não há correlação linear significativa entre as variáveis. Exercício 5.1: O medicamento A é utilizado para combater um certo tipo de doença, porém se este for utilizado por um período prolongado, pode causar problemas neurológicos. Os dados a seguir foram obtidos de 8 pacientes que usaram o medicamento A. Esses dados registram o número de anos que cada paciente usou este medicamento (x), em função de um diagnóstico médico sobre o grau que os sistema neurológico desses pacientes foram afetados (y). Esta última variável foi medida segundo uma escala de 0 a 10. N.º de anos que usou o medicamento A 2 3 3 4 5 6 6 8 8 10 Grau de afecção do sistema neurológico 1 2 4 4 5 7 8 8 9 9 Fonte: Ministério da Saúde Calcule o coeficiente de correlação linear de Pearson (r). Construa o diagrama de dispersão Determine se existe correlação linear significativa entre as variáveis (utilize ( = 0,05), e diga qual o tipo de correlação. 5.5 Regressão Até o momento, analisamos dados espalhados com o objetivo de determinar se havia correlação linear significativa entre duas variáveis. Vamos agora descrever esta relação determinado a equação da reta que a representa. Essa reta é chamada reta de regressão, e sua equação é a equação de regressão. Definição Dada uma coleção de dados amostrais emparelhados, a equação de regressão descreve a relação entre duas variáveis. O gráfico da equação de regressão é chamado reta de regressão (ou reta de melhor ajuste, ou reta de mínimos quadrados). Essa definição expressa uma relação entre x (chamada variável independente e (chamada variável dependente). É importante lembrar que estamos investigando apenas relações lineares. O principal objetivo desse capítulo é utilizar dados amostrais emparelhados para estimar a equação de regressão. Para isso, basta calcularmos os valores dos parâmetros a e b (da equação de regressão) com a ajuda das fórmulas: e onde: n é o número de observações; é a média aritmética dos valores da variável x, isto é, ; é a média aritmética dos valores da variável y, isto é, . Exercício 5.2: Considerando os dados do exercício 5.1: Determine a equação de regressão. Construa a reta de regressão no diagrama de dispersão. 5.6 Predições (Estimativas) As equações de regressão podem ser úteis quando usadas para predizer (estimar) o valor de uma variável, dado um valor determinado de uma outra variável. Se a reta de regressão se ajusta bem aos dados, então tem sentindo utilizar sua equação para fazer predições, desde que não ultrapassemos os limites dos valores disponíveis (exceto quando considerações teóricas ou experimentais demonstrem tal possibilidade). Entretanto, só devemos utilizar a equação de regressão se o coeficiente de correlação de Pearson (r) indica a existência de uma correlação linear significativa. 5.7 Erro Padrão de Estimativa Após uma equação de regressão ter sido ajustada a um conjunto de pontos, podemos calcular o erro que cometemos quando estimamos o valor de uma variável, dado um valor determinado da outra variável. Este erro é chamado erro padrão de estimativa. Definição O erro padrão de estimativa, denotado por se, é uma medida das diferenças (ou distâncias) entre os valores amostrais y observados e os valores preditos obtidos através da reta de regressão. Para calcularmos erro padrão de estimativa, usaremos a seguinte fórmula: 5.8 Intervalo de Confiança para um y Individual Com o auxílio do erro padrão de estimativa se, podemos construir estimativas intervalares que nos dirão quão confiáveis são realmente as nossas estimativas pontuais de y, isto é, a estimativa intervalar seguinte, se aplica a um y individual. Definição Dado um valor fixo de x (vamos chamá-lo de x0), o intervalo de predição para um determinado y é onde a margem de erro E é e x0 representa o valor dado de x, t( é o nível de confiança com n – 2 graus de liberdade (Tabela A3 do anexo 1) e se é o erro padrão de estimativa. Exercício 5.3: Considerando os dados do exercício 5.1: Estime o valor da variável y quando x = 7, isto é, estime o grau de afecção do sistema neurológico para uma pessoa que usou este medicamento por 7 anos. Calcule o erro padrão de estimativa. Construa um intervalo de predição de 90% de confiança para x = 7. Exercícios Dados obtidos de 8 pacientes que sofreram de enfisema. Esses dados registramo número de anos que cada paciente fumou (x), em função de um diagnóstico médico sobre o grau em que os pulmões desses pacientes afetados (y). Esta última variável foi medida segundo uma escala de 0 a 10. N.º de anos que fumou (x) Grau de afecção dos pulmões (y) 27 4 38 6 24 4 50 8 41 7 44 7 30 5 35 5 (x = (y = Fonte: Ministério da Saúde (1995) Calcule o coeficiente de correlação linear de Pearson (r). Determine se existe correlação linear significativa entre as variáveis (utilize ( = 0,01), e diga qual o tipo de correlação. Determine a equação de regressão. Construa o diagrama de dispersão com a reta de regressão. Estime o grau de afecção dos pulmões de uma pessoa que fumou por 40 anos. Calcule o erro padrão de estimativa. Construa um intervalo de 90% de confiança para x = 40. Bibliografia Suplementar [1] TRIOLA, M. Introdução à Estatística. Rio de Janeiro, LTC, 1999. [2] TOLEDO, G.L. e OVALLE, I.I. Estatística Básica. São Paulo, Atlas, 1995. [3] LEVINE, D.L., et al. Estatística: Teoria e Aplicações. Rio de Janeiro, LTC, 1998. Correlação Linear Positiva 0 ( r ( 1 Correlação Linear Negativa -1 ( r ( 0 Correlação Nula r = 0 ( Karl Pearson (1857-1936) Capítulo 5: Correlação e Regressão _1089531873.unknown _1089532029.unknown _1089534583.unknown _1089534758.unknown _1089532030.unknown _1089532027.unknown _1089532028.unknown _1089531890.unknown _1089527530.unknown _1089531694.unknown _1089531730.unknown _1089531541.unknown _1033483586.unknown
Compartilhar