Prévia do material em texto
Tópico 08 Bioestatística Correlação e regressão linear simples 1. Introdução Todos parecem querer lhe contar as últimas relações, correlações, associações ou ligações encontradas nas mais diversas áreas. É usual aparecer em noticiários e mídias sociais grandes notícias que envolvem estudos sobre relações de variáveis. Sempre é interessante conhecer os efeitos que algumas variáveis exercem, ou que parecem exercer, sobre outras. Mesmo que não exista relação causal entre as variáveis podemos relacioná-las, por meio de uma expressão matemática, que pode ser útil para se estimar o valor de uma das variáveis quando conhecemos os valores das outras (estas de mais fácil obtenção ou antecessoras da primeira no tempo), sob determinadas condições. A Regressão e a correlação são duas técnicas estreitamente relacionadas que envolvem uma forma de estimação. A diferença entre essas técnicas e o tipo de estimação discutido nos tópicos anteriores é que aquelas técnicas foram utilizadas para estimar um único parâmetro populacional. E este módulo são apresentadas técnicas que se referem à estimação de uma relação que possa existir na população. Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas de tal forma que uma variável pode ser predita a partir da outra ou outras. Constituindo uma tentativa de estabelecer uma equação matemática linear que descreva esse relacionamento. https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 1 de 23 Modelo matemático Y= f(X) São exemplos de relações funcionais entre variáveis: Crescimento da população ou do PNB de um país (Y) em função dos anos (X); Variação da produção (Y) obtida numa cultura conforme a quantidade de nitrogênio (X ), fósforo (X ) e potássio (X ) utilizada na adubação; Variação do preço (Y) de um produto no mercado em função da quantidade oferecida (X). Relação entre textura e aparência de produtos. 1 2 3 Fique atento!!! Embora a análise de regressão lide com a dependência de uma variável em relação a outras variáveis, ela não implica necessariamente em causa. Uma relação estatística, por mais forte e sugestiva que seja, jamais pode estabelecer uma relação causal. As ideias sobre causa devem vir de fora da estatística, enfim, de outra teoria. https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 2 de 23 2. Análise de correlação O principal objetivo na análise de correlação é medir a força ou o grau de associação linear entre duas variáveis, está estreitamente relacionada à análise de regressão, mas conceitualmente é muito diferente. Diagrama de Dispersão. Como organizar as variáveis em uma análise de correlação? Não há, nesse caso, preocupação em apresentar forma funcional entre as variáveis, se houver. Trata-se qualquer (duas) variáveis simetricamente, não há distinção entre as variáveis dependentes e explanatórias. ? https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 3 de 23 Por exemplo, podemos estar interessados em determinar o coeficiente de correlação entre: fumar e câncer de pulmão; entre notas obtidas nas provas de estatística e de matemática; entre as notas obtidas no ensino médio e na faculdade e assim por diante. Para o estudo do comportamento conjunto de duas variáveis poderiam ser estudados: a) Diagrama de Dispersão Representação gráfica do conjunto de dados. Nada mais é do que a representação dos pares de valores num sistema cartesiano. Padrões de Correlação. Em síntese, três situações marcantes poderiam acontecer: Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce”, dizemos entre as duas variáveis existe correlação positiva, tanto mais forte quanto https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 4 de 23 mais perto de uma reta imaginária os pontos estiverem; Se, quando uma das variáveis “cresce”, a outra, em média, “decresce”, dizemos entre as duas variáveis existe correlação negativa, tanto mais forte quanto mais perto de uma reta imaginária os pontos estiverem; Se os pontos estiverem dispersos, sem definição de direção, dizemos que a correlação é muito baixa, ou mesmo nula, as variáveis nesse caso são ditas não correlacionadas. Exercício Resolvido: Uma pesquisa foi realizada em um hospital pediátrico em determinado mês, coletando as informações de temperatura média do dia e o número de atendimentos de casos de problemas respiratórios. Obtendo-se os seguintes dados: Temperatura média (ºC) Nº de casos de problemas respiratórios Temperatura média (ºC) Nº de casos de problemas respiratórios 9 28 10 25 11 26 12 26 14 22 12 22 15 22 16 20 17 22 21 10 18 16 17 16 20 12 22 10 21 6 14 15 22 6 13 16 https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 5 de 23 b) Coeficiente de correlação de Pearson É um valor numérico, uma medida do grau de associação entre duas variáveis. Se for observada uma associação entre as variáveis quantitativas (a partir de um diagrama de dispersão, por exemplo), é muito útil quantificar essa associabilidade. O coeficiente de correlação amostral é calculado por: Propriedades: 25 5 17 20 Deseja-se analisar a relação entre a temperatura e nº de casos de doenças respiratórias, como criar um gráfico de dispersão utilizando o excel? Assista ao vídeo com a explicação. https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 6 de 23 a) Pode ser positivo ou negativo, o que dependerá do sinal do termo no numerador da equação, que mede a covariação amostral das duas variáveis; b) Se situa nos limites de -1 e +1, isto é, -1 ≤ r ≤ 1. c) Sua natureza é simétrica, isto é, o coeficiente de correlação entre X e Y (r ) é o mesmo que Y e X (r ). d) Se X e Y são estatisticamente independentes, o coeficiente de correlação entre elas é zero, mas se r = 0, isso não significa que sejam independentes. Classificação da correlação linear. e) É uma medida de associação linear ou de dependência linear, não é significativa para descrever relações não lineares. xy yx Fique atento!!! O coeficiente pode ser representado por r ou pela letra grega rho (ρ), onde letra grega indica um valor paramétrico (populacional). https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 7 de 23 Segundo LEVIN (1978), pode-se classificar a força e sentido da correlação da seguinte maneira: Exemplo 01: Na tabela abaixo, temos o salário-hora ($) médio (Y) segundo nível de escolaridade (X), deseja-se verificar o grau de relação entre essas variáveis. Anos de estudo (X) salário-hora médio (Y) 6 4,4 7 5,7 8 5,9 9 7,3 https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 8 de 23 10 7,3 11 6,5 12 7,8 13 7,8 14 11,0 15 10,7 16 10,8 17 13,6 18 13,5 Para podermos realizar as análises, é necessário obter os somatórios que são utilizados na fórmula do coeficiente de Pearson, na tabela abaixo temos o detalhamento desses somatórios. Anos de estudo (X) salário-hora médio (Y) X² Y² XY 6 4,46 36 19,89 26,76 7 5,77 49 33,29 40,39 8 5,98 64 35,76 47,84 9 7,33 81 53,73 65,97 10 7,32 100 53,58 73,20 11 6,58 121 43,30 72,38 https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 9 de 23 12 7,82 144 61,15 93,84 13 7,84 169 61,47 101,92 14 11,02 196 121,44 154,28 15 10,67225 113,85 160,05 16 10,84 256 117,51 173,44 17 13,62 289 185,50 231,54 18 13,53 324 183,06 243,5 4 Total (soma) 156 112,78 205 4 1083,5 3 1485,1 5 https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 10 de 23 Podemos concluir que o grau de escolaridade e o salário-hora médio são fortemente correlacionados, apresentando uma relação positiva. É possível quantificar a relação entre qualquer tipo de variável utilizando o coeficiente de correlação? Não, em casos onde deseja-se analisar variáveis qualitativas, deve-se utilizar métodos estatísticos apropriados para esse tipo de variável, as análises não paramétricas. O coeficiente de correlação é usado apenas para variáveis quantitativas, nas quais é possível calcular média e desvio padrão. ? https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 11 de 23 3. Regressão linear simples O modelo de regressão linear simples parte de uma relação entre duas variáveis estudadas. A análise de regressão trata da estimação e/ou previsão do valor médio da variável dependente com base nos valores conhecidos ou fixados da variável independente. Ilustraremos a situação geral através da figura abaixo, no gráfico temos quatro observações de x (variável independente) no eixo horizontal e y (variável dependente) no eixo vertical. Assim, temos quatro pontos e qualquer reta fica definida por dois números, o coeficiente angular (b) e o intercepto vertical (a). Exercício Resolvido: Vamos continuar a análise dos dados de temperatura e número de casos de doenças respiratórias do hospital pediátrico visto no exemplo anterior utilizando o Excel? Assista ao vídeo com a explicação. https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 12 de 23 Representação da reta de regressão linear. O modelo geralmente é escrito da seguinte forma: Em que: Y = Variável resposta (dependente) X = valor pré-fixado (variável explicativa ou preditora); a e b= são parâmetros (coeficientes de regressão); = é o erro que está associado à distância entre o valor observado Yi e o correspondente ponto na curva. E(e ) = 0 e σ (e ) = σ . Observa-se que para cada ponto há uma certa distância entre a reta e o ponto, essa distância é chamada erro ou resíduo, da reta em relação ao ponto. i i ei i 2 i 2 https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 13 de 23 Representação dos erros no modelo. Deseja-se ajustar uma reta de modo que o erro total seja o menor possível, minimizando a soma do quadrado dos erros. Dado por: O método de estimação mais utilizado (porém, não o único) para estimar os coeficientes da reta de regressão linear simples é o de mínimos quadrados ordinários (MQO), sendo os estimadores a e b obtidos por: mede a quantidade de mudança esperada na variável dependente (eixo y) para cada unidade de mudança da variável independente (eixo x). O sinal deste coeficiente indica o sentido de relacionamento (correlação positiva ou negativa). Uma vez obtidas as estimativas, podemos escrever a equação estimada: https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 14 de 23 O que significa Resíduos em regressão? Também conhecido como erro, é a diferença entre o valor observado e o estimado. . Exemplo 03: Considere um modelo de regressão simples do tipo Y = + X + e , que, teoricamente, serviria para descrever o comportamento do mercado de uma dada marca de automóvel de consumo de massa, onde Y é a venda dos veículos em milhões de dólares e X a massa salarial, também em milhões de dólares. Considere, também, a seguinte amostra de dados para Y e X: X Y 100 360 180 422 260 550 330 610 490 690 a) Estime os parâmetros do modelo, usando os dados acima. X Y X² Y² XY ? i i i https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 15 de 23 10 0 36 0 10 00 0 12 96 00 36 00 0 18 0 42 2 32 40 0 17 80 84 75 96 0 26 0 55 0 67 60 0 30 25 00 14 30 00 33 0 61 0 108 90 0 37 21 00 20 13 00 49 0 69 0 24 01 00 47 61 00 33 81 00 Somatório 13 60 26 32 45 90 00 14 58 38 4 79 43 60 https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 16 de 23 b) Qual seria o valor esperado da venda de veículos se a massa salarial fosse de 350 milhões de dólares? O valor esperado de venda de veículos é de 595,04 milhões de dólares. Precisão da Reta de Regressão Para verificar a precisão das estimativas, é importante conhecer a variância dos estimadores. Pois, o simples conhecimento dos coeficientes da reta ajustada nada diz sobra a qualidade desse ajuste, é necessária uma medida que mensure o grau de ajuste ou precisão do modelo estimado. Utilizaremos, então, o Coeficiente de determinação (r²), uma medida sintética que diz quão bem a reta de regressão da amostra se ajusta aos dados. O R² indica a proporção (ou porcentagem) da variação de Y que é “explicada” pela regressão. Segundo ARANGO (1998), o r² é uma medida quantitativa de precisão da reta estimada, sendo . Normalmente, prefere-se obter a medida, utilizando o quadrado do coeficiente de correlação (r²), pois o valor de r é normalmente encontrado em qualquer calculadora que possua módulo estatístico. O valor de r² pode ser obtido por: O Coeficiente de determinação varia entre 0 e 1, e quando mais próximo de 1 melhor o ajuste, ou seja, as variáveis usadas no modelo estão explicando bem https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 17 de 23 o evento que se está estudando. Fique atento!!! A obtenção de um modelo de regressão é indicada para variáveis que apresentam uma relação de moderada a forte. Exemplo 04: É esperado que ao envelhecer, uma pessoa tenha a sua massa muscular reduzida. Para estudar essa relação, uma nutricionista selecionou 14 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). Massa muscular (Y) Idade (X) 82.0 71.0 91.0 64.0 100.0 43.0 68.0 67.0 87.0 56.0 73.0 73.0 78.0 68.0 80.0 56.0 https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 18 de 23 65.0 76.0 84.0 65.0 116.0 45.0 76.0 58.0 97.0 45.0 100.0 53.0 Primeiramente a nutricionista construiu um gráfico de dispersão para analisar a relação. O coeficiente de correlação de Pearson confirmou a relação: https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 19 de 23 Através do gráfico de dispersão e coeficiente de correlação entre massa muscular e idade, pode-se observar que há um forte indício de relação linear decrescente onde a massa muscular das pessoas diminui à medida que a idade aumenta. Observada a forte relação entre as variáveis, a nutricionista ajustou uma equação de regressão para modelar o comportamento das variáveis. E obteve a seguinte equação: y = 150,07 – 1,0761x E, para entender qual a precisão desse modelo ajustado, ela obteve o coeficiente de determinação: R = (-0,8255) = 0,6815 Assim, a variação da massa muscular é explicada pela regressão linear em 68,15%, os outros 31,85% são variações aleatórias não explicadas pelo modelo de regressão selecionado. 2 2 Assista à explicaçãodetalhada a resolução do exemplo da relação https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 20 de 23 4. Conclusão Nesse tópico, foram abordados dois métodos de estimação muito importantes na análise de dados. A regressão e correlação linear são técnicas que envolvem a análise de duas variáveis, fazendo inferências em relação ao grau de associação das mesmas e modelando essa relação. Conhecer essas técnicas faz com que você consiga enxergar melhor os tipos de associações que pode realizar, utilizando análises simples e também utilizando o Excel. 5. Referências ABG Consultoria Estatística, 2017. Coeficientes de Correlação. Disponível em: <http://www.abgconsultoria.com.br/blog/coeficientes-de-correlacao/>. BUSSAB, Wilton O. MORETTIN, Pedro A. Estatística Básica. 5 ed., São entre idade e massa muscular. https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 21 de 23 Parabéns, esta aula foi concluída! Paulo: Saraiva, 2004. DOWNING, D., CLARK, J. Estatística Aplicada. São Paulo: Saraiva,1998. FARIAS, Ana Maria Lima de. Notas de aulas inferência estatística. Professores.uff. 2008. Disponível em: <https://www.professores.uff.br/malbi/wp- content/uploads/sites/50/2017/08/Inferencia.pdf> FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de estatística. 5. ed. São Paulo: Atlas, 1994. 317 p. HOFFMANN, Rodolfo. Análise de Regressão – Introdução à Econometria [recurso eletrônico]. 5. ed. Piracicaba: ESALQ/USP, 2016. Disponível em: <http://www.producao.usp.br/bitstream/handle/BDPI/48616/REGRESS.p df?sequence=5&isAllowed=y> LEVIN. J. Estatística Aplicada a Ciências Humanas, São Paulo. Ed. Harper&Row do Brasil. 1978. RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: 1. ed. Alta Books, 2009. 350p. STEVENSON, Willian J. Estatística Aplicada à Administração – São Paulo: HARPER & ROW do Brasil, 1981. https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 22 de 23 Mínimo de caracteres: 0/150 O que achou do conteúdo estudado? Péssimo Ruim Normal Bom Excelente Deixe aqui seu comentário Enviar https://ceadsaladeaula.uvv.br/conteudo.php?aula=correlacao-e-regressao-linear-simples-2&dcp=bioestatistica&topic=8 28/05/2024, 12:09 Página 23 de 23