Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Estadual Paulista “Júlio de Mesquita Filho” Bioestatística: CORRELAÇÃO E REGRESSÃO Assis-SP User Note BOM trabalho. Veja comentários abaixo. Bioestatística: CORRELAÇÃO E REGRESSÃO Ana Paula Carvalho, Beatriz Cruz, Isabela Alves, Julia Le Du Fortes de Alcamin, Lilian Rodrigues e Marcelo Duarte 2017 Exercícios 1 – Os programas governamentais de reflorestamento e de silvicultura comunitária são atividades importantes para compensar os resultados de muitas décadas de desmatamento, o que deixou muitos países e jurisdições com uma base de terra empobrecida e degradada. Em uma região reflorestada deseja-se verificar o crescimento de duas espécies de plantas, Planta A e Planta B, ou mais precisamente, deseja-se verificar se essas plantas estavam crescendo de forma independente uma da outra. Para tanto foram tomados 35 quadrantes de 300 metros por 300 metros e avaliadas o número de espécie por quadrantes. Utilize os dados da planilha de dados Plantas para realizar as análises pertinentes para a situação proposta. Correlação de A, B = 0.0724 R²= 0.0052 Figura 1. Correlação entre Espécie A e B A partir do diagrama e dos dados observados acima, podemos notar que não parece haver correlação entre o crescimento das árvores das espécies A e B nos quadrantes. O diagrama não apresenta visivelmente, uma correlação entre ambas espécies, além do mais o r confirma essa ausência de correlação pois seu valor está bem abaixo do desejado (0,75 ou mais), alcançando o valor de 0,0724 apenas. Para confirmar ainda mais isso, temos o r² com um valor bem inferior (0,0052), mostrando que não há mesmo uma correlação. 2 – Os dados do arquivo Tabaco apresentam os gastos pessoais de 50 indivíduos com artigos envolvendo tabaco, principalmente cigarro, e gastos com bebidas alcoólicas. A pesquisa acompanhou durante uma semana os gastos dos referidos indivíduos com essas duas categorias de produtos. Cada indivíduo recebeu uma planilha na qual deveria marcar seus gastos diários com tabaco e álcool. Quais seriam as avaliações estatísticas possíveis para verificar se quem gasta “muito” com álcool também gasta “muito” com tabaco. Se existir esse fenômeno – essa relação, qual a força desse fenômeno (Os valores apresentados na planilha de dados são expressos em reais – R$). As avaliações possíveis seriam as de Correlação e Regressão Linear Simples, realizadas abaixo. Onde são vistos o diagrama exemplificando o ocorrido e o coeficiente de correlação que indica se de fato essa correlação entre os dados é forte. Correlação de Tabaco e Álcool = 0.8849 R²= 0.7831 Figura 1. Correlação entre consumo de tabaco e álcool. A partir dos dados acima, podemos observar pelo diagrama que existe uma relação entre o gasto com bebidas alcoólicas e com o tabaco, e para confirmar isso e mostrar a força dessa correlação, temos o coeficiente de correlação de Pearson com valor de 0,8849 que indica alta correlação entre as variáveis pois se aproxima muito do valor 1, que indica a maior correlação possível. 3 – Os dados da planilha Cores apresenta as cores predominantes para uma espécie de aves para machos e fêmeas. Qual seria o valor do Coeficiente de Correlação para as variáveis sexo e cor predominante? O valor de Coeficiente de Correlação para as variáveis sexo e cor predominante é 0,0256. COR X1(sexo), X2(cor)= 0,0256. 4 - Nutricionistas esperam que a massa muscular de uma pessoa diminua com a idade. Para estudar esta suposição em mulheres, uma nutricionista aleatoriamente selecionou diversas mulheres de várias faixas etárias de uma mesma comunidade e classe social e que não realizam atividade física frequentemente. Os resultados são apresentados na planilha Massa_Muscular. A coluna IdadeM é a idade e MM é uma medida da massa muscular, quanto maior o valor maior a massa muscular. a) Baseando-se nos dados, é possível fazer uma boa estimativa usando o modelo linear? (Cite o valor da estatística usada para dar a resposta) Podemos detectar a partir dos dados citados abaixo, que é possível realizar boas estimativas utilizando o modelo linear para esse caso. Temos o valor de r muito próximo de -1 (r = -0,9213), o que indica que não só existe uma correlação forte entre as variáveis, como ela é uma correlação negativa, à medida que a idade aumenta, a massa muscular das mulheres de fato diminui. Além do mais, o valor de r² também é bem alto (0,8489). Para exemplificar a boa correlação afirmada, está localizado abaixo um diagrama de Pearson expressando a relação existente entre os dados FREI Note Opa!!!!! Correlação é para variáveis quantitativas e NÃO PARA QUALITATIVAS. Coeficiente de Correlação Linear = -0,9213 R² = 0,8489 Equação Massa Muscular = 152,5 - 1,086 X Idade b) Qual seria a Massa para a idade de 40 anos e para a idade de 70 anos? Massa muscular para a idade de 40 anos: MM = 152,5 – 1,086 X 40 MM = 152,5 – 43,44 MM = 109,06 Massa muscular para a idade de 70 anos: MM = 152,5 – 1,086 X 70 MM = 152,5 – 76,02 MM = 76,48 A massa muscular para a idade de 40 anos seria 109,06 Kg, enquanto a massa muscular para a idade de 70 anos seria de 76,48 Kg. c) Em qual dessas duas idades o erro da estimativa seria maior? Por que? 5 – Sem se importar com o tamanho da amostra e a exatidão de seu prognóstico, qual seria o valor do coeficiente de correlação de Pearson para diagrama? User Pencil User Pencil Para o diagrama A, o valor do coeficiente de correlação seria cerca de 0,94, o mais próximo possível ao valor 1; para o diagrama B, o valor seria cerca de 0,89, onde está próximo do valor de 1 mas não tanto quanto o diagrama A; para o diagrama C, teríamos um valor de r próximo a -0,90 ou outros valores próximos a -1; para o diagrama D, teríamos um coeficiente de correlação de Pearson próximo ao valor de 0,04 tendo que estar o mais próximo possível do valor 0. 6 - Os pulgões pertencem à ordem Homoptera, família Aphididae. São de grande importância econômica, pois podem ocasionar sérios prejuízos às plantas cultivadas. Um grupo de pesquisadores da área de Biologia desenvolveu uma substância biológica para o controle de duas espécies, o Piolho-da-couve (Brevicoryne brassicae) e o Piolho-da-maçã (Aphis mali). Com o objetivo de testar a substância foi realizado dois experimentos para cada espécie observando a variável X (concentração da substância) e a variável Y (% de pulgões mortos). Os resultados para as duas espécies estão abaixo – saída da análise do programa computacional Instat. a) Qual avaliação você faz da substância para cada uma das espécies utilizando os resultados acima? Através da análise dos valores de r² obtidos, podemos perceber que a substancia apresenta um maior efeito no controle da espécie Piolho-da-couve pois, o valor obtido para a correlação da % de pulgões mortos em função da concentração da substância aplicada, é mais alto para ela do que para a espécie de Piolho-da-maçã, cerca de 0,0907, enquanto para a primeira espécie temos um valor de correlação de quase 0,90 (0,8985), indicando que existe uma forte relação entre a quantidade de pulgões mortos e a quantidade de substância química aplicada. b) Caso fosse solicitado a realizar uma estimativa da percentagem de pulgões mortos para as espécies em análise utilizando uma concentração da substânciaa 10%, como você responderia? Espécie Piolho-da-couve: Equação - % de pulgões mortos = 9,501 + 0,901 X concentração da substância % de pulgões mortos = 9,501 + 0,901 X 10 % de pulgões mortos = 9,501 + 9,01 % de pulgões mortos = 18,511 Espécie Piolho-da-maçã: Equação- % de pulgões mortos = 15,450 + 0,955 X concentração da substância % de pulgões mortos = 15,450 + 0,955 X 10 % de pulgões mortos = 15,450 + 9,55 % de pulgões mortos = 25 Podemos notar que ao aplicar uma concentração de substância de 10% na espécie Piolho- da-couve, temos um valor de 18,5% de pulgões mortos, enquanto para a espécie Piolho- da-maçã, temos sob a mesma concentração de substância, um valor de 25% de pulgões mortos. 7 – Os dados da planilha XY apresentam dados para duas variáveis X e Y. Utilize a melhor representação visual para avaliar a correlação entre essas variáveis e obtenha o coeficiente de correlação. Posteriormente, exclua da análise o último par de dados e repita a análise. Comente. Coeficiente de correlação de Pearson (r): 0,8089 Após excluir o último par de dados da tabela: FREI Note Não é possível construir um modelo com r2 tão baixo. CUIDADO Coeficiente de correlação de Pearson (r): 0,9360 Observamos que no primeiro caso, o 1º diagrama acima, temos um outlier representado pelo ponto localizado próximo ao valor 500 na variável Y e próximo ao valor 160 na variável X. Esse ponto corresponde ao último par de dados localizados na tabela de dados, assim, ao retirar esse ponto fora do padrão temos uma melhora na correlação das variáveis X e Y. Isso pode ser confirmado não só pela melhoria da representação do diagrama, como também através da análise do valor de r, onde temos no primeiro caso um valor de 0,8089 e ao retirar o outlier esse valor sobe para 0,9360, melhorando significativamente o valor da correlação entre as variáveis. 8 – Utilize os dados da planilha WZ. a) Existe relação entre as variáveis W e Z? Correlação entre as variáveis W e Z Existe alguma relação entre as variáveis W e Z, porém ela não é uma correlação linear. b) Se existe, ela é uma relação linear? Não, parece ser algum outro tipo de relação. 9 – Para cada uma das situações a seguir, apresente um valor aproximado de r – baseado na possível relação - e indique qual é a variável dependente (ou resposta) e a variável independente (ou preditora). a) Foi feito um estudo para verificar se o preço de um imóvel em determinado bairro está correlacionado ao número de cômodos do imóvel. Valor de r de aproximadamente 0,89 para mais, valores o mais próximo possível de 1. Variável independente: Número de cômodos Variável dependente: Preço do imóvel b) Um estudo é feito para determinar se o número de anos de ensino reduz a taxa de criminalidade em uma população. Valor de r de aproximadamente -0,94 para menos, valores o mais próximo possível de - 1. Variável independente: número de anos de ensino Variável dependente: Taxa de criminalidade c) As companhias de seguros baseiam os prémios de seguro de vida parcialmente na idade do requerente. Valor de r de aproximadamente 0,80 para mais, valores o mais próximo possível de 1. Variável independente: idade do requerente Variável dependente: prêmios de seguro de vida d) Um estudo é feito para determinar se motoristas idosos estão envolvidos em mais fatalidades de veículos motorizados do que outros motoristas. O número de mortes por 100.000 motoristas é comparado com a idade dos motoristas. Valor de r de aproximadamente 0,051 para menos, valores o mais próximo possível de 0. Variável independente: idade dos motoristas Variável dependente: número de mortes por motoristas FREI Note Isso mesmo! 10 – A busca pela eficiência em automóveis deve ser uma meta das fabricantes. Os dados da planilha Carros apresenta a eficiência de combustível em quilômetros por litro de álcool e o peso em quilos de cada automóvel. Todos os veículos apresentam transmissões manuais e fizeram testes semelhantes e controlados para compor os dados apresentados. Pela experiência da empresa e pelos dados apresentados, deseja-se informar aos consumidores uma estimativa da eficiência de quilômetros por litro de álcool - de um novo modelo que será lançado em breve e deverá pesar 1700 quilos. Apresente essa estimativa e o modelo justificando seu resultado Coeficiente de Correlação Linear = -0,8839 R² = 0,7813 Equação Eficiência = 13,86 - 0,0033 X Quilos Estimativa da eficiência do veículo com um peso de 1700Kg é de: Eficiência = 13,86 - 0,0033 X 1700 Eficiência = 13,86 – 5,61 Eficiência = 8,25 Km / litro de álcool Resposta: temos nessa situação, um caso de correlação negativa segundo o valor de r, igual a -0.8839. Assim, existe uma relação forte, porém inversamente proporcional entre as variáveis sendo que a medida que se tem um aumento no peso do carro há uma diminuição na eficiência do veículo. Segundo a correlação explicada acima e ainda segundo a equação gerada, pudemos estimar que um veículo com um peso de 1700 kg, teria uma eficiência de 8,25 Km/litro de álcool. O modelo de correlação, pode ser visto no diagrama abaixo:
Compartilhar