Baixe o app para aproveitar ainda mais
Prévia do material em texto
15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 1/12 Introdução Neste material, introduziremos um método para a determinação da existência ou não de uma correlação, ou associação, entre duas variáveis para o caso dessa correlação ser linear. Quando se trabalha com duas ou mais variáveis, elas poderão estar ou não relacionadas. Se essas variáveis estiverem relacionadas, iremos estabelecer uma equação matemática que estabeleça o grau dessa dependência. Para tal, identificaremos uma função polinomial do primeiro grau que melhor se ajusta aos dados e, a partir disso, poderemos empregar esta equação para predizer o valor de uma variável, dado o valor da outra. Esperamos que você aproveite o material e que ela sirva para entreter, abrir novos horizontes e, principalmente, sirva de estímulo para a continuação de seus estudos em Estatística. Objetivos de Aprendizagem Estudar a correlação e regressão linear. Vamos lá? Quando vamos desenvolver um trabalho científico, é bem comum investigar a existência de relação entre as variáveis envolvidas para saber com precisão o quanto alterações nos resultados de uma variável podem estar associadas à transformação nos resultados de outras variáveis. Por exemplo, espera-se que a velocidade do vento em um parque eólico possa estar associada à geração de corrente, assim como o peso e a altura de indivíduos, o tempo de estudo e a nota na prova de estudantes, o rendimento de um motor e o tempo de sua última regulagem, o desempenho de um indivíduo na universidade e seu desempenho no ensino médio etc. Quando temos duas variáveis a serem analisadas, “X” e “Y”, temos uma correlação linear simples. Quando temos múltiplas variáveis a serem analisadas, temos uma correlação linear múltipla. Correlação e Regressão Ricardo Cardoso de Oliveira Autor Renata Cristina de Souza Chatalov Autor Correlação e Regressão Linear 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 2/12 Na correlação linear simples, analisamos a possibilidade de uma associação entre as variáveis x e y, e analisamos a intensidade (fraca ou forte). Na regressão linear simples, o relacionamento é descrito por meio de uma expressão matemática. A Figura 1 ilustra algumas correlações. Vejamos: FIGURA 1 - Tipos de correlação Fonte: Adaptada de Crespo (2009) Em uma correlação linear simples, a variável x é independente e a variável y é dependente de x. É por meio dessa correlação que verificamos a “força” da relação entre x e y. É interessante, antes de qualquer análise de regressão linear, criar o diagrama de dispersão. Nesse gráfico, já conseguimos ter uma ideia se há relação entre x e y, a qual pode ser observada na Figura 1. Para entendermos melhor, vamos fazer um exemplo: o administrador da rede de Lojas Canção tem como objetivo verificar se existe uma relação entre os gastos com propaganda das lojas no horário nobre da TV aberta e as vendas dessas lojas. Para tanto, ele irá verificar se existe essa relação, por meio da correlação linear. Os dados estão apresentados na tabela a seguir: Filial Gasto com propaganda (R$ 1.000,00) (X) Vendas da loja (R$ 1.000,00) (Y) 1 540 5,80 2 294 2,60 3 440 4,00 4 624 6,80 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 3/12 5 252 2,00 6 295 2,70 7 372 4,00 8 473 4,90 Tabela 1 - Gastos com propagandas e vendas da loja. Fonte: Elaborada pelos autores. Representando, em um sistema de coordenadas cartesianas ortogonais, os pares ordenados (Xi, Yi), obtemos o diagrama de dispersão, o qual nos mostra a existência de correlação entre as variáveis estudadas. FIGURA 2 - Diagrama de dispersão Fonte: Elaborada pelos autores Depreende-se da Figura 2 que existe correlação positiva entre as variáveis “gastos” com propaganda e “vendas”, ou seja, o aumento com gastos com propaganda ocasiona aumento nas vendas das lojas. Podemos determinar a intensidade com que esses dados estão correlacionados, calculando o coeficiente de correlação de Pearson que é dado por: r=nΣ (xi.yi) − (Σ xi) . (Σ yi) [nΣx12− (Σxi)2].[[nΣy12−(Σyi)2]] Em que n é o número de observações. Os valores de r estão no intervalo. Assim: 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 4/12 Vamos calcular r para o caso do Quadro 1. Vejamos a seguir: (X) (Y) (X.Y) (X2) (Y2) 1 540 5,80 3.132,00 291.600 33,64 2 294 2,60 764,40 86.436 6,76 3 440 4,00 1.760,00 193.600 16,00 4 624 6,80 4243,20 389.376 46,24 5 252 2,00 504,00 63.504 4,00 6 295 2,70 796,50 87.025 7,29 7 372 4,00 1.488,00 138.384 16,00 8 473 4,90 2.317,70 223.729 24,01 Total Σ xi=3.290.00 Σ Yi=32,80 ΣxiYi=15.005,80 Σx2i=1.473.654 ΣY2i=153,94 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 5/12 Quadro 1 - Cálculo da correlação linear. Fonte: Elaborado pelos autores. Daí, r=8×15.005,80 − (3.290×32,80)[8×1.473.654 − (3.290)2]. [8× 153,94−(32,80)2] Com o valor de r calculado, pode-se afirmar que, de fato, há forte correlação positiva entre as variáveis “gastos” e “vendas”. Agora, é interesse determinar uma equação em que a e b são números reais. Assim, supondo X que é a variável independente e Y que é a variável dependente, vamos determinar o ajustamento de uma equação de reta, que é a relação entre esses dados. Os valores de a e de b são dados por: a=nΣ(xiyi)−(Σxi)(Σyi)nΣx12−(Σxi)2 b=Σyin−aΣxin Vamos calcular a e b para os dados do Quadro 1. Assim: a=8×15.005,80−3.290×32,808×1.473.654−(3.290)2≃0,013 e b=32,808−0,013×3.2908≃−1,25 Assim, temos a reta de regressão para o exemplo estudado como: Y = 0,013x - 1,25. Para que se possa traçar uma reta entre os eixos x e y, é preciso atribuir no mínimo dois valores para x, substituindo na equação, e depois cruzar esses dois pontos, para que seja formada uma reta. Atenção Regressão Linear Observe como a regressão linear está presente em análises que fazemos no nosso cotidiano. 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 6/12 Mas qual o significado dessa equação? Com relação às oito filiais estudadas, podemos predizer as vendas de uma filial (Y) a partir de um dado gasto com propaganda (X), fazendo uso da equação . Por exemplo, para um gasto com propaganda de X = R$ 2000, temos uma estimativa para as vendas de Y (em R$ 1000). Observe que quando não se gasta com propaganda (X=0), prevemos uma queda nas vendas de US$1,25 (US$1000). Vimos que, se verificarmos a existência da correlação entre duas variáveis, X e Y, podemos determinar uma equação linear, que expressa Y em função de X e que essa equação nos permite o cálculo de Y, conhecido o X. Temos que ter em mente que um valor previsto para Y não será necessariamente um resultado exato, pois além do valor da variável X, existem outras variáveis que não foram incluídas no estudo, e essas podem afetar o resultado final. O coeficiente de determinação (r2) é o quadrado do coeficiente de correlação, ou seja, [Coeficiente de determinação = (coeficiente de correlação)2] é uma medida descritiva da proporção da variação de Y que pode ser explicada por X, segundo o modelo especificado. No exemplo em que estudamos a relação linear dinheiro gasto em propaganda e as vendasdas lojas Canção, obtemos um coeficiente de correlação de r = 0,9899. Então, r2 = 0,9799 ou 97,99% e a interpretação desse coeficiente de determinação é que dentre as filiais estudadas, 97,99% da variação nas vendas dessas filiais são explicadas pela variação nos gastos com propaganda. Os 2,01% (1 - 0,9799 ou 100-97,99) restantes são inexplicáveis e se devem ao acaso ou a outras variáveis. Começamos nossos estudos com uma variável de interesse e estudamos na Unidade I as medidas de tendência central, de dispersão, de assimetria e curtose. Nesta unidade, estudamos a correlação linear e a regressão linear simples, para verificar a existência de uma relação entre as variáveis x e y. Fonte: Elaborado pelos autores. Atenção Pessoas inteligentes comem muito chocolate Existem diversos estudos tentando encontrar ao menos uma correlação entre algumas variáveis. Comem chocolate, ficam inteligentes e ganham prêmios. Parece bobagem, mas existe uma relação entre o consumo de chocolate e os países onde vivem os vencedores do Prêmio Nobel. 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 7/12 Agora que você concluiu a leitura deste estudo, veja, nos vídeos a seguir, temas que complementarão seus estudos: Videoaula Videoaula E quem fez essa comparação realmente não tinha mais nada para fazer. O cardiologista Franz Messerli estava deitado em um quarto de hotel quando parou para pensar sobre um estudo que mostrava como o flavonoide do cacau pode aprimorar nossas habilidades cognitivas. Aí, ele começou a analisar se os países de onde mais saíam vencedores do Prêmio Nobel consumiam muito chocolate. E concluiu: quanto maior o consumo de chocolate per capita (kg/habitantes) de um país, maior o número de gênios premiados com o Nobel, a cada 10 milhões de pessoas. Os suíços, por exemplo, que somam quase 8 milhões de pessoas, já levaram 29 premiações e comem chocolate para caramba – cada habitante come quase 10 quilos do doce por ano. A Suécia e Alemanha também. Seguindo a média encontrada pela pesquisa, para ganhar mais um Nobel, qualquer país precisa aumentar em 400 gramas o consumo anual de chocolate. Bobeira? Total. Até o pesquisador sabe: ninguém vai ganhar um Nobel depois de se entupir de chocolate. Mas se esse pessoal inteligente curtia uma barra de chocolate, por que não seguir o exemplo? Fonte: Castro (2016). 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 8/12 Indicação de Leitura Livro: Estatística - Teoria e Aplicações Autores: David M. Levine, David F. Stephan e Kathryn A. Szabat Editora: LTC Ano: 2016 – 7ª ed. ISBN: 978-85-216-3067-8 Sinopse: Este livro apresenta a utilização da teoria estatística com aplicação do Microso� Excel. É uma obra essencial para aqueles que buscam a pesquisa e a análise, pois mostra ferramentas, conceitos e dados práticos em sua abordagem. Traz inúmeros exercícios, resolvidos por formas algébricas e pelo Excel. Atividade Em uma pesquisa feita com os alunos de uma escola, a direção identificou que os alunos que gostam de Exatas geralmente não gostam de Humanas. Isso pode ser claramente identificado na relação entre as notas dos alunos em ambas as matérias, pois percebe-se que a nota em Português, comparada a nota de Matemática, é sempre menor. O gráfico, a seguir, apresenta a relação entre as notas de uma amostra dos alunos. 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 9/12 Figura - Diagrama de dispersão - Exercício 1.a Fonte: Elaborada pelos autores. Observando o gráfico, podemos concluir que: A. a correlação entre as notas é forte positiva. B. a correlação entre as notas é perfeita positiva. C. a correlação entre as notas não existe. D. a correlação entre as notas é fraca positiva. E. a correlação entre as notas é média positiva. Responder Atividade 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&st… 10/12 Em uma análise feita com as médias da disciplina de matemática dos alunos de uma escola privada, a direção percebeu que a cada trimestre do ano as notas reduziam, pois o nível de dificuldade quanto ao conteúdo aumentava a cada trimestre. Sabendo que para cada nível era necessário total conhecimento do nível anterior, a escola estava tentando identificar se havia algum problema com a continuação do conteúdo de um nível para o outro, ou se havia algum problema com o método de ensino. Para melhor analisar, pega- se a amostra das notas de um aluno, como mostra a tabela a seguir. Média 10 8 6 4 Nível 1 2 3 4 Quadro - Amostra das notas dos alunos Fonte: Elaborado pelos autores. Fazendo a análise, conclui-se que ao saber o coeficiente de correlação de Pearson, a média das notas de matemática tem: A. uma relação perfeita negativa com o nível de dificuldade. B. uma relação fraca negativa com o nível de dificuldade. C. uma relação média negativa com o nível de dificuldade. D. uma relação perfeita negativa com o nível de dificuldade. E. uma relação inexistente com o nível de dificuldade. Responder Atividade 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&stu… 11/12 Para identificar o grau de aprendizado dos alunos, uma escola aplica bimestralmente um simulado geral. Sabendo que a maioria dos alunos do período noturno trabalha, a direção fez um levantamento da carga horária de trabalho e a nota do simulado a fim de verificar se existe alguma relação. Analisando as informações de 4 dos alunos, a escola obteve os seguintes dados: Carga Horária 0 8 6 4 Nota 10 5 6 8 Quadro - Relação: Carga horária de trabalho x Nota do simulado Fonte: Elaborado pelos autores. Sabendo dessas informações e que as notas são dadas por números inteiros, o aluno que trabalha 5h provavelmente terá sua nota do simulado igual: A. 6,94. B. 7,00. C. 6,90. D. 6,00. E. nenhuma das alternativas. Responder Síntese 15/05/2022 11:18 Sistema Aurea - Compartilhar conhecimento é inspirar sonhos! https://student.aurea.app/validation/post?lmsKey=31f180bc565453df68fb7e2f9fb3252b&itemId=7bedd515-257c-4b96-9352-b0c9aebd4a31&st… 12/12 Neste nosso estudo, vimos a importância da correlação e regressão linear. Estudamos a força da relação de duas variáveis (x e y) por meio da correlação linear. Vimos que, para estudar a correlação linear, seu principal objetivo é avaliar a existência ou não de relação entres essas variáveis, quantificando a força dessa relação por meio da correlação, ou explicando a forma dessa relação por meio da regressão. As correlações podem ser Positivas, quando o aumento de uma variável corresponde ao aumento da outra; Negativas, quando o aumento de uma variável corresponde à diminuição da outra; Lineares, quando é possível ajustar uma reta, e, neste caso, podem ser fortes (quanto mais próximas da reta) ou fracas (quanto menos próximas da reta); e ainda Não Lineares, quando não é possível ajustar uma reta. Após estabelecida uma relação linear e uma boa correlação entre as variáveis, deve-se, agora, determinar uma fórmula matemática para se fazer predições de uma das variáveis por meio da outra, e a essa técnica damos o nome de Análise de Regressão. Referências Bibliográficas CASTRO, C. Pessoas inteligentes comem muito chocolate. Super Interessante. São Paulo, 21 dez. 2016. Disponível em: <http://super.abril.com.br/blogs/cienciamaluca/pessoas-inteligentes-comem-muito-chocolate/>. Acesso em: 14 fev. 2018. CRESPO, A. A. Estatística Fácil. 19. ed. São Paulo: Saraiva, 2009.
Compartilhar