Prévia do material em texto
Métodos Quantitativos Estatística Inferencial (Parte 2) Profa. Dra. Daiany Cristiny Ramos • Unidade de Ensino: 04 • Competência da Unidade: Conhecer os conceitos matemáticos básicos e proporcionar o desenvolvimento do raciocínio lógico e quantitativo. • Resumo: Nessa unidade você estudará sobre correlação entre variáveis quantitativas, regressão linear, coeficiente de determinação • Palavras-chave: regressão linear, coeficiente de determinação, correlação, intervalo de precisão, resíduos. • Título da Teleaula: Estatística Inferencial (Parte 2) • Teleaula nº: 04 Como podemos utilizar a estatística inferencial para analisar fenômenos? Canva.com Correlação Correlação Existem situações nas quais há interesse em estudar o comportamento conjunto de uma ou mais variáveis. Em muitos casos, a explicação de um fenômeno de interesse pode estar associado a outros fatores (variáveis) que contribuem de algum modo para a ocorrência deste fenômeno. Correlação Correlação: diz-se que duas variáveis estão correlacionadas quando existe uma relação de dependência entre elas. Correlação linear: duas variáveis estão correlacionadas linearmente quando a relação entre elas pode ser representada geometricamente por meio de uma reta. https://bit.ly/3g11SqY Coeficiente de correlação O coeficiente de correlação é dado por: Em que Coeficiente de correlação as variáveis estão correlacionadas positivamente; , as variáveis estão correlacionadas negativamente; , as variáveis não estão correlacionadas; , temos uma correlação positiva perfeita; , temos uma correlação negativa perfeita. Teste de significância Teste de Significância O teste de hipóteses utilizado para testar a força de uma correlação por meio do coeficiente é denominado teste de significância. As hipóteses nula e alternativa utilizadas serão: Teste de Significância Um teste pode ser usado se a correlação entre duas variáveis for significante. A estatística de teste é e a estatística de teste padronizada: 𝒄 𝒓 𝟐 segue uma distribuição com graus de liberdade Exemplo Seja a correlação entre duas variáveis. Com 95% de confiança, o valor indica que a correlação é significante? Considere uma amostra de 24 dados. Solução Passo 1 Exemplo Passo 2: Nível de significância de e grau de liberdade Passo 3 está dentro de RC, logo rejeitamos −2,074 2,074 Regressão Linear Regressão linear Podemos relacionar duas variáveis por meio de um modelo matemático, isto é, por uma equação que associa a variável dependente com as variáveis independentes. Esse modelo é designado por modelo de regressão linear simples, em que define-se uma relação linear entre a variável dependente e uma variável independente. Regressão linear Depois de determinar se há correlação entre as variáveis, o próximo passo é determinar a equação da reta que melhor descreve a situação. A equação da reta de uma regressão para uma variável independente e uma variável dependente é: onde, é o valor previsto para um dado valor . Regressão linear O objetivo da regressão linear é fazer a análise estatística, verificando a relação funcional de uma variável dependente com uma ou mais variáveis independentes. A regressão propõe uma função que tenta explicar a variação da variável dependente pelas variáveis independentes. Ajuste de curvas pelo método dos mínimos quadrados Coeficiente linear e angular da reta Regressão Linear Considere as informações que seguem em relação a idade e massa muscular de 18 pessoas. Cliente s Idade (x) Massa muscular (y) 1 43 100 2 45 116 3 45 97 4 49 105 5 53 100 6 56 87 7 56 80 8 58 76 9 64 91 10 65 84 11 67 68 12 68 78 13 68 78 14 71 82 15 73 73 16 73 73 17 76 65 18 78 77 Total 1108 1530 Qual a reta de regressão linear que relaciona essas duas variáveis ? Ajustar uma reta de regressão para a relação entre as variáveis : massa muscular (dependente) : idade (independente). Clientes Idade (x) Massa muscular (y) 𝒙𝒚 ⋅ 𝒚𝒊 𝑥 𝟐 𝒚𝒊 𝟐 1 43 100 4300 1849 10000 2 45 116 5220 2025 13456 3 45 97 4365 2025 9409 4 49 105 5145 2401 11025 5 53 100 5300 2809 10000 6 56 87 4872 3136 7569 7 56 80 4480 3136 6400 8 58 76 4408 3364 5776 9 64 91 5824 4096 8281 10 65 84 5460 4225 7056 11 67 68 4556 4489 4624 12 68 78 5304 4624 6084 13 68 78 5304 4624 6084 14 71 82 5822 5041 6724 15 73 73 5329 5329 5329 16 73 73 5329 5329 5329 17 76 65 4940 5776 4225 18 78 77 6006 6084 5929 Total 1108 1530 91964 70362 133300 Para a obtenção da equação da reta de regressão devemos encontrar o valor do coeficiente angular “a”: Clientes Idade (x) Massamuscular (y) 𝒙𝒚 ⋅ 𝒚𝒊 𝒙𝒊 𝟐 𝒚𝒊 𝟐 Total 1108 1530 91964 70362 133300 Para a obtenção da equação da reta de regressão devemos encontrar o valor do coeficiente linear “b”: Clientes Idade (x) Massa muscular (y) 𝒙𝒚 ⋅ 𝒚𝒊 𝒙𝒊 𝟐 𝒚𝒊 𝟐 Total 1108 1530 91964 70362 133300 Substituindo os valores dos coeficientes encontrados teremos: 147,73 1,03 Estimando a massa muscular Como estimar a massa muscular de mulheres com 50 anos, tendo a função Para estimar a massa muscular de mulheres com 50 anos, tendo a função basta substituir a idade de 50 anos na função encontrada: Resíduos Resíduos Ao realizarmos uma regressão linear e obtermos os valores e , tais que a reta é aquela que melhor se ajusta ao conjunto de pontos correspondentes aos valores amostrados para as variáveis e , sempre estamos sujeitos a erros. Tais erros são denominados resíduos Resíduos Ajuste de curvas pelo método dos mínimos quadrados erro ou também conhecido como desvio não explicado Resíduos Tipos de desvio: O desvio não explicado se refere à diferença que pode ocorrer entre o valor previsto por regressão e o valor amostrado. Utilizamos essa terminologia porque a regressão por si só não explica a diferença ocorrida, de modo que a atribuímos à especificidade de cada ponto amostral e ao acaso. Resíduos O desvio explicado é aquele devido à regressão e totalmente compreendido por meio dela. O desvio total é a soma do desvio explicado com o não explicado, ou seja: Desvio total = desvio explicado + desvio não explicado Coeficiente de determinação Coeficiente de Determinação Indica a proporção de variação da variável independente que é explicada pela variável dependente, ou seja, é uma ferramenta que avalia a qualidade do ajuste. Quanto mais próximo da unidade o estiver, melhor é a qualidade do ajuste. O seu valor fornece a proporção da variável explicada pela variável através da função ajustada. Coeficiente de Determinação É dado por: variação explicada variação total É o valor que informa se a reta de regressão está bem ajustada aos dados. Coeficiente de Determinação Se , isto significa que todos os pontos observados se situam “exatamente” sobre a reta de regressão ajuste perfeito. As variações da variável são 100% explicadas pelas variações da variável , não ocorrendo desvios em torno da função estimada. Por outro lado, se , isto quer dizer que as variações de são exclusivamente aleatórias e explicadas pelas variações de outros fatores que não . Exemplo Duas variáveis e estão negativamente correlacionadas de modo que . Quanto da variação de pode ser explicado por sua correlação e variação de ? Solução Logo, 81% da variação de se deve à variação de Intervalos de precisão Intervalos de precisão Sempre que é realizada uma estimativa pontual, como é o caso da previsão para feita por meio da reta de regressão em que , é natural pensarmos em construir um intervalo de confiança para a estimativa. Alguns autores também o denominam intervalo de previsão. Intervalos de precisão Dada uma equação de regressão linear , para um valor específico , intervalo de confiança para é ou, ainda, em que E é a margem de erro. Exemplo Dada a regressão linear , suponhaque, ao nível de confiança de 95%, a margem de erro de previsão para seja . Determine o intervalo de confiança para o valor correspondente a Exemplo Solução: A estimativa pontual para a variável , correspondente ao valor é calculada substituindo esse valor em Logo, Intervalos de precisão Dada uma equação de regressão linear a margem de erro para uma estimativa calculada a partir de um valor é dada por: 𝜸 𝒆 𝟎 𝟐 𝟐 𝟐 em que é obtido a partir da tabela , com graus de liberdade Intervalos de precisão E denominado erro padrão de estimativa e calculado pela formula: 𝒆 𝒊 𝟐 𝒊 𝒊 𝒊 Determinando o intervalo de precisão Considere a regressão linear obtidos a partir dos seguinte dados. Determine um intervalo de previsão com 95% de confiança para dado 1 5 11,5 2 10 22 3 15 25,5 4 20 34 5 25 40,5 Solução: Primeiramente realizamos uma estimativa pontual por meio da regressão linear O intervalo de precisão será dado por: Para encontrar o precisamos determinar e 𝒊 𝟐 𝒊 𝟐 𝒊 𝒊 1 5 11,5 132,25 25 57,5 2 10 22 484 100 220 3 15 25,5 650,25 225 382,5 4 20 34 1156 400 680 5 25 40,5 1640,25 625 1012,5 7 5 4062,75 1375 Para encontrar o precisamos determinar e Além disso, consultando a tabela T para graus de liberdade e de significância temos que Logo, intervalo de precisão será dado por: Interpretando o coeficiente de determinação Se o coeficiente de correlação é , então o coeficiente de determinação será: Qual interpretação podemos fazer a partir desse resultado? Recapitulando Regressão LinearCorrelação Teste de significância Resíduos Coeficiente de determinação Intervalo de precisão Canva.com