Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
* * Correlação e Regressão Linear Prof. Silvana Ligia Vincenzi Slides adaptados do material didático de Juan Carlos Lapponi, Paulo Ogliari, Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia. * * * * * * * * * * Diagrama de dispersão No excel: Taxa da alfabetização (%) x renda per capita (R$) Taxa de mortalidade Infantil x Esperança de vida ao nascer Taxa da alfabetização (%) x Taxa de mortalidade Infantil Taxa da alfabetização (%) x distância à capital (Km) * * * * Correlação O coeficiente de correlação de Pearson: Quantificando a força da relação entre duas variáveis. * * * * Matriz das Correlações Interpretar * * * * * * * * Regressão Linear - Modelo Parâmetros ou coeficientes de regressão Regressão Linear Simples Com i = 1,2,...,n Y = é a variável dependente X = é a variável independente ou explicativa * * Modelo de regressão linear simples Em termos das variáveis: Em termos dos dados: Yi = + xi + ei Suposições: Para qualquer valor de xi os termos de erro (e1, e2, ..., en) são variáveis aleatórias independentes; A média dos erros é igual a 0; Variância dos erros é igual a 2 (é constante); e Os erros ei tem distribuição normal (i = 1, 2, ..., n). * * * * Método dos mínimos quadrados para estimar e a e b são os estimadores de e Resultado das derivadas parciais (sistema de equações): Estimativa de : Estimativa de : Reta de regressão construída com os dados: * * * * * * * * * * * * * * Significado dos parâmetros do modelo de regressão linear simples a x x+1 x=1 y a (intercepto) é o valor da média da distribuição de Y em X=0, não tem significado prático como um termo separado (isolado) no modelo; b (inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a mudança de uma unidade em X. y = a + b.x ^ * * Qualidade do ajuste Ajustou-se uma equação de regressão entre X e Y então como verificar: Qualidade do ajuste? Coeficiente de determinação e análise de variância do modelo. análise dos resíduos. * * Coeficiente de determinação e Análise de variância do modelo yi xi ei di Desvio em relação à média aritmética: Desvio em relação à reta de regressão (resíduo da regressão): ri Desvio da equação ajustada em torno da média (regressão): yi ^ Ogliari, P. J. – Técnicas Estatísticas de Predição Somas de quadrados = + * * Medida da qualidade do ajuste: Coeficiente de determinação (R2) R2 = Variação total Variação explicada = = SQR SQT 0 R2 1 Quanto mais alto é o valor de R2, mais o modelo de regressão linear simples consegue explicar a variação de Y. O R2 é freqüentemente conhecido como a proporção da variação de y observada que pode ser explicada pela variável regressora X. * * Coeficiente de determinação Se R2 for pequeno, não existe relação linear entre as variáveis X e Y Se R2 for pequeno, o pesquisador irá desejar encontrar um modelo alternativo (modelo não linear, de regressão múltipla, etc.) * * Teste de significância do modelo - Análise de variância (Inferência estatística para ) Teste F para o coeficiente Hipóteses: H0: = 0 e H1: 0 F = QMR/QME Probabilidade: Através do valor F com gl = 1 no numerador, gl = n – 2 no denominador, determina-se o Valor p. * * Tabela da análise de variância do modelo GL = graus de liberdade; SQ = soma de quadrados; QM = quadrado médio. * * Regra de decisão do teste de hipótese: Teste de significância do modelo * * Exemplo Represente as vendas trimestrais em função do numero de estudantes. Encontre a equação de Regressão. Qual a previsão de vendas para 14 mil estudantes. * * xi yi xi2 xi yi b = b = Exemplo numérico * * a = = Exemplo numérico = b = xi yi xi2 xi yi Ogliari, P. J. – Técnicas Estatísticas de Predição x = = x = = Predições: = x * * Exemplo 1: Determine o coeficiente de determinação para o exemplo das vendas e estudante. Fazer o teste F para verificar se existe efeito da regressão linear para os dados de vendas trimestrais (Y) e população de estudante (X). Use um nível de significância () de 5%. Faça a conclusão Ogliari, P. J. – Técnicas Estatísticas de Predição Interpretação de R2: % da variabilidade observada no xxxx é explicada pela xxxx. É o quanto a variação de Y é explicada pela variável X no modelo. R2= Fazer no excel * * Valor p Prob(F > valor) = p Exemplo: índice de octanagem e % de aditivo Prob(F >) = (excel DistF) Conclusão: como o valor p é xxx do que o nível de significância adotado ( = 0,05), xxxx a hipótese nula (H0). Valor p na distribuição F Excel DistF Ogliari, P. J. – Técnicas Estatísticas de Predição Análise dos resíduos O relacionamento entre y e a variável regressora é linear; Os termos de erro (e1, e2, ..., en) são variáveis aleatórias independentes; Média dos erros é igual a 0; Variância dos erros é igual a 2;(constante) Os erros tem distribuição normal (i = 1, 2, ..., n). Modelo: yi = + xi + ei * * Análise de Resíduos Recomendação Para uma análise mais confiável, sem que as grandezas dos resíduos venham a prejudicá-la recomenda-se padronizar os resíduos: * * Construir dois diagramas de dispersão: - um que relacione os resíduos ou resíduos padronizados) com os próprios valores preditos da variável independente; - outro que relacione os resíduos ou resíduos padronizados com os valores da variável independente (X). Se houver mais de uma variável independente faz-se um diagrama de dispersão para cada uma delas. Com estes dois gráficos pode-se verificar: Se a função de regressão é adequada Se a variância do erro é constante Se existe valor discrepante. * * Modelo de regressão é adequado os resíduos ou resíduos padronizados quando não podem apresentar quaisquer padrões, eles devem distribuir-se de forma aleatória nos dois diagramas, sendo que: a quantidade de resíduos padronizados positivos deve ser aproximadamente igual à quantidade de negativos. a grandeza dos resíduos padronizados positivos deve ser aproximadamente igual a dos negativos, para todos os valores preditos da variável dependente, e para todos os valores da variável independente. não pode haver padrões não aleatórios (tendências crescentes ou decrescentes, curvas, etc.) em nenhum dos diagramas. * * Somente se todas estas condições forem satisfeitas é que podemos considerar o modelo de regressão apropriado. Se houver dois ou mais modelos apropriados escolhemos o mais simples, ou aquele que apresentar o mais alto coeficiente de determinação. Ogliari, P. J. – Técnicas Estatísticas de Predição Análise de Resíduos * * Exemplo: Análise dos resíduos x y e x Gráfico dos dados: (xi, yi) Gráfico dos resíduos: (xi, ei) As suposições do modelo parecem satisfeitas? Sim, os erros estão aleatoriamente distribuídos em torno do valor e = 0. * * Análise dos resíduos Gráfico dos dados: (xi, yi) Gráfico dos resíduos: (xi, ei) As suposições do modelo parecem satisfeitas? Não, modelo não está adequado e a variância está aumentando. O que pode ser feito? Por exemplo: transformação logarítmica em Y. * * Análise dos resíduos Gráfico dos resíduos: (xi, ei) As suposições do modelo parecem satisfeitas? Não, modelo não adequado. O que pode ser feito? Incluir um termo X2; fazer transformações em X e/ou Y, por exemplo, fazer uma transformação logarítmica na variável X ou a transformação 1/X. * * Análise dos resíduos As suposições do modelo parecem satisfeitas? Não, existe um outlier. O que pode ser feito? Pode ser um erro, situação atípica (descartar ou corrigir). Fazer análise sem este(s) valor(es) e verificar se as estimativas dos coeficientes mudam muito. Fazer uma transformação nos dados, mudar o modelo, coletar mais dados. * * Análise dos resíduos Gráfico dos dados: (xi, yi) Gráfico dos resíduos: (xi, ei) As suposições do modelo parecem satisfeitas? Não, variância aumentando. O que pode ser feito? Por exemplo, transformação logarítmica tanto nos valores de X como nos valores de Y. Na prática, geralmente se emprega uma transformação em Y. Ogliari, P. J. – Técnicas Estatísticas de Predição Análise dos resíduos Exemplo: Retornando ao exemplo das vendas trimestrais e estudantes, construir os gráficos: - resíduos ou resíduos padronizados) com os próprios valores preditos da variável independente; - os resíduos ou resíduos padronizados com os valores da variável independente (X). Verifique se as suposições da analise de resíduos são verificadas. * * Exemplo: Regressão Múltipla Uma reação química foi realizada sob seis pares de diferentes condições de pressão e temperatura. Em cada caso, foi medido o tempo necessário para que a reação se completasse. Os resultados obtidos foram os seguintes: Obter a equação da função de regressão linear do tempo (y) em relação à temperatura (x1) e à pressão (x2). * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
Compartilhar