Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA E PROBABILIDADE - ANALÍSE DE REGRESSÃO Coronel Fabriciano Centro Universitário do Leste de Minas Gerais Projeto Integrador – 1º período: Escola Politécnica 4º semestre - 2017 Centro Universitário do Leste de Minas Gerais Estatística e Probabilidade- Analíse de Regressão– 4º período: Escola Politécnica INTRODUÇÃO Uma das preocupações estatísticas ao analisar dados, é a de criar modelos que explicitem estruturas do fenômeno em observação. O modelo de regressão é um dos métodos estatísticos mais usados para investigar a relação entre variáveis. Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis. TIPOS DE MODELO DE REGRESSÃO A presença de ou ausência de relação linear (quando analisamos duas variáveis num gráfico de dispersão e verificamos que os pontos ou nuvem de dispersão estão formam uma reta linear) pode ser investigada sob dois pontos de vista: Quantificando a força dessa relação: correlação. Explicitando a forma dessa relação: regressão COEFICIENTE DE CORRELAÇÃO DE PEARSON A correlação é calculada independente da unidade de medida das variáveis. A técnica usada para calcular este coeficiente, supõe que a associação entre as variáveis seja linear, ou seja, expressa por uma reta ou linha. Se a relação apresentada no diagrama de dispersão não for do tipo linear, o coeficiente de correlação de Pearson não deve ser calculado. Por exemplo, você poderia usar uma correlação de Pearson para avaliar se aumentos na temperatura da instalação de produção estão associados a uma redução da espessura da cobertura de chocolate. O coeficiente de correlação pode variar entre –1 (correlação negativa perfeita) e +1 (correlação positiva perfeita). Valores negativos do coeficiente de correlação indicam uma correlação do tipo inversa, isto é, quando x aumenta y diminui. Valores positivos do coeficiente de correlação ocorrem quando x e y variam no mesmo sentido, isto é, quando x aumenta y aumenta ou quando x diminui y também diminui. Exemplo 1: Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual (Y) com o sexo (W), idade (X) e acuidade visual (Z, medida em porcentagem). X : idade Y : tempo de reação Pelo gráfico: média de Y aumenta conforme as pessoas envelhecem ⇓ Modelo de regressão DIAGRAMAS DE DISPERSÃO MODELO DE REGRESSÃO LINEAR SIMPLES Yi = β 0 + β 1 xi +ei , i=1,...,n Sendo: yi: valor da variável dependente (resposta) para o i-ésimo elemento da amostra; xi: valor (conhecido) da variável independente ou preditora para o i-ésimo elemento da amostra; β 0 e β1 são parâmetros desconhecidos; ei: erro amostral. Suposição: os erros amostrais são independentes com distribuição N(0, σi=1,2,...,n. ERRO AMOSTRAL O erro amostral é uma variável aleatória não observável, e é estimado pelos resíduos, isto é, a diferença entre o valor observado Y, e o estimado pela reta, isto é: ESTIMAÇÃO DOS PARÂMETROS Método de mínimos quadrados: Objetivo: minimizar a soma dos quadrados dos erros Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar os conceitos de cálculo diferencial com derivadas parciais. Portanto, os estimadores dos parâmetros são: Interpretação dos parâmetros Intercepto β0 - valor esperado para a variável dependente yi quando xi é igual a zero Coeficiente angular β1 - variação esperada na variável resposta, quando a variável independente aumenta uma unidade. Exemplo 1: Um psicólogo está investigando a relação entre o tempo que o indivíduo leva para reagir a certo estimulo (em segundos) e algumas de suas características tais como sexo, idade (em anos completos) e acuidade visual (medida em porcentagem). Os resultados de 20 indivíduos estão mostrados na tabela abaixo (Adaptado de Bussab, 1986). 1.Tempo de reação ⇒ variável dependente ou resposta Idade ⇒ variável independente ⇓ Modelo de regressão linear simples 2. Tempo de reação ⇒ variável dependente ou resposta Sexo, idade, acuidade visual ⇒ var. independentes ⇓ Modelo de regressão linear múltipla Primeiramente, vamos considerar um modelo de regressão linear simples, sendo X : idade e Y : tempo de reação Estimação dos parâmetros: Interpretação: Para um aumento de 1 ano na idade, o tempo médio de reação aumenta 0,90. Dada à reta ajustada, podemos prever, por exemplo, o tempo médio de reação para pessoas de 20 anos. Vantagem: permite estimar o tempo médio de reação para idades não observadas NOTA: A estimativa pode ser melhorada com a construção de intervalos de confiança ANÁLISE DE VARIÂNCIA PARA O MLRS No desenvolvimento de um teste ANOVA, considere a definição de três tipos de resíduos, ou fontes de variação, expressos pelas seguintes Somas dos Quadrados (SQ): TOTAL cuja soma dos quadrados é dada por: RESÍDUOS com a soma dos quadrados expressa através de: MODELO, resultante das distâncias entre os valores do modelo e a média: A tabela ANOVA para o MRLS é definida de acordo com o que se apresenta em seguida. REGRESSÃO LINEAR MÚLTIPLA A análise de uma regressão múltipla segue, basicamente, os mesmos critérios da análise de uma regressão simples. Vamos supor que temos X1, X2,..., Xp-1 variáveis preditoras. Definamos modelo de regressão múltiplo, em termos das variáveis preditoras: Sendo: β 0, β1,..., βp-1, parâmetros desconhecidos; εi , erro amostral. Suposição: os erros amostrais são independentes com distribuição N(0, σ 2), i=1,2,...,n Exemplo 2: Considere novamente o exemplo 1. Vamos agora, trabalhar com as seguintes variáveis: X1: idade X2: sexo X3: acuidade Y: tempo Assim, o modelo de regressão linear múltiplo será dado por Observe que, agora dispomos de variáveis quantitativas e qualitativas no modelo. Uma ferramenta útil no processo de escolha preliminar das possíveis variáveis explicativas que deverão entrar no modelo é a matriz de correlação entre as variáveis quantitativas. Para nosso exemplo, temos a seguinte matriz de correlação: Ajustando o modelo de regressão com estas variáveis, temos: AVALIAÇÃO DO MODELO Algumas avaliações devem ser realizadas para se ter alguma ideia da eficácia e adequação do modelo. Dentre as técnicas utilizadas para avaliar a eficácia do modelo, o coeficiente de correlação seria uma primeira possibilidade. Outra medida de adequação é o coeficiente de determinação do modelo. A determinação do “melhor” modelo, ou do modelo que melhor se ajusta aos dados, está relacionada com a estimativa dos parâmetros que tornem os resíduos tão próximos de zero quanto possível. Deve-se então, testar a significância estatística dos parâmetros do modelo. Avaliando a significância do parâmetro: Hipóteses: Estatística de teste: Critério do teste: Se |tcal| ≤ t(1- α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a mesma. Nota: Quando não dispomos da tabela t-student, podemos utilizar o p-valor, fornecido por vários programas estatísticos. Se p-valor menor que o nível de significância, rejeitamos H 0 . Considere o modelo de regressão múltipla ajustado anteriormente: Para determinarmos quais parâmetros é estatisticamente significante, basta observar o p-valor fornecido na tabela ANOVA. Apenas a variável sexo não é estatisticamentesignificante, considerando um nível de significância de 5%. COEFICIENTE DE DETERMINAÇÃO Ao se analisar a reta de regressão observamos que os pontos (xi, yi) estão distribuídos acima e abaixo da mesma. O coeficiente de determinação deve ser interpretado como a proporção de variação total da variável dependente que é explicada pela variação da variável independente X e no caso univariado, é igual ao quadrado do coeficiente de correlação. Observe que o coeficiente de determinação é sempre positivo, enquanto que o coeficiente de correlação pode admitir valores negativos e positivos. No exemplo 1, temos No exemplo 2, temos:
Compartilhar