Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tema 3: Regressão Linear Simples Segundo Montgomery (2011) “a coleção de ferramentas estatísticas que são usadas para modelar e explorar relações entre variáveis que estão relacionadas de maneira não determinística é chamada de análise de regressão”. Segundo Guimarães (2015), o objetivo geral desta técnica é estabelecer uma equação que relacione adequadamente o comportamento de uma variável resposta e uma ou mais variáveis explicativas, possibilitando realizar a estimativa de valores da variável de resposta. Essa equação pode ser linear ou não linear, como você pode ver nos gráficos da página seguinte: Figura 1 – Formas lineares e não lineares de relação entre pares de variáveis. Fonte: Guimarães, 2015. Neste tema, apresentaremos a situação em que há somente uma variável independente ou preditora X e a relação com a resposta Y é considerada linear. Se uma relação linear é válida para explicar a dependência de comportamento entre duas variáveis quantitativas, então a equação que descreve esta relação é dada por: Essa função linear entre X e Y é determinística, ou seja, ela afirma que a partir do modelo adotado, todos os pontos são descritos exatamente pela reta de regressão. Porém, em geral, isso não é observado, ou seja, os pontos amostrais não são descritos exatamente pela reta de regressão. Deste modo, existe um desvio entre o valor observado nas amostras e o valor obtido pela função linear. Y a bX ˆ Esse desvio ou diferença, denominada erro e aqui denotado pelo símbolo , é uma variável aleatória que mede o erro do modelo em ajustar-se aos dados corretamente. São várias as fontes de erro que podem provocar esse comportamento. Entre outros, pode-se citar a não consideração de variáveis que influenciam o modelo e os erros de medição experimental. Adicionando a parcela do erro à equação, temos: Y a bX Esse é denominado “modelo de regressão linear simples”. Neste caso, a e b são os parâmetros do modelo. Exemplo 4 (Guimarães, 2015): Certa peça é manufaturada por uma companhia, uma vez por mês, em lotes, que variam de tamanho de acordo com as flutuações na demanda. A Tabela 4 contém dados sobre o tamanho do lote e o número de horas gastas na produção de 10 lotes recentes produzidos sob condições similares. Esses dados são apresentados graficamente na Figura 5, tomando-se horas- homem como variável dependente ou variável resposta (Y) e o tamanho do lote como variável independente ou preditora (X). Tabela 4 – Tamanho do lote e número de horas gastas na produção de cada lote. Figura 2 – Diagrama de dispersão entre a idade (X) e o tempo de reação (Y). Fonte: Guimarães, 2015. Através da Figura 5, pode-se perceber que há uma relação linear positiva entre o tamanho do lote e o número de horas, sendo que maiores lotes, em geral, estão sujeitos a maiores números de horas/homem utilizadas. Porém, a relação não é perfeita, ou seja, há uma dispersão de pontos levando a acreditar que a variação no número de horas não é dependente do tamanho do lote ou pode estar associada a alguma variável não considerada (GUIMARÃES, 2015). Sendo assim, temos agora como principal objetivo obter os coeficientes a e b dessa reta de regressão de modo que se ajuste ao conjunto de pontos da melhor maneira possível, isto é: estimar a e b de algum modo eficiente, que ocasione o menor erro possível. Há vários métodos para encontrar as estimativas desses parâmetros, sendo o mais utilizado o Método dos Mínimos Quadrados (MMQ). Como, a partir da reta de regressão modelada, é possível realizar previsões, é razoável exigir que ela seja tal que torne pequenos os erros dessa previsão. Um erro de previsão significa a diferença entre o valor observado de Y e o valor correspondente de Yˆ na reta. Note que, se considerarmos a diferença entre os valores observados Y e os valores respostas obtidos pela reta da regressão Yˆ , os pontos localizados acima da reta geram erros positivos. Por outro lado, os localizados abaixo da reta geram erros negativos. Como a soma dos erros é zero, isto é: n i i i Y Y 1 ˆ 0 , o método dos mínimos quadrados emprega a soma do quadrado dos erros. Assim, segundo Martins (2010), a distância quadrática entre os valores observados e os valores da reta de regressão deve ser minimizada, ou seja: n i i i Y Y 2 1 ˆ . Como Y a bX ˆ , vamos minimizar para obter os parâmetros a e b: n i i i Y a bX 2 1 Aplicando o referido método, obtemos duas equações, denominadas equações normais: n n i i i i n n n i i i i i i i I Y na b X II X Y a X b X 1 1 2 1 1 1 Resolvendo o sistema para a e b, temos (MARTINS, 2010): xy xx S b e a y bx S Onde n n i i i i xy xx X x Y x xx y S xy S x n n x y x y n n 1 1 2 2 Vamos a um exemplo prático para poder ilustrar a aplicação do método dos mínimos quadrados para determinação de uma regressão linear. Exemplo 5 (Portal Action, 2014): Em problemas de tratamento térmico, deseja-se estabelecer uma relação entre a temperatura da estufa e uma característica da qualidade (dureza, por exemplo) de uma peça. Desta forma, pretende-se determinar os valores de temperatura em ºC que otimizam a performance do processo de tratamento térmico em relação à estrutura metalográfica do material, avaliada em relação a dureza em HB. Considere que, em um experimento, a dureza de pistões foi medida em diferentes níveis de temperatura escolhidos conforme interesse (T1 = 220 ºC, T2 = 225 ºC, T3 = 230 ºC, T4 = 235 ºC). Para cada ponto de temperatura, foram submetidos ao tratamento térmico 5 pistões. Os dados observados são apresentados na Tabela 5 e o objetivo é estabelecer uma relação entre a variável de entrada (temperatura) e a variável de saída (dureza). Tabela 5 – Dados de dureza de um conjunto de pistões em diferentes níveis de temperatura. Figura 3 – Temperatura da estufa X dureza dos pistões. Fonte: Portal Action (2014). Solução: Para determinar como a temperatura da estufa (variável preditora X) está relacionada com a dureza dos pistões (variável resposta Yˆ ), é necessário utilizarmos o método dos mínimos quadrados para a determinação dos parâmetros da reta de regressão. Nesse caso, as médias amostrais das variáveis temperatura (X) e dureza ( Yˆ ) são, respectivamente: i i i i x x x n y y y n 20 1 20 1 1 1 220 220 ... 235 227,5 20 20 1 1 137 137 ... 122 129,4 20 20 Na Tabela 6, apresentam-se os valores de x², y² e xy para cada observação i. Confira na próxima página! Tabela 6 – Dados de dureza de um conjunto de pistões em diferentes níveis de temperatura e parâmetros para a estimação da reta regressora. Tabela 6 – Dados de dureza de um conjunto de pistões em diferentes níveis de temperatura e parâmetros para a estimação da reta regressora – continuação. Assim, encontramos as somas dos quadrados: xy xx x y S xy n x S x n 2 2 2 4550 . 2588 588125 645 20 4550 1035750 625. 20Logo, as estimativas dos parâmetros a e b são, respectivamente: xy xx S b S a y bx 645 1,032 625 129,4 1,032 227,5 364,18. Portanto, o modelo ajustado é dado por Dureza = a + b x Temperatura / Dureza = 364,18 – 1,032 x Temperatura. Para valores das estimativas, temos que o aumento da temperatura, gera um decréscimo de 1,032 na dureza. Para ter mais informações, clique no botão a seguir e leia o livro Estatística Aplicada e Probabilidade para Engenheiros, dos autores Montgomery e Runger. O capítulo 11 trata especificamente dos conteúdos trabalhados nesse tema, não deixe de conferir! http://www.ebah.com.br/content/ABAAAguykAG/estatistica-aplicada-probabilidade-engenheiros- douglas-c-montgomery-4-ed Clique no botão a seguir e assista a um vídeo que traz uma explicação aprofundada sobre a regressão linear simples: https://www.youtube.com/watch?v=4jtMxQHrO64
Compartilhar