Prévia do material em texto
Formação em Black Belt Six Sigma | RL Associados 1 Regressão Múltipla Regressão Múltipla TREINAMENTO BLACK BELT SIX SIGMA Módulo de estatística aplicada A análise de regressão tem por objetivo desvendar o comportamento entre uma variável dependente e as consideradas independentes. Modelos matemáticos são capazes de explicar essa relação por meio de diferentes equações que fazem uma análise de correlação entre essas variáveis. Formação em Black Belt Six Sigma | RL Associados 2 Regressão Múltipla Fonte: www.endeavororg.br 1. Introdução A Regressão Múltipla é uma ferramenta poderosa na identificação de Causas Raiz. Para ilustrar o uso desta ferramenta, vejamos os exemplos abaixo: 1 – Uma agência de turismo quer verificar se há relação entre a taxa de ocupação dos hotéis no litoral norte do estado de São Paulo e as condições climáticas na cidade de São Paulo. Em uma situação como essa, a Correlação nos permite visualizar as informações e verificar se há relação entre elas. Com a Regressão Múltipla, a agência poderá desenvolver um modelo para prever a taxa de ocupação dos hotéis no litoral baseada na temperatura e precipitação (chuvas) na cidade de São Paulo. Onde aplicar: DMAIC Formação em Black Belt Six Sigma | RL Associados 3 Regressão Múltipla 2 – Um Call Center deseja reduzir o tempo que os clientes ficam aguardando pelo atendimento telefônico. Para tal, precisam identificar as principais causas da demora no atendimento. Uma equipe obterá dados sobre os atendimentos telefônicos, tais como tipo de solicitação, tempo de atendimento e dia da semana para verificar se estes fatores influenciam o tempo de espera. Em caso positivo, a Regressão Múltipla poderá ser usada para prever tempos de espera (e, talvez, a necessidade de realocação de pessoas). 3 – Um Chef quer criar um modelo de gestão que permita prever o faturamento de seu restaurante. Ele quer verificar se a média de preços das entradas, a relação entre atendente e nº de mesas e o número de opções do cardápio podem influenciar no faturamento do restaurante. Ele poderá usar a Regressão Múltipla para investigar estas relações e criar um modelo matemático. No curso de Green Belt você aprendeu a usar a Regressão Linear Simples. Ela permite verificar relações de dependência entre uma entrada (X) e uma saída (Y) do processo. Y = B0 + B1X Na Regressão Múltipla, construiremos um modelo que pode incluir mais variáveis de entrada (X’s). Identificaremos qual (ou quais) das entradas pode nos ajudar a prever o comportamento de nossa Saída (Y). Y = B0 + B1X1 + B2X2 + B3X3 Formação em Black Belt Six Sigma | RL Associados 4 Regressão Múltipla De forma resumida, estamos procurando desenvolver um modelo matemático que nos permita prever, com certa segurança, o comportamento de nosso processo, fazendo interpolações de valores. Mas o que significam estas letras? Y é o resultado, ou a saída do processo, que queremos prever. Xs são as variáveis de entrada do meu processo. Os Bs são as constantes que queremos descobrir usando a Regressão Múltipla. Devemos avaliar criteriosamente nosso processo e selecionar as entradas (Inputs) que podem ser incluídos em nosso modelo. Uma estratificação dos indicadores do processo estudado pode nos ajudar, identificando as métricas utilizadas para monitorar o processo. Considere as métricas para as quais você responde “Sim”, ao questionar se elas influenciam ou não no resultado (Y) de nosso processo. “Avalie se estas métricas identificadas podem lhe ajudar a prever o comportamento do Y.” Formação em Black Belt Six Sigma | RL Associados 5 Regressão Múltipla Veja abaixo um esquema que pode lhe ajudar no momento de identificar as entradas e saídas de seu processo. Uma vez determinadas as medições que iremos considerar, podemos testar as correlações. Podemos fazer isso graficamente, com um gráfico de Dispersão, assim como de forma estatística. Após realizar uma pesquisa de satisfação, o proprietário descobriu que os clientes estão insatisfeitos com o tempo de entrega. Para tempos de entrega superiores a 30 minutos, o tempo informado pela pizzaria nunca é cumprido, causando o descontentamento dos clientes. O proprietário deseja desenvolver um modelo matemático para que o tempo previsto informado aos clientes seja cumprido. Formação em Black Belt Six Sigma | RL Associados 6 Regressão Múltipla Após analisar o fluxo de trabalho, foram identificadas as seguintes variáveis de entrada: 1 – Total de pizzas (quantidade total produzida até o momento da reclamação) 2 – Defeitos informados pelos clientes (falta de ingredientes, ingredientes errados, falta ou excesso de molho) 3 – Pedidos anotados incorretamente (cliente pediu um sabor e recebeu outro). Todos estes dados coletados foram cruzados com o tempo de entrega de cada uma das entregas. Formação em Black Belt Six Sigma | RL Associados 7 Regressão Múltipla Vamos usar o Minitab para fazer estas análises com os dados do arquivo de exercícios 23.PIZZAS. Clique em OK e o Minitab carregará os dados da planilha para a Worksheet como abaixo: Formação em Black Belt Six Sigma | RL Associados 8 Regressão Múltipla Vamos seguir a sequência: Estat / Matriz de Dispersão. Seleciona a opção Simples e clique OK. Formação em Black Belt Six Sigma | RL Associados 9 Regressão Múltipla Selecione todas as opções do quadro da esquerda, clicando duas vezes sobre cada uma das colunas (C1, C2, C3 e C4). Ao clicar, elas serão adicionadas ao quadro Variáveis do Gráfico. Em seguida, clique na opção Opções de Matriz. Selecione a opção Inferior Esquerda. Em seguida, OK. E OK novamente no quadro principal. Formação em Black Belt Six Sigma | RL Associados 10 Regressão Múltipla Vamos analisar o gráfico abaixo: 45 30 15 3,0 1,5 0,0 604020 50 45 40 453015 3,01,50,0 Total Pizzas Defeitos Pedidos Incorretos Tempo de Entrega Matriz de Dispersão de Total Pizzas; Defeitos; Pedidos Inco; ... 45 30 15 3,0 1,5 0,0 604020 50 45 40 453015 3,01,50,0 Total Pizzas Defeitos Pedidos Incorretos Tempo de Entrega Matriz de Dispersão de Total Pizzas; Defeitos; Pedidos Inco; ... As setas indicam como as informações são “pareadas”. Os quadros ao lado nos mostram “pares” de possíveis interações. Cabe ao Black Belt analisar e verificar se há ou não indícios de correlação. Formação em Black Belt Six Sigma | RL Associados 11 Regressão Múltipla Para corroborar estas possibilidades vamos analisar um pouco de Estatística Descritiva. Vamos seguir os seguintes passos: Estat / Estatísticas Básicas / Correlação No 45 30 15 3,0 1,5 0,0 604020 50 45 40 453015 3,01,50,0 Total Pizzas Defeitos Pedidos Incorretos Tempo de Entrega Matriz de Dispersão de Total Pizzas; Defeitos; Pedidos Inco; ... Repare nos quadros identificados com os números 1, 2 e 3. Os gráficos de dispersão nos dão algumas dicas: 1-Defeitos X Total Pizzas parecem ter alguma correlação. 2-Total Pizzas X Tempo de Entrega mostram a mesma possibilidade 3-Total Pizzas X Tempo de Entrega também nos indicam alguma correlação. 3 2 1 Formação em Black Belt Six Sigma | RL Associados 12 Regressão Múltipla quadro “Correlação” devemos dar duplo clique em todas as opções no quadro à esquerda para transferir todas as informações para oquadro “Variáveis”. A opção Exibir valor-p também deve estar selecionada. Em seguida clicar em OK. Vejamos as informações abaixo. No quadro em vermelho temos a Correlação de Pearson acima e o Valor-p abaixo. Formação em Black Belt Six Sigma | RL Associados 13 Regressão Múltipla Os pares evidenciados com círculos mostram forte correlação diretamente proporcional. O p-value na sessão do Minitab na verdade é um teste de hipóteses. Ho: Não há correlação Ha: Há correlação Como sempre, se p < 0.05, nós rejeitamos a Hipótese Nula. Em outras palavras, se p < 0.05, EXISTE CORRELAÇÃO. Lembre-se, a correlação, por si só, não significa que existe uma relação de causa e efeito entre as duas variáveis! O fato de que a venda de sorvetes e a venda de hipoclorito aumentam no verão não significa que o hipoclorito seja utilizado na fabricação de sorvetes. Portanto correlação nem sempre demonstra relação “Causal”. Temos que ter um olhar crítico e conhecimento do processo para tomarmos decisões sensatas. No verão aumenta o consumo de sorvetes, mas as vendas de hipoclorito estão diretamente ligadas ao aumento da frequência nas piscinas, que devem ser tratadas com mais frequência. Se o p-Value é baixo, a Hipótese Nula eu DESPACHO!!! Formação em Black Belt Six Sigma | RL Associados 14 Regressão Múltipla 2. Equação de Regressão Uma vez determinadas as variáveis de entrada e determinadas as correlações, podemos então encontrar nossa Equação de Regressão. Vamos retornar aos dados referentes à Entrega de Pizzas e deixar que o Minitab calcule nossa Equação de Regressão. Estat / Regressão / Regressão / Ajuste de Modelo de Regressão Formação em Black Belt Six Sigma | RL Associados 15 Regressão Múltipla Certifique-se de que as informações estejam dispostas conforme o exemplo abaixo. Veja no quadro abaixo nossa Equação de Regressão. Formação em Black Belt Six Sigma | RL Associados 16 Regressão Múltipla R2 - Formação em Black Belt Six Sigma | RL Associados 17 Regressão Múltipla 3. Interpretando o Valor-p A coluna do P-Value nos fornece o nível de significância para cada Variável. Tipicamente, se um P-value é menor ou igual do que 0.05, a Variável é considerada significante (a Hipótese Nula é rejeitada, indicando que há correlação entre as variáveis). Se o P-value é maior do que 0.10, a Variável deve ser removida do modelo. Devemos manter uma Variável se ela estiver na Região Cinzenta entre estes dois níveis de probabilidade (se P- value está entre 0.05 e 0.10). Formação em Black Belt Six Sigma | RL Associados 18 Regressão Múltipla 3.1 Observações Atípicas Minitab irá lhe mostrar se algum dado apresentar um comportamento Não Usual. Certifique-se de verificar qualquer ponto indicado pelo Minitab como Não Usual. Cuidado com os Coeficientes Lembra-se da equação de regressão obtida anteriormente: Tempo Entrega = 30.466 + 0.3426 Total Pizzas + 0.1131 Defeitos - 0.010 Pedidos Incorretos A importância relativa dos Preditores não poderá ser determinada pelo tamanho de seus coeficientes: Os coeficientes possuem escalas independentes Os coeficientes são influenciados pela correlação “entre” as variáveis de entrada. O fato do multiplicador dos Pedidos Incorretos de 0.010 não significa que ele seja de pouca importância e possa ser eliminado. A REGRESSÃO TAMBÉM É CONHECIDA COMO “MÉTODO DOS QUADRADOS MÍNIMOS”. A estimativa dos Quadrados Mínimos é o processo que minimiza as diferenças entre o modelo e os dados reais. Isso é feito otimizando a soma dos quadrados da diferença entre as observações reais e as observações estimadas. Observação número 5 parece ser não usual devido ao valor que destoa do restante. Formação em Black Belt Six Sigma | RL Associados 19 Regressão Múltipla 3.2 Problemas com Diversas variáveis Preditoras Algumas vezes os Xs são correlacionados (dependentes). Esta condição é conhecida como Multicolinearidade. Multicolinearidade pode nos trazer alguns inconvenientes: Estimativas dos coeficientes podem ser afetadas (Valores-p inflados ou instáveis) Dificuldade para isolar os efeitos de cada X Coeficientes irão variar “bastante” dependendo de quais Xs estiverem incluídos no modelo Mais uma vez temos que ressaltar que o conhecimento do processo é extremamente importante. O trabalho prévio de mapeamento do processo e o envolvimento das pessoas com conhecimento do processo nas atividades de Brainstorming, Levantamento de Causa-Raiz e demais atividades fará toda a diferença neste momento. Observação Real Observação Ajustada Lembra-se, quando verificamos se havia correlação entre Total Pizzas e Defeitos? Formação em Black Belt Six Sigma | RL Associados 20 Regressão Múltipla 3.2.1 Avaliando o Grau de Muticolinearidade Utilizamos uma métrica chamada Variance Inflation Factor (VIF): Ri 2 é o valor de R2 obtido quando fazemos a análise de regressão de um Xi contra outros X’s Um Ri 2 GRANDE sugere que a variável é redundante Regra do Polegar: Ri 2 > 0.9 é motivo de preocupação (alto grau de colinearidade) (VIF > 10) 0.8 < Ri 2 < 0.9 (moderado grau de colinearidade) (VIF > 5) No caso de um conjunto de dados, a saída do Minitab será: 2 1 1 iR VIF VIF H2O Temp 1.3 Speed 11.0 Thick. 11.7 Water 1.7 Dois dos VIF’s são grandes. No entanto, o R-sq. neste caso é 80.9%, então alguma multicolinearidade pode ser tolerada Formação em Black Belt Six Sigma | RL Associados 21 Regressão Múltipla Quando observarmos alto grau de Multicolinearidade e valores baixos de R², devemos redobrar nossa atenção para não mantermos em nosso modelo mais variáveis do que realmente precisamos. 3.2.2 Representação gráfica de Multicolinearidade Mas o R2 tem o valor de 94,81%. Desta forma, a Multicolinearidade pode ser tolerada. Quanto maior a quantidade de pizzas, maior a quantidade de defeitos??? • Overlap representa correlação • X1 e X2 são ambos correlacionados com Y • X1 e X2 são altamente correlacionados • Se X1 está no modelo, nós não precisamos do X2, e vice versa Formação em Black Belt Six Sigma | RL Associados 22 Regressão Múltipla 4. Melhores Subconjuntos/Melhores subgrupos de variáveis O Minitab pode determinar a melhor combinação de variáveis a serem incluídas em nosso modelo. Em vez de confiar somente nos valores de P-values, o Minitab verifica todas as possibilidades e nos mostra as características para o melhor modelo possível. 4.1 Considerações sobre “Melhores Subconjuntos” Objetivo: Nós queremos selecionar o modelo com a melhor precisão preditiva a mínima multicolinearidade Devemos buscar o equilíbrio entre: Overfitting (incluir termos que dão pouca ou nenhuma contribuição) Underfitting (ignorar ou excluir termos relativamente importantes para o modelo) Quais os problemas com overfitting? (usar mais preditores do que preciso) Neste caso podemos “poluir nosso modelo com mais variáveis do que realmente necessitamos) Quais os problemas com underfitting? (usar menos preditores do que preciso) Neste caso, corremos o risco de excluir variáveis importantes para nosso modelo, e com isso chegarmos a conclusões erradas. Lembra-se, quando Total Pizzas e Defeitos estavam correlacionados? Podemos usar Best Subsets(melhores subconjuntos) de nossa regressão para saber comcerteza que variáveis devemos manter em nosso modelo. Formação em Black Belt Six Sigma | RL Associados 23 Regressão Múltipla Vamos então verificar qual o MELHOR SUBCONJUNTO de variáveis para nosso modelo. Estat / Regressão / Regressão / Melhores Subconjuntos Tempo de Entrega no campo Resposta: e os demais preditores no campo Preditores Livres:. Em seguida OK. Usaremos as informações abaixo para determinar o melhor modelo. Formação em Black Belt Six Sigma | RL Associados 24 Regressão Múltipla A primeira coluna é o número de variáveis no modelo. (A primeira linha mostra um modelo com Total Pizzas como o único X.) Formação em Black Belt Six Sigma | RL Associados 25 Regressão Múltipla Formação em Black Belt Six Sigma | RL Associados 26 Regressão Múltipla Formação em Black Belt Six Sigma | RL Associados 27 Regressão Múltipla Formação em Black Belt Six Sigma | RL Associados 28 Regressão Múltipla Resumindo • Quando estiver decidindo quais Inputs incluir no seu modelo, considere o tempo e os esforços para obtenção dos dados. • Neste exemplo, nosso R-Sq(adj) já era de 92.6% somente com a variável Total Pizzas. • Adicionando Defeitos, melhoramos o modelo, mas somente 1,7%. Avalie a acurácia necessária contra os esforços para obter os dados. • Note que Best Subsets nos diz que o modelo fica pior quando incluímos Pedidos Incorretos. Esta informação é coerente com o que vimos no estudo de correlação inicial. 5. Regressão com o Modelo Reduzido Agora que encontramos o “Melhor Subconjunto” para nosso estudo, vamos recalcular utilizando o modelo reduzido somente com Total Pizzas e Defeitos como preditores. Formação em Black Belt Six Sigma | RL Associados 29 Regressão Múltipla Aqui está nossa equação final de regressão! Formação em Black Belt Six Sigma | RL Associados 30 Regressão Múltipla Uma pergunta: Se eu tenho 50 pedidos de pizzas e nenhum defeito, em quanto tempo eu farei minha próxima entrega? A equação de regressão é: Tempo de Entrega = 30.452 + 0.3429 Total Pizzas + 0.1127 Defeitos = 30.452 + (0.3439 x 50) + 0 = 47.7 minutos