Buscar

Apostila_Regressão Múltipla V03


Prévia do material em texto

Formação em Black Belt Six Sigma | RL Associados 1 
 
Regressão Múltipla 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Regressão Múltipla 
 
TREINAMENTO BLACK BELT SIX SIGMA 
 Módulo de estatística aplicada 
A análise de regressão tem por objetivo desvendar o comportamento entre 
uma variável dependente e as consideradas independentes. Modelos 
matemáticos são capazes de explicar essa relação por meio de diferentes 
equações que fazem uma análise de correlação entre essas variáveis. 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 2 
 
Regressão Múltipla 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: www.endeavororg.br 
 
 
 
1. Introdução 
 
A Regressão Múltipla é uma ferramenta poderosa na identificação de Causas Raiz. 
 Para ilustrar o uso desta ferramenta, vejamos os exemplos abaixo: 
 
 1 – Uma agência de turismo quer verificar se há relação entre a taxa de ocupação dos hotéis 
no litoral norte do estado de São Paulo e as condições climáticas na cidade de São Paulo. 
 Em uma situação como essa, a Correlação nos permite visualizar as informações e verificar se 
há relação entre elas. Com a Regressão Múltipla, a agência poderá desenvolver um modelo 
para prever a taxa de ocupação dos hotéis no litoral baseada na temperatura e precipitação 
(chuvas) na cidade de São Paulo. 
 
 
 
 
Onde aplicar: 
DMAIC 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 3 
 
Regressão Múltipla 
 2 – Um Call Center deseja reduzir o tempo que os clientes ficam aguardando pelo 
atendimento telefônico. Para tal, precisam identificar as principais causas da demora no 
atendimento. 
 Uma equipe obterá dados sobre os atendimentos telefônicos, tais como tipo de solicitação, 
tempo de atendimento e dia da semana para verificar se estes fatores influenciam o tempo de 
espera. Em caso positivo, a Regressão Múltipla poderá ser usada para prever tempos de espera 
(e, talvez, a necessidade de realocação de pessoas). 
 
 3 – Um Chef quer criar um modelo de gestão que permita prever o faturamento de seu 
restaurante. 
 Ele quer verificar se a média de preços das entradas, a relação entre atendente e nº de mesas 
e o número de opções do cardápio podem influenciar no faturamento do restaurante. Ele 
poderá usar a Regressão Múltipla para investigar estas relações e criar um modelo 
matemático. 
 
 No curso de Green Belt você aprendeu a usar a Regressão Linear Simples. Ela permite verificar 
relações de dependência entre uma entrada (X) e uma saída (Y) do processo. 
 
Y = B0 + B1X 
 
 Na Regressão Múltipla, construiremos um modelo que pode incluir mais variáveis de entrada 
(X’s). Identificaremos qual (ou quais) das entradas pode nos ajudar a prever o comportamento 
de nossa Saída (Y). 
 
Y = B0 + B1X1 + B2X2 + B3X3 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 4 
 
Regressão Múltipla 
 
 De forma resumida, estamos procurando desenvolver um modelo matemático que nos 
permita prever, com certa segurança, o comportamento de nosso processo, fazendo 
interpolações de valores. 
Mas o que significam estas letras? 
Y é o resultado, ou a saída do processo, que queremos prever. 
Xs são as variáveis de entrada do meu processo. 
Os Bs são as constantes que queremos descobrir usando a Regressão Múltipla. 
 
 Devemos avaliar criteriosamente nosso processo e selecionar as entradas (Inputs) que podem 
ser incluídos em nosso modelo. Uma estratificação dos indicadores do processo estudado pode 
nos ajudar, identificando as métricas utilizadas para monitorar o processo. 
 Considere as métricas para as quais você responde “Sim”, ao questionar se elas influenciam 
ou não no resultado (Y) de nosso processo. “Avalie se estas métricas identificadas podem lhe 
ajudar a prever o comportamento do Y.” 
 
 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 5 
 
Regressão Múltipla 
Veja abaixo um esquema que pode lhe ajudar no momento de identificar as entradas e saídas 
de seu processo. 
 
 
 Uma vez determinadas as medições que iremos considerar, podemos testar as correlações. 
Podemos fazer isso graficamente, com um gráfico de Dispersão, assim como de forma 
estatística. 
Após realizar uma pesquisa de satisfação, o proprietário descobriu que os clientes estão 
insatisfeitos com o tempo de entrega. Para tempos de entrega superiores a 30 minutos, o 
tempo informado pela pizzaria nunca é cumprido, causando o descontentamento dos clientes. 
 O proprietário deseja desenvolver um modelo matemático para que o tempo previsto 
informado aos clientes seja cumprido. 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 6 
 
Regressão Múltipla 
 Após analisar o fluxo de trabalho, foram identificadas as seguintes variáveis de entrada: 
1 – Total de pizzas (quantidade total produzida até o momento da reclamação) 
2 – Defeitos informados pelos clientes (falta de ingredientes, ingredientes errados, falta ou 
excesso de molho) 
3 – Pedidos anotados incorretamente (cliente pediu um sabor e recebeu outro). Todos estes 
dados coletados foram cruzados com o tempo de entrega de cada uma das entregas. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 7 
 
Regressão Múltipla 
Vamos usar o Minitab para fazer estas análises com os dados do arquivo de exercícios 
23.PIZZAS. 
 
 
Clique em OK e o Minitab carregará os dados da planilha para a Worksheet como abaixo: 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 8 
 
Regressão Múltipla 
 
 
Vamos seguir a sequência: Estat / Matriz de Dispersão. Seleciona a opção Simples e clique OK. 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 9 
 
Regressão Múltipla 
Selecione todas as opções do quadro da esquerda, clicando duas vezes sobre cada uma das 
colunas (C1, C2, C3 e C4). Ao clicar, elas serão adicionadas ao quadro Variáveis do Gráfico. 
Em seguida, clique na opção Opções de Matriz. 
 
 
 
Selecione a opção Inferior Esquerda. Em seguida, OK. E OK novamente no quadro principal. 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 10 
 
Regressão Múltipla 
 
Vamos analisar o gráfico abaixo: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
45
30
15
3,0
1,5
0,0
604020
50
45
40
453015 3,01,50,0
Total Pizzas
Defeitos
Pedidos Incorretos
Tempo de Entrega
Matriz de Dispersão de Total Pizzas; Defeitos; Pedidos Inco; ...
45
30
15
3,0
1,5
0,0
604020
50
45
40
453015 3,01,50,0
Total Pizzas
Defeitos
Pedidos Incorretos
Tempo de Entrega
Matriz de Dispersão de Total Pizzas; Defeitos; Pedidos Inco; ...
As setas indicam como as 
informações são “pareadas”. 
Os quadros ao lado nos mostram 
“pares” de possíveis interações. 
Cabe ao Black Belt analisar e 
verificar se há ou não indícios de 
correlação. 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 11 
 
Regressão Múltipla 
 
 
Para corroborar estas possibilidades vamos analisar um pouco de Estatística Descritiva. Vamos 
seguir os seguintes passos: Estat / Estatísticas Básicas / Correlação 
 
 
 
 
 
 
 
 
 
 
 
 
 
No 
45
30
15
3,0
1,5
0,0
604020
50
45
40
453015 3,01,50,0
Total Pizzas
Defeitos
Pedidos Incorretos
Tempo de Entrega
Matriz de Dispersão de Total Pizzas; Defeitos; Pedidos Inco; ...
Repare nos quadros identificados com os 
números 1, 2 e 3. Os gráficos de dispersão nos 
dão algumas dicas: 
1-Defeitos X Total Pizzas parecem ter alguma 
correlação. 
2-Total Pizzas X Tempo de Entrega mostram a 
mesma possibilidade 
3-Total Pizzas X Tempo de Entrega também nos 
indicam alguma correlação. 
 
3 2 
1 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 12 
 
Regressão Múltipla 
quadro “Correlação” devemos dar duplo clique em todas as opções no quadro à esquerda para 
transferir todas as informações para oquadro “Variáveis”. 
 A opção Exibir valor-p também deve estar selecionada. Em seguida clicar em OK. 
 
Vejamos as informações abaixo. No quadro em vermelho temos a Correlação de Pearson acima 
e o Valor-p abaixo. 
 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 13 
 
Regressão Múltipla 
Os pares evidenciados com círculos mostram forte correlação diretamente proporcional. 
 
 
O p-value na sessão do Minitab na verdade é um teste de hipóteses. 
Ho: Não há correlação 
Ha: Há correlação 
Como sempre, se p < 0.05, nós rejeitamos a Hipótese Nula. 
Em outras palavras, se p < 0.05, EXISTE CORRELAÇÃO. 
 
 
 
 Lembre-se, a correlação, por si só, não significa que existe uma relação de causa e efeito 
entre as duas variáveis! O fato de que a venda de sorvetes e a venda de hipoclorito aumentam 
no verão não significa que o hipoclorito seja utilizado na fabricação de sorvetes. Portanto 
correlação nem sempre demonstra relação “Causal”. 
 Temos que ter um olhar crítico e conhecimento do processo para tomarmos decisões 
sensatas. No verão aumenta o consumo de sorvetes, mas as vendas de hipoclorito estão 
diretamente ligadas ao aumento da frequência nas piscinas, que devem ser tratadas com mais 
frequência. 
 
 
 
 
Se o p-Value é baixo, a Hipótese Nula eu DESPACHO!!! 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 14 
 
Regressão Múltipla 
2. Equação de Regressão 
 
 Uma vez determinadas as variáveis de entrada e determinadas as correlações, podemos 
então encontrar nossa Equação de Regressão. Vamos retornar aos dados referentes à Entrega 
de Pizzas e deixar que o Minitab calcule nossa Equação de Regressão. 
 
 Estat / Regressão / Regressão / Ajuste de Modelo de Regressão 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 15 
 
Regressão Múltipla 
 
Certifique-se de que as informações estejam dispostas conforme o exemplo abaixo. 
 
 
Veja no quadro abaixo nossa Equação de Regressão. 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 16 
 
Regressão Múltipla 
 
 
 
 
 
 
 
 
 
R2 - 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 17 
 
Regressão Múltipla 
 
 
 
3. Interpretando o Valor-p 
 
 A coluna do P-Value nos fornece o nível de significância para cada Variável. Tipicamente, se 
um P-value é menor ou igual do que 0.05, a Variável é considerada significante (a Hipótese 
Nula é rejeitada, indicando que há correlação entre as variáveis). 
 
 Se o P-value é maior do que 0.10, a Variável deve ser removida do modelo. Devemos manter 
uma Variável se ela estiver na Região Cinzenta entre estes dois níveis de probabilidade (se P-
value está entre 0.05 e 0.10). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 18 
 
Regressão Múltipla 
3.1 Observações Atípicas 
 
Minitab irá lhe mostrar se algum dado apresentar um comportamento Não Usual. 
Certifique-se de verificar qualquer ponto indicado pelo Minitab como Não Usual. 
 
 
 
 
 
 
 
Cuidado com os Coeficientes 
 Lembra-se da equação de regressão obtida anteriormente: 
 
Tempo Entrega = 30.466 + 0.3426 Total Pizzas + 0.1131 Defeitos - 0.010 Pedidos Incorretos 
 
 A importância relativa dos Preditores não poderá ser determinada pelo tamanho de seus 
coeficientes: 
 Os coeficientes possuem escalas independentes 
 Os coeficientes são influenciados pela correlação “entre” as variáveis de entrada. O fato do 
multiplicador dos Pedidos Incorretos de 0.010 não significa que ele seja de pouca importância e 
possa ser eliminado. 
 
A REGRESSÃO TAMBÉM É CONHECIDA COMO “MÉTODO DOS QUADRADOS MÍNIMOS”. 
 
 A estimativa dos Quadrados Mínimos é o processo que minimiza as diferenças entre o 
modelo e os dados reais. Isso é feito otimizando a soma dos quadrados da diferença entre as 
observações reais e as observações estimadas. 
 
Observação número 5 parece ser não usual devido ao valor que destoa 
do restante. 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 19 
 
Regressão Múltipla 
 
 
 
 
3.2 Problemas com Diversas variáveis Preditoras 
 Algumas vezes os Xs são correlacionados (dependentes). Esta condição é conhecida como 
Multicolinearidade. 
 Multicolinearidade pode nos trazer alguns inconvenientes: 
 Estimativas dos coeficientes podem ser afetadas (Valores-p inflados ou instáveis) 
 Dificuldade para isolar os efeitos de cada X 
Coeficientes irão variar “bastante” dependendo de quais Xs estiverem incluídos no modelo 
 
 
 
 
 Mais uma vez temos que ressaltar que o conhecimento do processo é extremamente 
importante. O trabalho prévio de mapeamento do processo e o envolvimento das pessoas com 
conhecimento do processo nas atividades de Brainstorming, Levantamento de Causa-Raiz e 
demais atividades fará toda a diferença neste momento. 
 
 
 
 
Observação Real 
Observação Ajustada 
Lembra-se, quando verificamos se havia correlação entre Total Pizzas e 
Defeitos? 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 20 
 
Regressão Múltipla 
3.2.1 Avaliando o Grau de Muticolinearidade 
 
Utilizamos uma métrica chamada Variance Inflation Factor (VIF): 
 
 
 
Ri
2 é o valor de R2 obtido quando fazemos a análise de regressão de um Xi contra outros X’s 
Um Ri
2 GRANDE sugere que a variável é redundante 
 
Regra do Polegar: 
Ri
2 > 0.9 é motivo de preocupação (alto grau de colinearidade) (VIF > 10) 
0.8 < Ri
2 < 0.9 (moderado grau de colinearidade) (VIF > 5) 
No caso de um conjunto de dados, a saída do Minitab será: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
1
1
iR
VIF


VIF
H2O Temp 1.3
Speed 11.0
Thick. 11.7
Water 1.7
Dois dos VIF’s são grandes. No 
entanto, o R-sq. neste caso é 
80.9%, então alguma 
multicolinearidade pode ser tolerada 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 21 
 
Regressão Múltipla 
 Quando observarmos alto grau de Multicolinearidade e valores baixos de R², devemos 
redobrar nossa atenção para não mantermos em nosso modelo mais variáveis do que 
realmente precisamos. 
 
 
 
 
 
 
 
 
 
 
 
 
 
3.2.2 Representação gráfica de Multicolinearidade 
 
 
 
 
 
 
 
 
 
 
 
 
Mas o R2 tem o valor de 94,81%. 
Desta forma, a Multicolinearidade 
pode ser tolerada. 
Quanto maior a quantidade de pizzas, maior a quantidade de 
defeitos??? 
• Overlap representa correlação 
• X1 e X2 são ambos correlacionados com Y 
• X1 e X2 são altamente correlacionados 
• Se X1 está no modelo, nós não precisamos do X2, e vice versa 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 22 
 
Regressão Múltipla 
 
 
4. Melhores Subconjuntos/Melhores subgrupos de 
variáveis 
 
 
 
 O Minitab pode determinar a melhor combinação de variáveis a serem incluídas em nosso 
modelo. 
 Em vez de confiar somente nos valores de P-values, o Minitab verifica todas as possibilidades 
e nos mostra as características para o melhor modelo possível. 
 
 
 
 
 
 
 
4.1 Considerações sobre “Melhores Subconjuntos” 
 Objetivo: Nós queremos selecionar o modelo com a melhor precisão preditiva a mínima 
multicolinearidade 
 Devemos buscar o equilíbrio entre: 
 
 Overfitting (incluir termos que dão pouca ou nenhuma contribuição) 
 Underfitting (ignorar ou excluir termos relativamente importantes para o modelo) 
 
 Quais os problemas com overfitting? (usar mais preditores do que preciso) 
 Neste caso podemos “poluir nosso modelo com mais variáveis do que realmente 
necessitamos) 
 
 Quais os problemas com underfitting? (usar menos preditores do que preciso) 
 Neste caso, corremos o risco de excluir variáveis importantes para nosso modelo, e com isso 
chegarmos a conclusões erradas. 
 
 
 
 
 
 
 
Lembra-se, quando Total Pizzas e Defeitos estavam correlacionados? 
Podemos usar Best Subsets(melhores subconjuntos) de nossa regressão para saber comcerteza que variáveis devemos manter em nosso modelo. 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 23 
 
Regressão Múltipla 
Vamos então verificar qual o MELHOR SUBCONJUNTO de variáveis para nosso modelo. 
Estat / Regressão / Regressão / Melhores Subconjuntos 
 
 
 
 Tempo de Entrega no campo Resposta: e os demais preditores no campo Preditores Livres:. 
Em seguida OK. 
 
 Usaremos as informações abaixo para determinar o melhor modelo. 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 24 
 
Regressão Múltipla 
 
 
 
A primeira coluna é o número de 
variáveis no modelo. 
(A primeira linha mostra um 
modelo com Total Pizzas como o 
único X.) 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 25 
 
Regressão Múltipla 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 26 
 
Regressão Múltipla 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 27 
 
Regressão Múltipla 
 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 28 
 
Regressão Múltipla 
Resumindo 
 
• Quando estiver decidindo quais Inputs incluir no seu modelo, considere o tempo e os esforços 
para obtenção dos dados. 
• Neste exemplo, nosso R-Sq(adj) já era de 92.6% somente com a variável Total Pizzas. 
• Adicionando Defeitos, melhoramos o modelo, mas somente 1,7%. Avalie a acurácia necessária 
contra os esforços para obter os dados. 
• Note que Best Subsets nos diz que o modelo fica pior quando incluímos Pedidos Incorretos. 
Esta informação é coerente com o que vimos no estudo de correlação inicial. 
 
 
5. Regressão com o Modelo Reduzido 
 
 Agora que encontramos o “Melhor Subconjunto” para nosso estudo, vamos recalcular 
utilizando o modelo reduzido somente com Total Pizzas e Defeitos como preditores. 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 29 
 
Regressão Múltipla 
 
 
 
Aqui está nossa equação final de regressão! 
 
 
 
 
 
 
 
 
 
 
Formação em Black Belt Six Sigma | RL Associados 30 
 
Regressão Múltipla 
 
 
 
 Uma pergunta: Se eu tenho 50 pedidos de pizzas e nenhum defeito, em quanto tempo eu 
farei minha próxima entrega? 
 
 
A equação de regressão é: 
 
Tempo de Entrega = 30.452 + 0.3429 Total Pizzas + 0.1127 Defeitos 
 = 30.452 + (0.3439 x 50) + 0 
 = 47.7 minutos

Continue navegando