Buscar

[FM2S] Analise de Regressão

Prévia do material em texto

Análise de Regressão Tutorial e Exemplos 
Este tutorial abrange vários aspectos da análise de regressão, incluindo: escolher o tipo de 
análise de regressão a ser usada, especificar o modelo, interpretar os resultados, determinar 
como o modelo se encaixa, fazer previsões e verificar os pressupostos. No final, incluo 
exemplos de diferentes tipos de análises de regressão. 
Por que escolher a regressão e as marcas de uma boa análise de regressão? 
Antes de começar o tutorial de análise de regressão, há várias questões importantes a serem 
respondidas. 
Por que devemos escolher a regressão? Quais são os erros comuns que os especialistas fazem 
quando se trata de análise de regressão? E, como você distingue uma boa análise de regressão 
de uma análise de regressão menos rigorosa? Vamos ver um apanhado geral. 
Tutorial: como escolher o tipo correto de análise de regressão? 
Suculento, peru grelhado de manteiga. 
Salpicão. Tender. Lombo. Farofa. Pernil. Leitoa.... 
O menu tradicional de Natal tem tantos pratos deliciosos sobre a mesa, você não sabe por 
onde começar. 
Se você saborear as estatísticas tanto quanto a comida, você pode se sentir da mesma forma 
quando olhar para todas as deliciosas análises no menu Minitab Regression, que é o Menu de 
Regressão. 
 
 
Como você pode decidir qual análise de regressão escolher? Vou dar-lhe algumas amostras de 
cada prato de regressão para ajudá-lo a decidir qual deles colocar no prato. 
Regressão com uma resposta categórica 
 
Já notou as linhas de divisão horizontal nos menus do Minitab? Pense nelas como os 
separadores em um prato de papel que protege seu molho mostarda de correr para seu 
nhoque ao sugo, evitando que eles seu nhoque transforme-se num estranho molho rose. 
Por exemplo, a linha na parte inferior do menu separa cuidadosamente todas as análises de 
regressão que possuem uma variável de resposta categórica. 
 
Para usar uma dessas análises, cada resposta em seus dados deve cair em uma categoria 
separada. Escolha entre eles de acordo com o tipo de resposta categórica que você possui. 
Aqui está um cenário concreto: 
Você seleciona aleatoriamente 100 indivíduos no Natal e anota quantos pedaços de cada prato 
eles possuem. 
Agora você quer utilizar uma análise de regressão para descrever a relação entre as variáveis 
preditoras (o número de porções servidas de cada prato) e a variável resposta. 
Regressão logística binária: a resposta cai em uma das duas categorias. Há duas respostas 
possíveis. 
Exemplo: você rastreia se cada pessoa tomou um antiácido após a Ceia de Natal ou não (Sim 
ou Não) 
 
As chances de uma pessoa que tomar um antiácido aumentam, em média, 2,35 vezes com 
cada porção de batata doce confeitada. 
__________________________________________________________ 
Regressão Logística Ordinária: as categorias de sua resposta podem ser ordenadas da menor 
para a maior. 
Exemplo: Você grava quantos buracos da cinta, cada pessoa aumentou após o jantar (0-4 
entalhes) 
 
Em média, cada porção adicional de purê de batatas resulta em um aumento de 36% nas 
chances de expandir seu cinto após a ceia. 
__________________________________________________________ 
Regressão Logística Nominal: as categorias de sua resposta não seguem uma ordem. 
Exemplo: Você pergunta a cada pessoa qual dos animais que mais elas mais se assemelham 
após a ceia de Natal: uma baleia encalhada, um elefante marinho ou uma anaconda depois de 
engolir um porco selvagem. 
 
Com cada porção adicional de peru, as pessoas são 4,37 vezes mais propensas a se sentir como 
uma anaconda depois de engolir porco selvagem do que uma baleia encalhada. 
__________________________________________________________ 
Regressão com uma resposta contínua 
A linha no topo do menu Regression do Minitab separa cuidadosamente análises de regressão 
que usam uma variável de resposta contínua. 
 
Para usar uma dessas análises, cada resposta deve ser uma variável contínua, como 
comprimento, peso ou tempo. 
__________________________________________________________ 
Regressão: você tem um ou mais variáveis preditoras contínuas e uma variável resposta 
contínua. 
Exemplo: você acompanha quantos minutos cada pessoa gasta deitada no chão da sala de 
estar, depois do jantar da Ceia de Natal. 
 
Cada porção adicional de castanha resulta em um aumento de 4,28 minutos, em média, 
deitado no chão da sala após a ceia (quando as porções de todos os outros pratos são 
mantidas constantes). 
__________________________________________________________ 
Regressão geral: você tem uma mistura de variáveis preditoras categóricas e contínuas e uma 
variável resposta contínua. 
Exemplo: Além das variáveis preditoras contínuas para as porções de cada prato, seu modelo 
para o tempo em que a pessoa fica deitada, também inclui uma variável preditora categórica. 
Essa variável categórica indica, sim ou não, se a pessoa comeu lanches antes da Ceia de Natal. 
 
Comer lanches antes da Ceia de Natal aumenta o tempo que as pessoas passam deitadas no 
chão em cerca de 17 minutos, em média, quando as porções de todos os outros pratos são 
mantidas constantes. 
__________________________________________________________ 
Regressão Passo a Passo: Minitab identifica um subconjunto útil de variáveis preditoras com 
base na significância estatística delas (usando stepwise, seleção para frente ou eliminação para 
trás) 
Exemplo: você quer que o Minitab lhe diga quais pratos têm um efeito estatisticamente 
significativo sobre o número de minutos que as pessoas passam deitados no chão depois do 
jantar. 
 
Dos 7 pratos na mesa, o Minitab determina que a porção de castanha e o pão de milho são as 
variáveis preditoras com significância estatística para avaliar o tempo gasto deitado no chão. 
__________________________________________________________ 
Regressão dos Melhores Subconjuntos: o Minitab identifica um subconjunto útil de variáveis 
preditoras com base no quanto de variação o modelo explica (o critério R² máximo). 
Exemplo: Você quer que Minitab lhe diga qual combinação de pratos explica a maior parte da 
variação no número de minutos que as pessoas passam deitadas no chão. 
 
No caso do jantar, 2 das 7 variáveis preditoras do modelo, o ressalto da casquinha de molho de 
maionese (CR) e o pão de milho (CB), explicam a maior variação no tempo gasto deitado no 
chão. A adição de mais preditores (pratos) não aumenta significativamente o valor do R². 
____________________________________________________________________________ 
Linha Ajustada: exibe uma linha ajustada de uma regressão. É possível apenas com uma 
variável preditora contínua e uma variável resposta contínua. 
Exemplo: você deseja visualizar a associação entre as porções de comida ingeridas e o tempo 
gasto deitado no chão. 
 
Há uma associação quadrática fraca, mas estatisticamente significante entre as porções de 
comida ingeridas e o tempo gasto deitado no chão. 
Regressão não linear: especifica uma função não-linear para modelar a relação entre variáveis 
preditoras contínuas e uma variável resposta contínua. 
Exemplo: Tio Alberto, um brilhante Ph.D. químico, realizou experimentos sobre as 
propriedades químicas das castanhas e seu efeito nas reações enzimáticas metabólicas que 
induzem fadiga. Com base em sua pesquisa, ele sabe que ele pode modelar a relação entre 
porções de castanha ingeridas e a postura pós-prandial por meio de uma curva de crescimento 
de Gompertz com três parâmetros. 
 
A função exponencial teórica de tio Alberto de uma função exponencial negativa descreve a 
relação entre a porção de castanha e o tempo deitado no chão. No entanto, tio Alberto é o 
único que entende seu modelo não-linear complexo. Quando tenta explicar depois do jantar, 
todos adormecem no chão. 
 Análises de regressão especializadas 
 
Duas análises no menu Regressão formam sua própria categoria. Essas análises modelam uma 
variávelde resposta contínua e variáveis preditoras contínuas, mas suas aplicações são 
especializadas. 
Regressão ortogonal: testa se dois instrumentos ou métodos fornecem medidas comparáveis. 
Exemplo: A vovó adquiriu um novo termômetro de peru digital para um presente, mas 
suspeita de que não funcione tão bem como o seu antigo termômetro. Antes do Natal, ela a 
testa usando os termômetros para medir a temperatura em uma panela com água. Para testar, 
ela esfria a água na geladeira e aquece no fogão, registrando a temperatura medida em cada 
instrumento. 
 
Apesar das suspeitas da avó, o termômetro digital é equivalente ao seu termômetro de metal. 
(O intervalo de confiança para a inclinação inclui 1 e o intervalo de confiança para a constante 
inclui 0.) 
__________________________________________________________ 
Regressão de mínimos quadrados parciais: você tem poucas observações em relação ao 
número de variáveis preditoras, ou elas estão altamente associadas entre si, tornando 
problemática uma análise de regressão padrão. 
Exemplo: suponha que seu estudo da Ceia de Natal tenha amostrado apenas 10 indivíduos, em 
vez de 100 indivíduos, mas ainda incluíram todas as 7 variáveis preditoras. Sua pequena 
amostra causou alto erro padrão para as estimativas de coeficientes. Além disso, as mesmas 
pessoas que comeram muitas porções de castanha também comeram muitas porções de purê 
de batatas e peru, e tiveram respostas semelhantes, fazendo com que essas variáveis 
preditoras fossem correlacionados. 
 
Ao usar um modelo de mínimos quadrados parciais com 6 componentes, cada um formado por 
uma combinação linear das variáveis preditoras, você pode explicar cerca de 84% da variação 
no tempo de permanência na posição deitado. Adicionar outro componente não aumenta 
muito o R². 
A Regressão é Linear ou Não Linear? 
Como você provavelmente notou, o campo das estatísticas é enorme. Precisa de mais 
evidências? A regressão linear pode produzir linhas curvas e a regressão não linear não é 
nomeada por suas linhas curvas. 
Então, quando você deve usar regressão não linear ao invés de métodos lineares, como 
regressão linear, melhores subconjuntos ou regressão stepwise? 
De um modo geral, você deve tentar a regressão linear primeiro. É mais fácil de usar e mais 
fácil de interpretar. No entanto, se você simplesmente não conseguir um bom ajuste com 
regressão linear, então talvez seja hora de tentar a regressão não linear. 
Vejamos um caso em que a regressão linear não funciona. Muitas vezes, o problema é que, 
mesmo que a regressão linear possa modelar curvas, talvez não seja capaz de modelar a curva 
específica que existe em seus dados. Os gráficos abaixo ilustram isso com um modelo linear 
que contém uma variável preditora cúbica. 
 
O gráfico de linha ajustado mostra que os dados brutos seguem uma boa função e o R² é 
98,5%, o que parece muito bom. No entanto, olhe mais de perto e a linha de regressão passa 
acima ou abaixo dos dados sistematicamente em diferentes pontos da curva. Quando você 
verifica os lotes de resíduos (o que você sempre faz, certo?), você vê padrões no plano de 
resíduos versus o ajuste, em vez da aleatoriedade que deseja ver. Isso indica um ajuste ruim, 
mas é o melhor que a regressão linear pode fazer. 
Vamos tentar novamente, mas usando regressão não-linear. É importante notar que, porque a 
regressão não linear permite um número quase infinito de funções possíveis, pode ser mais 
difícil de configurar. Neste caso, exigiu um esforço considerável para determinar a função que 
proporcionou o ajuste ideal para a curva específica presente nesses dados, mas como meu 
ponto principal é explicar quando você deve usar a regressão não linear em vez de linear, não 
precisamos relacionar todos esses detalhes aqui. 
 
O gráfico de linha ajustado mostra que a linha de regressão segue os dados quase que 
exatamente - não há desvios sistemáticos. É impossível calcular R² para a regressão não linear, 
mas o valor de S (aproximadamente, a distância absoluta média dos pontos para a linha de 
regressão) melhora de 72,4 (linear) para apenas 13,7 na regressão não-linear. Você quer um 
valor S mais baixo porque quer que os pontos estejam mais próximos da linha ajustada. Além 
disso, o gráfico dos resíduos versus ajuste mostra a aleatoriedade que se deseja ver. É um bom 
ajuste! 
A regressão não linear pode ser uma alternativa poderosa à regressão linear, mas existem 
algumas desvantagens. Além da dificuldade acima mencionada na criação da análise e da falta 
do R², esteja ciente de que: 
 
▪ O efeito que cada preditor tem na resposta pode ser menos intuitivo de entender. 
▪ Os valores do p-valor são impossíveis de calcular para as variáveis preditoras. 
▪ Os intervalos de confiança podem ou não ser calculáveis. 
Se você estiver usando o Minitab agora, você pode jogar com esses dados, indo em Arquivo -> 
Abrir Planilha e, em seguida, clique no ícone Procurar no Minitab Sample Data e escolha 
Mobility.MTW. Esses dados são os mesmos do exemplo. 
Como especificar seu modelo de regressão? 
 
Escolher o tipo correto de análise de regressão é apenas o primeiro passo. Em seguida, você 
precisa especificar o modelo. A especificação do modelo consiste em determinar quais 
variáveis de preditoras devem ser inclusas no modelo e se você precisa modelar a curvatura e 
as interações entre as variáveis preditoras. 
Especificar um modelo de regressão é um processo iterativo. Vamos mostrar aqui como 
confirmar que você especificou o modelo corretamente e como ajustar seu modelo com base 
nos resultados. 
Como escolher o melhor modelo de regressão? 
Escolher o modelo de regressão linear correto pode ser difícil. Afinal, como o mundo funciona 
é complexo. Tentar modelá-lo com apenas uma amostra não é das tarefas mais fáceis. Nesta 
seção, vamos ver alguns métodos estatísticos comuns para selecionar modelos, problemas que 
você pode enfrentar e conselhos práticos para escolher o melhor modelo de regressão. 
Tudo começa quando um pesquisador quer descrever matematicamente a relação entre 
algumas variáveis preditoras e a variável de resposta. A equipe de pesquisa encarregada de 
investigar, geralmente, mede muitas variáveis, mas inclui apenas algumas no modelo. Os 
analistas tentam eliminar as variáveis que não estão relacionadas e incluindo apenas aquelas 
com um relacionamento verdadeiro. Ao longo do caminho, os analistas consideram muitos 
modelos possíveis. 
Eles se esforçam para alcançar o equilíbrio de Goldilocks com a quantidade de variáveis 
preditoras que eles incluem. 
▪ Muito poucas: um modelo sub-especificado tende a produzir estimativas 
tendenciosas. 
▪ Muitas: um modelo super-dimensionado tende a ter estimativas menos precisas. 
▪ Apenas certo: um modelo com os termos corretos não possui viés e tem as estimativas 
mais precisas. 
Métodos estatísticos para encontrar o melhor modelo de regressão 
Para um bom modelo de regressão, é importante incluir as variáveis que se está testando 
junto com outras variáveis que afetam a resposta para evitar resultados tendenciosos. O 
Minitab oferece medidas e procedimentos estatísticos que o ajudam a especificar seu modelo 
de regressão. 
R-quadrado ajustado e R-quadrado previsto: Geralmente, você escolhe os modelos que 
possuem os maiores valores de R² ajustados e previstos. Essas estatísticas são projetadas para 
evitar um problema-chave com R² - ele aumenta cada vez que você adiciona uma variável 
preditora no modelo, levando você a um maior risco de enganar-se ao especificar um modelo 
excessivamente complexo. 
▪ O R² ajustado aumenta apenas se o novo termo melhorar o modelo mais do que seria 
esperado ao acaso, também podendo diminuir se forem adicionadas novas variáveis 
preditoras de baixa qualidade. 
▪ O R² previsto é uma forma de validação cruzada que também pode diminuir. A 
validação cruzada determina o quão bem o seu modelo se generaliza para outrosconjuntos de dados, dividindo seus dados. 
P-valores para os preditores: na regressão, p-valores baixos indicam termos que são 
estatisticamente significativos. "Reduzir o modelo" refere-se à prática de incluir todos os 
preditores candidatos no modelo e, em seguida, remover sistematicamente o termo com o p-
valor mais alto, um por um, até que você tenha apenas preditores significativos. 
Regressão stepwise e Regressão de subconjuntos melhores: são dois procedimentos 
automatizados que podem identificar preditores úteis durante as etapas exploratórias da 
construção do modelo. Com a melhor regressão de subconjuntos, o Minitab fornece o Cp de 
Mallows, que é uma estatística especificamente projetada para ajudá-lo a gerenciar o tradeoff 
entre precisão e viés. 
Complicações do mundo real 
Ótimo, há muitos métodos estatísticos para nos ajudar a escolher o melhor modelo. 
Infelizmente, também há uma série de possíveis complicações. Não se preocupe, vou fornecer 
alguns conselhos práticos adquiridos em muitos anos de consultoria. 
▪ O melhor modelo pode ser tão bom quanto as variáveis medidas pelo estudo. Os 
resultados das variáveis que você inclui na análise podem ser enviesados pelas 
variáveis significativas que você não inclui. 
▪ Sua amostra pode ser incomum, seja por acaso ou pela metodologia de coleta de 
dados. Falso positivo e falso negativo são parte do jogo quando se trabalha com 
amostras. 
▪ Os valores do p-valor podem mudar de acordo com os termos específicos do modelo. 
Em particular, a multicolinearidade pode prejudicar o significado e dificultar a 
determinação do papel de cada preditor. 
▪ Se você avaliar modelos suficientes, você encontrará variáveis que parecem 
significativas, mas que apenas correlacionam-se pelo acaso. Esta forma de mineração 
de dados pode tornar os dados aleatórios significativos. Um R² previsto é uma boa 
maneira de verificar esse problema. 
▪ Os valores do p-valor, o R² previsto e o ajustado, e o Cp de Mallows, podem sugerir 
modelos diferentes. 
▪ A regressão Stepwise e a melhor regressão de subconjuntos são excelentes 
ferramentas e podem aproximá-lo do modelo correto. No entanto, descobriu-se que 
geralmente eles não escolhem o modelo correto. 
Recomendações para encontrar o melhor modelo de regressão 
Escolher o modelo de regressão correto é tanto uma ciência quanto uma arte. Métodos 
estatísticos podem ajudá-lo a encontrar a direção certa, mas, em última instância, você 
precisará incorporar outras considerações. 
 
Teoria 
Pesquise o que outros fizeram e incorpore essas descobertas na construção do seu modelo. 
Antes de começar a análise de regressão, desenvolva uma ideia sobre como as variáveis 
importantes estão em suas relações, sinais de coeficientes e magnitudes de efeito. Com base 
nos resultados de outros, torna-se mais fácil coletar os dados corretos e especificar o melhor 
modelo de regressão sem a necessidade de mineração de dados. 
As considerações teóricas não deverão ser descartadas baseando-se somente nas medidas 
estatísticas. Depois de ajustar o seu modelo, determine se ele se alinha com a teoria e 
possivelmente faça ajustes. 
Por exemplo, com base na teoria, você pode incluir uma variável preditora no modelo, mesmo 
que seu p-valor não seja significativo. Se algum dos sinais do coeficiente contradisser a teoria, 
investigue e altere seu modelo ou explique a inconsistência. 
Complexidade 
Você pode pensar que os problemas complexos exigem modelos complexos, mas muitos 
estudos mostram que os modelos mais simples geralmente produzem previsões mais precisas. 
Dado vários modelos com habilidade explicativa similar, o mais simples é mais provável que 
seja a melhor escolha. Comece simples, e apenas faça o modelo mais complexo conforme 
necessário. Quanto mais complexo você fizer seu modelo, mais provável é que você esteja 
adaptando o modelo ao seu conjunto de dados específicos, e a generalização sofre. 
Verifique que a complexidade adicionada realmente produz intervalos de previsão mais 
estreitos. Verifique o R² previsto e não persiga um alto R²! 
Resíduos 
Conforme você avalia os modelos, verifique os lotes residuais porque eles podem ajudá-lo a 
evitar modelos inadequados e a ajustar seu modelo para obter melhores resultados. Por 
exemplo, o viés em modelos não especificados pode aparecer como padrões nos resíduos, 
como a necessidade de modelar a curvatura. O modelo mais simples que produz resíduos 
aleatórios é um bom candidato para ser um modelo relativamente preciso e imparcial. No 
final, nenhuma medida pode dizer-lhe qual modelo é o melhor. Os métodos estatísticos não 
entendem o processo subjacente ou a área do assunto. Seu conhecimento é uma parte crucial 
do processo! 
Stepwise versus Melhores Subconjuntos 
Imagine um cenário onde você tenha muitas variáveis preditoras e uma variável de resposta. 
Pelas tantas variáveis de preditoras, toda ajuda na criação de um bom modelo de regressão é 
importante. Você poderia tentar muitas combinações por conta própria. Mas você está com 
sorte! O Minitab possui duas ferramentas automáticas que o ajudarão a escolher um modelo 
de regressão. 
Essas ferramentas são Regressão Stepwise e Regressão de Melhor de Subconjuntos. Ambos 
identificam as variáveis preditoras que são úteis durante as etapas exploratórias da construção 
do modelo para a regressão dos mínimos quadrados ordinários. Estes são procedimentos 
excelentes, mas eles funcionam de uma maneira um pouco diferente. 
Regressão Stepwise 
A regressão stepwise seleciona um modelo adicionando ou removendo automaticamente 
preditores individuais, um passo de cada vez, com base na sua significância estatística. O 
resultado final desse processo é um modelo de regressão único, o que o torna agradável e 
simples. Você pode controlar os detalhes do processo, incluindo o nível de significância e se o 
processo só pode adicionar ou remover termos. 
Regressão dos melhores subconjuntos 
Os melhores subconjuntos comparam todos os modelos possíveis usando um conjunto 
específico de preditores e exibe os modelos de melhor ajuste que contêm um preditor, dois 
preditores e assim por diante. O resultado final é uma série de modelos e suas estatísticas 
resumidas. Depende de você comparar e escolher um. Às vezes, os resultados não apontam 
para um modelo melhor e seu julgamento é necessário. 
Comparação 
Ambos os procedimentos criam modelos de um conjunto de preditores que você especifica. 
Stepwise não avalia todos os modelos, mas constrói um modelo adicionando ou removendo 
um preditor de cada vez. A regressão dos melhores subconjuntos avaliam todos os modelos 
possíveis e apresentam os melhores candidatos. Já a regressão Stepwise produz um modelo 
único, que pode ser mais simples. A regressão dos melhores subconjuntos fornecem mais 
informações, incluindo mais modelos, mas pode ser mais complexo escolher um. Como a 
regressão dos melhores subconjuntos avalia todos os modelos possíveis, grandes modelos 
podem demorar muito para serem processados. 
Exemplo usando ambos os métodos 
Tudo bem, vamos fazer um único conjunto de dados, usar ambos os procedimentos e ver o 
que acontece. Para acompanhar, baixe o ThermalEnergyTest.MTW. 
Como parte de um teste de energia solar térmica, queremos examinar se o fluxo de calor total 
pode ser predito por várias variáveis, incluindo a posição dos pontos focais nas direções leste, 
sul e norte. 
Para ambos os procedimentos, incluirei a mesma variável de resposta e preditores. 
Variável Resposta: Heatflux 
Variáveis Preditoras: Insolação, Oriente, Sul, Norte, Hora 
Exemplo de Regressão Stepwise 
Vou começar com Stepwise. Você pode realizar uma regressão stepwise passo a passo no 
Mintiab pelo caminho: Stat> Regression> Regression> Fit Regression Model. É uma questão 
simples inserir a variável resposta e as variáveis preditoras na caixa de diálogo. Clique no botão 
Stepwise e escolha Stepwise para o método.As quatro etapas são executadas horizontalmente até a saída. Para cada passo, o 
procedimento adicionou os preditores: Norte, Sul, Oriente e Insolação. A partir desse ponto, 
nenhuma variável pode entrar ou sair, senão o procedimento para. Observe o modelo final, 
que tem um R² de 89,09%. Agradável e simples! 
Exemplo de Regressão dos melhores subconjuntos 
Agora, vamos usar as mesmas variáveis com a regressão dos Melhores Subconjuntos: Stat> 
Regression> Regression> Best Subsets. Vamos ficar com os padrões e obter a saída. 
 
 
Cada linha da saída representa um modelo diferente. Vars indica o número de variáveis 
preditoras no modelo. As variáveis preditoras que estão presentes no modelo são indicadas 
por um X, no final. O Minitab exibe os dois melhores modelos para cada número de variável 
preditora. Um bom modelo deve ter um R² e R² ajustado altos, um S pequeno e um Cp de 
Mallows próximo ao número de preditores no modelo e a constante. Usar o R² ajustado é 
recomendado sobre utilizar o R² para comparar modelos com diferentes números de termos. 
Destaca-se o modelo que a Regressão Stepwise escolheu. Com base nos critérios acima, parece 
ser um bom modelo. No entanto, a regressão dos melhores subconjuntos nos oferecem mais 
informações contextuais que podem ser úteis. Podemos ter prioridades específicas que afetem 
a nossa escolha para o melhor modelo. 
Por exemplo, se colocarmos uma prioridade maior em simplificar e reduzir os custos de coleta 
de dados, estaríamos interessados em ver que alguns modelos com um menor número de 
variáveis preditoras são quase tão bons. Por exemplo, o R² para o modelo de três variáveis 
com Oriente, Sul e Norte é apenas 1,7% menor que o modelo destacado. Além disso, o melhor 
modelo de duas variáveis também não está muito atrasado. 
Se colocássemos uma maior prioridade na precisão da predição, estaríamos interessados no 
modelo de 5 variáveis porque as estatísticas de ajuste do modelo são melhores. De fato, o R² 
ajustado para o modelo de 5 variáveis é um pouco melhor do que o modelo que a Regressão 
Stepwise escolheu. 
A informação adicional que a Regressão dos Melhores Conjuntos fornece, nos permite usar o 
conhecimento específico da área de estudo para ajudar a escolher o melhor modelo. No 
entanto, também requer um pouco mais de conhecimento e esforço. 
Verifique seus modelos com a função Regressão Ggeral 
Uma coisa que os melhores subconjuntos não podem fazer é verificar os gráficos de resíduos. 
Use a função “Fit Regression Model “ para avaliar seu modelo e obtenha estatísticas adicionais, 
pois isso irá ajudá-lo a escolher o modelo. 
Por exemplo, se estivéssemos interessados no modelo de cinco variáveis para termos o melhor 
ajuste e talvez as melhores previsões, veríamos que na saída do Modelo de Regressão 
Ajustado que o R² previsto cairia um pouco com o modelo de cinco variáveis. Isso tende a 
ocorrer quando o modelo é excessivamente complicado e começa a modelar o ruído nos 
dados. Quando isso acontece, o modelo se adapta aos dados originais, mas é menos capaz de 
fornecer previsões válidas para novas observações. Esta condição é conhecida como "modelo 
sobreajuste" e ilustra como os modelos de subconjuntos podem realmente prever futuras 
respostas com menor variação do que o modelo completo. 
Reflexões sobre Stepwise e Regressão dos Melhores Subconjuntos 
Os procedimentos automáticos de seleção de variáveis podem ser uma ferramenta valiosa na 
análise de dados, particularmente nos estágios iniciais da construção de um modelo. A escolha 
entre Stepwise e Best Subsets é, em grande parte, a escolha entre a conveniência de um único 
modelo versus a informação adicional que o Best Subsets fornece. Claro, você sempre pode 
optar pelos dois, como eu fiz. 
Os procedimentos geralmente funcionam muito bem, mas você deve estar ciente das possíveis 
armadilhas: 
▪ Procedimentos automáticos podem olhar para muitas variáveis e selecionar aquelas 
que, por puro acaso, se encaixam bem. Olhe os resultados de forma crítica e use o 
conhecimento técnico sobre o assunto para ver se os resultados têm sentido. 
▪ Os procedimentos automáticos não podem levar em conta o conhecimento especial 
que o analista pode ter sobre os dados. Portanto, o modelo selecionado pode não ser 
o melhor do ponto de vista prático. 
▪ Stepwise pode não selecionar o modelo com o valor R² mais alto. 
Cuidados com a interação entre as variáveis preditoras 
Você prefere o molho de ketchup ou shoyou? 
Se alguém lhe fez essa pergunta, sua resposta provavelmente depende do que está comendo. 
Você provavelmente não mergulharia seu sushi em ketchup. E a maioria das pessoas não 
parece gostar de comer molho de soja com batatas fritas quentes. 
Um erro comum ao usar ANOVA ou DOE para avaliar fatores 
Técnicas de modelagem como ANOVA ou Planejamento de Experimentos (DOE) podem 
determinar se os fatores de interesse afetam um processo. Por exemplo, você pode querer 
avaliar como várias configurações de tempo e temperatura afetam a qualidade do produto. Ou 
você pode querer determinar quais fatores influenciam no tempo de processamento de um 
empréstimo, ou ma satisfação do cliente, ou na lucratividade. 
Então você coleta dados sobre seus fatores de interesse, e agora está pronto para fazer sua 
análise. Este é o lugar onde muitas pessoas cometem o infeliz erro de olhar apenas para cada 
fator individualmente. 
Além de considerar a forma como cada fator afeta sua variável de resposta, você também 
precisa avaliar a interação entre esses fatores e determinar se algum deles também é 
significativo. E assim como sua preferência por molho de ketchup versus molho de soja 
depende do que você está comendo, as configurações ótimas para um determinado fator 
dependerão das configurações do outro fator quando uma interação estiver presente. 
Como avaliar e interpretar uma interação 
Vamos usar um exemplo de perda de peso para ilustrar como podemos avaliar uma interação 
entre fatores. Estamos avaliando 2 dietas diferentes e 2 diferentes programas de exercícios: 
um focado em cardio e um focado musculação. Queremos determinar qual dará o maior 
resultado na perda de peso. Atribuímos aleatoriamente os participantes para a dieta A ou B e 
para o regime de treinamento cardio ou musculação e, em seguida, registramos a quantidade 
de peso perdida após 1 mês. 
Aqui está um extrato dos dados: 
 
Para avaliar o efeito de múltiplos fatores em uma resposta contínua, podemos usar Stat> 
ANOVA> Modelo Linear Geral no Minitab, que produz os seguintes resultados para nossos 
dados: 
 
Podemos ver que o p-valor para a interação Exercício * Dieta é 0.000. Como esse p-valor tão 
pequeno, podemos concluir que existe uma interação significativa entre Exercício e Dieta. 
Então, qual dieta é melhor? Nossos dados sugerem que é como perguntar "ketchup ou molho 
de soja?" A resposta é: "Depende". 
Uma vez que a interação Exercício * Dieta é significativa, vamos usar um gráfico de interação 
para examinar de perto: 
 
Para os participantes que usam o programa cardio (mostrado em preto), podemos ver que a 
dieta A é melhor e resulta em maior perda de peso. No entanto, se você estiver seguindo o 
regime de treinamento de peso (mostrado em vermelho), a dieta B resulta em maior perda de 
peso do que A. 
O Perigo de Ignorar Interações entre Fatores 
Suponha que essa interação não esteja em nosso radar e, em vez disso, foquemos apenas nos 
efeitos individuais principais e o seu impacto na perda de peso: 
 
Com base nesse enredo, concluiremos incorretamente que a dieta A é melhor do que B. Como 
vimos do enredo de interação, o que só é verdade se olharmos para o grupo de cardio. 
Claramente, sempre precisamos avaliar interações ao analisar múltiplos fatores. Se você não 
fizer isso, corre o risco de tirar conclusões incorretas ... e você pode apenas obter ketchup para 
colocar em seu rolo de sushi. 
Cuidados para não “super ajustar” os modelosde regressão 
Na análise de regressão, ajustar demais um modelo é um problema real. Um modelo 
sobreajuste pode fazer com que os coeficientes de regressão, p-valores e R-quadrados sejam 
enganadores. Nessa sessão explicar-se-á o que é um modelo de regressão sobreajuste e a 
como detectar e evitar esse problema. 
Um modelo de regressão sobreajuste que é muito complicado e que foi ajustado apenas para 
o seu conjunto de dados. Quando isso acontece, o modelo de regressão torna-se adaptado 
para ajustar as peculiaridades e o ruído aleatório em sua amostra específica em vez de refletir 
a população em geral. Se você retirasse outra amostra de dados, teria suas próprias 
peculiaridades, e seu modelo sobreajuste original provavelmente não caberia aos novos 
dados. 
Em vez disso, temos que elaborar um modelo que se aproxime do verdadeiro para toda a 
população. Nosso modelo não deve apenas caber na amostra atual, mas também nas novas 
amostras. 
O gráfico de linha ajustado ilustra os perigos de super ajustar modelos de regressão. Este 
modelo parece explicar muito da variação na variável de resposta. No entanto, o modelo é 
muito complexo para os dados da amostra. Na população geral, não existe uma relação real 
entre a variável preditora e a variável resposta. 
 
Fundamentos de Estatísticas Inferenciais 
Para entender como o super-ajuste causa problemas, precisamos voltar ao básico sobre as 
estatísticas inferenciais. O objetivo geral das estatísticas inferenciais é tirar conclusões sobre 
uma população maior de uma amostra aleatória. As estatísticas inferenciais usam os dados da 
amostra para fornecer: 
▪ Estimativas imparciais de propriedades e relacionamentos dentro da população. 
▪ Testes de hipóteses que avaliem declarações sobre toda a população. 
Um conceito importante nas estatísticas inferenciais é que a quantidade de informações que 
você pode aprender sobre uma população é limitada pelo tamanho da amostra. Quanto mais 
quiser aprender, maior será o seu tamanho de amostra. 
Você provavelmente entende esse conceito intuitivamente, mas aqui está um exemplo. Se 
você tiver um tamanho de amostra de 20 e quiser estimar uma média de população, 
provavelmente está em boa forma. No entanto, se você quiser estimar médias de duas 
populações usando o mesmo tamanho total da amostra, de repente isso pode dar errado. Se 
você aumentar isso para a média de três populações, isso começa a parecer muito ruim. 
A qualidade dos resultados piora quando você tenta aprender muito com uma amostra. À 
medida que o número de observações por parâmetro diminui no exemplo acima (20, 10, 6.7, 
etc.), as estimativas tornam-se mais erráticas e uma nova amostra tem menos probabilidade 
de reproduzi-las. 
Aplicando esses conceitos para sobreajustar modelos de regressão 
 
De forma semelhante, sobre ajustar um modelo de regressão acontece quando você tenta 
estimar muitos parâmetros de uma população com uma amostra que é muito pequena. A 
análise de regressão usa uma amostra para estimar os valores dos coeficientes para todos os 
termos da equação. O tamanho da amostra limita o número de termos que você pode incluir 
com segurança antes de começar a superar o modelo. A quantidade de termos no modelo 
inclui todos os preditores, efeitos de interação e termos de polinômios (para modelar a 
curvatura). 
Maiores tamanhos de amostra permitem especificar modelos mais complexos. Para resultados 
confiáveis, o tamanho da amostra deve ser grande o suficiente para suportar o nível de 
complexidade exigido pela pergunta da sua pesquisa. Se seu tamanho de amostra não for 
grande o suficiente, você não poderá ajustar um modelo que se aproxime adequadamente do 
modelo verdadeiro para sua variável de resposta. Você não poderá confiar nos resultados. 
Assim como o exemplo com múltiplos meios, você deve ter um número suficiente de 
observações para cada termo em um modelo de regressão. Estudos de simulação mostram 
que uma boa regra é ter 10-15 observações por período em regressão linear múltipla. 
Por exemplo, se seu modelo contém duas variáveis preditoras e um termo de interação, você 
precisará de 30 a 45 observações. No entanto, se o tamanho do efeito for pequeno ou a 
multicolinearidade elevada, você precisará de mais observações por período. 
Como detectar e evitar modelos com sobreajuste 
A validação cruzada pode detectar modelos com sobreajuste, determinando o quão bem o seu 
modelo se generaliza para outros conjuntos de dados, particionando seus dados. Este processo 
ajuda você a avaliar o quão bem o modelo se adapta a novas observações que não foram 
usadas no processo de estimativa do modelo. 
O software estatístico Minitab fornece uma excelente solução de validação cruzada para 
modelos lineares calculando o R² previsto. Esta estatística é uma forma de validação cruzada 
que não exige que você colete uma amostra separada. Em vez disso, o Minitab calcula o R² 
previsto, eliminando sistematicamente cada observação do conjunto de dados, estimando a 
equação de regressão e determinando como o modelo prediz a observação removida. 
Se o modelo faz um mau trabalho ao prever as observações removidas, isso indica que o 
modelo provavelmente é adaptado aos pontos de dados específicos que estão incluídos na 
amostra e não generalizáveis fora da amostra. 
Para evitar o sobreajuste do seu modelo em primeiro lugar, colete uma amostra 
suficientemente grande para que você possa incluir com segurança todos os preditores, efeitos 
de interação e polinomial lógicos que sua variável de resposta requer. O processo científico 
envolve muita pesquisa antes mesmo de começar a coletar dados. Você deve identificar as 
variáveis importantes, o modelo que você provavelmente especificará e usar essas 
informações para estimar um bom tamanho de amostra.

Continue navegando