[FM2S] Analise de Regressão

•

ESTÁCIO

milogomes

01/10/2022

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Qualidade I

4.895 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Análise de Regressão Tutorial e Exemplos
Este tutorial abrange vários aspectos da análise de regressão, incluindo: escolher o tipo de
análise de regressão a ser usada, especificar o modelo, interpretar os resultados, determinar
como o modelo se encaixa, fazer previsões e verificar os pressupostos. No final, incluo
exemplos de diferentes tipos de análises de regressão.
Por que escolher a regressão e as marcas de uma boa análise de regressão?
Antes de começar o tutorial de análise de regressão, há várias questões importantes a serem
respondidas.
Por que devemos escolher a regressão? Quais são os erros comuns que os especialistas fazem
quando se trata de análise de regressão? E, como você distingue uma boa análise de regressão
de uma análise de regressão menos rigorosa? Vamos ver um apanhado geral.
Tutorial: como escolher o tipo correto de análise de regressão?
Suculento, peru grelhado de manteiga.
Salpicão. Tender. Lombo. Farofa. Pernil. Leitoa....
O menu tradicional de Natal tem tantos pratos deliciosos sobre a mesa, você não sabe por
onde começar.
Se você saborear as estatísticas tanto quanto a comida, você pode se sentir da mesma forma
quando olhar para todas as deliciosas análises no menu Minitab Regression, que é o Menu de
Regressão.

Como você pode decidir qual análise de regressão escolher? Vou dar-lhe algumas amostras de
cada prato de regressão para ajudá-lo a decidir qual deles colocar no prato.
Regressão com uma resposta categórica

Já notou as linhas de divisão horizontal nos menus do Minitab? Pense nelas como os
separadores em um prato de papel que protege seu molho mostarda de correr para seu
nhoque ao sugo, evitando que eles seu nhoque transforme-se num estranho molho rose.
Por exemplo, a linha na parte inferior do menu separa cuidadosamente todas as análises de
regressão que possuem uma variável de resposta categórica.

Para usar uma dessas análises, cada resposta em seus dados deve cair em uma categoria
separada. Escolha entre eles de acordo com o tipo de resposta categórica que você possui.
Aqui está um cenário concreto:
Você seleciona aleatoriamente 100 indivíduos no Natal e anota quantos pedaços de cada prato
eles possuem.
Agora você quer utilizar uma análise de regressão para descrever a relação entre as variáveis
preditoras (o número de porções servidas de cada prato) e a variável resposta.
Regressão logística binária: a resposta cai em uma das duas categorias. Há duas respostas
possíveis.
Exemplo: você rastreia se cada pessoa tomou um antiácido após a Ceia de Natal ou não (Sim
ou Não)

As chances de uma pessoa que tomar um antiácido aumentam, em média, 2,35 vezes com
cada porção de batata doce confeitada.
__________________________________________________________
Regressão Logística Ordinária: as categorias de sua resposta podem ser ordenadas da menor
para a maior.
Exemplo: Você grava quantos buracos da cinta, cada pessoa aumentou após o jantar (0-4
entalhes)

Em média, cada porção adicional de purê de batatas resulta em um aumento de 36% nas
chances de expandir seu cinto após a ceia.
__________________________________________________________
Regressão Logística Nominal: as categorias de sua resposta não seguem uma ordem.
Exemplo: Você pergunta a cada pessoa qual dos animais que mais elas mais se assemelham
após a ceia de Natal: uma baleia encalhada, um elefante marinho ou uma anaconda depois de
engolir um porco selvagem.

Com cada porção adicional de peru, as pessoas são 4,37 vezes mais propensas a se sentir como
uma anaconda depois de engolir porco selvagem do que uma baleia encalhada.
__________________________________________________________
Regressão com uma resposta contínua
A linha no topo do menu Regression do Minitab separa cuidadosamente análises de regressão
que usam uma variável de resposta contínua.

Para usar uma dessas análises, cada resposta deve ser uma variável contínua, como
comprimento, peso ou tempo.
__________________________________________________________
Regressão: você tem um ou mais variáveis preditoras contínuas e uma variável resposta
contínua.
Exemplo: você acompanha quantos minutos cada pessoa gasta deitada no chão da sala de
estar, depois do jantar da Ceia de Natal.

Cada porção adicional de castanha resulta em um aumento de 4,28 minutos, em média,
deitado no chão da sala após a ceia (quando as porções de todos os outros pratos são
mantidas constantes).
__________________________________________________________
Regressão geral: você tem uma mistura de variáveis preditoras categóricas e contínuas e uma
variável resposta contínua.
Exemplo: Além das variáveis preditoras contínuas para as porções de cada prato, seu modelo
para o tempo em que a pessoa fica deitada, também inclui uma variável preditora categórica.
Essa variável categórica indica, sim ou não, se a pessoa comeu lanches antes da Ceia de Natal.

Comer lanches antes da Ceia de Natal aumenta o tempo que as pessoas passam deitadas no
chão em cerca de 17 minutos, em média, quando as porções de todos os outros pratos são
mantidas constantes.
__________________________________________________________
Regressão Passo a Passo: Minitab identifica um subconjunto útil de variáveis preditoras com
base na significância estatística delas (usando stepwise, seleção para frente ou eliminação para
trás)
Exemplo: você quer que o Minitab lhe diga quais pratos têm um efeito estatisticamente
significativo sobre o número de minutos que as pessoas passam deitados no chão depois do
jantar.

Dos 7 pratos na mesa, o Minitab determina que a porção de castanha e o pão de milho são as
variáveis preditoras com significância estatística para avaliar o tempo gasto deitado no chão.
__________________________________________________________
Regressão dos Melhores Subconjuntos: o Minitab identifica um subconjunto útil de variáveis
preditoras com base no quanto de variação o modelo explica (o critério R² máximo).
Exemplo: Você quer que Minitab lhe diga qual combinação de pratos explica a maior parte da
variação no número de minutos que as pessoas passam deitadas no chão.

No caso do jantar, 2 das 7 variáveis preditoras do modelo, o ressalto da casquinha de molho de
maionese (CR) e o pão de milho (CB), explicam a maior variação no tempo gasto deitado no
chão. A adição de mais preditores (pratos) não aumenta significativamente o valor do R².
____________________________________________________________________________
Linha Ajustada: exibe uma linha ajustada de uma regressão. É possível apenas com uma
variável preditora contínua e uma variável resposta contínua.
Exemplo: você deseja visualizar a associação entre as porções de comida ingeridas e o tempo
gasto deitado no chão.

Há uma associação quadrática fraca, mas estatisticamente significante entre as porções de
comida ingeridas e o tempo gasto deitado no chão.
Regressão não linear: especifica uma função não-linear para modelar a relação entre variáveis
preditoras contínuas e uma variável resposta contínua.
Exemplo: Tio Alberto, um brilhante Ph.D. químico, realizou experimentos sobre as
propriedades químicas das castanhas e seu efeito nas reações enzimáticas metabólicas que
induzem fadiga. Com base em sua pesquisa, ele sabe que ele pode modelar a relação entre
porções de castanha ingeridas e a postura pós-prandial por meio de uma curva de crescimento
de Gompertz com três parâmetros.

A função exponencial teórica de tio Alberto de uma função exponencial negativa descreve a
relação entre a porção de castanha e o tempo deitado no chão. No entanto, tio Alberto é o
único que entende seu modelo não-linear complexo. Quando tenta explicar depois do jantar,
todos adormecem no chão.
Análises de regressão especializadas

Duas análises no menu Regressão formam sua própria categoria. Essas análises modelam uma
variávelde resposta contínua e variáveis preditoras contínuas, mas suas aplicações são
especializadas.
Regressão ortogonal: testa se dois instrumentos ou métodos fornecem medidas comparáveis.
Exemplo: A vovó adquiriu um novo termômetro de peru digital para um presente, mas
suspeita de que não funcione tão bem como o seu antigo termômetro. Antes do Natal, ela a
testa usando os termômetros para medir a temperatura em uma panela com água. Para testar,
ela esfria a água na geladeira e aquece no fogão, registrando a temperatura medida em cada
instrumento.

Apesar das suspeitas da avó, o termômetro digital é equivalente ao seu termômetro de metal.
(O intervalo de confiança para a inclinação inclui 1 e o intervalo de confiança para a constante
inclui 0.)
__________________________________________________________
Regressão de mínimos quadrados parciais: você tem poucas observações em relação ao
número de variáveis preditoras, ou elas estão altamente associadas entre si, tornando
problemática uma análise de regressão padrão.
Exemplo: suponha que seu estudo da Ceia de Natal tenha amostrado apenas 10 indivíduos, em
vez de 100 indivíduos, mas ainda incluíram todas as 7 variáveis preditoras. Sua pequena
amostra causou alto erro padrão para as estimativas de coeficientes. Além disso, as mesmas
pessoas que comeram muitas porções de castanha também comeram muitas porções de purê
de batatas e peru, e tiveram respostas semelhantes, fazendo com que essas variáveis
preditoras fossem correlacionados.

Ao usar um modelo de mínimos quadrados parciais com 6 componentes, cada um formado por
uma combinação linear das variáveis preditoras, você pode explicar cerca de 84% da variação
no tempo de permanência na posição deitado. Adicionar outro componente não aumenta
muito o R².
A Regressão é Linear ou Não Linear?
Como você provavelmente notou, o campo das estatísticas é enorme. Precisa de mais
evidências? A regressão linear pode produzir linhas curvas e a regressão não linear não é
nomeada por suas linhas curvas.
Então, quando você deve usar regressão não linear ao invés de métodos lineares, como
regressão linear, melhores subconjuntos ou regressão stepwise?
De um modo geral, você deve tentar a regressão linear primeiro. É mais fácil de usar e mais
fácil de interpretar. No entanto, se você simplesmente não conseguir um bom ajuste com
regressão linear, então talvez seja hora de tentar a regressão não linear.
Vejamos um caso em que a regressão linear não funciona. Muitas vezes, o problema é que,
mesmo que a regressão linear possa modelar curvas, talvez não seja capaz de modelar a curva
específica que existe em seus dados. Os gráficos abaixo ilustram isso com um modelo linear
que contém uma variável preditora cúbica.

O gráfico de linha ajustado mostra que os dados brutos seguem uma boa função e o R² é
98,5%, o que parece muito bom. No entanto, olhe mais de perto e a linha de regressão passa
acima ou abaixo dos dados sistematicamente em diferentes pontos da curva. Quando você
verifica os lotes de resíduos (o que você sempre faz, certo?), você vê padrões no plano de
resíduos versus o ajuste, em vez da aleatoriedade que deseja ver. Isso indica um ajuste ruim,
mas é o melhor que a regressão linear pode fazer.
Vamos tentar novamente, mas usando regressão não-linear. É importante notar que, porque a
regressão não linear permite um número quase infinito de funções possíveis, pode ser mais
difícil de configurar. Neste caso, exigiu um esforço considerável para determinar a função que
proporcionou o ajuste ideal para a curva específica presente nesses dados, mas como meu
ponto principal é explicar quando você deve usar a regressão não linear em vez de linear, não
precisamos relacionar todos esses detalhes aqui.

O gráfico de linha ajustado mostra que a linha de regressão segue os dados quase que
exatamente - não há desvios sistemáticos. É impossível calcular R² para a regressão não linear,
mas o valor de S (aproximadamente, a distância absoluta média dos pontos para a linha de
regressão) melhora de 72,4 (linear) para apenas 13,7 na regressão não-linear. Você quer um
valor S mais baixo porque quer que os pontos estejam mais próximos da linha ajustada. Além
disso, o gráfico dos resíduos versus ajuste mostra a aleatoriedade que se deseja ver. É um bom
ajuste!
A regressão não linear pode ser uma alternativa poderosa à regressão linear, mas existem
algumas desvantagens. Além da dificuldade acima mencionada na criação da análise e da falta
do R², esteja ciente de que:

▪ O efeito que cada preditor tem na resposta pode ser menos intuitivo de entender.
▪ Os valores do p-valor são impossíveis de calcular para as variáveis preditoras.
▪ Os intervalos de confiança podem ou não ser calculáveis.
Se você estiver usando o Minitab agora, você pode jogar com esses dados, indo em Arquivo ->
Abrir Planilha e, em seguida, clique no ícone Procurar no Minitab Sample Data e escolha
Mobility.MTW. Esses dados são os mesmos do exemplo.
Como especificar seu modelo de regressão?

Escolher o tipo correto de análise de regressão é apenas o primeiro passo. Em seguida, você
precisa especificar o modelo. A especificação do modelo consiste em determinar quais
variáveis de preditoras devem ser inclusas no modelo e se você precisa modelar a curvatura e
as interações entre as variáveis preditoras.
Especificar um modelo de regressão é um processo iterativo. Vamos mostrar aqui como
confirmar que você especificou o modelo corretamente e como ajustar seu modelo com base
nos resultados.
Como escolher o melhor modelo de regressão?
Escolher o modelo de regressão linear correto pode ser difícil. Afinal, como o mundo funciona
é complexo. Tentar modelá-lo com apenas uma amostra não é das tarefas mais fáceis. Nesta
seção, vamos ver alguns métodos estatísticos comuns para selecionar modelos, problemas que
você pode enfrentar e conselhos práticos para escolher o melhor modelo de regressão.
Tudo começa quando um pesquisador quer descrever matematicamente a relação entre
algumas variáveis preditoras e a variável de resposta. A equipe de pesquisa encarregada de
investigar, geralmente, mede muitas variáveis, mas inclui apenas algumas no modelo. Os
analistas tentam eliminar as variáveis que não estão relacionadas e incluindo apenas aquelas
com um relacionamento verdadeiro. Ao longo do caminho, os analistas consideram muitos
modelos possíveis.
Eles se esforçam para alcançar o equilíbrio de Goldilocks com a quantidade de variáveis
preditoras que eles incluem.
▪ Muito poucas: um modelo sub-especificado tende a produzir estimativas
tendenciosas.
▪ Muitas: um modelo super-dimensionado tende a ter estimativas menos precisas.
▪ Apenas certo: um modelo com os termos corretos não possui viés e tem as estimativas
mais precisas.
Métodos estatísticos para encontrar o melhor modelo de regressão
Para um bom modelo de regressão, é importante incluir as variáveis que se está testando
junto com outras variáveis que afetam a resposta para evitar resultados tendenciosos. O
Minitab oferece medidas e procedimentos estatísticos que o ajudam a especificar seu modelo
de regressão.
R-quadrado ajustado e R-quadrado previsto: Geralmente, você escolhe os modelos que
possuem os maiores valores de R² ajustados e previstos. Essas estatísticas são projetadas para
evitar um problema-chave com R² - ele aumenta cada vez que você adiciona uma variável
preditora no modelo, levando você a um maior risco de enganar-se ao especificar um modelo
excessivamente complexo.
▪ O R² ajustado aumenta apenas se o novo termo melhorar o modelo mais do que seria
esperado ao acaso, também podendo diminuir se forem adicionadas novas variáveis
preditoras de baixa qualidade.
▪ O R² previsto é uma forma de validação cruzada que também pode diminuir. A
validação cruzada determina o quão bem o seu modelo se generaliza para outrosconjuntos de dados, dividindo seus dados.
P-valores para os preditores: na regressão, p-valores baixos indicam termos que são
estatisticamente significativos. "Reduzir o modelo" refere-se à prática de incluir todos os
preditores candidatos no modelo e, em seguida, remover sistematicamente o termo com o p-
valor mais alto, um por um, até que você tenha apenas preditores significativos.
Regressão stepwise e Regressão de subconjuntos melhores: são dois procedimentos
automatizados que podem identificar preditores úteis durante as etapas exploratórias da
construção do modelo. Com a melhor regressão de subconjuntos, o Minitab fornece o Cp de
Mallows, que é uma estatística especificamente projetada para ajudá-lo a gerenciar o tradeoff
entre precisão e viés.
Complicações do mundo real
Ótimo, há muitos métodos estatísticos para nos ajudar a escolher o melhor modelo.
Infelizmente, também há uma série de possíveis complicações. Não se preocupe, vou fornecer
alguns conselhos práticos adquiridos em muitos anos de consultoria.
▪ O melhor modelo pode ser tão bom quanto as variáveis medidas pelo estudo. Os
resultados das variáveis que você inclui na análise podem ser enviesados pelas
variáveis significativas que você não inclui.
▪ Sua amostra pode ser incomum, seja por acaso ou pela metodologia de coleta de
dados. Falso positivo e falso negativo são parte do jogo quando se trabalha com
amostras.
▪ Os valores do p-valor podem mudar de acordo com os termos específicos do modelo.
Em particular, a multicolinearidade pode prejudicar o significado e dificultar a
determinação do papel de cada preditor.
▪ Se você avaliar modelos suficientes, você encontrará variáveis que parecem
significativas, mas que apenas correlacionam-se pelo acaso. Esta forma de mineração
de dados pode tornar os dados aleatórios significativos. Um R² previsto é uma boa
maneira de verificar esse problema.
▪ Os valores do p-valor, o R² previsto e o ajustado, e o Cp de Mallows, podem sugerir
modelos diferentes.
▪ A regressão Stepwise e a melhor regressão de subconjuntos são excelentes
ferramentas e podem aproximá-lo do modelo correto. No entanto, descobriu-se que
geralmente eles não escolhem o modelo correto.
Recomendações para encontrar o melhor modelo de regressão
Escolher o modelo de regressão correto é tanto uma ciência quanto uma arte. Métodos
estatísticos podem ajudá-lo a encontrar a direção certa, mas, em última instância, você
precisará incorporar outras considerações.

Teoria
Pesquise o que outros fizeram e incorpore essas descobertas na construção do seu modelo.
Antes de começar a análise de regressão, desenvolva uma ideia sobre como as variáveis
importantes estão em suas relações, sinais de coeficientes e magnitudes de efeito. Com base
nos resultados de outros, torna-se mais fácil coletar os dados corretos e especificar o melhor
modelo de regressão sem a necessidade de mineração de dados.
As considerações teóricas não deverão ser descartadas baseando-se somente nas medidas
estatísticas. Depois de ajustar o seu modelo, determine se ele se alinha com a teoria e
possivelmente faça ajustes.
Por exemplo, com base na teoria, você pode incluir uma variável preditora no modelo, mesmo
que seu p-valor não seja significativo. Se algum dos sinais do coeficiente contradisser a teoria,
investigue e altere seu modelo ou explique a inconsistência.
Complexidade
Você pode pensar que os problemas complexos exigem modelos complexos, mas muitos
estudos mostram que os modelos mais simples geralmente produzem previsões mais precisas.
Dado vários modelos com habilidade explicativa similar, o mais simples é mais provável que
seja a melhor escolha. Comece simples, e apenas faça o modelo mais complexo conforme
necessário. Quanto mais complexo você fizer seu modelo, mais provável é que você esteja
adaptando o modelo ao seu conjunto de dados específicos, e a generalização sofre.
Verifique que a complexidade adicionada realmente produz intervalos de previsão mais
estreitos. Verifique o R² previsto e não persiga um alto R²!
Resíduos
Conforme você avalia os modelos, verifique os lotes residuais porque eles podem ajudá-lo a
evitar modelos inadequados e a ajustar seu modelo para obter melhores resultados. Por
exemplo, o viés em modelos não especificados pode aparecer como padrões nos resíduos,
como a necessidade de modelar a curvatura. O modelo mais simples que produz resíduos
aleatórios é um bom candidato para ser um modelo relativamente preciso e imparcial. No
final, nenhuma medida pode dizer-lhe qual modelo é o melhor. Os métodos estatísticos não
entendem o processo subjacente ou a área do assunto. Seu conhecimento é uma parte crucial
do processo!
Stepwise versus Melhores Subconjuntos
Imagine um cenário onde você tenha muitas variáveis preditoras e uma variável de resposta.
Pelas tantas variáveis de preditoras, toda ajuda na criação de um bom modelo de regressão é
importante. Você poderia tentar muitas combinações por conta própria. Mas você está com
sorte! O Minitab possui duas ferramentas automáticas que o ajudarão a escolher um modelo
de regressão.
Essas ferramentas são Regressão Stepwise e Regressão de Melhor de Subconjuntos. Ambos
identificam as variáveis preditoras que são úteis durante as etapas exploratórias da construção
do modelo para a regressão dos mínimos quadrados ordinários. Estes são procedimentos
excelentes, mas eles funcionam de uma maneira um pouco diferente.
Regressão Stepwise
A regressão stepwise seleciona um modelo adicionando ou removendo automaticamente
preditores individuais, um passo de cada vez, com base na sua significância estatística. O
resultado final desse processo é um modelo de regressão único, o que o torna agradável e
simples. Você pode controlar os detalhes do processo, incluindo o nível de significância e se o
processo só pode adicionar ou remover termos.
Regressão dos melhores subconjuntos
Os melhores subconjuntos comparam todos os modelos possíveis usando um conjunto
específico de preditores e exibe os modelos de melhor ajuste que contêm um preditor, dois
preditores e assim por diante. O resultado final é uma série de modelos e suas estatísticas
resumidas. Depende de você comparar e escolher um. Às vezes, os resultados não apontam
para um modelo melhor e seu julgamento é necessário.
Comparação
Ambos os procedimentos criam modelos de um conjunto de preditores que você especifica.
Stepwise não avalia todos os modelos, mas constrói um modelo adicionando ou removendo
um preditor de cada vez. A regressão dos melhores subconjuntos avaliam todos os modelos
possíveis e apresentam os melhores candidatos. Já a regressão Stepwise produz um modelo
único, que pode ser mais simples. A regressão dos melhores subconjuntos fornecem mais
informações, incluindo mais modelos, mas pode ser mais complexo escolher um. Como a
regressão dos melhores subconjuntos avalia todos os modelos possíveis, grandes modelos
podem demorar muito para serem processados.
Exemplo usando ambos os métodos
Tudo bem, vamos fazer um único conjunto de dados, usar ambos os procedimentos e ver o
que acontece. Para acompanhar, baixe o ThermalEnergyTest.MTW.
Como parte de um teste de energia solar térmica, queremos examinar se o fluxo de calor total
pode ser predito por várias variáveis, incluindo a posição dos pontos focais nas direções leste,
sul e norte.
Para ambos os procedimentos, incluirei a mesma variável de resposta e preditores.
Variável Resposta: Heatflux
Variáveis Preditoras: Insolação, Oriente, Sul, Norte, Hora
Exemplo de Regressão Stepwise
Vou começar com Stepwise. Você pode realizar uma regressão stepwise passo a passo no
Mintiab pelo caminho: Stat> Regression> Regression> Fit Regression Model. É uma questão
simples inserir a variável resposta e as variáveis preditoras na caixa de diálogo. Clique no botão
Stepwise e escolha Stepwise para o método.As quatro etapas são executadas horizontalmente até a saída. Para cada passo, o
procedimento adicionou os preditores: Norte, Sul, Oriente e Insolação. A partir desse ponto,
nenhuma variável pode entrar ou sair, senão o procedimento para. Observe o modelo final,
que tem um R² de 89,09%. Agradável e simples!
Exemplo de Regressão dos melhores subconjuntos
Agora, vamos usar as mesmas variáveis com a regressão dos Melhores Subconjuntos: Stat>
Regression> Regression> Best Subsets. Vamos ficar com os padrões e obter a saída.

Cada linha da saída representa um modelo diferente. Vars indica o número de variáveis
preditoras no modelo. As variáveis preditoras que estão presentes no modelo são indicadas
por um X, no final. O Minitab exibe os dois melhores modelos para cada número de variável
preditora. Um bom modelo deve ter um R² e R² ajustado altos, um S pequeno e um Cp de
Mallows próximo ao número de preditores no modelo e a constante. Usar o R² ajustado é
recomendado sobre utilizar o R² para comparar modelos com diferentes números de termos.
Destaca-se o modelo que a Regressão Stepwise escolheu. Com base nos critérios acima, parece
ser um bom modelo. No entanto, a regressão dos melhores subconjuntos nos oferecem mais
informações contextuais que podem ser úteis. Podemos ter prioridades específicas que afetem
a nossa escolha para o melhor modelo.
Por exemplo, se colocarmos uma prioridade maior em simplificar e reduzir os custos de coleta
de dados, estaríamos interessados em ver que alguns modelos com um menor número de
variáveis preditoras são quase tão bons. Por exemplo, o R² para o modelo de três variáveis
com Oriente, Sul e Norte é apenas 1,7% menor que o modelo destacado. Além disso, o melhor
modelo de duas variáveis também não está muito atrasado.
Se colocássemos uma maior prioridade na precisão da predição, estaríamos interessados no
modelo de 5 variáveis porque as estatísticas de ajuste do modelo são melhores. De fato, o R²
ajustado para o modelo de 5 variáveis é um pouco melhor do que o modelo que a Regressão
Stepwise escolheu.
A informação adicional que a Regressão dos Melhores Conjuntos fornece, nos permite usar o
conhecimento específico da área de estudo para ajudar a escolher o melhor modelo. No
entanto, também requer um pouco mais de conhecimento e esforço.
Verifique seus modelos com a função Regressão Ggeral
Uma coisa que os melhores subconjuntos não podem fazer é verificar os gráficos de resíduos.
Use a função “Fit Regression Model “ para avaliar seu modelo e obtenha estatísticas adicionais,
pois isso irá ajudá-lo a escolher o modelo.
Por exemplo, se estivéssemos interessados no modelo de cinco variáveis para termos o melhor
ajuste e talvez as melhores previsões, veríamos que na saída do Modelo de Regressão
Ajustado que o R² previsto cairia um pouco com o modelo de cinco variáveis. Isso tende a
ocorrer quando o modelo é excessivamente complicado e começa a modelar o ruído nos
dados. Quando isso acontece, o modelo se adapta aos dados originais, mas é menos capaz de
fornecer previsões válidas para novas observações. Esta condição é conhecida como "modelo
sobreajuste" e ilustra como os modelos de subconjuntos podem realmente prever futuras
respostas com menor variação do que o modelo completo.
Reflexões sobre Stepwise e Regressão dos Melhores Subconjuntos
Os procedimentos automáticos de seleção de variáveis podem ser uma ferramenta valiosa na
análise de dados, particularmente nos estágios iniciais da construção de um modelo. A escolha
entre Stepwise e Best Subsets é, em grande parte, a escolha entre a conveniência de um único
modelo versus a informação adicional que o Best Subsets fornece. Claro, você sempre pode
optar pelos dois, como eu fiz.
Os procedimentos geralmente funcionam muito bem, mas você deve estar ciente das possíveis
armadilhas:
▪ Procedimentos automáticos podem olhar para muitas variáveis e selecionar aquelas
que, por puro acaso, se encaixam bem. Olhe os resultados de forma crítica e use o
conhecimento técnico sobre o assunto para ver se os resultados têm sentido.
▪ Os procedimentos automáticos não podem levar em conta o conhecimento especial
que o analista pode ter sobre os dados. Portanto, o modelo selecionado pode não ser
o melhor do ponto de vista prático.
▪ Stepwise pode não selecionar o modelo com o valor R² mais alto.
Cuidados com a interação entre as variáveis preditoras
Você prefere o molho de ketchup ou shoyou?
Se alguém lhe fez essa pergunta, sua resposta provavelmente depende do que está comendo.
Você provavelmente não mergulharia seu sushi em ketchup. E a maioria das pessoas não
parece gostar de comer molho de soja com batatas fritas quentes.
Um erro comum ao usar ANOVA ou DOE para avaliar fatores
Técnicas de modelagem como ANOVA ou Planejamento de Experimentos (DOE) podem
determinar se os fatores de interesse afetam um processo. Por exemplo, você pode querer
avaliar como várias configurações de tempo e temperatura afetam a qualidade do produto. Ou
você pode querer determinar quais fatores influenciam no tempo de processamento de um
empréstimo, ou ma satisfação do cliente, ou na lucratividade.
Então você coleta dados sobre seus fatores de interesse, e agora está pronto para fazer sua
análise. Este é o lugar onde muitas pessoas cometem o infeliz erro de olhar apenas para cada
fator individualmente.
Além de considerar a forma como cada fator afeta sua variável de resposta, você também
precisa avaliar a interação entre esses fatores e determinar se algum deles também é
significativo. E assim como sua preferência por molho de ketchup versus molho de soja
depende do que você está comendo, as configurações ótimas para um determinado fator
dependerão das configurações do outro fator quando uma interação estiver presente.
Como avaliar e interpretar uma interação
Vamos usar um exemplo de perda de peso para ilustrar como podemos avaliar uma interação
entre fatores. Estamos avaliando 2 dietas diferentes e 2 diferentes programas de exercícios:
um focado em cardio e um focado musculação. Queremos determinar qual dará o maior
resultado na perda de peso. Atribuímos aleatoriamente os participantes para a dieta A ou B e
para o regime de treinamento cardio ou musculação e, em seguida, registramos a quantidade
de peso perdida após 1 mês.
Aqui está um extrato dos dados:

Para avaliar o efeito de múltiplos fatores em uma resposta contínua, podemos usar Stat>
ANOVA> Modelo Linear Geral no Minitab, que produz os seguintes resultados para nossos
dados:

Podemos ver que o p-valor para a interação Exercício * Dieta é 0.000. Como esse p-valor tão
pequeno, podemos concluir que existe uma interação significativa entre Exercício e Dieta.
Então, qual dieta é melhor? Nossos dados sugerem que é como perguntar "ketchup ou molho
de soja?" A resposta é: "Depende".
Uma vez que a interação Exercício * Dieta é significativa, vamos usar um gráfico de interação
para examinar de perto:

Para os participantes que usam o programa cardio (mostrado em preto), podemos ver que a
dieta A é melhor e resulta em maior perda de peso. No entanto, se você estiver seguindo o
regime de treinamento de peso (mostrado em vermelho), a dieta B resulta em maior perda de
peso do que A.
O Perigo de Ignorar Interações entre Fatores
Suponha que essa interação não esteja em nosso radar e, em vez disso, foquemos apenas nos
efeitos individuais principais e o seu impacto na perda de peso:

Com base nesse enredo, concluiremos incorretamente que a dieta A é melhor do que B. Como
vimos do enredo de interação, o que só é verdade se olharmos para o grupo de cardio.
Claramente, sempre precisamos avaliar interações ao analisar múltiplos fatores. Se você não
fizer isso, corre o risco de tirar conclusões incorretas ... e você pode apenas obter ketchup para
colocar em seu rolo de sushi.
Cuidados para não “super ajustar” os modelosde regressão
Na análise de regressão, ajustar demais um modelo é um problema real. Um modelo
sobreajuste pode fazer com que os coeficientes de regressão, p-valores e R-quadrados sejam
enganadores. Nessa sessão explicar-se-á o que é um modelo de regressão sobreajuste e a
como detectar e evitar esse problema.
Um modelo de regressão sobreajuste que é muito complicado e que foi ajustado apenas para
o seu conjunto de dados. Quando isso acontece, o modelo de regressão torna-se adaptado
para ajustar as peculiaridades e o ruído aleatório em sua amostra específica em vez de refletir
a população em geral. Se você retirasse outra amostra de dados, teria suas próprias
peculiaridades, e seu modelo sobreajuste original provavelmente não caberia aos novos
dados.
Em vez disso, temos que elaborar um modelo que se aproxime do verdadeiro para toda a
população. Nosso modelo não deve apenas caber na amostra atual, mas também nas novas
amostras.
O gráfico de linha ajustado ilustra os perigos de super ajustar modelos de regressão. Este
modelo parece explicar muito da variação na variável de resposta. No entanto, o modelo é
muito complexo para os dados da amostra. Na população geral, não existe uma relação real
entre a variável preditora e a variável resposta.

Fundamentos de Estatísticas Inferenciais
Para entender como o super-ajuste causa problemas, precisamos voltar ao básico sobre as
estatísticas inferenciais. O objetivo geral das estatísticas inferenciais é tirar conclusões sobre
uma população maior de uma amostra aleatória. As estatísticas inferenciais usam os dados da
amostra para fornecer:
▪ Estimativas imparciais de propriedades e relacionamentos dentro da população.
▪ Testes de hipóteses que avaliem declarações sobre toda a população.
Um conceito importante nas estatísticas inferenciais é que a quantidade de informações que
você pode aprender sobre uma população é limitada pelo tamanho da amostra. Quanto mais
quiser aprender, maior será o seu tamanho de amostra.
Você provavelmente entende esse conceito intuitivamente, mas aqui está um exemplo. Se
você tiver um tamanho de amostra de 20 e quiser estimar uma média de população,
provavelmente está em boa forma. No entanto, se você quiser estimar médias de duas
populações usando o mesmo tamanho total da amostra, de repente isso pode dar errado. Se
você aumentar isso para a média de três populações, isso começa a parecer muito ruim.
A qualidade dos resultados piora quando você tenta aprender muito com uma amostra. À
medida que o número de observações por parâmetro diminui no exemplo acima (20, 10, 6.7,
etc.), as estimativas tornam-se mais erráticas e uma nova amostra tem menos probabilidade
de reproduzi-las.
Aplicando esses conceitos para sobreajustar modelos de regressão

De forma semelhante, sobre ajustar um modelo de regressão acontece quando você tenta
estimar muitos parâmetros de uma população com uma amostra que é muito pequena. A
análise de regressão usa uma amostra para estimar os valores dos coeficientes para todos os
termos da equação. O tamanho da amostra limita o número de termos que você pode incluir
com segurança antes de começar a superar o modelo. A quantidade de termos no modelo
inclui todos os preditores, efeitos de interação e termos de polinômios (para modelar a
curvatura).
Maiores tamanhos de amostra permitem especificar modelos mais complexos. Para resultados
confiáveis, o tamanho da amostra deve ser grande o suficiente para suportar o nível de
complexidade exigido pela pergunta da sua pesquisa. Se seu tamanho de amostra não for
grande o suficiente, você não poderá ajustar um modelo que se aproxime adequadamente do
modelo verdadeiro para sua variável de resposta. Você não poderá confiar nos resultados.
Assim como o exemplo com múltiplos meios, você deve ter um número suficiente de
observações para cada termo em um modelo de regressão. Estudos de simulação mostram
que uma boa regra é ter 10-15 observações por período em regressão linear múltipla.
Por exemplo, se seu modelo contém duas variáveis preditoras e um termo de interação, você
precisará de 30 a 45 observações. No entanto, se o tamanho do efeito for pequeno ou a
multicolinearidade elevada, você precisará de mais observações por período.
Como detectar e evitar modelos com sobreajuste
A validação cruzada pode detectar modelos com sobreajuste, determinando o quão bem o seu
modelo se generaliza para outros conjuntos de dados, particionando seus dados. Este processo
ajuda você a avaliar o quão bem o modelo se adapta a novas observações que não foram
usadas no processo de estimativa do modelo.
O software estatístico Minitab fornece uma excelente solução de validação cruzada para
modelos lineares calculando o R² previsto. Esta estatística é uma forma de validação cruzada
que não exige que você colete uma amostra separada. Em vez disso, o Minitab calcula o R²
previsto, eliminando sistematicamente cada observação do conjunto de dados, estimando a
equação de regressão e determinando como o modelo prediz a observação removida.
Se o modelo faz um mau trabalho ao prever as observações removidas, isso indica que o
modelo provavelmente é adaptado aos pontos de dados específicos que estão incluídos na
amostra e não generalizáveis fora da amostra.
Para evitar o sobreajuste do seu modelo em primeiro lugar, colete uma amostra
suficientemente grande para que você possa incluir com segurança todos os preditores, efeitos
de interação e polinomial lógicos que sua variável de resposta requer. O processo científico
envolve muita pesquisa antes mesmo de começar a coletar dados. Você deve identificar as
variáveis importantes, o modelo que você provavelmente especificará e usar essas
informações para estimar um bom tamanho de amostra.