Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de Regressão Tutorial e Exemplos Este tutorial abrange vários aspectos da análise de regressão, incluindo: escolher o tipo de análise de regressão a ser usada, especificar o modelo, interpretar os resultados, determinar como o modelo se encaixa, fazer previsões e verificar os pressupostos. No final, incluo exemplos de diferentes tipos de análises de regressão. Por que escolher a regressão e as marcas de uma boa análise de regressão? Antes de começar o tutorial de análise de regressão, há várias questões importantes a serem respondidas. Por que devemos escolher a regressão? Quais são os erros comuns que os especialistas fazem quando se trata de análise de regressão? E, como você distingue uma boa análise de regressão de uma análise de regressão menos rigorosa? Vamos ver um apanhado geral. Tutorial: como escolher o tipo correto de análise de regressão? Suculento, peru grelhado de manteiga. Salpicão. Tender. Lombo. Farofa. Pernil. Leitoa.... O menu tradicional de Natal tem tantos pratos deliciosos sobre a mesa, você não sabe por onde começar. Se você saborear as estatísticas tanto quanto a comida, você pode se sentir da mesma forma quando olhar para todas as deliciosas análises no menu Minitab Regression, que é o Menu de Regressão. Como você pode decidir qual análise de regressão escolher? Vou dar-lhe algumas amostras de cada prato de regressão para ajudá-lo a decidir qual deles colocar no prato. Regressão com uma resposta categórica Já notou as linhas de divisão horizontal nos menus do Minitab? Pense nelas como os separadores em um prato de papel que protege seu molho mostarda de correr para seu nhoque ao sugo, evitando que eles seu nhoque transforme-se num estranho molho rose. Por exemplo, a linha na parte inferior do menu separa cuidadosamente todas as análises de regressão que possuem uma variável de resposta categórica. Para usar uma dessas análises, cada resposta em seus dados deve cair em uma categoria separada. Escolha entre eles de acordo com o tipo de resposta categórica que você possui. Aqui está um cenário concreto: Você seleciona aleatoriamente 100 indivíduos no Natal e anota quantos pedaços de cada prato eles possuem. Agora você quer utilizar uma análise de regressão para descrever a relação entre as variáveis preditoras (o número de porções servidas de cada prato) e a variável resposta. Regressão logística binária: a resposta cai em uma das duas categorias. Há duas respostas possíveis. Exemplo: você rastreia se cada pessoa tomou um antiácido após a Ceia de Natal ou não (Sim ou Não) As chances de uma pessoa que tomar um antiácido aumentam, em média, 2,35 vezes com cada porção de batata doce confeitada. __________________________________________________________ Regressão Logística Ordinária: as categorias de sua resposta podem ser ordenadas da menor para a maior. Exemplo: Você grava quantos buracos da cinta, cada pessoa aumentou após o jantar (0-4 entalhes) Em média, cada porção adicional de purê de batatas resulta em um aumento de 36% nas chances de expandir seu cinto após a ceia. __________________________________________________________ Regressão Logística Nominal: as categorias de sua resposta não seguem uma ordem. Exemplo: Você pergunta a cada pessoa qual dos animais que mais elas mais se assemelham após a ceia de Natal: uma baleia encalhada, um elefante marinho ou uma anaconda depois de engolir um porco selvagem. Com cada porção adicional de peru, as pessoas são 4,37 vezes mais propensas a se sentir como uma anaconda depois de engolir porco selvagem do que uma baleia encalhada. __________________________________________________________ Regressão com uma resposta contínua A linha no topo do menu Regression do Minitab separa cuidadosamente análises de regressão que usam uma variável de resposta contínua. Para usar uma dessas análises, cada resposta deve ser uma variável contínua, como comprimento, peso ou tempo. __________________________________________________________ Regressão: você tem um ou mais variáveis preditoras contínuas e uma variável resposta contínua. Exemplo: você acompanha quantos minutos cada pessoa gasta deitada no chão da sala de estar, depois do jantar da Ceia de Natal. Cada porção adicional de castanha resulta em um aumento de 4,28 minutos, em média, deitado no chão da sala após a ceia (quando as porções de todos os outros pratos são mantidas constantes). __________________________________________________________ Regressão geral: você tem uma mistura de variáveis preditoras categóricas e contínuas e uma variável resposta contínua. Exemplo: Além das variáveis preditoras contínuas para as porções de cada prato, seu modelo para o tempo em que a pessoa fica deitada, também inclui uma variável preditora categórica. Essa variável categórica indica, sim ou não, se a pessoa comeu lanches antes da Ceia de Natal. Comer lanches antes da Ceia de Natal aumenta o tempo que as pessoas passam deitadas no chão em cerca de 17 minutos, em média, quando as porções de todos os outros pratos são mantidas constantes. __________________________________________________________ Regressão Passo a Passo: Minitab identifica um subconjunto útil de variáveis preditoras com base na significância estatística delas (usando stepwise, seleção para frente ou eliminação para trás) Exemplo: você quer que o Minitab lhe diga quais pratos têm um efeito estatisticamente significativo sobre o número de minutos que as pessoas passam deitados no chão depois do jantar. Dos 7 pratos na mesa, o Minitab determina que a porção de castanha e o pão de milho são as variáveis preditoras com significância estatística para avaliar o tempo gasto deitado no chão. __________________________________________________________ Regressão dos Melhores Subconjuntos: o Minitab identifica um subconjunto útil de variáveis preditoras com base no quanto de variação o modelo explica (o critério R² máximo). Exemplo: Você quer que Minitab lhe diga qual combinação de pratos explica a maior parte da variação no número de minutos que as pessoas passam deitadas no chão. No caso do jantar, 2 das 7 variáveis preditoras do modelo, o ressalto da casquinha de molho de maionese (CR) e o pão de milho (CB), explicam a maior variação no tempo gasto deitado no chão. A adição de mais preditores (pratos) não aumenta significativamente o valor do R². ____________________________________________________________________________ Linha Ajustada: exibe uma linha ajustada de uma regressão. É possível apenas com uma variável preditora contínua e uma variável resposta contínua. Exemplo: você deseja visualizar a associação entre as porções de comida ingeridas e o tempo gasto deitado no chão. Há uma associação quadrática fraca, mas estatisticamente significante entre as porções de comida ingeridas e o tempo gasto deitado no chão. Regressão não linear: especifica uma função não-linear para modelar a relação entre variáveis preditoras contínuas e uma variável resposta contínua. Exemplo: Tio Alberto, um brilhante Ph.D. químico, realizou experimentos sobre as propriedades químicas das castanhas e seu efeito nas reações enzimáticas metabólicas que induzem fadiga. Com base em sua pesquisa, ele sabe que ele pode modelar a relação entre porções de castanha ingeridas e a postura pós-prandial por meio de uma curva de crescimento de Gompertz com três parâmetros. A função exponencial teórica de tio Alberto de uma função exponencial negativa descreve a relação entre a porção de castanha e o tempo deitado no chão. No entanto, tio Alberto é o único que entende seu modelo não-linear complexo. Quando tenta explicar depois do jantar, todos adormecem no chão. Análises de regressão especializadas Duas análises no menu Regressão formam sua própria categoria. Essas análises modelam uma variávelde resposta contínua e variáveis preditoras contínuas, mas suas aplicações são especializadas. Regressão ortogonal: testa se dois instrumentos ou métodos fornecem medidas comparáveis. Exemplo: A vovó adquiriu um novo termômetro de peru digital para um presente, mas suspeita de que não funcione tão bem como o seu antigo termômetro. Antes do Natal, ela a testa usando os termômetros para medir a temperatura em uma panela com água. Para testar, ela esfria a água na geladeira e aquece no fogão, registrando a temperatura medida em cada instrumento. Apesar das suspeitas da avó, o termômetro digital é equivalente ao seu termômetro de metal. (O intervalo de confiança para a inclinação inclui 1 e o intervalo de confiança para a constante inclui 0.) __________________________________________________________ Regressão de mínimos quadrados parciais: você tem poucas observações em relação ao número de variáveis preditoras, ou elas estão altamente associadas entre si, tornando problemática uma análise de regressão padrão. Exemplo: suponha que seu estudo da Ceia de Natal tenha amostrado apenas 10 indivíduos, em vez de 100 indivíduos, mas ainda incluíram todas as 7 variáveis preditoras. Sua pequena amostra causou alto erro padrão para as estimativas de coeficientes. Além disso, as mesmas pessoas que comeram muitas porções de castanha também comeram muitas porções de purê de batatas e peru, e tiveram respostas semelhantes, fazendo com que essas variáveis preditoras fossem correlacionados. Ao usar um modelo de mínimos quadrados parciais com 6 componentes, cada um formado por uma combinação linear das variáveis preditoras, você pode explicar cerca de 84% da variação no tempo de permanência na posição deitado. Adicionar outro componente não aumenta muito o R². A Regressão é Linear ou Não Linear? Como você provavelmente notou, o campo das estatísticas é enorme. Precisa de mais evidências? A regressão linear pode produzir linhas curvas e a regressão não linear não é nomeada por suas linhas curvas. Então, quando você deve usar regressão não linear ao invés de métodos lineares, como regressão linear, melhores subconjuntos ou regressão stepwise? De um modo geral, você deve tentar a regressão linear primeiro. É mais fácil de usar e mais fácil de interpretar. No entanto, se você simplesmente não conseguir um bom ajuste com regressão linear, então talvez seja hora de tentar a regressão não linear. Vejamos um caso em que a regressão linear não funciona. Muitas vezes, o problema é que, mesmo que a regressão linear possa modelar curvas, talvez não seja capaz de modelar a curva específica que existe em seus dados. Os gráficos abaixo ilustram isso com um modelo linear que contém uma variável preditora cúbica. O gráfico de linha ajustado mostra que os dados brutos seguem uma boa função e o R² é 98,5%, o que parece muito bom. No entanto, olhe mais de perto e a linha de regressão passa acima ou abaixo dos dados sistematicamente em diferentes pontos da curva. Quando você verifica os lotes de resíduos (o que você sempre faz, certo?), você vê padrões no plano de resíduos versus o ajuste, em vez da aleatoriedade que deseja ver. Isso indica um ajuste ruim, mas é o melhor que a regressão linear pode fazer. Vamos tentar novamente, mas usando regressão não-linear. É importante notar que, porque a regressão não linear permite um número quase infinito de funções possíveis, pode ser mais difícil de configurar. Neste caso, exigiu um esforço considerável para determinar a função que proporcionou o ajuste ideal para a curva específica presente nesses dados, mas como meu ponto principal é explicar quando você deve usar a regressão não linear em vez de linear, não precisamos relacionar todos esses detalhes aqui. O gráfico de linha ajustado mostra que a linha de regressão segue os dados quase que exatamente - não há desvios sistemáticos. É impossível calcular R² para a regressão não linear, mas o valor de S (aproximadamente, a distância absoluta média dos pontos para a linha de regressão) melhora de 72,4 (linear) para apenas 13,7 na regressão não-linear. Você quer um valor S mais baixo porque quer que os pontos estejam mais próximos da linha ajustada. Além disso, o gráfico dos resíduos versus ajuste mostra a aleatoriedade que se deseja ver. É um bom ajuste! A regressão não linear pode ser uma alternativa poderosa à regressão linear, mas existem algumas desvantagens. Além da dificuldade acima mencionada na criação da análise e da falta do R², esteja ciente de que: ▪ O efeito que cada preditor tem na resposta pode ser menos intuitivo de entender. ▪ Os valores do p-valor são impossíveis de calcular para as variáveis preditoras. ▪ Os intervalos de confiança podem ou não ser calculáveis. Se você estiver usando o Minitab agora, você pode jogar com esses dados, indo em Arquivo -> Abrir Planilha e, em seguida, clique no ícone Procurar no Minitab Sample Data e escolha Mobility.MTW. Esses dados são os mesmos do exemplo. Como especificar seu modelo de regressão? Escolher o tipo correto de análise de regressão é apenas o primeiro passo. Em seguida, você precisa especificar o modelo. A especificação do modelo consiste em determinar quais variáveis de preditoras devem ser inclusas no modelo e se você precisa modelar a curvatura e as interações entre as variáveis preditoras. Especificar um modelo de regressão é um processo iterativo. Vamos mostrar aqui como confirmar que você especificou o modelo corretamente e como ajustar seu modelo com base nos resultados. Como escolher o melhor modelo de regressão? Escolher o modelo de regressão linear correto pode ser difícil. Afinal, como o mundo funciona é complexo. Tentar modelá-lo com apenas uma amostra não é das tarefas mais fáceis. Nesta seção, vamos ver alguns métodos estatísticos comuns para selecionar modelos, problemas que você pode enfrentar e conselhos práticos para escolher o melhor modelo de regressão. Tudo começa quando um pesquisador quer descrever matematicamente a relação entre algumas variáveis preditoras e a variável de resposta. A equipe de pesquisa encarregada de investigar, geralmente, mede muitas variáveis, mas inclui apenas algumas no modelo. Os analistas tentam eliminar as variáveis que não estão relacionadas e incluindo apenas aquelas com um relacionamento verdadeiro. Ao longo do caminho, os analistas consideram muitos modelos possíveis. Eles se esforçam para alcançar o equilíbrio de Goldilocks com a quantidade de variáveis preditoras que eles incluem. ▪ Muito poucas: um modelo sub-especificado tende a produzir estimativas tendenciosas. ▪ Muitas: um modelo super-dimensionado tende a ter estimativas menos precisas. ▪ Apenas certo: um modelo com os termos corretos não possui viés e tem as estimativas mais precisas. Métodos estatísticos para encontrar o melhor modelo de regressão Para um bom modelo de regressão, é importante incluir as variáveis que se está testando junto com outras variáveis que afetam a resposta para evitar resultados tendenciosos. O Minitab oferece medidas e procedimentos estatísticos que o ajudam a especificar seu modelo de regressão. R-quadrado ajustado e R-quadrado previsto: Geralmente, você escolhe os modelos que possuem os maiores valores de R² ajustados e previstos. Essas estatísticas são projetadas para evitar um problema-chave com R² - ele aumenta cada vez que você adiciona uma variável preditora no modelo, levando você a um maior risco de enganar-se ao especificar um modelo excessivamente complexo. ▪ O R² ajustado aumenta apenas se o novo termo melhorar o modelo mais do que seria esperado ao acaso, também podendo diminuir se forem adicionadas novas variáveis preditoras de baixa qualidade. ▪ O R² previsto é uma forma de validação cruzada que também pode diminuir. A validação cruzada determina o quão bem o seu modelo se generaliza para outrosconjuntos de dados, dividindo seus dados. P-valores para os preditores: na regressão, p-valores baixos indicam termos que são estatisticamente significativos. "Reduzir o modelo" refere-se à prática de incluir todos os preditores candidatos no modelo e, em seguida, remover sistematicamente o termo com o p- valor mais alto, um por um, até que você tenha apenas preditores significativos. Regressão stepwise e Regressão de subconjuntos melhores: são dois procedimentos automatizados que podem identificar preditores úteis durante as etapas exploratórias da construção do modelo. Com a melhor regressão de subconjuntos, o Minitab fornece o Cp de Mallows, que é uma estatística especificamente projetada para ajudá-lo a gerenciar o tradeoff entre precisão e viés. Complicações do mundo real Ótimo, há muitos métodos estatísticos para nos ajudar a escolher o melhor modelo. Infelizmente, também há uma série de possíveis complicações. Não se preocupe, vou fornecer alguns conselhos práticos adquiridos em muitos anos de consultoria. ▪ O melhor modelo pode ser tão bom quanto as variáveis medidas pelo estudo. Os resultados das variáveis que você inclui na análise podem ser enviesados pelas variáveis significativas que você não inclui. ▪ Sua amostra pode ser incomum, seja por acaso ou pela metodologia de coleta de dados. Falso positivo e falso negativo são parte do jogo quando se trabalha com amostras. ▪ Os valores do p-valor podem mudar de acordo com os termos específicos do modelo. Em particular, a multicolinearidade pode prejudicar o significado e dificultar a determinação do papel de cada preditor. ▪ Se você avaliar modelos suficientes, você encontrará variáveis que parecem significativas, mas que apenas correlacionam-se pelo acaso. Esta forma de mineração de dados pode tornar os dados aleatórios significativos. Um R² previsto é uma boa maneira de verificar esse problema. ▪ Os valores do p-valor, o R² previsto e o ajustado, e o Cp de Mallows, podem sugerir modelos diferentes. ▪ A regressão Stepwise e a melhor regressão de subconjuntos são excelentes ferramentas e podem aproximá-lo do modelo correto. No entanto, descobriu-se que geralmente eles não escolhem o modelo correto. Recomendações para encontrar o melhor modelo de regressão Escolher o modelo de regressão correto é tanto uma ciência quanto uma arte. Métodos estatísticos podem ajudá-lo a encontrar a direção certa, mas, em última instância, você precisará incorporar outras considerações. Teoria Pesquise o que outros fizeram e incorpore essas descobertas na construção do seu modelo. Antes de começar a análise de regressão, desenvolva uma ideia sobre como as variáveis importantes estão em suas relações, sinais de coeficientes e magnitudes de efeito. Com base nos resultados de outros, torna-se mais fácil coletar os dados corretos e especificar o melhor modelo de regressão sem a necessidade de mineração de dados. As considerações teóricas não deverão ser descartadas baseando-se somente nas medidas estatísticas. Depois de ajustar o seu modelo, determine se ele se alinha com a teoria e possivelmente faça ajustes. Por exemplo, com base na teoria, você pode incluir uma variável preditora no modelo, mesmo que seu p-valor não seja significativo. Se algum dos sinais do coeficiente contradisser a teoria, investigue e altere seu modelo ou explique a inconsistência. Complexidade Você pode pensar que os problemas complexos exigem modelos complexos, mas muitos estudos mostram que os modelos mais simples geralmente produzem previsões mais precisas. Dado vários modelos com habilidade explicativa similar, o mais simples é mais provável que seja a melhor escolha. Comece simples, e apenas faça o modelo mais complexo conforme necessário. Quanto mais complexo você fizer seu modelo, mais provável é que você esteja adaptando o modelo ao seu conjunto de dados específicos, e a generalização sofre. Verifique que a complexidade adicionada realmente produz intervalos de previsão mais estreitos. Verifique o R² previsto e não persiga um alto R²! Resíduos Conforme você avalia os modelos, verifique os lotes residuais porque eles podem ajudá-lo a evitar modelos inadequados e a ajustar seu modelo para obter melhores resultados. Por exemplo, o viés em modelos não especificados pode aparecer como padrões nos resíduos, como a necessidade de modelar a curvatura. O modelo mais simples que produz resíduos aleatórios é um bom candidato para ser um modelo relativamente preciso e imparcial. No final, nenhuma medida pode dizer-lhe qual modelo é o melhor. Os métodos estatísticos não entendem o processo subjacente ou a área do assunto. Seu conhecimento é uma parte crucial do processo! Stepwise versus Melhores Subconjuntos Imagine um cenário onde você tenha muitas variáveis preditoras e uma variável de resposta. Pelas tantas variáveis de preditoras, toda ajuda na criação de um bom modelo de regressão é importante. Você poderia tentar muitas combinações por conta própria. Mas você está com sorte! O Minitab possui duas ferramentas automáticas que o ajudarão a escolher um modelo de regressão. Essas ferramentas são Regressão Stepwise e Regressão de Melhor de Subconjuntos. Ambos identificam as variáveis preditoras que são úteis durante as etapas exploratórias da construção do modelo para a regressão dos mínimos quadrados ordinários. Estes são procedimentos excelentes, mas eles funcionam de uma maneira um pouco diferente. Regressão Stepwise A regressão stepwise seleciona um modelo adicionando ou removendo automaticamente preditores individuais, um passo de cada vez, com base na sua significância estatística. O resultado final desse processo é um modelo de regressão único, o que o torna agradável e simples. Você pode controlar os detalhes do processo, incluindo o nível de significância e se o processo só pode adicionar ou remover termos. Regressão dos melhores subconjuntos Os melhores subconjuntos comparam todos os modelos possíveis usando um conjunto específico de preditores e exibe os modelos de melhor ajuste que contêm um preditor, dois preditores e assim por diante. O resultado final é uma série de modelos e suas estatísticas resumidas. Depende de você comparar e escolher um. Às vezes, os resultados não apontam para um modelo melhor e seu julgamento é necessário. Comparação Ambos os procedimentos criam modelos de um conjunto de preditores que você especifica. Stepwise não avalia todos os modelos, mas constrói um modelo adicionando ou removendo um preditor de cada vez. A regressão dos melhores subconjuntos avaliam todos os modelos possíveis e apresentam os melhores candidatos. Já a regressão Stepwise produz um modelo único, que pode ser mais simples. A regressão dos melhores subconjuntos fornecem mais informações, incluindo mais modelos, mas pode ser mais complexo escolher um. Como a regressão dos melhores subconjuntos avalia todos os modelos possíveis, grandes modelos podem demorar muito para serem processados. Exemplo usando ambos os métodos Tudo bem, vamos fazer um único conjunto de dados, usar ambos os procedimentos e ver o que acontece. Para acompanhar, baixe o ThermalEnergyTest.MTW. Como parte de um teste de energia solar térmica, queremos examinar se o fluxo de calor total pode ser predito por várias variáveis, incluindo a posição dos pontos focais nas direções leste, sul e norte. Para ambos os procedimentos, incluirei a mesma variável de resposta e preditores. Variável Resposta: Heatflux Variáveis Preditoras: Insolação, Oriente, Sul, Norte, Hora Exemplo de Regressão Stepwise Vou começar com Stepwise. Você pode realizar uma regressão stepwise passo a passo no Mintiab pelo caminho: Stat> Regression> Regression> Fit Regression Model. É uma questão simples inserir a variável resposta e as variáveis preditoras na caixa de diálogo. Clique no botão Stepwise e escolha Stepwise para o método.As quatro etapas são executadas horizontalmente até a saída. Para cada passo, o procedimento adicionou os preditores: Norte, Sul, Oriente e Insolação. A partir desse ponto, nenhuma variável pode entrar ou sair, senão o procedimento para. Observe o modelo final, que tem um R² de 89,09%. Agradável e simples! Exemplo de Regressão dos melhores subconjuntos Agora, vamos usar as mesmas variáveis com a regressão dos Melhores Subconjuntos: Stat> Regression> Regression> Best Subsets. Vamos ficar com os padrões e obter a saída. Cada linha da saída representa um modelo diferente. Vars indica o número de variáveis preditoras no modelo. As variáveis preditoras que estão presentes no modelo são indicadas por um X, no final. O Minitab exibe os dois melhores modelos para cada número de variável preditora. Um bom modelo deve ter um R² e R² ajustado altos, um S pequeno e um Cp de Mallows próximo ao número de preditores no modelo e a constante. Usar o R² ajustado é recomendado sobre utilizar o R² para comparar modelos com diferentes números de termos. Destaca-se o modelo que a Regressão Stepwise escolheu. Com base nos critérios acima, parece ser um bom modelo. No entanto, a regressão dos melhores subconjuntos nos oferecem mais informações contextuais que podem ser úteis. Podemos ter prioridades específicas que afetem a nossa escolha para o melhor modelo. Por exemplo, se colocarmos uma prioridade maior em simplificar e reduzir os custos de coleta de dados, estaríamos interessados em ver que alguns modelos com um menor número de variáveis preditoras são quase tão bons. Por exemplo, o R² para o modelo de três variáveis com Oriente, Sul e Norte é apenas 1,7% menor que o modelo destacado. Além disso, o melhor modelo de duas variáveis também não está muito atrasado. Se colocássemos uma maior prioridade na precisão da predição, estaríamos interessados no modelo de 5 variáveis porque as estatísticas de ajuste do modelo são melhores. De fato, o R² ajustado para o modelo de 5 variáveis é um pouco melhor do que o modelo que a Regressão Stepwise escolheu. A informação adicional que a Regressão dos Melhores Conjuntos fornece, nos permite usar o conhecimento específico da área de estudo para ajudar a escolher o melhor modelo. No entanto, também requer um pouco mais de conhecimento e esforço. Verifique seus modelos com a função Regressão Ggeral Uma coisa que os melhores subconjuntos não podem fazer é verificar os gráficos de resíduos. Use a função “Fit Regression Model “ para avaliar seu modelo e obtenha estatísticas adicionais, pois isso irá ajudá-lo a escolher o modelo. Por exemplo, se estivéssemos interessados no modelo de cinco variáveis para termos o melhor ajuste e talvez as melhores previsões, veríamos que na saída do Modelo de Regressão Ajustado que o R² previsto cairia um pouco com o modelo de cinco variáveis. Isso tende a ocorrer quando o modelo é excessivamente complicado e começa a modelar o ruído nos dados. Quando isso acontece, o modelo se adapta aos dados originais, mas é menos capaz de fornecer previsões válidas para novas observações. Esta condição é conhecida como "modelo sobreajuste" e ilustra como os modelos de subconjuntos podem realmente prever futuras respostas com menor variação do que o modelo completo. Reflexões sobre Stepwise e Regressão dos Melhores Subconjuntos Os procedimentos automáticos de seleção de variáveis podem ser uma ferramenta valiosa na análise de dados, particularmente nos estágios iniciais da construção de um modelo. A escolha entre Stepwise e Best Subsets é, em grande parte, a escolha entre a conveniência de um único modelo versus a informação adicional que o Best Subsets fornece. Claro, você sempre pode optar pelos dois, como eu fiz. Os procedimentos geralmente funcionam muito bem, mas você deve estar ciente das possíveis armadilhas: ▪ Procedimentos automáticos podem olhar para muitas variáveis e selecionar aquelas que, por puro acaso, se encaixam bem. Olhe os resultados de forma crítica e use o conhecimento técnico sobre o assunto para ver se os resultados têm sentido. ▪ Os procedimentos automáticos não podem levar em conta o conhecimento especial que o analista pode ter sobre os dados. Portanto, o modelo selecionado pode não ser o melhor do ponto de vista prático. ▪ Stepwise pode não selecionar o modelo com o valor R² mais alto. Cuidados com a interação entre as variáveis preditoras Você prefere o molho de ketchup ou shoyou? Se alguém lhe fez essa pergunta, sua resposta provavelmente depende do que está comendo. Você provavelmente não mergulharia seu sushi em ketchup. E a maioria das pessoas não parece gostar de comer molho de soja com batatas fritas quentes. Um erro comum ao usar ANOVA ou DOE para avaliar fatores Técnicas de modelagem como ANOVA ou Planejamento de Experimentos (DOE) podem determinar se os fatores de interesse afetam um processo. Por exemplo, você pode querer avaliar como várias configurações de tempo e temperatura afetam a qualidade do produto. Ou você pode querer determinar quais fatores influenciam no tempo de processamento de um empréstimo, ou ma satisfação do cliente, ou na lucratividade. Então você coleta dados sobre seus fatores de interesse, e agora está pronto para fazer sua análise. Este é o lugar onde muitas pessoas cometem o infeliz erro de olhar apenas para cada fator individualmente. Além de considerar a forma como cada fator afeta sua variável de resposta, você também precisa avaliar a interação entre esses fatores e determinar se algum deles também é significativo. E assim como sua preferência por molho de ketchup versus molho de soja depende do que você está comendo, as configurações ótimas para um determinado fator dependerão das configurações do outro fator quando uma interação estiver presente. Como avaliar e interpretar uma interação Vamos usar um exemplo de perda de peso para ilustrar como podemos avaliar uma interação entre fatores. Estamos avaliando 2 dietas diferentes e 2 diferentes programas de exercícios: um focado em cardio e um focado musculação. Queremos determinar qual dará o maior resultado na perda de peso. Atribuímos aleatoriamente os participantes para a dieta A ou B e para o regime de treinamento cardio ou musculação e, em seguida, registramos a quantidade de peso perdida após 1 mês. Aqui está um extrato dos dados: Para avaliar o efeito de múltiplos fatores em uma resposta contínua, podemos usar Stat> ANOVA> Modelo Linear Geral no Minitab, que produz os seguintes resultados para nossos dados: Podemos ver que o p-valor para a interação Exercício * Dieta é 0.000. Como esse p-valor tão pequeno, podemos concluir que existe uma interação significativa entre Exercício e Dieta. Então, qual dieta é melhor? Nossos dados sugerem que é como perguntar "ketchup ou molho de soja?" A resposta é: "Depende". Uma vez que a interação Exercício * Dieta é significativa, vamos usar um gráfico de interação para examinar de perto: Para os participantes que usam o programa cardio (mostrado em preto), podemos ver que a dieta A é melhor e resulta em maior perda de peso. No entanto, se você estiver seguindo o regime de treinamento de peso (mostrado em vermelho), a dieta B resulta em maior perda de peso do que A. O Perigo de Ignorar Interações entre Fatores Suponha que essa interação não esteja em nosso radar e, em vez disso, foquemos apenas nos efeitos individuais principais e o seu impacto na perda de peso: Com base nesse enredo, concluiremos incorretamente que a dieta A é melhor do que B. Como vimos do enredo de interação, o que só é verdade se olharmos para o grupo de cardio. Claramente, sempre precisamos avaliar interações ao analisar múltiplos fatores. Se você não fizer isso, corre o risco de tirar conclusões incorretas ... e você pode apenas obter ketchup para colocar em seu rolo de sushi. Cuidados para não “super ajustar” os modelosde regressão Na análise de regressão, ajustar demais um modelo é um problema real. Um modelo sobreajuste pode fazer com que os coeficientes de regressão, p-valores e R-quadrados sejam enganadores. Nessa sessão explicar-se-á o que é um modelo de regressão sobreajuste e a como detectar e evitar esse problema. Um modelo de regressão sobreajuste que é muito complicado e que foi ajustado apenas para o seu conjunto de dados. Quando isso acontece, o modelo de regressão torna-se adaptado para ajustar as peculiaridades e o ruído aleatório em sua amostra específica em vez de refletir a população em geral. Se você retirasse outra amostra de dados, teria suas próprias peculiaridades, e seu modelo sobreajuste original provavelmente não caberia aos novos dados. Em vez disso, temos que elaborar um modelo que se aproxime do verdadeiro para toda a população. Nosso modelo não deve apenas caber na amostra atual, mas também nas novas amostras. O gráfico de linha ajustado ilustra os perigos de super ajustar modelos de regressão. Este modelo parece explicar muito da variação na variável de resposta. No entanto, o modelo é muito complexo para os dados da amostra. Na população geral, não existe uma relação real entre a variável preditora e a variável resposta. Fundamentos de Estatísticas Inferenciais Para entender como o super-ajuste causa problemas, precisamos voltar ao básico sobre as estatísticas inferenciais. O objetivo geral das estatísticas inferenciais é tirar conclusões sobre uma população maior de uma amostra aleatória. As estatísticas inferenciais usam os dados da amostra para fornecer: ▪ Estimativas imparciais de propriedades e relacionamentos dentro da população. ▪ Testes de hipóteses que avaliem declarações sobre toda a população. Um conceito importante nas estatísticas inferenciais é que a quantidade de informações que você pode aprender sobre uma população é limitada pelo tamanho da amostra. Quanto mais quiser aprender, maior será o seu tamanho de amostra. Você provavelmente entende esse conceito intuitivamente, mas aqui está um exemplo. Se você tiver um tamanho de amostra de 20 e quiser estimar uma média de população, provavelmente está em boa forma. No entanto, se você quiser estimar médias de duas populações usando o mesmo tamanho total da amostra, de repente isso pode dar errado. Se você aumentar isso para a média de três populações, isso começa a parecer muito ruim. A qualidade dos resultados piora quando você tenta aprender muito com uma amostra. À medida que o número de observações por parâmetro diminui no exemplo acima (20, 10, 6.7, etc.), as estimativas tornam-se mais erráticas e uma nova amostra tem menos probabilidade de reproduzi-las. Aplicando esses conceitos para sobreajustar modelos de regressão De forma semelhante, sobre ajustar um modelo de regressão acontece quando você tenta estimar muitos parâmetros de uma população com uma amostra que é muito pequena. A análise de regressão usa uma amostra para estimar os valores dos coeficientes para todos os termos da equação. O tamanho da amostra limita o número de termos que você pode incluir com segurança antes de começar a superar o modelo. A quantidade de termos no modelo inclui todos os preditores, efeitos de interação e termos de polinômios (para modelar a curvatura). Maiores tamanhos de amostra permitem especificar modelos mais complexos. Para resultados confiáveis, o tamanho da amostra deve ser grande o suficiente para suportar o nível de complexidade exigido pela pergunta da sua pesquisa. Se seu tamanho de amostra não for grande o suficiente, você não poderá ajustar um modelo que se aproxime adequadamente do modelo verdadeiro para sua variável de resposta. Você não poderá confiar nos resultados. Assim como o exemplo com múltiplos meios, você deve ter um número suficiente de observações para cada termo em um modelo de regressão. Estudos de simulação mostram que uma boa regra é ter 10-15 observações por período em regressão linear múltipla. Por exemplo, se seu modelo contém duas variáveis preditoras e um termo de interação, você precisará de 30 a 45 observações. No entanto, se o tamanho do efeito for pequeno ou a multicolinearidade elevada, você precisará de mais observações por período. Como detectar e evitar modelos com sobreajuste A validação cruzada pode detectar modelos com sobreajuste, determinando o quão bem o seu modelo se generaliza para outros conjuntos de dados, particionando seus dados. Este processo ajuda você a avaliar o quão bem o modelo se adapta a novas observações que não foram usadas no processo de estimativa do modelo. O software estatístico Minitab fornece uma excelente solução de validação cruzada para modelos lineares calculando o R² previsto. Esta estatística é uma forma de validação cruzada que não exige que você colete uma amostra separada. Em vez disso, o Minitab calcula o R² previsto, eliminando sistematicamente cada observação do conjunto de dados, estimando a equação de regressão e determinando como o modelo prediz a observação removida. Se o modelo faz um mau trabalho ao prever as observações removidas, isso indica que o modelo provavelmente é adaptado aos pontos de dados específicos que estão incluídos na amostra e não generalizáveis fora da amostra. Para evitar o sobreajuste do seu modelo em primeiro lugar, colete uma amostra suficientemente grande para que você possa incluir com segurança todos os preditores, efeitos de interação e polinomial lógicos que sua variável de resposta requer. O processo científico envolve muita pesquisa antes mesmo de começar a coletar dados. Você deve identificar as variáveis importantes, o modelo que você provavelmente especificará e usar essas informações para estimar um bom tamanho de amostra.
Compartilhar