Prévia do material em texto
Análise de Regressão Em estatística, a análise de regressão é um processo estatístico para estimar relações entre variáveis. Inclui muitas técnicas para a modelagem e análise de várias variáveis, quando o foco está na relação entre uma variável dependente e uma ou mais variáveis independentes (ou preditoras). Mais especificamente, a análise de regressão ajuda a entender como o valor da variável dependente varia quando o valor de uma das variáveis independentes muda, mantendo o valor das outras variáveis independentes fixo. Mais comumente, a análise de regressão estima a expectativa condicionada variável dependente dadas as variáveis independentes - isto é, o valor médio da variável dependente quando as variáveis independentes são definidas. Com menos frequência, o foco está em um quantil, ou outro parâmetro de localização, da distribuição condicional da variável dependente dadas as variáveis independentes. Em todos os casos, o objetivo da estimativa é uma função das variáveis independentes chamadas de função de regressão. Na análise de regressão, também é interessante caracterizar a variação da variável dependente em torno da função de regressão, que pode ser descrita por uma distribuição de probabilidade. A análise de regressão é amplamente usada para predição e previsão, onde seu uso tem uma sobreposição substancial no campo do aprendizado de máquina. A análise de regressão também é usada para compreender quais das variáveis independentes estão relacionadas à variável dependente e para explorar as formas dessas relações. Em circunstâncias limitadas, a análise de regressão pode ser usada para inferir relações causais entre variáveis independentes e dependentes. Muitas técnicas foram desenvolvidas para realizar análises de regressão. Métodos familiares como regressão linear e regressão de mínimos quadrados ordinários são paramétricos, em que a função de regressão é definida em termos de um número finito de parâmetros desconhecidos que são estimados a partir dos dados. A regressão não paramétrica refere-se a técnicas que permitem a função de regressão constituída por um conjunto específico de funções, que podem ser de dimensão infinita. O desempenho dos métodos de análise de regressão na prática depende da forma do processo de geração de dados e como ele se relaciona com o método de regressão que está sendo usado. Uma vez que a verdadeira forma do processo de geração de dados geralmente não é conhecida, a análise de regressão frequentemente depende, até certo ponto, de fazer suposições sobre esse processo. Essas premissas às vezes são testáveis se uma quantidade suficiente de dados estiver disponível. Os modelos de regressão para previsão são frequentemente úteis mesmo se as suposições forem moderadamente violadas, embora possam não funcionar de maneira ideal. No entanto, em muitas aplicações, especialmente com pequenos efeitos ou problemas de causalidade com base em dados observacionais, os métodos de regressão podem fornecer resultados enganosos.