Baixe o app para aproveitar ainda mais
Prévia do material em texto
4.25 . Os intervalos de confiança para a regressão Os coeficientes e a resposta média e intervalos de predição para observações futuras Seção 4.3 fazer uso da distribuição t. A distribuição t da amostragem resultante distribuição das estimativas dos coeficientes na equação . (4.24) depende criticamente o modelo suposições , em particular, a suposição de que os erros independentes são normalmente distribuído . A distribuição na Eq. . (4.24 ) é não uma distribuição t e já não é conhecido Se a distribuição dos erros é não-normal . Bootstrapping (ou reamostragem ) Métodos são comumente usados para ultrapassar os problemas de distribuições de amostragem desconhecido . o inicialização , originalmente proposto por Efron (1979 ) , se aproxima do teórico desconhecido distribuição de amostragem do coeficiente estimativas de uma distribuição empírica que é obtido através de um processo de reamostragem . Várias versões de bootstrap são proposto para a situação de regressão , e o referências listadas no final deste exercício vai lhe dar mais detalhes. Aqui , discutimos a " inicialização em pares " método, que resamples diretamente a partir dos dados originais ( yi , xi) , i = 1,2 , ..., n . Este método repete os seguintes passos B vezes . Amostra com substituição n pares do n originais observações ( yi , xi) . Destes n amostrados pares , calcular as estimativas de mínimos quadrados e denotar a estimativa coeficiente jth por β * ( b) O asterisco indica o sobrescrito facto a estimativa é obtido a partir de dados gerados pelo procedimento de inicialização , o índice b denota a replicação BTH , e o subscrito j refere-se a um coeficiente de escalar particular. o Repetições independentes B fornecer o função de distribuição de bootstrap empírica. Intervalos de bootstrap percentis são propostas como intervalos de confiança para a regressão coeficientes . Uma abordagem determina o 100 ( α / 2 ) e 100 ( 1 - ( α / 2 ) ) de percentis a função de distribuição de bootstrap empírica , β * j ( α / 2 ) e β * 100 (1- α ) % de intervalo de confiança de bootstrap para o parâmetro como βj j ( α / 2 ) , β * β * Aqui, temos dado o muito mais simples bootstrap para a situação de regressão. As modificações que melhoram a este simples procedimento têm sido propostos e são discutido nas referências . as modificações envolver amostragem resíduos ( em comparação com o reamostragem de casos discutidos aqui) e refinamentos para melhorar a cobertura propriedades de intervalos de bootstrap percentil [ uma modificação menor e calcula o limites superiores como βj - [ β * e βj - [ β * j ( α / 2 ) - βj ] , onde é o βj estimar a partir da amostra original ] . a. Selecione uma ou mais das referências listadas e escrever um breve resumo que explica os métodos de bootstrap em regressão e discute a sua importância. b . Considere a regressão linear simples modelo . Use os dados de eficiência de combustível em Tabela 1.3 e combustível regress eficiência ( litros por 100 quilômetros viajou ) sobre o peso do carro . Obter uma inicialização 95% intervalo de confiança para a inclinação . Use B = 1000 e 2000 repetições . relacionar o resultados para o intervalo de confiança padrão com base na distribuição t . j . j ( 1 - ( α / 2 ) ) , e calcula um j ( 1 - ( α / 2 ) ) j ( 1 - ( α / 2 ) ) - βj ] 2.1 Teoria A teoria que será usada está presente no conceito de Bootstrap, que é uma técnica de reamostragem muito usada quando se deseja estimar um parâmetro de uma população de interesse, onde calculá-lo analiticamente é bem difícil ou até mesmo inviável. A técnica Bootstrap é bem adequada para a solução de problemas complexos, pois possibilita a estimação pontual e também de intervalos de confiança para os parâmetros a serem estudados. O Bootstrap é bastante útil quando a distribuição de probabilidade do parâmetro é desconhecida, pois é uma técnica que não exige diferentes fórmulas para cada problema e pode ser utilizada em casos gerais, não dependendo da distribuição original do parâmetro estudado. Para se executar a técnica de Bootstrap, é preciso uma amostra de tamanho "n", que será denominada amostra mestre. Esta amostra deverá ser coletada de maneira planejada, pois deve representar bem a população em estudo, para assim levar a resultados menos equivocados. Agora serão tomadas reamostras desta amostra mestre, e têm-se em mente que elas irão apresentar características que sejam semelhantes as mesmas amostras que poderiam ser obtidas usando toda a população original. Para que a aplicação da técnica resulte em valores menos equivocados, devem ser feitas, a partir da amostra mestre, centenas ou até milhares de reamostras de mesmo tamanho "n", com reposição e de forma aleatória. Desta forma, após geradas as reamostras, deve-se calcular para cada uma delas uma estatística de interesse e, após ter esses valores em mãos, usa-se uma média aplicada a esses valores obtidos de cada reamostra como estimativa para o parâmetro da população original. A estimativa então é basicamente uma média de todas as estatísticas obtidas nas reamostras. Existem dois procedimentos para se estimar os coeficientes do modelo de regressão utilizando a técnica de Bootstrap: o método Bootstrap dos Resíduos e o método Bootstrap dos Casos ou Pares (MONTGOMERY, 2001). O procedimento de Bootstrap paramétrico denominado Bootstrap dos Resíduos consiste em estimar os coeficientes de regressão para os dados originais e assim gerar os respectivos resíduos para as n observações realizadas. Estes resíduos formarão a amostra mestre. Deve-se então gerar as reamostras a partir destes resíduos. O valor do vetor resposta para uma reamostragem (y*) será obtido somando-se o vetor de resíduos desta reamostra ao vetor resposta estimado nos dados originais ( yˆ ). Para cada reamostra são então calculadas as estimativas dos coeficientes de regressão. As médias das estimativas dos coeficientes de regressão para as reamostras serão as estimativas Bootstrap pontuais dos mesmos. Intervalos de confiança para os coeficientes da regressão podem ser obtidos pelo método percentil. A coincidência dos intervalos Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica 12 tradicionais e Bootstrap confirmará as suposições feitas para a realização da análise de regressão. O procedimento de Bootstrap não paramétrico denominado Bootstrap dos Casos ou Pares deve ser usado quando existe uma transformação nos dados originais de modo que para estes dados transformados possa ser realizada uma regressão linear. Neste caso as estimativas dos erros padrão dos coeficientes serão aproximadas e estas aproximações serão válidas apenas para grandes amostras. O método Bootstrap fornecerá uma estimativa dos intervalos de confiança para os coeficientes da regressão e será útil para checar a validade da aplicação assintótica para os resultados obtidos. Na forma Bootstrap dos Casos ou Pares os próprios dados originais devem compor a amostra mestre. Estes dados originais (que são vetores) devem ser reamostrados. Para cada reamostra são estimados os coeficientes da regressão linear para os dados da reamostra transformados. Intervalos de confiança para os coeficientes da regressão podem ser obtidos pelo método percentil.
Compartilhar