A maior rede de estudos do Brasil

Grátis
16 pág.
AATD T5 FINAL 1400433

Pré-visualização | Página 1 de 5

José Costa - 1400433 
 
 
 
 
 
Reamostragem, Covariáveis, Ponderação de 
dados 
 
 
 
AATD - (22001) 
ANO LETIVO 2014/2015 
 
 
 
Trabalho Final da Unidade Curricular 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
16 de Junho de 2015 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 i 
Índice 
1 Questão I - Métodos de Reamostragem ..................................................................................................... 2 
1.1 “Randomization exact test”. ................................................................................................................. 2 
1.2 “Cross-validation”. .............................................................................................................................. 2 
1.3 “Jackknife”. ......................................................................................................................................... 3 
1.4 “Bootstrap”. ........................................................................................................................................ 3 
1.5 Aplicações computacionais. ................................................................................................................. 4 
2 Questão II ................................................................................................................................................ 5 
2.1 (a) Conceitos ....................................................................................................................................... 5 
2.2 (b) Estimativas..................................................................................................................................... 6 
3 Questão III ............................................................................................................................................... 8 
3.1 Alínea a. .............................................................................................................................................. 8 
3.2 Alínea b. .............................................................................................................................................. 9 
3.3 Alínea c. ............................................................................................................................................ 12 
3.4 Alínea d. ............................................................................................................................................ 13 
Bibliografia .................................................................................................................................................... 15 
 
 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 2 
1 Questão I - Métodos de Reamostragem 
Reamostragem refere-se a um conjunto de métodos de manipulação dos dados de uma 
amostragem com o objetivo de formular e basear conclusões sobre a representatividade da amostra e 
sobre o provável enviesamento das inferências a que a sua análise conduza. Pode também ser utilizado 
como método alternativo de inferência estatística. Este conjunto de métodos terão começado a ser 
desenvolvidos por Fisher segundo Yu (1), mas não tiveram sequência dada a insuficiência de cálculo 
automático na época. 
Como indica Simon (2), reamostragem refere-se à utilização dos dados observados (…) 
para produzir novas amostras hipotéticas, que podem então ser analisadas. 
A disponibilidade de cálculo automático é uma caraterística comum aos vários métodos 
que utilizam técnicas de “Monte Carlo” (2) para reamostrar aleatoriamente os dados de base e gerar 
uma estimativa empírica da estatística analisada, derivada da distribuição amostral obtida na 
reamostragem. 
Mas, deverá sempre existir uma amostra de dados reais de suporte e é com base nesses 
dados que os métodos se desenvolvem. Nisto a reamostragem difere de uma simulação de “Monte 
Carlo” na qual os dados podem ser virtuais, gerados por um qualquer processo pseudoaleatório. 
Os métodos de reamostragem mais comuns são o método “randomization exact test”, o 
método de “cross-validation”, o método “jackknife” e o método “bootstrap”. 
1.1 “Randomization exact test”. 
Este método é também chamado de método da “Permutação”, palavra que é utilizada no 
sentido corrente de troca e não no sentido matemático. Se imaginarmos que a amostra é constituída 
por dois grupos cada de n elementos e a estatística em cálculo envolve as médias a que chamaremos 
x
, a “Permutação” irá trocar um par de valores entre grupos e refazer o cálculo, e este processo será 
exaustivamente repetido até se esgotarem todas as possibilidades. Feito isso o conjunto de resultados 
produzidos formará uma distribuição e poderemos atribuir uma probabilidade a 
x
, a partir da 
frequência deste resultado na distribuição produzida. 
1.2 “Cross-validation”. 
A “Validação Cruzada” aplica-se especialmente em análises de regressão (2). A amostra 
é dividida aleatoriamente em dois ou mais subconjuntos e um destes (ou vários) é utilizado para 
deduzir a equação de regressão e outro (ou outros) são utilizados para testar o modelo criado. O 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 3 
método pode ser duplamente cruzado, isto é dividindo a amostra em dois subconjuntos cada uma é 
utilizado como suporte de um modelo e simultaneamente como teste para o modelo produzido com o 
outro subconjunto. Se a amostra for suficientemente grande o número de subconjuntos poderá 
aumentar e cada um poderá funcionar tanto como fonte de modelo como campo de teste. 
Acessoriamente o método poderá ser elaborado com uma múltipla seleção aleatória de subconjuntos 
através de rotinas “Monte Carlo” aumentando a potência dos resultados. O método não é adequado a 
amostras de pequena dimensão, a criação de subconjuntos iria reduzir ainda mais a dimensão da 
amostra. 
1.3 “Jackknife”. 
O método “Jackknife” aplica-se a retas de regressão quando a dispersão de dados é grande 
ou existem valores extremos. Consiste na comparação ente os coeficientes de regressão (β1 e β0) ou 
entre os valores de R2 da amostra e da subamostra ”cortada”. A subamostra “cortada” é a amostra à 
qual se suprimiu um dos valores. O coeficiente “cortado” é calculado pelo quociente de 
  *1 11N N  
 em que N é o número de elementos da amostra,
1
ou R2 ou β2 correspondem a 
valores calculados da regressão da amostra e 
* 2* *
1 2 ou ou R 
 correspondem a valores calculados da 
regressão da subamostra. Este processo é repetido exaustivamente e é calculada a média dos 
coeficientes “cortados”. Esta média se dividida pelo erro padrão dá origem a um valor t que pode ser 
comparado com o valor t crítico. 
1.4 “Bootstrap”. 
O “bootstrap” combina em profundidade o método de simulação “Monte Carlo” com o 
estudo estatístico. Quando conhecemos perfeitamente a probabilidade de um resultado de uma 
experiência não precisamos de dados, a simulação aleatória destes é suficiente. Tomemos o exemplo 
do lançamento de dados honestos, desde o estudo de Galileu sobre as probabilidades combinadas do 
lançamento de três dados que o tema está totalmente clarificado e o efeito do acaso, da sorte ou do 
azar simulado com perfeição. No entanto se os dados tiverem defeito ou se estivermos a estudar 
experiências onde a probabilidade não puder ser totalmente equacionada,