Buscar

AATD T5 FINAL 1400433

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

José Costa - 1400433 
 
 
 
 
 
Reamostragem, Covariáveis, Ponderação de 
dados 
 
 
 
AATD - (22001) 
ANO LETIVO 2014/2015 
 
 
 
Trabalho Final da Unidade Curricular 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
16 de Junho de 2015 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 i 
Índice 
1 Questão I - Métodos de Reamostragem ..................................................................................................... 2 
1.1 “Randomization exact test”. ................................................................................................................. 2 
1.2 “Cross-validation”. .............................................................................................................................. 2 
1.3 “Jackknife”. ......................................................................................................................................... 3 
1.4 “Bootstrap”. ........................................................................................................................................ 3 
1.5 Aplicações computacionais. ................................................................................................................. 4 
2 Questão II ................................................................................................................................................ 5 
2.1 (a) Conceitos ....................................................................................................................................... 5 
2.2 (b) Estimativas..................................................................................................................................... 6 
3 Questão III ............................................................................................................................................... 8 
3.1 Alínea a. .............................................................................................................................................. 8 
3.2 Alínea b. .............................................................................................................................................. 9 
3.3 Alínea c. ............................................................................................................................................ 12 
3.4 Alínea d. ............................................................................................................................................ 13 
Bibliografia .................................................................................................................................................... 15 
 
 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 2 
1 Questão I - Métodos de Reamostragem 
Reamostragem refere-se a um conjunto de métodos de manipulação dos dados de uma 
amostragem com o objetivo de formular e basear conclusões sobre a representatividade da amostra e 
sobre o provável enviesamento das inferências a que a sua análise conduza. Pode também ser utilizado 
como método alternativo de inferência estatística. Este conjunto de métodos terão começado a ser 
desenvolvidos por Fisher segundo Yu (1), mas não tiveram sequência dada a insuficiência de cálculo 
automático na época. 
Como indica Simon (2), reamostragem refere-se à utilização dos dados observados (…) 
para produzir novas amostras hipotéticas, que podem então ser analisadas. 
A disponibilidade de cálculo automático é uma caraterística comum aos vários métodos 
que utilizam técnicas de “Monte Carlo” (2) para reamostrar aleatoriamente os dados de base e gerar 
uma estimativa empírica da estatística analisada, derivada da distribuição amostral obtida na 
reamostragem. 
Mas, deverá sempre existir uma amostra de dados reais de suporte e é com base nesses 
dados que os métodos se desenvolvem. Nisto a reamostragem difere de uma simulação de “Monte 
Carlo” na qual os dados podem ser virtuais, gerados por um qualquer processo pseudoaleatório. 
Os métodos de reamostragem mais comuns são o método “randomization exact test”, o 
método de “cross-validation”, o método “jackknife” e o método “bootstrap”. 
1.1 “Randomization exact test”. 
Este método é também chamado de método da “Permutação”, palavra que é utilizada no 
sentido corrente de troca e não no sentido matemático. Se imaginarmos que a amostra é constituída 
por dois grupos cada de n elementos e a estatística em cálculo envolve as médias a que chamaremos 
x
, a “Permutação” irá trocar um par de valores entre grupos e refazer o cálculo, e este processo será 
exaustivamente repetido até se esgotarem todas as possibilidades. Feito isso o conjunto de resultados 
produzidos formará uma distribuição e poderemos atribuir uma probabilidade a 
x
, a partir da 
frequência deste resultado na distribuição produzida. 
1.2 “Cross-validation”. 
A “Validação Cruzada” aplica-se especialmente em análises de regressão (2). A amostra 
é dividida aleatoriamente em dois ou mais subconjuntos e um destes (ou vários) é utilizado para 
deduzir a equação de regressão e outro (ou outros) são utilizados para testar o modelo criado. O 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 3 
método pode ser duplamente cruzado, isto é dividindo a amostra em dois subconjuntos cada uma é 
utilizado como suporte de um modelo e simultaneamente como teste para o modelo produzido com o 
outro subconjunto. Se a amostra for suficientemente grande o número de subconjuntos poderá 
aumentar e cada um poderá funcionar tanto como fonte de modelo como campo de teste. 
Acessoriamente o método poderá ser elaborado com uma múltipla seleção aleatória de subconjuntos 
através de rotinas “Monte Carlo” aumentando a potência dos resultados. O método não é adequado a 
amostras de pequena dimensão, a criação de subconjuntos iria reduzir ainda mais a dimensão da 
amostra. 
1.3 “Jackknife”. 
O método “Jackknife” aplica-se a retas de regressão quando a dispersão de dados é grande 
ou existem valores extremos. Consiste na comparação ente os coeficientes de regressão (β1 e β0) ou 
entre os valores de R2 da amostra e da subamostra ”cortada”. A subamostra “cortada” é a amostra à 
qual se suprimiu um dos valores. O coeficiente “cortado” é calculado pelo quociente de 
  *1 11N N  
 em que N é o número de elementos da amostra,
1
ou R2 ou β2 correspondem a 
valores calculados da regressão da amostra e 
* 2* *
1 2 ou ou R 
 correspondem a valores calculados da 
regressão da subamostra. Este processo é repetido exaustivamente e é calculada a média dos 
coeficientes “cortados”. Esta média se dividida pelo erro padrão dá origem a um valor t que pode ser 
comparado com o valor t crítico. 
1.4 “Bootstrap”. 
O “bootstrap” combina em profundidade o método de simulação “Monte Carlo” com o 
estudo estatístico. Quando conhecemos perfeitamente a probabilidade de um resultado de uma 
experiência não precisamos de dados, a simulação aleatória destes é suficiente. Tomemos o exemplo 
do lançamento de dados honestos, desde o estudo de Galileu sobre as probabilidades combinadas do 
lançamento de três dados que o tema está totalmente clarificado e o efeito do acaso, da sorte ou do 
azar simulado com perfeição. No entanto se os dados tiverem defeito ou se estivermos a estudar 
experiências onde a probabilidade não puder ser totalmente equacionada,por exemplo num estudo 
de opinião, não podemos simular, necessitamos de uma amostra de resultados a partir da qual inferir. 
O “bootstrap” aplica a “força-bruta” de cálculo de “Monte Carlo” a estas situações, potenciando a sua 
utilização como suporte de inferência. Para o “bootstrap” a amostra disponível funciona como 
“semente” de pseudo-aleatorização. Uma amostra de dimensão n, não muito grande, é copiada e 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 4 
recopiada para se obter uma amostra de dimensão kn, desta são extraídas aleatoriamente, com 
reposição, amostras de dimensão n. 
Este método modela bem a realidade amostral e ao mesmo tempo simula o efeito do acaso 
na produção de resultados, a sua utilização intensiva permite construir tabelas de frequências e curvas 
de distribuição que caraterizam a probabilidade. Apesar de obtermos uma estatística (das amostras 
analisadas) que carateriza uma estatística (da amostra “semente”) a inferência é projetada e projetável 
para o parâmetro em estudo da população. 
1.5 Aplicações computacionais. 
O SPSS implementa o método “bootstrap” em diversas funções de análise nomeadamente 
em Estatísticas descritivas, em Testes de média, em Modelos lineares, em Correlação e em Regressão 
linear. Outros métodos de reamostragem não estão diretamente disponíveis nos pacotes básicos do 
SPSS. A literatura consultada indica a possibilidade de aplicação do método “Jackknife” sem 
reposição através de macros. Um exemplo está bem documentado em 
https://groups.google.com/forum/ #!topic/comp.soft-sys.stat.spss/FzeGBvG_DfU. 
É possível realizar diversos métodos de reamostragem em R. O pacote “resample” 
implementa funções de “bootstrap”, “jackknife” e “permutation”. O pacote “boot” implementa 
“bootstrap” e em certa medida “jackknife” sobre os resultados de “bootstrap”. David Howell da 
universidade de Vermont tem diversos exemplos de aplicação em R no seu site 
https://www.uvm.edu/~dhowell/StatPages/. 
No mesmo site é ainda possível descarregar a aplicação “resampling.exe” em VBasic que 
executa testes aplicando os métodos “bootstrap” ou “permutation”. É conveniente definir os 
parâmetros de compatibilidade se a aplicação for correr em windows 8.1 
Estão também disponíveis vários “add-in” para Excel. O mais interessante é “Resampling 
Stats”, disponível livre por um ano no site “www.resample.com” fundado por Julian L. Simon. Este 
“add-in” faz reamostragem, baralha, agrupa, traça histogramas, faz regressões e bootstrap com 
correção de enviesamento. 
 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 5 
2 Questão II 
2.1 (a) Conceitos 
Uma covariável é uma variável que tem a propriedade de permitir prever o valor de outra 
variável. Existem muitas outras designações (sinónimos) para co variável sendo o meu favorito o 
termo médico de “marcador”. A Amostragem com covariáveis é a amostragem em que para se 
selecionar A se procura B, sendo B a covariável de A. O método utiliza-se no dia-a-dia em análise 
clínica, mas também se aplica à amostragem de diversos tipos de fauna selvagem (Ursos, Linces, 
etc.). 
O Estimador de Razão é uma técnica que utiliza informação auxiliar disponível que está 
correlacionada com a variável de interesse. Pressupões que a relação é linear positiva e passa pela 
origem. É calculado, para a amostra, o quociente (R) entre a v.a. auxiliar e a v.a. de interesse e esse 
quociente é utilizado para a estimação. O método foi pela primeira vez utilizado por Laplace em 
França em 18021 para estimar a população francesa. 
Para a população o quociente é definido por 
z z
x x
R
 
 
 
 sendo z a variável de interesse 
e sendo o seu estimador 
1
1
ˆ
n
i
i
n
i
i
z
z
R r
x
x


  


. A variância do estimador da razão pode ser definida por 
 
 
 
2
1
2
1
1
1
n
i i
i
x
z rx
n
Var r
N n N


 
  
 
podendo substituir-se 
x
 pelo seu estimador 
x
. 
O Estimador de Regressão é outra técnica de utilização de informação auxiliar 
disponível correlacionada com a v.a. de interesse. Aplica-se quando as v.a. de interesse e auxiliar têm 
uma relação linear positiva do tipo
y a bx 
, mas a reta de regressão não passa pela origem. Utiliza-
se como estimador da média populacional 
ˆ
yL
 ou como estimador do total populacional 
Y
 e é dado 
por 
 ˆ yL xy b x   
 em que   
 
1
2
1
n
i i
i
n
i
i
y y x x
b
x x


 




 . O estimador da variância pode ser dado por; 
     2 22
1 1
1
ˆ
2
n n
yL i i
i i
N n N n
Var y y b x x EMQ
Nn n Nn

 
      
               
 
 em que EMQ é o erro 
médio quadrático. 
 
 
1 Ver https://onlinecourses.science.psu.edu/stat506/node/20 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 6 
Como exemplo, podemos imaginar a empresa “Laranjol” que comercializa diversos tipos 
de sumos e refrigerantes de laranja. A sua principal matéria-prima são laranjas que negoceia em 
função do sumo produzido. Para a receção de matéria-prima precisa de estimar o volume de sumo 
que o fornecimento irá produzir. Como isso não é mensurável rápidamente, poderá utilizar a 
informação auxiliar “peso” e para uma amostra processada calcular a razão e a regressão entre sumo 
e peso. Consoante o valor de R e a ordenada da origem da reta, calculados, optará pelo método do 
Estimador de Razão ou Estimador de Regressão para classificar e valorar a entrega. 
2.2 (b) Estimativas 
Os dados são: 
N = 122 Dimensão da população (países). 
n = 36 Dimensão da amostra 
1560.5kx 
 Somatório das populações da amostra no ano 2000. 
1447.7kz 
 Somatório das populações da amostra no ano 2010. 
2 609833.24kx 
 
2 511520.87kz 
 
558395.94k kx z 
 
 
2.2.1 Estimativa da percentagem de aumento da população nos 122 Países. 
ΔPN Aumento da população de N em percentagem. 
Δpn Aumento da população de n em percentagem 
N nP p  
 
100 1447.7
1 0.9277154 1 0.0722845 7.23%
100 1560.5
k
n
k
z
p
x
          


 
 O estimador Δpn do aumento da população nos N países entre 2000 e 2010 tem o valor de -7.23%. 
Com os dados disponíveis poderíamos estimar a variação anual em -0.72%. 
 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 7 
2.2.2 Estimativa da variância do estimador 
NP
. 
     1N n
z z
Var P Var p Var Var Var r
x x
 
 
   
         
   
 
 
 
   
2 2 2 2
1 1 1 1
2 2
2
1 1
1 1
1 1
n n n n
i i i i i i
i i i i
z rx z r z x r x
n n
Var r
N x n N N x n N
   
    
   
          
    
    
n = 36 
N = 122 
1560.5 36 43.347x  
 
r = 0.927 
2 511520.87kz 
 
558395.94k kx z 
 
2 609833.24kx 
 
 
2
2
36 1 511520.87 2 0.927 558395.94 0.927 609833.24
( ) 1 · ·
122 43.347 36 122 1
Var r
        
             
 
5( ) 2.6025 10Var r 
 
 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 8 
3 Questão III 
3.1 Alínea a. 
Os cálculos serão efetuados a partir do arquivo DadosQuest_AATD1415.sav. 
Começamos por calcular a média e o desvio-padrão da amostra, utilizamos o comando 
Analisar/Estatísticas descritivas/Descritivos, selecionamos a variável “Q.1.8.Mont_ferias” e em 
opções ativamos média e desvio-padrão. Obtemos: 
Estatísticas descritivas 
 N Média Desvio Padrão 
Montante médio gasto por pessoa 
nas férias do ano anterior 
100 299,3950 173,01565 
N válido (de lista) 100 
 
Com esta operação passamos a conhecer n, μ e σ2, o que permite computar o intervalo de 
confiança utilizando a equação 
2
E z
n


 
 para 
x E x E   
. Em SPSS utilizamos o 
comando Analisar/Estatísticas descritivas/Explorar, selecionamos a variável “Q.1.8.Mont_ferias” e 
em Estatísticas selecionamos Descritivos, para intervalo de confiança de 95%. Obtemos (a tabela 
apresentada é parcial); 
Para analisar a precisão da estimativa podemos seguir começar por visualizar 
graficamente os dados, isso pode ser feito através do histograma ou do box-plot. 
 
2 De fato só conhecemos os valores de s e 
x
 que iremos considerar como correspondendo a μ e σ. 
Descritivos 
 Estatística Erro Padrão 
Montante médio gasto por pessoa 
nas férias do ano anterior 
Média 299,3950 17,30157 
95% Intervalo de Confiança para 
Média 
Limite inferior 265,0649 
Limite superior 333,7251 
Variância 29934,416 
Desvio Padrão 173,01565 
Curtose 1,573 ,478 
 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 9 
Qualquer dos gráficos revela uma acentuada assimetria e a existência de valores extremos 
que poderão influenciar a estimativa. Para concluir sobre isto poderemos executar o cálculo da média, 
com “bootstrap”, (1000 simulações) e verificar a existência ou não de viés. O resultado obtido, que 
consta da tabela, indica um viés reduzido para a média. 
A correção ao intervalo de confiança de 95% devido à correção do viés amostral é real. 
Adicionalmente a aplicação de “Jackknife” poderia indicar se os valores extremos contribuem ou não 
de forma relevante para a margem de erro. 
3.2 Alínea b. 
Agora o arquivo de dados representa uma população, o objetivo é produzir uma amostra 
de dimensão n, representativa da população (das suas opiniões), para um nível de confiança de 95% 
e um erro padrão E. A equação comum que relaciona estes elementos, 
2
E z
n


 
, assume a 
normalidade da distribuição subjacente aos dados. Sendo a v.a. em análise a Q.1.7., começamos por 
confirmar a normalidade no conjunto dos dados e seguidamente por grupo segundo sexo. Utilizamos 
o comando Analisar\Testes não paramétricos\Uma Amostra e obtemos; 
Confirmada a normalidade para a v.a. na totalidade interessa seguidamente verificar se se 
mantem na apreciação por sexo. Isto pode ser feito utilizando também teste um não paramétrico de 
que se obtém o seguinte resultado. 
 
Estatísticas descritivas 
 Estatística 
Bootstrapa 
Viés 
Erro 
Padrão 
BCa 95% de Intervalo 
de Confidência 
Inferior Superior 
Montante médio gasto por pessoa nas férias do ano 
anterior 
N 100 0 0 . . 
Média 299,3950 -,3416 16,7726 270,0442 330,1827 
Desvio Padrão 173,01565 -1,7827 15,11412 145,46150 196,59066 
N válido (de lista) N 100 0 0 . . 
a. A menos que indicado de outra maneira, os resultados de auto inicialização são baseados em 1000 amostras bootstrap 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 10 
Confirmada a normalidade, vamos utilizar o SPSS para calcular o rendimento individual 
médio e o respetivo desvio padrão por sexo. Podemos utilizar o comando Explorar em Estatísticas 
descritivas, mas o que inclui uma tabela mais compacta, do pretendido, é o comando “Médias” no 
menu “Analisar\Comparar médias”. Selecionando as variáveis Q.1.1. e Q.1.7. e ativando Média, 
Variância e Desvio padrão em Opções obtemos uma tabela que infelizmente apresenta o cálculo 
amostral da variância e portanto do desvio padrão e não o cálculo para a população pelo que é 
necessário recalcular multiplicando-se os valores de S por 
1n
N

 para obter σ2. Seguidamente calcula-
se σ para os dois casos, obtendo os valores populacionais seguintes. 
Temos seguidamente que escolher a margem de erro a considerar na amostragem, 
devemos ter em conta a elevada dispersão dos dados da população que apresenta o valor de σ muito 
perto de 
2

para o parâmetro em apreciação. Escolhemos E = 150 porque é um valor limpo, 
aproximadamente 15% de μ e próximo de 
3

. Sabemos que 2
2 2
42E z n z n
En
 
 
      
 
 
 
. 
Prosseguimos com uma amostra de dimensão 42. 
A amostra é criada com o comando Dados\Selecionar casos\Amostra aleatória de casos, 
de dimensão 42% já que por sorte a população é de dimensão 100. 
Gravamos o novo arquivo de dados. A amostra criada é constituída pelos seguintes 
registos; (1, 2, 3, 5, 15, 17, 18, 23, 24, 26, 31, 32, 38, 40, 45, 46, 50, 53, 55, 56, 59, 61, 62, 65, 68, 
71, 73, 74, 75, 78, 79, 80, 81, 82, 83, 88, 89, 94, 96, 98, 99, 100). 
A análise descritiva da variável Rendimento líquido individual, agrupada por sexo é dada 
pelas tabelas e gráficos obtidos a partir do SPSS. A tabela de descritivos é apresentada já editada com 
o acrescento de colunas relativas aos valores populacionais por grupo (sexo). 
 
Rendimento mensal liquido Individual (euros) (Populacional) 
Sexo N Média Variância Desvio Padrão 
Feminino 41 1031,52 246166,65 496,15 
Masculino 59 1051,80 237037,24 486,86 
Total 100 1043,49 240879,79 490,79 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 11 
Rendimento mensal liquido Individual (euros) separado por sexo, na amostra. 
Rendimento mensal liquido Individual (euros) separado por sexo, na amostra e na população. 
Como expectável a média populacional encontra-se no interior do intervalo de confiança 
a 95% da amostra selecionada (para ambos os sexos), na metade superior do intervalo de confiança. 
As médias amostrais são menores que as populacionais. O intervalo de variação da amostra é inferior 
ao populacional. O mesmo acontece com a mediana, a assimetria e a dispersão de valores. 
Isto indica a existência de valores extremos na população que a amostra não inclui. 
Poderia ser verificado com box-plots populacionais e amostrais que não se incluem. 
Resumo de processamento do caso 
 Sexo Casos 
 Válido Ausente Total 
 N Percentagem N Percentagem N Percentagem 
Rendimento mensal liquido 
Individual (euros) 
Feminino 16 100,0% 0 0,0% 16 100,0% 
Masculino 26 100,0% 0 0,0% 26 100,0% 
Descritivos 
 Sexo Amostra População 
Estatística Erro Padrão Estatística Erro Padrão 
R
en
d
im
en
to
 m
en
sa
l l
iq
u
id
o
 In
d
iv
id
u
al
 (
e
u
ro
s)
 
Fe
m
in
in
o
 
N 16 41 
Média 921,0625 89,47814 1031,5244 78,44850 
95% Intervalo de Confiança para 
Média 
Limite inferior 730,3444 872,9741 
Limite superior 1111,7806 1190,0747 
5% da média aparada 913,4028 992,1728 
Mediana 912,5000 967,5000 
Variância 128101,396 252320,824Desvio Padrão 357,91255 502,31546 
Mínimo 450,00 400,00 
Máximo 1530,00 2750,00 
Intervalo 1080,00 2350,00 
Intervalo interquartil 640,75 739,00 
Assimetria ,346 ,564 1,263 ,369 
Curtose -1,166 1,091 2,149 ,724 
M
as
cu
lin
o
 
N 26 59 
Média 899,6731 76,36471 1051,8051 63,92847 
95% Intervalo de Confiança para 
Média 
Limite inferior 742,3970 923,8384 
Limite superior 1056,9491 1179,7718 
5% da média aparada 876,3846 1010,2740 
Mediana 900,0000 990,0000 
Variância 151620,779 241124,095 
Desvio Padrão 389,38513 491,04388 
Mínimo 300,00 300,00 
Máximo 2000,00 3000,00 
Intervalo 1700,00 2700,00 
Intervalo interquartil 531,38 555,00 
Assimetria ,794 ,456 1,511 ,311 
Curtose 1,305 ,887 3,916 ,613 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 12 
3.3 Alínea c. 
O objetivo é comparar as médias dos rendimentos mensais líquidos individuais (Q1.7.) 
para as três categorias de local de residência (Q1.4). Utiliza-se a ANOVA unidirecional. 
Nesta análise pretende-se verificar se a v.a. estudada é influenciada ou não por um fator. 
Isso é feito pela comparação do valor da variância entre grupos, dentro de grupos e total. Se a 
variância dentro dos grupos (4) (residual) for significativamente menor que entre os grupos (do fator) 
então é legítimo concluir que o fator é o causador da variabilidade, em caso contrário conclui-se que 
o fator não tem influência no resultado, ou seja, não é um fator. Este estudo tem a forma de um teste 
de hipótese em que H0:μ1=μ2=μn e H1:μ1≠μ2≠μn, o teste só é aplicável quando a v.a. tem distribuição 
normal, o que já confirmámos anteriormente e quando as variâncias são homogéneas. Quando estes 
pressupostos não se verificarem podemos utilizar alternativamente o teste não paramétrico de 
Kruskal-Wallis que utiliza as medianas e não as médias. Na aplicação do teste ANOVA unidirecional 
vamos assumir a homogeneidade da variância sem verificar antecipadamente. 
O teste executa-se com o comando Analisar\Comparar médias\ANOVA unidirecional e 
selecionamos Descritivos e Homogeneidade do teste de variância em Opções. Obtemos; 
Descritivos 
Rendimento mensal liquido Individual (euros) 
 N Média Desvio Padrão Erro Padrão Intervalo de confiança de 95% para média Mínimo Máximo 
Limite inferior Limite superior 
Urbana 59 1118,0847 527,26240 68,64372 980,6794 1255,4901 342,00 3000,00 
Arredores urbanos 23 891,2391 432,86873 90,25937 704,0527 1078,4256 427,50 1983,00 
Rural 18 993,5278 415,50945 97,93652 786,8998 1200,1558 300,00 1750,00 
Total 100 1043,4900 493,26760 49,32676 945,6150 1141,3650 300,00 3000,00 
 
Teste de Homogeneidade de Variâncias 
Rendimento mensal liquido Individual (euros) 
Estatística de Levene df1 df2 Sig. 
,318 2 97 ,728 
 
ANOVA 
Rendimento mensal liquido Individual (euros) 
 Soma dos Quadrados df Quadrado Médio Z Sig. 
Entre Grupos 906377,743 2 453188,871 1,896 ,156 
Nos grupos 23181602,246 97 238985,590 
Total 24087979,988 99 
 
Deve notar-se que o SPSS em português (brasileiro) tem um erro e indica Z onde devia 
indicar F já que a o teste calcula a razão entre médias quadráticas que tem uma distribuição F de 
Fisher. 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 13 
Com o resultado obtido não rejeitamos H0 e portanto as médias são iguais. Se utilizarmos 
o método N.P. de KW obtemos o resultado abaixo que confirma a decisão de manter H0. 
3.4 Alínea d. 
Num processo amostral de uma população estratificada poderemos utilizar um método de 
amostragem estratificada otimizada de que resultam subamostras relativas aos estratos de dimensão 
desproporcional à representação desses estratos na população. Isto pode suceder quer para compensar 
a diferente probabilidade de seleção de elementos de estratos com dimensão muito diferente, quer 
para corrigir a representatividade de estratos de diferentes variâncias aumentando a representatividade 
de estratos de maior dispersão. Em qualquer caso a representatividade final das subamostras é 
diferente da das subpopulações e antes de iniciar o processo de inferência é necessário reequilibrar o 
sistema. Para isso criam-se pesos de ponderação para cada estrato que repões o seu peso original na 
população. 
Os pesos calculam-se pela razão entre as proporções do estrato na população e na amostra. 
A equação do peso de ponderação será 
%
%
i
P
i
N
W
n

 em que %Ni representa a proporção do estrato i 
na população N e %ni representa a proporção do estrato i na amostra n. 
O SPSS não calcula pesos de ponderação, no entanto pode utilizá-los na análise. Para isso 
é necessário criar uma variável em que os pesos são associados à v.a. definidora dos estratos. 
Imaginando a v.a. Q.1.4 do arquivo de dados DadosQuest_AATD1415.sav como a v.a. definidora de 
estratos, poderemos abrir uma janela de programação com o comando Arquivo\Novo\Sintaxe e 
escrever; 
IF Q1.4.AglomeracaoURural=1 peso=x. 
IF Q1.4.AglomeracaoURural=2 peso=y. 
IF Q1.4.AglomeracaoURural=3 peso=z. 
EXECUTE 
Seguidamente executar (x, y, z devem ser os valores numéricos da ponderação 
calculados) para criar a nova v.a. “peso”. Seguidamente utiliza-se o comando Dados\Ponderar casos 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 14 
e ativa-se Ponderar casos por, selecionando a v.a. peso. A partir desse momento as funções de analisar 
serão ponderadas pela v.a. peso. 
 
Para a segunda parte desta alínea selecionou-se o artigo; 
SZWARCWALD, Célia Landmann and DAMACENA, Giseli Nogueira. Amostras complexas em inquéritos 
populacionais: planejamento e implicações na análise estatística dos dados. Rev. bras. epidemiol. [online]. 2008, vol.11, 
suppl.1, pp. 38-45. ISSN 1980-5497. http://dx.doi.org/10.1590/S1415-790X2008000500004. 
A seleção não é totalmente satisfatória, já que o artigo não trata dados, limitando-se a 
referir como este método foi aplicado na Pesquisa Mundial de Saúde (PMS), realizada no Brasil em 
2003. 
As autoras começam por caraterizar o método de seleção de amostras utilizado que não 
foi aleatório simples, mas untes um desenho complexo com combinação de estratos e clusters em 
várias fases e uma abordagem PPT (PPS). 
O artigo explica que são criados pesos, a que chama “fatores naturais de expansão” para 
compensar as probabilidades desiguais de seleção e outros pesos para fazer a calibração para totais 
conhecidos da população. Estas correções são aplicadas às estatísticas descritivas, mas para a 
inferência o desenho complexo de amostragem, pode originar em certas circunstâncias (clusters) o 
aumento da variância da média reduzindo a precisão dos estimadores, situação em que pesos de 
ponderação adicionais são necessários. 
 
 
 
 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO 
AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 
1400433 – José Costa 14-06-2015 15 
Bibliografia 
1. Resampling methods: Concepts, Applications, and Justification. Yu, Chong Ho (Alex). ISSN 1531-7714, On Line : Practical Assessment, Research 
& Evaluation, 2003, Vol. 8. 
2. Simon, Julian L. Resampling: The New Statistics. s.l. : Resampling Stats , 1995. 
3. Cross-Validation of Regression Models . Picard, Richard R. and Cook, R. Dennis . s.l. : Journal of the American Statistical Association, 
1984, Vols. Vol. 79, No. 387. 
4. Marôco, João.Análise Estatística com o SPSS Statistics. Pêro Pinheiro : ReportNumber, 2014. 9789899676343.

Outros materiais