Baixe o app para aproveitar ainda mais
Prévia do material em texto
José Costa - 1400433 Reamostragem, Covariáveis, Ponderação de dados AATD - (22001) ANO LETIVO 2014/2015 Trabalho Final da Unidade Curricular 16 de Junho de 2015 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 i Índice 1 Questão I - Métodos de Reamostragem ..................................................................................................... 2 1.1 “Randomization exact test”. ................................................................................................................. 2 1.2 “Cross-validation”. .............................................................................................................................. 2 1.3 “Jackknife”. ......................................................................................................................................... 3 1.4 “Bootstrap”. ........................................................................................................................................ 3 1.5 Aplicações computacionais. ................................................................................................................. 4 2 Questão II ................................................................................................................................................ 5 2.1 (a) Conceitos ....................................................................................................................................... 5 2.2 (b) Estimativas..................................................................................................................................... 6 3 Questão III ............................................................................................................................................... 8 3.1 Alínea a. .............................................................................................................................................. 8 3.2 Alínea b. .............................................................................................................................................. 9 3.3 Alínea c. ............................................................................................................................................ 12 3.4 Alínea d. ............................................................................................................................................ 13 Bibliografia .................................................................................................................................................... 15 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 2 1 Questão I - Métodos de Reamostragem Reamostragem refere-se a um conjunto de métodos de manipulação dos dados de uma amostragem com o objetivo de formular e basear conclusões sobre a representatividade da amostra e sobre o provável enviesamento das inferências a que a sua análise conduza. Pode também ser utilizado como método alternativo de inferência estatística. Este conjunto de métodos terão começado a ser desenvolvidos por Fisher segundo Yu (1), mas não tiveram sequência dada a insuficiência de cálculo automático na época. Como indica Simon (2), reamostragem refere-se à utilização dos dados observados (…) para produzir novas amostras hipotéticas, que podem então ser analisadas. A disponibilidade de cálculo automático é uma caraterística comum aos vários métodos que utilizam técnicas de “Monte Carlo” (2) para reamostrar aleatoriamente os dados de base e gerar uma estimativa empírica da estatística analisada, derivada da distribuição amostral obtida na reamostragem. Mas, deverá sempre existir uma amostra de dados reais de suporte e é com base nesses dados que os métodos se desenvolvem. Nisto a reamostragem difere de uma simulação de “Monte Carlo” na qual os dados podem ser virtuais, gerados por um qualquer processo pseudoaleatório. Os métodos de reamostragem mais comuns são o método “randomization exact test”, o método de “cross-validation”, o método “jackknife” e o método “bootstrap”. 1.1 “Randomization exact test”. Este método é também chamado de método da “Permutação”, palavra que é utilizada no sentido corrente de troca e não no sentido matemático. Se imaginarmos que a amostra é constituída por dois grupos cada de n elementos e a estatística em cálculo envolve as médias a que chamaremos x , a “Permutação” irá trocar um par de valores entre grupos e refazer o cálculo, e este processo será exaustivamente repetido até se esgotarem todas as possibilidades. Feito isso o conjunto de resultados produzidos formará uma distribuição e poderemos atribuir uma probabilidade a x , a partir da frequência deste resultado na distribuição produzida. 1.2 “Cross-validation”. A “Validação Cruzada” aplica-se especialmente em análises de regressão (2). A amostra é dividida aleatoriamente em dois ou mais subconjuntos e um destes (ou vários) é utilizado para deduzir a equação de regressão e outro (ou outros) são utilizados para testar o modelo criado. O UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 3 método pode ser duplamente cruzado, isto é dividindo a amostra em dois subconjuntos cada uma é utilizado como suporte de um modelo e simultaneamente como teste para o modelo produzido com o outro subconjunto. Se a amostra for suficientemente grande o número de subconjuntos poderá aumentar e cada um poderá funcionar tanto como fonte de modelo como campo de teste. Acessoriamente o método poderá ser elaborado com uma múltipla seleção aleatória de subconjuntos através de rotinas “Monte Carlo” aumentando a potência dos resultados. O método não é adequado a amostras de pequena dimensão, a criação de subconjuntos iria reduzir ainda mais a dimensão da amostra. 1.3 “Jackknife”. O método “Jackknife” aplica-se a retas de regressão quando a dispersão de dados é grande ou existem valores extremos. Consiste na comparação ente os coeficientes de regressão (β1 e β0) ou entre os valores de R2 da amostra e da subamostra ”cortada”. A subamostra “cortada” é a amostra à qual se suprimiu um dos valores. O coeficiente “cortado” é calculado pelo quociente de *1 11N N em que N é o número de elementos da amostra, 1 ou R2 ou β2 correspondem a valores calculados da regressão da amostra e * 2* * 1 2 ou ou R correspondem a valores calculados da regressão da subamostra. Este processo é repetido exaustivamente e é calculada a média dos coeficientes “cortados”. Esta média se dividida pelo erro padrão dá origem a um valor t que pode ser comparado com o valor t crítico. 1.4 “Bootstrap”. O “bootstrap” combina em profundidade o método de simulação “Monte Carlo” com o estudo estatístico. Quando conhecemos perfeitamente a probabilidade de um resultado de uma experiência não precisamos de dados, a simulação aleatória destes é suficiente. Tomemos o exemplo do lançamento de dados honestos, desde o estudo de Galileu sobre as probabilidades combinadas do lançamento de três dados que o tema está totalmente clarificado e o efeito do acaso, da sorte ou do azar simulado com perfeição. No entanto se os dados tiverem defeito ou se estivermos a estudar experiências onde a probabilidade não puder ser totalmente equacionada,por exemplo num estudo de opinião, não podemos simular, necessitamos de uma amostra de resultados a partir da qual inferir. O “bootstrap” aplica a “força-bruta” de cálculo de “Monte Carlo” a estas situações, potenciando a sua utilização como suporte de inferência. Para o “bootstrap” a amostra disponível funciona como “semente” de pseudo-aleatorização. Uma amostra de dimensão n, não muito grande, é copiada e UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 4 recopiada para se obter uma amostra de dimensão kn, desta são extraídas aleatoriamente, com reposição, amostras de dimensão n. Este método modela bem a realidade amostral e ao mesmo tempo simula o efeito do acaso na produção de resultados, a sua utilização intensiva permite construir tabelas de frequências e curvas de distribuição que caraterizam a probabilidade. Apesar de obtermos uma estatística (das amostras analisadas) que carateriza uma estatística (da amostra “semente”) a inferência é projetada e projetável para o parâmetro em estudo da população. 1.5 Aplicações computacionais. O SPSS implementa o método “bootstrap” em diversas funções de análise nomeadamente em Estatísticas descritivas, em Testes de média, em Modelos lineares, em Correlação e em Regressão linear. Outros métodos de reamostragem não estão diretamente disponíveis nos pacotes básicos do SPSS. A literatura consultada indica a possibilidade de aplicação do método “Jackknife” sem reposição através de macros. Um exemplo está bem documentado em https://groups.google.com/forum/ #!topic/comp.soft-sys.stat.spss/FzeGBvG_DfU. É possível realizar diversos métodos de reamostragem em R. O pacote “resample” implementa funções de “bootstrap”, “jackknife” e “permutation”. O pacote “boot” implementa “bootstrap” e em certa medida “jackknife” sobre os resultados de “bootstrap”. David Howell da universidade de Vermont tem diversos exemplos de aplicação em R no seu site https://www.uvm.edu/~dhowell/StatPages/. No mesmo site é ainda possível descarregar a aplicação “resampling.exe” em VBasic que executa testes aplicando os métodos “bootstrap” ou “permutation”. É conveniente definir os parâmetros de compatibilidade se a aplicação for correr em windows 8.1 Estão também disponíveis vários “add-in” para Excel. O mais interessante é “Resampling Stats”, disponível livre por um ano no site “www.resample.com” fundado por Julian L. Simon. Este “add-in” faz reamostragem, baralha, agrupa, traça histogramas, faz regressões e bootstrap com correção de enviesamento. UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 5 2 Questão II 2.1 (a) Conceitos Uma covariável é uma variável que tem a propriedade de permitir prever o valor de outra variável. Existem muitas outras designações (sinónimos) para co variável sendo o meu favorito o termo médico de “marcador”. A Amostragem com covariáveis é a amostragem em que para se selecionar A se procura B, sendo B a covariável de A. O método utiliza-se no dia-a-dia em análise clínica, mas também se aplica à amostragem de diversos tipos de fauna selvagem (Ursos, Linces, etc.). O Estimador de Razão é uma técnica que utiliza informação auxiliar disponível que está correlacionada com a variável de interesse. Pressupões que a relação é linear positiva e passa pela origem. É calculado, para a amostra, o quociente (R) entre a v.a. auxiliar e a v.a. de interesse e esse quociente é utilizado para a estimação. O método foi pela primeira vez utilizado por Laplace em França em 18021 para estimar a população francesa. Para a população o quociente é definido por z z x x R sendo z a variável de interesse e sendo o seu estimador 1 1 ˆ n i i n i i z z R r x x . A variância do estimador da razão pode ser definida por 2 1 2 1 1 1 n i i i x z rx n Var r N n N podendo substituir-se x pelo seu estimador x . O Estimador de Regressão é outra técnica de utilização de informação auxiliar disponível correlacionada com a v.a. de interesse. Aplica-se quando as v.a. de interesse e auxiliar têm uma relação linear positiva do tipo y a bx , mas a reta de regressão não passa pela origem. Utiliza- se como estimador da média populacional ˆ yL ou como estimador do total populacional Y e é dado por ˆ yL xy b x em que 1 2 1 n i i i n i i y y x x b x x . O estimador da variância pode ser dado por; 2 22 1 1 1 ˆ 2 n n yL i i i i N n N n Var y y b x x EMQ Nn n Nn em que EMQ é o erro médio quadrático. 1 Ver https://onlinecourses.science.psu.edu/stat506/node/20 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 6 Como exemplo, podemos imaginar a empresa “Laranjol” que comercializa diversos tipos de sumos e refrigerantes de laranja. A sua principal matéria-prima são laranjas que negoceia em função do sumo produzido. Para a receção de matéria-prima precisa de estimar o volume de sumo que o fornecimento irá produzir. Como isso não é mensurável rápidamente, poderá utilizar a informação auxiliar “peso” e para uma amostra processada calcular a razão e a regressão entre sumo e peso. Consoante o valor de R e a ordenada da origem da reta, calculados, optará pelo método do Estimador de Razão ou Estimador de Regressão para classificar e valorar a entrega. 2.2 (b) Estimativas Os dados são: N = 122 Dimensão da população (países). n = 36 Dimensão da amostra 1560.5kx Somatório das populações da amostra no ano 2000. 1447.7kz Somatório das populações da amostra no ano 2010. 2 609833.24kx 2 511520.87kz 558395.94k kx z 2.2.1 Estimativa da percentagem de aumento da população nos 122 Países. ΔPN Aumento da população de N em percentagem. Δpn Aumento da população de n em percentagem N nP p 100 1447.7 1 0.9277154 1 0.0722845 7.23% 100 1560.5 k n k z p x O estimador Δpn do aumento da população nos N países entre 2000 e 2010 tem o valor de -7.23%. Com os dados disponíveis poderíamos estimar a variação anual em -0.72%. UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 7 2.2.2 Estimativa da variância do estimador NP . 1N n z z Var P Var p Var Var Var r x x 2 2 2 2 1 1 1 1 2 2 2 1 1 1 1 1 1 n n n n i i i i i i i i i i z rx z r z x r x n n Var r N x n N N x n N n = 36 N = 122 1560.5 36 43.347x r = 0.927 2 511520.87kz 558395.94k kx z 2 609833.24kx 2 2 36 1 511520.87 2 0.927 558395.94 0.927 609833.24 ( ) 1 · · 122 43.347 36 122 1 Var r 5( ) 2.6025 10Var r UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 8 3 Questão III 3.1 Alínea a. Os cálculos serão efetuados a partir do arquivo DadosQuest_AATD1415.sav. Começamos por calcular a média e o desvio-padrão da amostra, utilizamos o comando Analisar/Estatísticas descritivas/Descritivos, selecionamos a variável “Q.1.8.Mont_ferias” e em opções ativamos média e desvio-padrão. Obtemos: Estatísticas descritivas N Média Desvio Padrão Montante médio gasto por pessoa nas férias do ano anterior 100 299,3950 173,01565 N válido (de lista) 100 Com esta operação passamos a conhecer n, μ e σ2, o que permite computar o intervalo de confiança utilizando a equação 2 E z n para x E x E . Em SPSS utilizamos o comando Analisar/Estatísticas descritivas/Explorar, selecionamos a variável “Q.1.8.Mont_ferias” e em Estatísticas selecionamos Descritivos, para intervalo de confiança de 95%. Obtemos (a tabela apresentada é parcial); Para analisar a precisão da estimativa podemos seguir começar por visualizar graficamente os dados, isso pode ser feito através do histograma ou do box-plot. 2 De fato só conhecemos os valores de s e x que iremos considerar como correspondendo a μ e σ. Descritivos Estatística Erro Padrão Montante médio gasto por pessoa nas férias do ano anterior Média 299,3950 17,30157 95% Intervalo de Confiança para Média Limite inferior 265,0649 Limite superior 333,7251 Variância 29934,416 Desvio Padrão 173,01565 Curtose 1,573 ,478 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 9 Qualquer dos gráficos revela uma acentuada assimetria e a existência de valores extremos que poderão influenciar a estimativa. Para concluir sobre isto poderemos executar o cálculo da média, com “bootstrap”, (1000 simulações) e verificar a existência ou não de viés. O resultado obtido, que consta da tabela, indica um viés reduzido para a média. A correção ao intervalo de confiança de 95% devido à correção do viés amostral é real. Adicionalmente a aplicação de “Jackknife” poderia indicar se os valores extremos contribuem ou não de forma relevante para a margem de erro. 3.2 Alínea b. Agora o arquivo de dados representa uma população, o objetivo é produzir uma amostra de dimensão n, representativa da população (das suas opiniões), para um nível de confiança de 95% e um erro padrão E. A equação comum que relaciona estes elementos, 2 E z n , assume a normalidade da distribuição subjacente aos dados. Sendo a v.a. em análise a Q.1.7., começamos por confirmar a normalidade no conjunto dos dados e seguidamente por grupo segundo sexo. Utilizamos o comando Analisar\Testes não paramétricos\Uma Amostra e obtemos; Confirmada a normalidade para a v.a. na totalidade interessa seguidamente verificar se se mantem na apreciação por sexo. Isto pode ser feito utilizando também teste um não paramétrico de que se obtém o seguinte resultado. Estatísticas descritivas Estatística Bootstrapa Viés Erro Padrão BCa 95% de Intervalo de Confidência Inferior Superior Montante médio gasto por pessoa nas férias do ano anterior N 100 0 0 . . Média 299,3950 -,3416 16,7726 270,0442 330,1827 Desvio Padrão 173,01565 -1,7827 15,11412 145,46150 196,59066 N válido (de lista) N 100 0 0 . . a. A menos que indicado de outra maneira, os resultados de auto inicialização são baseados em 1000 amostras bootstrap UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 10 Confirmada a normalidade, vamos utilizar o SPSS para calcular o rendimento individual médio e o respetivo desvio padrão por sexo. Podemos utilizar o comando Explorar em Estatísticas descritivas, mas o que inclui uma tabela mais compacta, do pretendido, é o comando “Médias” no menu “Analisar\Comparar médias”. Selecionando as variáveis Q.1.1. e Q.1.7. e ativando Média, Variância e Desvio padrão em Opções obtemos uma tabela que infelizmente apresenta o cálculo amostral da variância e portanto do desvio padrão e não o cálculo para a população pelo que é necessário recalcular multiplicando-se os valores de S por 1n N para obter σ2. Seguidamente calcula- se σ para os dois casos, obtendo os valores populacionais seguintes. Temos seguidamente que escolher a margem de erro a considerar na amostragem, devemos ter em conta a elevada dispersão dos dados da população que apresenta o valor de σ muito perto de 2 para o parâmetro em apreciação. Escolhemos E = 150 porque é um valor limpo, aproximadamente 15% de μ e próximo de 3 . Sabemos que 2 2 2 42E z n z n En . Prosseguimos com uma amostra de dimensão 42. A amostra é criada com o comando Dados\Selecionar casos\Amostra aleatória de casos, de dimensão 42% já que por sorte a população é de dimensão 100. Gravamos o novo arquivo de dados. A amostra criada é constituída pelos seguintes registos; (1, 2, 3, 5, 15, 17, 18, 23, 24, 26, 31, 32, 38, 40, 45, 46, 50, 53, 55, 56, 59, 61, 62, 65, 68, 71, 73, 74, 75, 78, 79, 80, 81, 82, 83, 88, 89, 94, 96, 98, 99, 100). A análise descritiva da variável Rendimento líquido individual, agrupada por sexo é dada pelas tabelas e gráficos obtidos a partir do SPSS. A tabela de descritivos é apresentada já editada com o acrescento de colunas relativas aos valores populacionais por grupo (sexo). Rendimento mensal liquido Individual (euros) (Populacional) Sexo N Média Variância Desvio Padrão Feminino 41 1031,52 246166,65 496,15 Masculino 59 1051,80 237037,24 486,86 Total 100 1043,49 240879,79 490,79 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 11 Rendimento mensal liquido Individual (euros) separado por sexo, na amostra. Rendimento mensal liquido Individual (euros) separado por sexo, na amostra e na população. Como expectável a média populacional encontra-se no interior do intervalo de confiança a 95% da amostra selecionada (para ambos os sexos), na metade superior do intervalo de confiança. As médias amostrais são menores que as populacionais. O intervalo de variação da amostra é inferior ao populacional. O mesmo acontece com a mediana, a assimetria e a dispersão de valores. Isto indica a existência de valores extremos na população que a amostra não inclui. Poderia ser verificado com box-plots populacionais e amostrais que não se incluem. Resumo de processamento do caso Sexo Casos Válido Ausente Total N Percentagem N Percentagem N Percentagem Rendimento mensal liquido Individual (euros) Feminino 16 100,0% 0 0,0% 16 100,0% Masculino 26 100,0% 0 0,0% 26 100,0% Descritivos Sexo Amostra População Estatística Erro Padrão Estatística Erro Padrão R en d im en to m en sa l l iq u id o In d iv id u al ( e u ro s) Fe m in in o N 16 41 Média 921,0625 89,47814 1031,5244 78,44850 95% Intervalo de Confiança para Média Limite inferior 730,3444 872,9741 Limite superior 1111,7806 1190,0747 5% da média aparada 913,4028 992,1728 Mediana 912,5000 967,5000 Variância 128101,396 252320,824Desvio Padrão 357,91255 502,31546 Mínimo 450,00 400,00 Máximo 1530,00 2750,00 Intervalo 1080,00 2350,00 Intervalo interquartil 640,75 739,00 Assimetria ,346 ,564 1,263 ,369 Curtose -1,166 1,091 2,149 ,724 M as cu lin o N 26 59 Média 899,6731 76,36471 1051,8051 63,92847 95% Intervalo de Confiança para Média Limite inferior 742,3970 923,8384 Limite superior 1056,9491 1179,7718 5% da média aparada 876,3846 1010,2740 Mediana 900,0000 990,0000 Variância 151620,779 241124,095 Desvio Padrão 389,38513 491,04388 Mínimo 300,00 300,00 Máximo 2000,00 3000,00 Intervalo 1700,00 2700,00 Intervalo interquartil 531,38 555,00 Assimetria ,794 ,456 1,511 ,311 Curtose 1,305 ,887 3,916 ,613 UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 12 3.3 Alínea c. O objetivo é comparar as médias dos rendimentos mensais líquidos individuais (Q1.7.) para as três categorias de local de residência (Q1.4). Utiliza-se a ANOVA unidirecional. Nesta análise pretende-se verificar se a v.a. estudada é influenciada ou não por um fator. Isso é feito pela comparação do valor da variância entre grupos, dentro de grupos e total. Se a variância dentro dos grupos (4) (residual) for significativamente menor que entre os grupos (do fator) então é legítimo concluir que o fator é o causador da variabilidade, em caso contrário conclui-se que o fator não tem influência no resultado, ou seja, não é um fator. Este estudo tem a forma de um teste de hipótese em que H0:μ1=μ2=μn e H1:μ1≠μ2≠μn, o teste só é aplicável quando a v.a. tem distribuição normal, o que já confirmámos anteriormente e quando as variâncias são homogéneas. Quando estes pressupostos não se verificarem podemos utilizar alternativamente o teste não paramétrico de Kruskal-Wallis que utiliza as medianas e não as médias. Na aplicação do teste ANOVA unidirecional vamos assumir a homogeneidade da variância sem verificar antecipadamente. O teste executa-se com o comando Analisar\Comparar médias\ANOVA unidirecional e selecionamos Descritivos e Homogeneidade do teste de variância em Opções. Obtemos; Descritivos Rendimento mensal liquido Individual (euros) N Média Desvio Padrão Erro Padrão Intervalo de confiança de 95% para média Mínimo Máximo Limite inferior Limite superior Urbana 59 1118,0847 527,26240 68,64372 980,6794 1255,4901 342,00 3000,00 Arredores urbanos 23 891,2391 432,86873 90,25937 704,0527 1078,4256 427,50 1983,00 Rural 18 993,5278 415,50945 97,93652 786,8998 1200,1558 300,00 1750,00 Total 100 1043,4900 493,26760 49,32676 945,6150 1141,3650 300,00 3000,00 Teste de Homogeneidade de Variâncias Rendimento mensal liquido Individual (euros) Estatística de Levene df1 df2 Sig. ,318 2 97 ,728 ANOVA Rendimento mensal liquido Individual (euros) Soma dos Quadrados df Quadrado Médio Z Sig. Entre Grupos 906377,743 2 453188,871 1,896 ,156 Nos grupos 23181602,246 97 238985,590 Total 24087979,988 99 Deve notar-se que o SPSS em português (brasileiro) tem um erro e indica Z onde devia indicar F já que a o teste calcula a razão entre médias quadráticas que tem uma distribuição F de Fisher. UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 13 Com o resultado obtido não rejeitamos H0 e portanto as médias são iguais. Se utilizarmos o método N.P. de KW obtemos o resultado abaixo que confirma a decisão de manter H0. 3.4 Alínea d. Num processo amostral de uma população estratificada poderemos utilizar um método de amostragem estratificada otimizada de que resultam subamostras relativas aos estratos de dimensão desproporcional à representação desses estratos na população. Isto pode suceder quer para compensar a diferente probabilidade de seleção de elementos de estratos com dimensão muito diferente, quer para corrigir a representatividade de estratos de diferentes variâncias aumentando a representatividade de estratos de maior dispersão. Em qualquer caso a representatividade final das subamostras é diferente da das subpopulações e antes de iniciar o processo de inferência é necessário reequilibrar o sistema. Para isso criam-se pesos de ponderação para cada estrato que repões o seu peso original na população. Os pesos calculam-se pela razão entre as proporções do estrato na população e na amostra. A equação do peso de ponderação será % % i P i N W n em que %Ni representa a proporção do estrato i na população N e %ni representa a proporção do estrato i na amostra n. O SPSS não calcula pesos de ponderação, no entanto pode utilizá-los na análise. Para isso é necessário criar uma variável em que os pesos são associados à v.a. definidora dos estratos. Imaginando a v.a. Q.1.4 do arquivo de dados DadosQuest_AATD1415.sav como a v.a. definidora de estratos, poderemos abrir uma janela de programação com o comando Arquivo\Novo\Sintaxe e escrever; IF Q1.4.AglomeracaoURural=1 peso=x. IF Q1.4.AglomeracaoURural=2 peso=y. IF Q1.4.AglomeracaoURural=3 peso=z. EXECUTE Seguidamente executar (x, y, z devem ser os valores numéricos da ponderação calculados) para criar a nova v.a. “peso”. Seguidamente utiliza-se o comando Dados\Ponderar casos UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 14 e ativa-se Ponderar casos por, selecionando a v.a. peso. A partir desse momento as funções de analisar serão ponderadas pela v.a. peso. Para a segunda parte desta alínea selecionou-se o artigo; SZWARCWALD, Célia Landmann and DAMACENA, Giseli Nogueira. Amostras complexas em inquéritos populacionais: planejamento e implicações na análise estatística dos dados. Rev. bras. epidemiol. [online]. 2008, vol.11, suppl.1, pp. 38-45. ISSN 1980-5497. http://dx.doi.org/10.1590/S1415-790X2008000500004. A seleção não é totalmente satisfatória, já que o artigo não trata dados, limitando-se a referir como este método foi aplicado na Pesquisa Mundial de Saúde (PMS), realizada no Brasil em 2003. As autoras começam por caraterizar o método de seleção de amostras utilizado que não foi aleatório simples, mas untes um desenho complexo com combinação de estratos e clusters em várias fases e uma abordagem PPT (PPS). O artigo explica que são criados pesos, a que chama “fatores naturais de expansão” para compensar as probabilidades desiguais de seleção e outros pesos para fazer a calibração para totais conhecidos da população. Estas correções são aplicadas às estatísticas descritivas, mas para a inferência o desenho complexo de amostragem, pode originar em certas circunstâncias (clusters) o aumento da variância da média reduzindo a precisão dos estimadores, situação em que pesos de ponderação adicionais são necessários. UNIVERSIDADE AbERTA MESTRADO EM ESTATÍSTICA MATEMÁTICA E COMPUTAÇÃO AMOSTRAGEM ANÁLISE E TRATAMENTO DE DADOS - 22001 1º SEMESTRE 1400433 – José Costa 14-06-2015 15 Bibliografia 1. Resampling methods: Concepts, Applications, and Justification. Yu, Chong Ho (Alex). ISSN 1531-7714, On Line : Practical Assessment, Research & Evaluation, 2003, Vol. 8. 2. Simon, Julian L. Resampling: The New Statistics. s.l. : Resampling Stats , 1995. 3. Cross-Validation of Regression Models . Picard, Richard R. and Cook, R. Dennis . s.l. : Journal of the American Statistical Association, 1984, Vols. Vol. 79, No. 387. 4. Marôco, João.Análise Estatística com o SPSS Statistics. Pêro Pinheiro : ReportNumber, 2014. 9789899676343.
Compartilhar