224 pág.

Pré-visualização | Página 33 de 50
um deles (i.e. descreva cada uma das letrinhas dessa equação). Dica: essa equação tem uma integral disfarçada. Aponte onde ela está e o que ela representa também. 6. Utilize o banco de dados velho conhecido nosso, juul e teste se a média de IGF-I é diferente de 330 µg/l. Indique qual é o teste de hipóteses e interprete a saída do programa que você utilizou das três maneiras possíveis: comparação com um valor crítico, p-valor e intervalo de confiança. Questão extra (bônus de 0.1 ponto): Use simulações para desenhar uma curva de poder para diversos tamanhos de amostra para um teste de hipóteses qualquer, envolvendo uma distribuição t e escolha um tamanho de amostra adequado para este estudo. Isto significa que você vai estabelecer o que testar e que pressuposições são necessárias. Indique também explicitamente o teste de hipóteses a ser realizado. Dica: Use a função para simulação de poder que nós criamos para ajudar você a escolher o tamanho da amostra. Obs.: Não use o mesmo exemplo da questão 3. 18 Módulo Estatística I no R Autor: Antonio Guilherme Fonseca Pacheco Pré-requisitos: Conhecimento prévio do ambiente R. Especificamente, o leitor deve estar familiarizado com os módulos “Básico”, “Entrada e Saída de Dados” e também “Manuseando dados no R”. Bibliotecas necessárias: ISwR Aula 5 - Testes para uma e duas amostras (contínuos) Livro: páginas 81 a 93 A partir dessa aula vamos abordar diferentes tipos de testes usados em situações específicas comumente encontrados no dia-a-dia da Epidemiologia e da Bioestatística. Na presente aula vamos conversar sobre testes para inferir basicamente diferenças entre médias de variáveis contínuas, seja como nós já vimos, apenas com uma amostra ou com duas amostras. Além disso, alternativas não-paramétricas, isto é, estatísticas que não assumem uma distribuição conhecida dos parâmetros também será abordada. O caso de mais de duas amostras para variáveis contínuas será abordado na aula sobre ANOVA Teste t para uma amostra Teste do sinal do posto de Wilcoxon Teste t para duas amostras Comparação de variâncias Testes para normalidade Teste de Wilcoxon para duas amostras Teste t pareado Teste de Wilcoxon pareado Poder e tamanho de amostra para testes t Exercícios Teste t para uma amostra Bem, o teste t para uma amostra não deve apresentar problemas ou surpresas para você, já que vínhamos usando esse teste como exemplos nas duas últimas aulas. Iremos apenas formalizar as coisas aqui e também descrever um pouco melhor a saída da função t.test(), que é usada também para esse fim, como já fizemos anteriormente. Recordando um pouco, o teste t será usado na esmagadora maioria dos casos, pois em geral a variância da população não é conhecida, e teremos que lançar mão da variância amostral. O conceito básico de um teste t é o cálculo do erro padrão da média (EPM), que nada mais é do que o desvio-padrão da média amostral que nós já exploramos bastante. Recordando: EPM = s / n Não creio que haja dúvidas a respeito do EPM acima. O próximo conceito é o cálculo da estatística T, que é baseado, como você deve estar lembrado também no EPM. Nós já fizemos esse cálculo para o teste t para uma amostra, mas sem usar o termo EPM. Recorde: T = x−0 EPM = x−0 s / n 1 E é claro que toda aquela teoria que nós já discutimos para testes de hipóteses, p-valores e ICs se aplicam aos nossos testes, e portanto não vamos discutir esse assunto novamente. Vamos partir para um exemplo prático, só para reforçar também. Vamos usar um banco de dados do pacote ISwR como exemplo. O banco chama-se intake e contém informações sobre ingesta calórica (em kilojoules) antes (primeira coluna) e após (segunda coluna) a menstruação de 11 mulheres, valores esses pareados para cada uma dessas mulheres. Vamos chamar e inspecionar esse banco: library(ISwR) data(intake) intake Bem, como por enquanto vamos trabalhar com uma amostra, vamos inicialmente usar somente a primeira coluna desse banco. Selecione este vetor: energia<-intake[,1] Aproveite para fazer algumas estatísticas-resumo deste vetor... Bem, um problema interessante que podemos testar é se a ingesta dessas mulheres difere significativamente ou não no período pré-menstrual do valor recomendado, de 7725 kJ. Vamos assumir que essa amostra foi tirada de uma distribuição Normal e aplicar o nosso já conhecido teste t: > t.test(energia, mu=7725) One Sample t-test data: energia t = -2.8208, df = 10, p-value = 0.01814 alternative hypothesis: true mean is not equal to 7725 95 percent confidence interval: 5986.348 7520.925 sample estimates: mean of x 6753.636 Vamos então explicar agora cada parte da saída desse teste: One Sample t-test Bem, essa é só a descrição do tipo de teste empregado. Repare que o R entende, só por você ter colocado a opção mu=7725 que se trata de um teste t para uma amostra. data: energia Sem problemas aqui também. Trata-se apenas do nome do banco de dados que foi usado pela função. Pode ser útil em algumas situações. t = -2.8208, df = 10, p-value = 0.01814 Aqui começa a brincadeira. Nós temos a estatística T (t = -2.8208), os graus de liberdade da distribuição ( df = 10) e o p-valor associado a essa estatística (p-value = 0.01814). Na verdade esta linha basta para você interpretar o seu teste de hipóteses, não é mesmo? Lembra da relação entre o p-valor e o teste de hipóteses? Pois é, mas é claro que você poderia calcular o valor crítico e compará-lo com o valor de T como nós fizemos anteriormente. 2 alternative hypothesis: true mean is not equal to 7725 Aqui o R nos informa que o teste é bilateral (bicaudal) – isso por causa do not equal to que significa diferente e não maior ou menor que. Temos também a informação sobre o valor contra o qual estamos comparando essa amostra, 7725. 95 percent confidence interval: 5986.348 7520.925 E é claro que podemos ainda usar o IC 95% para esse fim também. Ora, se o valor testado (7725) não estiver contido no IC 95% para a média da amostra, por causa da mesma relação, o p- valor será < 0.05 e a hipótese nula será rejeitada, como é o caso. Lembra-se como se calcula esse IC? sample estimates: mean of x 6753.636 E aqui está a estimativa da média, ou seja a média amostral do nosso vetor. Você gostaria de ver alguma outra estimativa aqui para o nosso problema? Se você foi curioso o bastante, já deve ter consultado a ajuda do R para saber mais sobre a função t.test(), que é realmente muito usada em estatística e conseqüentemente por nós também. Você deve então ter notado que ela apresenta diversos argumentos possíveis para vários tipos de testes e também opções de testes. Neste caso, para definir o teste como para uma amostra, o argumento usado foi o mu=7725, mas outros argumentos, dos quais nós usamos os defaults, definem características do teste em questão. O primeiro é a direção desejada do teste, cujo valor-padrão é"alternative=”two.sided”, o que nós exatamente usamos. Se quiséssemos um teste unidirecional, poderíamos lançar mão das alternativas, que tenho certeza que você já procurou na ajuda para esse teste (caso contrário, faça-o agora.) O outro parâmetro é o nível de confiança que desejamos usar para o teste. O valor padrão, como você deve estar imaginando é conf.level = 0.95. Mas se quiséssemos poderíamos usar outros níveis. Por exemplo, tente fazer um teste bilateral para um alfa de 0.01 e veja o que acontece... Teste do sinal do posto de Wilcoxon Para início de conversa, que nomezinho mais infeliz, esse não é mesmo? Pois é, mas o nome original dele é “Wilcoxon signed-rank test” e se alguém vier com uma tradução melhorzinha, será bem-vinda. Bem, esse teste pertence a uma família de testes chamados testes não-paramétricos, também conhecidos como livres de distribuição. Significa que nós não precisamos assumir uma distribuição qualquer para os parâmetros que estamos querendo estimar. Ué, mas então como é que isso funciona? Calma. Ele é baseado no que chamamos de estatísticas de ordem. É o seguinte: lembra