A maior rede de estudos do Brasil

Grátis
224 pág.
Estatistica usado o R

Pré-visualização | Página 33 de 50

um deles (i.e. descreva cada uma das
letrinhas dessa equação). Dica: essa equação tem uma integral disfarçada. Aponte onde ela
está e o que ela representa também.
6. Utilize o banco de dados velho conhecido nosso, juul e teste se a média de IGF-I é
diferente de 330 µg/l. Indique qual é o teste de hipóteses e interprete a saída do programa
que você utilizou das três maneiras possíveis: comparação com um valor crítico, p-valor e
intervalo de confiança.
Questão extra (bônus de 0.1 ponto):
Use simulações para desenhar uma curva de poder para diversos tamanhos de amostra para
um teste de hipóteses qualquer, envolvendo uma distribuição t e escolha um tamanho de
amostra adequado para este estudo. Isto significa que você vai estabelecer o que testar e
que pressuposições são necessárias. Indique também explicitamente o teste de hipóteses a
ser realizado. Dica: Use a função para simulação de poder que nós criamos para ajudar
você a escolher o tamanho da amostra. Obs.: Não use o mesmo exemplo da questão 3.
18
Módulo Estatística I no R
Autor: Antonio Guilherme Fonseca Pacheco
Pré-requisitos: Conhecimento prévio do ambiente R. Especificamente, o leitor deve estar
familiarizado com os módulos “Básico”, “Entrada e Saída de Dados” e também “Manuseando
dados no R”.
Bibliotecas necessárias: ISwR
Aula 5 - Testes para uma e duas amostras (contínuos)
Livro: páginas 81 a 93
A partir dessa aula vamos abordar diferentes tipos de testes usados em situações específicas
comumente encontrados no dia-a-dia da Epidemiologia e da Bioestatística.
Na presente aula vamos conversar sobre testes para inferir basicamente diferenças entre
médias de variáveis contínuas, seja como nós já vimos, apenas com uma amostra ou com duas
amostras. Além disso, alternativas não-paramétricas, isto é, estatísticas que não assumem uma
distribuição conhecida dos parâmetros também será abordada. O caso de mais de duas amostras
para variáveis contínuas será abordado na aula sobre ANOVA
Teste t para uma amostra
Teste do sinal do posto de Wilcoxon
Teste t para duas amostras
Comparação de variâncias
Testes para normalidade
Teste de Wilcoxon para duas amostras
Teste t pareado
Teste de Wilcoxon pareado
Poder e tamanho de amostra para testes t
Exercícios
Teste t para uma amostra
Bem, o teste t para uma amostra não deve apresentar problemas ou surpresas para você, já
que vínhamos usando esse teste como exemplos nas duas últimas aulas. Iremos apenas formalizar as
coisas aqui e também descrever um pouco melhor a saída da função t.test(), que é usada também
para esse fim, como já fizemos anteriormente.
Recordando um pouco, o teste t será usado na esmagadora maioria dos casos, pois em geral
a variância da população não é conhecida, e teremos que lançar mão da variância amostral. O
conceito básico de um teste t é o cálculo do erro padrão da média (EPM), que nada mais é do que o
desvio-padrão da média amostral que nós já exploramos bastante. Recordando:
EPM = s / n
Não creio que haja dúvidas a respeito do EPM acima. O próximo conceito é o cálculo da
estatística T, que é baseado, como você deve estar lembrado também no EPM. Nós já fizemos esse
cálculo para o teste t para uma amostra, mas sem usar o termo EPM. Recorde:
T =

x−0
EPM
=

x−0
s / n
1
E é claro que toda aquela teoria que nós já discutimos para testes de hipóteses, p-valores e
ICs se aplicam aos nossos testes, e portanto não vamos discutir esse assunto novamente. Vamos
partir para um exemplo prático, só para reforçar também.
Vamos usar um banco de dados do pacote ISwR como exemplo. O banco chama-se intake
e contém informações sobre ingesta calórica (em kilojoules) antes (primeira coluna) e após
(segunda coluna) a menstruação de 11 mulheres, valores esses pareados para cada uma dessas
mulheres.
Vamos chamar e inspecionar esse banco:
library(ISwR)
data(intake)
intake
Bem, como por enquanto vamos trabalhar com uma amostra, vamos inicialmente usar
somente a primeira coluna desse banco. Selecione este vetor:
energia<-intake[,1]
Aproveite para fazer algumas estatísticas-resumo deste vetor...
Bem, um problema interessante que podemos testar é se a ingesta dessas mulheres difere
significativamente ou não no período pré-menstrual do valor recomendado, de 7725 kJ. Vamos
assumir que essa amostra foi tirada de uma distribuição Normal e aplicar o nosso já conhecido teste
t:
> t.test(energia, mu=7725)
 One Sample t-test
data: energia 
t = -2.8208, df = 10, p-value = 0.01814
alternative hypothesis: true mean is not equal to 7725 
95 percent confidence interval:
 5986.348 7520.925 
sample estimates:
mean of x 
 6753.636 
Vamos então explicar agora cada parte da saída desse teste:
 One Sample t-test
Bem, essa é só a descrição do tipo de teste empregado. Repare que o R entende, só por você
ter colocado a opção mu=7725 que se trata de um teste t para uma amostra.
data: energia 
Sem problemas aqui também. Trata-se apenas do nome do banco de dados que foi usado
pela função. Pode ser útil em algumas situações.
t = -2.8208, df = 10, p-value = 0.01814
Aqui começa a brincadeira. Nós temos a estatística T (t = -2.8208), os graus de liberdade
da distribuição ( df = 10) e o p-valor associado a essa estatística (p-value = 0.01814). Na
verdade esta linha basta para você interpretar o seu teste de hipóteses, não é mesmo? Lembra da
relação entre o p-valor e o teste de hipóteses? Pois é, mas é claro que você poderia calcular o valor
crítico e compará-lo com o valor de T como nós fizemos anteriormente.
2
alternative hypothesis: true mean is not equal to 7725 
Aqui o R nos informa que o teste é bilateral (bicaudal) – isso por causa do not equal to
que significa diferente e não maior ou menor que. Temos também a informação sobre o valor contra
o qual estamos comparando essa amostra, 7725.
95 percent confidence interval:
 5986.348 7520.925 
E é claro que podemos ainda usar o IC 95% para esse fim também. Ora, se o valor testado
(7725) não estiver contido no IC 95% para a média da amostra, por causa da mesma relação, o p-
valor será < 0.05 e a hipótese nula será rejeitada, como é o caso. Lembra-se como se calcula esse
IC?
sample estimates:
mean of x 
 6753.636 
E aqui está a estimativa da média, ou seja a média amostral do nosso vetor. Você gostaria de
ver alguma outra estimativa aqui para o nosso problema?
Se você foi curioso o bastante, já deve ter consultado a ajuda do R para saber mais sobre a
função t.test(), que é realmente muito usada em estatística e conseqüentemente por nós também.
Você deve então ter notado que ela apresenta diversos argumentos possíveis para vários tipos de
testes e também opções de testes.
Neste caso, para definir o teste como para uma amostra, o argumento usado foi o mu=7725,
mas outros argumentos, dos quais nós usamos os defaults, definem características do teste em
questão. O primeiro é a direção desejada do teste, cujo valor-padrão é"alternative=”two.sided”,
o que nós exatamente usamos. Se quiséssemos um teste unidirecional, poderíamos lançar mão das
alternativas, que tenho certeza que você já procurou na ajuda para esse teste (caso contrário, faça-o
agora.)
O outro parâmetro é o nível de confiança que desejamos usar para o teste. O valor padrão,
como você deve estar imaginando é conf.level = 0.95. Mas se quiséssemos poderíamos usar
outros níveis. Por exemplo, tente fazer um teste bilateral para um alfa de 0.01 e veja o que
acontece...
Teste do sinal do posto de Wilcoxon
Para início de conversa, que nomezinho mais infeliz, esse não é mesmo? Pois é, mas o nome
original dele é “Wilcoxon signed-rank test” e se alguém vier com uma tradução melhorzinha, será
bem-vinda.
Bem, esse teste pertence a uma família de testes chamados testes não-paramétricos, também
conhecidos como livres de distribuição. Significa que nós não precisamos assumir uma distribuição
qualquer para os parâmetros que estamos querendo estimar.
Ué, mas então como é que isso funciona? Calma. Ele é baseado no que chamamos de
estatísticas de ordem. É o seguinte: lembra