Estatistica usado o R
224 pág.

Estatistica usado o R


DisciplinaBioestatística I4.694 materiais34.997 seguidores
Pré-visualização50 páginas
da saída é exatamente a mesma que a do teste não pareado. A que conclusão
você chega, nesse caso?
15
Não vamos entrar em detalhes para esse teste.
k proporções independentes
É claro que muitas vezes você pode estar interessado em comparar mais de duas proporções.
Neste caso estaremos diante de uma distribuição Multinominal e não mais uma Binomial apenas.
Os detalhes não serão comentados, mas para uma Multinomial, nós teremos várias categorias com
probabilidades diferentes de ocorrência.
As categorias em questão podem ser tanto nominais, ou seja, desprovidas de qualquer
ordenação natural, quanto ordinais. Um exemplo do primeiro caso seria etnia, local de residência,
etc. No segundo caso, grupo etário, escolaridade, renda, etc.
Para categorias nominais, a única alternativa é testar se as distribuições dessas categorias
são independentes entre si, ou seja, não faz sentido fazer inferências sobre possíveis tendências
presentes entre essas categorias. Claro que o contrário não é verdadeiro, e podemos testar categorias
ordenadas dessa forma também.
Para usar um exemplo único, vamos seguir o mesmo do nosso livro-texto e usar o banco
caesarian que contém informações sobre realização de cesarianas e tamanho de calçado de
mulheres (medida britânica). Faça
data(caesarean)
caesar.shoe
E veja a disposição dos dados. Muito bem, agora podemos usar a nossa já conhecida função
prop.test() para realizar um teste aproximado para independência entre as proporções. Claro que
você já deve estar imaginando que o teste é bem semelhante ao que nós já vimos há pouco.
O detalhe é que teremos que entrar com dois vetores, um para os sucessos em cada grupo de
tamanho de sapato e outra para o total de experimentos, da mesma forma que fizemos com duas
proporções apenas. Nesse caso, teremos que selecionar a primeira linha e somar a primeira com a
segunda, para termos os vetores que precisamos:
cesaria.sim<-caesar.shoe[&quot;Yes&quot;,]
cesaria.total<-caesar.shoe[&quot;Yes&quot;,]+caesar.shoe[&quot;No&quot;,]
Agora, basta aplicar o nosso já conhecido teste:
> prop.test(cesaria.sim,cesaria.total)
 6-sample test for equality of proportions without continuity
correction
data: cesaria.sim out of cesaria.total 
X-squared = 9.2874, df = 5, p-value = 0.09814
alternative hypothesis: two.sided 
sample estimates:
 prop 1 prop 2 prop 3 prop 4 prop 5 prop 6 
0.22727273 0.20000000 0.14285714 0.14583333 0.14814815 0.06666667 
Warning message: 
Chi-squared approximation may be incorrect in: prop.test(cesaria.sim,
cesaria.total) 
Vamos olhar a saída desse teste devagar. 
 6-sample test for equality of proportions without continuity
correction
16
Repare então que estamos testando 6 amostras independentes e que o teste foi feito sem
correção de continuidade. Isso acontece porque no caso específico desse teste, quando estamos
testando mais de duas proporções, demonstrou-se que a correção de continuidade não acrescenta
nenhum ganho de precisão, como acontece nos demais casos.
data: cesaria.sim out of cesaria.total 
Apenas o que foi analisado: os eventos dentre os experimentos
X-squared = 9.2874, df = 5, p-value = 0.09814
O nosso Qui-quadrado, que é calculado da mesma forma que o para a tabela 2 x 2, mas
agora a soma é em relação a todas as células e não mais as quatro somente, e repare que a gora
estamos lidando com uma Qui-quadrada com 5 graus de liberdade. Não é coincidência, claro: essa
estatística segue mesmo uma Qui-quadrada com k \u2013 1 graus de liberdade, k sendo o número de
grupos. Como temos 6 grupos, teremos 5 graus de liberdade. O p-valor, não tem mistério. Vamos
até conferir esse:
> 1-pchisq(9.2874, 5)
[1] 0.0981354
alternative hypothesis: two.sided 
sample estimates:
 prop 1 prop 2 prop 3 prop 4 prop 5 prop 6 
0.22727273 0.20000000 0.14285714 0.14583333 0.14814815 0.06666667 
A indicação do teste ser bilateral e as proporções para cada grupo
Warning message: 
Chi-squared approximation may be incorrect in: prop.test(cesaria.sim,
cesaria.total) 
E a indicação que o teste pode não estar correto. Alguém chutaria por que?
Vamos adiante, para facilitar essa resposta. Como no caso de duas proporções, aqui
podemos também usar a função chisq.test() que apesar de ter uma saída mais resumida, nos
permite calcular outras coisas. Vamos experimentar, lembrando que não precisamos ajeitar o objeto
caesar.shoe nesse caso:
> chisq.test(caesar.shoe)
 Pearson's Chi-squared test
data: caesar.shoe 
X-squared = 9.2874, df = 5, p-value = 0.09814
Warning message: 
Chi-squared approximation may be incorrect in: chisq.test(caesar.shoe) 
Repare que a saída é a mesma e que a mensagem continua lá. Vamos calcular esse Qui-
quadrado? É igualzinho ao que a gente já fez antes:
> esperado<-chisq.test(caesar.shoe)$expected
Warning message: 
Chi-squared approximation may be incorrect in: chisq.test(caesar.shoe) 
> sum(((caesar.shoe-esperado)^2)/esperado)
[1] 9.287382
17
Que interessante! O R reclamou de novo! Acho que a resposta desse mistério da advertência
deve estar no objeto esperado. Experimente verificar esse objeto...
É claro que podemos fazer também um teste exato de Fisher para esses dados, mas isso eu
vou deixar para você se divertir...
Teste de tendência (linear)
Ainda para esse tipo de dados, podemos lançar mão de um teste de tendência, já que as
nossas classes são ordenáveis. Esse teste será apresentado à guisa de curiosidade, e não
exploraremos ele mais a fundo, embora considere importante mencioná-lo.
Esse teste na verdade pondera as proporções segundo um escore qualquer, que representa a
ordem de cada uma das categorias. Em geral, se não temos nenhuma outra razão para fazer
diferente, a ordem natural é uma seqüência simples indo de 1 até k, o número de classes. Não é à
toa que o default da função que usaremos é exatamente essa.
A entrada da função é igual a da função prop.test(). Vamos ver como fica:
> prop.trend.test(cesaria.sim,cesaria.total)
 Chi-squared Test for Trend in Proportions
data: cesaria.sim out of cesaria.total ,
 using scores: 1 2 3 4 5 6 
X-squared = 8.0237, df = 1, p-value = 0.004617
Fácil, não é? Bastou acrescentar a palavra trend no meio da nossa velha conhecida, que
aliás quer dizer tendência em inglês.
Não há muito o que comentar na saída dessa função. Lá está a nossa velha estatística e o
nosso p-valor. De diferente só os escores, que como já disse são o default e os graus de liberdade,
que agora voltou a ser igual a 1 de novo.
Dada a complexidade do assunto e o tempo disponível, não vamos detalhar os cálculos para
esse teste e nem demonstrar a sua relação com o teste não-paramétrico de Wilcoxon para duas
amostras (que é um caso particular desse teste), ficando isso para os mais curiosos.
Vamos apenas comentar o \u201clinear\u201d entre parênteses acima. É que esse teste funciona como
se fosse uma regressão linear ponderada dessas proporções em relação aos escores. Sendo assim,
temos que assumir que o efeito do tamanho do sapato é linear entre os grupos em questão, muito
embora isso não precise ser garantido matematicamente, mas apenas assumido mesmo, dispensando
qualquer tipo de verificação, por exemplo.
Quem quiser mais informações, procure em um livro de Bioestatística, com o Rosner, que
eu mencionei anteriormente.
Tabelas r x c
Assim como o caso de duas proporções, que nada mais é do que uma tabela 2 x k, tabelas
maiores, com r linhas e c colunas também podem ser testadas para independência tanto com a
função chisq.test() quanto com a função fisher.test(). Esse tipo de teste serve para vários
tipos diferentes de desenhos, o que modifica a interpretação dos resultados, mas não o teste em si.
Esse assunto porém, foge do escopo desta aula, e vamos nos ater apenas no teste em si e não em
aspectos de desenho de experimentos.
A idéia novamente é a mesma do teste anterior, e teremos que calcular valores esperados
para todas as células, mantidas as marginais fixas e calcular a mesmíssima coisa de antes:
\u2211 \ue09eO\u2212E \ue09f2E , só que com um detalhe. Agora