A maior rede de estudos do Brasil

Grátis
224 pág.
Estatistica usado o R

Pré-visualização | Página 43 de 50

tabelas que a gente vê a toda hora relatado em trabalhos, artigos, etc? Pois é, se
você estava ansioso, chegou a hora.
Vamos usar o mesmo exemplo acima para trabalhar, mas agora digamos que se trata de um
estudo de caso-controle, onde teremos uma certa condição sendo estudada em relação a uma
exposição qualquer. Faça assim:
tabela<-matrix(c(9,4,3,9),2)
tabela<-cbind(tabela,apply(tabela,1,sum))
tabela<-rbind(tabela,apply(tabela,2,sum))
rownames(tabela)<-c("Casos","Controles", "Total")
colnames(tabela)<-c("Expostos","Não Expostos", "Total")
Teremos então a nossa tabela 2 x 2:
> tabela
 Expostos Não Expostos Total
9
Casos 9 3 12
Controles 4 9 13
Total 13 12 25
Muito bem. Vamos ver algumas características dessa tabela. Primeiro ela contém 4 células
no seu corpo (daí o nome 2 x 2) e ainda uma terceira linha e uma terceira coluna, com os totais das
linhas e das colunas, respectivamente. Elas se chamam as marginais da tabela.
Mas será que existe alguma relação entre esta tabela e as proporções que estávamos
estudando? Claro que existe: se eu disser que ser exposto é um sucesso em uma Binomial, então nós
podemos recuperar exatamente as proporções que estávamos vendo anteriormente, veja:
> tabela/tabela[,3]
 Expostos Não Expostos Total
Casos 0.7500000 0.2500000 1
Controles 0.3076923 0.6923077 1
Total 0.5200000 0.4800000 1
Confira com a saída acima e veja se as proporções de exposição entre casos e controles não
correspondem exatamente ao que acabamos de testar. Bem simples, não é? Mas repare que neste
caso as proporções são de fato diferentes e eu tenho que testar uma hipótese nula qualquer. Nós
mencionamos anteriormente que sob a hipótese nula, ambas as proporções seriam iguais, e que uma
maneira de fazermos isso era calcular uma proporção única para os dois grupos “ponderada” pelo
tamanho da amostra em cada um deles. Isso equivale a somar todos os sucessos e dividir pelo
número total da amostra, não é? Nesse caso seria 13/25, certo? Exatamente o que aparece na
marginal dessa tabela aí em cima: 0.52.
Ora, mas nesse caso, nós podemos reconstruir essa tabela, sem alterar obviamente o número
de casos ou de controles e nem o de expostos e não expostos, mas apenas rearranjando o corpo da
tabela para que ela nos diga os números esperados nessa tabela, caso as proporções em ambos os
grupos fossem iguais, certo? Basta aplicarmos a nossa proporção esperada àquela coluna de totais,
não é mesmo? Ora, se temos um total de 12 casos e 0.52 ou 52% deles seriam esperados terem sido
expostos, então, 6.24 pessoas, em média estariam expostas nesse grupo. Da mesma forma, para o
grupo de 13 controles, 52% estariam expostos, ou seja, 6.76 pessoas, em média.
Na verdade, poderíamos fazer a conta para cada uma das caselas, mas acontece que se
mantivermos as marginais fixas e calcularmos essa proporção para apenas uma delas, as outras
necessariamente terão valores fixos também, bastando subtrair as marginais para obtê-los (menos
trabalho que multiplicar, né?) Ou seja, mantidas as marginais fixas, só temos a liberdade de alterar
1 casela, as outras serão fixas... Hummm... 1 grau de liberdade... Eu já ouvi falar nisso...
Acontece que este procedimento corresponde àquelas milhares de multiplicações e divisões
que você já deve ter visto em algum lugar para calcular a tabela esperada. Nós não faremos isso
aqui. Vamos deixar o R fazer para nós:
> chisq.test(tabela[1:2,1:2])$expected
 Expostos Não Expostos
Casos 6.24 5.76
Controles 6.76 6.24
Tivemos que retirar as marginais, pois esta função só aceita o corpo da tabela para os
cálculos.
Muito bem, e para esta disposição você deve ter aprendido que o somatório para as 4 células
desta tabela para as diferenças ao quadrado dos valores observados e esperados ao quadrado sobre
os valores esperados seguem uma distribuição Qui-quadrada com 1 grau de liberdade (olha ele aí,
gente!!!), isto é:
∑ O−E 2E ~12
10
Vamos fazer a conta no R, para ver o que temos:
> esperado<-chisq.test(tabela[1:2,1:2])$expected
> sum(((tabela[1:2,1:2]-esperado)^2)/esperado)
[1] 4.890902
Agora, basta calcular um p-valor de uma Qui-quadrada (1):
> pchisq(sum(((tabela[1:2,1:2]-esperado)^2)/esperado),1,lower.tail=F)
[1] 0.02699857
Sem problemas, né? Vamos só conferir agora com o R:
> chisq.test(tabela[1:2,1:2])
 Pearson's Chi-squared test with Yates' continuity correction
data: tabela[1:2, 1:2] 
X-squared = 3.2793, df = 1, p-value = 0.07016
Eu tenho certeza que você já sabia que não ia dar certo... Afinal, cadê a correção de
continuidade? Pois é, na verdade nós fazemos:
∑ ∣O−E∣−0.52E ~12
No R:
> sum(((abs(tabela[1:2,1:2]-esperado)-0.5)^2)/esperado)
[1] 3.279350
> pchisq(sum(((abs(tabela[1:2,1:2]-esperado)-
0.5)^2)/esperado),1,lower.tail=F)
[1] 0.07015673
Teste Exato de Fisher
É claro que temos uma versão exata para testar duas proporções, mas devido às dificuldades
de se testar proporções (nós já vimos várias delas), o teste empregado para este fim é um pouco
diferente do que estávamos já acostumados a lidar aqui. É o famoso teste exato de Fisher. Ele é
baseado na verdade em distribuições de tabelas 2 x 2, essas que nós acabamos de ver.
Soa estranho falar em distribuição de tabelas, não é mesmo? Mas é isso mesmo: É possível
calcular-se probabilidades de termos uma determinada configuração em uma tabela 2 x 2, sob a
hipótese nula de que não há diferença entre as proporções a serem testadas.
Essa idéia é baseada nessa mesma propriedade de podermos mudar a configuração do corpo
de uma tabela 2 x 2, mantidas as marginais fixas e alterando apenas uma das caselas, já que as
outras estarão determinadas automaticamente. Aliás, tente fazer esta brincadeira e veja se não é
verdade.
Ora, nesse caso, podemos determinar probabilidades para determinados valores a serem
encontrados em uma casela, por exemplo a casela superior esquerda (chamada de “a”) em relação a
margens fixas. Acontece que este tipo de experimento poder ser descrito por uma distribuição muito
importante, porém pouco citada em cursos de estatística básica. É a distribuição Hipergeométrica.
Para entender o que esta distribuição faz, vamos voltar um pouco ao nosso exemplo da
primeira aula, onde tínhamos uma urna com bolinhas verdes e azuis. Digamos que eu queira retirar
bolinhas desta urna, sem reposição, e estou interessado em saber a probabilidade de retirar x
bolinhas azuis, de uma urna com m bolinhas azuis e n bolinhas verdes, em k retiradas. Uma
11
pergunta então que essa distribuição responderia é: qual a probabilidade de eu retirar 1 (x) bolinha
azul, dentre 2 (k) tentativas, sendo que há 7 bolinhas azuis (m) e 3 bolinhas verdes (n) sem
reposição.
Essa podemos fazer sem problema, né? Para sair somente uma em duas tentativas temos
duas possibilidades: ou saiu na primeira ou saiu na segunda tentativa; sem reposição, seria o
seguinte:
> ((7/10)*(3/9))+((3/10)*(7/9))
[1] 0.4666667 
Certo? Parecido com o que a gente viu naquele exercício, né? Pois bem, podemos usar a
distribuição Hipergeométrica para nos ajudar a ver esse número:
> dhyper(x=1, m=7, n=3, k=2)
[1] 0.4666667
Tudo muito bonito, mas o que isso tem a ver com as tabelas 2 x 2??? Que papo estranho é
esse de bolinhas?
Acontece que podemos fazer uma analogia entre estas tabelas e as bolinhas. Vamos ver.
Imagine que os expostos são o total de bolinhas verdes e os não expostos, as azuis e que os casos
são o número total de bolinhas que eu vou sortear, sem reposição. Ora, os controles seriam apenas o
total menos os casos, veja:
 Verdes Azuis Total
Sorteados 9 3 12
Total-Sorteados 4 9 13
Total 13 12 25
Veja só: eu pergunto agora: qual é a probabilidade de eu sortear 9 bolinhas verdes, em 12
tentativas, sendo que temos 13 bolinhas verdes e 12 bolinhas azuis, sem reposição? A sua dúvida
pode surgir aqui: por que sem reposição? É fácil: