bioestatistica_e_estatistica_na_epidemiologia

•

Unyleia

Rodrigo sonhador

08/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 58 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 58 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 58 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Tecnólogo Gestão Ambiental

350 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Brasília-DF.
Bioestatística e estatística
na epidemiologia
Elaboração
Raphael Mendonça Guimarães
Produção
Equipe Técnica de Avaliação, Revisão Linguística e Editoração
Sumário
APrESEntAção ................................................................................................................................. 5
orgAnizAção do CAdErno dE EStudoS E PESquiSA .................................................................... 6
introdução.................................................................................................................................... 8
unidAdE i
ESTATÍSTICA DESCRITIVA ......................................................................................................................... 9
CAPítulo 1
ImpoRTânCIA DA BIoESTATÍSTICA ............................................................................................. 9
CAPítulo 2
VARIáVEIS E DISTRIBuIção DE fREquênCIAS .......................................................................... 11
CAPítulo 3
populAção E AmoSTRAS ..................................................................................................... 18
CAPítulo 4
ApRESEnTAção DoS DADoS Em gRáfICoS .......................................................................... 20
CAPítulo 5
mEDIDAS DE TEnDênCIA CEnTRAl E DE DISpERSão ............................................................... 23
CAPítulo 6
DISTRIBuIção noRmAl .......................................................................................................... 28
unidAdE ii
ESTATÍSTICA InfEREnCIAl ..................................................................................................................... 30
CAPítulo 1
CoRRElAção E REgRESSão ................................................................................................. 30
CAPítulo 2
RISCo RElATIVo/oDDS RATIo ................................................................................................. 35
CAPítulo 3
TESTE DE hIpóTESES ................................................................................................................ 38
CAPítulo 4
TESTES ESTATÍSTICoS pARAméTRICoS E não pARAméTRICoS ................................................... 39
CAPítulo 5
ESColhA Do TESTE ESTATÍSTICo ............................................................................................. 41
CAPítulo 6
quI quADRADo/TESTE DE fIShER ........................................................................................... 44
CAPítulo 7
TESTE T ................................................................................................................................... 46
CAPítulo 8 (AnoVA)
AnálISE DE VARIânCIA .......................................................................................................... 48
CAPítulo 9
SEnSIBIlIDADE/ESpECIfICIDADE/CuRVA RoC .......................................................................... 50
PArA (não) FinAlizAr ..................................................................................................................... 54
AnExo ............................................................................................................................................ 56
rEFErênCiAS .................................................................................................................................. 57
5
Apresentação
Caro aluno
A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem
necessários para o desenvolvimento do estudo com segurança e qualidade. Caracteriza-se pela
atualidade, dinâmica e pertinência de seu conteúdo, bem como pela interatividade e modernidade
de sua estrutura formal, adequadas à metodologia da Educação a Distância – EaD.
Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade dos conhecimentos
a serem oferecidos, possibilitando-lhe ampliar conceitos específicos da área e atuar de forma
competente e conscienciosa, como convém ao profissional que busca a formação continuada para
vencer os desafios que a evolução científico-tecnológica impõe ao mundo contemporâneo.
Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo a facilitar
sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na profissional. Utilize-a
como instrumento para seu sucesso na carreira.
Conselho Editorial
6
organização do Caderno
de Estudos e Pesquisa
Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em capítulos, de
forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões
para reflexão, entre outros recursos editoriais que visam a tornar sua leitura mais agradável. Ao
final, serão indicadas, também, fontes de consulta, para aprofundar os estudos com leituras e
pesquisas complementares.
A seguir, uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos
e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto antes
mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor
conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita
sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante
que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As
reflexões são o ponto de partida para a construção de suas conclusões.
Sugestão de estudo complementar
Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo,
discussões em fóruns ou encontros presenciais quando for o caso.
Praticando
Sugestão de atividades, no decorrer das leituras, com o objetivo didático de fortalecer
o processo de aprendizagem do aluno.
Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam para a
síntese/conclusão do assunto abordado.
7
Saiba mais
Informações complementares para elucidar a construção das sínteses/conclusões
sobre o assunto abordado.
Sintetizando
Trecho que busca resumir informações relevantes do conteúdo, facilitando o
entendimento pelo aluno sobre trechos mais complexos.
Exercício de fixação
Atividades que buscam reforçar a assimilação e fixação dos períodos que o autor/
conteudista achar mais relevante em relação a aprendizagem de seu módulo (não
há registro de menção).
Avaliação Final
Questionário com 10 questões objetivas, baseadas nos objetivos do curso,
que visam verificar a aprendizagem do curso (há registro de menção). É a única
atividade do curso que vale nota, ou seja, é a atividade que o aluno fará para saber
se pode ou não receber a certificação.
Para (não) finalizar
Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem
ou estimula ponderações complementares sobre o módulo estudado.
8
introdução
A Estatística é a parte da Matemática Aplicada que fornece métodos de coleta, organização, descrição,
análise e interpretação de dados, úteis nas tomadas de decisão. Pode ser dividida em:
» Estatística Descritiva: coleta, organização e descrição dos dados.
» Estatística Indutiva ou Inferencial: análise e interpretação dos dados. Permite obter
conclusões que transcendam os dados obtidos inicialmente, objetivo essencial da
Estatística.
objetivos
» Propiciar ao aluno o conhecimento de alguns conceitos da bioestatística e da
epidemiologia, usados para compor as análises da vigilância em saúde.
» Apresentar aspectos da epidemiologia na formulação de desenhos de estudo
aplicáveis à vigilância em saúde.
9
unidAdE iEStAtíStiCA
dESCritiVA
CAPítulo 1
importância da Bioestatística
Método estatístico (pesquisa)
O método estatístico em pesquisa é composto basicamente de cinco fases:
1a Coleta de dados
Após o planejamento e a determinação das características mensuráveis do objeto em estudo, inicia-
se a coleta de dados. Estapode ser direta ou indireta. A coleta direta é feita sobre registros diversos:
nascimento, casamento, óbitos, importação, registros escolares, ou ainda, quando os dados são
coletados diretamente pelo pesquisador por meio de questionários (ex: censo). A coleta direta pode
ser: contínua, periódica (censos) e ocasional. Já a coleta indireta é feita sobre dados colhidos de uma
coleta direta (ex: mortalidade infantil).
2a Crítica dos dados
Os dados coletados devem ser observados, à procura de falhas e imperfeições, a fim de não causarem
erro nos resultados.
Situação 1: Perguntas tendenciosas.
Foi realizada a seguinte pesquisa: O tráfego contribui em maior ou menor grau do que a indústria para a poluição atmosférica ? Resposta:
45 % para o tráfego e 32 % para a indústria.
Mudando a pergunta: A indústria contribui em maior ou menor grau do que o tráfego para a poluição atmosférica ? Resposta: 24 % para o
tráfego e 57 % para a indústria.
Situação 2: Más Amostras. As pessoas devem ser escolhidas aleatoriamente para a pesquisa, como por exemplo, numa pesquisa de
opinião na rua, deve-se entrevistar somente quem pisou em uma determinada marca pré-determinada na calçada.
Situação 3: Más perguntas. A pergunta deve conter o linguajar próprio do entrevistado. Geralmente, se o entrevistado não entender a
pergunta, ele responderá qualquer coisa, pois tem vergonha de perguntar.
10
UNIDADE I │ ESTATÍSTICA DESCRITIVA
3a Apuração dos dados
É o processamento dos dados obtidos.
4a Exposição dos dados
Por meio de tabelas ou gráficos, tornando mais fácil seu exame e aplicação de um cálculo estatístico.
5a Análise dos resultados
Por meio de métodos de estatística indutiva ou inferencial obtêm-se conclusões e previsões de um
todo, através do exame de apenas uma parte desse todo.
11
CAPítulo 2
Variáveis e distribuição de frequências
Variável
Variável é o conjunto de resultados possíveis de um fenômeno. A variável pode ser qualitativa,
quando seus valores são expressos por atributos ou pode ser quantitativa, quando seus valores são
expressos em números. De uma forma geral, podemos dividir da seguinte maneira:
Variáveis qualitativas (ou categóricas)
Nominais – aquelas que medem atributos, e para as quais as categorias não possuem uma hierarquia entre si (por exemplo, sexo –
masculino e feminino).
Ordinais – aquelas que medem atributos, mas há uma hierarquia entre as categorias (por exemplo, faixa etária – crianças, adolescentes,
adultos e idosos).
Variáveis quantitativas (ou numéricas)
Discretas – Aquelas que você pode contar (número de desastres).
Contínuas – Aquelas que você pode medir (decibéis em uma construção civil).
dados absolutos e dados relativos
Os dados absolutos são resultantes de uma coleta direta, sem outra manipulação senão a contagem.
Já os dados relativos: são resultantes de comparações, há um tratamento matemático dos dados
para uma melhor interpretação. Em geral, os dados relativos são mais usados na vigilância, pois
permitem comparações entre locais ou comparações no mesmo local para diferentes períodos no
tempo.
os índices
Os índices são razões entre duas grandezas independentes.
Exemplo: Razão de Sexos = Qtde de homens / Qtde de mulheres.
Se há 60 pessoas em um local, dos quais 20 são homens e 40 são mulheres, então a razão de sexos é 20/40 = 0,5
os coeficientes
Os coeficientes são razões entre o número de ocorrências e o número total. É a porcentagem
expressa na forma unitária. Exemplo: Coeficiente de Mortalidade Proporcional por Intoxicação por
Agrotóxicos = no de óbitos por Intoxicação por Agrotóxicos/ total de óbitos no ano correspondente.
12
UNIDADE I │ ESTATÍSTICA DESCRITIVA
Se eu um município houve 500 mortes, e 10 delas foram provocadas por intoxicação por agrotóxicos,
então o coeficiente será 10/500 = 2%.
As taxas
As taxas são os coeficientes multiplicados por uma potência de 10, 100, 1000 etc., para tornar o
resultado mais inteligível (claro). Exemplo: Taxa de Mortalidade por Intoxicação por Agrotóxicos =
no de óbitos por Intoxicação por Agrotóxicos/ total de pessoas potencialmente no ano correspondente
x 1000 (lê-se mortes a cada 1000 habitantes).
Se em um município houve 500 mortes por intoxicação por agrotóxicos em um universo de 25000
trabalhadores rurais, então a taxa será (500/25000)= 20 óbitos a cada 1000 pessoas expostas.
A Padronização para interpretação de taxas
Muitas vezes, para a interpretação de algumas taxas é necessário que haja uma padronização das
informações. Um dos métodos utilizados chama-se “método direto de padronização”.
Imaginemos 2 hospitais “A” e “B”, ambos com unidades de internação para pacientes
acidentados. Digamos que no ano de 1992, ambos internaram 1000 doentes. No primeiro hospital
(A), ocorreram 700 óbitos, enquanto que no segundo ocorreram 100. Desta forma, podemos dizer
que a taxa de mortalidade para pacientes acidentados nos 2 hospitais, foi respectivamente de 70
e 10 %. Baseando-se nestes dados pode-se inicialmente concluir que o hospital B apresenta um
melhor corpo clínico ou equipamentos mais modernos do que o hospital A (ver quadro 1). Vamos
neste exemplo estabelecer, em nome da simplicidade, que os acidentes pudessem ser divididos em
3 grandes grupos: casos leves, moderados e graves.
quadro 1 - óBIToS SEgunDo hoSpITAl, loCAl X, Ano Y
Óbito Hospital A Hospital B
SIM 700 100
NÃO 300 900
TOTAL 1000 1000
Observando o quadro 2, vemos que o hospital A concentrou um número muito maior de casos
graves do que o hospital B. Uma hipótese, portanto, pode ser a de que a mortalidade em A é maior,
não devido a falhas no atendimento, mas sim porque este hospital atende doentes muito graves.
A padronização é um método que pretende responder a seguinte pergunta: Se ambos hospitais
atendessem pacientes com igual gravidade, como seria o perfil de mortalidade em cada um?
Esta pergunta traduz toda a lógica do sistema de padronização. Realmente, a única maneira de se
comparar os dois hospitais, consiste em ver seu perfil de mortalidade numa mesma população.
13
ESTATÍSTICA DESCRITIVA │ UNIDADE I
quadro 2 - óBIToS SEgunDo hoSpITAl E gRAVIDADE, loCAl X, Ano Y
Óbito Hospital A Hospital B
Sim (caso leve) 0 30
Não (caso leve) 50 800
Sim (moderado) 10 15
Não (moderado) 100 55
Sim (grave) 690 100
Não (grave) 150 0
Iniciamos a padronização, calculando a mortalidade específica do fator que se deseja isolar (no caso
gravidade, podendo ser outros fatores como idade, sexo, fazer ou não fisioterapia etc.).
Mortalidade específica segundo complexidade do doente, Hospital A
casos leves
= 0 / 50 = 0
Mortalidade específica segundo complexidade do doente, Hospital B
casos leves
= 30 / 830 = 3,6 p/100
Mortalidade específica segundo complexidade do doente, Hospital A
moderados
= 10 / 100 = 10 p/100
Mortalidade específica segundo complexidade do doente, Hospital B
moderados
= 15 /70 = 21,4 p/100
Mortalidade específica segundo complexidade do doente, Hospital A
grave
= 690 / 840 = 82,1 p/100
Mortalidade específica segundo complexidade do doente, Hospital B
grave
= 100 /100 = 100
Repare que a mortalidade específica foi sempre maior em B do que no hospital A. Este último parece
ter um desempenho pior porque atende a uma imensa população de pacientes graves (ver quadro 3),
enquanto o inverso acontece ao hospital B. Voltando à padronização, vamos aplicar as mortalidades
vistas para uma mesma população (padrão). A população padrão pode ser uma das já vistas
(hospital A ou B), ou uma população fictícia ou ainda aquela pertencente a um terceiro hospital.
O que realmente importa é que ela seja constante para os hospitais que estão sendo padronizados.
quadro 3 - pADRonIZAção DoS hoSpITAIS A E B pElo méToDo DIRETo,
loCAl X, Ano Y
População padrão Hospital A Hospital B
Casos leves = 830 830 x 0 = 0 830 x 3,6% = 29,9
Casos moderados = 70 70 x 10% = 7 70 x 21,4% = 15
Casos graves = 100 100 x 82,1% = 82,1 100 x 100% = 100
Total de óbitos89,1 144,9
Mortalidade padronizada 89,1 / 1000 = 8,9 óbitos por 100 internações 144,9 / 1000 = 14,5 óbitos por 100 internações
distribuição de frequência
Imaginem que a vigilância ambiental, por meio de processo de amostragem, selecionou 40 dos 92
municípios do Rio de Janeiro e fez a mensuração de emissão de material particulado (PM2,5 μm
(μg/m3).
14
UNIDADE I │ ESTATÍSTICA DESCRITIVA
tabela primitiva e rol
Tabela primitiva - elementos da variável ainda não foram numericamente organizados.
Exemplo: Emissão de PM2,5 μm (μg/m3) nos 40 municípios selecionados.
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
Rol - é a tabela primitiva ordenada (crescente ou decrescente).
Exemplo:
150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 163 164 168 172
153 155 156 160 160 161 163 165 168 173
distribuição de frequência
Com isso, pode-se construir uma tabela denominada Distribuição de Frequência, sendo a frequência
o número de elementos relacionados a um determinado valor da variável.
Exemplo:
Pontos de
Emissão
Frequência Pontos de
Emissão
Frequência Pontos de
Emissão
Frequência
150 1 158 2 167 1
151 1 160 5 168 2
152 1 161 4 169 1
153 1 162 2 170 1
154 1 163 2 172 1
155 4 164 3 173 1
156 3 165 1
157 1 166 1 total 40
Em geral, para uma melhor visualização e economia de espaço, agrupam-se os valores em categorias,
ou seja, em intervalos de classe (um intervalo com valor mínimo e máximo).
Exemplo:
Emissão de PM2,5 μm (μg/m3) nos 40 municípios selecionados.
Total de pontos Frequência
150 |- 154 4
154 |- 158 9
158 |- 162 11
15
ESTATÍSTICA DESCRITIVA │ UNIDADE I
162 |- 166 8
166 |- 170 5
170 |- 174 3
Total 40
Para a confecção dessa tabela pode-se pular o passo anterior, ou seja, do rol já partir para a tabela
de distribuição de frequências com intervalos de classe.
Elementos de uma distribuição de frequência
a) Classes de frequência: são os intervalos de variação da variável, representados por i, sendo i
= 1,2,3,4,...,k, onde k é o número total de classes.
Em nosso exemplo k = 6 (150 |- 154; 154 |- 158; 158 |- 162; 162 |- 166; 166 |- 170; 170 |- 174).
Limites da classe: são os extremos de cada classe, onde Limite superior = Li e Limite inferior = li.
O símbolo li |- Li significa inclusão de li e exclusão de Li.
Exemplo: l2 = 154 e L2 = 158
b) Amplitude de um intervalo de classe (h): é a medida do intervalo que define a classe
Exemplo: h = Li - li h2 = 154-158 = 4
c) Amplitude total da distribuição (AT): é a diferença entre o limite superior da última classe
(limite superior máximo) e o limite inferior da primeira (limite inferior mínimo).
AT = L(max) - l (min)
AT = 174 - 150 = 24
Deve-se notar que AT/h = k 24/4 = 6
d) Amplitude amostral (AA): é a diferença entre o valor máximo e o valor mínimo da amostra.
AA = x(máx) - x(mín) AA = 173-150 = 23
e) Ponto médio de uma classe (xi): é o ponto que divide o intervalo de classe em duas partes iguais.
xi = (li+Li)/2 x2 = (154+158)/2 = 156
tipos de frequências
Obs: não precisa das fórmulas em nenhum deles, basta a definição e um exemplo com
números. Pode assustar.
a) Frequência simples ou absoluta (fi): é o valor que representa o número de dados de uma classe,
em que:
16
UNIDADE I │ ESTATÍSTICA DESCRITIVA
nf
k
1i
i =∑
=
OBS: o símbolo Σ representa somatório.
a) Frequência relativa (fri): é a porcentagem entre a frequência simples e a frequência total:
[ ]%100
f
ffr k
1i
i
i
i ⋅=
∑
=
No exemplo: fr3 = 11/40 = 0,275 x 100 = 27,5 %
O propósito das frequências relativas é o de permitir a análise e facilitar comparações.
b) Frequência acumulada (Fi): é o total das frequências de todos os valores inferiores ao limite
superior do intervalo de uma dada classe.
k321k ffffF ++++=  ou
∑
=
=
k
1i
ik fF
No exemplo F3 = f1 + f2 + f3 = 4+9+11=24, o que significa que existem 24 municípios com emissão
inferior a 162 μg/m3 (limite superior do intervalo da terceira classe).
c) Frequência acumulada relativa (Fri): é a porcentagem entre a frequência relativa acumulada da
classe e a frequência total da distribuição.
[ ]%100
f
FFr k
1i
i
i
i ⋅=
∑
=
No exemplo temos Fr3 = 24/40 = 0,6 = 60 %, o que significa que 60 % dos municípios emitiram
menos de 162 μg/m3.
Pode-se então montar a seguinte tabela:
i Total de Emissão x
i
f
i
fr
i
(%) F
i
Fr
i
(%)
1 150 |- 154 152 4 10,00 4 10,00
2 154 |- 158 156 9 22,50 13 32,50
3 158 |- 162 160 11 27,50 24 60,00
4 162 |- 166 164 8 20,00 32 80,00
5 166 |- 170 168 5 12,50 37 92,50
6 170 |- 174 172 3 7,50 40 100,00
Total 40 100,00
Legenda: xi - Ponto médio de uma classe; fi - Frequência simples ou absoluta; fri (%) - Frequência relativa;
Fi - Frequência acumulada; Fri (%) - Frequência acumulada relativa.
17
ESTATÍSTICA DESCRITIVA │ UNIDADE I
Para você conferir se entendeu:
1. Quantos municípios emitiram entre 154, inclusive, e 158 μg/m3 ? Resp. 9
2. Qual a percentagem de municípios com total de emissão inferior a 154? Resp. 10%
3. Quantos municípios emitiram menos que 162 μg/m3 ? Resp. 24
4. Quantos municípios emitiram uma concentração não inferior a 158? Resp. 40-13 =
27
18
CAPítulo 3
População e amostras
População e amostra
População é o conjunto de portadores de, pelo menos, uma característica comum. Já amostra é um
subconjunto finito de uma população. A amostra é escolhida por meio de processos adequados que
garantam o acaso na escolha.
População
Amostra
Amostragem
É o processo de colher amostras. Nesse processo, cada elemento da população passa a ter a mesma
chance de ser escolhido. Dentre os processos de amostragem podem-se destacar três: amostragem
casual ou aleatória simples, amostragem proporcional estratificada e amostragem sistemática.
Situação: Precisa-se de uma amostra de 50 sujeitos numa população de 150 pessoas expostas a um
determinado agrotóxico para avaliação clínica.
a) Amostragem casual ou aleatória simples:
Realiza-se sorteio enumerando os 150 sujeitos da população, e em seguida, utiliza-se um sorteio
com todos os números dos sujeitos escritos em papéis dentro de um saco. Para amostras grandes
utiliza-se a Tabela de Números Aleatórios (em anexo).
b) Amostragem proporcional estratificada:
É comum termos populações que se dividam em subpopulações (estratos), e como cada estrato, pode
ter um comportamento diferente do outro, a amostra deve considerar a existência desses estratos
e a sua proporção em relação à população. Por exemplo, considerar a faixa etária na população de
150 pessoas, e obter o equivalente na amostra. Se possuirmos 90 adultos na população (ou seja,
60%), na amostra devemos ter a mesma proporção de adultos (logo, 60% de 50, ou seja, 30 sujeitos
deverão ser adultos).
c) Amostragem sistemática
É quando a amostragem é feita por meio de um sistema possível de ser aplicado, pois a população
já se encontra ordenada. Caso a população de 150 pessoas esteja ordenada pela data de nascimento,
19
ESTATÍSTICA DESCRITIVA │ UNIDADE I
e queremos ter nossos 50 sujeitos, teremos 1 a cada 3 sujeitos selecionados. Então podemos
sistematicamente selecionar 1 sujeito e pular 2 na ordenação que já existe, como no exemplo abaixo,
em que os números em negrito são os selecionados.
1 2 3 4 5 6 7 8 9 10 11 12
20
CAPítulo 4
Apresentação dos dados em gráficos
Séries estatísticas
Série estatística é toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em
função da época, do local, ou da espécie. Pode-se classificar em: histórica, geográfica, específica e
conjugada.
a. Séries históricas (cronológicas, temporais): descrevem os valores da variável, em
determinado local, em função do tempo. Exemplo: Taxa de emissão de PM2,5 na
atmosfera na cidade de Cubatão entre 1970 e 2010.
b. Séries geográficas (espaciais, territoriais ou de localização): descrevemos valores
da variável, em um determinado instante, em função da região. Exemplo: Cobertura
de Esgotamento Sanitário nos Estados Brasileiros, 2012.
c. Séries específicas (categóricas): descrevem os valores da variável, em um
determinado instante e local, segundo especificações. Exemplo: número de casos
notificados de doenças ocupacionais em 2012 no Brasil, segundo tipo de doença.
d. Séries conjugadas (Tabela de Dupla Entrada): É a união de duas séries em uma só
tabela. Podem também existir séries conjugadas de três ou mais entradas, fato mais
raro, pois dificulta a interpretação dos dados. Exemplo: Taxa de Mortalidade por
câncer segundo estados brasileiros nos anos de 1980 e 2010.
Exemplo: Tendência de cobertura de esgotamento sanitário e taxa de internação por doença
diarreica entre crianças e adultos, Brasil, 1996-2009.
21
ESTATÍSTICA DESCRITIVA │ UNIDADE I
representação gráfica de uma distribuição de
frequência
Pode-se ser representada basicamente por um histograma, por um polígono de frequência, por um
polígono de frequência acumulada e por um gráfico de setores, sendo este último usado somente
em variáveis qualitativas. Em geral, são usados sempre em estudos descritivos. Como exemplo,
continuaremos com os dados da tabela abaixo.
Obs: coloque os nomes dos símbolos na tabela abaixo.
i Total de Emissão x
i
f
i
F
i
1 150 |- 154 152 4 4
2 154 |- 158 156 9 13
3 158 |- 162 160 11 24
4 162 |- 166 164 8 32
5 166 |- 170 168 5 37
6 170 |- 174 172 3 40
Total 40
a. Histograma: O histograma é formado por um conjunto de retângulos justapostos,
cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios
coincidam com os pontos médios dos intervalos de classe. Veja o exemplo:
b. Polígono de frequência: É um gráfico em linha, sendo as frequências marcadas sobre
perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos
de classe.
Total de Emissão
22
UNIDADE I │ ESTATÍSTICA DESCRITIVA
c. Polígono de frequência acumulada: É traçado marcando-se as frequências
acumuladas sobre perpendiculares ao eixo horizontal, levantadas nos pontos
correspondentes aos limites superiores dos intervalos de classe.
Total de Emissão
d. Gráfico de setores (pizza): É traçado marcando-se as frequências a partir do eixo,
de modo que haja uma relação entre a frequência relativa (%) e o ângulo de cada
“fatia”, de forma que 100% corresponderia a uma volta completa (360 graus).
23
CAPítulo 5
Medidas de tendência central e de
dispersão
tendência central
Média aritmética: É o valor da soma dos valores de um determinado conjunto de medidas,
dividindo-se o resultado dessa soma pela quantidade dos valores que foram somados.
n
x
x
n
1i
i∑
==
Em que xi são os valores da variável e n o número de valores.
a. Desvio em relação à média (di):
xxd ii −=
e. Propriedades:
A soma algébrica dos desvios em relação à média é nula.
Exemplo: Seja o valor de ALA-D, biomarcador sanguíneo para avaliar a exposição a solventes,
medido em 10 frentistas de posto de gasolina para avaliar a intoxicação por solventes: 8, 9, 7, 6, 10,
5,5, 5, 6,5, 7,5, 8,5.
A média é:
3,7
10
5,85,75,655,5106798x =+++++++++=
Desvios:
8 - 7,3 0,7
9 - 7,3 1,7
7 - 7,3 -0,3
6 - 7,3 -1,3
10 - 7,3 2,7
5,5 - 7,3 -1,8
5 - 7,3 -2,3
6,5 - 7,3 -0,8
7,5 - 7,3 0,2
8,5 - 7,3 1,2
Total 0,0
24
UNIDADE I │ ESTATÍSTICA DESCRITIVA
A Moda (Mo)
Denomina-se moda o valor que ocorre com maior frequência em uma série de valores. Basta
procurar o valor que mais se repete.
Exemplo:
1. 3,4,5,6,6,6,6,7,7,8,9 – A série tem moda igual a 6 (valor modal 6).
2. Pode acontecer também uma série sem valor modal.
1,2,3,4,5,6,7,8,9 – série amodal.
3. Pode acontecer também uma série com mais de uma moda.
1,2,2,2,3,4,5,6,6,6,7,8,9 – a série tem duas modas (2 e 6) - série bimodal.
Mediana (Md)
A mediana é o número que se encontra no centro de uma série de números, ou seja, separa os
valores em dois subconjuntos de mesmo número de elementos.
Dada uma série de valores: 5,13,10,2,18,15,6,16,9.
Deve-se então ordená-los: 2,5,6,9,10,13,15,16,18.
Determina-se então o valor central que é 10 (4 valores para cada lado) Md = 10
Se a série tiver número par de valores, a mediana é a média dos dois valores centrais:
2,5,6,9,10,15,16,18 Md = (9+10)/2 = 9,5
os quartis
Denomina-se quartis os valores de uma série que a dividem em quatro partes iguais. Portanto, há
três quartis. São mais aplicados em distribuição de frequência com intervalos de classe.
Primeiro Quartil (Q1) - 25% dos dados são menores que ele e os 75% restantes são maiores.
Segundo Quartil (Q2) - coincide com a mediana, 50% para cada lado.
Terceiro Quartil (Q3) - 75% dos dados são menores que ele e os 25 % restantes são maiores.
25
ESTATÍSTICA DESCRITIVA │ UNIDADE I
Exemplo: Dosagens de creatinina da população exposta à intoxicação ambiental por cromo.
i Valor
1 0,9
2 1,7
3 1,5
4 1,6
5 0,7
6 0,5
7 2,8
8 1,9
O primeiro passo é colocar os valores da distribuição em ordem crescente:
0,5 0,7 0,9 1,5 1,6 1,7 1,9 2,8
Considerando que a distribuição possui oito elementos, a divisão em quatro grupos fará com que
cada grupo fique com dois elementos.
0,5 0,7 0,9 1,5 1,6 1,7 1,9 2,8
Primeiro Quartil
Corresponde ao valor de média entre o último elemento do primeiro grupo e o primeiro elemento
do segundo grupo:
(0,5 + 0,7)/2 = 0,6
Segundo Quartil = Mediana
Corresponde ao valor de média entre o último elemento do segundo grupo e o primeiro elemento
do terceiro grupo:
(1,5 + 1,6)/2 = 1,55
Terceiro Quartil
Corresponde ao valor de média entre o último elemento do terceiro grupo e o primeiro elemento
do quarto grupo:
(1,7 + 1,9)/2 = 1,8
Quarto Quartil
Valor máximo da distribuição, que é 2,8.
26
UNIDADE I │ ESTATÍSTICA DESCRITIVA
os percentis
Denomina-se percentis os noventa e nove valores que separam uma série em 100 partes iguais.
Indica-se da seguinte forma:
P1,P2,P3,...P99
Note que: P50 = Md, P25 = Q1 e P75 = Q3
dispersão
Muitas vezes, a média não é suficiente para avaliar um conjunto de dados. Por exemplo, quando
se fala em um grupo de homens com idade média de 23 anos. Esse dado, sozinho, não significa
muito: pode ser que no grupo muitos homens possuam 40 anos e outros tantos sejam somente
adolescentes.
É importante, então, conhecer outra medida, correspondente à diferença (dispersão) que existe
entre a média e os valores do conjunto.
Por exemplo, ainda com relação às dosagens de creatinina da população exposta à intoxicação
ambiental por cromo, podemos calcular o desvio, que é a diferença de cada concentração em
relação à média:
i Valor Média Desvio da Média
1 0,9 1,45 - 0,55
2 1,7 1,45 - 0,25
3 1,5 1,45 0,05
4 1,6 1,45 0,15
5 0,7 1,45 - 0,75
6 0,5 1,45 - 0,95
7 2,8 1,45 1,35
8 1,9 1,45 0,45
Outro dado importante em estatística é obtido pela soma dos desvios ao quadrado, uma vez que,
se somarmos todos eles, o resultado sempre dará zero. Cada desvio é elevado ao quadrado e, em
seguida, somado:
i Valor Média Desvio da Média Quadrado dos Desvios
1 0,9 1,45 - 0,55 0,30
2 1,7 1,45 - 0,25 0,06
3 1,5 1,45 0,05 0,00
4 1,6 1,45 0,15 0,02
5 0,7 1,45 - 0,75 0,56
6 0,5 1,45 - 0,95 0,90
7 2,8 1,45 1,35 1,82
8 1,9 1,45 0,45 0,20
27
ESTATÍSTICA DESCRITIVA │ UNIDADE I
A soma dos quadrados dos desvios dividida pelo número de ocorrências é chamada de variância.
Logo:
Variância (V) = 3,88/8 = 0,49
Outro valor que pode ser obtido a partir da média e da variância é o desvio padrão. Como os
desvios foram elevados ao quadrado, deve-se tirar a raiz quadrada da variância e achar o desvio
padrão:
28
CAPítulo 6
distribuição normal
A distribuição normal conhecida também como distribuição gaussiana é sem dúvida, a mais
importante distribuição contínua. Sua importância se deve a vários fatores, entre eles podemos
citar o teorema central do limite, o qual é um resultadofundamental em aplicações práticas e
teóricas, pois ele garante que mesmo que os dados não sejam distribuídos normalmente, a média
dos dados converge para uma distribuição normal conforme o número de dados aumente. Além
disso, diversos estudos práticos têm como resultado uma distribuição normal. Podemos citar como
exemplo a altura de uma determinada população, que mesmo com outras características físicas e
sociais tem um comportamento gaussiano, ou seja, segue uma distribuição normal.
Definição: Uma variável aleatória contínua tem distribuição Normal se sua função densidade
de probabilidade for dada por:
Usamos a notação:
A variação natural de muitos processos industriais é realmente aleatória. Embora as distribuições de
muitos processos possam assumir uma variedade de formas, muitas variáveis observadas possuem
uma distribuição de frequências que é, aproximadamente, uma distribuição de probabilidade
Normal.
Probabilidade é a chance real de ocorrer um determinado evento, isto é, a chance de ocorrer
uma medida em um determinado intervalo. Por exemplo, a frequência relativa deste intervalo,
observada a partir de uma amostra de medidas, é a aproximação da probabilidade. E a distribuição
de frequências é a aproximação da distribuição de probabilidades.
A distribuição é normal quando tem a forma de “sino”:
Para achar a área sob a curva normal devemos conhecer dois valores numéricos, a média e o
desvio padrão . A Figura a seguir mostra algumas áreas importantes:
29
ESTATÍSTICA DESCRITIVA │ UNIDADE I
Quando e são desconhecidos (caso mais comum), estes valores serão estimados por e ,
respectivamente, a partir da amostra, em que:
e
Para cada valor de e/ou temos uma curva de distribuição de probabilidade. Porém, para
se calcular áreas específicas, faz-se uso de uma distribuição particular: a “distribuição normal
padronizada”, também chamada de Standartizada ou reduzida, a qual é a distribuição normal com
e . Para obter tal distribuição, isto é, quando se tem uma variável com distribuição
normal com média diferente de (zero) e/ou desvio padrão diferente de (um), devemos
reduzi-la a uma variável , efetuando o seguinte cálculo:
Assim, a distribuição passa a ter média e desvio padrão . Pelo fato da distribuição ser
simétrica em relação à média , a área à direita é igual a área à esquerda de . Por ser uma
distribuição muito usada, existem tabelas, nas quais encontramos a resolução de suas integrais.
Assim, a tabela fornece áreas acima de valores não negativos que vão desde até .
30
unidAdE iiEStAtíStiCA
inFErEnCiAl
CAPítulo 1
Correlação e regressão
Correlação
Diante de duas variáveis numéricas, podemos estar interessados em estudar dois aspectos:
» qual a relação entre as duas?
» existiria uma maneira de prever o valor de uma, visto que tenho o valor da outra?
O coeficiente de correlação de Pearson é uma medida que varia entre -1 e +1. Quando este é de - 1,
dizemos que as duas variáveis estão perfeitamente correlacionadas (de forma inversa), formando
uma equação de reta, onde quando uma das variáveis aumenta, a outra diminui. Quando este
coeficiente é de +1, elas também estão perfeitamente correlacionados (de forma direta), e que à
medida que uma aumenta, a outra também aumenta. Finalmente quando este é zero, dizemos que
não há correlação, ou melhor, que as duas variáveis não se correlacionam como uma reta (a função
que as representa poderia ser logarítmica, exponencial).
Assim, como podemos relacionar duas variáveis contínuas, métodos de regressão múltipla
permitem examinar o comportamento de diversas variáveis simultaneamente. As técnicas de análise
multivariada tentam responder à questão de interação entre diversas variáveis simultaneamente.
Técnicas como a regressão logística permitem o estudo de diversos fatores (alguns ordinais outros
intervalares), fornecendo, entre outros atrativos, a possibilidade de estudar o risco desses fatores,
quando controlados por todas as variáveis do modelo. Entrar neste campo tornaria esta aula muita
mais complexa do que o exíguo espaço de tempo. Caso seja de seu interesse, há uma vasta bibliografia
pertinente ao assunto. Técnicas de análise multivariada exigem um analista experiente por trás
destas. A análise de modelos é complexa, exigindo muitas idas e vindas até se chegar ao modelo
ideal. Neste processo, é fundamental a presença do profissional de saúde. Acreditamos, entretanto,
que a discussão aqui realizada seja um encorajamento para o aprofundamento em técnicas de
análise por parte dos profissionais de saúde.
Dê exemplo de correlação positiva e não correlação.
31
ESTATÍSTICA INFERENCIAL │ UNIDADE II
figura 1: Correlação entre cobertura de esgotamento sanitário e Taxa de mortalidade específica por doença
diarreica no Brasil. Brasil e estados, 2009.
A figura nos mostra que existe uma relação inversa entre cobertura de saneamento e taxa de
mortalidade específica por doença diarreica aguda no Brasil. Portanto, quando a cobertura aumenta,
a taxa de mortalidade diminui. A equação que aparece ao lado da figura representa a regressão
linear que foi feita para determinar a relação entre as duas variáveis. Ela significa que, onde não
há saneamento básico (ou seja, 0%, a taxa de mortalidade por doença diarreica é de 4,09 a cada
100.000 crianças). Pra cada aumento de 1% no saneamento básico esta taxa diminui 0,024.
Na situação onde há, por exemplo, 50% de cobertura de saneamento, a conta é:
Y= -0,024x50 + 4,0986 = 2,8986
Neste caso, a taxa de mortalidade para uma cobertura de 50% é aproximadamente 2,89 a cada
100.000 crianças.
Situação inversa pode ser observada na figura 2, a qual avalia a renda média familiar per capita e a
TME por câncer de cólon, reto e ânus entre as capitais dos estados brasileiros. Brasil e Capitais, 2007.
figura 2
32
UNIDADE II │ ESTATÍSTICA INFERENCIAL
Existe, nesse caso, uma correlação positiva entre o aumento da renda per capita e a mortalidade por
câncer de cólon e reto no Brasil.
regressão
Em diversos problemas das áreas médica, biológica, industrial, química entre outras, é de grande
interesse verificar se duas ou mais variáveis estão relacionadas de alguma forma. Para expressar
esta relação é muito importante estabelecer um modelo matemático. Este tipo de modelagem é
chamado de regressão, e ajuda a entender como determinadas variáveis influenciam outra, ou
seja, verifica como o comportamento de uma(s) variável(is) pode mudar o comportamento de outra.
Esta relação pode ser analisada como um processo. Neste processo, os valores de
são chamados de Variáveis de Entrada ou Regressoras (inputs) e de Variável de Saída ou Resposta
(output).
A Análise de Regressão possibilita encontrar uma relação razoável entre as variáveis de entrada e
saída, por meio de relações empíricas. A utilização desta abordagem necessita de coleta de dados
e do uso de métodos estatísticos de Análise de Regressão Linear. A coleta de dados permite
conhecer a natureza da relação entre as variáveis e realizar estudos capazes de acomodar situações
inesperadas, como por exemplo, variabilidade na matéria prima, temperatura ambiente, máquina
e operadores.
Se estamos interessados na relação de apenas uma variável de entrada com a variável resposta
temos o caso de Regressão Linear Simples. Mas se queremos relacionar a variável resposta com
mais de uma variável regressora, a Regressão Linear Múltipla é utilizada.
Caso a variável resposta seja uma variável categórica, ou seja, a variável apresenta como possíveis
realizações uma qualidade (ou atributo) e não mais uma mensuração, utilizamos o Modelo de
Regressão Logística.
objetivos
Modelos de regressão são construídos com os objetivos:
I. Predição - Uma vez que esperamos que grande parte da variação da variável de
saída seja explicada pelas variáveis de entrada, podemos utilizar o modelo para
obter valores de Y correspondentes a valores de X que não estavam entre os dados.
Esse procedimento échamado de predição e, em geral, usamos valores de X que
estão dentro do intervalo de variação estudado. A utilização de valores fora desse
intervalo recebe o nome de extrapolação e deve ser usada com muito cuidado, pois,
o modelo adotado pode não ser correto fora do intervalo estudado. Acredita-se que
a predição seja a aplicação comum dos modelos de regressão.
33
ESTATÍSTICA INFERENCIAL │ UNIDADE II
II. Seleção de variáveis - Frequentemente, não se tem ideia de quais são as variáveis
que afetam significativamente a variação de Y. Para responder a esse tipo de
questão, estudos são realizados com um grande número de variáveis. A análise de
regressão pode auxiliar no processo de seleção de variáveis eliminando aquelas cuja
contribuição não seja importante.
III. Estimação de parâmetros - Dado um modelo e um conjunto de dados referente
às variáveis resposta e preditoras, ajustar um modelo aos dados significa obter
valores ou estimativas para os parâmetros, por algum processo, tendo por base o
modelo e os dados observados.
IV. Inferência - O ajuste de um modelo de regressão em geral tem por objetivos
básicos, além de estimar os parâmetros, realizar inferências sobre eles, tais como,
testes de hipóteses e intervalos de confiança.
Em estatística ou econometria, regressão linear é um método para se estimar a condicional (valor
esperado) de uma variável y, dados os valores de algumas outras variáveis x.
A regressão, em geral, trata da questão de se estimar um valor condicional esperado.
A regressão linear é assim chamada porque considera-se que a relação da resposta às variáveis é
uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear
dos parâmetros chamam-se modelos de regressão não linear. Sendo uma das primeiras formas de
análise regressiva a ser estudada rigorosamente, e usada extensamente em aplicações práticas. Isso
acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos são
mais fáceis de ajustar que os modelos não lineares aos seus parâmetros, e porque as propriedades
estatísticas dos estimadores resultantes são fáceis de determinar.
Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as
variáveis.
Em que: - Variável explicada (dependente): é o valor que se quer atingir.
- É uma constante, que representa a interceptação da reta com o eixo vertical.
- É outra constante, que representa o declive (coeficiente angular) da reta.
- Variável explicativa (independente), representa o fator explicativo na equação.
- Variável que inclui todos os fatores residuais mais os possíveis erros de medição. O seu
comportamento é aleatório, devido à natureza dos fatores que encerra. Para que essa fórmula
possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: serem variáveis
normais, com a mesma variância (desconhecida), independentes e independentes da
variável explicativa X.
34
UNIDADE II │ ESTATÍSTICA INFERENCIAL
A regressão logística é uma técnica estatística, a qual tem como objetivo produzir a partir de um
conjunto de observações, um modelo que permita a predição de valores tomados por uma variável
categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou
binárias1 2 .
A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações,
como modelo logístico, modelo logit, e classificador de máxima entropia. A regressão
logística é utilizada em áreas como as seguintes:
» Em medicina, permite, por exemplo, determinar os fatores que caracterizam um
grupo de indivíduos doentes em relação a indivíduos sãos.
» No domínio dos seguros, permite encontrar fracções da clientela que sejam sensíveis
a determinada política securitária em relação a um dado risco particular.
» Em instituições financeiras, pode detectar os grupos de risco para a subscrição de
um crédito.
» Em econometria, permite explicar uma variável discreta, como por exemplo, as
intenções de voto em atos eleitorais.
O êxito da regressão logística assenta, sobretudo, nas numerosas ferramentas que permitem
interpretar de modo aprofundado os resultados obtidos.
Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão
logística distingue-se essencialmente pelo fato de a variável resposta ser categórica.
A regressão logística analisa dados distribuídos binomialmente da forma:
Em que os números de ensaios de Bernoulli ni são conhecidos e as probabilidades de êxito pi são
desconhecidas. Um exemplo desta distribuição é a percentagem de sementes (pi) que germinam
depois de ni serem plantadas.
O modelo é então obtido na base de que cada ensaio (valor de i) e o conjunto de variáveis explicativas/
independentes possam informar acerca da probabilidade final. Estas variáveis explicativas podem
ser vistas como um vector Xi k-dimensional e o modelo toma então a forma.
Os logits das probabilidades binomiais desconhecidas (i.e., os logaritmos dos odds) são modelados
como uma função linear dos Xi.
35
CAPítulo 2
risco relativo/odds ratio
Existem duas dimensões quando estudamos uma associação entre variáveis: uma em que a Estatística
nos diz até que ponto o que vemos na nossa amostra poderá ser o que existe na população, ou seja,
até que ponto é estatisticamente significativo. Outra em que procuramos verificar até que ponto
os nossos resultados implicam associações fortes entre variáveis, calculadas através de simples
subtrações (Diferença de Riscos ou Risco Atribuível) ou quocientes (Risco Relativo, Odds Ratio
etc.). É possível haver uma associação forte nos resultados da nossa amostra que, no entanto, não
sendo estatisticamente significativos, têm pouco interesse, porque não temos garantias de existirem
na população real. Por outro lado, é possível haver uma associação estatisticamente significativa,
mas que, por ser tão fraca, não tem importância nenhuma.
Vamos agora falar de duas importantes medidas da força da associação - o Risco Relativo e o Odds
Ratio.
Estas medidas só poderão ser calculadas em tipos particulares de estudos de observação analítica -
os estudos de coorte e de caso-controle.
Estudos de coorte
Se pudermos fazer duas ou mais medições ao longo do tempo numa determinada população,
poderemos saber quais os efeitos que a exposição a um fator terá no final, comparando os que desde
o início estiveram expostos com aqueles que nunca estiveram expostos a ele.
Um exemplo prático é estudar numa amostra de heroína-dependentes qual a forma de consumo
com maior risco de mortalidade ao fim de um ano. Bastaria separar a amostras em dois estratos
segundo a forma de consumo (ex.: injetável ou não) no início do ano, e depois, no final do ano,
verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o cálculo de taxas de
incidência e prevalência, assim como do risco relativo.
Vamos a um exemplo com números.
Suponhamos que definimos que existe um problema de maior mortalidade entre os fumantes e que
seria pertinente estudá-lo. Assim, queremos estudar ou identificar aqueles que estão em maior risco
de morrer. Após a revisão bibliográfica e o conhecimento que já tínhamos do assunto, consideramos
a hipótese de existir uma associação entre o hábito de fumar e a mortalidade, ou seja, acredita-se
que o consumo de cigarros poderá incluir um maior risco de mortalidade que os outros consumos.
Após termos seguido durante um ano uma amostra de 2000 sujeitos, já caracterizados quanto aos
seus consumos, vamos ao final caracterizá-los quanto ao seu estado vital no fim do período e dispor
os dados numa tabela de 2x2:
36
UNIDADE II │ ESTATÍSTICA INFERENCIAL
Doente Sadio Total
Fuma A (200) B (800) A + B (1000)
Não fuma C (50) D (950) C + D (1000)
Total A + C (250) B + D (1750) A + B + C + D (2000)
Risco Absoluto ou Incidência Acumulada (nos expostos)= A/A+B = 200/1000 = 20%
Risco Absoluto ou IncidênciaAcumulada (nos não expostos)= C/C+D = 50/1000 = 5%
Risco Atribuível = Inc. C. nos expostos - Inc. C. nos não expostos =20 - 5= 15%
Risco Relativo (RR) = Inc. C. nos expostos / Inc. C. nos não expostos =20/5=4
Com estes dados, poderemos calcular o risco absoluto de morte quando se fuma (A/A+B=20%) e o
risco absoluto de morte sem este comportamento (C/C+D=5%). A medição da força da associação
entre as duas variáveis poderá ser calculada ou através da diferença (20%-5%=15%) ou do quociente
entre estes dois riscos (20/5=4). A Diferença de Riscos é frequentemente denominada como Risco
Atribuível (RA) e o quociente entre os dois riscos corresponde ao denominado Risco Relativo (RR).
Repare que a força de associação é nula quando o RA for aproximadamente zero, ou quando o RR
for aproximadamente igual a um.
O RR é uma medida mais utilizada em investigação, pois repassa a ideia mais apurada da potência
de uma associação causal. Neste caso, o RR é 4, ou seja, o risco de morrer é 4 vezes superior nos
expostos que nos não expostos.
Estudos de caso-controle
Suponhamos que queríamos estudar exatamente a mesma associação já referida entre o fumo e a
mortalidade. No entanto, ao contrário do estudo anterior, não tínhamos disponibilidade de recursos
ou tempo para seguirmos durante um ano uma amostra de fumante como no exemplo de estudo
de coorte. Por outro lado, é previsível haver poucos óbitos (poucos efeitos) no final de um ano
pelo que, para implementarmos um estudo de coorte, teríamos que certamente vigiar milhares de
pessoas. Isto torna, evidentemente, um estudo de coorte totalmente impraticável para a maioria
das situações onde o efeito a medir é pouco frequente (ex: doenças raras etc.). Felizmente, tínhamos
a possibilidade de saber nos ficheiros dos serviços de saúde quem tinha morrido no último ano.
Assim, desenhamos um estudo de caso-controle, formado por um grupo de toxicodependentes que
morreram e um outro grupo de sobreviventes. Aos dois grupos verificamos os hábitos de consumo
(eventualmente, por meio da consulta das fichas clínicas) e dispusemos os dados numa tabela de
2x2 (vide tabela anterior).
Repare que esta tabela é igual à anterior, mas os cálculos efetuados anteriormente não têm significado
epidemiológico e são incorretos. Efetivamente, não poderemos calcular os riscos absolutos porque
não sabemos qual é a população exposta que deu origem a todos os óbitos. Consequentemente,
também não poderemos calcular o RA e o RR. No entanto, demonstra-se que, quando o efeito é
raro (neste caso, os óbitos) é possível estimar aproximadamente o RR num estudo de caso-controle,
dando-lhe neste caso a denominação de Odds Ratio (OR), da seguinte forma:
37
ESTATÍSTICA INFERENCIAL │ UNIDADE II
O Odds Ratio (OR), que poderá traduzir-se como «razão de chances», é uma aproximação estimada
do RR, e que só tem interesse em estudos em que este não poderá ser calculado, como nos estudos
de caso-controle.
38
CAPítulo 3
teste de hipóteses
Ao formular hipóteses, devemos sempre admitir a possibilidade de erro. Definimos hipótese nula
(H0), por exemplo, como a hipótese de que não há diferença entre dois tratamentos propostos, ou a
evolução de dois grupos de pacientes. Por outro lado, a hipótese alternativa (H1) é o que desejamos
comprovar. Caso seja encontrada alguma “diferença” estatística abandonamos a hipótese nula (H0)
e adotamos a alternativa (H1). Digamos que desejássemos demonstrar que as emissões de uma
determinada indústria estivessem associadas com o aumento de dada doença numa comunidade
(H0: As doenças da comunidade não estão associadas à emissão de poluentes; H1: A emissão de
poluentes está associada às doenças da comunidade).
Após analisar os dados, o pesquisador “aceita” a hipótese nula, quando os resultados não se mostram
significantes (p > 0,05). Por outro lado, rejeita-se a hipótese nula (ou aceita-se a alternativa) quando
detectamos diferenças significativas (p < 0,05). O p valor é uma estatística utilizada para sintetizar
o resultado de um teste de hipóteses. Formalmente, o valor-p é definido como a probabilidade de
se obter uma estatística de teste igual ou mais extrema quanto àquela observada em uma amostra,
assumindo verdadeira a hipótese nula. Em muitas aplicações da estatística, o nível de significância
é tradicionalmente fixado em 0,05.
Se expressarmos numa tabela a verdade, contra a decisão do pesquisador teremos quatro possíveis
situações. Em duas delas, não haverá qualquer problema, visto que a decisão do pesquisador
coincide com a verdade. No erro tipo I o pesquisador estará, por exemplo, decidindo se os poluentes
estariam levando a uma série de doenças na comunidade quando na verdade não estariam. Por
outro lado, no erro tipo II estará decidindo se os poluentes não estariam relacionados com as
doenças observadas na comunidade, quando na verdade eles estariam. Qual o mais importante
erro? Bem, depende da situação.
Digamos que estejamos tratando um caso de raiva humana (letalidade de 100%), neste caso, o erro
tipo II é mais importante (considerando que a letalidade é de 100%, o erro tipo II aqui significa um
caso falso negativo, ou seja, a pessoa não é diagnosticada como tendo raiva humana e falece desta
condição). Se o tratamento agora versa sobre pessoas apenas infectadas pelo vírus, o erro tipo I é
certamente muito mais importante. (Ou seja, significa classificar uma pessoa sadia como doente,
ou seja, um falso positivo. Caso isso aconteça, o indivíduo será tratado para uma doença que ele de
fato não tem). O erro tipo I (também chamado de a) poderá ser diminuído, caso seja aumentado o
nível de significância do teste (rejeitar a hipótese nula com valor p abaixo de 0,01 ao invés de 0,05).
Desta forma, haverá apenas uma chance em 100 de cometermos este erro (ao invés de 1 em 20,
que é o nível de significância geralmente aceito). Outras maneiras de mexer com os erros tipo I e
tipo II são aumentar o tamanho amostral (custo mais alto), diminuir as fontes de variação (melhor
treinamento dos examinadores, técnicas diagnósticas mais precisas ou mandar que seus doentes
não variem, um comportamento biológico que é, por natureza, individualmente variável - pressão
arterial, grau de imunidade etc.).
39
CAPítulo 4
testes estatísticos paramétricos e não
paramétricos
Os testes estatísticos podem ser divididos em dois grandes grupos, conforme fundamentem ou não
os seus cálculos na premissa de que a distribuição de frequências dos erros amostrais é normal, as
variâncias são homogêneas, os efeitos dos fatores de variação são aditivos e os erros independentes.
Se tudo isso ocorrer, é muito provável que a amostra seja aceitavelmente simétrica, terá com certeza
apenas um ponto máximo, centrado no intervalo de classe onde está a média da distribuição, e
o seu histograma de frequências terá um contorno que seguirá aproximadamente o desenho em
forma de sino da curva normal. O cumprimento desses requisitos condiciona a primeira escolha do
pesquisador, uma vez que, se forem preenchidos, ele poderá utilizar a estatística paramétrica, cujos
testes são em geral mais poderosos do que os da estatística não paramétrica, e consequentemente
devem ter a preferência do investigador, quando o seu emprego for permitido.
o que são testes paramétricos?
Os termos paramétrico e não paramétrico referem-se à média e ao desvio-padrão, que são os
parâmetros que definem as populações que apresentam distribuição normal. Essa observação
já foi feita e repetida muitas vezes neste texto. Volto a reafirmá-la, todavia, porque tenho visto
muitas vezes artigos científicos, além de trabalhos e teses acadêmicas, em que se usaram testes
não paramétricos, mas os resultados eram apresentados em termos de média ± desvio-padrão da
distribuição, ou então em termos de média ± erro-padrão da média, erro este que é também um
valor calculado em função do desvio-padrão da amostra.
os parâmetros da curva normal
Ora, de qualquer conjunto de valores numéricos pode-secalcular a média, porém, desvio-
padrão, somente as curvas normais o possuem, uma vez que, por definição, “desvio-padrão é o
ponto de inflexão da curva normal” — e de mais nenhuma outra. São eles em número de dois e
simétricos em relação à média da distribuição. Portanto, curvas assimétricas jamais podem ter
desvio-padrão porque, mesmo que tenham pontos de inflexão, como os possuem muitas outras
curvas matemáticas, eles dificilmente seriam simétricos em relação à média. Enfim, mesmo que
distribuições experimentais possam apresentar alguma assimetria, esta deve manter-se dentro de
certos limites, aceitáveis em termos estatísticos — e aceitáveis porque atribuídos à variação casual
determinada pelos erros não controlados de amostragem, ou seja, à variação do acaso, típica das
variáveis e amostras chamadas aleatórias.
40
UNIDADE II │ ESTATÍSTICA INFERENCIAL
desvio padrão e testes não paramétricos
Quando um pesquisador utiliza testes não paramétricos, supõe-se que a distribuição de seus dados
experimentais não seja normal, ou que ele não tenha elementos suficientes para poder afirmar que
seja. Na dúvida quanto a essa informação, nada impede que ele opte pelo uso da estatística não
paramétrica. O que ele não pode fazer, de modo algum, é argumentar em termos de desvios ou erros
padrões, embora possa perfeitamente fazê-lo pura e simplesmente em termos de médias.
41
ESTATÍSTICA INFERENCIAL │ UNIDADE II
CAPítulo 5
Escolha do teste estatístico
Qualquer que seja a opção do pesquisador, a essa altura de sua investigação científica ele se acha
diante de mais um dilema: qual, dentre os muitos testes estatísticos existentes em ambas as
categorias acima citadas, seria o mais apropriado, no caso específico de seu trabalho, ou do modelo
matemático de seus ensaios? Que elementos desse modelo matemático condicionariam a opção por
um ou outro desses testes?
Em geral a resposta está contida no próprio modelo experimental de cada pesquisa. Os detalhes
adicionais que devem orientar a escolha do teste são:
a. a existência ou não de vinculação entre dois ou mais fatores de variação;
b. o número de componentes da amostra, que vão ser comparados.
De fato, seja qual for o tipo de estatística escolhida, paramétrica ou não paramétrica, há testes
especificamente destinados a amostras, em que há independência entre os fatores de variação, e
outros para amostras em que existe vinculação ou dependência entre eles.
Da mesma forma, o número de comparações a serem realizadas pelo teste é também importante,
porque há testes elaborados para comparar apenas duas amostras, e há outros destinados a
comparações múltiplas, entendendo-se como múltiplas um número de comparações superior a
dois. Num experimento fatorial, por exemplo, em que há fatores colocados nas colunas, nas linhas
e nos blocos, o número de comparações é fornecido pela multiplicação do número de colunas, pelo
número de linhas e pelo número de blocos. Enfim, o produto fatorial é semelhante ao usado para
calcular o número total de dados da amostra, só não entrando no cálculo o número de repetições.
Assim sendo, no caso do experimento fatorial que, a partir de alguns capítulos atrás, nos vem
servindo de exemplo — com 4 colunas, 3 linhas e 2 blocos — o número de comparações possíveis,
incluindo-se nele não só os fatores de variação principais mas também todas as interações possíveis
entre eles, seria: 4 x 3 x 2 = 24 comparações.
O diagrama abaixo esquematiza as subdivisões dos testes estatísticos, listando os mais comumente
utilizados na prática:
42
UNIDADE II │ ESTATÍSTICA INFERENCIAL
Alguns desses testes usam números como variável, outros usam sinais + e – , outros usam valores
fixos, como 1 e 0, e outros ainda utilizam frequências. Esses testes evidentemente estão todos
incluídos no grupo dos testes não paramétricos, simplesmente porque não usam os parâmetros
média e desvio-padrão em seus cálculos.
A filosofia de cada teste estatístico
Após a conclusão destes conceitos iniciais e dos conhecimentos básicos que se deve ter sobre os
métodos estatísticos, serão incluídos neste texto alguns breves comentários sobre cada um dos testes
listados acima. São resumos sobre o que chamei de Filosofia do Teste, e neles procurei dar uma ideia
geral sobre o que tinha em mente o criador de cada um deles, e a quais modelos matemáticos eles se
adaptam, bem como em quais circunstâncias cada qual poderia ser utilizado.
Mas são apenas observações condensadas, que evidentemente os interessados poderão ampliar,
pela leitura e pelo estudo mais aprofundado em compêndios mais elaborados do que este, sobre a
Ciência Estatística, que os há em grande quantidade.
Apresentação dos resultados dos testes
Uma vez realizados os testes adequados, estes dão o seu parecer, sob a forma de um valor numérico,
apresentado (conforme o teste) como valor de F (análise de variância), de t (teste t, de Student), U
(Mann-Whitney), Q (teste de Cochran), c² (letra grega qui, testes diversos, que usam o chamado
qui-quadrado), z (McNemar e Wilcoxon), H (Kruskal-Wallis), ou r (letra grega rho, utilizada nos
testes de correlação, que serão focalizados mais adiante, neste texto).
43
ESTATÍSTICA INFERENCIAL │ UNIDADE II
não significância estatística (H0)
Seja como for, o valor numérico calculado pelo teste deve ser confrontado com valores críticos, que
constam em tabelas apropriadas a cada teste. Essas tabelas geralmente associam dois parâmetros,
que permitem localizar o valor crítico tabelado: nível de probabilidades (usualmente 5 % [a = 0,05],
ou 1 % [a = 0,01]), e o número de graus de liberdade das amostras comparadas.
Valores menores que o tabelado indicam que ele não pode ser considerado diferente do que se
obteria se as amostras comparadas fossem iguais. Enfim, estaria configurado o que se chama de não
significância estatística, ou de aceitação da hipótese zero, ou de nulidade (H0).
Porém, se o valor calculado for igual ou maior que o tabelado, aceita-se a chamada hipótese alternativa
(H1), ou seja, a hipótese de que as amostras comparadas não podem ser consideradas iguais, pois o
valor calculado supera aquele que se deveria esperar, caso fossem iguais, lembrando sempre que a
igualdade, em Estatística, não indica uma identidade. Isso quer dizer que pode eventualmente haver
alguma diferença, mas esta não deve ultrapassar determinados limites, dentro dos quais essa diferença
decorre apenas da variação natural do acaso, típica da variação entre as repetições do ensaio.
No caso de o valor calculado ser maior do que o valor tabelado, diz-se que há significância estatística,
que pode ser ao nível de 5%, se o valor calculado for maior que o valor tabelado para 5%, porém
menor que o tabelado para 1%. Ou ao nível de 1%, caso o valor calculado seja igual ou maior que o
valor tabelado para 1%.
44
CAPítulo 6
qui quadrado/teste de Fisher
qui quadrado(χ2)
O χ2 é talvez a mais utilizada técnica. Consiste na comparação da frequência observada de um grupo,
com a frequência esperada, caso a distribuição fosse aleatória. O teste de Qui quadrado permite
verificar igualdade (semelhança) entre categorias discretas e mutualmente exclusiva (por exemplo,
diferenças de comportamento entre homens e mulheres). Cada indivíduo ou item deve pertencer a
uma e somente uma categoria.
As seguintes suposições precisam ser satisfeitas:
1. Os dois grupos são independentes.
2. Os itens de cada grupo são selecionados aleatoriamente.
3. As observações devem ser frequências ou contagens.
4. Cada observação pertence a uma e somente uma categoria.
5. A amostra deve ser relativamente grande (pelo menos cinco observações em cada
célula e no caso de poucos grupos (2x 2) pelo menos 10).
A hipótese nula é que não existe diferença entre as frequências (contagens) dos grupos. A hipótese
alternativa é que existe diferença.
Exemplo: Desejamos saber se existe diferença na percepção de risco de homens e mulheres em
relação a uma exposição ambiental.
HomensMulheres total
Concorda 58 35 93
Neutro 11 25 36
Não concorda 10 23 33
Total 79 83 162
As categorias são homens e mulheres. Observe que o número total de mulheres é diferente do
número total de homens. Cada item pertence a uma e somente uma destas categorias. Da mesma
forma, cada indivíduo poderá responder somente de uma forma. O resultado deve ser comparado
com que seria obtido se não houvesse diferença entre os grupos.
Em geral, os grupos não são igualmente distribuídos. O valor esperado de cada célula é uma
proporção do valor total.
45
ESTATÍSTICA INFERENCIAL │ UNIDADE II
Os valores esperados para cada célula são obtidos multiplicando o percentual da coluna pelo total
da linha , isto é, total da linha x (total coluna / total).
Por exemplo, 45,35 = 93 x 79/162
Esperado
Homens Mulheres total
Concorda 45,35185 47,64815 93
Neutro 17,55556 18,44444 36
Não concorda 16,09259 16,90741 33
Total 79 83 162
O valor de qui quadrado para cada célula é a diferença ao quadrado entre o valor esperado e o valor
medido dividido pelo valor esperado. O qhi total é a soma dos valores de cada célula. Neste caso, o
valor total do qui quadrado é de 16,16492. O mesmo programa que calcula o valor de qui quadrado
diz ainda, de acordo com este resultado, qual é o valor de p. Quanto maior o valor de chi calculado,
maior a diferença, portanto, menor o valor de p.
O qui quadrado não é mais do que uma comparação dos valores observados na tabela com os valores
esperados se não existisse relação entre as duas variáveis, ou seja, se a hipótese nula fosse verdadeira.
A partir do qui quadrado pode-se então calcular a probabilidade de se obter a diferença entre os
valores observados e esperados, ou uma diferença superior, se a Hipótese Nula fosse verdadeira
(valor p). Como em todos os testes de hipótese, é com base nesta probabilidade que decidimos se
rejeitamos ou aceitamos a Hipótese Nula.
teste exato de Fisher
Há uma dificuldade técnica na aplicação do teste qui quadrado quando o valor esperado em alguma
“casela” na tabela 2 x 2 é menor que 5. Neste caso, o uso da distribuição χ2 não é mais completamente
apropriado. Ou seja, o grau de certeza na decisão tomada não é exatamente aquele fornecido pela
distribuiçãoχ2.
A alternativa é usar o teste exato de Fisher (disponível na maioria dos programas de análise
estatística), que é a versão exata do teste qui-quadrado.
46
CAPítulo 7
teste t
William Gosset publicou (usando o pseudônimo de Student - daí o nome do teste) um método para
comparar médias entre grupos (tratamentos em nosso caso). Ele demonstrou que as médias de
amostras aleatórias, retiradas de uma população (distribuição t) seguiam a distribuição normal,
com uma média idêntica àquela da população total (à medida que o número de amostras tende
ao infinito). O fundamental aqui é que o trabalho de Gosset resolve um problema crucial, qual
seja, a possibilidade de utilizar amostras para estimar parâmetros da população total (dados que
raramente teremos).
Reparem que quando comparamos 2 grupos de tratamento (para estimar sobrevida, tempo de
resposta, valor de variáveis contínuas tais como linfócitos, pressão arterial, concentração de metil-
mercúrio etc.), teremos 2 médias. A pergunta que o profissional de saúde quer responder é se essas
2 médias são diferentes (no nosso caso, devido ao tratamento, ou a exposição de algum produto no
ambiente) ou se a diferença é o que se esperaria obter através de um acaso puro e simples. Posto em
outros termos, poderíamos formular a seguinte questão: qual a chance de obter a diferença (entre as
médias) que estou observando ao analisar uma amostra de determinado tamanho, através do acaso?
Posso formular, por exemplo, um gráfico comparando a queda populacional das cegonhas na
Europa, nos últimos 150 anos, que possui, por sua vez, uma relação estatística perfeita com a queda
de fecundidade da população humana. Daí a dizer que uma variável causa à outra representa um
abismo em relação ao conhecimento acumulado da biologia.
O uso do teste t necessita que conheçamos alguns parâmetros das variáveis analisadas, a saber:
» a variável “numérica” precisa ser do tipo intervalar (onde o valor zero é
arbitrariamente escolhido - temperatura em graus Farenheit), ou idealmente do
tipo razão (onde o ponto zero da escala é atribuído pela natureza - escala Celsius de
temperatura, pressão arterial etc.).
» cada pessoa analisada pode pertencer a um e apenas um dos grupos que estão sendo
comparados.
» a distribuição numérica sendo analisada, não pode estar fortemente desviada (ou
seja, deve ter uma distribuição aproximadamente normal).
» finalmente as variâncias entre os grupos devem ser semelhantes (o que já foi
discutido em testes não paramétricos).
O teste t de student procura a mesma relação do qui quadrados. A diferença essencial é que o teste
de qui quadrado é usado para variáveis categóricas (aquelas que avaliam uma característica, como
sexo, escolaridade ou faixa etária), enquanto o teste t é usado para variáveis numéricas (que podem
47
ESTATÍSTICA INFERENCIAL │ UNIDADE II
ser contadas ou medidas, como emissão de poluentes na água para consumo ou dosagem sérica de
organoclorados).
Estamos aqui exemplificando com o teste de qui quadrado e o teste T de student, que são os testes
mais utilizados, respectivamente, para variáveis categóricas e contínuas. Há dezenas de outros
testes, para situações específicas, dependendo do tipo de variável, no número de opções de resposta,
no tipo de distribuição dos dados da variável (normal ou não normal) etc., entretanto, é possível
que transformemos os dados de forma a poder utilizar, com bastante frequência, estes dois testes
apresentados. Recomendamos, caso algum aluno tenha interesse em conhecer os demais testes,
uma leitura mais aprofundada em um texto de referência em estatística.
48
CAPítulo 8 (AnoVA)
Análise de Variância
Um problema muito comum nas ciências e na indústria é comparar diversos tratamentos para
determinar quais, eventualmente, produzem um resultado superior. Como exemplo, suponhamos
que um fabricante quer examinar o efeito nas vendas devido o modelo de embalagem empregado. Uma
maneira razoável de prosseguir é selecionar um grupo de lojas com volume de vendas comparáveis
e atribuir de forma aleatória e independentemente a cada loja, um modelo de embalagem para
ser testado. Assumimos que condições relevantes que possam afetar as vendas, tais como preço,
disposição das prateleiras e esforços promocionais são os mesmos para todas as lojas.
Quando a coleta de dados for concluída, pode acontecer que um modelo de embalagem é claramente
superior aos outros. Neste caso, não há necessidade de fazer uma análise estatística. Por outro
lado, a média de vendas para cada modelo, pode estar tão próxima que não é fácil decidir se suas
diferenças são reais ou são devido à variação inerente nas vendas entre as lojas. O método comum
para investigar tais diferenças é a ANOVA.
Análise de variância nada mais é que a técnica estatística que permite avaliar afirmações sobre
as médias de populações. A análise visa, fundamentalmente, verificar se existe uma diferença
significativa entre as médias e se os fatores exercem influência em alguma variável dependente.
A análise de variância compara médias de diferentes populações para verificar se essas populações
possuem médias iguais ou não. Assim, essa técnica permite que vários grupos sejam comparados a
um só tempo.
Em outras palavras, a análise de variância é utilizada quando se quer decidir se as diferenças
amostrais observadas são reais (causadas por diferenças significativas nas populações observadas)
ou casuais (decorrentes da mera variabilidade amostral). Portanto, essa análise parte do pressuposto
que o acaso só produz pequenos desvios, sendo as grandes diferenças geradas por causas reais.
Quando os resultados da Análise de Variância (ANOVA) levam à rejeição da hipótese nula,
, que representa a afirmaçãode que todas as médias (tratamentos) são
iguais, temos evidências de que as médias entre os níveis diferem significativamente. Em nosso
exemplo, indica que todas as embalagens têm o mesmo impacto nas vendas e chamaremos aqui
de hipótese nula global. Dessa maneira, se não rejeitarmos , concluímos que não existe diferença
entre as médias dos níveis do fator e a Análise de Variância é suficiente para a conclusão. Porém, se
rejeitarmos , temos evidências estatísticas de que pelo menos dois níveis do fator diferem entre
si. Os testes de comparações múltiplas permitem identificar essas diferenças entre pares de médias
específicos ou em combinações lineares das médias.
49
ESTATÍSTICA INFERENCIAL │ UNIDADE II
Pressupostos
Os pressupostos básicos da análise de variância são:
» As amostras são aleatórias e independentes.
» As populações têm distribuição normal (o teste é paramétrico).
» As variâncias populacionais são iguais.
Na prática, esses pressupostos não precisam ser todos rigorosamente satisfeitos. Os resultados são
empiricamente verdadeiros sempre que as populações são aproximadamente normais (isto é, não
muito assimétricas) e têm variâncias próximas.
50
CAPítulo 9
Sensibilidade/Especificidade/Curva roC
Na interpretação de evidências científicas, os equívocos são mais frequentes quando se trata de
métodos diagnósticos do que quando o assunto se refere a métodos terapêuticos. Na mente médica,
a análise crítica da eficácia de uma terapia está mais desenvolvida do que a análise da adequação de
um método diagnóstico. Desta forma, vemos métodos de nenhum valor clínico sendo utilizados sob
falsas premissas de acurácia. Vemos autores de artigos concluindo pelo valor do método avaliado,
quando o próprio trabalho mostra o contrário. Chega a ser algo caótico.
Portanto, precisamos discutir em detalhe, métodos diagnósticos sob o paradigma da medicina
baseada em evidências (veja “Para (não) finalizar)”. Diferentes perguntas devem ser feitas quando
analisamos este tipo de evidência: (1) o método é acurado? (2) o método é preciso? (3) Em sendo
acurado e preciso, o método é útil clinicamente.
Nessa postagem vamos começar pelo básico, ou seja, pelo primeiro item. O que é acurácia?
respondendo de forma simples, acurácia
é a capacidade do método de acertar o
diagnóstico
Quando estamos diante de um diagnóstico dicotômico (presença ou ausência de doença), os
componentes da acurácia são sensibilidade e especificidade. Devemos nos lembrar que um
método precisa ter um equilíbrio desses dois parâmetros. Sensibilidade é a capacidade do
método em reconhecer os doentes, enquanto especificidade é a capacidade do método
em reconhecer os saudáveis. Precisamos discriminar os doentes e saudáveis, portanto
precisamos tanto de sensibilidade como de especificidade.
Sendo assim, os conceitos elementares são:
Verdadeiro positivo (V+) = indivíduos com a doença tanto no teste padrão ouro quanto no teste
em avaliação.
Verdadeiro negativo (V-) = indivíduos sem a doença tanto no teste padrão ouro quanto no teste
em avaliação.
Falso negativo (F-) = indivíduos doentes no teste padrão ouro, mas que são considerados
negativos ou normais no teste em avaliação.
Falso positivo (F+)= indivíduos não doentes no teste padrão ouro, mas que são considerados
doentes no teste em avaliação.
51
ESTATÍSTICA INFERENCIAL │ UNIDADE II
Sensibilidade (S) = proporção de indivíduos verdadeiramente positivos (tanto no padrão ouro
quanto no teste em avaliação) entre os doentes.
Especificidade (E) = proporção de indivíduos verdadeiramente negativos ou normais (tanto no
padrão ouro quanto no teste em avaliação) entre os não doentes
Valor preditivo positivo (VPP) = proporção de pacientes com resultados verdadeiramente
positivos (tanto no padrão ouro quanto no teste em avaliação) entre os diagnosticados como
positivos.
Valor preditivo negativo (VPN) = proporção de pacientes com resultados verdadeiramente
negativos (tanto no padrão ouro quanto no teste em avaliação) entre os diagnosticados como
negativos.
Razão de Verossimilhança Positiva (RVP ou Razão de Probabilidade Positiva - RPP)
Probabilidade de que dado resultado de teste fosse esperado em um paciente portador da doença,
comparado com a probabilidade de que o mesmo resultado fosse esperado em um paciente sem a
doença. Quanto melhor o teste, maior a RVP. RVP = S/(1-E)
Razão de Verossimilhança Negativa (RVN ou Razão de Probabilidade Negativa -
RPN)= Probabilidade de que dado resultado de teste fosse esperado em um paciente não portador
da doença, comparado com a probabilidade de que o mesmo resultado fosse esperado em um
paciente com a doença. Quanto melhor o teste, menor a RVN. RVN = (1-S)/E
Acurácia = proporção total de resultados corretos (soma dos V+ e V- dividida pelo total geral).
Reflete a precisão do teste no diagnóstico de determinada doença, comparado ao padrão ouro.
Curvas roC
Geralmente, a sensibilidade e a especificidade são características difíceis de conciliar, isto é, é
complicado aumentar a sensibilidade e a especificidade de um teste ao mesmo tempo. As curvas
52
UNIDADE II │ ESTATÍSTICA INFERENCIAL
ROC (receiver operator characteristic curve) são uma forma de representar a relação, normalmente
antagónica, entre a sensibilidade e a especificidade de um teste diagnóstico quantitativo, ao longo
de um contínuo de valores de “cutoff point”.
Para construir uma curva ROC traça-se um diagrama que represente a sensibilidade em função da
proporção de falsos positivos (1- Especificidade) para um conjunto de valores de “cutoff point”.
figura 3
Quando se tem uma variável contínua, resultado da aplicação de um teste diagnóstico quantitativo, e
se pretende transformá-la numa variável dicotómica, do tipo doente/não doente, temos que utilizar
um determinado valor na escala contínua que discrimine entre essas duas classes. A esse valor dá-se
o nome de “cutoff point”.
O valor escolhido como “cutoff point” vai influenciar as características do teste, como exemplificado
na figura 3 (curva 2). No exemplo da figura 3, quanto maior é o “cutoff point” maior é a especificidade
do teste, mas menor é a sensibilidade (ponto C da curva 2); e quanto menor o “cutoff point” maior é
a sensibilidade, mas menor é a especificidade (ponto A da curva 2).
Assim, a intenção com que se utilizará o teste diagnóstico vai influenciar a escolha do “cutoff point”,
logo, das características do teste. No exemplo da curva 2 da figura 3, se pretendemos um teste muito
sensível e menos específico, escolhe-se um “cutoff point” menor (ponto A), obtendo-se uma menor
proporção de falsos negativos e uma maior proporção de falsos positivos; se pretendemos um teste
53
ESTATÍSTICA INFERENCIAL │ UNIDADE II
muito específico e menos sensível, escolhe-se um “cutoff point” maior (ponto C), obtendo-se uma
menor proporção de falsos positivos e uma maior proporção de falsos negativos.
As curvas ROC descrevem a capacidade discriminativa de um teste diagnóstico para um determinado
número de valores “cutoff point”. Isto permite pôr em evidência os valores para os quais existe
maior otimização da sensibilidade em função da especificidade. O ponto, numa curva ROC, onde
isto acontece, é aquele que se encontra mais próximo do canto superior esquerdo do diagrama ver
figura 3 ponto B da curva 2).
Por outro lado, as curvas ROC permitem quantificar a exatidão de um teste diagnóstico, já que, estas
são proporcionais à área sob a curva ROC, isto é, quanto maior, mais a curva se aproxima do canto
superior esquerdo do diagrama. Sabendo isto, a curva será útil, também, na comparação de testes
diagnósticos, tendo um teste uma exatidão tanto maior, quanto maior for a área sob a curva ROC
(ver figura 3).
54
Para (não) Finalizar
A medicina baseada em evidências (MBE) é um movimento que se baseia na aplicação do
método científico a toda a prática médica, especialmente àquelas tradicionalmente estabelecidas
que ainda não foram submetidas ao escrutínio