Bioestatística Aplicada à Biomedicina

•

UNIP

Ester Mendes

25/08/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 71 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 71 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 71 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.322 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Autor: Prof. Giovani Bravin Peres
Colaboradores: Prof. Flávio Buratti Gonçalves
Profa. Laura Cristina da Cruz Dominciano
Bioestatística
Aplicada à Biomedicina
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Professor conteudista: Giovani Bravin Peres
Giovani Bravin Peres é bacharel em Ciências Biológicas - Modalidade Médica (Biomedicina) pela Escola Paulista
de Medicina da Universidade Federal de São Paulo (EPM-Unifesp, 2009). É mestre (2012) e doutor em Ciências
(2016) pela mesma instituição e especialista em Administração de Empresas pela Fundação Getulio Vargas (FGV, 2014).
Atualmente, é professor titular da Universidade Paulista (UNIP) no Programa de pós-graduação em Patologia
Ambiental e Experimental (Medicina Veterinária) e no curso de Biomedicina, responsável na graduação pelas
disciplinas Bioestatística, Biofísica, Biologia Molecular e Bioquímica, e na pós-graduação pela disciplina Estatística
Aplicada à Pesquisa.
© Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou
quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem
permissão escrita da Universidade Paulista.
Dados Internacionais de Catalogação na Publicação (CIP)
P437b Peres, Giovani Bravin.
Bioestatística Aplicada à Biomedicina / Giovani Bravin Peres. –
São Paulo: Editora Sol, 2019.
208 p., il.
Nota: este volume está publicado nos Cadernos de Estudos e
Pesquisas da UNIP, Série Didática, ano XXV, n. 2-106/19, ISSN 1517-9230.
1. Estatística. 2. Amostragem. 3. Teste de hipóteses. I.Título.
CDU 519.2
U503.16 – 19
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Prof. Dr. João Carlos Di Genio
Reitor
Prof. Fábio Romeu de Carvalho
Vice-Reitor de Planejamento, Administração e Finanças
Profa. Melânia Dalla Torre
Vice-Reitora de Unidades Universitárias
Prof. Dr. Yugo Okida
Vice-Reitor de Pós-Graduação e Pesquisa
Profa. Dra. Marília Ancona-Lopez
Vice-Reitora de Graduação
Unip Interativa – EaD
Profa. Elisabete Brihy
Prof. Marcelo Souza
Prof. Dr. Luiz Felipe Scabar
Prof. Ivan Daliberto Frugoli
Material Didático – EaD
Comissão editorial:
Dra. Angélica L. Carlini (UNIP)
Dra. Divane Alves da Silva (UNIP)
Dr. Ivan Dias da Motta (CESUMAR)
Dra. Kátia Mosorov Alonso (UFMT)
Dra. Valéria de Carvalho (UNIP)
Apoio:
Profa. Cláudia Regina Baptista – EaD
Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos
Projeto gráfico:
Prof. Alexandre Ponzetto
Revisão:
Bruno Barros
Elaine Pires
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Sumário
Bioestatística Aplicada à Biomedicina
APRESENTAÇÃO ......................................................................................................................................................7
INTRODUÇÃO ...........................................................................................................................................................7
Unidade I
1 INTRODUÇÃO À ESTATÍSTICA .........................................................................................................................9
1.1 O propósito da estatística ....................................................................................................................9
1.2 O processo de pesquisa ...................................................................................................................... 13
1.2.1 Variáveis ...................................................................................................................................................... 15
1.2.2 Escala de medição .................................................................................................................................. 17
1.2.3 Erro ............................................................................................................................................................... 19
1.2.4 População e amostra ............................................................................................................................. 20
1.3 Termos estatísticos............................................................................................................................... 20
2 AMOSTRAGEM .................................................................................................................................................. 24
2.1 Técnicas de amostragem ................................................................................................................... 24
3 DISTRIBUIÇÃO DE FREQUÊNCIA ................................................................................................................ 36
3.1 Organização e apresentação de dados ........................................................................................ 36
3.2 Formatos das distribuições de frequência.................................................................................. 45
4 MEDIDAS-RESUMO ........................................................................................................................................ 50
4.1 Medidas de posição central.............................................................................................................. 50
4.2 Medidas de variabilidade (ou de dispersão) .............................................................................. 55
Unidade II
5 INDO ALÉM DOS DADOS .............................................................................................................................. 72
5.1 Distribuição amostral e o teorema central do limite ............................................................. 72
5.2 Calculando intervalos de confiança ............................................................................................. 78
5.3 Probabilidade ......................................................................................................................................... 87
6 TESTES DE HIPÓTESES PARA UMA E DUAS AMOSTRAS................................................................... 90
6.1 Introdução aos testes de hipóteses .............................................................................................. 90
6.2 Teste z para uma amostra ................................................................................................................. 93
6.3 Teste t para uma amostra ...............................................................................................................101
6.4 Teste t para duas amostras independentes .............................................................................109
6.4.1 Teste t para duas amostras independentes com variâncias desiguais ........................... 126
6.5 Teste t para duas amostras pareadas .........................................................................................128
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
7 TESTES DE HIPÓTESES PARA TRÊS OU MAIS AMOSTRAS ..............................................................141
7.1 Análise de variância (ANOVA) de um fator ..............................................................................141
8 TESTES DE HIPÓTESES PARA VARIÁVEIS CATEGÓRICAS ................................................................156
8.1 Teste do chi quadrado ......................................................................................................................156
7
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
APRESENTAÇÃO
Atualmente, a sociedade está tomada por números. Eles aparecem em todos os lugares: de manchetes
jornalísticas, indicando o índice de aprovação do presidente, a programas de esporte, que discutem as chances
de determinada equipe de futebol se tornar campeã. Nas áreas das ciências, o cenário não é distinto,somos
bombardeados por números e é importante estar apto a decifrá-los. Novas tecnologias têm fornecido
quantidades enormes de dados, particularmente na área molecular, e estão abrindo caminho para novos
campos de pesquisa. Entretanto, com essas novas tecnologias, surgem novos desafios e necessidades.
Grandes quantidades de informações precisam ser organizadas, apresentadas e compreendidas.
O objetivo desta disciplina é bastante concreto: fornecer ferramentas descritivas e de análise de dados
que permitam uma melhor compreensão de eventos e estimação de probabilidades, para que sejam
tomadas decisões a partir disso. Trata-se de uma ciência básica que fornece subsídios e ferramentas
para outras grandes ciências da matriz curricular do curso de Biomedicina, sendo, portanto, de grande
importância para a formação e atuação profissional do biomédico. Assim, ao final deste estudo,
o(a) aluno(a) deverá ser capaz de analisar dados estatísticos resultantes de pesquisas, interpretar e
construir gráficos, executar testes estatísticos e identificar a relação entre variáveis.
INTRODUÇÃO
A estatística é um ramo da matemática, portanto, para entendê-la completamente, é necessário
percorrer várias equações. Alguns campos da estatística simplesmente não podem ser plenamente
compreendidos sem o domínio adequado de cálculo e álgebra matricial. Mas não há motivo para
desespero. É possível aprender a usar testes estatísticos e a interpretar resultados sem o domínio
completo de toda a matemática atrás deles. É possível aprender muito sobre estatística sem mergulhar
em cálculos profundos e em equações complexas. Este é o objetivo deste livro-texto, que apresentará
poucas equações, com o objetivo de melhor ilustrar conceitos.
Tal situação é bastante comum na ciência: é praticamente impossível para os cientistas dominarem
todas as áreas do saber em todas as ferramentas que utilizam. É possível a um profissional ser capaz de
interpretar os resultados de um medidor de pH (cujos valores indicam a acidez de determinada solução)
ou de um contador de cintilação (que mede a radioatividade em um meio), mesmo sem saber em
mínimos detalhes como esses equipamentos funcionam.
Pense no seu dia a dia: você tem pleno conhecimento do funcionamento dos equipamentos ao seu
redor? Sabe exatamente como um motor a combustão funciona? Entretanto, é muito provável que
todos os dias você necessite de algum meio de transporte. Ainda sem total domínio da termodinâmica
envolvida no funcionamento de um motor, você sabe que o equipamento necessita de manutenção
periódica, a condução do veículo demanda capacitação e habilitação e seu uso requer medidas de
proteção. Analogamente, em um laboratório, você se deparará com inúmeros reagentes, com os quais
serão preparadas soluções necessárias à condução de experimentos. Mesmo sem saber por qual processo
de síntese ou de purificação passaram tais reagentes, você saberá, dentro de sua necessidade, quais
deverão ser combinados entre si nas proporções e condições adequadas. O mesmo raciocínio pode ser
aplicado à bioestatística.
8
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Neste livro-texto, você verá uma introdução à estatística, com apresentação de conceitos
fundamentais e informações sobre estatística descritiva; serão abordadas noções de probabilidade
e de inferência estatística, com destaque aos testes de hipóteses mais utilizados na área biomédica;
ao final, há um apêndice contendo tabelas importantes para os cálculos que serão apresentados ao
longo do texto.
9
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
Unidade I
1 INTRODUÇÃO À ESTATÍSTICA
1.1 O propósito da estatística
A estatística é a ciência que tem por objetivos planejar e otimizar experimentos, orientar sua condução,
coletar, descrever e analisar suas respostas, retirando o maior número possível das informações nelas contidas.
Técnicas estatísticas foram desenvolvidas porque os seres humanos são limitados no processamento de
informações. Dê a uma pessoa um conjunto muito grande de números de uma só vez e, provavelmente, ela
focará em apenas alguns desses – chamarão a atenção os valores mais discrepantes, não os mais típicos.
A estatística traz ordem ao caos. Veremos alguns dados retirados dos boletins epidemiológicos da
Secretaria de Vigilância em Saúde − Ministério da Saúde, mostrando o número de casos de dengue no
ano de 2017. A tabela a seguir está desorganizada, sendo difícil encontrar um estado específico e avaliar
em qual houve o maior/menor número de casos reportados da doença ou ainda estimar a média nacional.
Tabela 1 – Número de casos prováveis e casos confirmados de dengue
em 2017, por unidade da Federação, organizados de forma aleatória
Unidade da Federação Casos prováveis Casos confirmados
Rio de Janeiro 10.592 83
São Paulo 13.211 82
Rio Grande do Sul 227 1
Santa Catarina 256 0
Amapá 886 11
Amazonas 3.984 16
Ceará 40.604 119
Paraíba 3.837 19
Paraná 4.195 10
Bahia 9.819 17
Roraima 316 1
Minas Gerais 28.779 140
Piauí 5.184 11
Sergipe 609 2
Alagoas 2.930 15
Rondônia 2.460 5
Rio Grande do Norte 7.311 20
Mato Grosso do Sul 2.112 36
10
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Pará 7.813 9
Espírito Santo 7.019 115
Maranhão 7.049 53
Pernambuco 9.043 52
Distrito Federal 4.210 103
Mato Grosso 8.977 18
Tocantins 5.077 102
Acre 2.124 1
Goiás 63.430 1.820
Adaptada de: Brasil (2018a).
Um arranjo desorganizado não é muito útil. Se utilizarmos uma mínima ordenação – digamos, por
ordem alfabética do nome dos estados – como disposto na tabela seguinte, encontrar uma determinada
unidade da Federação se torna uma tarefa muito mais fácil.
Tabela 2 – Número de casos prováveis e casos confirmados
de dengue em 2017, por unidade da Federação, em ordem alfabética
Unidade da Federação Casos prováveis Casos confirmados
Acre 2.124 1
Alagoas 2.930 15
Amapá 886 11
Amazonas 3.984 16
Bahia 9.819 17
Ceará 40.604 119
Distrito Federal 4.210 103
Espírito Santo 7.019 115
Goiás 63.430 1.820
Maranhão 7.049 53
Mato Grosso 8.977 18
Mato Grosso do Sul 2.112 36
Minas Gerais 28.779 140
Pará 7.813 9
Paraíba 3.837 19
Paraná 4.195 10
Pernambuco 9.043 52
Piauí 5.184 11
Rio de Janeiro 10.592 83
Rio Grande do Norte 7.311 20
Rio Grande do Sul 227 1
Rondônia 2.460 5
Roraima 316 1
11
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
Santa Catarina 256 0
São Paulo 13.211 82
Sergipe 609 2
Tocantins 5.077 102
Adaptada de: Brasil (2018a).
Já a tabela seguinte, por outro lado, apresenta os dados ordenados de forma decrescente em relação ao
número de casos confirmados de dengue no período. Este tipo de ordenação nos chama atenção e permite
algumas extrapolações imediatas, tais como: por que não houve nenhum caso confirmado de dengue em
2017 em Santa Catarina? Por que Goiás foi o estado com o maior número de casos confirmados?
Tabela 3 – Número de casos prováveis e casos confirmados de dengue
em 2017, por unidade da Federação, em ordem decrescente de casos confirmados
Unidade da Federação Casos prováveis Casos confirmados
Goiás 63.430 1.820
Minas Gerais 28.779 140
Ceará 40.604 119
Espírito Santo 7.019 115
Distrito Federal 4.210 103
Tocantins 5.077 102
Rio de Janeiro 10.592 83
São Paulo 13.211 82
Maranhão 7.049 53
Pernambuco 9.043 52
Mato Grosso do Sul 2.112 36
Rio Grande do Norte 7.311 20
Paraíba 3.837 19
Mato Grosso 8.977 18
Bahia 9.819 17
Amazonas 3.984 16
Alagoas 2.930 15
Amapá 886 11
Piauí 5.184 11
Paraná 4.195 10
Pará 7.813 9
Rondônia 2.460 5
Sergipe 609 2
Acre 2.124 1
Rio Grande do Sul 227 1
Roraima 316 1
Santa Catarina 256 0
Adaptada de: Brasil (2018a).
12
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Outra forma de sumariaros dados é mostrada na tabela seguinte, organizando a informação
pelas regiões brasileiras. Esse tipo de ordenação nos permite ter uma ideia da diferença geográfica do
número de casos de dengue no ano de 2017. Todas as três tabelas (tabelas 2, 3 e 4) ordenam os dados
diferentemente e respondem a diferentes questionamentos. A estatística envolve a organização e a
sumarização de informações para que perguntas sejam respondidas.
Tabela 4 – Número de casos prováveis e casos confirmados de
dengue em 2017, por unidade da Federação, por regiões brasileiras
Região/unidade da Federação Casos prováveis Casos confirmados
Norte 22.660 145
Acre 2.124 1
Amapá 886 11
Amazonas 3.984 16
Pará 7.813 9
Rondônia 2.460 5
Roraima 316 1
Tocantins 5.077 102
Nordeste 86.386 308
Alagoas 2.930 15
Bahia 9.819 17
Ceará 40.604 119
Maranhão 7.049 53
Paraíba 3.837 19
Pernambuco 9.043 52
Piauí 5.184 11
Rio Grande do Norte 7.311 20
Sergipe 609 2
Sudeste 59.601 420
Espírito Santo 7.019 115
Minas Gerais 28.779 140
Rio de Janeiro 10.592 83
São Paulo 13.211 82
Sul 4.678 11
Paraná 4.195 10
Rio Grande do Sul 227 1
Santa Catarina 256 0
Centro-oeste 78.729 1.977
Goiás 63.430 1.820
Mato Grosso 8.977 18
Mato Grosso do Sul 2.112 36
Distrito Federal 4.210 103
Brasil 252.054 2.861
Adaptada de: Brasil (2018a).
13
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
1.2 O processo de pesquisa
Como responder a uma pergunta cientificamente? De modo bem geral, podemos dizer que a essência
da ciência é a observação e que seu objetivo básico é a inferência.
A estatística pode ser dividida em três grandes partes: a estatística descritiva, que cuida da descrição
tabular e gráfica dos dados obtidos experimentalmente; probabilidade e estatística matemática, que
estudam a ocorrência dos eventos e das variáveis que os descrevem; e inferência estatística, dedicada
à estimação por intervalo e por região, bem como aos testes de hipóteses sobre parâmetros populacionais.
Cientistas usam o chamado método científico para testar suas teorias e hipóteses. A partir de uma
observação, uma pergunta é gerada; esse questionamento pode surgir a partir de uma trivialidade ou
pode ser baseado em registros preexistentes. Dessa observação inicial são geradas explicações ou teorias,
das quais podem ser criadas predições ou hipóteses. É nesse ponto que os dados se tornam importantes,
pois, para testar hipóteses, são necessários dados relevantes. Para coletar dados, são identificadas as
variáveis – características medidas pelos investigadores. Elas são chamadas variáveis por uma simples
razão: elas variam. Altura, massa corporal, frequência cardíaca e níveis plasmáticos de LDL colesterol são
exemplos de variáveis em uma pesquisa hipotética. Em qualquer grupo de pessoas haverá diferenças
nessas variáveis: indivíduos diferem quanto à altura e massa corporal, alguns possuem frequência
cardíaca de repouso mais baixa ou mais alta e nem todos possuem os mesmos níveis de LDL colesterol
no sangue. Os dados coletados são, então, analisados e essa análise poderá indicar se os resultados
obtidos apoiam a teoria proposta ou se será necessário modificar a explicação inicial.
Dados
Identificação
das variáveis Geração de hipóteses
Coleta de dados
para testar a teoria
Análise dos dados
Geração de uma teoria
Observação inicial
(pergunta de pesquisa)
Mensuração
das variáveis
Gráficos
Modelo
Figura 1 – O processo de pesquisa
De tal forma, os processos de coleta de dados, análise e geração de teorias estão intrinsicamente
ligados: teorias levam à coleta de dados/análises e essa coleta ajuda a formular teorias.
Imagine que o dono de um gato de estimação ficou intrigado ao observar que seu animalzinho estava
prestando atenção em um documentário sobre aves na televisão. Nesse instante surge uma pergunta:
14
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
será que gatos realmente prestam atenção na televisão? Nosso observador possui poucos dados para
responder a essa pergunta, afinal de contas, ele possui apenas um único gato, mas a proposição poderia
ser avaliada conduzindo o método científico.
A partir de sua pergunta de pesquisa, uma explicação racional – ou teoria – será proposta e posta à
prova. Felinos são predadores natos, inclusive os domesticados, e aves podem ser suas potenciais presas.
O olho humano é capaz de gerar percepção de fluidez com imagens em movimento a partir de 20 quadros
por segundo (ou fps, do inglês frames per second), enquanto olhos de outros animais, que evoluíram para
caçar, dependem de velocidades mais elevadas para que se gere percepção de continuidade (MILLER;
MURPHY, 1995; CAREY, 2018). Como os equipamentos mais modernos de televisão, em sua maioria,
atingem velocidades de 120 ou 240 fps – acima dos tradicionais 50-60 fps dos televisores tradicionais –,
é possível imaginar que os animais domésticos consigam observar televisores de alta resolução (HD).
A partir desta explicação, hipóteses podem ser propostas para avaliar se a teoria realmente é adequada.
Veremos, mais adiante, que um modelo bastante utilizado é o de proposição de duas hipóteses que se
anulam mutuamente (diga-se, por exemplo, “gatos prestam atenção na televisão” e “gatos não prestam
atenção na televisão”), logo, se uma hipótese tiver uma maior chance de estar correta, a outra, por sua
vez, não estará.
Com o levantamento das hipóteses será delineada a condução experimental, identificando-se quais
variáveis serão registradas no estudo. Imaginemos que um grupo grande de gatos será colocado, um de
cada vez, em um ambiente controlado (sala experimental), simulando uma sala de estar. Nesse ambiente,
após a adaptação do animal, câmaras registrarão seu movimento e, assim, poderemos quantificar quanto
tempo ele permaneceu atento, encarando o televisor em que passava um documentário sobre pássaros.
Após a coleta de dados e análise, conclusões poderão ser tomadas, apontando se os resultados obtidos
apoiam a teoria inicialmente proposta ou se será necessário modificar a explicação inicial.
Saiba mais
Para saber mais sobre a visão de animais e sua relação com as
televisões, leia:
CAREY, T. Why Britain’s cats and dogs have turned into couch
pawtatoes. Daily Mail, Dec. 2018. Disponível em: <https://www.
dailymail.co.uk/femail/article-6477343/New-HD-TVs-twice-powerful-
used-mean-pets-FINALLY-watch-telly.html>. Acesso em: 30 abr. 2019.
MILLER, P. E.; MURPHY, C. J. Vision in dogs. Journal of the American
Veterinary Medical Association, v. 207, n. 12, p. 1623-1634, Dec. 1995.
Proposições científicas devem ser construídas de forma a sempre poderem ser testadas, isto
é, a escolha das palavras é importante e devem sempre ser postas de forma clara e objetiva. Assim,
afirmativas do tipo “os Beatles são a melhor banda de todos os tempos” ou “a pizza de São Paulo é a
15
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
mais gostosa” não podem ser confirmadas experimentalmente; a melhor banda ou pizza mais gostosa
denotam subjetividade. Por outro lado, colocações como “a prática de exercício físico aeróbico aumenta
lipoproteínas de alta densidade ligadas ao colesterol” ou “relações sexuais aumentam os níveis de
dopamina” são proposições que podem ser testadas, assumindo-se disposição dos materiais e métodos
necessários para mensuração das variáveis.
Em alguns casos, com a reestruturação das palavras, é possível transformar uma proposição não
científica. Digamos que, ao imaginar que os Beatles sejam a melhor banda de todos os tempos, um
pesquisador desejava avaliar seu sucesso quanto ao número de discos vendidos ou quanto ao número de
semanas com sucessos emplacados nas principais rádios. Perceba que essas reestruturações transformam
a proposição inicial em algo objetivo, mensurável: “são os Beatles a bandaque mais vendeu discos?” ou
“são os Beatles a banda com mais semanas emplacando trilhas de sucesso nas rádios?”.
1.2.1 Variáveis
Para testar hipóteses, precisamos mensurar variáveis. Variáveis são elementos que podem mudar
ou variar, por exemplo, entre pessoas (altura, massa corporal), locais (taxa de analfabetismo, taxa de
desemprego) ou ainda ao longo do tempo (número de leucócitos, número de horas de sono). A maioria
das hipóteses pode ser expressa em termos de duas variáveis: pense em uma como causa e na outra como
consequência. Por exemplo, na afirmação “fumar causa câncer de pulmão”, fumar é a causa e câncer de
pulmão é a consequência. Ambas são variáveis: para a causa, poderíamos pensar em diferentes hábitos
(fumar cigarro, charuto, cachimbo, narguilé), e, como consequência, esses hábitos causarão diferentes
tipos de danos.
Uma variável que possa ser a causa é conhecida em estatística como variável independente, já
a variável que pensamos ser a consequência (ou efeito) é chamada de variável dependente. Muitas
perguntas científicas são formuladas a partir da seguinte construção: será que existe efeito da variável
independente sobre a variável dependente? Imaginemos uma pesquisa envolvendo pacientes
diabéticos que investigue o efeito do controle da glicemia plasmática sobre a função renal: o controle
da glicemia plasmática seria a variável independente (causa), enquanto a função renal, a variável
dependente (consequência).
Exemplo de aplicação
Exemplo 1
Se retomarmos o exemplo “são os Beatles a banda que mais vendeu discos?”, qual seria a variável
dependente e qual seria a variável independente?
Na pergunta anterior, o número de discos vendidos é uma causa ou consequência da banda? Observe
e pense de que forma a pergunta faria mais sentido: existe efeito da banda sobre o número de discos
vendidos ou existe efeito do número de discos vendidos sobre a banda?
16
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Resolução
A primeira proposição faz muito mais sentido do que a segunda, pois, variando o tipo de banda, seria
de se esperar, como consequência, variação no número de discos vendidos. Logo, banda é a variável
independente (causa), enquanto número de discos, a variável dependente (consequência).
Variáveis podem ser classificadas, ainda, como categóricas (qualitativas ou atributos) ou numéricas
(quantitativas). Uma variável categórica é dividida em categorias. Por exemplo, uma mulher pode estar grávida
ou não grávida. Não há meio termo, não existe meio grávida. Em uma mesma unidade de tempo, um indivíduo
não pode ser classificado, simultaneamente, em mais de uma categoria daquela variável. Se tomarmos a
classificação segundo a Organização Mundial da Saúde quanto ao Índice de Massa Corporal (IMC), observamos
que valores abaixo ou iguais a 18,4 são considerados abaixo do peso; entre 18,5 e 24,9, peso normal; entre
25,0 e 29,9, sobrepeso; e acima de 30, obesidade.
Logo, um indivíduo classificado como abaixo do peso não pode pontuar em duas categorias
simultaneamente, visto que os critérios de classificação são objetivos. Assim, as categorias de uma variável
qualitativa recebem nomes que as designam. Por exemplo, de acordo com as leis brasileiras, na variável
estado civil, observam-se as categorias solteiro(a), casado(a), separado(a), divorciado(a) e viúvo(a). Em
determinadas circunstâncias, números podem ser atribuídos como códigos (por exemplo, 1 = solteiro,
2 = casado e assim por diante), entretanto se ressalta que esses números são arbitrários e não deverão ser
entendidos de forma quantitativa (uma pessoa casada não vale o dobro de uma pessoa solteira, por lhe
ter sido atribuído o número 2). Dessa forma, essas variáveis categóricas são ditas nominais.
Quando categorias são ordenadas, a variável categórica é conhecida como ordinal. Dados ordinais
não dizem apenas a frequência de ocorrência de cada categoria, mas também dão importância para a
ordem do acontecimento. Ao final de um campeonato automobilístico, por exemplo, os pilotos foram
distribuídos em categorias conforme seu desempenho – primeiro, segundo e terceiro. Essas categorias
estão ordenadas. Sabemos que quem ficou em primeiro foi melhor do que quem ficou em segundo,
que, por sua vez, foi melhor do que quem ficou em terceiro. Não sabemos quão melhor quem ficou
em primeiro foi em relação ao segundo (quantos pontos, por exemplo). Comumente, em pesquisa
de opinião, deparamo-nos com perguntas cujas respostas são categorias de posicionamento do tipo
discordo fortemente, discordo parcialmente, neutro, concordo parcialmente, concordo fortemente.
Observe a gradação entre as categorias dessa variável ordinal.
Uma variável numérica descreve quantidade e, portanto, seus possíveis valores são descritos
por números. Elas podem ser classificadas em dois tipos: discretas, quando assumem um número
determinado de valores possíveis, como, por exemplo, quando descrevem situações que envolvem
contagens, e contínuas, quando a mensuração ocorre em escala que assume continuidade em
qualquer nível de precisão. A distinção entre variáveis numéricas discretas e contínuas pode ser confusa
em alguns momentos. Por exemplo, por vezes assumimos valores discretos para expressar variáveis
numéricas contínuas, como idade. Dificilmente alguém responde à pergunta “qual a sua idade?” com um
valor fracionado de anos (23,2 anos, por exemplo). Outras vezes, há tendência em tratar uma variável
numérica discreta como contínua. Imagine que, em certo estudo sobre medicina do sono, a seguinte
17
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
afirmativa se destaca: “a média de episódios de insônia por ano, em mulheres na faixa dos 30, aumentou
de 10,6 para 19,8”. Essa descrição assume que a variável é contínua, quando na verdade não é: ninguém
pode possuir 19,8 episódios de insônia em um ano, pode haver 19 ou 20, mas não um valor fracionado.
1.2.2 Escala de medição
As técnicas estatísticas são realizadas com dados coletados, ou seja, números. Ainda que os números
possam parecer todos iguais entre si, existem diferentes tipos, que variam na quantidade de informação
que eles contêm. Os estatísticos dividem os números em quatro escalas de medição: nominal, ordinal,
intervalar e de razão (ou proporcional). À medida que observamos hierarquicamente essas escalas, os
números se tornam mais complexos e contêm mais informação.
1
1
2
Nominal Ordinal Intervalar De razão
2
3 3
0
0
CHEGADA
Figura 2 – As quatro escalas de medição
A escala de medição nominal é a mais simples de todas, pois os indivíduos são simplesmente
distribuídos em categorias. Os números escolhidos para representar as categorias são arbitrários e não
fornecem informação quantitativa, portanto não podemos realizar operações aritméticas. Elementos
serão assinalados com os mesmos números caso compartilhem as mesmas qualidades. Por exemplo, os
participantes de um estudo poderiam ser classificados em brancos (1), pardos (2), negros (3), amarelos (4)
ou indígenas (5) quanto a sua cor ou raça, segundo as categorias de classificação do Instituto Brasileiro
de Geografia e Estatística (IBGE).
Se dois casos receberem números distintos, esses números refletem uma diferença no atributo que
está sendo medido. Se, além disso, eles indicarem a direção da diferença (qual caso tem mais de um
atributo ou qual caso tem menos daquele atributo), estaremos diante de outro tipo de escala de
medição, a ordinal – quando os dados têm propriedades nominais e podem ser usados para ordenar
as observações nessa variável. Por exemplo, tomemos os três maiores valores de casos confirmados de
dengue em 2017 na tabela 3, respectivamente para os estados de Goiás (1.820), Minas Gerais (140) e
Ceará (119). Observe que a diferença entre o primeiro e o segundo lugares é de 1.680 casos, já entre o
segundo e o terceiro lugares, 21 casos. Independentementeda magnitude da diferença entre o número
de casos confirmados de dengue, a diferença de posições entre Goiás e Minas Gerais é igual a 1; entre
Minas Gerais e Ceará também é igual a 1. Uma escala de medição ordinal não fornece informação acerca
de quão distantes esses postos estão. Também, aqui, não faz sentido qualquer operação aritmética.
18
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Em uma escala de medição intervalar, podemos dizer quando uma medida é igual ou diferente,
maior/menor e quão maior/menor do que outra. Uma escala intervalar permite dizer quão distantes
dois valores estão, porque existe igualdade entre as unidades de medição. Por exemplo, se pensarmos
em uma escala de temperatura como graus Celsius, a distância entre 30 °C e 35 °C é a mesma distância
que entre 100 °C e 105 °C. Entretanto, essa escala possui um zero arbitrário, que não significa ausência do
atributo sendo mensurado. Ao observar um termômetro marcando 0 °C, seria tolice afirmar que não há
temperatura naquele registro. Para essa escala, já podemos fazer operações aritméticas.
A escala de medição para uma variável é de razão quando os dados têm propriedades intervalares
e faz sentido dividir duas observações. Ou seja, dadas duas medidas nessa escala, podemos dizer se são
iguais ou se são diferentes, qual é maior/menor, quão e quantas vezes maior/menor do que a outra. A
diferença com a escala intervalar é que agora existe um zero absoluto. Altura, massa e velocidade são
exemplos de variáveis cujas escalas de medição são de razão.
Uma pergunta frequente é “como variáveis, como altura e massa, podem possuir valores de zero
absoluto?”. Ninguém nunca terá 0 cm de altura, tampouco 0 g de massa; logo, esses valores nunca
serão atribuídos a um elemento. Mas não é isso que um zero absoluto significa. Um ponto zero absoluto
representa que o zero daquela escala corresponde à ausência daquela característica.
Observação
Se o zero em uma escala de razão significa ausência do atributo em
questão, parece ser impossível haver números negativos nesse tipo de
escala. Entretanto é, sim, possível. Qualquer um que já tenha entrado em
cheque especial em sua conta bancária e tenha observado um balanço
negativo já experimentou este fenômeno.
O quadro a seguir apresenta um resumo das informações descritas até o momento.
Quadro 1 – Escala de medição: informação contida nos números
Escala de
medição Igual/diferente
Direção da diferença
(maior/menor)
Quantidade da
diferença
(quão maior/menor)
Proporção
(quantas vezes
maior/menor)
Nominal X
Ordinal X X
Intervalar X X X
De razão X X X X
Adaptada de: Corty (2016).
19
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
1.2.3 Erro
Uma coisa é mensurar uma variável, outra é medi-la com precisão. Em uma situação ideal, deseja-se
que as medições sejam calibradas de tal forma que os valores possuam o mesmo significado ao longo do
tempo e entre diferentes situações. Tomemos o exemplo da variável massa: espera-se que a massa de
1 kg de arroz seja a mesma independentemente de quem meça ou de onde estejamos medindo. Algumas
variáveis podem ser medidas diretamente (massa, altura, circunferência abdominal), mas em outros
casos são utilizadas medidas indiretas para registrar uma variável (escores obtidos em questionários ou
medições de analitos com base na absorbância em determinado comprimento de onda, por exemplo).
Quando se comparam resultados de diferentes autores, na literatura científica, para o registro de
uma mesma variável, por vezes são observados valores discrepantes. Explicações racionais para esses
acontecimentos podem estar em diferentes metodologias adotadas ou na calibragem adequada dos
equipamentos envolvidos.
Geralmente haverá alguma discrepância entre o valor real do que se mede e os números utilizados
para representar essa medição. Essa variação é conhecida como erro de medição. Imagine que,
em determinada suspensão de células, contendo exatamente 8,0x104 células/ml, quatro medições
independentes foram realizadas a partir da mesma suspensão, utilizando-se um hemocitômetro. Como
resultado de cada contagem, obtiveram-se os valores de 7,5x104, 7,0x104, 9,0x104 e 8,5x104 células/ml,
respectivamente. Se a suspensão possuía exatamente 8,0x104 células/ml, por que cada um dos registros
foi diferente do valor esperado? Justamente por conta do erro. Note que, se tirarmos a média aritmética
de todas as observações, será obtido o valor de 8,0x104 células/ml. Por essa razão, é comum, na ciência,
não se confiar em um único registro, sendo realizadas repetições para o registro de um mesmo indivíduo
em determinada variável.
Uma forma de assegurar que o erro de medição seja mínimo é determinar propriedades daquela
medição que nos dê confiança no registro. Uma dessas propriedades se chama validade, ou seja, a
certeza de que o instrumento que registra o valor para a variável em estudo realmente registre aquilo
que se pesquisa. Um sensor que registre a condutância da pele realmente registra a condutância da pele,
entretanto, se esse equipamento for utilizado para inferir outra coisa (por exemplo, uso da condutância
da pele para medir ansiedade), esse registro indireto somente será válido se não houver nenhum outro
fator, além do que estamos interessados em medir, que possa influenciá-lo.
A validade é condição importante de uma medida, entretanto não é a única necessária. Uma segunda
propriedade é a confiabilidade ou precisão, ou seja, a capacidade de obter os mesmos resultados dentro
das mesmas condições. Para ser válido, um instrumento precisa primeiro ser confiável.
A forma mais fácil de assegurar a confiabilidade é efetuar a medição mais de uma vez: um
instrumento confiável produzirá resultados consistentes (assumindo-se que a variável em questão não
se altere ao longo do tempo). Um glicosímetro portátil é um exemplo de equipamento importante no
automonitoramento da glicemia plasmática em pacientes diabéticos. É sabido que a glicemia plasmática
varia ao longo do dia; contudo, se repetíssemos a medição em um intervalo curto de tempo, esperaríamos
resultados precisos no registro da glicemia, com pouca variação entre uma medição e outra.
20
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
1.2.4 População e amostra
Suponha que uma empresa pretenda lançar um novo produto, e, para tal, uma pesquisa de mercado
será efetuada para avaliar a opinião de prováveis futuros consumidores. Seria necessário que todos os
habitantes daquela região consumissem o novo produto para concluir algo sobre sua aceitabilidade?
Sem grandes esforços, é possível deduzir que não, tampouco seria possível, em virtude dos custos e do
tempo envolvidos na abordagem de todos os habitantes.
População é o conjunto de todos os indivíduos ou elementos que compartilham um grupo de
características comuns. Note que, por sua própria natureza, a população é, em geral, intangível.
Ainda que os critérios da população sejam cuidadosamente definidos (por exemplo, digamos que o
produto se destine a mulheres adultas, com cabelos loiros, ondulados e de natureza potencialmente
oleosa) dificilmente um pesquisador terá a capacidade de recrutar todas as pessoas que atendam
às características estipuladas. Como consequência, pesquisas quase sempre são conduzidas com
subconjuntos da população alvo, conhecidos como amostras. Uma amostra sempre será menor do
que a população, não obstante ela ser representativa, pois é selecionada sob certas regras e, de modo
confiável, serve para estimar as informações necessárias ao pesquisador. Quando for possível estudar
todos os membros da população, estaremos diante de um censo.
População
Amostra
Figura 3 – Amostragem a partir de uma população
1.3 Termos estatísticos
Os dados de uma amostra ou população geralmente são reduzidos a um único valor (por exemplo,a
média aritmética), para resumir a informação de um conjunto de elementos. Esse número recebe nomes
diferentes, dependendo se ele é usado para caracterizar uma amostra ou uma população. Se o número
for uma característica da amostra, ele é chamado de estatística. Já se ele descrever uma característica
da população, ele é chamado de parâmetro.
A diferença entre estatística e parâmetro é importante, logo, diferentes abreviações indicam se
um valor se refere a uma amostra ou a uma população. Estatísticos usam, em geral, letras latinas
21
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
para simbolizar estatísticas e letras gregas para simbolizar parâmetros. Quando um pesquisador
calcula a média de uma amostra, estamos diante de uma estatística, simbolizada geralmente por
M ou X (lê-se “x-barra”). Para o parâmetro de média populacional, utiliza-se a letra grega µ (lê-se “mi”).
Este livro-texto procurará simplificar a descrição simbólica de estatísticas e parâmetros, portanto não se
preocupe em decorar, mas em compreender os elementos à medida que forem apresentados. Entretanto,
ao consultar fontes externas, é importante ter em mente a informação aqui apresentada.
Uma estatística descritiva é uma informação-resumo a partir de um conjunto de dados. Ela envolve
sua redução a algum valor significativo que descreva suas características. Se, em uma sala de aula, alguém
reportasse que 40% de sua turma é composta por homens, isso seria um exemplo de estatística descritiva.
Uma estatística inferencial utiliza uma amostra para extrapolar uma conclusão acerca de uma
população maior. Por exemplo, imagine que uma amostra de estudantes foi avaliada e, por meio da escala
de resiliência para adultos, obteve-se a média do escore. Uma afirmativa como “a média da escala de
resiliência para competências sociais foi de 6,08” seria um exemplo de estatística descritiva. Mas uma
afirmação construída de outra forma, como “estudantes de graduação possuem, em média, índice de
resiliência para competências sociais de 6,08”, seria uma estatística inferencial.
Os dados com os quais os estatísticos trabalham quase sempre são números. Quando nos referimos
à variável que os números representam, ela em geral é abreviada pela letra X. Se medirmos a idade de
um grupo de estudantes, poderíamos representar a variável como “X = idade”. Para informar o número
de elementos de uma população, geralmente se usa a letra maiúscula N; a letra minúscula n representa
o número de entidades da amostra.
Quando elementos são somados entre si, a letra grega maiúscula sigma (Σ) é usada como sinal de
somatório. Assim, em uma amostra com n = 5 indivíduos, cujas idades são X = {19, 20, 20, 23, 24}, X∑
significa que deveremos somar todos os valores de X: X 19 20 20 23 24 106∑ = + + + + = .
Seguir a ordem das operações em uma equação é importante para chegar ao resultado correto.
Lembre-se de que:
• a operação dentro de parênteses ou colchetes deve ser efetuada em primeiro lugar;
• em seguida lidamos com expoentes (números elevados a uma potência, como 22, ou radicais
como 9 );
• a próxima etapa é prosseguir com multiplicações ou divisões, na ordem em que aparecerem da
esquerda para a direita;
• finalmente, são efetuadas as adições e subtrações, novamente na ordem em que aparecerem da
esquerda para a direita.
Para não se esquecer, observe a ordem: parênteses, expoentes, multiplicação, divisão, adição e
subtração (que gera o acrônimo PEMDAS).
22
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Exemplo de aplicação
Exemplo 2
Observando o seguinte problema, prossiga com o cálculo:
( ) 27 3 3 2 5 4 3 9+ × ÷ + − × ×
Resolução
Primeiro devemos lidar com os parênteses:
( ) 27 3 3 2 5 4 3 9+ × ÷ + − × × =
210 3 2 5 4 3 9× ÷ + − × ×
Em seguida, os expoentes e radicais:
210 3 2 5 4 3 9× ÷ + − × × = 10 9 2 5 4 3 3× ÷ + − × ×
Prosseguindo com multiplicações e divisões:
10 9 2 5 4 3 3× ÷ + − × × = 45 5 36+ −
Finalmente, adição e subtração:
45 5 36 14+ − =
Observação
Fique atento quando houver somatórios ( )∑ nas operações. Eles devem ser
efetuados antes de outra adição ou subtração. No exemplo do somatório da
idade, anteriormente, se fosse solicitado X 1∑ + , deveríamos somar as idades
primeiro e em seguida adicionar 1 (ou seja, 106 + 1 = 107).
Com base nos valores de idade X = {19, 20, 20, 23, 24}, qual seria a diferença entre X 1∑ + e (X 1)∑ + ?
E entre 2X∑ e 2( X)∑ ? Estando atento à ordem das operações, é fácil perceber. Como vimos anteriormente,
X 1∑ + significa que à somatória dos valores será adicionada uma unidade (106 + 1 = 107), enquanto, em
(X 1)∑ + , deve-se adicionar uma unidade a cada valor de idade antes de efetuar o somatório:
23
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
( ) ( ) ( ) ( ) ( )(X 1) 19 1 20 1 20 1 23 1 24 1 20 21 21 24 25 111∑ + = + + + + + + + + + = + + + + =
Já em 2X∑ , deve-se elevar cada valor de idade ao quadrado antes de somá-los:
2 2 2 2 2 2X 19 20 20 23 24 361 400 400 529 576 2.266∑ = + + + + = + + + + =
Enquanto em 2( X)∑ , deve-se efetuar a somatória primeiro e então elevar o resultado ao quadrado:
2 2( X) 106 11.236∑ = =
Muitas vezes obteremos casas decimais em cálculos. O arredondamento facilita o trabalho com
números, removendo ou simplificando os dígitos à direita da vírgula. É importante ressaltar que um número
arredondado deverá refletir, da melhor maneira possível, o número não arredondado. Se alguém possui
1,83 m de altura e desejamos arredondar para apenas uma casa decimal, diríamos que esta pessoa está
mais próxima de 1,8 m do que de 1,9 m. Assim 1,8 m seria uma representação mais precisa do número
não arredondado 1,83 m.
Para facilitar cálculos e a exposição da resposta final, três regras de arredondamento são sugeridas:
• Regra número 1: as respostas finais deverão ser arredondadas para duas casas decimais.
• Regra número 2: os números não deverão ser arredondados até o resultado final, para não se
perder a precisão; entretanto, em cálculos manuais, muitas vezes é impraticável manter todas as
casas decimais. Portanto, arredonde valores intermediários para quatro casas decimais (que são
duas a mais do que a resposta final terá). Observe a seguinte situação:
123
789 ?
789
× =
O denominador (789) e o termo do produto (789) são iguais e, portanto, se cancelarão, de tal forma
que o resultado será 123. Se prosseguíssemos pelo cálculo ignorando a regra número 2, arredondando
o resultado da fração para duas casas decimais, o resultado final seria:
123
789 0,16 789 126,24
789
× = × =
Por outro lado, se o arredondamento do valor intermediário fosse feito para quatro casas decimais,
a resposta final seria muito mais próxima do valor real:
123
789 0,1559 789 123,01
789
× = × =
24
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
• Regra número 3: observe o valor do numeral à direita da segunda casa decimal; se estiver entre 0
e 4, arredonde para baixo; se estiver entre 5 e 9, arredonde para cima. Observe:
Considerando o número 1,234. Ele está mais próximo de 1,23 ou de 1,24? Uma vez que o valor da
terceira casa decimal é 4, é possível deduzir que ele está mais próximo de 1,23. Portanto o arredondamento
deverá ser feito para baixo: 1,234 1,23≅

. Agora, considere o número 1,2345, como ficaria seu
arredondamento para duas casas decimais? Note que o 5 (na quarta casa decimal) arredondaria o 4
(da terceira casa decimal) para cima, transformando-o em 5. Agora o 5 (na terceira casa decimal)
arredondaria o 3 para cima, transformando-o em 4. Logo: 1,2345 1,235 1,24≅ ≅
 
Observação
Por que as regras de arredondamento não são seguidas ao se reportar
o tamanho amostral (n)? O tamanho amostral é sempre um número
inteiro. Não é possível ter 10,42 casos em uma pesquisa,logo, o n é sempre
reportado sem casas decimais.
Lembrete
Regras de arredondamento: arredondar as respostas finais para duas
casas decimais; não arredondar até o final, mas, caso seja necessário,
trabalhe os valores intermediários com quatro casas decimais; observe os
valores à direita da segunda casa decimal para efetuar o arredondamento
de forma significativa (para cima ou para baixo).
2 AMOSTRAGEM
2.1 Técnicas de amostragem
Quanto à forma de escolha, a amostragem pode ser aleatória (probabilística) ou determinística (não
probabilística). Na amostragem aleatória, cada elemento da população-alvo tem uma probabilidade fixa
de ser incluído na amostra, enquanto na determinística não se utiliza seleção aleatória, transferindo-se
o critério de seleção para o julgamento pessoal do pesquisador, por exemplo.
Observação
Uma amostragem aleatória apresenta vantagens, pois além de possuir
critérios de seleção rigorosamente definidos, evita subjetividade; além disso,
há possibilidade de determinar o tamanho da amostra matematicamente.
25
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
A escolha da técnica de amostragem deve levar em conta vários parâmetros. Fávero e Belfiore (2017)
destacam, entre os principais, o objetivo da pesquisa, o erro aceitável nos resultados, a acessibilidade
aos elementos da população, a representatividade desejada, o tempo despendido e a disponibilidade de recursos
financeiros e humanos.
As amostras aleatórias apresentam condições ideais para o tratamento estatístico, o que nem sempre
é viável com amostras determinísticas. A figura a seguir apresenta as principais técnicas de amostragem
aleatória e determinística.
Técnicas de
amostragem
Aleatória
Simples
Sistemática
Estratificada
Por conglomerados
Determinística
Por conveniência
Por julgamento
Por quotas
Bola de neve
Figura 4 – Principais técnicas de amostragem
A amostragem aleatória simples é o método mais simples e mais importante para a seleção de uma
amostra. O planejamento e a seleção da amostra envolvem o sorteio aleatório de elementos provenientes
da população, repetido quantas vezes forem necessárias, até que o tamanho desejado da amostra seja
atendido. Quando um elemento sorteado for removido antes do próximo sorteio, estamos diante de
uma amostra aleatória simples sem reposição; caso seja permitido o sorteio de um mesmo elemento
mais de uma vez, estamos diante de uma amostra aleatória simples com reposição. Segundo Bolfarine
e Bussab (2005), do ponto de vista prático, a amostragem aleatória simples sem reposição é muito mais
interessante, pois satisfaz o princípio intuitivo de que não se ganha mais informação caso uma mesma
unidade apareça mais de uma vez na amostra.
Exemplo de aplicação
Exemplo 3
Deseja-se entrevistar, aleatoriamente, 5 clientes que frequentaram um laboratório clínico, sendo que,
na manhã daquele dia, 60 indivíduos foram cadastrados. Quantas amostras diferentes de 5 indivíduos
podem ser extraídas da população? Qual a probabilidade de que uma amostra seja selecionada?
26
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Resolução
Primeiramente, em um total de sessenta indivíduos, quantas amostras de cinco indivíduos
diferentes podemos obter? Neste tipo de amostragem, há
( )N,n
N N!
C
n n! N n !
 
= =  − 
possíveis amostras

de n elementos que podem ser extraídas a partir da população, bem como cada amostra tem a mesma
probabilidade, 1
N
n
 
 
 
, de ser selecionada.
Assim:
( ) ( )
60 60! 60.59.58.57.56.55! 60.59.58.57.56
5.461.512
5 5! 60 5 ! 5! 55 ! 5.4.3.2.1
 
= = = =  − 
amostras diferentes.
A probabilidade de que uma única amostra seja selecionada é de
1
5.461.512
(lê-se: uma em 5.461.512).
Exemplo 4
Considerando os mesmos dados do exemplo anterior, imaginemos que, ao ser entrevistado, um
indivíduo retorne ao banco de dados e possa ser sorteado novamente. Nesse caso, estamos diante de
uma amostragem aleatória simples com reposição. Quantas amostras de cinco indivíduos podem ser
extraídas da população? Qual a probabilidade de que uma amostra seja selecionada?
Resolução
Nesse tipo de amostragem, há Nn possíveis amostras de n elementos que podem ser extraídas a partir
da população, bem como cada amostra tem a mesma probabilidade,
n
1
N
, de ser selecionada.
Assim:
560 777.600.000 = amostras diferentes.
A probabilidade de que uma única amostra seja selecionada é de
777.60
1
0.000
(lê-se: uma em
777.600.000).
Exemplo 5
Um pesquisador dispõe de 12 ratos de mesma idade e massa corporal e deseja distribuí-los
aleatoriamente em três grupos experimentais com quatro elementos cada. Quantas amostras diferentes
de quatro indivíduos podem ser extraídas dessa população? Qual a probabilidade de que uma amostra
seja selecionada?
27
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
Conforme vimos anteriormente, em uma amostragem aleatória simples sem reposição há
( )N,n
N N!
C
n n! N n !
 
= =  − 
possíveis amostras de n elementos que podem ser extraídas a partir da
população, com cada amostra tendo a mesma probabilidade,
1
N
n
 
 
 
, de ser selecionada.
Assim:
( ) ( )
12 12! 12.11.10.9! 12.11.10
220
3 3! 12 3 ! 3! 9 ! 3.2.1
 
= = = =  − 
amostras diferentes.
A probabilidade de que uma única amostra seja selecionada é de
1
220
(lê-se: uma em 220).
Lembrete
A diferença entre uma amostragem aleatória simples com e sem
reposição está no fato de um elemento poder ou não ser sorteado mais de
uma vez na mesma amostra.
Quando os elementos da população estiverem ordenados e forem retirados periodicamente, teremos
uma amostragem sistemática. Como vantagens da amostragem sistemática em relação à amostragem
aleatória simples, podemos mencionar que é executada com mais rapidez e menos custos. A principal
desvantagem é a possibilidade de existirem ciclos de variação, especialmente se o período de ciclos
coincidir com o período de retirada dos elementos da amostra.
Exemplo de aplicação
Exemplo 6
Em uma fábrica de reagentes químicos, 500 frascos de 1 kg de NaCl, grau de pureza analítico,
foram produzidos na última hora. Um funcionário responsável pelo controle de qualidade necessita
retirar uma amostra com 20 elementos dessa população para avaliar se a massa dos frascos
está dentro dos valores aceitáveis de erro. Selecione 20 frascos com base no procedimento de
amostragem sistemática.
Primeiramente, deve-se selecionar o intervalo de amostragem (k), obtido pelo quociente entre o
tamanho da população e o tamanho da amostra. Em seguida, escolher um elemento a cada k-ésimo
elemento da lista de forma sucessiva, até atingir o tamanho da amostra (n).
28
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Resolução
O intervalo de amostragem (k) é:
N 500
k 25
n 20
= = =
O funcionário deverá retirar um a cada 25 frascos da linha de produção, até completar o total de
20 frascos em sua amostra. O primeiro elemento escolhido pode ser qualquer um entre o primeiro
e o vigésimo quinto. Supondo que o primeiro frasco selecionado tenha sido o décimo da linha de
produção, o segundo será o trigésimo quinto (10 + 25), o terceiro será o sexagésimo (10 + 50), e assim
sucessivamente, até o último elemento da amostra, que será aquele que ocupa a posição número 485
(10 + 19x25).
Exemplo 7
Um estudante deseja abordar de forma sistemática indivíduos que saem do hospital mais próximo
de sua residência, solicitando-lhes sua participação em uma pesquisa de opinião. Em um dia normal,
aproximadamente 400 indivíduos são atendidos nesse hospital e o estudante deseja obter uma amostra
contendo 50 participantes. Assumindo que o primeiro entrevistado foi a terceira pessoa que passou por
ele na saída do hospital,quais seriam os próximos indivíduos que deveriam ser abordados, assumindo
que todos cederiam entrevista?
Resolução
O intervalo de amostragem (k) é:
N 400
k 8
n 50
= = =
O estudante deverá abordar um a cada 8 sujeitos que passem por ele na saída do hospital, até
completar o total de 50 participantes em sua amostra. Como o primeiro entrevistado foi a terceira
pessoa que passou por ele, o segundo será o décimo primeiro (3 + 8), o terceiro será o décimo nono
(3 + 16) e assim sucessivamente, até o último elemento da amostra, que ocupará a posição número
395 (3 + 49x8).
3,1 1,1 9, 27, 35, 43, 51, 59, 67, 75, 83, 91, 99,1 07,1 15,1 23,1 31,1 39,1 47,
A 155,1 63,1 71,1 79,1 87,1 95, 203, 211, 219, 227, 235, 243, 251, 259, 267,
275, 283, 291, 299, 307, 315, 323, 331, 33
=
9, 347, 355, 363, 371, 379, 387, 395
 
 
 
 
 
29
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
Lembrete
A amostragem sistemática depende do primeiro elemento escolhido,
que pode ser um elemento qualquer entre 1 e k.
Se uma população heterogênea for estratificada ou dividida em subpopulações (estratos homogêneos)
e em cada estrato uma amostra for retirada, estaremos diante de uma estratégia de amostragem
estratificada. Assim, primeiramente, define-se o número de estratos e obtém-se o tamanho de cada
um deles.
Para cada estrato, especifica-se quantos elementos serão retirados da subpopulação, podendo ser
uma alocação uniforme ou proporcional. Costa Neto (2002) recomenda que a amostragem estratificada
uniforme pode ser empregada se os estratos forem aproximadamente do mesmo tamanho. Caso
contrário, o número de elementos selecionado em cada estrato deverá ser proporcional ao número de
elementos totais existente no estrato.
Exemplo de aplicação
Exemplo 8
Em uma empresa, os colaboradores (N = 2400) foram separados conforme a faixa etária, com
o objetivo de implantar atividades físicas, adequadas para cada faixa de idade, na academia da
companhia. Entretanto, deseja-se entrevistar os funcionários para ter ideia da taxa de adesão por
faixa de idade antes de implantar o novo programa. A quantidade de colaboradores para cada faixa
foi: de 18 a 25 anos, N1 = 400; de 26 a 36 anos, N2 = 550; de 37 a 50 anos, N3 = 680; de 51 a 65 anos,
N4 = 715; acima de 65 anos, N5 = 55. Deseja-se extrair uma amostra estratificada de 80 indivíduos.
Qual deve ser o tamanho da amostra extraída de cada estrato no caso de amostragem uniforme e de
amostragem proporcional?
Resolução
Uma população de tamanho N é dividida em k estratos de tamanhos N1, N2, ..., Nk. Para cada estrato,
uma amostra aleatória é selecionada, resultando em k subpopulações de tamanhos n1, n2, ..., nk.
Na amostragem estratificada uniforme, temos que
n1 = n2 = ... = nk
de modo que o tamanho da amostra extraída de cada estrato é
i
n
n
k
= , para i = 1, 2, ..., k
30
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Em que:
n = n1 + n2 + ... + nk
Como se deseja obter uma amostra de 80 indivíduos e temos 5 estratos:
i
n 80
n 16
k 5
= = =
Logo, para uma amostragem uniforme, deverão ser selecionados 16 indivíduos de cada estrato.
Já na amostragem estratificada proporcional, temos que:
1 2 k
1 2 k
n n n

N N N
= =…=
O tamanho da amostra extraída de cada estrato pode ser obtido de acordo com a seguinte expressão:
i
i
N
n .n
N
=
, para i = 1, 2, ..., k
Assim, temos que:
1
1
N 400
n .n .80 13,33 13
N 2400
= = = ≅
2
2
N 550
n .n .80 18,33 18
N 2400
= = = ≅
3
3
N 680
n .n .80 22,67 23
N 2400
= = = ≅
4
4
N 715
n .n .80 23,83 24
N 2400
= = = ≅
5
5
N 55
n .n .80 1,83 2
N 2400
= = = ≅
Note os arredondamentos realizados no último cálculo: os valores do tamanho amostral por estrato
foram aproximados para o número inteiro mais próximo (exemplo: 13,33 está mais próximo de
31
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
13 do que 14), para que a soma dos tamanhos amostrais dos estratos não ultrapassasse a proposição do
enunciado (13 + 18 + 23 + 24 + 2 = 80).
Exemplo 9
Deseja-se realizar uma pesquisa sobre qualidade do sono em profissionais da área da saúde. Para
isso, a população será dividida em categorias, conforme a profissão, e, para cada categoria, 15% da
população será entrevistada, ou seja, haverá respeito à proporção de cada profissão na população total.
Assumindo que haja acesso a 1.000 enfermeiros, 400 biomédicos, 300 farmacêuticos e 650 médicos,
qual será o tamanho da amostra estratificada extraída dessa população?
Resolução
Se 15% da população será entrevistada e haverá respeito à proporção de cada profissão na população
total, logo:
enfermeiros enfermeiros
15
n N .15% 1 000. 150
100
= = =
biomédicos biomédicos
15
n N .15% 400. 60
100
= = =
farmacêuticos farmacêuticos
15
n N .15% 300. 45
100
= = =
médicos médicos
15
n N .15% 650. 97,5 98
100
= = = ≅
n 150 60 45 98 353= + + + =
Assim, serão selecionados 150 enfermeiros, 60 biomédicos, 45 farmacêuticos e 98 médicos,
totalizando 353 profissionais da área da saúde. Independentemente da quantidade de profissionais em
cada categoria, mantém-se fixa a proporção de 15% dos indivíduos.
Se a população for subdividida em grupos e a amostragem for realizada a partir deles e não dos
indivíduos da população, estamos diante de uma amostragem por conglomerados (grupos). Dessa
forma, deve-se sortear aleatoriamente um número suficiente de grupos e seus objetos constituirão a
amostra. Dentro de cada conglomerado, podem-se selecionar todos os elementos ou apenas parte deles.
A amostragem por conglomerados é frequentemente utilizada, uma vez que muitas populações já
estão agrupadas em subgrupos naturais ou geográficos, e o baixo custo de sua aplicação, se comparado
a outras técnicas, representa uma vantagem considerável.
32
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Por exemplo, deseja-se estudar a renda da população da cidade de Curitiba e, para isso, ela foi
dividida em bairros. Do total de bairros, 10% deles foram selecionados aleatoriamente e, para cada
bairro, selecionou-se, de forma aleatória, 10% do total de moradores. Tem-se, portanto, um exemplo de
amostragem por conglomerados em dois estágios. No primeiro estágio são sorteados os conglomerados,
segundo algum plano amostral. De cada conglomerado são sorteados elementos no segundo estágio,
conforme o mesmo ou outro plano amostral especificado.
Exemplo de aplicação
Exemplo 10
Considere 25 abacaxis na banca de um feirante, dispostos em cinco fileiras de cinco frutos cada. Sete
clientes diferentes compraram todos os frutos, de tal forma que a população é dividida em 7 conglomerados:
C1 = {1, 2}, C2 = {3, 4}, C3 = {5, 6, 7}, C4 = {8, 9, 10, 11, 12}, C5 = {13, 14, 15, 16, 17, 18}, C6 = {19, 20, 21},
C7 = {22, 23, 24, 25}. Três clientes foram sorteados aleatoriamente para que a massa dos abacaxis fosse
avaliada. Supondo que foram sorteados os conglomerados C2, C5 e C7, determine o tamanho da amostra,
além dos elementos que constituirão a amostragem por conglomerados em um estágio.
Na amostragem por conglomerados em um estágio, todos os elementos de cada conglomerado
sorteado constituem a amostra global. Como n2 = 2, n5 = 6 e n7 = 4, logo n = 2 + 6 + 4 = 12.
Os elementos que constituirão a amostra global são:
{ } ( ) ( ) ( ){ }2 5 7A C , C , C 3, 4 , 13,1 4,1 5,1 6,1 7,1 8 , 22, 23, 24, 25= =
Na amostragem por conglomerados, a população é dividida em conglomerados de tamanhos não
necessariamente iguais.
Observação
Se os conglomerados são subdivisões geográficas, este tipo de amostragem
também é conhecido como amostragem por área (Freund, 2006).
Nos métodos de amostragem determinística (não probabilística), as amostras são obtidas de forma
não aleatória, ou seja, a probabilidade de cada elemento da populaçãofazer parte da amostra não é igual,
e, portanto, as amostras selecionadas não são igualmente prováveis. Assim, não é possível estimar o erro
amostral e nem generalizar os resultados da amostra para a população, já que esta não é representada.
Esse tipo de amostragem é muitas vezes empregado pela simplicidade ou impossibilidade de
obtermos amostras aleatórias, como desejável. Portanto, há de se ter cuidado ao optar pela utilização
desse tipo de amostragem, uma vez que ela é subjetiva.
33
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
A amostragem por conveniência pode ser aplicada quando a participação do sujeito é voluntária ou
os elementos da amostra são escolhidos por uma questão de simplicidade ou conveniência (por exemplo,
por vizinhos, amigos ou estudantes). A vantagem desse método é que ele permite obter informações de
maneira rápida e barata.
Como exemplo, imagine que um pesquisador deseja estudar o comportamento praticado por
representantes de vendas de produtos de laboratório, especialmente quanto ao preço de reagentes
empregados em biologia molecular. Para tanto, ele desenvolve sua amostragem por meio da coleta
de dados publicados em folhetins e catálogos disponíveis no próprio laboratório. Isso representa uma
amostragem por conveniência, uma vez que esses catálogos não apresentam os preços praticados
por todos os representantes de vendas que atendem aquela região, porém ofertam uma quantidade
significativa de dados e uma facilidade de coleta.
Podemos imaginar, também, um arquiteto que deseja estudar a impressão de consumidores
quanto à reforma do ambiente físico efetuada em determinado estabelecimento. A coleta de dados
é feita por meio de entrevistas com colegas de trabalho, vizinhos e amigos. Isto representa uma
amostragem por conveniência.
Observação
É importante ressaltar que a amostragem por conveniência não garante
que a amostra seja representativa da população, devendo ser empregada
em situações especiais que justifiquem a sua utilização.
Na amostragem por julgamento (ou intencional), a amostra é escolhida segundo a opinião
(julgamento prévio) de um especialista. Há risco na escolha dessa abordagem, pois pode haver possível
equívoco no prejulgamento. Como a amostragem é elaborada por meio da opinião de uma pessoa, não
deve ser considerada representativa da população e nem tampouco científica.
Como, por exemplo, uma pesquisa que busca identificar as razões que levariam deputados a votarem
a favor ou contra a reforma da previdência. Para isso, o pesquisador entrevista alguns jornalistas que
atuam na cobertura do meio político.
Podemos imaginar, também, uma pesquisa que visa identificar quais seriam os livros didáticos mais
relevantes na área de biologia molecular. Para tal, são entrevistados, em cinco universidades, diversos
alunos de mestrado e doutorado dessa área. Para selecionar os alunos, recorre-se a um professor,
especialista no assunto, vinculado a cada universidade.
Um dos métodos mais utilizados em pesquisas de mercado e de opinião eleitoral é a amostragem
por quotas. Essa amostragem apresenta mais rigor quando comparada às demais amostragens não
aleatórias. O método consiste em uma variação da amostragem por julgamento: inicialmente, as
variáveis de controle ou as características da população consideradas relevantes para o estudo são
selecionadas; em seguida, a proporção da população (%) para cada uma das categorias das variáveis
34
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
relevantes é determinada; por fim, são dimensionadas as quotas (número de elementos que possuem as
características determinadas), de modo que a amostra tenha proporções iguais à população.
Como principais vantagens, destacam-se o baixo custo, a rapidez e a conveniência (ou facilidade)
para o entrevistador em selecionar os elementos. Porém, ressalta-se que não há garantia de que a
amostra seja representativa da população, pois a seleção dos elementos não é aleatória.
Como exemplo, imagine que, em uma cidade pequena, uma lanchonete deseja lançar um novo sanduíche,
e seu público-alvo são jovens entre 13 e 25 anos, das classes sociais B e C. A população é dividida em categorias
de acordo com as variáveis de controle (idade e classe social). Uma amostra de 5% da população recebe um
cupom, garantindo-lhes, gratuitamente, o novo sanduíche na próxima visita ao estabelecimento.
Exemplo de aplicação
Exemplo 11
Deseja-se realizar uma pesquisa com alunos do primeiro semestre de uma universidade. A pesquisa
tem como objetivo identificar o grau de satisfação em diferentes parâmetros, por curso e sexo dos
participantes. A tabela a seguir apresenta as frequências absolutas para cada par de categorias das
variáveis analisadas. Aplique a amostragem por quotas, considerando que o tamanho da amostra deve
ser de 40 estudantes. Quantos alunos deverão ser selecionados em cada categoria?
Tabela 5 – Frequências absolutas para cada par de categorias
Curso Masculino Feminino Total
Biologia 10 20 30
Biomedicina 15 15 30
Enfermagem 40 70 110
Farmácia 20 10 30
Total 85 115 200
Ao observar o enunciado e a tabela anterior, identificamos que as variáveis relevantes são curso e
sexo. Com base nos totais da tabela, é possível calcular a proporção da população (%) para cada par de
categorias das variáveis analisadas. Os resultados estão descritos na tabela seguinte.
Tabela 6 – Proporção da população para cada par de categorias
Curso Masculino Feminino Total
Biologia 5,0% 10,0% 15%
Biomedicina 7,5% 7,5% 15%
Enfermagem 20,0% 35,0% 55%
Farmácia 10,0% 5,0% 15%
Total 42,5% 57,5% 100%
35
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
Multiplicando cada casela da tabela anterior pelo tamanho da amostra (40), obtemos o
dimensionamento das quotas que compõem a amostra global, conforme mostra a tabela seguinte.
Tabela 7 – Dimensionamento das quotas
Curso Masculino Feminino Total
Biologia 2 4 6
Biomedicina 3 3 6
Enfermagem 8 14 22
Farmácia 4 2 6
Total 17 23 40
Assim, observe que, para atender o objetivo proposto, para que se alcance uma amostra de
40 indivíduos, utilizando uma estratégia de amostragem por quotas, deverão ser selecionados 2 alunos,
do sexo masculino, e 4, do sexo feminino, para curso de biologia; 3, do sexo masculino, e 3, do sexo
feminino, para o curso de biomedicina; 8, do sexo masculino, e 14, do sexo feminino, para o curso de
enfermagem; 4, do sexo masculino, e 2, do sexo feminino, para o curso de farmácia.
A amostragem de propagação geométrica ou bola de neve (snowball) é bastante utilizada quando
os elementos da população são raros, de difícil acesso ou desconhecidos. Nesse método, identifica-se
um ou mais indivíduos da população-alvo – que identificam outras observações que pertencem à
mesma população. O processo é repetido até que seja alcançado o objetivo proposto ou quando
os últimos entrevistados não acrescentarem novas informações relevantes à pesquisa, repetindo
conteúdos de entrevistas anteriores.
Como vantagens, destacam-se: o aumento da possibilidade de localização da característica desejada
da população; baixo custo, pois necessita de menos planejamento e pessoas; além de ser eficiente ao
penetrar em populações de difícil acesso.
Como exemplo, pense em:
• uma escola de idiomas que pretende atrair novos alunos e, para cada aluno matriculado, oferece
um desconto na mensalidade se ele trouxer um novo aluno para a escola. O processo se repete até
que a escola consiga atingir um número mínimo de alunos matriculados.
• um pesquisador estudando albinismo, uma doença autossômica recessiva que afeta em torno
de 1 a cada 20.000 indivíduos, que decide recrutar voluntários para participarem da pesquisa.
O primeiro recrutado indica outro com o mesmo perfil. O processo se repete até que se obtenha o
número desejadode participantes.
36
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
3 DISTRIBUIÇÃO DE FREQUÊNCIA
3.1 Organização e apresentação de dados
Quando se estuda uma variável, o maior interesse do pesquisador é conhecer seu comportamento,
analisando a ocorrência de suas possíveis realizações. A organização e a apresentação de dados não
são independentes da classificação das variáveis em quantitativas ou qualitativas. Uma distribuição de
frequência é uma forma intuitiva de organizar e sumariar os resultados, para se ter uma ideia global
sobre eles.
Existem duas formas distintas de construir tabelas de distribuição de frequência: de forma não
agrupada ou agrupada. Uma tabela de distribuição de frequência para dados não agrupados apresenta a
contagem de quão frequente é cada valor de uma variável em um conjunto de dados. Em uma tabela de
distribuição de frequência para dados agrupados, a contagem se refere a valores de grupos ou intervalos
da variável.
Tabelas de distribuição de frequência para dados não agrupados geralmente são utilizadas quando
os valores que uma variável pode assumir são limitados. Por exemplo, se entrevistássemos pessoas e
perguntássemos quantas crianças existem em suas famílias, haveria um número limitado de respostas.
A maioria responderia que haveria uma, duas ou três crianças em sua família. Provavelmente quase
ninguém responderia dez ou mais crianças. Uma tabela de distribuição de frequência para dados não
agrupados envolvendo esses resultados seria compacta, ocupando poucas linhas em uma página, de
fácil visualização e interpretação.
Agora, se a pergunta fosse sobre quantos alunos havia na sala de aula do entrevistado no último ano
do ensino médio, provavelmente teríamos uma distribuição de frequência bem diferente. Poderíamos
obter como respostas valores que variariam de poucas unidades a quase uma centena (ou mais).
Se construíssemos uma tabela computando cada valor de resposta individualmente, teríamos muitas
linhas e possivelmente a tabela percorreria algumas páginas. Nesse caso, faria mais sentido agrupar
as respostas em intervalos (menos de 20 alunos, entre 21 e 40 alunos etc.), para tornar a apresentação
de dados mais compacta.
Tabelas de distribuição de frequência para dados agrupados devem ser construídas quando a
variável possuir um número muito grande de valores e for aceitável perder alguma informação ao
construir intervalos. Caso a variável possua um número grande de valores, mas seja importante
apresentar a frequência de cada um deles, então se deve optar por uma tabela de frequência para
dados não agrupados.
Imaginemos que 31 indivíduos responderam à pergunta “quantas crianças existem em sua família?”,
sendo que 9 entrevistados disseram haver apenas 1 criança; 14 disseram haver 2; 5 disseram haver 3;
2 responderam 4; e apenas 1 respondeu 6. Uma tabela de distribuição de frequência para dados não
agrupados envolvendo esses dados é apresentada na tabela a seguir.
37
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
Tabela 8 – Distribuição de frequência dos 31
entrevistados por número de crianças na família
Número de
crianças na família Frequência (ni)
1 9
2 14
3 5
4 2
5 0
6 1
Total 31
Na construção da tabela, observe os seguintes aspectos:
• Os valores de frequência observados estão dispostos ao lado da quantidade de crianças na família.
• Existe um título. Todas as tabelas necessitam de títulos que descrevam claramente a informação
presente nelas.
• As colunas possuem nomes.
• Uma linha reportando o total de indivíduos entrevistados foi introduzida para facilitar a
visualização no n amostral global.
• Embora não tenha havido nenhuma observação para cinco crianças na família, uma linha foi introduzida
com frequência zero, apenas para não haver quebra na apresentação do conjunto de dados.
A tabela a seguir traz algumas informações a mais. A primeira é a frequência acumulada de um valor,
ou seja, o número de vezes que uma variável assume um valor inferior ou igual a esse valor. Por exemplo,
há 23 pessoas que têm duas ou menos crianças nas suas famílias. As outras colunas trazem informações
referentes às frequências absoluta e acumulada, porém em termos relativos, expressos em porcentagem.
Tabela 9 – Distribuição de frequência e porcentagens
dos 31 entrevistados por número de crianças na família
Número de crianças
na família Frequência (n)
Frequência
acumulada Porcentagem (%)
Porcentagem
acumulada (%)
1 9 9 29,03 29,03
2 14 23 45,16 74,19
3 5 28 16,13 90,32
4 2 30 6,45 96,77
5 0 30 0,00 96,77
6 1 31 3,23 100,00
Total 31 - 100 -
38
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
Unidade I
Para transformar um valor em porcentagem, basta dividir a frequência pelo total de elementos do
conjunto e, em seguida, multiplicar por 100. Por exemplo, na terceira linha:
5
Porcentagem 100 0,1613 100 16,13%
31
= × = × =
Isso significa que 16,13% dos entrevistados possuem 3 crianças nas famílias. Já a porcentagem
acumulada de um valor reflete o percentual de elementos que assumem um valor inferior ou igual
àquele valor. Por exemplo, na segunda linha observamos que a frequência acumulada é 23, assim:
23
Porcentagem acumulada 100 0,7419 100 74,19%
31
= × = × =
Isso significa que 74,19% dos entrevistados possuem duas ou menos crianças nas suas famílias.
Lembrete
A distribuição de frequência para dados não agrupados funciona bem
em duas situações: quando a variável apresentar um número limitado
de valores possíveis; ou quando o interesse for documentar cada um dos
valores que a variável puder assumir.
Quando lidamos com uma variável que possui uma grande amplitude com muitas possibilidades
de respostas, uma distribuição de frequência para dados agrupados faz mais sentido, pois funcionam
bem quando houver uma ordem nos valores que a variável puder assumir, ou seja, se a escala for
ordinal, intervalar ou de razão. Dados nominais até podem ser agrupados se houver alguma lógica na
categorização. Imagine que um psicólogo coletou informações detalhadas sobre os diagnósticos de seus
pacientes – se possuíam depressão unipolar, distimia, transtorno bipolar, transtorno obsessivo-compulsivo,
fobias, transtorno de ansiedade generalizada, alcoolismo e vício em heroína. Essas respostas poderiam
ser agrupadas em categorias de transtornos de humor, transtornos de ansiedade e desordens de abuso
de substâncias.
Lembrete
Em uma escala nominal, somente podemos afirmar se uma medida é
diferente ou não de outra; ela é usada para categorizar indivíduos de uma
população. Um exemplo é pelo sexo.
Para variáveis que são medidas em escala ordinal, intervalar ou de razão, o primeiro passo é decidir
quantos intervalos serão incluídos em uma distribuição de frequência para dados agrupados. É preciso
haver equilíbrio entre a quantidade de detalhes apresentada e o número de intervalos. Uma recomendação é
39
Re
vi
sã
o:
B
ru
no
-
D
ia
gr
am
aç
ão
: M
ár
ci
o
-
10
/0
6/
20
19
BIOESTATÍSTICA APLICADA À BIOMEDICINA
não haver poucos intervalos, de forma que detalhes importantes do conjunto sejam perdidos; tampouco
muitos, de forma que a ideia geral se perca em detalhes. Não existe um número fixo de intervalos
sempre possíveis, mas uma regra prática (rule of thumb) habitualmente utilizada é de 7±2, ou seja, de
cinco a nove intervalos. Note que essa é uma regra prática – se for melhor usar menos de cinco ou mais
de nove intervalos para a comunicação da mensagem desejada, que assim seja.
Observação
Rule of thumb é uma expressão em inglês que designa um princípio ou
critério amplamente utilizado, derivado da experiência, embora carente de
fundamento científico e não necessariamente preciso.
Observe a tabela a seguir, que apresenta os casos com alterações no crescimento e desenvolvimento
possivelmente relacionadas à infecção