Buscar

o que é biostatistica

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

CAPÍTULO 1: Introdução 
PÁGINAS 2-4 
1.1 O QUE É BIOESTATÍSTICA? 
 
Bioestatística é definida como a aplicação de princípios de estatística nas áreas de medicina, 
saúde pública ou biologia. Os princípios da estatística são baseados na matemática aplicada e 
incluem ferramentas e técnicas para coletar informações ou dados e, posteriormente, resumir, 
analisar e interpretar esses resultados. Esses princípios se estendem para que sejam feitas 
inferências e tiradas conclusões de forma adequada, levando em consideração a incerteza. 
 
As técnicas de bioestatística podem ser utilizadas para abordar cada uma das questões 
mencionadas anteriormente. Geralmente, na bioestatística aplicada, o objetivo é fazer uma 
inferência sobre uma população específica. Por definição, essa população é o conjunto de todos 
os indivíduos sobre os quais gostaríamos de fazer uma afirmação. A população de interesse 
pode ser todos os adultos que vivem nos Estados Unidos ou todos os adultos que vivem na 
cidade de Boston. A definição da população depende da pergunta do estudo do pesquisador, 
que é o objetivo da análise. Suponha que a população de interesse seja todos os adultos que 
vivem nos Estados Unidos e queremos estimar a proporção de todos os adultos com doenças 
cardiovasculares. Para responder a essa pergunta na íntegra, teríamos que examinar todos os 
adultos nos Estados Unidos e avaliar se eles são portadores de doença cardiovascular. Seria 
uma tarefa impossível! Uma opção melhor e mais realista seria usar uma análise estatística para 
fazer uma estimativa da proporção desejada. 
 
Na bioestatística, estudamos amostras ou subconjuntos da população de interesse. Neste 
exemplo, selecionamos uma amostra de adultos que vivem nos Estados Unidos e avaliamos se 
cada um deles é portador de doença cardiovascular ou não. Se a amostra for representativa da 
população, a proporção de adultos com doença cardiovascular na amostra deve ser uma boa 
estimativa da proporção de adultos da população com doença cardiovascular. Na bioestatística, 
analisamos amostras e depois fazemos inferências sobre a população, com base nessa análise. 
Essa inferência é um grande salto, especialmente se a população for grande (por exemplo, a 
população dos Estados Unidos que é de 300 milhões) e a amostra for relativamente pequena 
(por exemplo, 5 mil pessoas). Quando ouvimos notícias ou lemos sobre estudos, muitas vezes 
pensamos em como os resultados podem ser aplicados a nós, pessoalmente. A grande maioria 
das pessoas nunca esteve envolvida em um estudo de pesquisa. Muitas vezes nos perguntamos 
se devemos acreditar nos resultados dos estudos de pesquisa quando nós, ou qualquer um que 
conhecemos, nunca participamos desses estudos. 
 
1.2 QUAIS SÃO OS PROBLEMAS? 
 
A condução e interpretação apropriadas das aplicações da bioestatística requerem atenção a 
uma série de questões importantes. Elas incluem, mas não se limitam às seguintes: 
 
 Definir claramente o objetivo ou a pergunta da pesquisa. 
 Escolher um projeto de estudo adequado (por exemplo, a forma como os dados serão 
coletados). 
 Selecionar uma amostra representativa e garantir que ela seja do tamanho adequado. 
 Coletar e analisar cuidadosamente os dados. 
 Produzir medidas ou estatísticas resumidas adequadas. 
 Gerar medidas de efeito ou associação adequadas. 
 Quantificar a incerteza. 
 Explicar adequadamente as relações entre as características. 
 Limitar as inferências à população apropriada. 
 
Neste livro, cada um dos pontos anteriores será abordado individualmente. Descrevemos como 
coletar e resumir dados e como fazer inferências adequadas. Para conseguir isso, usamos 
princípios da bioestatística fundamentados na matemática e na teoria da probabilidade. Um dos 
principais objetivos é entender e interpretar uma análise bioestatística. Agora, vamos retomar 
nossas perguntas originais e pensar em alguns dos problemas anteriormente identificados. 
 
Como a extensão da doença em um grupo ou região é quantificada? 
 
Idealmente, uma amostra de indivíduos é selecionada no grupo ou região de interesse. Essa 
amostra deve ter o tamanho suficiente para que os resultados da sua análise sejam 
adequadamente precisos. (Discutiremos técnicas para determinar o tamanho adequado da 
amostra para análise no Capítulo 8.) Em geral, é preferível uma amostra maior para análise. No 
entanto, não queremos tomar mostras com mais participantes do que os necessários, por 
questões financeiras e éticas. A amostra também deve ser representativa da população. Por 
exemplo, se 60% da população são mulheres, de modo ideal, gostaríamos que a amostra tivesse 
aproximadamente 60% de mulheres. Uma vez selecionada a amostra, cada participante é 
avaliado em relação ao status da doença. A proporção de participantes da amostra com a doença 
é calculada considerando a proporção do número de pessoas com a doença em relação ao 
tamanho total da amostra. Essa proporção é uma estimativa da proporção da população com a 
doença. Suponha que a proporção da amostra seja calculada como 0,17 (ou seja, 17% das 
pessoas da amostra têm a doença). Estimamos que a proporção da população com a doença é 
de aproximadamente 0,17 (ou 17%). Como essa é uma estimativa baseada em uma amostra, 
devemos justificar a incerteza que é refletida no que chamamos de margem de erro. Isso 
resultaria em uma estimativa da proporção da população com a doença em algum ponto entre 
0,13 e 0,21 (ou 13 a 21%). 
 
Esse estudo seria provavelmente realizado em um só período de tempo; costuma-se chamar 
este tipo de estudo de estudo transversal. Nossa estimativa da extensão da doença refere-se 
apenas ao período do estudo. Seria inadequado fazer inferências sobre a extensão da doença 
em momentos futuros com base nela. Se tivéssemos selecionado adultos que vivem em Boston 
como nossa população, também seria inadequado inferir que a extensão da doença em outras 
cidades ou em outras partes de Massachusetts seria a mesma que a observada em uma amostra 
de pessoas residentes em Boston. A tarefa de estimar a extensão de uma doença em uma região 
ou grupo parece simples à primeira vista. No entanto, existem muitas questões que complicam 
esse trabalho. Por exemplo, onde obtemos uma lista da população, como podemos decidir quem 
irá compor a amostra, como podemos garantir que grupos específicos estejam representados 
(por exemplo, mulheres) na amostra e como encontramos as pessoas que identificamos para a 
amostra e as convencemos a participar do estudo? Todas essas perguntas devem ser feitas 
corretamente para obtermos dados válidos e inferências corretas. 
 
Como é estimada a taxa de desenvolvimento de uma nova doença? 
 
Para estimar a taxa de desenvolvimento de uma nova doença, por exemplo, a doença 
cardiovascular, precisamos de uma estratégia de amostragem específica. Para esta análise, 
usaríamos uma amostra apenas de pessoas sem doença cardiovascular e as acompanharíamos 
ao longo do tempo (prospectivamente) para avaliar o desenvolvimento da doença. Uma questão 
principal nesses tipos de estudos é o período de acompanhamento. O pesquisador deve decidir 
se irá acompanhar os participantes por 1, 5 ou 10 anos, ou por algum outro período, para 
observar o desenvolvimento ou não da doença. Se for interessante estimar o desenvolvimento 
da doença ao longo de 10 anos, será preciso acompanhar cada participante da amostra por 10 
anos para determinar o status da doença de cada um. A proporção do número de novos casos 
da doença em relação ao tamanho total da amostra reflete a proporção ou a incidência cumulativa 
de novos casos da doença ao longo do período de acompanhamento predeterminado. Suponha 
que acompanhamos cada um dos participantes da nossa amostra por 5 anos e descobrimos que 
2,4% desenvolveram a doença. Novamente, de modo geral, é interessante fornecer uma faixa 
de valores plausívelpara a proporção de novos casos da doença. Isso é conseguido 
incorporando uma margem de erro que reflita a precisão da nossa estimativa. A incorporação da 
margem de erro pode resultar em uma estimativa da incidência cumulativa da doença entre 1,2 
e 3,6% ao longo de 5 anos. 
 
A epidemiologia é um campo de conhecimento focado no estudo da saúde e da doença em 
populações humanas, padrões de saúde ou de doença, e os fatores que influenciam esses 
padrões. O estudo descrito aqui é um exemplo de estudo epidemiológico. Os leitores 
interessados em aprender mais sobre epidemiologia devem consultar Magnus.6 
 
Como os fatores de risco ou as características que podem estar relacionados ao 
desenvolvimento ou à progressão da doença são identificados? 
 
Suponha que criamos a hipótese de que um determinado fator de risco ou exposição estejam 
relacionados ao desenvolvimento de uma doença. Há diversos projetos ou formas de estudo 
diferentes em que podemos coletar informações para avaliar o relacionamento entre um possível 
fator de risco e as primeiras manifestações de uma doença. O projeto de estudo mais apropriado 
depende, entre outras coisas, da distribuição do fator de risco e do resultado na população de 
interesse (por exemplo, quantos participantes estão suscetíveis a ter, ou não, um determinado 
fator de risco). (Discutimos diferentes projetos de estudo no Capítulo 2 e qual projeto é o melhor 
em uma situação específica). Independentemente do projeto específico empregado, tanto o fator 
de risco quanto o resultado devem ser medidos em cada integrante da amostra. Se estivermos 
interessados na relação entre o fator de risco e o desenvolvimento da doença, novamente 
recrutaríamos participantes sem a doença no início do estudo e acompanharíamos todos os 
participantes para observar o desenvolvimento, ou não, da doença. Para avaliar se existe uma 
relação entre um fator de risco e o resultado, estimamos a proporção (ou porcentagem) de 
participantes com o fator de risco que podem desenvolver a doença e comparamos com a 
proporção (ou porcentagem) de participantes que não têm o fator de risco e podem desenvolver 
a doença. Existem várias maneiras de fazer essa comparação; ela pode ser baseada em uma 
diferença em proporções ou em uma razão de proporções. (Os detalhes dessas comparações 
são amplamente discutidos no Capítulo 6 e no Capítulo 7.) 
 
Suponha que entre os participantes com o fator de risco, 12% desenvolvam a doença durante o 
período de acompanhamento e entre aqueles sem o fator de risco, 6% desenvolvam doença. A 
razão das proporções é chamada de risco relativo e aqui é igual á 0,12 / 0,06 = 2,0. A 
interpretação é que duas vezes mais pessoas com o fator de risco desenvolvem a doença em 
comparação com pessoas sem o fator de risco. O problema, então, é determinar se essa 
estimativa, observada em uma amostra de estudo, reflete um risco aumentado na população. 
Representar a incerteza pode resultar em uma estimativa do risco relativo de 1,1 a 3,2 vezes 
maior para pessoas com o fator de risco. Como a faixa contém valores de risco superiores a 1, 
os dados refletem um risco maior (porque o valor de 1 sugere que não há aumento de risco). 
Outro problema em avaliar a relação entre um fator de risco específico e o status da doença 
envolve entender relações complexas entre fatores de risco. Pessoas com o fator de risco podem 
ser diferentes de pessoas sem o fator de risco; por exemplo, podem ser mais velhas e mais 
propensas a ter outros fatores de risco. Existem métodos que podem ser usados para avaliar a 
associação entre o fator de risco e o status da doença, levando em consideração o impacto dos 
outros fatores de risco. Essas técnicas envolvem modelagem estatística. Discutimos como esses 
modelos são desenvolvidos e, mais importante, como os resultados são interpretados, no 
Capítulo 9. 
 
Como é determinada a eficácia de um novo medicamento? 
 
O projeto de estudo ideal do ponto de vista estatístico é o ensaio clínico aleatório. (O termo clínico 
significa que o estudo envolve pessoas.) Por exemplo, suponha que queiramos avaliar a eficácia 
de um novo medicamento destinado a reduzir o colesterol. A maioria dos ensaios clínicos 
envolvem critérios específicos de inclusão e exclusão. Por exemplo, podemos querer incluir 
apenas pessoas com níveis de colesterol total superiores a 200 ou 220, porque o novo 
medicamento provavelmente teria mais chance de apresentar efeito em pessoas com níveis 
elevados de colesterol. Podemos também excluir pessoas com antecedentes de doença 
cardiovascular. Uma vez determinados os critérios de inclusão e exclusão, recrutamos os 
participantes. Cada participante é designado aleatoriamente para receber o novo medicamento 
experimental ou um medicamento de controle. O componente de escolha aleatória é a 
característica fundamental desses estudos. A escolha aleatória teoricamente promove o 
equilíbrio entre os grupos de comparação. O medicamento de controle pode ser um placebo 
(uma substância inerte) ou um medicamento para reduzir o colesterol que é considerado o 
padrão atual de tratamento. 
 
A escolha do comparador adequado depende da natureza da doença. Por exemplo, no caso de 
uma doença que represente prejuízo à vida, seria antiético não oferecer o tratamento; logo, um 
comparador placebo nunca seria apropriado. Nesse exemplo, um placebo poderia ser apropriado 
se os níveis de colesterol dos participantes não fossem elevados o suficiente para que 
necessitassem de tratamento. Quando os participantes são inscritos e escolhidos aleatoriamente 
para receber o tratamento experimental ou o comparador, eles não são informados sobre qual 
tratamento receberão. Isso é chamado de estudo cego ou mascarado. Os participantes são 
instruídos sobre a dosagem adequada e, após um tempo predeterminado, os níveis de colesterol 
são medidos e comparados entre os grupos. (Novamente, há várias maneiras de fazer a 
comparação e discutiremos diferentes opções no Capítulo 6 e no Capítulo 7.) Como os 
participantes são distribuídos aleatoriamente nos grupos de tratamento, os grupos devem ser 
comparáveis em relação a todas as características, exceto no tratamento recebido. Se 
verificarmos que os níveis de colesterol estão diferentes entre os grupos, a diferença pode ser 
atribuída ao tratamento. 
 
Reforçando, devemos interpretar a diferença observada depois de considerar a casualidade ou 
a incerteza. Se observarmos uma grande diferença nos níveis de colesterol entre os participantes 
que receberam o medicamento experimental e o comparador, podemos inferir que o 
medicamento experimental é eficaz. No entanto, as inferências sobre o efeito do medicamento 
podem ser generalizadas apenas para a população à qual os participantes pertencem – 
especificamente para a população definida pelos critérios de inclusão e exclusão. Os ensaios 
clínicos devem ser cuidadosamente projetados e analisados. Existe uma série de questões que 
são específicas dos ensaios clínicos, discutimos isso em detalhes no Capítulo 2. 
 
Os ensaios clínicos são amplamente discutidos nos noticiários, especialmente os mais recentes. 
Eles são rigorosamente regulamentados nos Estados Unidos pela FDA (Food and Drug 
Administration).7 Relatórios recentes de notícias discutem estudos envolvendo medicamentos 
que receberam aprovação para indicações específicas e que, posteriormente, foram retirados do 
mercado por questões de segurança. Analisamos esses estudos e avaliamos como eles foram 
conduzidos e, mais importante, por que eles estão sendo reavaliados. Os ensaios clínicos 
aleatórios são considerados o padrão-ouro para a avaliação de medicamentos. Mesmo assim, 
eles podem gerar controvérsias. Estudos diferentes dos clínicos são menos recomendados e 
muitas vezes mais controversos. 
 
O que poderia explicar resultados contraditórios entre diferentes estudos da mesma 
doença? 
 
Todos os estudosestatísticos são baseados na análise de uma amostra da população de 
interesse. Às vezes, os estudos não são projetados adequadamente, por isso, seus resultados 
podem ser questionáveis. Às vezes, poucos participantes são arrolados, o que pode gerar 
resultados imprecisos. Há também casos em que os estudos são adequadamente projetados, no 
entanto, duas réplicas diferentes produzem resultados diferentes. Ao longo deste livro, vamos 
discutir como e quando isso pode ocorrer. 
 
1.3 RESUMO 
 
Neste livro, investigamos em detalhes cada uma das questões levantadas neste capítulo. 
Entender os princípios da bioestatística é fundamental para a educação em saúde pública. Nossa 
abordagem será feita por meio de aprendizagem ativa: os exemplos são tirados do Framingham 
Heart Study (O estudo de Framingham ) e de ensaios clínicos, e são utilizados em todo o livro 
para ilustrar conceitos. São discutidas aplicações exemplificadas envolvendo fatores de risco 
importantes como pressão arterial, colesterol, tabagismo e diabetes e suas relações com 
doenças cardiovasculares e cerebrovasculares incidentes. Exemplos com relativamente poucos 
indivíduos ajudam a ilustrar cálculos e, ao mesmo tempo, reduzem o tempo real de computação, 
um foco especial é o domínio de cálculos "manuais". Todas as técnicas são aplicadas aos dados 
reais do estudo de Framingham e de ensaios clínicos. Em cada tópico, discutimos metodologia 
– incluindo suposições, fórmulas estatísticas e a interpretação adequada dos resultados. As 
fórmulas são resumidas ao final de cada capítulo. Foram selecionados exemplos para 
representar problemas importantes e oportunos de saúde pública. 
 
 
CAPÍTULO 4: Resumo dos dados coletados na amostra 
PÁGINAS 35-41 
 
Objetivos de aprendizagem 
Até o final deste capítulo, o leitor estará apto a: 
 Distinguir entre variáveis dicotômicas, ordinais, categóricas e contínuas. 
 Identificar resumos numéricos e gráficos adequados para cada tipo de variável. 
 Calcular a média, a mediana, o desvio padrão, quartis e intervalo de uma variável 
contínua. 
 Criar uma tabela de distribuição de frequência para variáveis dicotômicas, categóricas e 
ordinais. 
 Fornecer um exemplo de quando a média é uma melhor medida de localização do que a 
mediana. 
 Interpretar o desvio padrão de uma variável contínua. 
 Gerar e interpretar um diagrama de caixa para uma variável contínua. 
 Produzir e interpretar diagramas de caixa lado a lado. 
 Diferenciar um histograma de um gráfico de barras. 
 
 
Quando e por quê 
 
Perguntas importantes 
 Qual é a melhor maneira de usar argumentos para ação usando dados? 
 Os pesquisadores estão sendo fraudulentos ou apenas confusos quando relatam 
diferenças relativas em vez de diferenças absolutas? 
 Como podemos ter certeza de que estamos comparando estatísticas compatíveis (maçãs 
com maçãs) quando tentamos sintetizar dados de várias fontes? 
 
No noticiário 
 
Estatísticas resumidas sobre indicadores importantes em diferentes grupos e ao longo do tempo 
podem gerar afirmações poderosas. Tabelas ou exibições gráficas simples de médias, contagens 
ou taxas podem chamar a atenção para um problema que seria ignorado. Alguns exemplos de 
problemas atuais e algumas estatísticas importantes são descritas a seguir. 
 
No ano de 2014, mais de 21 milhões de americanos com 12 anos de idade ou mais tinham um 
distúrbio de uso de substâncias. Cerca de 2 milhões desses distúrbios envolviam a prescrição 
de analgésicos e mais de meio milhão envolviam heroína.1 
 
O National Institute on Drug Abuse relata um aumento de 2,8 vezes de mortes por overdose de 
medicamentos prescritos nos Estados Unidos de 2001 a 2014, um aumento de 3,4 vezes de 
mortes por analgésicos opioides e um aumento de 6 vezes de mortes por heroína no mesmo 
período.2 
 
Explore mais a fundo 
 
 Como você resumiria a extensão do uso de medicamentos prescritos em sua 
comunidade? 
 O que você mediria e como? Quais são os desafios na coleta desses dados? 
 Se você comparasse a extensão do uso de medicamentos prescritos em sua comunidade 
com a de outra comunidade, como poderia garantir que os dados são comparáveis? 
 
Antes de serem realizadas análises bioestatísticas, devemos definir, explicitamente, a população 
de interesse. A composição da população depende da pergunta de pesquisa do pesquisador. É 
importante definir explicitamente a população, pois as inferências baseadas na amostra do 
estudo serão generalizáveis apenas para a população especificada. A população é o conjunto 
de todos os indivíduos sobre os quais queremos fazer generalizações. Por exemplo, se 
desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os adultos de 30 a 
75 anos de idade que vivem nos Estados Unidos, todos os adultos dessa faixa etária que vivem 
nos Estados Unidos no período especificado do estudo compõem a população de interesse. Se 
desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os adultos de 30 a 
75 anos de idade que vivem no estado de Massachusetts, todos os adultos dessa faixa etária 
que vivem em Massachusetts no período especificado do estudo compõem a população de 
interesse. Se desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os 
adultos de 30 a 75 anos de idade que vivem na cidade de Boston, todos os adultos dessa faixa 
etária que vivem em Boston no período especificado do estudo compõem a população de 
interesse. 
 
Na maioria das aplicações, a população é tão grande que é impraticável estudá-la toda. Em vez 
disso, selecionamos uma amostra (um subconjunto) da população e fazemos inferências sobre 
a população com base nos resultados de uma análise da amostra. A amostra é um subconjunto 
de indivíduos da população. Idealmente, os indivíduos são selecionados aleatoriamente na 
população para a amostra. (Discutimos em detalhes esse procedimento e outros conceitos 
relacionados à amostragem no Capítulo 5.) 
 
Há uma série de técnicas que podem ser usadas para selecionar uma amostra. 
Independentemente das técnicas específicas utilizadas, a amostra deve ser representativa da 
população (ou seja, as características dos indivíduos da amostra devem ser semelhantes às 
características dos indivíduos da população). Por definição, o número de indivíduos na amostra 
é menor do que o número de indivíduos na população. Existem fórmulas para determinar o 
número adequado de indivíduos a serem incluídos na amostra que depende da característica 
que está sendo medida (por exemplo, exposição, fator de risco e resultado) e o nível desejado 
de precisão na estimativa. Apresentamos detalhes sobre cálculos de tamanho da amostra no 
Capítulo 8. 
 
Uma vez selecionada a amostra, a característica de interesse deve ser resumida na amostra 
usando as técnicas adequadas. Esta é a primeira etapa de uma análise. Depois que a amostra 
é adequadamente resumida, procedimentos de inferência estatística são utilizados para gerar 
inferências sobre a população com base na amostra. Discutimos os procedimentos de inferência 
estatística nos Capítulos 6, 7, 9, 10 e 11. 
 
Neste capítulo, apresentamos técnicas para resumir os dados coletados em uma amostra. Os 
resumos numéricos e as exibições gráficas adequadas dependem do tipo de característica 
estudada. As características – às vezes chamadas variáveis – são classificadas em um dos 
seguintes tipos: dicotômicas, ordinais, categóricas ou contínuas. 
 
As variáveis dicotômicas têm apenas duas respostas possíveis. As opções de resposta são 
geralmente codificadas como "sim" ou "não". A exposição a um fator de risco específico (por 
exemplo, fumar) é um exemplo de uma variável dicotômica. O status da doença prevalente é 
outro exemplo de uma variável dicotômica, de maneira que cada indivíduo de uma amostra é 
classificado como tendo ou não a doença deinteresse em um ponto no tempo. 
 
As variáveis ordinais e categóricas têm mais de duas respostas possíveis, mas as opções de 
resposta são ordenadas e não ordenadas, respectivamente. A gravidade dos sintomas é um 
exemplo de uma variável ordinal com as possíveis respostas de mínima, moderada e grave. O 
National Heart, Lung, and Blood Institute (NHLBI) (Instituto Nacional do Coração, Sangue e 
Pulmão) emite orientações para classificar a pressão arterial como normal, pré-hipertensão, 
hipertensão estágio I ou hipertensão estágio II.1 O esquema de classificação é mostrado na 
Tabela 4-1 e se baseia em níveis específicos de pressão arterial sistólica (PAS) e pressão arterial 
diastólica (PAD). Os participantes são classificados na categoria mais alta, conforme definido 
pela sua PAS e PAD. A categoria de pressão arterial é uma variável ordinal. 
 
 
 
 
As variáveis categóricas, às vezes chamadas de variáveis nominais, são semelhantes às 
variáveis ordinais, exceto pelo fato de que suas respostas são não ordenadas. Raça/etnia é um 
exemplo de variável categórica. Em geral, ela é medida usando as seguintes opções de resposta: 
branco, negro, hispânico, índio americano ou nativo do Alasca, Ásia ou Ilhas do Pacífico, ou 
outro. Outro exemplo de uma variável categórica é o tipo sanguíneo, com as opções de resposta 
A, B, AB e O. 
 
As variáveis contínuas, às vezes chamadas de variáveis quantitativas ou de medição, em teoria 
assumem um número ilimitado de respostas entre valores mínimos e máximos definidos. A 
TABELA 4‑ 1 Categorias de pressão arterial 
 
Normal 
 
Pré-hipertensão 
 
Hipertensão estágio I 
 
Hipertensão estágio II 
Classificação da pressão arterial PAS e/ou PAD 
pressão arterial sistólica, a pressão arterial diastólica, o nível de colesterol total, a contagem de 
células CD4, a contagem de plaquetas, a idade, o peso e a altura são exemplos de variáveis 
contínuas. Por exemplo, a pressão arterial sistólica é medida em milímetros de mercúrio (mmHg), 
um indivíduo em um estudo pode ter uma pressão arterial sistólica de 120, 120,2 ou 120,23, 
dependendo da precisão do instrumento utilizado para medir a pressão arterial sistólica. No 
Capítulo 11, apresentamos técnicas estatísticas para uma variável contínua específica que mede 
o tempo para um evento de interesse, por exemplo, tempo para o desenvolvimento de doenças 
cardíacas, câncer ou morte. 
 
Quase todas as medidas numéricas resumidas dependem do tipo específico de variável sendo 
considerada. Uma exceção é o tamanho da amostra, que é uma medida de resumo importante 
para qualquer tipo de variável (dicotômica, ordinal, categórica ou contínua). O tamanho da 
amostra, indicado como n, reflete o número de unidades independentes ou distintas 
(participantes) da amostra. Por exemplo, se um estudo for conduzido para avaliar o colesterol 
total em uma população e uma amostra aleatória de 100 indivíduos for selecionada para 
participar, então, n = 100 (supondo que todos os indivíduos selecionados concordam em 
participar). Em algumas aplicações, a unidade de análise não é um participante individual, mas 
pode ser uma amostra de sangue ou espécime. 
 
Suponha que no estudo de exemplo cada um dos 100 participantes forneça amostras de sangue 
para o teste de colesterol em três momentos diferentes (por exemplo, no início do estudo, 6 e 12 
meses depois). A unidade de análise poderia ser a amostra de sangue, nesse caso, o tamanho 
da amostra seria n = 300. É importante notar que essas 300 amostras de sangue não são 300 
observações independentes ou não relacionadas, pois várias amostras de sangue são retiradas 
de cada participante. As várias medições realizadas no mesmo indivíduo são chamadas de 
dados de medidas agrupadas ou repetidas. Os métodos estatísticos que explicam o agrupamento 
das medidas realizadas no mesmo indivíduo devem ser usados na análise das 300 medidas de 
colesterol total realizadas nos participantes ao longo do tempo. Os detalhes dessas técnicas 
podem ser encontrados em Sullivan.2 O tamanho da amostra na maioria das análises discutidas 
neste livro refere-se ao número de indivíduos que participam do estudo. Nos próximos exemplos, 
indicamos o tamanho da amostra. É sempre importante informar o tamanho da amostra ao 
resumir os dados, pois isso dá ao leitor uma noção da precisão da análise. A noção de precisão 
é discutida em detalhes nos capítulos seguintes. 
 
As medidas numéricas resumidas calculadas nas amostras são chamadas de estatísticas. As 
medidas resumidas calculadas sobre as populações são chamadas de parâmetros. O tamanho 
da amostra é um exemplo de uma estatística importante que sempre deve ser informada ao 
resumir os dados. Nas seções a seguir, apresentamos exemplos de estatísticas e exibições 
gráficas para cada tipo de variável. 
 
4.1 VARIÁVEIS DICOTÔMICAS 
 
As variáveis dicotômicas assumem uma de apenas duas respostas possíveis. O sexo é um 
exemplo de uma variável dicotômica, com as opções de resposta "masculino" ou "feminino", 
assim como é o status atual de tabagismo e diabetes, com as opções de resposta "sim" ou "não". 
 
4.1.1 Estatística descritiva para variáveis dicotômicas 
 
As variáveis dicotômicas são frequentemente usadas para classificar os participantes como 
possuidores ou não de uma característica específica, tendo ou não um atributo específico. Por 
exemplo, em um estudo de fatores de risco cardiovascular, podemos coletar informações sobre 
se os participantes são diabéticos ou não, fumantes ou não, se estão ou não em tratamento de 
hipertensão arterial ou colesterol alto. As opções de resposta para cada uma dessas variáveis 
são "sim" ou "não". 
 
Ao analisar variáveis dicotômicas, as respostas são frequentemente classificadas como bem-
sucedida ou falha, sendo que a bem-sucedida denota a resposta de interesse. A resposta bem-
sucedida não é necessariamente uma resposta positiva ou que denota saúde, mas sim a 
resposta de interesse. Na verdade, em muitas aplicações médicas, o foco frequentemente está 
na resposta que demonstra o problema ou "em risco". 
 
Exemplo 4.1. O sétimo exame dos descendentes (offspring) do Framingham Heart Study foi 
realizado entre 1998 e 2001. Um total de n = 3.539 participantes (1.625 homens e 1.914 
mulheres) participaram do sétimo exame e passaram por um extenso exame físico. Uma série 
de variáveis foi avaliada nessa análise, incluindo características demográficas, como sexo, nível 
de instrução, renda e estado civil; características clínicas, como altura, peso, pressão arterial 
sistólica e diastólica e colesterol total; além de características comportamentais, como fumar e 
se exercitar. 
 
As variáveis dicotômicas costumam ser resumidas em tabelas de distribuição de frequência. A 
Tabela 4-2 exibe uma tabela de distribuição de frequência para a variável sexo, medida no sétimo 
exame do Framingham Offspring Study. A primeira coluna da tabela de distribuição de frequência 
indica as opções de resposta específicas da variável dicotômica (neste exemplo, masculino e 
feminino). A segunda coluna contém as frequências (contagens ou números) de indivíduos em 
cada categoria de resposta (números de homens e mulheres, respectivamente). A terceira coluna 
contém as frequências relativas, que são calculadas dividindo a frequência em cada categoria 
de resposta pelo tamanho da amostra (por exemplo, 1.625 / 3.539 = 0,459). As frequências 
relativas são frequentemente expressas como porcentagens, sendo multiplicadas por 100, e são 
mais utilizadas para resumir variáveis dicotômicas. Nesta amostra, por exemplo, 45,9% são 
homens e 54,1% são mulheres. 
 
 
 
Outro exemplo de tabela de distribuição de frequência é apresentado na Tabela 4-3, mostrando 
a distribuição do tratamento com medicação anti-hipertensiva para pessoas que participaram do 
TABELA 4‑ 2 Tabela de distribuição de frequência para sexoMasculino 
 
Feminino 
 
Total 
 
Frequência Frequência relativa (%) 
1625 
 
1914 
 
3539 
 
45,9 
 
54,1 
 
100,0 
 
sétimo exame do Framingham Offspring Study. Observe que existem apenas n = 3.532 respostas 
válidas, embora o tamanho da amostra seja n = 3.539. Faltam dados para sete indivíduos nesta 
questão específica. Essa falta de dados ocorre nos estudos por uma série de razões Quando 
faltam poucos dados (por exemplo, menos de 5%) e não existe um padrão aparente para essa 
falta (por exemplo, não há razão sistemática para os dados faltantes), as análises estatísticas 
com base nos dados disponíveis são geralmente adequadas. No entanto, se a falta for excessiva 
ou se houver um padrão para a falta, é preciso ter cuidado ao realizar as análises estatísticas. 
As técnicas para lidar com a falta de dados vão além do escopo deste livro, mais detalhes podem 
ser encontrados em Little and Rubin.3 Na Tabela 4‑ 3, podemos ver que 34,5% dos participantes 
estão recebendo tratamento para hipertensão. 
 
 
 
Às vezes, é interessante comparar dois ou mais grupos com base em uma variável de resultado 
dicotômica. Por exemplo, suponha que desejamos comparar a extensão do tratamento com 
medicação anti-hipertensiva em homens e mulheres. A Tabela 4‑ 4 resume o tratamento com 
medicação anti-hipertensiva em homens e mulheres que participaram do sétimo exame do 
Framingham Offspring Study. A primeira coluna da tabela indica o sexo do participante. O sexo 
é uma variável dicotômica que, neste exemplo, é usada para distinguir os grupos a serem 
comparados (homens e mulheres). A variável de resultado também é uma variável dicotômica e 
representa o tratamento com medicação anti-hipertensiva ou não. No total, n = 611 homens e n 
= 608 mulheres estão em tratamento anti-hipertensivo. Como há números diferentes de homens 
e mulheres (1.622 contra 1.910) na amostra do estudo, a comparação das frequências (611 
contra 608) não é a mais adequada. As frequências indicam que um número praticamente igual 
de homens e mulheres estão em tratamento. Uma comparação mais adequada é a baseada em 
frequências relativas, 37,7% contra 31,8%, que incorporam os diferentes números de homens e 
mulheres na amostra. Observe que a soma da coluna mais à direita não é 100%, como foi nos 
exemplos anteriores. Neste exemplo, a linha inferior contém dados sobre a amostra total e 34,5% 
de todos os participantes estão sendo tratados com medicação anti-hipertensiva. No Capítulo 6 
e no Capítulo 7, discutiremos métodos formais de comparação das frequências relativas entre 
os grupos. 
 
 
TABELA 4‑ 3 Tabela de distribuição de frequência para 
tratamento com medicação anti-hipertensiva 
 
Nenhum tratamento 
 
Com tratamento 
 
Total 
 
Frequência Frequência relativa (%) 
2313 
 
1219 
 
3532 
 
65,5 
 
34,5 
 
100,0 
 
 
 
 
4.1.2 Gráficos de barras para variáveis dicotômicas 
 
Exibições gráficas são bastante úteis para resumir dados. Existem muitas opções de exibições 
gráficas e muitos programas de software amplamente disponíveis oferecem uma variedade de 
exibições. Entretanto, é importante escolher a exibição gráfica que apresenta, com exatidão, as 
informações da amostra. Discutimos a visualização de dados em detalhes no Capítulo 12. A 
exibição gráfica adequada depende do tipo de variável que está sendo analisada. Variáveis 
dicotômicas são melhor resumidas usando gráficos de barras. As opções de resposta (sim/não, 
presente/ausente) são mostradas no eixo horizontal, e as frequências ou frequências relativas 
são plotadas no eixo vertical, produzindo um gráfico de barras de frequência ou um gráfico de 
barras de frequência relativa, respectivamente. 
 
A Figura 4‑ 1 é um gráfico de barras de frequência que mostra a distribuição dos homens e das 
mulheres que compareceram ao sétimo exame do Framingham Offspring Study. O eixo 
horizontal mostra as duas opções de resposta (masculino e feminino), e o eixo vertical mostra as 
frequências (os números de homens e mulheres que compareceram ao sétimo exame). 
 
TABELA 4‑ 4 Tratamento com medicação anti-hipertensiva em 
homens e mulheres que participaram do sétimo exame do 
Framingham Offspring Study 
 
Frequência 
relativa (%) 
611 
 
608 
 
1219 
 
37,7 
 
31,8 
 
100,0 
 
Frequência n 
1622 
 
1910 
 
3532 
 
Masculino 
 
Feminino 
 
Total 
 
 
 
A Figura 4–2 é um gráfico de barras de frequência relativa da distribuição do tratamento com 
medicação anti-hipertensiva medida no sétimo exame do Framingham Offspring Study. Observe 
que o eixo vertical na Figura 4–2 mostra as frequências relativas e não as frequências, como era 
o caso na Figura 4–1. Na Figura 4–2, não é necessário mostrar as duas respostas, já que as 
frequências relativas, expressas em percentuais, totalizam 100%. Se 65,5% da amostra não 
estão sendo tratados, então, 34,5% devem estar em tratamento. Esses tipos de gráficos de 
barras são muito úteis para comparar frequências relativas entre grupos. 
 
F
R
E
Q
U
Ê
N
C
IA
 
Masculino Feminino 
Sexo 
FIGURA 4‑ 1 Gráfico de barras de frequência de distribuição 
por sexo 
 
Observe que há um espaço entre as duas opções de resposta (masculino e 
feminino). Isso é importante para variáveis dicotômicas e categóricas. 
 
 
 
A Figura 4–3 é um gráfico de barras de frequência relativa que descreve o tratamento com 
medicamento anti-hipertensivo em homens em relação a mulheres que compareceram ao sétimo 
exame do Framingham Offspring Study. Observe que o eixo vertical mostra frequências relativas 
e, neste exemplo, 37,7% dos homens estavam usando medicamentos anti-hipertensivos em 
comparação a 31,8% das mulheres. A Figura 4–4 é uma demonstração alternativa dos mesmos 
dados. Observe o aumento do eixo vertical. Como as frequências relativas se comparam 
visualmente? Por fim, considere uma terceira exibição dos mesmos dados, mostrada na Figura 
4–5. Como as frequências relativas se comparam? 
 
Não Sim 
Tratamento com anti-hipertensivos 
F
re
q
u
ê
n
c
ia
 r
e
la
ti
v
a
 %
 
FIGURA 4–2 Gráfico de barras de frequência relativa da distribuição 
do tratamento com a medicação anti-hipertensiva 
 
 
 
 
 
 
%
 u
s
a
n
d
o
 m
e
d
ic
a
ç
ã
o
 a
n
ti
-h
ip
e
rt
e
n
s
iv
a
 
FIGURA 4–3 Gráfico de barras de frequência relativa da distribuição 
do tratamento com a medicação anti-hipertensiva por sexo 
 
Masculino Feminino 
Sexo 
Masculino Feminino 
Sexo 
%
 u
s
a
n
d
o
 m
e
d
ic
a
ç
ã
o
 a
n
ti
-h
ip
e
rt
e
n
s
iv
a
 
FIGURA 4‑ 4 Gráfico de barras de frequência relativa da distribuição 
do tratamento com a medicação anti-hipertensiva por sexo 
 
 
 
Os eixos de qualquer exibição gráfica devem ser dimensionados para acomodar a faixa dos 
dados. Enquanto as frequências relativas podem, em teoria, ir de 0% a 100%, não é necessário 
sempre dimensionar os eixos de 0% a 100%. Também é potencialmente ilusório restringir o 
dimensionamento do eixo vertical, como foi feito na Figura 4–3, para exagerar a diferença no uso 
de medicação anti-hipertensiva entre homens e mulheres, pelo menos de um ponto de vista 
visual. Nesse exemplo, as frequências relativas são 31,8% e 37,7%, assim, subir de 0% para 
40% é adequado para acomodar os dados. É sempre importante identificar os eixos claramente, 
para que os leitores possam interpretar os dados adequadamente. 
 
PÁGINAS 44-46 
A Tabela 4–10 é uma tabela de distribuição de frequência para uma variável categórica 
dicotômica. Variáveis dicotômicas são um caso especial de variáveis categóricas com 
exatamente duas opções de resposta. A Tabela 4–10 mostra a distribuiçãoda mão dominante 
de participantes que compareceram ao sétimo exame do Framingham Offspring Study. As 
opções de resposta são "direita" ou "esquerda". Há n = 3.513 respostas válidas para a avaliação 
da mão dominante. Um total de 26 participantes não forneceu dados sobre a mão dominante. A 
maioria da amostra de Framingham é destra (89,5%). A Tabela 4–11 é uma tabela de distribuição 
de frequência para uma variável categórica que reflete a posição do tabagismo. A posição do 
tabagismo aqui é medida como não fumante, ex-fumante ou fumante atualmente. Há n = 3.536 
respostas válidas para as perguntas sobre a condição do tabagismo. Três participantes não 
forneceram dados adequados a serem classificados. Quase metade da amostra é de ex-
fumantes (48,8%), mais de um terço (37,6%) nunca fumou e aproximadamente 14% são 
fumantes atualmente. Os efeitos do tabagismo adversos à saúde foram um grande foco das 
mensagens de saúde pública em anos recentes, e o percentual de participantes que se declaram 
fumantes atualmente deve ser interpretado com relação ao período do estudo. A Tabela 4–12 
mostra as proporções dos participantes que se declaram fumantes atualmente no momento de 
Masculino Feminino 
Sexo 
%
 u
s
a
n
d
o
 m
e
d
ic
a
ç
ã
o
 a
n
ti
-h
ip
e
rt
e
n
s
iv
a
 
FIGURA 4‑ 5 Gráfico de barras de frequência relativa da distribuição 
do tratamento com a medicação anti-hipertensiva por sexo 
 
cada exame do Framingham offspring. As datas de cada exame também são fornecidas. 
 
 
 
 
 
TABELA 4‑ 10 Tabela de distribuição de frequência para mão 
dominante 
 
 
Direita 
 
Esquerda 
 
Total 
 
Frequência 
relativa (%) 
3143 
 
370 
 
3513 
 
89,5 
 
10,5 
 
100,0 
 
 
Frequência 
TABELA 4‑ 11 Tabela de distribuição de frequência para 
condição do tabagismo 
 
 
Não fumante 
 
Ex-fumante 
 
Atuais 
 
Total 
 
Frequência 
relativa (%) 
1330 
 
1724 
 
482 
 
3536 
 
 
Frequência 
37,6 
 
48,8 
 
13,6 
 
100,0 
 
 
 
Nas próximas duas seções, apresentamos exibições gráficas para variáveis ordinais e 
categóricas, respectivamente. Enquanto os resumos numéricos para variáveis ordinais e 
categóricas são idênticos (pelo menos em termos das frequências e frequências relativas), as 
exibições gráficas para variáveis ordinais e categóricas são diferentes, em um modo muito 
importante. 
 
4.2.2 Histogramas para variáveis ordinais 
 
Os histogramas são exibições gráficas apropriadas para variáveis ordinais. Um histograma difere 
de um gráfico de barras em uma característica importante. O eixo horizontal de um histograma 
mostra as opções de resposta ordenadas distintas da variável ordinal. O eixo vertical pode 
mostrar frequências ou frequências relativas, produzindo um histograma de frequência ou um 
histograma de frequência relativa, respectivamente. As barras são centradas sobre cada opção 
de resposta e dimensionadas de acordo com as frequências ou frequências relativas, conforme 
desejado. A diferença entre um histograma e um gráfico de barras é que as barras em um 
histograma ficam juntas, não há espaço entre respostas adjacentes. Isso reforça a ideia de que 
as categorias de resposta são ordenadas e baseadas em uma sequência contínua subjacente. 
Esta sequência contínua subjacente pode ou não ser mensurável. 
 
A Figura 4-6 é um histograma de frequência para os dados de pressão arterial exibidos na Tabela 
4-5. O eixo horizontal exibe as categorias de pressão arterial ordenada e o eixo vertical exibe as 
frequências ou números de participantes classificados em cada categoria. O histograma 
transmite imediatamente a mensagem de que a maioria dos participantes está nas duas 
categorias inferiores (mais saudáveis) da distribuição. Um pequeno número de participantes está 
TABELA 4‑ 12 Fumantes atualmente no Framingham Offspring 
Study por data exame 
 
 
1 
 
2 
 
3 
 
4 
 
5 
 
6 
 
7 
 
Fumantes 
(%) 
 
Datas 
 
Ciclo de exame 
De agosto de 1971 a 
setembro de 1975 
De outubro de 1979 a 
outubro de 1983 
De dezembro de 1983 a 
setembro de 1987 
De abril de 1987 a setembro 
de 1991 
De janeiro de 1991 a junho 
de 1995 
De janeiro de 1995 a 
setembro de 1998 
De setembro de 1998 a 
outubro de 2001 
59,7 
 
28,5 
 
23,9 
 
21,7 
 
17,4 
 
13,8 
 
13,6 
 
na categoria de hipertensão estágio II. O histograma na Figura 4-7 é um histograma de frequência 
relativa para os mesmos dados. Observe que o valor é o mesmo, exceto para o eixo vertical, que 
é dimensionado para acomodar frequências relativas em vez de frequências. 
 
 
 
 
Normal 
Pressão arterial alta 
F
R
E
Q
U
Ê
N
C
IA
 
Pré-
hipertensão 
Hipertensão 
estágio I 
Hipertensão 
estágio II 
Normal 
Pressão arterial alta 
F
re
q
u
ê
n
c
ia
 r
e
la
ti
v
a
 %
 
Pré-
hipertensão 
Hipertensão 
estágio I 
Hipertensão 
estágio II 
FIGURA 4‑ 6 Histograma de frequência para categorias de pressão arterial 
 
FIGURA 4‑ 7 Histograma de frequência relativa para categorias de pressão arterial 
 
Normalmente, os histogramas de frequência relativa são preferíveis em relação aos histogramas 
de frequência, pois as frequências relativas são mais adequadas para resumir os dados. Na 
Figura 4-7, podemos ver que aproximadamente 34% dos participantes têm pressão arterial 
normal, 41% têm pré-hipertensão, pouco menos de 20% apresentam hipertensão no estágio I e 
6% apresentam hipertensão no estágio II. 
 
A Figura 4-8 é um histograma de frequência relativa para a variável de colesterol total resumida 
na Tabela 4-7. As barras do histograma ficam juntas para refletir o fato de que existe uma 
sequência contínua subjacente de medidas de colesterol total. Na Figura 4-8, vemos que mais 
de 50% dos participantes têm níveis desejáveis de colesterol total e pouco menos de 15% têm 
níveis de colesterol total alto. O eixo horizontal pode ser dimensionado de forma diferente. A 
Figura 4-9 cria a sequência contínua do colesterol total subjacente às categorias usadas aqui 
para resumir os dados mais óbvios. Outra alternativa é marcar os pontos de transição. Na Figura 
4-9, o eixo horizontal pode ser rotulado com 200 e 240 nos pontos de interseção das barras 
adjacentes. 
 
 
 
 
Desejável 
Colesterol total 
F
re
q
u
ê
n
c
ia
 r
e
la
ti
v
a
 %
 
Limítrofe Alto 
FIGURA 4–8 Histograma de frequência relativa para categorias de colesterol total 
 
 
 
 
A Figura 4-10 é um histograma de frequência relativa para os dados de IMC resumidos na Tabela 
4-8. As categorias de IMC ordenadas são mostradas no texto ao longo do eixo horizontal e as 
frequências relativas, como porcentagens, são exibidas ao longo do eixo vertical. Na Figura 4-
10, fica evidente que uma pequena porcentagem dos participantes está abaixo do peso e que a 
maioria dos participantes está com sobrepeso ou obesidade, com o sobrepeso mais provável do 
que a obesidade. O eixo horizontal da Figura 4-10 pode ser dimensionado de forma diferente 
para mostrar os valores numéricos de IMC que definem as categorias ordinais ou com rótulos 
para indicar os valores de IMC que separam as barras adjacentes (por exemplo, 18,5, 25, 30). 
 
 
Colesterol total 
F
re
q
u
ê
n
c
ia
 r
e
la
ti
v
a
 %
 
FIGURA 4–9 Histograma de frequência relativa para categorias de colesterol total 
 
PÁGINAS 50-67 
4.3 VARIÁVEIS DICOTÔMICAS 
 
As variáveis contínuas, às vezes chamadas de variáveis de medição ou quantitativas, assumem 
um número ilimitado de respostas distintas entre um valor mínimo e máximo teóricos. Em um 
estudo de fatores de risco cardiovascular,podemos medir as idades, alturas, pesos, pressão 
arterial sistólica e diastólica dos participantes, níveis séricos de colesterol total, etc. Os valores 
medidos para cada uma dessas variáveis contínuas dependem da escala de medição. Por 
exemplo, em estudos com adultos, como o Framingham Heart Study, a idade geralmente é 
medida em anos. Estudos com crianças podem medir a idade em dias ou mesmo em horas, o 
que for mais apropriado. As alturas podem ser medidas em polegadas ou centímetros, os pesos 
podem ser medidos em libras ou em quilogramas. Supondo que o peso seja medido em libras, 
as medições podem estar na libra mais próxima, o décimo ou o centésimo de libra mais próximo 
(por exemplo, 145, 145,1, 145,13), dependendo da precisão da escala. 
 
4.3.1 Estatística descritiva para variáveis contínuas 
 
Para ilustrar os cálculos de estatística descritiva em detalhes, selecionamos um pequeno 
subconjunto dos dados do Framingham Heart Study. Depois de realizar cálculos manuais sobre 
o subconjunto pequeno, fornecemos estatísticas descritivas para a amostra completa que foi 
gerada pelo computador. 
 
Exemplo 4.3. No sétimo exame dos descendentes do Framingham Heart Study (n = 3.539), várias 
variáveis contínuas foram medidas, incluindo pressão arterial sistólica e diastólica, colesterol 
sérico total, altura e peso. Usando as alturas e pesos medidos de cada participante, podemos 
calcular seu IMC. Neste estudo, a altura é medida em polegadas e o peso em libras. A seguinte 
fórmula é usada para calcular o IMC usando estas métricas: 
 
IMC = 703,03 x 
Peso em Kg 
(Altura em centímetros)2 
 
Para ilustrar o cálculo de estatística descritiva para variáveis contínuas, selecionamos 
aleatoriamente um subconjunto de 10 participantes que compareceram ao sétimo exame do 
Framingham Offspring Study. Os valores dos dados são mostrados na Tabela 4-13. A primeira 
coluna contém um número de identificação exclusivo para cada participante, da segunda até a 
sexta coluna, as medidas reais dos participantes e a coluna mais à direita contém o IMC 
calculado usando a fórmula mostrada. Agora, a estatística descritiva de cada variável contínua é 
calculada. As fórmulas para os cálculos são apresentadas em exemplos e resumidas no final 
deste capítulo. 
 
 
 
 
A primeira estatística resumida para uma variável contínua (bem como para variáveis 
dicotômicas, categóricas e ordinais) é o tamanho da amostra. O tamanho da amostra aqui é 
n = 10. É sempre importante informar o tamanho da amostra para expressar a dimensão do 
estudo. Estudos maiores geralmente são vistos de forma mais favorável, pois tamanhos de 
amostra maiores geralmente produzem resultados mais precisos. No entanto, há um ponto em 
que aumentar o tamanho da amostra não aumenta materialmente a precisão da análise. (Os 
cálculos de tamanho de amostra são discutidos em detalhes no Capítulo 8.) 
 
Como a amostra é pequena (n = 10), é relativamente fácil resumir a amostra inspecionando os 
valores observados. Suponha que consideramos primeiro as pressões arteriais diastólicas. Para 
facilitar a interpretação, ordenamos as pressões arteriais diastólicas em ordem crescente: 
 
62 63 64 67 70 
72 76 77 81 81 
 
As pressões arteriais diastólicas inferiores a 80 são consideradas normais (consulte a 
Tabela 4-1); assim, podemos resumir que os participantes desta amostra, de modo geral, 
apresentam pressões diastólicas normais. Existem dois participantes com pressão arterial 
diastólica de 81, mas dificilmente excedem o limite superior da classificação "normal". As 
pressões arteriais diastólicas nesta amostra não são todas idênticas (com exceção dos dois 
valores medidos de 81), mas são relativamente semelhantes. Em geral, do ponto de vista clínico, 
os participantes desta amostra podem ser descritos como tendo pressões arteriais diastólicas 
saudáveis. 
 
Para amostras maiores, como o sétimo exame do Framingham Offspring Study com n = 3.539, 
é impossível inspecionar valores individuais para gerar um resumo, portanto, as estatísticas 
resumidas são necessárias. Um resumo útil de uma variável contínua apresenta dois aspectos 
gerais. O primeiro é uma descrição do centro ou da média dos dados (ou seja, o que é um valor 
típico) e o segundo aborda a variabilidade dos dados. 
 
Usando a pressão arterial diastólica, agora ilustramos o cálculo de várias estatísticas que 
TABELA 4‑ 13 Subamostra de n = 10 participantes que compareceram ao 
sétimo exame do Framingham Offspring Study. 
 
 IMC 
24,4 
 
26,4 
 
24,9 
 
25,5 
 
22,8 
 
29,6 
 
31,9 
 
28,8 
 
31,5 
 
26,8 
 
 
63,00 
 
69,75 
 
65,75 
 
70,00 
 
70,50 
 
70,00 
 
72,00 
 
60,75 
 
69,00 
 
61,00 
 
Altura(in.) Peso (lbs) 
Colesterol total 
do soro 
Pressão arterial 
diastólica 
Pressão 
arterial sistólica 
ID do 
participante 
descrevem o valor médio e a variabilidade dos dados. Na bioestatística, o termo "média" é um 
termo muito geral. Existem várias estatísticas que descrevem o valor médio de uma variável 
contínua. O primeiro provavelmente é o mais familiar – a média da amostra. A média da amostra 
é calculada pela soma de todos os valores e da divisão pelo tamanho da amostra. A média da 
amostra das pressões arteriais diastólicas é calculada da seguinte forma: 
 
Média da amostra = 
62+63+64+67+70+72+76+77+81+81 
10 
 
= 
713 
= 71,3 
 10 
 
Para simplificar as fórmulas para as estatísticas da amostra (e para os parâmetros da população), 
geralmente indicamos a variável de interesse como X. O X é simplesmente um espaço reservado 
para a variável a ser analisada. Aqui, X = pressão arterial diastólica. A média da amostra é 
indicada por X̅ (lê-se "X barra") e a fórmula da amostra é: 
 
X̅ = 
ΣX
𝑛
 
 
Onde Σ indica soma (ou seja, a soma das pressões arteriais diastólicas nesta amostra). A 
pressão arterial diastólica média é X̅ = 71,3. 
 
 
Ao relatar estatísticas resumidas de uma variável contínua, a convenção é relatar mais uma casa 
decimal além do número de casas decimais medidas. Aqui, as pressões arteriais sistólica e 
diastólica, colesterol sérico total e peso são arredondados para o número inteiro mais próximo, 
portanto, as estatísticas resumidas são informadas na casa decimal mais próxima. A altura é 
medida até o quarto de polegada mais próximo (centésimos); portanto, as estatísticas resumidas 
são relatadas na casa de milésimo mais próxima. O IMC é calculado até o décimo mais próximo, 
de modo que as estatísticas resumidas são relatadas na casa centesimal mais próxima. 
 
A média da amostra é uma medida da pressão arterial diastólica média. Uma segunda medida 
do valor médio é a mediana da amostra. A mediana da amostra é o valor do meio do conjunto de 
dados ordenados, ou o valor que separa os 50% superiores dos valores 50% inferiores. Quando 
há um número ímpar de observações na amostra, a mediana é o valor que tem a mesma 
quantidade de valores acima e abaixo no conjunto de dados ordenados. Quando há um número 
par de observações na amostra, a mediana é definida como a média dos dois valores do meio 
no conjunto de dados ordenados. Na amostra de n = 10 pressões arteriais diastólicas, os dois 
valores médios são 70 e 72 e, portanto, a mediana é (70 + 72)/2 = 71. Metade das pressões 
arteriais diastólicas estão acima de 71 e metade estão abaixo. 
 
A média e a mediana fornecem informações diferentes sobre o valor médio de uma variável 
contínua. Suponha que a amostra de 10 pressões diastólicas fosse a seguinte: 
 
62 63 64 67 70 
72 76 77 81 140 
 
A média dessa amostra é X̅ = 772/10 = 77,2. Isso não representa um valor típico, pois a maioria 
das pressões arteriais diastólicas nesta amostra estão abaixo de 77,2. O valor extremo de 140 
está afetando o cálculo da média. Para essa mesmaamostra, a mediana é 71. A mediana não é 
afetada por valores extremos ou atípicos. Por essa razão, a mediana é preferida em relação à 
média quando houver valores extremos (valores muito pequenos ou muito grandes em relação 
aos demais). Quando não houver valores extremos, a média é a medida preferida de um valor 
típico, em parte porque cada observação é considerada no cálculo da média. Quando não houver 
valores extremos, a média e a mediana da amostra terão um valor próximo. 
 
A Tabela 4-14 exibe as médias e as medianas da amostra para cada uma das medidas contínuas 
na amostra de n = 10. Para cada variável contínua medida nesta subamostra de participantes, 
as médias e as medianas não são idênticas, mas são de valor relativamente próximo, sugerindo 
que a média é o resumo mais apropriado de um valor típico para cada uma dessas variáveis. (Se 
a média e a mediana forem muito diferentes, isso sugere que existem valores atípicos que afetam 
a média.) 
 
 
 
 
Uma terceira medida de um valor típico de uma variável contínua é a moda. A moda é definida 
como o valor mais frequente. A moda da pressão arterial diastólica é 81, a moda dos níveis de 
colesterol total é 227 e a moda das alturas é 70, pois esses valores aparecem duas vezes, 
enquanto os outros valores só aparecem uma vez. Para cada uma das outras variáveis 
contínuas, existem 10 valores distintos e, portanto, não existe nenhuma moda (porque nenhum 
valor aparece com mais frequência do que qualquer outro). Suponha que as pressões arteriais 
diastólicas fossem: 
 
62 63 64 64 70 
72 76 77 81 81 
TABELA 4‑ 14 Médias e medianas de variáveis na subamostra 
de tamanho n = 10 
 
Pressão arterial diastólica 
 
Pressão arterial sistólica 
 
Colesterol sérico total 
 
Peso (lbs) 
 
Altura (in.) 
 
Indice de massa corporal (IMC) 
 
 
 
 
71,3 
 
121,2 
 
202,3 
 
176,0 
 
67,175 
 
27,26 
 
 
 
 
71,0 
 
122,5 
 
206,5 
 
169,5 
 
69,375 
 
26,60 
 
 
 
 
 
Média 
 
Mediana 
 
Nessa amostra, existem duas modas, 64 e 81. A moda é uma estatística resumida útil para uma 
variável contínua. Não é apresentada no lugar da média ou da mediana, mas sim além da média 
ou da mediana. 
 
O segundo aspecto de uma variável contínua que deve ser resumido é a variabilidade na 
amostra. Uma medida de variabilidade relativamente bruta, mas importante em uma amostra, é 
a amplitude da amostra. A amplitude da amostra é calculada da seguinte forma: 
 
Amplitude da amostra = valor máximo − valor mínimo 
 
A Tabela 4-15 exibe as amplitudes da amostra para cada uma das medidas contínuas na 
subamostra de n = 10 observações. A amplitude de uma variável depende da escala da medição. 
As pressões arteriais são medidas em milímetros de mercúrio, o colesterol total é medido em 
miligramas por decilitro, peso em libras, etc. A amplitude do colesterol sérico total é grande, com 
uma diferença de 125 unidades entre o mínimo e o máximo da amostra de tamanho n = 10. Por 
outro lado, as alturas dos participantes são mais homogêneas, com uma amplitude de 28,5 cm 
(11,25 pol.). A amplitude é uma estatística descritiva importante para uma variável contínua, mas 
é baseada em apenas dois valores do conjunto de dados. Assim como a média, a amplitude da 
amostra pode ser afetada por valores extremos e, portanto, deve ser interpretada com cuidado. 
A medida de variabilidade mais utilizada para uma variável contínua é chamada de desvio 
padrão, que descrevemos agora. 
 
 
 
TABELA 4‑ 15 Amplitudes de variáveis da subamostra de 
tamanho n = 10 
 
Pressão arterial 
diastólica 
 
Pressão arterial 
sistólica 
 
Colesterol sérico 
total 
 
Peso (lbs) 
 
Altura (in.) 
 
Indice de massa 
corporal (IMC) 
 
 
 
 
 
Máximo 
 
 
Amplitude 
 
Mínimo 
62 
 
105 
 
150 
 
138 
 
60,75 
 
22,8 
 
 
 
 
81 
 
141 
 
275 
 
235 
 
72,0 
 
31,9 
 
 
 
 
19 
 
36 
 
125 
 
97 
 
11,25 
 
9,1 
 
 
 
 
Supondo que não existam valores extremos ou periféricos da variável, a média é o resumo mais 
adequado de um valor típico. Para resumir a variabilidade dos dados, estimamos 
especificamente a variabilidade na amostra em torno da sua média. Se todos os valores 
observados em uma amostra estiverem próximos da sua média, o desvio padrão é pequeno (ou 
seja, próximo a zero), e se os valores observados variarem amplamente em relação à média da 
amostra, o desvio padrão é grande. Se todos os valores na amostra forem idênticos, o desvio 
padrão da amostra será zero. 
 
Na amostra de n = 10 pressões arteriais diastólicas, encontramos = 71,3. A Tabela 4‑ 16 exibe 
cada um dos valores observados junto com os respectivos desvios da média da amostra. Os 
desvios da média refletem a distância da pressão arterial diastólica de cada indivíduo em relação 
à pressão arterial diastólica média. A pressão arterial diastólica do primeiro participante é de 4,7 
unidades acima da média, enquanto a pressão arterial diastólica do segundo participante é de 
7,3 unidades abaixo da média. Precisamos de um resumo desses desvios da média, em 
particular uma medida da distância (em média) entre a pressão arterial diastólica de cada 
participante em relação à pressão arterial diastólica média. Se calcularmos a média dos desvios, 
somando os desvios e dividindo pelo tamanho da amostra, nos deparamos com um problema: a 
soma dos desvios da média é zero. Isso sempre acontecerá, pois é uma propriedade da média 
da amostra, a soma dos desvios abaixo da média sempre será igual à soma dos desvios acima 
da média. 
 
 
TABELA 4‑ 16 Desvios da média 
 
Desvio da média 
(𝐗 − �̅�) 
Pressão arterial 
diastólica (X) 
76 
64 
62 
81 
70 
72 
81 
63 
67 
77 
ΣX = 713 
 
 
 
 
4,7 
-7,3 
-9,3 
9,7 
-1,3 
0,7 
9,7 
-8,3 
-4,3 
5,7 
Σ(X − X̅) = 0 
 
 
 
 
 
O objetivo é capturar a magnitude desses desvios em uma medida resumida. Para resolver este 
problema dos desvios que somam zero, poderíamos usar os valores absolutos ou os quadrados 
de cada desvio da média. Esses dois métodos solucionam o problema. O método mais popular 
para resumir os desvios da média envolve elevar os desvios quadráticos. (Os valores absolutos 
são difíceis em termos de provas matemáticas, que estão além do escopo deste livro.) A Tabela 
4-17 exibe cada um dos valores observados, os respectivos desvios da média da amostra e os 
desvios quadráticos da média. 
 
 
 
 
Os desvios quadráticos são interpretados da seguinte forma: O desvio quadrático do primeiro 
participante é de 22,09, o que significa que a pressão arterial diastólica é de 22,09 unidades 
quadráticas da pressão arterial diastólica média. A pressão arterial diastólica do segundo 
participante é de 53,29 unidades quadráticas da pressão arterial diastólica média. Uma 
quantidade que costuma ser usada para medir a variabilidade em uma amostra é chamada de 
TABELA 4‑ 16 Desvios da média 
 
Desvio da média 
(𝐗 − �̅�) 
Pressão arterial 
diastólica (X) 
76 
64 
62 
81 
70 
72 
81 
63 
67 
77 
 
ΣX = 713 
 
 
 
 
 
 
4,7 
-7,3 
-9,3 
9,7 
-1,3 
0,7 
9,7 
-8,3 
-4,3 
5,7 
 
Σ(X − X̅) = 0 
 
 
 
 
 
 
Desvio 
quadrático da 
média (𝐗 − �̅�)𝟐 
22,09 
53,29 
86,49 
94,09 
1,69 
0,49 
94,09 
68,89 
18,49 
32,49 
 
Σ(X − X̅)2 = 472,10 
 
 
 
 
 
 
variância da amostra e é essencialmente a média dos desvios quadráticos. A variância da 
amostra é indicada por s2 e é calculada da seguinte forma: 
 
𝑠2 =
∑(X − X̅)2
𝑛− 1
 
 
A variância da amostra, na verdade, não é a média dos desvios quadráticos porque dividimos 
por (n – 1) em vez de n. Na inferência estatística (que é descrita em detalhes nos Capítulos 6, 7, 
9, 10 e 11), fazemos generalizações ou estimativas de parâmetros da população com base em 
estatísticas da amostra. Se calculássemos a variância da amostra tomando a média dos desvios 
quadráticos e dividindo por n, iríamos subestimar consistentemente a verdadeira variância da 
população. A divisão por (n – 1) produz uma melhor estimativa da variância da população. A 
variância da amostra é, no entanto, geralmente interpretada como o desvio quadrático da média. 
Neste exemplo de n = 10 pressões arteriais diastólicas, a variância da amostra é s2 = 472,10 / 9 
= 52,46. Assim, em média, as pressões arteriais diastólicas são de 52,46 unidades quadráticas 
da pressão arterial diastólica média. 
 
Por causa da quadratura, a variância não é particularmente interpretável. A medida mais comum 
de variabilidade em uma amostra é o desvio padrão da amostra, definido como a raiz quadrada 
da variância da amostra: 
 
𝑠 = √𝑠2 = √
∑(X − X̅)2
𝑛 − 1
 
 
 
O desvio padrão da amostra das pressões arteriais diastólicas é 𝑠 = √52,46 = 7,2 . Em média, 
as pressões arteriais diastólicas estão 7,2 unidades (acima ou abaixo) da pressão arterial 
diastólica média. 
 
Quando um conjunto de dados tem valores atípicos ou valores extremos, resumimos um valor 
típico usando a mediana em oposição à média. Quando um conjunto de dados tem valores 
atípicos, a variabilidade é, muitas vezes, resumida por uma estatística chamada amplitude 
interquartil (AIQ). A amplitude interquartil é a diferença entre o primeiro e o terceiro quartil. O 
primeiro quartil, indicado como Q1, é o valor no conjunto de dados que tem 25% dos valores 
abaixo dele. O terceiro quartil, indicado como Q3, é o valor no conjunto de dados que tem 25% 
dos valores acima dele. A AIQ é definida como 
 
 AIQ = Q3 − Q1 
 
Na amostra de n = 10 pressões arteriais diastólicas, a mediana é 71 (50% dos valores estão 
acima de 71 e 50% estão abaixo). Os quartis podem ser calculados da mesma forma que 
calculamos a mediana, mas consideramos cada metade do conjunto de dados separadamente 
(veja a Figura 4-16). 
 
 
 
Existem cinco valores abaixo da mediana (metade inferior) e o valor médio é 64, que é o primeiro 
quartil. Existem cinco valores acima da mediana (metade superior) e o valor médio é 77, que é o 
terceiro quartil. A AIQ é 77 – 64 = 13; a AIQ é a amplitude no meio de 50% dos dados. Quando 
o tamanho da amostra for ímpar, a mediana e os quartis são determinados da mesma maneira. 
Suponha, no exemplo anterior, que o valor mais baixo (62) foi excluído e o tamanho da amostra 
se tornou n = 9. A mediana e os quartis são indicados graficamente na Figura 4-17. Quando o 
tamanho da amostra for 9, a mediana é o número do meio, 72. Os quartis são determinados da 
mesma maneira, observando as metades inferior e superior, respectivamente. Existem quatro 
valores na metade inferior, assim, o primeiro quartil é a média dos dois valores do meio da 
metade inferior, (64 + 67) / 2 = 65,5. A mesma abordagem é usada na metade superior para 
determinar o terceiro quartil, (77 + 81) / 2 = 79. Alguns pacotes de cálculo estatístico usam 
algoritmos ligeiramente diferentes para calcular os quartis. Os resultados podem ser diferentes, 
principalmente para amostras pequenas. 
 
 
 
Quando não houver valores atípicos em uma amostra, a média e o desvio padrão são usados 
para resumir um valor típico e a variabilidade na amostra, respectivamente. Quando houver 
valores atípicos em uma amostra, a mediana e a AIQ são usadas para resumir um valor típico e 
a variabilidade na amostra, respectivamente. 
Metade inferior Metade superior 
Quartil inferior 
Quartil superior 
Mediana = 71 
Quartil inferior Quartil superior 
Mediana = 72 
FIGURA 4‑ 16 Cálculo dos quartis 
FIGURA 4‑ 17 Mediana e quartis para n = 9 
 
Uma questão importante é determinar se uma amostra tem valores atípicos ou não. Existem 
vários métodos para determinar valores atípicos em uma amostra. Um método muito popular é 
baseado no seguinte: 
 
 Os valores atípicos são os valores abaixo de Q1 − 1,5 × (Q3 − Q1) 
ou acima de Q3 + 1,5 × (Q3 − Q1), 
ou de maneira equivalente, valores abaixo de Q1 − 1,5 × IQR 
ou acima de Q3 + 1,5 × AIQ 
Esse método é chamado de Teste de Tukey.6 nas pressões arteriais diastólicas, o limite inferior 
é 64 – 1,5 × (77 – 64) = 44,5 e o limite superior é 77 + 1,5 × (77 – 64) = 96,5. As pressões arteriais 
diastólicas variam de 62 a 81; portanto, não há valores atípicos. O melhor resumo de uma 
pressão arterial diastólica típica é a média ( = 71,3), e o melhor resumo da variabilidade 
é dado pelo desvio padrão. (s = 7,2). 
 
A Tabela 4-18 exibe as médias, desvios-padrão, medianas, quartis e AIQs para cada uma das 
variáveis contínuas mostradas na Tabela 4-13, na subamostra de n = 10 participantes que 
compareceram ao sétimo exame do Framingham Offspring Study. A Tabela 4-19 exibe os valores 
mínimos e máximos observados junto com os limites para determinar os valores atípicos usando 
a regra de quartil para cada uma das variáveis na subamostra de n = 10 participantes. Existem 
valores atípicos em alguma das variáveis? Quais estatísticas são mais adequadas para resumir 
o valor médio ou típico e a dispersão ou variabilidade? Como não há valores suspeitos de serem 
valores atípicos na subamostra de n = 10 participantes, a média e o desvio padrão são as 
estatísticas mais adequadas para resumir valores médios e a dispersão, respectivamente, de 
cada uma dessas características. 
 
 
 
TABELA 4‑ 18 Estatísticas resumidas sobre n = 10 participantes que 
comparecem ao sétimo exame do Framingham Offspring Study 
 
Pressão arterial sistólica 
Pressão arterial diastólica 
Colesterol sérico total 
Peso (lbs) 
Altura (in.) 
Indice de massa corporal (IMC) 
 
 
 
 
121,2 
71,3 
202,3 
176,0 
67,175 
27,26 
Média �̅� 
11,1 
7,2 
37,7 
33,0 
4,205 
3,10 
Desvio 
padrão (s) 
122,5 
71,0 
206,5 
169,5 
69,375 
26,60 
Mediana 
133,0 
64,0 
163,0 
151,0 
63,0 
24,9 
Q1 
127,0 
77,0 
227,0 
206,0 
70,0 
29,6 
Q2 
14,0 
13,0 
64,0 
55,0 
7,0 
4,7 
AIQ 
 
 
A Tabela 4-18 exibe as médias, desvios-padrão, medianas, quartis e AQs para cada uma das 
variáveis contínuas mostradas na Tabela 4-13 na amostra total de (n = 3.539) participantes que 
compareceram ao sétimo exame do Framingham Offspring Study. Analisando apenas as médias 
e as medianas, parece que algumas das características estão sujeitas a valores atípicos na 
amostra total? 
 
 
 
A Tabela 4-21 exibe os valores mínimos e máximos observados junto com os limites para 
determinar os valores atípicos usando a regra de quartil para cada uma das variáveis na amostra 
completa (n = 3.539) de participantes que compareceram ao sétimo exame do Framingham 
Offspring Study. Existem valores atípicos em alguma das variáveis? Quais estatísticas são mais 
adequadas para resumir os valores médios ou típicos e a dispersão ou variabilidade para cada 
variável? 
 
TABELA 4‑ 18 Limites para avaliar valores atípicos em características medidas em n = 
10 participantes que compareceram ao sétimo exame do Framingham Offspring Study. 
 
Pressão arterial sistólica 
Pressão arterial diastólica 
Colesterol sérico total 
Peso (lbs) 
Altura (in.) 
Indice de massa corporal (IMC) 
 
 
 
 
105 
62 
150 
138 
60,75 
22,8 
Mínimo 
141 
81 
275 
235 
72,00 
31,9 
Máximo 
92 
44,5 
67 
68,5 
52,5 
17,85 
Limite inferiora 
148 
96,5 
323 
288,5 
80,5 
36,65 
Limiteinferiorb 
aDeterminado por Q1-1,5 x (Q3-Q1). 
bDeterminado por Q3-1,5 x (Q3-Q1). 
 
 
 
 
TABELA 4‑ 20 Estatísticas resumidas sobre amostras de participantes que 
compareceram ao sétimo exame do Framingham Offspring Study (n = 3.539) 
Pressão arterial sistólica 
Pressão arterial diastólica 
Colesterol sérico total 
Peso (lbs) 
Altura (in.) 
Indice de massa corporal 
(IMC) 
 
 
 
 
127,3 
74,0 
200,3 
174,4 
65,957 
28,15 
Média �̅� 
19,0 
9,9 
36,8 
38,7 
3,749 
5,32 
Desvio 
padrão (s) 
125,0 
74,0 
198,0 
170,0 
65,750 
27,40 
Mediana 
114,0 
67,0 
175,0 
146,0 
63,000 
24,5 
 
Q1 
138,0 
80,0 
223,0 
198,0 
68,750 
30,8 
Q2 
24,0 
13,0 
48,0 
52,0 
5,75 
6,3 
AIQ 
 
 
Na amostra total, cada uma das características tem valores atípicos na extremidade superior da 
distribuição, pois os valores máximos excedem os limites superiores em cada caso. Há também 
valores atípicos na extremidade inferior para pressão arterial diastólica e colesterol total, pois os 
mínimos estão abaixo dos limites inferiores. Para algumas dessas características, a diferença 
entre o limite superior e o máximo (ou o limite inferior e o mínimo) é pequena (por exemplo, altura, 
pressões arteriais sistólica e diastólica), enquanto que para outros (por exemplo, colesterol total, 
peso e IMC), a diferença é muito maior. Esse método de determinação de valores atípicos é 
popular, mas geralmente não é aplicado como uma regra rígida e rápida. Nessa aplicação, seria 
razoável apresentar médias e desvios padrão para a altura e pressões arteriais sistólica e 
diastólica, e medianas e AIQs para colesterol total, peso e IMC. Outro método para avaliar se 
uma distribuição está sujeita a valores atípicos ou extremos é por meio de exibições gráficas. 
 
4.3.2 Diagramas de caixa para variáveis contínuas 
 
Os diagramas de caixa são muito úteis para exibir a distribuição de uma variável contínua. No 
Exemplo 4.3, consideramos uma subamostra de n = 10 participantes que compareceram ao 
sétimo exame do Framingham Offspring Study. Calculamos as seguintes estatísticas resumidas 
sobre as pressões arteriais diastólicas. Essas estatísticas são, às vezes, chamadas de quantis 
ou percentis da distribuição. Um quantil ou percentil específico é um valor no conjunto de dados 
que contém uma porcentagem específica dos valores contidos nele ou abaixo dele. Por exemplo, 
o primeiro quartil é o percentil 25, o que significa que ele detém 25% dos valores contidos nele 
ou abaixo dele. A mediana é o percentil 50, o terceiro quartil é o percentil 75 e o máximo é o 
percentil 100 (ou seja, 100% dos valores estão contidos nele ou abaixo dele). 
 
Mínimo 62 
Q1 64 
Mediana 71 
Q3 77 
Máximo 81 
 
Um diagrama de caixa (box-whisker) é uma exibição gráfica desses percentis. A Figura 4-18 é 
um diagrama de caixa das pressões arteriais diastólicas medidas na subamostra de n = 10 
participantes descrita no Exemplo 4.3. As linhas horizontais representam (de cima para baixo) o 
máximo, o terceiro quartil, a mediana (também indicada pelo ponto), o primeiro quartil e o mínimo. 
A caixa sombreada representa o meio de 50% da distribuição (entre o primeiro e o terceiro 
TABELA 4‑ 21 Limites para avaliar valores atípicos em características medidas nos 
participantes que compareceram ao sétimo exame do Framingham Offspring Study 
 
 
Pressão arterial sistólica 
Pressão arterial diastólica 
Colesterol sérico total 
Peso (lbs) 
Altura (in.) 
Indice de massa corporal (IMC) 
 
 
 
 
81,0 
41,0 
83,0 
90,0 
55,00 
15,8 
Mínimo 
216,0 
114,0 
357,0 
375,0 
78,75 
64,0 
Máximo 
78 
47,5 
103 
68,0 
54,4 
15,05 
Limite inferiora 
174 
99,5 
295 
276,0 
77,4 
40,25 
Limite inferiorb 
aDeterminado por Q1-1,5 x (Q3-Q1). 
bDeterminado por Q3-1,5 x (Q3-Q1). 
 
 
 
 
quartis). Um diagrama de caixa serve para transmitir a distribuição de uma variável com uma 
rápida olhada. 
 
 
 
 
A Figura 4-19 é um diagrama de caixa das pressões arteriais diastólicas medidas na amostra 
total dos participantes que compareceram ao sétimo exame do Framingham Offspring Study. Na 
amostra total, determinamos que houve valores atípicos tanto na extremidade inferior quanto na 
extremidade superior (consulte a Tabela 4-21). Na Figura 4-19, os valores típicos são exibidos 
como linhas horizontais na parte superior e inferior da distribuição. Na extremidade inferior da 
distribuição, existem cinco valores que são considerados atípicos (ou seja, valores abaixo de 
47,5, que foi o limite inferior para a determinação de valores atípicos). Na extremidade superior 
da distribuição, existem 12 valores que são considerados atípicos (ou seja, valores acima de 
99,5, que foi o limite superior para a determinação de valores atípicos). Os "bigodes" (as linhas 
horizontais entalhadas) do diagrama de caixa são os limites que determinamos para a detecção 
de valores atípicos (47,5 e 99,5). 
P
re
s
s
ã
o
 a
rt
e
ri
a
l d
ia
s
tó
lic
a
 
FIGURA 4‑ 18 Diagrama de caixa das pressões arteriais diastólicas 
na subamostra de n = 10 
 
 
 
 
A Figura 4-20 é um diagrama de caixa dos níveis de colesterol sérico total medidos na amostra 
total dos participantes que compareceram ao sétimo exame do Framingham Offspring Study. Na 
amostra total, determinamos que houve valores atípicos tanto na extremidade inferior quanto na 
extremidade superior (consulte a Tabela 4-21). Novamente, na Figura 4-20, os valores típicos 
são exibidos como linhas horizontais na parte superior e inferior da distribuição. Os valores 
atípicos de colesterol total são mais numerosos do que os que observamos para a pressão 
arterial diastólica, principalmente na extremidade superior da distribuição. 
 
 
P
re
s
s
ã
o
 a
rt
e
ri
a
l d
ia
s
tó
lic
a
 
C
o
le
s
te
ro
l 
to
ta
l 
FIGURA 4‑ 19 Diagrama de caixa das pressões arteriais 
diastólicas dos participantes que compareceram ao sétimo 
exame do Framingham Offspring Study 
 
 
FIGURA 4‑ 20 Diagrama de caixa dos níveis de colesterol 
sérico total dos participantes que compareceram ao sétimo 
exame do Framingham Offspring Study 
 
 
 
Os diagramas de caixa são muito úteis para comparar distribuições. A Figura 4-21 mostra 
diagramas de caixa, lado a lado, das distribuições de peso (em libras) para homens e mulheres 
que participaram do sétimo exame do Framingham Offspring Study. A figura mostra claramente 
uma mudança nas distribuições, com homens com pesos muito mais altos. De fato, o percentil 
25 do peso dos homens é de aproximadamente 180 libras, igual ao percentil 75 das mulheres. 
Especificamente, 25% dos homens pesam 180 libras ou menos em comparação com 75% das 
mulheres. Há um número substancial de valores atípicos na extremidade superior da distribuição 
entre homens e mulheres. Existem dois valores atípicos baixos entre os homens. 
 
 
 
 
Como os homens geralmente são mais altos que as mulheres (veja a Figura 4-22), não é 
surpreendente que eles tenham pesos superiores aos delas. Uma comparação mais adequada 
é a que usa o IMC (veja a Figura 4-23). As distribuições de IMC são semelhantes para homens 
e mulheres. Há novamente um número substancial de valores atípicos nas distribuições para 
homens e mulheres. No entanto, ao levar em consideração a altura (comparando o IMC em vez 
de comparar o peso), vemos que os valores atípicos mais extremos estão entre as mulheres. 
Quais são as estatísticas mais adequadas para resumir o IMC típico para homens e mulheres? 
 
P
e
s
o
 
Feminino Masculino 
Sexo 
FIGURA 4‑ 21 Gráficos de caixa, lado a

Outros materiais

Outros materiais