o que é biostatistica

Gerlandia Matias

12/11/2019

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.314 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

CAPÍTULO 1: Introdução
PÁGINAS 2-4
1.1 O QUE É BIOESTATÍSTICA?

Bioestatística é definida como a aplicação de princípios de estatística nas áreas de medicina,
saúde pública ou biologia. Os princípios da estatística são baseados na matemática aplicada e
incluem ferramentas e técnicas para coletar informações ou dados e, posteriormente, resumir,
analisar e interpretar esses resultados. Esses princípios se estendem para que sejam feitas
inferências e tiradas conclusões de forma adequada, levando em consideração a incerteza.

As técnicas de bioestatística podem ser utilizadas para abordar cada uma das questões
mencionadas anteriormente. Geralmente, na bioestatística aplicada, o objetivo é fazer uma
inferência sobre uma população específica. Por definição, essa população é o conjunto de todos
os indivíduos sobre os quais gostaríamos de fazer uma afirmação. A população de interesse
pode ser todos os adultos que vivem nos Estados Unidos ou todos os adultos que vivem na
cidade de Boston. A definição da população depende da pergunta do estudo do pesquisador,
que é o objetivo da análise. Suponha que a população de interesse seja todos os adultos que
vivem nos Estados Unidos e queremos estimar a proporção de todos os adultos com doenças
cardiovasculares. Para responder a essa pergunta na íntegra, teríamos que examinar todos os
adultos nos Estados Unidos e avaliar se eles são portadores de doença cardiovascular. Seria
uma tarefa impossível! Uma opção melhor e mais realista seria usar uma análise estatística para
fazer uma estimativa da proporção desejada.

Na bioestatística, estudamos amostras ou subconjuntos da população de interesse. Neste
exemplo, selecionamos uma amostra de adultos que vivem nos Estados Unidos e avaliamos se
cada um deles é portador de doença cardiovascular ou não. Se a amostra for representativa da
população, a proporção de adultos com doença cardiovascular na amostra deve ser uma boa
estimativa da proporção de adultos da população com doença cardiovascular. Na bioestatística,
analisamos amostras e depois fazemos inferências sobre a população, com base nessa análise.
Essa inferência é um grande salto, especialmente se a população for grande (por exemplo, a
população dos Estados Unidos que é de 300 milhões) e a amostra for relativamente pequena
(por exemplo, 5 mil pessoas). Quando ouvimos notícias ou lemos sobre estudos, muitas vezes
pensamos em como os resultados podem ser aplicados a nós, pessoalmente. A grande maioria
das pessoas nunca esteve envolvida em um estudo de pesquisa. Muitas vezes nos perguntamos
se devemos acreditar nos resultados dos estudos de pesquisa quando nós, ou qualquer um que
conhecemos, nunca participamos desses estudos.

1.2 QUAIS SÃO OS PROBLEMAS?

A condução e interpretação apropriadas das aplicações da bioestatística requerem atenção a
uma série de questões importantes. Elas incluem, mas não se limitam às seguintes:

 Definir claramente o objetivo ou a pergunta da pesquisa.
 Escolher um projeto de estudo adequado (por exemplo, a forma como os dados serão
coletados).
 Selecionar uma amostra representativa e garantir que ela seja do tamanho adequado.
 Coletar e analisar cuidadosamente os dados.
 Produzir medidas ou estatísticas resumidas adequadas.
 Gerar medidas de efeito ou associação adequadas.
 Quantificar a incerteza.
 Explicar adequadamente as relações entre as características.
 Limitar as inferências à população apropriada.

Neste livro, cada um dos pontos anteriores será abordado individualmente. Descrevemos como
coletar e resumir dados e como fazer inferências adequadas. Para conseguir isso, usamos
princípios da bioestatística fundamentados na matemática e na teoria da probabilidade. Um dos
principais objetivos é entender e interpretar uma análise bioestatística. Agora, vamos retomar
nossas perguntas originais e pensar em alguns dos problemas anteriormente identificados.

Como a extensão da doença em um grupo ou região é quantificada?

Idealmente, uma amostra de indivíduos é selecionada no grupo ou região de interesse. Essa
amostra deve ter o tamanho suficiente para que os resultados da sua análise sejam
adequadamente precisos. (Discutiremos técnicas para determinar o tamanho adequado da
amostra para análise no Capítulo 8.) Em geral, é preferível uma amostra maior para análise. No
entanto, não queremos tomar mostras com mais participantes do que os necessários, por
questões financeiras e éticas. A amostra também deve ser representativa da população. Por
exemplo, se 60% da população são mulheres, de modo ideal, gostaríamos que a amostra tivesse
aproximadamente 60% de mulheres. Uma vez selecionada a amostra, cada participante é
avaliado em relação ao status da doença. A proporção de participantes da amostra com a doença
é calculada considerando a proporção do número de pessoas com a doença em relação ao
tamanho total da amostra. Essa proporção é uma estimativa da proporção da população com a
doença. Suponha que a proporção da amostra seja calculada como 0,17 (ou seja, 17% das
pessoas da amostra têm a doença). Estimamos que a proporção da população com a doença é
de aproximadamente 0,17 (ou 17%). Como essa é uma estimativa baseada em uma amostra,
devemos justificar a incerteza que é refletida no que chamamos de margem de erro. Isso
resultaria em uma estimativa da proporção da população com a doença em algum ponto entre
0,13 e 0,21 (ou 13 a 21%).

Esse estudo seria provavelmente realizado em um só período de tempo; costuma-se chamar
este tipo de estudo de estudo transversal. Nossa estimativa da extensão da doença refere-se
apenas ao período do estudo. Seria inadequado fazer inferências sobre a extensão da doença
em momentos futuros com base nela. Se tivéssemos selecionado adultos que vivem em Boston
como nossa população, também seria inadequado inferir que a extensão da doença em outras
cidades ou em outras partes de Massachusetts seria a mesma que a observada em uma amostra
de pessoas residentes em Boston. A tarefa de estimar a extensão de uma doença em uma região
ou grupo parece simples à primeira vista. No entanto, existem muitas questões que complicam
esse trabalho. Por exemplo, onde obtemos uma lista da população, como podemos decidir quem
irá compor a amostra, como podemos garantir que grupos específicos estejam representados
(por exemplo, mulheres) na amostra e como encontramos as pessoas que identificamos para a
amostra e as convencemos a participar do estudo? Todas essas perguntas devem ser feitas
corretamente para obtermos dados válidos e inferências corretas.

Como é estimada a taxa de desenvolvimento de uma nova doença?

Para estimar a taxa de desenvolvimento de uma nova doença, por exemplo, a doença
cardiovascular, precisamos de uma estratégia de amostragem específica. Para esta análise,
usaríamos uma amostra apenas de pessoas sem doença cardiovascular e as acompanharíamos
ao longo do tempo (prospectivamente) para avaliar o desenvolvimento da doença. Uma questão
principal nesses tipos de estudos é o período de acompanhamento. O pesquisador deve decidir
se irá acompanhar os participantes por 1, 5 ou 10 anos, ou por algum outro período, para
observar o desenvolvimento ou não da doença. Se for interessante estimar o desenvolvimento
da doença ao longo de 10 anos, será preciso acompanhar cada participante da amostra por 10
anos para determinar o status da doença de cada um. A proporção do número de novos casos
da doença em relação ao tamanho total da amostra reflete a proporção ou a incidência cumulativa
de novos casos da doença ao longo do período de acompanhamento predeterminado. Suponha
que acompanhamos cada um dos participantes da nossa amostra por 5 anos e descobrimos que
2,4% desenvolveram a doença. Novamente, de modo geral, é interessante fornecer uma faixa
de valores plausívelpara a proporção de novos casos da doença. Isso é conseguido
incorporando uma margem de erro que reflita a precisão da nossa estimativa. A incorporação da
margem de erro pode resultar em uma estimativa da incidência cumulativa da doença entre 1,2
e 3,6% ao longo de 5 anos.

A epidemiologia é um campo de conhecimento focado no estudo da saúde e da doença em
populações humanas, padrões de saúde ou de doença, e os fatores que influenciam esses
padrões. O estudo descrito aqui é um exemplo de estudo epidemiológico. Os leitores
interessados em aprender mais sobre epidemiologia devem consultar Magnus.6

Como os fatores de risco ou as características que podem estar relacionados ao
desenvolvimento ou à progressão da doença são identificados?

Suponha que criamos a hipótese de que um determinado fator de risco ou exposição estejam
relacionados ao desenvolvimento de uma doença. Há diversos projetos ou formas de estudo
diferentes em que podemos coletar informações para avaliar o relacionamento entre um possível
fator de risco e as primeiras manifestações de uma doença. O projeto de estudo mais apropriado
depende, entre outras coisas, da distribuição do fator de risco e do resultado na população de
interesse (por exemplo, quantos participantes estão suscetíveis a ter, ou não, um determinado
fator de risco). (Discutimos diferentes projetos de estudo no Capítulo 2 e qual projeto é o melhor
em uma situação específica). Independentemente do projeto específico empregado, tanto o fator
de risco quanto o resultado devem ser medidos em cada integrante da amostra. Se estivermos
interessados na relação entre o fator de risco e o desenvolvimento da doença, novamente
recrutaríamos participantes sem a doença no início do estudo e acompanharíamos todos os
participantes para observar o desenvolvimento, ou não, da doença. Para avaliar se existe uma
relação entre um fator de risco e o resultado, estimamos a proporção (ou porcentagem) de
participantes com o fator de risco que podem desenvolver a doença e comparamos com a
proporção (ou porcentagem) de participantes que não têm o fator de risco e podem desenvolver
a doença. Existem várias maneiras de fazer essa comparação; ela pode ser baseada em uma
diferença em proporções ou em uma razão de proporções. (Os detalhes dessas comparações
são amplamente discutidos no Capítulo 6 e no Capítulo 7.)

Suponha que entre os participantes com o fator de risco, 12% desenvolvam a doença durante o
período de acompanhamento e entre aqueles sem o fator de risco, 6% desenvolvam doença. A
razão das proporções é chamada de risco relativo e aqui é igual á 0,12 / 0,06 = 2,0. A
interpretação é que duas vezes mais pessoas com o fator de risco desenvolvem a doença em
comparação com pessoas sem o fator de risco. O problema, então, é determinar se essa
estimativa, observada em uma amostra de estudo, reflete um risco aumentado na população.
Representar a incerteza pode resultar em uma estimativa do risco relativo de 1,1 a 3,2 vezes
maior para pessoas com o fator de risco. Como a faixa contém valores de risco superiores a 1,
os dados refletem um risco maior (porque o valor de 1 sugere que não há aumento de risco).
Outro problema em avaliar a relação entre um fator de risco específico e o status da doença
envolve entender relações complexas entre fatores de risco. Pessoas com o fator de risco podem
ser diferentes de pessoas sem o fator de risco; por exemplo, podem ser mais velhas e mais
propensas a ter outros fatores de risco. Existem métodos que podem ser usados para avaliar a
associação entre o fator de risco e o status da doença, levando em consideração o impacto dos
outros fatores de risco. Essas técnicas envolvem modelagem estatística. Discutimos como esses
modelos são desenvolvidos e, mais importante, como os resultados são interpretados, no
Capítulo 9.

Como é determinada a eficácia de um novo medicamento?

O projeto de estudo ideal do ponto de vista estatístico é o ensaio clínico aleatório. (O termo clínico
significa que o estudo envolve pessoas.) Por exemplo, suponha que queiramos avaliar a eficácia
de um novo medicamento destinado a reduzir o colesterol. A maioria dos ensaios clínicos
envolvem critérios específicos de inclusão e exclusão. Por exemplo, podemos querer incluir
apenas pessoas com níveis de colesterol total superiores a 200 ou 220, porque o novo
medicamento provavelmente teria mais chance de apresentar efeito em pessoas com níveis
elevados de colesterol. Podemos também excluir pessoas com antecedentes de doença
cardiovascular. Uma vez determinados os critérios de inclusão e exclusão, recrutamos os
participantes. Cada participante é designado aleatoriamente para receber o novo medicamento
experimental ou um medicamento de controle. O componente de escolha aleatória é a
característica fundamental desses estudos. A escolha aleatória teoricamente promove o
equilíbrio entre os grupos de comparação. O medicamento de controle pode ser um placebo
(uma substância inerte) ou um medicamento para reduzir o colesterol que é considerado o
padrão atual de tratamento.

A escolha do comparador adequado depende da natureza da doença. Por exemplo, no caso de
uma doença que represente prejuízo à vida, seria antiético não oferecer o tratamento; logo, um
comparador placebo nunca seria apropriado. Nesse exemplo, um placebo poderia ser apropriado
se os níveis de colesterol dos participantes não fossem elevados o suficiente para que
necessitassem de tratamento. Quando os participantes são inscritos e escolhidos aleatoriamente
para receber o tratamento experimental ou o comparador, eles não são informados sobre qual
tratamento receberão. Isso é chamado de estudo cego ou mascarado. Os participantes são
instruídos sobre a dosagem adequada e, após um tempo predeterminado, os níveis de colesterol
são medidos e comparados entre os grupos. (Novamente, há várias maneiras de fazer a
comparação e discutiremos diferentes opções no Capítulo 6 e no Capítulo 7.) Como os
participantes são distribuídos aleatoriamente nos grupos de tratamento, os grupos devem ser
comparáveis em relação a todas as características, exceto no tratamento recebido. Se
verificarmos que os níveis de colesterol estão diferentes entre os grupos, a diferença pode ser
atribuída ao tratamento.

Reforçando, devemos interpretar a diferença observada depois de considerar a casualidade ou
a incerteza. Se observarmos uma grande diferença nos níveis de colesterol entre os participantes
que receberam o medicamento experimental e o comparador, podemos inferir que o
medicamento experimental é eficaz. No entanto, as inferências sobre o efeito do medicamento
podem ser generalizadas apenas para a população à qual os participantes pertencem –
especificamente para a população definida pelos critérios de inclusão e exclusão. Os ensaios
clínicos devem ser cuidadosamente projetados e analisados. Existe uma série de questões que
são específicas dos ensaios clínicos, discutimos isso em detalhes no Capítulo 2.

Os ensaios clínicos são amplamente discutidos nos noticiários, especialmente os mais recentes.
Eles são rigorosamente regulamentados nos Estados Unidos pela FDA (Food and Drug
Administration).7 Relatórios recentes de notícias discutem estudos envolvendo medicamentos
que receberam aprovação para indicações específicas e que, posteriormente, foram retirados do
mercado por questões de segurança. Analisamos esses estudos e avaliamos como eles foram
conduzidos e, mais importante, por que eles estão sendo reavaliados. Os ensaios clínicos
aleatórios são considerados o padrão-ouro para a avaliação de medicamentos. Mesmo assim,
eles podem gerar controvérsias. Estudos diferentes dos clínicos são menos recomendados e
muitas vezes mais controversos.

O que poderia explicar resultados contraditórios entre diferentes estudos da mesma
doença?

Todos os estudosestatísticos são baseados na análise de uma amostra da população de
interesse. Às vezes, os estudos não são projetados adequadamente, por isso, seus resultados
podem ser questionáveis. Às vezes, poucos participantes são arrolados, o que pode gerar
resultados imprecisos. Há também casos em que os estudos são adequadamente projetados, no
entanto, duas réplicas diferentes produzem resultados diferentes. Ao longo deste livro, vamos
discutir como e quando isso pode ocorrer.

1.3 RESUMO

Neste livro, investigamos em detalhes cada uma das questões levantadas neste capítulo.
Entender os princípios da bioestatística é fundamental para a educação em saúde pública. Nossa
abordagem será feita por meio de aprendizagem ativa: os exemplos são tirados do Framingham
Heart Study (O estudo de Framingham ) e de ensaios clínicos, e são utilizados em todo o livro
para ilustrar conceitos. São discutidas aplicações exemplificadas envolvendo fatores de risco
importantes como pressão arterial, colesterol, tabagismo e diabetes e suas relações com
doenças cardiovasculares e cerebrovasculares incidentes. Exemplos com relativamente poucos
indivíduos ajudam a ilustrar cálculos e, ao mesmo tempo, reduzem o tempo real de computação,
um foco especial é o domínio de cálculos "manuais". Todas as técnicas são aplicadas aos dados
reais do estudo de Framingham e de ensaios clínicos. Em cada tópico, discutimos metodologia
– incluindo suposições, fórmulas estatísticas e a interpretação adequada dos resultados. As
fórmulas são resumidas ao final de cada capítulo. Foram selecionados exemplos para
representar problemas importantes e oportunos de saúde pública.

CAPÍTULO 4: Resumo dos dados coletados na amostra
PÁGINAS 35-41

Objetivos de aprendizagem
Até o final deste capítulo, o leitor estará apto a:
 Distinguir entre variáveis dicotômicas, ordinais, categóricas e contínuas.
 Identificar resumos numéricos e gráficos adequados para cada tipo de variável.
 Calcular a média, a mediana, o desvio padrão, quartis e intervalo de uma variável
contínua.
 Criar uma tabela de distribuição de frequência para variáveis dicotômicas, categóricas e
ordinais.
 Fornecer um exemplo de quando a média é uma melhor medida de localização do que a
mediana.
 Interpretar o desvio padrão de uma variável contínua.
 Gerar e interpretar um diagrama de caixa para uma variável contínua.
 Produzir e interpretar diagramas de caixa lado a lado.
 Diferenciar um histograma de um gráfico de barras.

Quando e por quê

Perguntas importantes
 Qual é a melhor maneira de usar argumentos para ação usando dados?
 Os pesquisadores estão sendo fraudulentos ou apenas confusos quando relatam
diferenças relativas em vez de diferenças absolutas?
 Como podemos ter certeza de que estamos comparando estatísticas compatíveis (maçãs
com maçãs) quando tentamos sintetizar dados de várias fontes?

No noticiário

Estatísticas resumidas sobre indicadores importantes em diferentes grupos e ao longo do tempo
podem gerar afirmações poderosas. Tabelas ou exibições gráficas simples de médias, contagens
ou taxas podem chamar a atenção para um problema que seria ignorado. Alguns exemplos de
problemas atuais e algumas estatísticas importantes são descritas a seguir.

No ano de 2014, mais de 21 milhões de americanos com 12 anos de idade ou mais tinham um
distúrbio de uso de substâncias. Cerca de 2 milhões desses distúrbios envolviam a prescrição
de analgésicos e mais de meio milhão envolviam heroína.1

O National Institute on Drug Abuse relata um aumento de 2,8 vezes de mortes por overdose de
medicamentos prescritos nos Estados Unidos de 2001 a 2014, um aumento de 3,4 vezes de
mortes por analgésicos opioides e um aumento de 6 vezes de mortes por heroína no mesmo
período.2

Explore mais a fundo

 Como você resumiria a extensão do uso de medicamentos prescritos em sua
comunidade?
 O que você mediria e como? Quais são os desafios na coleta desses dados?
 Se você comparasse a extensão do uso de medicamentos prescritos em sua comunidade
com a de outra comunidade, como poderia garantir que os dados são comparáveis?

Antes de serem realizadas análises bioestatísticas, devemos definir, explicitamente, a população
de interesse. A composição da população depende da pergunta de pesquisa do pesquisador. É
importante definir explicitamente a população, pois as inferências baseadas na amostra do
estudo serão generalizáveis apenas para a população especificada. A população é o conjunto
de todos os indivíduos sobre os quais queremos fazer generalizações. Por exemplo, se
desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os adultos de 30 a
75 anos de idade que vivem nos Estados Unidos, todos os adultos dessa faixa etária que vivem
nos Estados Unidos no período especificado do estudo compõem a população de interesse. Se
desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os adultos de 30 a
75 anos de idade que vivem no estado de Massachusetts, todos os adultos dessa faixa etária
que vivem em Massachusetts no período especificado do estudo compõem a população de
interesse. Se desejamos avaliar a prevalência de doença cardiovascular (DCV) entre todos os
adultos de 30 a 75 anos de idade que vivem na cidade de Boston, todos os adultos dessa faixa
etária que vivem em Boston no período especificado do estudo compõem a população de
interesse.

Na maioria das aplicações, a população é tão grande que é impraticável estudá-la toda. Em vez
disso, selecionamos uma amostra (um subconjunto) da população e fazemos inferências sobre
a população com base nos resultados de uma análise da amostra. A amostra é um subconjunto
de indivíduos da população. Idealmente, os indivíduos são selecionados aleatoriamente na
população para a amostra. (Discutimos em detalhes esse procedimento e outros conceitos
relacionados à amostragem no Capítulo 5.)

Há uma série de técnicas que podem ser usadas para selecionar uma amostra.
Independentemente das técnicas específicas utilizadas, a amostra deve ser representativa da
população (ou seja, as características dos indivíduos da amostra devem ser semelhantes às
características dos indivíduos da população). Por definição, o número de indivíduos na amostra
é menor do que o número de indivíduos na população. Existem fórmulas para determinar o
número adequado de indivíduos a serem incluídos na amostra que depende da característica
que está sendo medida (por exemplo, exposição, fator de risco e resultado) e o nível desejado
de precisão na estimativa. Apresentamos detalhes sobre cálculos de tamanho da amostra no
Capítulo 8.

Uma vez selecionada a amostra, a característica de interesse deve ser resumida na amostra
usando as técnicas adequadas. Esta é a primeira etapa de uma análise. Depois que a amostra
é adequadamente resumida, procedimentos de inferência estatística são utilizados para gerar
inferências sobre a população com base na amostra. Discutimos os procedimentos de inferência
estatística nos Capítulos 6, 7, 9, 10 e 11.

Neste capítulo, apresentamos técnicas para resumir os dados coletados em uma amostra. Os
resumos numéricos e as exibições gráficas adequadas dependem do tipo de característica
estudada. As características – às vezes chamadas variáveis – são classificadas em um dos
seguintes tipos: dicotômicas, ordinais, categóricas ou contínuas.

As variáveis dicotômicas têm apenas duas respostas possíveis. As opções de resposta são
geralmente codificadas como "sim" ou "não". A exposição a um fator de risco específico (por
exemplo, fumar) é um exemplo de uma variável dicotômica. O status da doença prevalente é
outro exemplo de uma variável dicotômica, de maneira que cada indivíduo de uma amostra é
classificado como tendo ou não a doença deinteresse em um ponto no tempo.

As variáveis ordinais e categóricas têm mais de duas respostas possíveis, mas as opções de
resposta são ordenadas e não ordenadas, respectivamente. A gravidade dos sintomas é um
exemplo de uma variável ordinal com as possíveis respostas de mínima, moderada e grave. O
National Heart, Lung, and Blood Institute (NHLBI) (Instituto Nacional do Coração, Sangue e
Pulmão) emite orientações para classificar a pressão arterial como normal, pré-hipertensão,
hipertensão estágio I ou hipertensão estágio II.1 O esquema de classificação é mostrado na
Tabela 4-1 e se baseia em níveis específicos de pressão arterial sistólica (PAS) e pressão arterial
diastólica (PAD). Os participantes são classificados na categoria mais alta, conforme definido
pela sua PAS e PAD. A categoria de pressão arterial é uma variável ordinal.

As variáveis categóricas, às vezes chamadas de variáveis nominais, são semelhantes às
variáveis ordinais, exceto pelo fato de que suas respostas são não ordenadas. Raça/etnia é um
exemplo de variável categórica. Em geral, ela é medida usando as seguintes opções de resposta:
branco, negro, hispânico, índio americano ou nativo do Alasca, Ásia ou Ilhas do Pacífico, ou
outro. Outro exemplo de uma variável categórica é o tipo sanguíneo, com as opções de resposta
A, B, AB e O.

As variáveis contínuas, às vezes chamadas de variáveis quantitativas ou de medição, em teoria
assumem um número ilimitado de respostas entre valores mínimos e máximos definidos. A
TABELA 4‑ 1 Categorias de pressão arterial

Normal

Pré-hipertensão

Hipertensão estágio I

Hipertensão estágio II
Classificação da pressão arterial PAS e/ou PAD
pressão arterial sistólica, a pressão arterial diastólica, o nível de colesterol total, a contagem de
células CD4, a contagem de plaquetas, a idade, o peso e a altura são exemplos de variáveis
contínuas. Por exemplo, a pressão arterial sistólica é medida em milímetros de mercúrio (mmHg),
um indivíduo em um estudo pode ter uma pressão arterial sistólica de 120, 120,2 ou 120,23,
dependendo da precisão do instrumento utilizado para medir a pressão arterial sistólica. No
Capítulo 11, apresentamos técnicas estatísticas para uma variável contínua específica que mede
o tempo para um evento de interesse, por exemplo, tempo para o desenvolvimento de doenças
cardíacas, câncer ou morte.

Quase todas as medidas numéricas resumidas dependem do tipo específico de variável sendo
considerada. Uma exceção é o tamanho da amostra, que é uma medida de resumo importante
para qualquer tipo de variável (dicotômica, ordinal, categórica ou contínua). O tamanho da
amostra, indicado como n, reflete o número de unidades independentes ou distintas
(participantes) da amostra. Por exemplo, se um estudo for conduzido para avaliar o colesterol
total em uma população e uma amostra aleatória de 100 indivíduos for selecionada para
participar, então, n = 100 (supondo que todos os indivíduos selecionados concordam em
participar). Em algumas aplicações, a unidade de análise não é um participante individual, mas
pode ser uma amostra de sangue ou espécime.

Suponha que no estudo de exemplo cada um dos 100 participantes forneça amostras de sangue
para o teste de colesterol em três momentos diferentes (por exemplo, no início do estudo, 6 e 12
meses depois). A unidade de análise poderia ser a amostra de sangue, nesse caso, o tamanho
da amostra seria n = 300. É importante notar que essas 300 amostras de sangue não são 300
observações independentes ou não relacionadas, pois várias amostras de sangue são retiradas
de cada participante. As várias medições realizadas no mesmo indivíduo são chamadas de
dados de medidas agrupadas ou repetidas. Os métodos estatísticos que explicam o agrupamento
das medidas realizadas no mesmo indivíduo devem ser usados na análise das 300 medidas de
colesterol total realizadas nos participantes ao longo do tempo. Os detalhes dessas técnicas
podem ser encontrados em Sullivan.2 O tamanho da amostra na maioria das análises discutidas
neste livro refere-se ao número de indivíduos que participam do estudo. Nos próximos exemplos,
indicamos o tamanho da amostra. É sempre importante informar o tamanho da amostra ao
resumir os dados, pois isso dá ao leitor uma noção da precisão da análise. A noção de precisão
é discutida em detalhes nos capítulos seguintes.

As medidas numéricas resumidas calculadas nas amostras são chamadas de estatísticas. As
medidas resumidas calculadas sobre as populações são chamadas de parâmetros. O tamanho
da amostra é um exemplo de uma estatística importante que sempre deve ser informada ao
resumir os dados. Nas seções a seguir, apresentamos exemplos de estatísticas e exibições
gráficas para cada tipo de variável.

4.1 VARIÁVEIS DICOTÔMICAS

As variáveis dicotômicas assumem uma de apenas duas respostas possíveis. O sexo é um
exemplo de uma variável dicotômica, com as opções de resposta "masculino" ou "feminino",
assim como é o status atual de tabagismo e diabetes, com as opções de resposta "sim" ou "não".

4.1.1 Estatística descritiva para variáveis dicotômicas

As variáveis dicotômicas são frequentemente usadas para classificar os participantes como
possuidores ou não de uma característica específica, tendo ou não um atributo específico. Por
exemplo, em um estudo de fatores de risco cardiovascular, podemos coletar informações sobre
se os participantes são diabéticos ou não, fumantes ou não, se estão ou não em tratamento de
hipertensão arterial ou colesterol alto. As opções de resposta para cada uma dessas variáveis
são "sim" ou "não".

Ao analisar variáveis dicotômicas, as respostas são frequentemente classificadas como bem-
sucedida ou falha, sendo que a bem-sucedida denota a resposta de interesse. A resposta bem-
sucedida não é necessariamente uma resposta positiva ou que denota saúde, mas sim a
resposta de interesse. Na verdade, em muitas aplicações médicas, o foco frequentemente está
na resposta que demonstra o problema ou "em risco".

Exemplo 4.1. O sétimo exame dos descendentes (offspring) do Framingham Heart Study foi
realizado entre 1998 e 2001. Um total de n = 3.539 participantes (1.625 homens e 1.914
mulheres) participaram do sétimo exame e passaram por um extenso exame físico. Uma série
de variáveis foi avaliada nessa análise, incluindo características demográficas, como sexo, nível
de instrução, renda e estado civil; características clínicas, como altura, peso, pressão arterial
sistólica e diastólica e colesterol total; além de características comportamentais, como fumar e
se exercitar.

As variáveis dicotômicas costumam ser resumidas em tabelas de distribuição de frequência. A
Tabela 4-2 exibe uma tabela de distribuição de frequência para a variável sexo, medida no sétimo
exame do Framingham Offspring Study. A primeira coluna da tabela de distribuição de frequência
indica as opções de resposta específicas da variável dicotômica (neste exemplo, masculino e
feminino). A segunda coluna contém as frequências (contagens ou números) de indivíduos em
cada categoria de resposta (números de homens e mulheres, respectivamente). A terceira coluna
contém as frequências relativas, que são calculadas dividindo a frequência em cada categoria
de resposta pelo tamanho da amostra (por exemplo, 1.625 / 3.539 = 0,459). As frequências
relativas são frequentemente expressas como porcentagens, sendo multiplicadas por 100, e são
mais utilizadas para resumir variáveis dicotômicas. Nesta amostra, por exemplo, 45,9% são
homens e 54,1% são mulheres.

Outro exemplo de tabela de distribuição de frequência é apresentado na Tabela 4-3, mostrando
a distribuição do tratamento com medicação anti-hipertensiva para pessoas que participaram do
TABELA 4‑ 2 Tabela de distribuição de frequência para sexoMasculino

Feminino

Total

Frequência Frequência relativa (%)
1625

1914

3539

45,9

54,1

100,0

sétimo exame do Framingham Offspring Study. Observe que existem apenas n = 3.532 respostas
válidas, embora o tamanho da amostra seja n = 3.539. Faltam dados para sete indivíduos nesta
questão específica. Essa falta de dados ocorre nos estudos por uma série de razões Quando
faltam poucos dados (por exemplo, menos de 5%) e não existe um padrão aparente para essa
falta (por exemplo, não há razão sistemática para os dados faltantes), as análises estatísticas
com base nos dados disponíveis são geralmente adequadas. No entanto, se a falta for excessiva
ou se houver um padrão para a falta, é preciso ter cuidado ao realizar as análises estatísticas.
As técnicas para lidar com a falta de dados vão além do escopo deste livro, mais detalhes podem
ser encontrados em Little and Rubin.3 Na Tabela 4‑ 3, podemos ver que 34,5% dos participantes
estão recebendo tratamento para hipertensão.

Às vezes, é interessante comparar dois ou mais grupos com base em uma variável de resultado
dicotômica. Por exemplo, suponha que desejamos comparar a extensão do tratamento com
medicação anti-hipertensiva em homens e mulheres. A Tabela 4‑ 4 resume o tratamento com
medicação anti-hipertensiva em homens e mulheres que participaram do sétimo exame do
Framingham Offspring Study. A primeira coluna da tabela indica o sexo do participante. O sexo
é uma variável dicotômica que, neste exemplo, é usada para distinguir os grupos a serem
comparados (homens e mulheres). A variável de resultado também é uma variável dicotômica e
representa o tratamento com medicação anti-hipertensiva ou não. No total, n = 611 homens e n
= 608 mulheres estão em tratamento anti-hipertensivo. Como há números diferentes de homens
e mulheres (1.622 contra 1.910) na amostra do estudo, a comparação das frequências (611
contra 608) não é a mais adequada. As frequências indicam que um número praticamente igual
de homens e mulheres estão em tratamento. Uma comparação mais adequada é a baseada em
frequências relativas, 37,7% contra 31,8%, que incorporam os diferentes números de homens e
mulheres na amostra. Observe que a soma da coluna mais à direita não é 100%, como foi nos
exemplos anteriores. Neste exemplo, a linha inferior contém dados sobre a amostra total e 34,5%
de todos os participantes estão sendo tratados com medicação anti-hipertensiva. No Capítulo 6
e no Capítulo 7, discutiremos métodos formais de comparação das frequências relativas entre
os grupos.

TABELA 4‑ 3 Tabela de distribuição de frequência para
tratamento com medicação anti-hipertensiva

Nenhum tratamento

Com tratamento

Total

Frequência Frequência relativa (%)
2313

1219

3532

65,5

34,5

100,0

4.1.2 Gráficos de barras para variáveis dicotômicas

Exibições gráficas são bastante úteis para resumir dados. Existem muitas opções de exibições
gráficas e muitos programas de software amplamente disponíveis oferecem uma variedade de
exibições. Entretanto, é importante escolher a exibição gráfica que apresenta, com exatidão, as
informações da amostra. Discutimos a visualização de dados em detalhes no Capítulo 12. A
exibição gráfica adequada depende do tipo de variável que está sendo analisada. Variáveis
dicotômicas são melhor resumidas usando gráficos de barras. As opções de resposta (sim/não,
presente/ausente) são mostradas no eixo horizontal, e as frequências ou frequências relativas
são plotadas no eixo vertical, produzindo um gráfico de barras de frequência ou um gráfico de
barras de frequência relativa, respectivamente.

A Figura 4‑ 1 é um gráfico de barras de frequência que mostra a distribuição dos homens e das
mulheres que compareceram ao sétimo exame do Framingham Offspring Study. O eixo
horizontal mostra as duas opções de resposta (masculino e feminino), e o eixo vertical mostra as
frequências (os números de homens e mulheres que compareceram ao sétimo exame).

TABELA 4‑ 4 Tratamento com medicação anti-hipertensiva em
homens e mulheres que participaram do sétimo exame do
Framingham Offspring Study

Frequência
relativa (%)
611

608

1219

37,7

31,8

100,0

Frequência n
1622

1910

3532

Masculino

Feminino

Total

A Figura 4–2 é um gráfico de barras de frequência relativa da distribuição do tratamento com
medicação anti-hipertensiva medida no sétimo exame do Framingham Offspring Study. Observe
que o eixo vertical na Figura 4–2 mostra as frequências relativas e não as frequências, como era
o caso na Figura 4–1. Na Figura 4–2, não é necessário mostrar as duas respostas, já que as
frequências relativas, expressas em percentuais, totalizam 100%. Se 65,5% da amostra não
estão sendo tratados, então, 34,5% devem estar em tratamento. Esses tipos de gráficos de
barras são muito úteis para comparar frequências relativas entre grupos.

F
R
E
Q
U
Ê
N
C
IA

Masculino Feminino
Sexo
FIGURA 4‑ 1 Gráfico de barras de frequência de distribuição
por sexo

Observe que há um espaço entre as duas opções de resposta (masculino e
feminino). Isso é importante para variáveis dicotômicas e categóricas.

A Figura 4–3 é um gráfico de barras de frequência relativa que descreve o tratamento com
medicamento anti-hipertensivo em homens em relação a mulheres que compareceram ao sétimo
exame do Framingham Offspring Study. Observe que o eixo vertical mostra frequências relativas
e, neste exemplo, 37,7% dos homens estavam usando medicamentos anti-hipertensivos em
comparação a 31,8% das mulheres. A Figura 4–4 é uma demonstração alternativa dos mesmos
dados. Observe o aumento do eixo vertical. Como as frequências relativas se comparam
visualmente? Por fim, considere uma terceira exibição dos mesmos dados, mostrada na Figura
4–5. Como as frequências relativas se comparam?

Não Sim
Tratamento com anti-hipertensivos
F
re
q
u
ê
n
c
ia
r
e
la
ti
v
a
%

FIGURA 4–2 Gráfico de barras de frequência relativa da distribuição
do tratamento com a medicação anti-hipertensiva

%
u
s
a
n
d
o
m
e
d
ic
a
ç
ã
o
a
n
ti
-h
ip
e
rt
e
n
s
iv
a

FIGURA 4–3 Gráfico de barras de frequência relativa da distribuição
do tratamento com a medicação anti-hipertensiva por sexo

Masculino Feminino
Sexo
Masculino Feminino
Sexo
%
u
s
a
n
d
o
m
e
d
ic
a
ç
ã
o
a
n
ti
-h
ip
e
rt
e
n
s
iv
a

FIGURA 4‑ 4 Gráfico de barras de frequência relativa da distribuição
do tratamento com a medicação anti-hipertensiva por sexo

Os eixos de qualquer exibição gráfica devem ser dimensionados para acomodar a faixa dos
dados. Enquanto as frequências relativas podem, em teoria, ir de 0% a 100%, não é necessário
sempre dimensionar os eixos de 0% a 100%. Também é potencialmente ilusório restringir o
dimensionamento do eixo vertical, como foi feito na Figura 4–3, para exagerar a diferença no uso
de medicação anti-hipertensiva entre homens e mulheres, pelo menos de um ponto de vista
visual. Nesse exemplo, as frequências relativas são 31,8% e 37,7%, assim, subir de 0% para
40% é adequado para acomodar os dados. É sempre importante identificar os eixos claramente,
para que os leitores possam interpretar os dados adequadamente.

PÁGINAS 44-46
A Tabela 4–10 é uma tabela de distribuição de frequência para uma variável categórica
dicotômica. Variáveis dicotômicas são um caso especial de variáveis categóricas com
exatamente duas opções de resposta. A Tabela 4–10 mostra a distribuiçãoda mão dominante
de participantes que compareceram ao sétimo exame do Framingham Offspring Study. As
opções de resposta são "direita" ou "esquerda". Há n = 3.513 respostas válidas para a avaliação
da mão dominante. Um total de 26 participantes não forneceu dados sobre a mão dominante. A
maioria da amostra de Framingham é destra (89,5%). A Tabela 4–11 é uma tabela de distribuição
de frequência para uma variável categórica que reflete a posição do tabagismo. A posição do
tabagismo aqui é medida como não fumante, ex-fumante ou fumante atualmente. Há n = 3.536
respostas válidas para as perguntas sobre a condição do tabagismo. Três participantes não
forneceram dados adequados a serem classificados. Quase metade da amostra é de ex-
fumantes (48,8%), mais de um terço (37,6%) nunca fumou e aproximadamente 14% são
fumantes atualmente. Os efeitos do tabagismo adversos à saúde foram um grande foco das
mensagens de saúde pública em anos recentes, e o percentual de participantes que se declaram
fumantes atualmente deve ser interpretado com relação ao período do estudo. A Tabela 4–12
mostra as proporções dos participantes que se declaram fumantes atualmente no momento de
Masculino Feminino
Sexo
%
u
s
a
n
d
o
m
e
d
ic
a
ç
ã
o
a
n
ti
-h
ip
e
rt
e
n
s
iv
a

FIGURA 4‑ 5 Gráfico de barras de frequência relativa da distribuição
do tratamento com a medicação anti-hipertensiva por sexo

cada exame do Framingham offspring. As datas de cada exame também são fornecidas.

TABELA 4‑ 10 Tabela de distribuição de frequência para mão
dominante

Direita

Esquerda

Total

Frequência
relativa (%)
3143

370

3513

89,5

10,5

100,0

Frequência
TABELA 4‑ 11 Tabela de distribuição de frequência para
condição do tabagismo

Não fumante

Ex-fumante

Atuais

Total

Frequência
relativa (%)
1330

1724

482

3536

Frequência
37,6

48,8

13,6

100,0

Nas próximas duas seções, apresentamos exibições gráficas para variáveis ordinais e
categóricas, respectivamente. Enquanto os resumos numéricos para variáveis ordinais e
categóricas são idênticos (pelo menos em termos das frequências e frequências relativas), as
exibições gráficas para variáveis ordinais e categóricas são diferentes, em um modo muito
importante.

4.2.2 Histogramas para variáveis ordinais

Os histogramas são exibições gráficas apropriadas para variáveis ordinais. Um histograma difere
de um gráfico de barras em uma característica importante. O eixo horizontal de um histograma
mostra as opções de resposta ordenadas distintas da variável ordinal. O eixo vertical pode
mostrar frequências ou frequências relativas, produzindo um histograma de frequência ou um
histograma de frequência relativa, respectivamente. As barras são centradas sobre cada opção
de resposta e dimensionadas de acordo com as frequências ou frequências relativas, conforme
desejado. A diferença entre um histograma e um gráfico de barras é que as barras em um
histograma ficam juntas, não há espaço entre respostas adjacentes. Isso reforça a ideia de que
as categorias de resposta são ordenadas e baseadas em uma sequência contínua subjacente.
Esta sequência contínua subjacente pode ou não ser mensurável.

A Figura 4-6 é um histograma de frequência para os dados de pressão arterial exibidos na Tabela
4-5. O eixo horizontal exibe as categorias de pressão arterial ordenada e o eixo vertical exibe as
frequências ou números de participantes classificados em cada categoria. O histograma
transmite imediatamente a mensagem de que a maioria dos participantes está nas duas
categorias inferiores (mais saudáveis) da distribuição. Um pequeno número de participantes está
TABELA 4‑ 12 Fumantes atualmente no Framingham Offspring
Study por data exame

Fumantes
(%)

Datas

Ciclo de exame
De agosto de 1971 a
setembro de 1975
De outubro de 1979 a
outubro de 1983
De dezembro de 1983 a
setembro de 1987
De abril de 1987 a setembro
de 1991
De janeiro de 1991 a junho
de 1995
De janeiro de 1995 a
setembro de 1998
De setembro de 1998 a
outubro de 2001
59,7

28,5

23,9

21,7

17,4

13,8

13,6

na categoria de hipertensão estágio II. O histograma na Figura 4-7 é um histograma de frequência
relativa para os mesmos dados. Observe que o valor é o mesmo, exceto para o eixo vertical, que
é dimensionado para acomodar frequências relativas em vez de frequências.

Normal
Pressão arterial alta
F
R
E
Q
U
Ê
N
C
IA

Pré-
hipertensão
Hipertensão
estágio I
Hipertensão
estágio II
Normal
Pressão arterial alta
F
re
q
u
ê
n
c
ia
r
e
la
ti
v
a
%

Pré-
hipertensão
Hipertensão
estágio I
Hipertensão
estágio II
FIGURA 4‑ 6 Histograma de frequência para categorias de pressão arterial

FIGURA 4‑ 7 Histograma de frequência relativa para categorias de pressão arterial

Normalmente, os histogramas de frequência relativa são preferíveis em relação aos histogramas
de frequência, pois as frequências relativas são mais adequadas para resumir os dados. Na
Figura 4-7, podemos ver que aproximadamente 34% dos participantes têm pressão arterial
normal, 41% têm pré-hipertensão, pouco menos de 20% apresentam hipertensão no estágio I e
6% apresentam hipertensão no estágio II.

A Figura 4-8 é um histograma de frequência relativa para a variável de colesterol total resumida
na Tabela 4-7. As barras do histograma ficam juntas para refletir o fato de que existe uma
sequência contínua subjacente de medidas de colesterol total. Na Figura 4-8, vemos que mais
de 50% dos participantes têm níveis desejáveis de colesterol total e pouco menos de 15% têm
níveis de colesterol total alto. O eixo horizontal pode ser dimensionado de forma diferente. A
Figura 4-9 cria a sequência contínua do colesterol total subjacente às categorias usadas aqui
para resumir os dados mais óbvios. Outra alternativa é marcar os pontos de transição. Na Figura
4-9, o eixo horizontal pode ser rotulado com 200 e 240 nos pontos de interseção das barras
adjacentes.

Desejável
Colesterol total
F
re
q
u
ê
n
c
ia
r
e
la
ti
v
a
%

Limítrofe Alto
FIGURA 4–8 Histograma de frequência relativa para categorias de colesterol total

A Figura 4-10 é um histograma de frequência relativa para os dados de IMC resumidos na Tabela
4-8. As categorias de IMC ordenadas são mostradas no texto ao longo do eixo horizontal e as
frequências relativas, como porcentagens, são exibidas ao longo do eixo vertical. Na Figura 4-
10, fica evidente que uma pequena porcentagem dos participantes está abaixo do peso e que a
maioria dos participantes está com sobrepeso ou obesidade, com o sobrepeso mais provável do
que a obesidade. O eixo horizontal da Figura 4-10 pode ser dimensionado de forma diferente
para mostrar os valores numéricos de IMC que definem as categorias ordinais ou com rótulos
para indicar os valores de IMC que separam as barras adjacentes (por exemplo, 18,5, 25, 30).

Colesterol total
F
re
q
u
ê
n
c
ia
r
e
la
ti
v
a
%

FIGURA 4–9 Histograma de frequência relativa para categorias de colesterol total

PÁGINAS 50-67
4.3 VARIÁVEIS DICOTÔMICAS

As variáveis contínuas, às vezes chamadas de variáveis de medição ou quantitativas, assumem
um número ilimitado de respostas distintas entre um valor mínimo e máximo teóricos. Em um
estudo de fatores de risco cardiovascular,podemos medir as idades, alturas, pesos, pressão
arterial sistólica e diastólica dos participantes, níveis séricos de colesterol total, etc. Os valores
medidos para cada uma dessas variáveis contínuas dependem da escala de medição. Por
exemplo, em estudos com adultos, como o Framingham Heart Study, a idade geralmente é
medida em anos. Estudos com crianças podem medir a idade em dias ou mesmo em horas, o
que for mais apropriado. As alturas podem ser medidas em polegadas ou centímetros, os pesos
podem ser medidos em libras ou em quilogramas. Supondo que o peso seja medido em libras,
as medições podem estar na libra mais próxima, o décimo ou o centésimo de libra mais próximo
(por exemplo, 145, 145,1, 145,13), dependendo da precisão da escala.

4.3.1 Estatística descritiva para variáveis contínuas

Para ilustrar os cálculos de estatística descritiva em detalhes, selecionamos um pequeno
subconjunto dos dados do Framingham Heart Study. Depois de realizar cálculos manuais sobre
o subconjunto pequeno, fornecemos estatísticas descritivas para a amostra completa que foi
gerada pelo computador.

Exemplo 4.3. No sétimo exame dos descendentes do Framingham Heart Study (n = 3.539), várias
variáveis contínuas foram medidas, incluindo pressão arterial sistólica e diastólica, colesterol
sérico total, altura e peso. Usando as alturas e pesos medidos de cada participante, podemos
calcular seu IMC. Neste estudo, a altura é medida em polegadas e o peso em libras. A seguinte
fórmula é usada para calcular o IMC usando estas métricas:

IMC = 703,03 x
Peso em Kg
(Altura em centímetros)2

Para ilustrar o cálculo de estatística descritiva para variáveis contínuas, selecionamos
aleatoriamente um subconjunto de 10 participantes que compareceram ao sétimo exame do
Framingham Offspring Study. Os valores dos dados são mostrados na Tabela 4-13. A primeira
coluna contém um número de identificação exclusivo para cada participante, da segunda até a
sexta coluna, as medidas reais dos participantes e a coluna mais à direita contém o IMC
calculado usando a fórmula mostrada. Agora, a estatística descritiva de cada variável contínua é
calculada. As fórmulas para os cálculos são apresentadas em exemplos e resumidas no final
deste capítulo.

A primeira estatística resumida para uma variável contínua (bem como para variáveis
dicotômicas, categóricas e ordinais) é o tamanho da amostra. O tamanho da amostra aqui é
n = 10. É sempre importante informar o tamanho da amostra para expressar a dimensão do
estudo. Estudos maiores geralmente são vistos de forma mais favorável, pois tamanhos de
amostra maiores geralmente produzem resultados mais precisos. No entanto, há um ponto em
que aumentar o tamanho da amostra não aumenta materialmente a precisão da análise. (Os
cálculos de tamanho de amostra são discutidos em detalhes no Capítulo 8.)

Como a amostra é pequena (n = 10), é relativamente fácil resumir a amostra inspecionando os
valores observados. Suponha que consideramos primeiro as pressões arteriais diastólicas. Para
facilitar a interpretação, ordenamos as pressões arteriais diastólicas em ordem crescente:

62 63 64 67 70
72 76 77 81 81

As pressões arteriais diastólicas inferiores a 80 são consideradas normais (consulte a
Tabela 4-1); assim, podemos resumir que os participantes desta amostra, de modo geral,
apresentam pressões diastólicas normais. Existem dois participantes com pressão arterial
diastólica de 81, mas dificilmente excedem o limite superior da classificação "normal". As
pressões arteriais diastólicas nesta amostra não são todas idênticas (com exceção dos dois
valores medidos de 81), mas são relativamente semelhantes. Em geral, do ponto de vista clínico,
os participantes desta amostra podem ser descritos como tendo pressões arteriais diastólicas
saudáveis.

Para amostras maiores, como o sétimo exame do Framingham Offspring Study com n = 3.539,
é impossível inspecionar valores individuais para gerar um resumo, portanto, as estatísticas
resumidas são necessárias. Um resumo útil de uma variável contínua apresenta dois aspectos
gerais. O primeiro é uma descrição do centro ou da média dos dados (ou seja, o que é um valor
típico) e o segundo aborda a variabilidade dos dados.

Usando a pressão arterial diastólica, agora ilustramos o cálculo de várias estatísticas que
TABELA 4‑ 13 Subamostra de n = 10 participantes que compareceram ao
sétimo exame do Framingham Offspring Study.

IMC
24,4

26,4

24,9

25,5

22,8

29,6

31,9

28,8

31,5

26,8

63,00

69,75

65,75

70,00

70,50

70,00

72,00

60,75

69,00

61,00

Altura(in.) Peso (lbs)
Colesterol total
do soro
Pressão arterial
diastólica
Pressão
arterial sistólica
ID do
participante
descrevem o valor médio e a variabilidade dos dados. Na bioestatística, o termo "média" é um
termo muito geral. Existem várias estatísticas que descrevem o valor médio de uma variável
contínua. O primeiro provavelmente é o mais familiar – a média da amostra. A média da amostra
é calculada pela soma de todos os valores e da divisão pelo tamanho da amostra. A média da
amostra das pressões arteriais diastólicas é calculada da seguinte forma:

Média da amostra =
62+63+64+67+70+72+76+77+81+81
10

=
713
= 71,3
10

Para simplificar as fórmulas para as estatísticas da amostra (e para os parâmetros da população),
geralmente indicamos a variável de interesse como X. O X é simplesmente um espaço reservado
para a variável a ser analisada. Aqui, X = pressão arterial diastólica. A média da amostra é
indicada por X̅ (lê-se "X barra") e a fórmula da amostra é:

X̅ =
ΣX
𝑛

Onde Σ indica soma (ou seja, a soma das pressões arteriais diastólicas nesta amostra). A
pressão arterial diastólica média é X̅ = 71,3.

Ao relatar estatísticas resumidas de uma variável contínua, a convenção é relatar mais uma casa
decimal além do número de casas decimais medidas. Aqui, as pressões arteriais sistólica e
diastólica, colesterol sérico total e peso são arredondados para o número inteiro mais próximo,
portanto, as estatísticas resumidas são informadas na casa decimal mais próxima. A altura é
medida até o quarto de polegada mais próximo (centésimos); portanto, as estatísticas resumidas
são relatadas na casa de milésimo mais próxima. O IMC é calculado até o décimo mais próximo,
de modo que as estatísticas resumidas são relatadas na casa centesimal mais próxima.

A média da amostra é uma medida da pressão arterial diastólica média. Uma segunda medida
do valor médio é a mediana da amostra. A mediana da amostra é o valor do meio do conjunto de
dados ordenados, ou o valor que separa os 50% superiores dos valores 50% inferiores. Quando
há um número ímpar de observações na amostra, a mediana é o valor que tem a mesma
quantidade de valores acima e abaixo no conjunto de dados ordenados. Quando há um número
par de observações na amostra, a mediana é definida como a média dos dois valores do meio
no conjunto de dados ordenados. Na amostra de n = 10 pressões arteriais diastólicas, os dois
valores médios são 70 e 72 e, portanto, a mediana é (70 + 72)/2 = 71. Metade das pressões
arteriais diastólicas estão acima de 71 e metade estão abaixo.

A média e a mediana fornecem informações diferentes sobre o valor médio de uma variável
contínua. Suponha que a amostra de 10 pressões diastólicas fosse a seguinte:

62 63 64 67 70
72 76 77 81 140

A média dessa amostra é X̅ = 772/10 = 77,2. Isso não representa um valor típico, pois a maioria
das pressões arteriais diastólicas nesta amostra estão abaixo de 77,2. O valor extremo de 140
está afetando o cálculo da média. Para essa mesmaamostra, a mediana é 71. A mediana não é
afetada por valores extremos ou atípicos. Por essa razão, a mediana é preferida em relação à
média quando houver valores extremos (valores muito pequenos ou muito grandes em relação
aos demais). Quando não houver valores extremos, a média é a medida preferida de um valor
típico, em parte porque cada observação é considerada no cálculo da média. Quando não houver
valores extremos, a média e a mediana da amostra terão um valor próximo.

A Tabela 4-14 exibe as médias e as medianas da amostra para cada uma das medidas contínuas
na amostra de n = 10. Para cada variável contínua medida nesta subamostra de participantes,
as médias e as medianas não são idênticas, mas são de valor relativamente próximo, sugerindo
que a média é o resumo mais apropriado de um valor típico para cada uma dessas variáveis. (Se
a média e a mediana forem muito diferentes, isso sugere que existem valores atípicos que afetam
a média.)

Uma terceira medida de um valor típico de uma variável contínua é a moda. A moda é definida
como o valor mais frequente. A moda da pressão arterial diastólica é 81, a moda dos níveis de
colesterol total é 227 e a moda das alturas é 70, pois esses valores aparecem duas vezes,
enquanto os outros valores só aparecem uma vez. Para cada uma das outras variáveis
contínuas, existem 10 valores distintos e, portanto, não existe nenhuma moda (porque nenhum
valor aparece com mais frequência do que qualquer outro). Suponha que as pressões arteriais
diastólicas fossem:

62 63 64 64 70
72 76 77 81 81
TABELA 4‑ 14 Médias e medianas de variáveis na subamostra
de tamanho n = 10

Pressão arterial diastólica

Pressão arterial sistólica

Colesterol sérico total

Peso (lbs)

Altura (in.)

Indice de massa corporal (IMC)

71,3

121,2

202,3

176,0

67,175

27,26

71,0

122,5

206,5

169,5

69,375

26,60

Média

Mediana

Nessa amostra, existem duas modas, 64 e 81. A moda é uma estatística resumida útil para uma
variável contínua. Não é apresentada no lugar da média ou da mediana, mas sim além da média
ou da mediana.

O segundo aspecto de uma variável contínua que deve ser resumido é a variabilidade na
amostra. Uma medida de variabilidade relativamente bruta, mas importante em uma amostra, é
a amplitude da amostra. A amplitude da amostra é calculada da seguinte forma:

Amplitude da amostra = valor máximo − valor mínimo

A Tabela 4-15 exibe as amplitudes da amostra para cada uma das medidas contínuas na
subamostra de n = 10 observações. A amplitude de uma variável depende da escala da medição.
As pressões arteriais são medidas em milímetros de mercúrio, o colesterol total é medido em
miligramas por decilitro, peso em libras, etc. A amplitude do colesterol sérico total é grande, com
uma diferença de 125 unidades entre o mínimo e o máximo da amostra de tamanho n = 10. Por
outro lado, as alturas dos participantes são mais homogêneas, com uma amplitude de 28,5 cm
(11,25 pol.). A amplitude é uma estatística descritiva importante para uma variável contínua, mas
é baseada em apenas dois valores do conjunto de dados. Assim como a média, a amplitude da
amostra pode ser afetada por valores extremos e, portanto, deve ser interpretada com cuidado.
A medida de variabilidade mais utilizada para uma variável contínua é chamada de desvio
padrão, que descrevemos agora.

TABELA 4‑ 15 Amplitudes de variáveis da subamostra de
tamanho n = 10

Pressão arterial
diastólica

Pressão arterial
sistólica

Colesterol sérico
total

Peso (lbs)

Altura (in.)

Indice de massa
corporal (IMC)

Máximo

Amplitude

Mínimo
62

105

150

138

60,75

22,8

141

275

235

72,0

31,9

125

11,25

9,1

Supondo que não existam valores extremos ou periféricos da variável, a média é o resumo mais
adequado de um valor típico. Para resumir a variabilidade dos dados, estimamos
especificamente a variabilidade na amostra em torno da sua média. Se todos os valores
observados em uma amostra estiverem próximos da sua média, o desvio padrão é pequeno (ou
seja, próximo a zero), e se os valores observados variarem amplamente em relação à média da
amostra, o desvio padrão é grande. Se todos os valores na amostra forem idênticos, o desvio
padrão da amostra será zero.

Na amostra de n = 10 pressões arteriais diastólicas, encontramos = 71,3. A Tabela 4‑ 16 exibe
cada um dos valores observados junto com os respectivos desvios da média da amostra. Os
desvios da média refletem a distância da pressão arterial diastólica de cada indivíduo em relação
à pressão arterial diastólica média. A pressão arterial diastólica do primeiro participante é de 4,7
unidades acima da média, enquanto a pressão arterial diastólica do segundo participante é de
7,3 unidades abaixo da média. Precisamos de um resumo desses desvios da média, em
particular uma medida da distância (em média) entre a pressão arterial diastólica de cada
participante em relação à pressão arterial diastólica média. Se calcularmos a média dos desvios,
somando os desvios e dividindo pelo tamanho da amostra, nos deparamos com um problema: a
soma dos desvios da média é zero. Isso sempre acontecerá, pois é uma propriedade da média
da amostra, a soma dos desvios abaixo da média sempre será igual à soma dos desvios acima
da média.

TABELA 4‑ 16 Desvios da média

Desvio da média
(𝐗 − �̅�)
Pressão arterial
diastólica (X)
76
64
62
81
70
72
81
63
67
77
ΣX = 713

4,7
-7,3
-9,3
9,7
-1,3
0,7
9,7
-8,3
-4,3
5,7
Σ(X − X̅) = 0

O objetivo é capturar a magnitude desses desvios em uma medida resumida. Para resolver este
problema dos desvios que somam zero, poderíamos usar os valores absolutos ou os quadrados
de cada desvio da média. Esses dois métodos solucionam o problema. O método mais popular
para resumir os desvios da média envolve elevar os desvios quadráticos. (Os valores absolutos
são difíceis em termos de provas matemáticas, que estão além do escopo deste livro.) A Tabela
4-17 exibe cada um dos valores observados, os respectivos desvios da média da amostra e os
desvios quadráticos da média.

Os desvios quadráticos são interpretados da seguinte forma: O desvio quadrático do primeiro
participante é de 22,09, o que significa que a pressão arterial diastólica é de 22,09 unidades
quadráticas da pressão arterial diastólica média. A pressão arterial diastólica do segundo
participante é de 53,29 unidades quadráticas da pressão arterial diastólica média. Uma
quantidade que costuma ser usada para medir a variabilidade em uma amostra é chamada de
TABELA 4‑ 16 Desvios da média

Desvio da média
(𝐗 − �̅�)
Pressão arterial
diastólica (X)
76
64
62
81
70
72
81
63
67
77

ΣX = 713

4,7
-7,3
-9,3
9,7
-1,3
0,7
9,7
-8,3
-4,3
5,7

Σ(X − X̅) = 0

Desvio
quadrático da
média (𝐗 − �̅�)𝟐
22,09
53,29
86,49
94,09
1,69
0,49
94,09
68,89
18,49
32,49

Σ(X − X̅)2 = 472,10

variância da amostra e é essencialmente a média dos desvios quadráticos. A variância da
amostra é indicada por s2 e é calculada da seguinte forma:

𝑠2 =
∑(X − X̅)2
𝑛− 1

A variância da amostra, na verdade, não é a média dos desvios quadráticos porque dividimos
por (n – 1) em vez de n. Na inferência estatística (que é descrita em detalhes nos Capítulos 6, 7,
9, 10 e 11), fazemos generalizações ou estimativas de parâmetros da população com base em
estatísticas da amostra. Se calculássemos a variância da amostra tomando a média dos desvios
quadráticos e dividindo por n, iríamos subestimar consistentemente a verdadeira variância da
população. A divisão por (n – 1) produz uma melhor estimativa da variância da população. A
variância da amostra é, no entanto, geralmente interpretada como o desvio quadrático da média.
Neste exemplo de n = 10 pressões arteriais diastólicas, a variância da amostra é s2 = 472,10 / 9
= 52,46. Assim, em média, as pressões arteriais diastólicas são de 52,46 unidades quadráticas
da pressão arterial diastólica média.

Por causa da quadratura, a variância não é particularmente interpretável. A medida mais comum
de variabilidade em uma amostra é o desvio padrão da amostra, definido como a raiz quadrada
da variância da amostra:

𝑠 = √𝑠2 = √
∑(X − X̅)2
𝑛 − 1

O desvio padrão da amostra das pressões arteriais diastólicas é 𝑠 = √52,46 = 7,2 . Em média,
as pressões arteriais diastólicas estão 7,2 unidades (acima ou abaixo) da pressão arterial
diastólica média.

Quando um conjunto de dados tem valores atípicos ou valores extremos, resumimos um valor
típico usando a mediana em oposição à média. Quando um conjunto de dados tem valores
atípicos, a variabilidade é, muitas vezes, resumida por uma estatística chamada amplitude
interquartil (AIQ). A amplitude interquartil é a diferença entre o primeiro e o terceiro quartil. O
primeiro quartil, indicado como Q1, é o valor no conjunto de dados que tem 25% dos valores
abaixo dele. O terceiro quartil, indicado como Q3, é o valor no conjunto de dados que tem 25%
dos valores acima dele. A AIQ é definida como

AIQ = Q3 − Q1

Na amostra de n = 10 pressões arteriais diastólicas, a mediana é 71 (50% dos valores estão
acima de 71 e 50% estão abaixo). Os quartis podem ser calculados da mesma forma que
calculamos a mediana, mas consideramos cada metade do conjunto de dados separadamente
(veja a Figura 4-16).

Existem cinco valores abaixo da mediana (metade inferior) e o valor médio é 64, que é o primeiro
quartil. Existem cinco valores acima da mediana (metade superior) e o valor médio é 77, que é o
terceiro quartil. A AIQ é 77 – 64 = 13; a AIQ é a amplitude no meio de 50% dos dados. Quando
o tamanho da amostra for ímpar, a mediana e os quartis são determinados da mesma maneira.
Suponha, no exemplo anterior, que o valor mais baixo (62) foi excluído e o tamanho da amostra
se tornou n = 9. A mediana e os quartis são indicados graficamente na Figura 4-17. Quando o
tamanho da amostra for 9, a mediana é o número do meio, 72. Os quartis são determinados da
mesma maneira, observando as metades inferior e superior, respectivamente. Existem quatro
valores na metade inferior, assim, o primeiro quartil é a média dos dois valores do meio da
metade inferior, (64 + 67) / 2 = 65,5. A mesma abordagem é usada na metade superior para
determinar o terceiro quartil, (77 + 81) / 2 = 79. Alguns pacotes de cálculo estatístico usam
algoritmos ligeiramente diferentes para calcular os quartis. Os resultados podem ser diferentes,
principalmente para amostras pequenas.

Quando não houver valores atípicos em uma amostra, a média e o desvio padrão são usados
para resumir um valor típico e a variabilidade na amostra, respectivamente. Quando houver
valores atípicos em uma amostra, a mediana e a AIQ são usadas para resumir um valor típico e
a variabilidade na amostra, respectivamente.
Metade inferior Metade superior
Quartil inferior
Quartil superior
Mediana = 71
Quartil inferior Quartil superior
Mediana = 72
FIGURA 4‑ 16 Cálculo dos quartis
FIGURA 4‑ 17 Mediana e quartis para n = 9

Uma questão importante é determinar se uma amostra tem valores atípicos ou não. Existem
vários métodos para determinar valores atípicos em uma amostra. Um método muito popular é
baseado no seguinte:

Os valores atípicos são os valores abaixo de Q1 − 1,5 × (Q3 − Q1)
ou acima de Q3 + 1,5 × (Q3 − Q1),
ou de maneira equivalente, valores abaixo de Q1 − 1,5 × IQR
ou acima de Q3 + 1,5 × AIQ
Esse método é chamado de Teste de Tukey.6 nas pressões arteriais diastólicas, o limite inferior
é 64 – 1,5 × (77 – 64) = 44,5 e o limite superior é 77 + 1,5 × (77 – 64) = 96,5. As pressões arteriais
diastólicas variam de 62 a 81; portanto, não há valores atípicos. O melhor resumo de uma
pressão arterial diastólica típica é a média ( = 71,3), e o melhor resumo da variabilidade
é dado pelo desvio padrão. (s = 7,2).

A Tabela 4-18 exibe as médias, desvios-padrão, medianas, quartis e AIQs para cada uma das
variáveis contínuas mostradas na Tabela 4-13, na subamostra de n = 10 participantes que
compareceram ao sétimo exame do Framingham Offspring Study. A Tabela 4-19 exibe os valores
mínimos e máximos observados junto com os limites para determinar os valores atípicos usando
a regra de quartil para cada uma das variáveis na subamostra de n = 10 participantes. Existem
valores atípicos em alguma das variáveis? Quais estatísticas são mais adequadas para resumir
o valor médio ou típico e a dispersão ou variabilidade? Como não há valores suspeitos de serem
valores atípicos na subamostra de n = 10 participantes, a média e o desvio padrão são as
estatísticas mais adequadas para resumir valores médios e a dispersão, respectivamente, de
cada uma dessas características.

TABELA 4‑ 18 Estatísticas resumidas sobre n = 10 participantes que
comparecem ao sétimo exame do Framingham Offspring Study

Pressão arterial sistólica
Pressão arterial diastólica
Colesterol sérico total
Peso (lbs)
Altura (in.)
Indice de massa corporal (IMC)

121,2
71,3
202,3
176,0
67,175
27,26
Média �̅�
11,1
7,2
37,7
33,0
4,205
3,10
Desvio
padrão (s)
122,5
71,0
206,5
169,5
69,375
26,60
Mediana
133,0
64,0
163,0
151,0
63,0
24,9
Q1
127,0
77,0
227,0
206,0
70,0
29,6
Q2
14,0
13,0
64,0
55,0
7,0
4,7
AIQ

A Tabela 4-18 exibe as médias, desvios-padrão, medianas, quartis e AQs para cada uma das
variáveis contínuas mostradas na Tabela 4-13 na amostra total de (n = 3.539) participantes que
compareceram ao sétimo exame do Framingham Offspring Study. Analisando apenas as médias
e as medianas, parece que algumas das características estão sujeitas a valores atípicos na
amostra total?

A Tabela 4-21 exibe os valores mínimos e máximos observados junto com os limites para
determinar os valores atípicos usando a regra de quartil para cada uma das variáveis na amostra
completa (n = 3.539) de participantes que compareceram ao sétimo exame do Framingham
Offspring Study. Existem valores atípicos em alguma das variáveis? Quais estatísticas são mais
adequadas para resumir os valores médios ou típicos e a dispersão ou variabilidade para cada
variável?

TABELA 4‑ 18 Limites para avaliar valores atípicos em características medidas em n =
10 participantes que compareceram ao sétimo exame do Framingham Offspring Study.

Pressão arterial sistólica
Pressão arterial diastólica
Colesterol sérico total
Peso (lbs)
Altura (in.)
Indice de massa corporal (IMC)

105
62
150
138
60,75
22,8
Mínimo
141
81
275
235
72,00
31,9
Máximo
92
44,5
67
68,5
52,5
17,85
Limite inferiora
148
96,5
323
288,5
80,5
36,65
Limiteinferiorb
aDeterminado por Q1-1,5 x (Q3-Q1).
bDeterminado por Q3-1,5 x (Q3-Q1).

TABELA 4‑ 20 Estatísticas resumidas sobre amostras de participantes que
compareceram ao sétimo exame do Framingham Offspring Study (n = 3.539)
Pressão arterial sistólica
Pressão arterial diastólica
Colesterol sérico total
Peso (lbs)
Altura (in.)
Indice de massa corporal
(IMC)

127,3
74,0
200,3
174,4
65,957
28,15
Média �̅�
19,0
9,9
36,8
38,7
3,749
5,32
Desvio
padrão (s)
125,0
74,0
198,0
170,0
65,750
27,40
Mediana
114,0
67,0
175,0
146,0
63,000
24,5

Q1
138,0
80,0
223,0
198,0
68,750
30,8
Q2
24,0
13,0
48,0
52,0
5,75
6,3
AIQ

Na amostra total, cada uma das características tem valores atípicos na extremidade superior da
distribuição, pois os valores máximos excedem os limites superiores em cada caso. Há também
valores atípicos na extremidade inferior para pressão arterial diastólica e colesterol total, pois os
mínimos estão abaixo dos limites inferiores. Para algumas dessas características, a diferença
entre o limite superior e o máximo (ou o limite inferior e o mínimo) é pequena (por exemplo, altura,
pressões arteriais sistólica e diastólica), enquanto que para outros (por exemplo, colesterol total,
peso e IMC), a diferença é muito maior. Esse método de determinação de valores atípicos é
popular, mas geralmente não é aplicado como uma regra rígida e rápida. Nessa aplicação, seria
razoável apresentar médias e desvios padrão para a altura e pressões arteriais sistólica e
diastólica, e medianas e AIQs para colesterol total, peso e IMC. Outro método para avaliar se
uma distribuição está sujeita a valores atípicos ou extremos é por meio de exibições gráficas.

4.3.2 Diagramas de caixa para variáveis contínuas

Os diagramas de caixa são muito úteis para exibir a distribuição de uma variável contínua. No
Exemplo 4.3, consideramos uma subamostra de n = 10 participantes que compareceram ao
sétimo exame do Framingham Offspring Study. Calculamos as seguintes estatísticas resumidas
sobre as pressões arteriais diastólicas. Essas estatísticas são, às vezes, chamadas de quantis
ou percentis da distribuição. Um quantil ou percentil específico é um valor no conjunto de dados
que contém uma porcentagem específica dos valores contidos nele ou abaixo dele. Por exemplo,
o primeiro quartil é o percentil 25, o que significa que ele detém 25% dos valores contidos nele
ou abaixo dele. A mediana é o percentil 50, o terceiro quartil é o percentil 75 e o máximo é o
percentil 100 (ou seja, 100% dos valores estão contidos nele ou abaixo dele).

Mínimo 62
Q1 64
Mediana 71
Q3 77
Máximo 81

Um diagrama de caixa (box-whisker) é uma exibição gráfica desses percentis. A Figura 4-18 é
um diagrama de caixa das pressões arteriais diastólicas medidas na subamostra de n = 10
participantes descrita no Exemplo 4.3. As linhas horizontais representam (de cima para baixo) o
máximo, o terceiro quartil, a mediana (também indicada pelo ponto), o primeiro quartil e o mínimo.
A caixa sombreada representa o meio de 50% da distribuição (entre o primeiro e o terceiro
TABELA 4‑ 21 Limites para avaliar valores atípicos em características medidas nos
participantes que compareceram ao sétimo exame do Framingham Offspring Study

Pressão arterial sistólica
Pressão arterial diastólica
Colesterol sérico total
Peso (lbs)
Altura (in.)
Indice de massa corporal (IMC)

81,0
41,0
83,0
90,0
55,00
15,8
Mínimo
216,0
114,0
357,0
375,0
78,75
64,0
Máximo
78
47,5
103
68,0
54,4
15,05
Limite inferiora
174
99,5
295
276,0
77,4
40,25
Limite inferiorb
aDeterminado por Q1-1,5 x (Q3-Q1).
bDeterminado por Q3-1,5 x (Q3-Q1).

quartis). Um diagrama de caixa serve para transmitir a distribuição de uma variável com uma
rápida olhada.

A Figura 4-19 é um diagrama de caixa das pressões arteriais diastólicas medidas na amostra
total dos participantes que compareceram ao sétimo exame do Framingham Offspring Study. Na
amostra total, determinamos que houve valores atípicos tanto na extremidade inferior quanto na
extremidade superior (consulte a Tabela 4-21). Na Figura 4-19, os valores típicos são exibidos
como linhas horizontais na parte superior e inferior da distribuição. Na extremidade inferior da
distribuição, existem cinco valores que são considerados atípicos (ou seja, valores abaixo de
47,5, que foi o limite inferior para a determinação de valores atípicos). Na extremidade superior
da distribuição, existem 12 valores que são considerados atípicos (ou seja, valores acima de
99,5, que foi o limite superior para a determinação de valores atípicos). Os "bigodes" (as linhas
horizontais entalhadas) do diagrama de caixa são os limites que determinamos para a detecção
de valores atípicos (47,5 e 99,5).
P
re
s
s
ã
o
a
rt
e
ri
a
l d
ia
s
tó
lic
a

FIGURA 4‑ 18 Diagrama de caixa das pressões arteriais diastólicas
na subamostra de n = 10

A Figura 4-20 é um diagrama de caixa dos níveis de colesterol sérico total medidos na amostra
total dos participantes que compareceram ao sétimo exame do Framingham Offspring Study. Na
amostra total, determinamos que houve valores atípicos tanto na extremidade inferior quanto na
extremidade superior (consulte a Tabela 4-21). Novamente, na Figura 4-20, os valores típicos
são exibidos como linhas horizontais na parte superior e inferior da distribuição. Os valores
atípicos de colesterol total são mais numerosos do que os que observamos para a pressão
arterial diastólica, principalmente na extremidade superior da distribuição.

P
re
s
s
ã
o
a
rt
e
ri
a
l d
ia
s
tó
lic
a

C
o
le
s
te
ro
l
to
ta
l
FIGURA 4‑ 19 Diagrama de caixa das pressões arteriais
diastólicas dos participantes que compareceram ao sétimo
exame do Framingham Offspring Study

FIGURA 4‑ 20 Diagrama de caixa dos níveis de colesterol
sérico total dos participantes que compareceram ao sétimo
exame do Framingham Offspring Study

Os diagramas de caixa são muito úteis para comparar distribuições. A Figura 4-21 mostra
diagramas de caixa, lado a lado, das distribuições de peso (em libras) para homens e mulheres
que participaram do sétimo exame do Framingham Offspring Study. A figura mostra claramente
uma mudança nas distribuições, com homens com pesos muito mais altos. De fato, o percentil
25 do peso dos homens é de aproximadamente 180 libras, igual ao percentil 75 das mulheres.
Especificamente, 25% dos homens pesam 180 libras ou menos em comparação com 75% das
mulheres. Há um número substancial de valores atípicos na extremidade superior da distribuição
entre homens e mulheres. Existem dois valores atípicos baixos entre os homens.

Como os homens geralmente são mais altos que as mulheres (veja a Figura 4-22), não é
surpreendente que eles tenham pesos superiores aos delas. Uma comparação mais adequada
é a que usa o IMC (veja a Figura 4-23). As distribuições de IMC são semelhantes para homens
e mulheres. Há novamente um número substancial de valores atípicos nas distribuições para
homens e mulheres. No entanto, ao levar em consideração a altura (comparando o IMC em vez
de comparar o peso), vemos que os valores atípicos mais extremos estão entre as mulheres.
Quais são as estatísticas mais adequadas para resumir o IMC típico para homens e mulheres?

P
e
s
o

Feminino Masculino
Sexo
FIGURA 4‑ 21 Gráficos de caixa, lado a