Buscar

ESTATISTICA-DESCRITIVA-APOSTILA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA - DEPARTAMENTO DE ESTATÍSTICA
M A T 0 2 7 - E S T A T I S T I C A I V
A P O S T I L A 1: E S T A T I S T I C A D E S C R I T I V A
1
PREFÁCIO
Prefácio à primeria versão
A atual estrutura complexa de nossa sociedade introduziu a necessidade de um estudo cada vez mais de-
talhado acerca das informações disponíveis. Assim, todos os cursos da Universidade têm, em algum momento,
necessidade de fazer uso da Estatística, como metodologia, dado o caráter quantitativo de grande parte das
pesquisas realizadas.
Assim, em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender
uma massa de dados, relevante ao seu particular objeto de estudos. Se forem informações sobre uma amostra
ou população, ele necessitará resumir os dados para que estes sejam informativos, ou para compará-los com
outros resultados, ou ainda para julgar sua adequação a alguma teoria.
Segundo BERQUÓ et alii (1981), o papel da Estatística na pesquisa científica está em contribuir junto
ao investigador: na formulação das hipóteses científicas e fixação das regras de decisão; no fornecimento
de técnicas para um eficiente delineamento de pesquisa; na coleta, tabulação e análise dos dados empíricos
(estatística descritiva) e em prover testes de hipóteses a serem realizados de tal modo que a incerteza da
inferência indutiva possa ser expressa em um nível probabilístico pré-fixado (estatística indutiva).
Este curso de estatística de apenas um semestre objetiva primordialmente que o aluno conheça a linguagem
(”jargão” da estatística) e as palavras-chave para poder trocar idéias e/ou consultar um estatístico, bem como
que o aluno tenha o mínimo conhecimento técnico para realização de uma futura análise, fornecendo com certa
segurança as interpretações dos dados. Além disso, esse conhecimento permitirá uma leitura mais crítica de
artigos de sua área de interesse.
Esperamos que, apesar da abordagem ampla e superficial, este curso possa contribuir para a formação dos
futuros licenciados e bacharéis no que tange à metodologia estatística.
Leila Denise Alves Ferreira em 2001.
Prefácio à segunda versão
Esta nova versão da apostila do curso Estatística IV, uma disciplina ministrada essencialmente aos alunos
de graduação da área de saúde na UFBa, reapresenta o material inicialmente proposto pela professora Leila,
agora com algumas correções que se fizeram necessárias a partir das experiências vividas pelos professores que
a utilizou nesses 4 últimos semestres. Fundamentalmente, as diferenças entre as duas versões dizem respeito a
algumas falhas de impressão, detectadas principalmente em algumas fórmulas, além das figuras que receberam
nova definição visual. A versão on line, agora apresentada no formato ’pdf’, pode ser ”baixada” a partir do
endereço: www.est.ufba.br/mat027.
O curso está dividido em três módulos: Estatística Descritiva, Probabilidade e Inferência, cujo objetivo
é proporcionar ao aluno o conhecimento básico de Estatística para uso em situações relacionadas com o seu
campo de estudo.
Maristela D. de Oliveira e Angelo Marcio O. Sant’anna em 2002.
2
1 Introdução
A palavra estatística deriva da expressão status, em latim, e significa o ”estudo do estado”. Foi pensada pelos
ingleses, no século XVI, como uma ciência política, destinada a descrever características de um estado ou país,
tais como população, área, riqueza e recursos naturais (Laurenti et al. 1985), envolvendo compilações de dados
e gráficos. Em 1662, John Graunt publicou informes estatísticos sobre nascimentos e mortes. A partir daí deu-
se início ao desenvolvimento da probabilidade e estatística, sobretudo a partir do século XVII, com o estudo das
grandes epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada século
seguinte mais e mais áreas foram se incorporando ao conjunto das que faziam uso da estatística. Na última
década, com a grande revolução da informática, houve um avanço significativo das áreas de probabilidade e
estatística, com o desenvolvimento de softwares mais poderosos, deixando à disposição do pesquisador muitas
ferramentas alternativas ao seu trabalho (BOTTER, et alii, 1996)
Hoje em dia a maior parte das decisões tomadas em quase todas as áreas de atividade humana moderna
(por exemplo, avaliação de novos tratamentos médicos e de novos terminais de atendimento bancário, do
planejamento de pesquisas científicas, de estratégias de marketing e investimento, para citar algumas) têm
suas bases na estatística - definida, a grosso modo, como a coleta, análise e interpretação de dados, ou de
forma mais ampla, como a ”ciência da tomada de decisão perante incertezas”.
Como já foi dito anteriormente, a Estatística engloba um grande leque de ferramentas de análise. Com
finalidade didática iremos dividir a estatística em dois grandes grupos:
a) Estatística Descritiva: Por conta da quantidade de dados geralmente ser tão grande, é extremamente
difícil captar intuitivamente as informações que os dados contêm. É necessário, portanto, que as informações
sejam reduzidas até o ponto em que se possa interpretá-las mais claramente. A estatística descritiva vai
resumi-las através do uso de certas medidas-síntese, que tornem possível a interpretação de resultados. No
sentido mais amplo, suas funções são:
• coleta de dados;
• organização e classificação destes dados;
• apresentação através de gráficos e tabelas;
• cálculo de coeficientes (estatísticos), que permitem descrever resumidamente os fenômenos.
b) Indutiva ou Inferência Estatística : Consiste em obter e generalizar conclusões; ou seja, inferir
propriedades para o todo com base na parte, no particular. É tratada através de técnicas e métodos que se
fundamentam na Teoria das Probabilidades.
• Em estatística utilizaremos extensivamente os termos população e amostra. Assim, definiremos esses
termos no contexto da estatística:
• População: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Con-
grega todas as observações que sejam relevantes para o estudo de uma ou mais características dos
indivíduos. Podem ser tanto seres animados ou inanimados.
• Amostra: um subconjunto de elementos extraídos de uma população.
• Censo: é uma coleção de dados relativos a todos os elementos de uma população.
O esquema a seguir tenta sintetizar, com um exemplo, as etapas de uma pesquisa estatística:
3
 População Amostra 
Tratamento de dados 
Inferência estatística Estatística descritiva 
Teoria das probabilidades 
2 ESTATÍSTICA DESCRITIVA
2.1 FASES DO TRABALHO ESTATÍSTICO
A estatística está envolvida em todas as etapas de um projeto de pesquisa. A seguir as fases de um trabalho
cientifíco são citadas do ponto de vista do trabalho estatístico.
As fases do trabalho estatístico são do âmbito da Estatística Descritiva, e são as principais fases as
seguintes:
1. Definição do Problema: formulação completa do problema a ser estudado. Levantamento de outros
trabalhos realizados no mesmo campo e análogos, uma vez que parte da informação de que se necessita
pode ser encontrado nestes últimos.
2. Planejamento: determinação do procedimento necessário para resolver o problema e, em especial, como
levantar informações sobre o assunto objeto de estudo. Preocupação com a formulação correta das
perguntas, qualquer que seja a modalidade de coleta de dados. É nesta fase que será escolhido o
tipo de levantamento a ser utilizado, que pode ser censitário ou por amostragem. Outros elementos
importantes a serem pré-estabelecidos desta fase são: o cronograma das atividades (fixação de prazo
para as várias fases); os custos envolvidos; exame das informações disponíveis; o delineamento da amostra
(se necessária); a forma como serão escolhidos os dados; elaboração do questionário.
3. Coleta de dados (quesitos específicos para obter informaçõesdesejadas): refere-se à obtenção, reunião
e registro sistemático de dados, com um objetivo determinado. Além dos registros feitos pelo próprio
pesquisador, pode-se recorrer a fontes externas de dados.
4. Crítica dos questionários: leitura dos questionários, observação de respostas incompletas, erradas. Su-
pressão de valores estranhos ao levantamento.
5. Apuração dos dados: consiste em resumir os dados, através de sua contagem e agrupamento. É um
trabalho de condensação e de tabulação dos dados, que chegam ao analista de forma desorganizada,
tornando impossível a tarefa de apreender todo o seu significado pela simples leitura. Nos dias atuais
esta apuração tornou-se sinônimo de organização de base de dados, que é realizada em computadores.
6. Apresentação dos Dados: há duas formas de apresentação:
4
(a) Apresentação Tabular: apresentação numérica dos dados. As tabelas têm a vantagem de conseguir
expor, sinteticamente, e em um só local, os resultados sobre determinado assunto, de modo a se
obter uma visão global mais rápida daquilo que se pretende analisar.
(b) Apresentação Gráfica: constitui uma apresentação geométrica. É de extrema importância, no
sentido de permitir uma visão rápida, fácil e clara do fenômeno e sua variação.
7. Análise e Interpretação dos Dados: O interesse maior consiste em tirar conclusões que auxiliem o
pesquisador a resolver seu problema. A analise dos dados estatísticos está ligada essencialmente ao
cálculo de medidas, cuja finalidade principal é descrever o fenômeno. Assim, o conjunto de dados
a ser analisado pode ser expresso por números-resumos, as estatísticas, que evidenciam características
particulares desse conjunto. O significado exato de cada um desses valores será explicado posteriormente.
2.2 CLASSIFICAÇÃO DE VARIÁVEIS
Definiremos variável como qualquer atributo/característica que exerça influência no fenômeno estudado. Por
exemplo, desejamos registrar a idade das pessoas ao morrer, a estatura ou peso dos indivíduos, o rendimento
das famílias em uma grande cidade, o número de empregados dispensados, por mês, em uma grande empresa,
a distribuição dos alunos por sexo, etc.
Antes da escolha da análise descritiva apropriada é necessária a classificação da variável de interesse, pois
a adequação da técnica está diretamente relacionada ao tipo de variável em questão.
De acordo com a estrutura numérica as variáveis podem ser classificadas em:
• Quantitativas - se os resultados das observações serão expressos sempre através de números, que repre-
sentam contagens ou medidas. Ex: Idade, Altura, Peso, Número de nascidos vivos, População.
• Qualitativas - se os resultados das observações serão expressos através de categorias, que se distinguem
por alguma característica não-numérica. Ex: Sexo, Nível de escolaridade, Cor da pele, Estado civil,
Tipo sanguíneo.
As variáveis qualitativas podem ser classicadas, por sua vez, em:
1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias. Os dados
não podem ser dispostos segundo um esquema ordenado. Ex: Estado civil
2. Ordinal - envolve dados que podem ser dispostos em alguma ordem, mas as diferenças entre os valores
dos dados não podem ser determinadas ou não tem sentido. Ex: Nível de escolaridade.
Em relação às variáveis quantitativas, estas podem ser classificadas em:
1. Discreta - só pode assumir valores pertencentes a um conjunto finito ou enumerável. Ex: Número de
alunos presentes às aulas de determinado professor; número de mortos em um surto de determinada
doença. Geralmente, seus valores são resultados de um processo de contagem, razão pela qual seus
valores são expressos através de números inteiros não-negativos.
2. Contínua - pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais.
Ex: Estatura e peso de atletas de um time de voley; temperatura máxima diária. Pode-se dizer que a
variável contínua resulta normalmente de mensurações.
5
2.3 TIPOS DE SÉRIES ESTATÍSTICAS
Série estatística é uma sucessão de dados estatísticos que medem a intensidade do fenômeno, segundo suas
características qualitativas ou quantitativas. As séries estatísticas serão classificadas de acordo com a variação
de três elementos: tempo, local e o fato. São elas:
• Série Histórica - É aquela em que o elemento que serve como base de classificação é a fração do tempo,
como o dia, o mês, o ano, o século, etc.. Ex: : Taxa de mortalidade infantil nos últimos 10 anos na
cidade do Salvador-Ba.
• Série Geográfica - É aquela que apresenta como elemento variável somente o local (fator geográfico).
Ex: A produção de cereais no Brasil, em 1996, segundo os Estados produtores.
• Série Específica - É aquela série que apresenta como elemento ou caráter variável o fato(ou espécie), per-
manecendo fixos a época e o local. Ex: Os alunos de uma Faculdade, em determinado ano, classificados
segundo o tipo sanguíneo.
• Série Mista - refere-se às séries que são combinações de outros tipos de séries já estudadas. Classificação
da população brasileira segundo as Unidades da Federação e o sexo.
2.4 APRESENTAÇÃO DOS DADOS
2.4.1 ELABORAÇÃO DE TABELAS
Após a apuração, há a necessidade de os dados e os resultados obtidos a partir daqueles serem dispostos de
uma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise e facilitar a compreensão das
conclusões apresentadas ao leitor. Os dados e os resultados são então apresentados na forma de tabelas.
Uma tabela deve ser auto-suficiente, isto é, deve ter significado próprio, de modo a prescindir, quando
isolada, de consultas ao texto. A elaboração de tabelas obedece à Resolução no 886, de 26 de outubro de 1966,
do Conselho Nacional de Estatística.
Uma tabela possui elementos essenciais e complementares.
Os elementos essenciais são:
• Título - É obrigatório. Deve conter a designação do fato observado, o local e a época em que foi
registrado. Deve ser claro e conciso. É colocado na parte superior da tabela.
• Corpo da tabela - É o conjunto de colunas e linhas onde se encontram as informações numéricas sobre
o fato observado. Casa, célula ou cela - é o cruzamento de cada linha com uma coluna, onde se tem a
frequência com que a categoria aparece.
• Cabeçalho - é a parte superior da tabela, onde se especifica o conteúdo de cada coluna.
• Coluna indicadora - é a parte da tabela em que se especifica o conteúdo de cada linha.
• Os elementos complementares são:
• Fonte - é a indicação da entidade responsável pelo fornecimento ou elaboração dos dados. É colocado
no rodapé da tabela.
• Notas - são colocadas abaixo da fonte, se necessárias. Contém informações gerais destinadas a conceituar
ou esclarecer o conteúdo das tabelas.
• Chamadas - também colocadas no rodapé (se necessárias). Servem para esclarecer minúncias em relação
às casas, colunas ou linhas.
6
Algumas observações fazem-se importantes na elaboração de uma tabela. São elas:
1. Nenhuma casa da tabela deve ficar em branco. Na ausência de um dado numérico, emprega-se alguns dos
sinais convencionais, como hífen, reticências, etc. (Veja explicação em sala de aula com seu professor).
2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo fechadas à direita ou
à esquerda por linhas verticais. É facultativo o emprego de traços verticais para a separação de colunas
no corpo da tabela.
3. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem crescente,
conforme a ordem do aparecimento.
4. Os totais e subtotais devem ser destacados.
5. Deverá ser mantida a uniformidade, quanto ao número de casas decimais.
2.4.2 DISTRIBUIÇÃO DE FREQUÊNCIA
As distribuições de frequências constituem-se num caso particular das séries estatísticas, nas quais todos os
elementos são fixos. Agora os dados referentes ao fenômeno são apresentados através de gradações, onde é
feita a correspondênciaentre categorias ou valores possíveis e as frequências respectivas.
A definição de alguns conceitos será importante para o uso da linguagem apropriada ao elaborarmos
e analisarmos as distribuições de frequências. No total, são 9 conceitos a serem apresentados. A seguir
definiremos 5 primeiros, válidos para quaiquer distribuição de freqüências, e mais adiante apresentaremos os
4 últimos, específicos para dados agrupados em classes.:
1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.
Ex: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993.
24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 - 30 - 32 - 25 -
26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 - 31
Como pode ser observado, os valores estão dispostos de forma desordenada. Em razão disso, pouca
informação se consegue obter inspecionando-se os dados anotados. Mesmo uma informação tão simples
como a de saber os valores mínimos e máximo requer um certo exame dos dados coletados.
2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente.
Ex: Utilizando os mesmos dados anteriores:
21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 -
33 - 34 - 34 - 34 - 35 - 35 - 36
Apresenta vantagens concretas em relação aos dados brutos. Ela torna possível visualizar, de forma
bem ampla, as variações dos dados, uma vez que os valores extremos são percebidos de imediato. Mas,
a análise com este tipo de disposição começa a se complicar quando o número de observações tende a
crescer.
3. Amplitude total ou ”range” (A) - É a diferença entre o maior e o menor valor observado da variável
em estudo.
Ex: Utilizando os mesmos dados anteriores:
A = 36 - 21 = 15.
4. Frequência absoluta simples (fi) - É o número de vezes que o elemento aparece na amostra ou o
número de elementos pertencentes a uma classe.
7
5. Frequência total (ft) - É a soma das frequências simples absolutas de todos os elementos observados.
Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de frequência. Uma
tabela com distribuição de frequência é uma tabela onde se procura fazer um arranjo dos valores e suas
respectivas frequências, onde a frequência de determinado valor será dado pelo número de observações ou
repetições de um valor ou de uma modalidade. As tabelas de frequências podem representar tanto valores
individuais como valores agrupados em classes.
Essas tabelas podem ser classificadas em:
• Distribuição de Frequências de Dados Tabulados Não-Agrupados em Classes - é uma tabela
onde os valores da variável aparecem individualmente. Esse tipo de distribuição é utilizado geralmente
para representar uma variável discreta, com pouca variedade de valores.
Exemplo : Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuição de frequências
de dados não agrupados.
Tabela 1: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993.
Idade (Xi) fi
21 3
22 2
23 2
24 1
25 4
26 3
28 1
30 1
31 3
32 1
33 3
34 3
35 2
36 1
TOTAL (fi) 30
Fonte: (dados hipotéticos)
Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que apresentam uma
grande quantidade de valores distintos, uma vez que a tabela poderá ficar muito extensa, dificultando, além
de sua elaboração, as análises e conclusões dos dados pesquisados.
Note que a soma das frequências absolutas simples é sempre igual ao número total de valores observados.
• Distribuição de Frequências de Dados Agrupados em Classes.
Muitas vezes com o objetivo de resumir os dados originais em uma distribuição de frequências, utilizare-
mos os dados agrupados em classes e não mais individualmente. Classe pode ser definida como sendo os
subintervalos da Amplitude Total de uma variável (grupo de valores).
Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar os valores observados
em classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for
muito grande, recomenda-se o agrupamento dos dados em classes. Nesse último caso, o procedimento visa a
evitar certos inconvenientes, como:
8
1. grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretação dos
resultados apurados.
2. o aparecimento de diversos valores da variável com frequência nula.
3. impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um todo, bem
como de sua variação.
Este tipo de tabela informa, de imediato, a tendência de a série se concentrar em torno de um valor central,
além de proporcionar uma visão panorâmica do comportamento da variável, o que seria impossível de se fazer
a partir da lista dos dados brutos.
Ex: Utilizando os mesmos dados anteriores, temos:
Tabela 2: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993.
Idade Frequências (fi)
21 |– 24 7
24 |– 27 8
27 |– 30 1
30 |– 33 5
33 |– 36 9
TOTAL 30
Fonte: (dados hipotéticos)
O símbolo |– indica a inclusão do limite inferior do intervalo naquela classe.
Outras possibidades são: –| , |–| , –
Para construção de tabelas de frequência para dados agrupados em classe os 4 conceitos listados a seguir,
complementam os 5 primeiros já apresentados:
1. Definição do número de classes - É representado por k. É importante que a distribuição conte com
um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidos
que pouca informação poderá ser extraída desta tabela. Se, por outro lado, forem utilizadas muitas
classes, haverá algumas com frequência nula ou muito pequena, apresentando uma distribuição irregular
e prejudicial à interpretação do fenômeno.
Para determinar o número de classes há diversos métodos. Nós aprenderemos duas soluções:
(a) k = 5, para n ≤ 25 e k =
√
n , para n > 25.
(b) Fórmula de Sturges: K = 1+ 3, 3 log10 n, onde n é o tamanho da amostra
Exemplo: Se n = 49 teríamos:
• pelo primeiro método: k = 7
• pelo segundo método: k = 1 + 3, 3 log10 49 ==> k = 6, 58 ==> k ≈ 7
Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter em
mente é que a escolha dependerá sobretudo da natureza dos dados e da unidade de medida em
que eles se encontram, e não somente de regras muitas vezes arbitrárias e pouco flexíveis. Para
facilitar a análise é conveniente que se mantenham os intervalos de classe sempre constantes.
2. Limites de Classe - Os limites de classe são seus valores extremos. No exemplo anterior de dis-
tribuição de frequência, o valor 21 é denominado limite inferior da primeira classe, enquanto o valor 24
é denominado limite superior da primeira classe.
9
3. Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde ao
comprimento desta classe. Numericamente, sua amplitude pode ser definida como a diferença existente
entre os limites superior (ou inferior) de duas classes consecutivas.
Ex: Utilizando os mesmos dados anteriores:
h = 24− 21 = 3
4. Pontos Médios ou Centrais da Classe (xj) - É a média aritmética simples entre o limite superior
e o inferior de uma mesma classe.
Ex: Utilizando os mesmos dados anteriores:
x1 =
24+21
2 = 22, 5
Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da classe precedente
a amplitude do intervalo de classe.
TIPOS DE FREQUÊNCIAS
Frequências Simples
½
Absoluta
Relativa
Frequência Acumulada



“Abaixo de”
(crescente)
½
Absoluta
Relativa
“Acima de”
(dcrescente)
½
Absoluta
Relativa
1. Frequência Simples:
(a) Frequência Simples Absoluta (fi) - é o número de repetições de um valor individual ou de uma
classe de valores da variável. Trata-se do caso visto até o presente momento.
(b) FrequênciaSimples Relativa (fri) - representa a proporção de observações de um valor indi-
vidual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de um
número relativo.
fri =
fiP
fi
= fift (1)
Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100:
fri =
fi
n .100 (2)
2. Frequências Acumuladas:
(a) Frequências Acumuladas “Abaixo de ”:
i. Absoluta (Fiab) - é a soma da frequência simples absoluta de uma classe ou de um dado
valor com as frequências simples absolutas das classes ou dos valores anteriores. A expressão
”abaixo de” refere-se ao fato de que as frequências a serem acumuladas correspondem aos
valores menores ou anteriores ao valor ou à classe cuja frequência acumulada se deseja obter,
incluindo no cálculo a frequência do valor ou da classe. É utilizada toda vez que se procura
saber quantas observações existem até uma determinada classe ou valor individual.
10
ii. Relativa (Friab) - é a soma da frequência simples relativa dessa classe ou desse valor com as
frequências simples relativas das classes ou dos valores anteriores.
(b) Frequências Acumuladas ”Acima de”:
i. Absoluta (Fiac) - representa o número de observações existentes além do valor ou da classe,
incluindo no cálculo as observações correspondentes a esse valor ou a essa classe. Para obter este
tipo de frequência, basta somar à frequência simples absoluta da classe ou do valor individual,
as frequências simples absolutas das classes ou dos valores individuais posteriores.
ii. Relativa (Friac) - igual à soma da frequência simples relativa dessa classe ou desse valor com
as frequências simples relativas das classes ou dos valores posteriores.
Exemplo com as frequências apresentadas.
Tabela 3: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993.
Idade Node alunos(fi) fri fri (%) Fiab Fiab (%) Fiac Fiac (%)
21 |– 24 7 0.23 23 7 23 30 100
24 |– 27 8 0.27 27 15 50 23 77
27 |– 30 1 0.03 3 16 53 15 50
30 |– 33 5 0.17 17 21 70 14 47
33 |– 36 9 0.30 30 30 100 9 30
TOTAL 30 1.00 100 ... ... ... ...
Fonte: (dados hipotéticos)
2.4.3 APRESENTAÇÃO GRÁFICA
A apresentação gráfica é um complemento importante da apresentação tabular. A principal vantagem de um
gráfico sobre a tabela prende-se ao fato de que ele permite conseguir uma visualização imediata da distribuição
dos valores observados. Propiciam os gráficos uma idéia preliminar mais satisfatória da concentração e dis-
persão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de grandezas
visualmente interpretáveis.
Os gráficos devem ser auto-explicativos e de fácil compreensão, de preferência sem comentários inseridos.
Devem ser simples, atrair a atenção do leitor e inspirar confiança. Todo gráfico deve apresentar um título e
uma escala, dispensando esclarecimentos adicionais no texto.
Os gráficos podem ser cartogramas ou diagramas. Identifiquemos cada um deles:
1. Cartogramas - são mapas geográficos ou topográficos em que as frequências das categorias de uma
variável são projetadas nas áreas específicas do mapa, utilizando-se cores ou traçados cujos significa-
dos constam em legendas anexadas às figuras. Em epidemiologia, os mapas alfinetados são de grande
emprego para apreciar o aparecimento e expansão de certas moléstias.
Esse tipo de representação gráfica é de grande utilidade em Saúde Pública, sobretudo na elaboração de
inquéritos epidemiológicos em que se deseja conhecer a distribuição geográfica de casos e óbitos de uma
determinada doença epidêmica.
2. Diagramas - são gráficos em que a magnitude das frequências é representada por certa mensuração de
uma determinada figura geométrica. São os gráficos mais usados na representação de séries estatísticas
e se apresentam através de uma grande variedade de tipos.
11
• Tipos de Diagramas:
(a) Gráficos em Linhas ou Gráficos Lineares - São frequentemente usados para a representação
de séries temporais. As linhas são mais eficientes neste tipo de gráfico porque permitem a detecção
de intensas flutuações nas séries e também possibilitam a representação de várias séries em um
mesmo gráfico.
(b) Gráficos Pictóricos (Pictogramas) - São gráficos construídos a partir de figuras ou conjunto
de figuras representativas da intensidade ou das modalidades do fenômeno. São gráficos muito
comuns em jornais e revistas, tendo como principal vantagem o fato de despertar a atenção do
público leitor.
(c) Gráficos em Barras - Têm por finalidade comparar grandezas, por meio de retângulos de igual
largura e alturas proporcionais às respectivas grandezas. Cada barra representa a intensidade de
uma modalidade ou atributo.
(d) Gráficos em Colunas - Prestam-se à mesma finalidade dos gráficos em barras horizontais, sendo,
entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os retângulos forem
breves.
(e) Gráficos de Colunas Remontadas ou de Barras Agrupadas - São utilizados para estabelecer
comparações entre duas ou mais categorias.
(f) Gráficos em Setores - São utilizados para representar valores absolutos ou porcentagens com-
plementares. Utilizados quando se pretende comparar cada valor da série com o total.
A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot será explicado mais adiante.
a. Gráfico em linha: c. Gráfico em barras
Gráfico 1. Quantidade de resíduos industriais jogados no rio 
Acushnet, em partes por milhão, em New Bedford, estado de 
Massachussetts. 1990.
5,8 5,7
4,9
7,5
5,1
0
2
4
6
8
10
1980 1981 1982 1983 1984
Período
Fr
eq
üê
nc
ia
Gráfico 2. A produção de cereais no Brasil, segundo os 
Estados produtores, em 1996.
10
27
38
21
0 10 20 30 40 50
Maranhão
Piauí
Sergipe
Bahia
E
st
ad
os
Freqüências
12
d. Gráfico em colunas e. Gráfico em colunas remontadas
Gráfico 3. Consumo de gasolina, em milhas por galão (mpg) 
de 5 modelos compactos de automóvel, em Prince, estado de 
Massachussetts. 1990
38
28
41
35
26
0
10
20
30
40
50
Mazda 808 Vega Toyota
Corolla
Dodge Colt Toyota
Celica
Modelos
C
os
um
o 
(m
pg
)
Gráfico 4. Consumo de equipamentos, em milhões de 
unidades, de uma determinada cidade, em Pernambuco.
1,2
2,7
3,6 3,8
4,2
8,5
5
3
2,42,7
1,20,5
0
2
4
6
8
10
Produtos
Fr
eq
üê
nc
ia
s
1996
1997
f. Gráfico em setores g. Box-Plot
Gráfico 5. A produção de cereais no Brasil, segundo os 
Estados produtores, 1996.
10%
28%
40%
22%
Maranhão
Piauí
Sergipe
Bahia
 
100 100 N = 
 Peso após 10 dias Peso ao Nascer 
2100 
2000 
1900 
1800 
1700 
1600 
1500 
1400 
D istribuição do peso de todas as crianças prematuras ao nascer e 
após dez dias de aplicação da dieta alimentar. Hospital W W W , 
Salvador, 1998. 
 
2.4.3.1 GRÁFICOS REPRESENTATIVOS DAS DISTRIBUIÇÕES DE FREQUÊNCIA
A representação gráfica das distribuições de frequência é feita através do histograma e do polígono de frequên-
cia.
1. Histograma - É um gráfico formado por um conjunto de retângulos justapostos, de forma que a área
de cada retângulo seja proporcional à frequência da classe que ele representa.
2. Polígonos de Frequência - Unindo por linhas retas os pontos médios das bases superiores dos retân-
gulos do histograma, obtém-se outra representação dos dados, denominada polígono de frequência.
Maiores informações sobre esses e outros tipos de gráfico serão fornecidas em aula pelo professor.
CURIOSIDADE:
Florence Nightingale
Florence Nightingale (1820-1910) é conhecida por muitos como a fundadora da profissão de enfermeira,
mas ela também salvou milhares de vidas utilizando a estatística. Ao encontrar um hospital em más condições
13
sanitárias e sem suprimentos,tratou de melhorar essas condições e passou a utilizar a estatística para con-
vencer as autoridades da necessidade de uma reforma médica mais ampla. Elaborou gráficos originais para
mostrar que, durante a guerra da Criméia, morreram mais soldados em consequência de más condições san-
itárias do que em combate. Florence Nightingale foi a pioneira na utilização não só da estatística social como
das técnicas de gráficos.
Fonte: TRIOLA, Mário. Introdução à Estatística. LTC Editora, 7aedição. Rio de Janeiro, 1999
2.5 MEDIDAS DE TENDÊNCIA CENTRAL
Vimos até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de frequências.
Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados relativos à
observação de determinado fenômeno de forma resumida.
As medidas de tendência central são também chamadas de medidas de posição, e estabelecem o valor em
torno do qual os dados se distribuem.
Vale a pena chamar a atenção que, para o cálculo dessas medidas, é necessário que a variável seja quanti-
tativa.
• As principais medidas de tendência central são:
2.5.1 Médias.
São as medidas de tendência central mais comumente utilizadas para descrever resumidamente uma dis-
tribuição de frequência.
Média Aritmética
1. Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e a frequência
total ( o número total de observações).
Genericamente, podemos escrever:
X =
P
xi
n (3)
onde xi=valor genérico da observação
n = tamanho da amostra =no. de observações
Este tipo de média aritmética será calculada quando os valores não estiverem tabulados, ou seja, quando
aparecerem representados individualmente como é o caso dos dados brutos, por exemplo.
Ex: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em kg):
23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0
n = 10
X =
23, 0 + 20, 0 + 22, 0 + 19, 0 + 25, 0 + 28, 2 + 24, 0 + 21, 0 + 27, 0 + 21, 0
10
=⇒ X¯ = 23, 0
Isso significa que o peso médio é de 23,0 kg. É claro que foram obtidos pesos de crianças desta idade que
se encontram abaixo ou acima do valor médio. No entanto, a média representa um valor típico (Soares
& Siqueira,1999).
2. Média Aritmética Ponderada: É a média aritmética calculada quando os dados estiverem agrupados
em distribuições de frequência. Os valores x1, x2, ..., xn serão ponderados pelas respectivas frequências
absolutas f1, f2, ..., fn.
14
Então teremos:
X =
P
xifi
n
Exemplos:
(a) Para tabelas de distribuição de dados não agrupados (TABELA 4):
Tabela 4: Número de cáries em crianc´as de 7 anos de idade. Candeias.1990.
No de dentes careados (xi) Node crianças (fi) xifi
0 3 0
1 2 2
2 4 8
3 2 6
4 1 4
5 1 5
TOTAL 13 25
Fonte: (dados hipotéticos)
X =
0(3) + 1 (2) + 2 (4) + 3 (2) + 4 (1) + 5 (1)
13
=
2 + 8 + 6 + 4 + 5
13
=
25
13
= 1, 923 ≈ 2, 0
O número médio de cáries por criança é 2,0 entre a população avaliada em Candeias, ou seja, em
média cada criança de 7 anos apresenta 2 cáries.
(b) Para tabelas de distribuição de dados agrupados em classes (TABELA 5):
Tabela 5: Casos de Aids segundo faixa etária. Bahia. 1993.
Faixa Etária fi(×1000) xi(ponto médio) xifi
15 |– 25 25 20 500
25 |– 35 30 30 900
35 |– 45 15 40 600
45 |– 55 10 50 500
TOTAL 80 ... 2500
Fonte: (dados hipotéticos)
X =
P
xi fi
n
=
2500
80
... ==> X = 31, 25 ≈ 31, 0
Interpretação: A idade média dos pacientes de Aids na Bahia, em 1993, foi de 31 anos.
A desvantagem da média aritmética relaciona-se com a existência de valores extremos (muito
grandes ou muito pequenos), que podem distorcer o resultado final. Há casos em que outros tipos
de média são mais adequados, como a média geométrica ou harmônica.
Média Geométrica
1. Também pode ser simples ou ponderada, conforme se utilize ou não em seu cálculo uma tabela de
frequências.
2. Média Geométrica Simples: A média geométrica de n valores é definida, genericamente, como a raiz
n-ésima do produto entre eles.
Dados n valores x1, x2, ..., xn, a média geométrica desses valores será:
Xg = n
√
x1 x2..... xn (4)
15
3. Média Geométrica Ponderada: É a média geométrica quando os dados estiverem agrupados em
uma distribuição de frequência. Será calculada por meio da expresssão:
Xg =
Σfi
q
xf11 x
f2
2 .....x
fn
n (5)
A média geométrica é usada principalmente em problemas envolvendo mudanças proporcionais. Em De-
mografia é utilizada para se estimar a população de determinada localidade, quando se supõe crescimento
geométrico. Também é utilizada em biologia para análises relacionadas com crescimento de organismos,
como bactérias, por exemplo, ou contagem de ovos de parasitas.
Média Harmônica:
É o inverso da média aritmética dos inversos.
Os inversos dos valores ,X1, X2, ...,Xnserão: 1X1 ,
1
X2
, ..... 1Xn ,Assim, como X =
nP
i=1
xi
n
, temos:
Xh =
1
nP
i=1
1
xi
n
=
1
1
X1
+ 1
X2
+.....+ 1
Xn
n
=
n
nP
i=1
1
xi
De maneira análoga, temos a definição de média harmônica para dados agrupados em classes.
Esse tipo de média é, sobretudo, usada para construção de índices econômicos.
Em geral, temos :Xh 6 Xg 6 X.
CURIOSIDADE:
Um cidadão médio
Um homem americano ”médio” chama-se Robert. Tem 31 anos, altura de 1,75 cm, pesa 78 kg, seu
manequim é 48, calça sapatos tamanho 43 e tem 85 cm de cintura. Consome anualmente 5,6 kg de massa,
11,8 kg de bananas, 1,8 kg de batatas fritas, 8,15 kg de sorvete e 35,8 kg de carne. Em cada ano, vê televisão
durante 2567 horas e recebe 585 cartas ou assemelhados pelo correio. Após comer sua porção de batatas fritas,
ler a correspondência e ver televisão, ele termina o dia com 7,7 horas de sono. O dia seguinte começa com
21 minutos de transporte para um emprego, onde trabalha 6,1 horas.
Fonte: TRIOLA, Mário. Introdução à Estatística. LTC Editora, 7aedição. Rio de Janeiro, 1999
Mediana (Md) É definido como o valor que divide uma série ordenada de tal forma que pelo menos a
metade dos itens sejam iguais ou maiores do que ela, e que a outra metada dos itens sejam menores do que
ela. Colocados em ordem crescente, a mediana é o elemento que ocupa a posição central.
Como a mediana divide os dados ordenados ao meio, ela não é sensível a valores discrepantes. A depender
de como estejam os dados, deve-se diferenciar a forma como encontra-se a mediana.
1. Determinação da Mediana de Valores não-tabulados.
Processa-se a partir de um rol ou lista ordenada dos dados. Podem ocorrer duas hipóteses com relação
ao número de observações n: que ele seja ímpar ou par. Veremos os dois casos:
(a) Número ímpar de observações:
Requer, em primeiro lugar, que se determine a ordem em que se encontra a mediana na série. Para
isto encontramos:
Emd =
n+1
2 (6)
O passo seguinte será localizar a mediana na lista de valores, de acordo com o resultado obtido no
cálculo do elemento mediano (Emd).
16
(b) Número par de observações:
Neste caso, o elemento mediano será determinado através da expressão:
Emd =
n
2 (7)
A mediana será determinada pela média aritmética entre os valores que ocupam a posição definida
pelo elemento mediano e a posição sucessora.
2. Determinação da Mediana de Valores Tabulados não-Agrupados em Classes.
Da mesma forma como foi calculado anteriormente, definiremos o elemento mediano. Em seguida,
acrescentaremos à tabela de frequência uma coluna de frequências acumuladas ”abaixo de” absoluta.
Com o uso destas frequências encontraremos a posição definida pelo elemento mediano, na qual estará
a mediana.
Exemplo: Cálculo da mediana para os dados da tabela 4 da secção de média.
Tabela 6: Número de cáries em crianças de 7 anos de idade. Candeias. 1990.
No de dentes careados (xi) Node crianças (fi) Fiab
0 3 3
1 2 5
2 4 9
3 2 11
4 1 12
5 1 13
TOTAL13 ...
Fonte: (dados hipotéticos)
Solução: n = 13 ==> Emd =
(n+1)
2 =
14
2 = 7.
Como n é ímpar —> a mediana é definida pelo valor que ocupa a 7aposição. Com base nas informações
da coluna que contém as frequências acumuladas ”abaixo de” absoluta, a mediana é igual a 2.
Interpretação: 50% das crianças de 7 anos apresentaram 2 oumenos cáries numa comunidade de Candeias
em 1990.
3. Determinação da Mediana de Valores Tabulados Agrupados em Classes.
Neste caso, encontramos o elemento mediano através da fórmula Emd = n2 , não se fazendo distinção
entre número par ou ímpar de observações. A partir daí, determinaremos a classe mediana, após a qual
a mediana será calculada através da seguinte expressão:
Md = l + h.Emd−Fantfmd (8)
onde,
l = limite inferior da classe mediana;
h = amplitude do intervalo de classe
Emd = elemento mediano
Fant = frequência acumulada até a classe anterior à classe mediana
fmd = frequência absoluta simples da classe mediana.
17
Exemplo: Cálculo da mediana para os dados da Tabela 5
Casos de Aids segundo faixa etária. Bahia. 1993
Faixa Etária fi(×1000) Fiab
15 |– 25 25 25
25 |– 35 30 55
35 |– 45 15 70
45 |– 55 10 80
TOTAL 80 ...
Fonte: (dados hipotéticos)
n = 80 ==> Emd =
80
2 = 40.
O elemento que ocupa a 40aposição encontra-se na 2aclasse. Logo,
Md = 25 + 10(40−25)30 ==> Md = 30
Interpretação: 50% dos pacientes de Aids na Bahia, em 1993, tinham idade igual ou inferior a 30 anos.
2.5.2 Moda (Mo)
A moda é outra medida de tendência central, sendo, no entanto a menos importante. Sua vantagem é que pode
ser usada para variáveis qualitativas. Genericamente, pode-se definir a moda como o valor mais frequente da
distribuição.
1. Determinação da Moda de Valores Não-Tabulados.
Considerando um conjunto ordenado de valores, a moda será o valor predominante, o valor mais fre-
quente desse conjunto. Embora seu significado seja o mais simples possível, nem sempre a moda existe
(distribuição amodal) e nem sempre é única. Se apresentar apenas uma moda diremos que é unimodal;
se possuir duas modas diremos que é bimodal; se tiver várias modas (mais que duas) diremos que é
multimodal.
2. Determinação da Moda para Valores Tabulados.
No caso de dados tabelados não agrupados em classe, a determinação da moda é imediata, bastando
para isso, consultar a tabela, localizando o valor que apresenta a maior frequência.
Exemplo:
Tabela 7: Indivíduos segundo o tipo sanguíneo.
Tipo de Sangue Frequência
O 417
A 292
B 94
AB 17
TOTAL 820
Fonte: (dados hipotéticos)
Os dados apresentados mostram que na amostra o sangue tipo O ocorreu com maior frequência. Então,
para esta amostra, a moda é sangue do tipo O.
Tratando-se de uma tabela de frequências com valores tabulados e agrupados em classes, o procedimento
não é imediato, sendo disponíveis alguns métodos de cálculo distintos. Qualquer que seja o método adotado,
o primeiro passo para determinar a moda é localizar a classe que apresenta a maior frequência, comumente
chamada de classe modal.
18
Nesse curso definiremos apenas o método da moda bruta, que consiste em tomar o ponto médio da classe
modal como sendo a moda. A classe modal será aquela que apresentar a maior frequência absoluta simples.
Exemplo:
Tabela 8: Notas da 1a Avaliação dos Alunos de Estatística IV da UFBA. 1996.1
Notas Alunos(fi) xi
0 |– 2 3 1
2 |– 4 5 3
4 |– 6 7 5
6 |– 8 6 7
8 |–10 1 9
TOTAL 22 ...
Fonte: (dados hipotéticos)
Para este exemplo temos que a terceira classe é a classe modal (fi = 7)e a moda bruta será seu ponto
médio:
Mo = 5. Interpretação: A nota mais frequente na 1aavaliação foi 5, 0.
2.6 SEPARATRIZES
São as medidas que separam o rol ou a distribuição de frequências em partes iguais. Vimos que a mediana
divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamos
estudar outras medidas que dividem a distribuição em partes iguais, que serão as chamadas separatrizes. São
elas:
2.6.1 Quartis (Qi):
Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
 Q1 Q2 Q3 
0% 25% 50% 75% 100% 
Q1: 1o quartil. Deixa 25% dos elementos antes do seu valor
Q2: 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana
Q3: 3o quartil. Deixa 75% dos elementos antes do seu valor.
Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte
expressão:
EQi =
in
4 (9)
onde:
i = número do quartil a ser calculado
n = número de observações.
Para dados agrupados em classes, encontraremos os quartis de maneira semelhante à usada para o cálculo
da mediana:
Qi = l + h.
[EQi−Fant]
fQi
(10)
19
onde,
l = limite inferior da classe que contém o quartil desejado
h = amplitude do intervalo de classe
EQi = elemento quartílico
Fant = frequência acumulada até a classe anterior à classe mediana
f Qi = frequência absoluta simples da classe quartílica.
2.6.2 Decis(Di):
Os decis dividem um conjunto de dados em dez partes iguais. Assim:
 D1 D3 
0% 
D4 
20% 40% 60% 80% 
D2 D5 D6 D7 D8 D9 
10% 30% 50% 70% 90% 100% 
De maneira geral, para calcular os decis, recorreremos à expressão que define a ordem em que o decil se
encontra:
EDi =
in
10 (11)
Para dados agrupados em classes, encontraremos os decis de maneira semelhante à usada para cálculo da
mediana e dos quartis.
2.6.3 Percentis ou Centis (Ci):
São as medidas que dividem a amostra em 100 partes iguais. Assim:
C1 C2 C3 C50 C97 C98 C99
0% 1% 2% 3% 50% 97% 98% 99%100%
O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão:
ECi =
in
100 (12)
onde:
i = número identificador do centil
n = número total de observações
Para dados agrupados em classes, encontraremos os centis de maneira semelhante à utilizada para cálculo
da mediana, dos quartis e dos decis.
Exemplo: Com base na tabela de distribuição de frequências abaixo encontre:
a) Primeiro quartil ; b) Septuagésimo quinto centil ; c) Nono decil
Resolução:
a) Q1
Encontrar a posição do primeiro quartil:
20
Tabela 9: Consumo médio de eletricidade (kw/hora) entre usuários. Rio de Janeiro. 1980.
Consumo (Kwh) Node usuários (fi) Fiab
5 |– 25 4 4
25 |– 45 6 10
45 |– 65 14 24
65 |– 85 26 50
85 |– 105 14 64
105 |– 125 8 72
125 |– 145 6 78
145 |– 165 2 80
TOTAL 80 ...
Fonte: (dados hipotéticos)
EQ1 =
n
4 =
80
4 = 20
O Q1 está localizado na 20aposição, logo encontra-se na 3aclasse. Com base nesses dados, calcularemos
Q1 da seguinte forma:
Q1 = 45 +
20[20−10]
14 = 59.29
Interpretação: 25% dos usuários consomem até 59,59 kwh. De maneira análoga, 75% dos usuários con-
somem mais de 59,59 kwh.
b) C75
Encontrar a posição do centil 75:
EC75 = 75
n
100 = 75
(80)
100 = 60
O C75 está localizado na 60aposição, logo encontra-se na 5aclasse. Com base nesses dados, calcularemos
C75 da seguinte forma:
C75 = 85 +
20[60−50]
14 = 99.29
Interpretação: 75% dos usuários consomem até 99,29 kwh. De maneira análoga, 25% dos usuários con-
somem mais de 99,29 kwh.
c) D9
Encontrar a posição do 9odecil:
ED9 = 9
n
10 = 9
(80)
10 = 72
O D9 está localizado na 72aposição, logo encontra-se na 6aclasse. Com base nesses dados, calcularemos
D9 da seguinte forma:
D9 = 105 +
20[72−64]
8 = 125
Interpretação: 90% dos usuários consomem até 125 kwh. De maneira análoga, 10% dos usuários consomem
mais de 125 kwh.
2.7 MEDIDAS DE DISPERSÃO
Para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de números, lançaremos mão das
estatísticas denominadas medidas de dispersão. Essas nos proporcionarão um conhecimento mais completo
do fenômeno a ser analisado, permitindo estabelecer comparações entre fenômenos da mesma natureza e
mostrando até que ponto os valores se distribuem acima ou abaixo da medida de tendência central.
2.7.1 TIPOS DEMEDIDAS DE DISPERSÃO
1. Amplitude Total ou Intervalo Total (A) =>É a diferença entre os valores extremos da série.
A = Xma´x −Xmı´n
21
A amplitude nos dá a idéia do campo de variação dos valores da série. No entanto, devemos frisar que a
amplitude não é uma boa medida de dispersão porque seu cálculo se baseia apenas nos valores extremos
da amostra e não em todos os dados.
2. Desvio-Padrão (S) => É a medida de dispersão mais usada e mais importante. Mede a concentração
dos dados em torno da média. É dado pela soma dos quadrados dos desvios dividido pelo número total
de observações.
(a) Desvio-padrão de dados brutos:
S =
s
nP
i=1
(xi − x)2
n− 1 (13)
Exemplo: Calcular o desvio-padrão do conjunto A = {10, 12, 13, 20, 25, 34, 45}X = 22, 71
Tabela 10: Cálculo do Desvio Padrão.
Xi di = (xi − x) d2i = (xi − x)2
10 -12,714 161,646
12 -10,714 114,790
13 -9,714 94,362
20 -2,714 7,366
25 2,286 5,226
34 11,286 127,374
45 22,286 496,666
TOTAL ...
P
d2i = 1.007, 430
S =
q
1.007,430
6 = 12, 958
(b) Desvio-padrão de dados tabulados:
Quando os valores vierem dispostos em uma tabela de frequências, o cálculo do desvio-padrão se
fará através da seguinte fórmula:
S =
s
kP
i=1
(xi − x)2fi
n− 1 (14)
onde xi = ponto médio da classe
Exemplo: Calcular o desvio-padrão para os dados da Tabela 12.
X =
kP
i=1
xj fj
n =
630
80 ==> X = 79, 5 S =
s
kP
i=1
(xi − x)2 fi
n− 1 =
q
80.780
79 ==> S = 31, 977
3. Variância (S2) =>Será dada pelo quadrado do desvio-padrão.
S2 =
nP
i=1
(xi − x)2
n− 1 (15)
22
Tabela 11: Distribuição de frequências do consumo de energia elétrica (kwh).
Consumo (Kwh) No de Usuários (fi) xi xifi (xi − x) (xi − x)2 (xi − x)2fi
5 |– 25 4 15 60 -64,5 4160,25 16641,0
25 |– 45 6 35 210 -44,5 1980,25 11881,5
45 |– 65 14 55 770 -24,5 600,25 8403,5
65 |– 85 26 75 1950 -4,5 20,25 526,5
85 |– 105 14 95 1330 15,5 240,25 3363,5
105 |– 125 8 115 920 35,5 1260,25 10082,0
125 |– 145 6 135 810 55,5 3080,25 18481,5
145 |– 165 2 155 310 75,5 5700,25 11400,5
TOTAL 80 ... 6360 ... ... 80780
Fonte: (dados hipotéticos)
Interpretação do desvio-padrão (análoga à da variância):
• Devemos ter em mente que o desvio-padrão mede a variação entre valores. Assim:
• Se os valores estiverem próximos uns dos outros, então o desvio-padrão será pequeno, e conse-
quentemente os dados serão homogêneos.
• Se os valores estiverem distantes uns dos outros, então o desvio-padrão será grande, e consequente-
mente os dados serão heterogêneos.
• A desvantagem do uso da variância perante o uso do desvio-padrão é que a unidade de medida
utilizada é igual ao quadrado da unidade de medida dos dados. No entanto, por conta da maior
facilidade do trato algébrico com funções quadráticas, a variância será a medida de dispersão mais
utilizada quando tratarmos da inferência estatística.
4. Coeficiente de Variação (CV) => Trata-se de uma medida relativa de dispersão, útil para compara-
ção em termos relativos do grau de concentração em torno da média de séries distintas.
É dado por:
CV =
S
X
× 100. (16)
Como o CV é uma medida que exprime a variabilidade relativa à média, é usualmente expresso em
porcentagem.
Exemplo:
Grupo I —> CV = 66, 67%, S = 2,X = 3
GrupoII —> CV = 3, 64%, S = 2,X = 55
Como vemos, a dispersão dos dados é a mesma para os dois grupos. Entretanto as médias são diferentes.
Isso determina a diferença da dispersão relativa, medida pelo coeficiente de variação. Neste caso, o desvio 2
é muito mais importante para o grupo I do que para o grupo II, o que é confirmado através do CV.
Obs: Para efeitos práticos, costuma-se considerar que o CV superior a 50% indica alto grau de dispersão
e, consequentemente, pequena representatividade da média. Enquanto que para valores inferiores a 50%, a
média será tanto mais representativa quanto menor for o valor de seu CV.
Exemplo: A Tabela 13 representa a distribuição de recém-nascidos vivos, segundo o peso, em gramas.
Calcule o desvio-padrão, a variância e o coeficiente de variação, e compare os resultados encontrados com as
respostas apresentadas.
23
Tabela 12: Peso de recém-nascidos.
Peso (em gramas) (fi) Xi
500 |– 1000 1 750
1000 |– 1500 3 1250
1500 |– 2000 22 1750
2000 |– 2500 115 2250
2500 |– 3000 263 2750
3000 |– 3500 287 3250
3500 |– 4000 99 3750
4000 |– 4500 32 4250
TOTAL 80 ...
Fonte: SAME/ FCM/ UNICAMP
Solução:
Inicialmente precisaremos calcular a média aritmética, cujo valor para este conjunto de dados é de 2998,8
gramas.
Com esta informação pode-se, então, encontrar o desvio padrão (555,2 gramas) e a variância (308.240,6
gramas2).
Para avaliar a variabilidade desses dados o coeficiente de variação é uma ferramenta fundamental, per-
mitindo uma análise mais clara sobre a importância da dispersão dos pesos desses recém-nascidos. Assim,
o Coeficiente de Variação = 18,5%, o que indica que não há uma grande variabilidade entre os pesos dos
recém-nascidos avaliados, que se apresentam homogêneos.
2.8 MEDIDAS DE ASSIMETRIA
As medidas de assimetria são utilizadas para avaliar o grau de assimetria da distribuição de frequências, sendo
que assimetria pode ser definida como o grau de deformação de uma curva de frequências.
Vamos aprender algumas formas de avaliar a assimetria das curvas de frequência dos dados:
2.8.1 Relação entre média, mediana e moda
Uma primeira verificação da assimetria pode ser feita através da comparação entre os valores observados para
a média, mediana e moda. Desta forma teremos abaixo esta relação, com a respectiva representação gráfica
através de polígono de frequências.
a) Se a distribuição é simétrica: (X =Md =Mo)
M oda = M edia = M ediana 
24
b) Se a distribuição é assimétrica positiva ou à direita: (X >Md > Mo)
 Mo Med Media 
c) Se a distribuição é assimétrica negativa ou à esquerda: (X <Md < Mo)
 Media Med Mo 
2.8.2 Coeficiente de Assimetria de Pearson (Sk)
Indica o grau de distorção da distribuição em relação à uma distribuição simétrica.
É dado por:
Sk =
X −Mo
S
(17)
Interpretação:
Se Sk = 0, a distribuição é simétrica
Se Sk > 0, a distribuição é assimétrica positiva
Se Sk < 0, a distribuição é assimétrica negativa
2.8.3 Coeficiente Quartil de Assimetria (eQ)
O coeficiente Quartil de Assimetria (eQ)=> É um coeficiente muito útil, sobretudo quando não temos
o desvio-padrão. É dado por:
eQ =
Q3 − 2Md+Q1
Q3 −Q1
(18)
onde −1 < e
Q
< 1
Interpretação:
Se eQ = 0, a distribuição é simétrica
Se eQ > 0, a distribuição é assimétrica positiva
25
Se eQ < 0, a distribuição é assimétrica negativa
Exemplo: Avalie a assimetria da distribuição dos pesos de recém-nascidos vivos do exemplo anterior.
a) Relação entre média, mediana e moda.
X = 2998, 8;Md = 3012, 2;Mo = 3250, 0
Logo : X <Md < Mo =⇒ curva assimétrica negativa
b) Coeficiente de assimetria de Pearson:
Sk =
X−Mo
S =
2998,8−3250,0
555,2 = −0, 45 =⇒ curva assimétrica negativa
c) Coeficiente quartil de assimetria:
eQ =
Q3−2Md+Q1
Q3−Q1 =
3370,2−2(3012,2)+2622,6
3370−2662,6 = −0, 04 =⇒ curva assimétrica negativa
2.9 COMPARAÇÃO ENTRE PROPORÇÃO, RAZÃO E TAXA
Iremos realizar uma discussão breve destes termos e da distinção entre eles. Do ponto de vista estatístico
representam medidas simples, mas que permitem estabelecer comparação entre grupos.
2.9.1 PROPORÇÃO (frequência relativa simples)
A proporção de indivíduos de uma dada categoria é definida através do quociente entre o número de indi-
víduos pertencentes a essa categoria e o número total de indivíduos considerados, devendo as categorias ser
mutuamente exclusivas e exaustivas. A proporção é expressa mais comumente em percentagem.
Algumas medidas importantes na análise do processo saúde-doença são definidas como proporções, como,
por exemplo, as seguintes:
PROPORÇÕES UTILIZADAS EMMORTALIDADE
1. Mortalidade proporcional segundo a idade
Exemplo: Proporc. Mort..de menores de 1ano =
node óbitos em menores de 1ano, áreaA, tempo t
total de óbitos, área A, tempo t
Tabela 13: Proporção de óbitos por acidentes de trânsito na faixa etária de 15-29 anos de idade. Região
Nordeste. Brasil. 1980-1995.
Ano NodeÓbitos por acid. trânsito entre 15 - 29 Nototal de óbtos por acid. trânsito Proporção
1980 1025 3462 29,61
1995 1705 5543 30,76
Fonte: MS/ DATASUS
2. Mortalidade proporcional segundo o sexo
Exemplo: Mort. Proporc. para o sexo feminino =
node óbitos em ind. sexo feminino, área A, tempo t
total de óbitos, área A, tempo t
3. Mortalidade proporcional segundo causas
Serve para indicar a importância de determinada causa ou grupo de causas em uma determinada área e,
até certo ponto, representam subsídio para o delineamento de prioridades no setor saúde.
Exemplo: Mort. Proporc. pela doença D =
node óbitos pela doença D, área A, tempo t
total de óbitos, área A, tempo t
26
2.9.2 RAZÃO ( ou índice)
O termo razão é usado quando A e B representam características separadas e distintas, e calculamos o
quociente entre o número de elementos que representam cada uma das categorias. Como exemplos de razões
temos: médicos/habitantes; leitos/habitantes; telefones/habitantes; cobertura vegetal/total área.
Exemplo:
Tabela 14: Populações masculina e feminina e razão de masculinidade (por 1000 mulheres), segundo as grandes
Regiões do Brasil. 1980.
Sexo Masculino Feminino Razão de Masculinidade
Regiões
Norte 2992144 2893392 1034,1
Nordeste 17054379 17801090 958,1
Sudeste 25731364 26014954 989,1
Sul 9529280 9509655 1002,1
Centro-Oeste 3838932 3705675 1036,0
BRASIL 59146099 59924766 987,0
Fonte: LAURENTI, Estatística de Saúde, E.P.U. 1987
Interpretação: No Brasil, em 1980, a razão de masculinidade assumiu o valor de 987.0 homens para 1000
mulheres.
2.9.3 TAXA ( ou Coeficiente)
É usual multiplicar-se o resultado obtido por um número múltiplo de 10, que constitui a chamada base
do coeficiente à qual deve, obrigatoriamente, ser acrescentada a unidade de referência usado no denominador
(habitantes, mulheres, homens, nascidos vivos, etc...). Quando se calcular um coeficiente está implícita sempre
a noção de risco de acontecimento do fenômeno em estudo. Assim, um coeficiente é sempre calculado para
determinado período de tempo bem especificado e para uma área delimitada.
Exemplo: Coeficiente geral de mortalidade =
nototal de óbitos, área A, tempo t
População total, área A, tempo t
Tabela 15: Popula´cão, óbitos e coeficiente geral de mortalidade, em alguns subdistritos do Município de São
Paulo. 1967).
Subdistrito População Óbtos Coefic. (por 1000 habitantes)
Bela Vista 69000 1318 19,1
Consolação 60300 4291 71,5
Jardim América 49300 7725 159,6
Liberdade 62300 3413 54,7
Capela do Socorro 77764 280 3,6
Moóca 52967 213 4,0
Tatuapé 285000 811 2,9
Tucuruvi 345918 839 2,4
Vila Formosa 101000 418 4,1
Fonte: LAURENTI, R. A medida das doenças. In: FORATTINI, O P. Epidemiologia Geral.
São Paulo, Edgard Blucher, Ed. Da Universidade de São Paulo, 1976.
Exemplo: Coeficiente de Prevalência =
nocasos existentes, área A, tempo t
População total, área A, tempo t
27
Os coeficientes de morbidade referem-se à frequência e gravidade das doenças.
Diferença entre taxa e razão: Na razão o que está expresso no denominador não está sujeito ao risco de vir a
apresentar o evento que está expresso no numerador. Assim, quando se apresenta a relação óbitos/população,
trata-se de um coeficiente. Está indicando que aquilo que está expresso no denominador (população) está
sujeito ao risco de apresentar o evento discriminado no numerador. Já a relação hospital/população não
expressa risco. Dá apenas a informação do número de hospitais por habitantes.
3 BOX-PLOT
O box-plot é um método alternativo ao histograma para representar os dados. O box-plot fornece informações
sobre as características de posição, dispersão, assimetria, comprimento das caudas e outliers de um conjunto
de dados. No entanto, a maior importância desse tipo de gráfico está na identificação de possíveis outliers no
conjunto de dados.
A construção de um box-plot exige que tenhamos o valor mínimo, o primeiro quartil, a mediana, o terceiro
quartil e o valor máximo. Como a mediana revela uma tendência central, ao passo que os quartis indicam a
dispersão dos dados (através do cálculo do intervalo interquartil), os box-plot têm a vantagem de não serem
tão sensíveis a valores extremos como outras medidas baseadas na média e no desvio-padrão.
Um dos aspectos mais convenientes do uso dos box-plot é a possibilidade de comparação entre dois ou
mais conjuntos de dados.
Exemplo: Idade dos indivíduos, segundo o número de infecções por dengue. Salvador. 1998.
147814251466
143714231484
15791584156714521449158315361471
1431
1534
15401578157514621504
15511563
1445
655384476N =
Número de infecções
210
Id
ad
e 
(e
m
 a
no
s)
120
100
80
60
40
20
0
-20
Fonte: TEIXEIRA, Glória, et alii. Dinâmica de circulação do vírus do dengue em distintos espaços
intraurbanos de uma grande cidade submetida a um programa de combate vetorial. ISC/UFBA. 2000.
Em sala de aula serão apresentados mais detalhes sobre este tópico.
3.1 MEDIDA DE ASSOCIAÇÃO PARA VARIÁVEIS QUANTITATIVAS: CORRE-
LAÇÃO LINEAR
Até o momento todas as análises foram discutidas para cada variável individualmente. A técnica a ser
estudada a seguir refere-se a problemas que envolvam conjuntos de dados que possuem duas ou mais variáveis
quantitativas.
28
A verificação da existência e do grau de relação entre variáveis quantitativas é objeto do estudo da corre-
lação. Por exemplo, pode-se desejar saber se existe relação entre o peso e a altura de um indivíduo; ou entre
a temperatura do ambiente e a produção de frutas.
A investigação da relação de duas variáveis, tais como estas, usualmente começa com uma tentativa para
descobrir a forma aproximada dessa relação, representando-se graficamente os dados como pontos no plano
x, y. Tal gráfico denominamos gráfico de dispersão. Por meio dele pode-se prontamente verificar se existe
alguma relação pronunciada e, em caso positivo, se a relação pode ser tratada como aproximadamente linear.
Após esta verificação, pode-se medir o grau em que as variáveis estão relacionadas. A esta medida chamare-
mos de coeficiente de correlação, r, que é definido pela seguinte fórmula:
r =
P
XY − (
P
X)(
P
Y )
nrhP
X2 − (
P
X)2
n
i hP
Y 2 − (
P
Y )2
n
i (19)
O coeficiente de correlação, r, mede a força da associação linear entre as duas variáveis avaliadas. No
entanto, vale a pena ressaltar que esta somente é uma medida válida se as duas variáveis estão relacionadas
linearmente, ou seja, se a relação visualizada no gráfico de dispersão deve lembrar o desenho de uma reta.
Como propriedade, o r deve satisfazer à seguinte condição: −1 ≤ r ≤ 1,onde os valores de r só serão iguais
a ±1 se os pontos estiverem totalmente sobre uma linha reta.
Sua interpretação dependerá do valor numérico e do sinal, podendo ser classifada como: correlação linear
positiva (0 < r < 1), correlação linear perfeita positiva (r = 1), correlação negativa (−1 < r < 0), correlação
perfeita negativa (r = −1), correlação nula (r = 0). Quando duas variáveis forem independentes, o coeficiente
de correlação será nulo.
3.2 MEDIDAS DE ASSOCIAÇÃO PARA VARIÁVEIS QUALITATIVAS
Como foi dito, o uso do coeficiente de correlação linear somente é valido para duas variáveis quantitativas. No
entanto, em muitas situações, o pesquisador se vê às voltas com variáveis qualitativas. Desta forma, a seguir
apresentaremos algumas formas simples de análise da relação entre duas variáveis qualitativas.
Caso 1 Tabelas bidimensionais 2× 2
Um pesquisador está avaliandoduas variáveis qualitativas, sendo que cada uma delas apresenta apenas
duas modalidades mutuamente exclusivas. Deseja-se verificar independência entre as variáveis em estudo,
ou seja, ausência de associação entre estas. Esta associação pode ser feita pela comparação das proporções
em cada uma das categorias. No entanto, esta comparação não teria limites definidos para a indicação de
associação. Deste modo, estaremos propondo a utilização de uma medida singular, de limites bem definidos,
que nos informe sobre a intensidade da associação, caso exista.
Tabela 16: Tabela teórica de associa´cão entre duas variáveis.
Var2
Var1
Cat 21 Cat 22 TOTAL
Cat 11 a b N1.
Cat 12 c d N2.
TOTAL N.1 N.2 N
Para tabelas 2× 2, uma medida adequada é o coeficiente de YULE, que pode ser definido por:
Y =
ad− bc
ad+ bc
(20)
29
Na interpretação do coeficiente de YULE, é preciso saber:
1. O valor de Y está compreendido no intervalo fechado de −1 até +1.
2. Y = 0 corresponde a independência
3. Y 6= 0 corresponde a associação entre as variáveis.
Em termos descritivos, o coeficiente de YULE apresenta a informação que permite a verificação de asso-
ciação entre duas variáveis qualitativas. Do ponto de vista da inferência estatística, outras técnicas poderão
ser utilizadas. No entanto, não farão parte do conteúdo programático deste curso.
Exemplo: Considere que um pesquisador toma, ao acaso, 2 amostras de cobaias isogênicas, susceptíveis
a determinado vírus. As cobaias da primeira amostra são injetadas com uma vacina experimental, e as
da segunda amostra são injetadas com uma substância inócua (grupo controle). Todos as cobaias são então
expostas ao vírus e, depois de determinado período de exposição, verificam-se os sobreviventes de cada amostra.
É lícito concluir (ou pelo menos suspeitar) à luz destes dados que o uso da vacina está associado ao padrão
de sobrevivência destes animais?
Sobreviventes TOTAL
Vacinados Sim Não
Sim 130 70 200
Não 80 160 240
TOTAL 210 230 440
Solução: a = 130; b = 70; c = 80; d = 160
Cálculo do coeficiente de YULE: Y =
ad− bc
ad+ bc
=
(130x160)− (70x80)
(130x160) + (70x80)
=
20800− 5600
20800 + 5600
=
15200
26400
= 0.58
Logo, os dados sugerem a existência de uma associação entre o uso da vacina e o padrão de sobrevivência
após a exposição ao vírus em estudo.
Caso 2 Tabelas bidimensionais r × s
A desvantagem do uso do coeficiente de YULE é que esta medida restringe-se na análise de tabelas 2× 2.
Suponha-se, no entanto, que as duas variáveis qualitativas em estudo apresentem uma r categorias e outra s
categorias mutuamente exclusivas. Neste caso, a medida a ser utilizada baseia-se na diferença entre os valores
observados e esperados em cada uma das categorias, sendo denominada coeficiente de contingência de Pearson.
O uso deste coeficiente contrapõe os resultados observados (simbolizados pela letra O) pelo pesquisador
com aqueles resultados esperados (simbolizados pela letra E) obtidos a partir de uma hipótese teórica de
independência entre os atributos. Assim, se os resultados observados forem próximos aos esperados, isto
sugere independência entre os atributos; caso contrário, estaremos afastados da hipótese de independência,
sugerindo-se uma associação entre os atributos.
Levando-se isto em consideração, utilizaremos uma estatística chamada de Qui-quadrado, que mede a
discrepância entre os valores, e que é definida por:
χ2 =
nP
i=1
[(O −E)2]
E
(21)
Os valores esperados são encontrados mediante a suposição de independência, ou seja, caso não exista
associação entre as variáveis espera-se que os valores encontrados não se apresentem em proporções diferentes
segundo as categorias. Assim, obtém-se o valor esperado correspondente a cada casela multiplicando-se o total
30
da linha (em que se encontra a casela) pelo total da coluna (em que se encontra a casela), sendo este produto
dividido pelo total geral (N)
O coeficiente de contigência de Pearson é dado pela seguinte expressão:
C =
χ2
χ2 + n
(22)
Interpretação do coeficiente:
C = 0 indica independência;
C > 0 sugere associação.
Obs: Este coeficiente é falho em determinar o sentido da associação (direta ou inversa). Além disso,
há ausência de um limite superior, que varia para cada estrutura da tabela. Para contornar este segundo
problema, sugere-se o uso do coeficiente corrigido C, que tem a expressão:
Ccor = C.
min(r, s)
min(r, s)− 1 (23)
onde: r = número de categorias da variável 1
s = número de categorias da variável 2
Exemplo: Neste estudo deseja-se verificar se existe associação entre as variáveis sexo e grupo sanguíneo.
Os dados coletados encontram-se dispostos na tabela seguinte.
Grupo Sanguíneo Sexo TOTAL
Masculino Feminino
A 112 88 200
B 58 42 100
AB 180 120 300
O 250 150 400
TOTAL 600 400 1000
Solução: Os valores dispostos na tabela anterior referem-se aos resultados observados no estudo em questão.
Precisamos encontar os resultados esperados para cada casela.
E11 =
(n1.)(n.1)
N =
(200)(600)
1000 = 120
E12 =
(n1.)(n.2)
N =
(400)(200)
1000 = 80, e assim por diante para todas as caselas.
Assim obteremos a tabela completa (com os resultados observados fora dos parênteses e os resultados
esperados dentro dos parênteses) disposta da seguinte forma:
Grupo Sanguíneo Sexo TOTAL
Masculino Feminino
A 112 (120) 88 (80) 200
B 58 (60) 42 (42) 100
AB 180 (180) 120 (120) 300
O 250 (240) 150 (160) 400
TOTAL 600 400 1000
Para cálculo da estatística Qui-quadrado teremos:
χ2 =
nP
i=1
[(O −E)2]
E
= (112−120)
2
120 +
(88−80)2
80 +
(58−60)2
60 + .....+
(150−160)2
160
χ2 = 2, 55
Logo, para o cálculo do coeficiente de contingência de Pearson, teremos:
C = 2,552,55+1000 = 0, 05
31
Utilizando-se a correção do coeficiente de contingência, teríamos:
Ccor = 0.05
2
2−1 = 0, 10
Assim, como o resultado foi um valor próximo de zero, isto sugere independência entre sexo e grupo
sanguíneo, como era de se esperar.
NOTAS FINAIS:
1. Apesar da existência de outras medidas de associação, essas apresentadas nesta secção podem ser con-
sideradas as medidas descritivas básicas.
2. A existência de associação não significa necessariamente relação de causa e efeito.
4 EXERCÍCIOS DE FIXAÇÃO
1) Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal) ou quan-
titativa (discreta ou contínua). Classifique as variáveis nos exemplos que se seguem:
a) população: moradores de uma certa cidade
variável: cor dos olhos (pretos, castanhos, azuis, verdes)
b) população: casais residentes em uma certa cidade
variável 1: número de filhos
variável 2: classe econômica
c) população: candidatos a um exame vestibular
variável 1: renda familiar
variável 2: sexo (masculino, feminino)
variável 3: número de pessoas na família
d) população: sabonetes de certa marca
variável: peso líquido
e) população: aparelhos produzidos por uma linha de montagem
variável: número de defeitos por unidade
2) Especifique o tipo de série estatística que deve ser construída para atender ao objetivo de cada uma
das situações abaixo:
a) O diretor de marketing da empresa G.L.T. S.A., fabricante de componentes eletrônicos, deseja examinar
a evolução de suas vendas em 1975, mês a mês, no Brasil.
b) Um laboratório farmacêutico está interessado em conhecer o comportamento das vendas de três de seus
produtos no Brasil em 1994.
c) O H.G.E. necessita saber o número de óbitos por principais grupos de causa em idosos no últimos 5
anos.
d) O A.A. (Alcoolatras Anônimos) deseja saber o número de pessoas que frequentaram as reuniões no ano
de 1995, em todas as capitais do Brasil.
3) Elabore tabelas com os dados abaixo, classificando a série estatística de cada uma delas:
a) Segundo o Anuário Estatístico do Brasil, a produção de óleo de mamona no Ceará, em1971, foi de
8.610 toneladas, em Pernambuco, 32.100 toneladas, na Bahia foi de 28.778 toneladas, e em São Paulo foi de
62.012 toneladas.
b) Segundo a Equipe Técnica de Estatística Agropecuária, a produção de peles de alguns animais silvestres,
na Bahia, em 1965, em toneladas, foi a seguinte: Ariranha, 159; Capivara, 1.927; Gato do mato, 27.154; Porco
do mato, 18.843. No ano de 1966, registraram-se os seguintes dados, em toneladas: Ariranha, 143; Capivara,
2.410; Gato do mato, 29.800; Porco do mato, 19.635.
c) Segundo a Anuário Estatístico do Brasil, editado pelo IBGE, a população presente recenseada no
Brasil, segundo o sexo, foi a seguinte: em 1940, 41.236.315 habitantes; sendo 20.614.088 do sexo masculino e
32
20.622.227 do sexo feminino; em 1950, a população total foi 51.944.397, sendo 25.885.001 do sexo masculino.
Em 1960, para o total de 70.119.071 habitantes, registrou-se a presença de 35.108.354 mulheres. E em 1970,
a população total alcançou 93.204.379 habitantes, sendo 46.330.629 do sexo masculino.
4) Para os conjuntos de dados a seguir:
a) Determinar o número de classes pela regra de Sturges
b) Construir a tabela de frequências absolutas simples
c) Determinar:
c.1) as frequências simples relativas
c.2) as frequências absolutas e relativas acumuladas (”abaixo de”)
c.3) as frequências absolutas e relativas acumuladas (”acima de”)
d) Construir um histograma e um polígono de frequências
4.1) Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinados
municípios do Estado:
Milímetros de Chuva
144 152 159 160
160 151 157 146
154 145 141 150
142 146 142 141
141 150 143 158
4.2) Considere os seguintes dados sobre a distribuição de valores de metabolismo basal (cal/dia) em 35
adolescentes:
910 1280 1220 1120 1040
1070 980 1310 1240 1140
1190 1090 1010 1380 1270
1280 1210 1110 1040 1460
960 1300 1240 1130 1070
1080 1000 1360 1260 1180
1200 1110 1020 1420 1270
5) Calcule para cada uma das distribuições abaixo as seguintes medidas:
a) de tendência central: média aritmética, mediana e moda
b) de dispersão: amplitude total, desvio-padrão e variância
5.1. Pesos de recém-nascidos (em kg): 2.7; 3.9; 4.1; 4.3; 5.4
5.2. Taxas sanguíneas de uréia (mg/dl): 27; 31; 32; 34; 46; 61
5.3. Idade de pacientes renais (em anos):
Idade fi
26 3
28 10
30 12
32 5
37 19
TOTAL 49
33
5.4. Número de atendimentos em serviço médico por funcionários de uma empresa:
Node Atendimento fi
0 24
1 21
2 3
3 51
4 1
TOTAL 50
5.5. Altura de 140 alunos (em cm):
Estaturas (cm) 145|–150 150|–155 155|–160 160|–165 165|–170 170|–175 175|–180 180|–185
Node Alunos 2 10 27 38 27 21 8 7
c) Calcule o primeiro quartil, o quadragésimo centil e o nono decil para o conjunto de dados 5.5.
d) Avalie a assimetria do conjunto de dados 5.5
6) Como parte de uma investigação sobre o efeito da variação de temperatura em ratos, a taxa de perda
de água em um grupo de ratos foi determinada para um série de temperaturas pela absorção de água ocorrida
em um particular tempo. Os resultados seguintes foram obtidos:
Temperatura (oC) 15 20 25 30 35
Água Absorvida (mg) 2794 2924 3175 3340 3576
Considere: x = temperatura (variável independente); e y =a quantidade de água absorvida (variávelde-
pendente).
Analise a correlação entre estas duas variáveis. Construa inicialmente um diagrama de dispersão.
7) Os box plots a seguir mostram as distribuições de vendas de uma loja, referentes aos anos de 1995, 1996
e 1997. Analise-os e descreva o comportamento dessas três distribuições:
1 9 9 6 
1 9 9 7 
1 9 9 5 
0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 (m ilh õ e s) 
8) Decidiu-se investigar a distribuição salarial dos profissionais com nível universitário em duas regiões A e
B. As informações pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em salários mínimos.
Com base nestes dados, responda:
a) Que medidas podem ser calculadas a partir das que se encontram no quadro?
b) Faça uma descrição rápida das principais diferenças entre o salário destes profissionais?
Região Média DP Mediana Moda Q1 Q3 Min Máx
A 20.000 4.00 20.32 20.15 17.32 22.68 8.00 32.00
B 20.000 6.00 18.00 17.00 16.00 24.00 14.00 42.00
34
9) Verifique se existe associação entre as duas variáveis dos exemplos a seguir:
9.1. Hábito de fumar e sexo:
Grupo Sanguíneo Sexo TOTAL
Masculino Feminino
Sim 20 60 80
Não 25 75 100
TOTAL 45 135 180
9.2. Estado civil e aprovação no vestibular:
Estado Civil Aprovado Reprovado TOTAL
Solteiro 120 80 200
Casado 45 55 100
Separado 180 120 300
Outros 255 145 400
TOTAL 600 400 1000
5 Bibliografia
BERQUÓ, SOUZA, GOTLIEB. Bioestatística. São Paulo: Editora Pedagógica e Universitária Ltda, 1980.
BOTTER, et alii. Noções de estatística: Notas de aula. Instituto de Matemática e Estatística. USP.
Fevereiro, 1996.
BUSSAB, Wilton O , MORETTIN, Pedro A . Estatística Básica. 4aed. São Paulo: Atual Editora, 1980.
FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatística. 3aed. Editora Atlas,
1990.
LAURENTI, et elii. Estatísticas de saúde. 2aed. São Paulo: E.P.U., 1987.
LOPES, Paulo Afonso. Probabilidades e Estatística. Editora R.A . 1999
MORETTIN, Luiz Gonzaga. Estatística Básica. 7aed. Editora Makron Books. Vols. 1 e 2. 1999.
MORAES, Lia Terezinha L.P. Notas de aulas (diversos). Departamento de Estatística. UFBA.1996.
SOARES, José Francisco; SIQUEIRA, Arminda Lúcia. Introdução à Estatística Médica. 1aedição. Belo
Horizonte: Departamento de Estatística. UFMG.1999.
SOUNIS, Emílio. Bioestatística. São Paulo: Editora McGraw-Hill do Brasil Ltda, 1979.
TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatística Básica. 2aed. São Paulo: Editora Atlas,
1994.
TRIOLA, Mário. Introdução à Estatística. 7aed. Editora LTC. 1999
VIEIRA, Sônia. Introdução à Estatística. Rio de Janeiro: Editora Campus Ltda, 1981.
35

Continue navegando