Buscar

Apostila Estatistica

Prévia do material em texto

Apostila
Bioestatística - MTM 364
Clandio Marques e Rodrigo Fioravanti
Conteúdo
I Princípios 4
1 Introdução 5
1.1 O Método Científico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Definição de Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Fases do Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Crítica dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Apuração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.4 Exposição ou Apresentação dos Dados . . . . . . . . . . . . . . . . . . . . . 10
1.3.5 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
II Estatística Descritiva 12
2 Conceitos Básicos 13
2.1 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Variáveis Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Tabelas e Distribuições de Frequência 16
3.1 Dados Absolutos e Dados Relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4 Gráficos de Colunas e Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5 Gráfico de Pizza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6 Box Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.7 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.8 Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Medidas de Posição 30
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Média Aritmética (x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.3 Moda (M
o
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4 Mediana (M
d
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.5 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 Separatrizes 37
5.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
CONTEÚDO CONTEÚDO
6 Medidas de Dispersão 39
6.1 Dispersão ou Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.2 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.4 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.5 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.6 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7 Assimetria e Curtose 44
7.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7.2 Trabalho 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
III Teoria da Amostragem
com Bioestat 47
8 Amostragem 48
8.1 Amostragem vs Censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.2 Amostragem Probabilística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
8.2.1 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 50
8.2.2 Amostragem Aleatória Estratificada . . . . . . . . . . . . . . . . . . . . . . . 51
8.2.3 Amostragem Aleatória Sistemática . . . . . . . . . . . . . . . . . . . . . . . . 52
8.2.4 Amostragem Aleatória por Conglomerados . . . . . . . . . . . . . . . . . . . 53
8.3 Amostragem Não-Probabilística: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8.5 Tamanho Mínimo da Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.7 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.8 Trabalho 03 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
IV Estatística Inferencial
com Bioestat 64
9 Probabilidade 66
9.1 Interpretações da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.2 A Interpretação da Probabilidade Segundo o Jogador . . . . . . . . . . . . . . . . . . 68
9.3 Probabilidade de Ocorrência de Um Evento . . . . . . . . . . . . . . . . . . . . . . . 68
9.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
9.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.6 Nível de Confiança e de Significância . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
10 Estimação de Parâmetros 71
10.1 Estimativas pontuais e intervalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
10.2 Intervalo de Confiança para Média Populacional quando a Variância é Conhecida . . . 71
10.3 Intervalo de Confiança para Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . 73
10.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
11 Testes de Hipóteses 77
11.1 A Hipótese Nula e a Hipótese Alternativa . . . . . . . . . . . . . . . . . . . . . . . . 77
11.2 Erro Tipo 1 e Tipo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
11.3 Uso dos Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
11.3.1 Testes uni e bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
11.3.2 Testes Paramétricos e Não-Paramétricos . . . . . . . . . . . . . . . . . . . . 82
2
CONTEÚDO CONTEÚDO
12 Testes Paramétricos 84
12.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
12.2 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
12.3 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
12.4 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
13 Teste Não-Paramétricos 92
13.1 Vantagens e Desvantagens dos Testes Não-Paramétricos . . . . . . . . . . . . . . . . 92
13.2 Teste Qui-Quadrado para Independência . . . . . . . . . . . . . . . . . . . . . . . . . 93
13.2.1 Aplicação do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 93
13.2.2 Detalhes do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 94
13.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
13.4 Trabalho 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
13.5 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
13.6 Exercícios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
13.7 Teste de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
13.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
13.9 Trabalho 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
14 Correlação Linear 104
14.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
14.2 Coeficiente de Correlação Linear - r . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
14.3 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
14.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3
Parte I
Princípios
4
Capítulo 1
Introdução
Por Sidia C. Jaques
Na literatura científica, consultada por profissionais das áreas biológica e da saúde, encontramos
expressões como "diferença estatisticamente significativa", "teste qui-quadrado de associação"e "P <
0,01", que refletem a importância, cada vez maior, dada pelos pesquisadores ao tratamento estatístico
de seus dados. Quais serão as razões para o emprego de métodos estatísticos nos trabalhos científicos?
Em primeiro lugar, a estatística, longe de ser mais uma complicação matemática, tem se mostrado
um instrumento extremamente útil na organização e na interpretação dos dados. Em segundo lugar,
esta ciência propicia uma avaliação adequada da variabilidade observada nos processos biológicos. É
sabido que existem diferenças entre os indivíduos e que eles reagem de forma diferente a estímulos
idênticos; por outro lado, o mesmo indivíduo apresenta variações de um momento para outro. Em vista
disto, o pesquisador consciencioso deseja saber qual o grau de confiabilidade de seus resultados. Ele
se pergunta, por exemplo, se os resultados poderiam ter sido obtidos por acaso, se o novo tratamento
proposto foi realmente mais eficiente, se a associação observada entre as variáveis é real, se o método
de seleção de indivíduos foi adequado, se a análise dos dados empregou os métodos adequados s
variáveis estudadas. Todas essas questões podem ser respondidas com o auxílio da estatística.
O papel da estatística na investigação científica vai além de indicar a sequência de cálculos a serem
realizados com os dados obtidos. No planejamento, ela auxilia na escolha das situações experimentais
e na determinação da quantidade de indivíduos a serem examinados. Na análise dos dados, indica
técnicas para resumir e apresentar as informações, bem como para comparar as situações experimen-
tais. Na elaboração das conclusões, os vários métodos estatísticos permitem generalizar a partir dos
resultados obtidos. De um modo geral, não existe certeza sobre a correção das conclusões científicas;
no entanto, os métodos estatísticos permitem determinar a margem de erro associada s conclusões,
com base no conhecimento da variabilidade observada nos resultados.
Inicialmente, a estatística ocupava-se em descrever quantitativamente os vários aspectos dos as-
suntos de um governo ou estado
1
, remontando época em que surgiram as primeiras cidades. Come-
çava, então, a necessidade de se enumerarem coisas e pessoas para a avaliação das riquezas e para
o cadastramento das propriedades. Os censos
2
já eram realizados anualmente em Atenas e, a cada
quadriênio, em Roma, nas festas de purificação da comunidade, quando era necessário saber se todos
estavam presentes ou representados.
Um dos primeiros censos de que se tem notícia escrita foi o ordenado pelo imperador romano César
Augusto, realizado na Palestina, por volta do ano zero da era cristã. Outro recenseamento famoso foi o
realizado, na Inglaterra, por Guilherme I, duque normando que havia derrotado os ingleses. O cadastro
geral das coisas inglesas com fins de tributação, feito em 1085-1086, foi chamado pelos ingleses de
1
O termo estatística surge da expressão em latim statisticum collegium palestra sobre os assuntos do Estado, de onde
surgiu a palavra em língua italiana statista, que significa "homem de estado", ou político, e a palavra alemã Statistik,
designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por
Schmeitzel na Universidade de Jena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário
na Enciclopédia Britânica em 1797, e adquiriu um significado de coleta e classificação de dados, no início do século XIX.
2
Ela vem do Latim CENSUS, �lista de nomes e propriedades dos cidadãos romanos�
5
1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO
"Domesday (ou Doomsday) Book", o livro do juízo final, nome que bem revela as expectativas da
população quanta carga tributária por vir.
Por muito tempo, o aspecto descritivo da estatística manteve-se como a única faceta desta ciência.
As coisas começaram a mudar no século XVII, com as primeiras interpretações de dados. Em 1693,
foram publicados, em Londres, os primeiros totais anuais de falecimentos, discriminados por sexo.
Eram o resultado de levantamentos iniciados em 1517, quando a peste atacava periodicamente a
Europa. Christian Huygens (1629-1695), físico e astrônomo holandês, construiu depois uma curva de
mortalidade a partir dos dados publicados.
O estudo formal da teoria de probabilidades, iniciado por Blaise Pascal (1623-1662) e Pierre de
Fermat (1601-1665), constitui-se em importante marco no desenvolvimento da estatística. Graças
a esses conceitos, a estatística começou a ser estruturada de modo a poder desempenhar seu papel
mais nobre, o de auxiliar na tomada de decisões científicas.
Estudiosos de diferentes campos do conhecimento fizeram a ligação entre os aspectos teóricos de
probabilidade e estatística e a prática. Lambert Adolphe Jacques Quetelet (1796-1874), astrônomo
e matemático belga, foi o primeiro a usar a curva normal fora do contexto da distribuição dos erros e
aplicou conhecimentos estatísticos na solução de problemas de biologia, medicina e sociologia. Francis
Galton (1822-1911) , por sua vez, empregou a estatística no estudo da variação biológica e tentou,
sem sucesso, resolver problemas de hereditariedade. Karl Pearson (1857-1936) também interessou-se
pela aplicação dos métodos estatísticos à biologia, em especial, a estudos sobre a seleção natural. Além
de ser o pai do teste qui-quadrado, a ele se devem inúmeros estudos e medidas de correlação entre
variáveis. Um aluno de Pearson, William S. Gosset (1876-1937), dedicou-se a solucionar problemas
práticos com amostras pequenas. Um dos resultados de seus estudos é a distribuição t, de ampla
aplicação em vários campos da ciência.
Uma das figuras modernas mais importantes da bioestatística (e da estatística em geral, já que
desenvolveu métodos para solucionar vários tipos de problemas) foi, sem dúvida, Fisher , que assentou
as bases para a experimentação estatisticamente controlada. Vários modos de analisar os dados de
amostras pequenas foram propostos por Fisher, que também tem importantes contribuições na análise
simultânea de muitas variáveis, dando considerável impulso ao uso da estatística em inúmeras áreas
do conhecimento, particularmente na agronomia, na biologia e na genética.
Figura 1.1: Sir Ronald Aylmer Fisher (1890-1962)
1.1 O Método Científico
Adaptado de
"Serviço de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade do
Porto"(MedStatWeb)
em http://stat2.med.up.pt/cursop/index.html
6
1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO
O termo "Método"refere-se a um processo ordenado e padronizado de execução de uma determi-
nada atividade e implica num conjunto de regras que especificam o modo como o conhecimentodeve
ser adquirido e apresentado e o modo de avaliação da verdade ou falsidade do mesmo.
Três ideias elementares constituem a base do Método Científico:
O ceticismo, isto é, a noção de que qualquer proposição ou afirmação, mesmo quando proferida
por grandes autoridades, está sujeita à dúvida e à análise;
O determinismo, ou seja, a noção de que a realidade está dependente de leis e causas regulares
e constantes e não dos caprichos ou desejos dos "demônios"ou "bruxas";
O empirismo segundo o qual a investigação científica deve ser conduzida pela observação e veri-
ficação através da experiência.
A indução é uma outra noção chave, provavelmente a mais importante e controversa do Método
Científico e será focada mais adiante.
Observação, descrição e medição:
A descrição dos fenômenos naturais, envolvendo o registo preciso e válido de observações sobre
pessoas, objetos ou acontecimentos, constitui a base empírica de todos os ramos da Ciência. As
observações podem ser na forma de descrições nominais ou conjuntos de medições. As percepções
pessoais e subjetivas têm que dar lugar às formulações descritivas e medições que possam ser enten-
didas e replicadas por outros investigadores. Muitos dos avanços da Ciência, ao longo dos últimos
séculos, devem-se diretamente ao desenvolvimento de instrumentos de auxílio à observação cada vez
mais potentes. Não deve ser esquecido, no entanto, que o uso de instrumentação complexa não é
indispensável à realização de observações científicas. As características essenciais para uma obser-
vação poder ser considerada científica são a precisão, validade e reprodutibilidade. As observações,
quando adequadamente sintetizadas e confirmadas por outros, constituem a base factual, empírica,
do conhecimento científico.
Generalização e Indução:
Afirmações e medições representando observações são integradas em sistemas interpretativos de-
signados Hipóteses e Teorias. A lógica subjacente à generalização inerente ao método científico é
designada Indução. A indução permite o estabelecimento de proposições gerais sobre uma classe de
fenômenos com base na análise de um número limitado de observações de elementos selecionados.
Por exemplo, tendo verificado que a penicilina é útil na cura da pneumonia num número limitado de
doentes, propõe-se a generalização - "A administração de penicilina cura a pneumonia (em todos os
doentes)".
Hipóteses:
A proposição "A administração de penicilina cura a pneumonia"é uma hipótese. Hipóteses ci-
entíficas são proposições que especificam a natureza da relação entre dois ou mais conjuntos de
observações. No exemplo exposto, o primeiro conjunto de observações relaciona-se com a adminis-
tração de penicilina, e o segundo, relaciona-se com as modificações das observações ou medições do
estado clínico dos doentes no que se refere à pneumonia. Uma hipótese científica deve ser apresentada
usando referências claras e observáveis, não podendo depender de interpretações subjetivas.
Teorias:
Teorias científicas são, essencialmente, conjecturas que representam o nosso atual estado de
conhecimento sobre o mundo real. As hipóteses são integradas em sistemas interpretativos mais
abrangentes, designados teorias. A teoria tenta explicar as relações existentes entre diversos tipos
de observações e hipóteses. Por exemplo, uma teoria que pretenda explicar porque certos fármacos
designados antibióticos são eficazes na cura de certas doenças infecciosas terá que integrar evidências
de variadas fontes, tais como a microbiologia, a farmacologia, a fisiologia celular e a medicina clínica.
Deste modo, as teorias identificam as causas dos acontecimentos, e proporcionam meios conceituais
de predição e influência sobre esses mesmos acontecimentos.
7
1.2. DEFINIÇÃO DE ESTATÍSTICA CAPÍTULO 1. INTRODUÇÃO
Dedução:
As teorias científicas devem levar à formulação de um conjunto de proposições empiricamente ve-
rificáveis, ou seja, hipóteses. As hipóteses são deduzidas, obedecendo à lógica formal, das proposições
e/ou modelos matemáticos que especificam a relação causal postulada pela teoria. Por exemplo, se
aceitarmos a teoria de que um conjunto de neurônios, anatomicamente adjacentes, do lobo occipital
são responsáveis pela visão nos seres humanos, então, a hipótese que pode ser deduzida é a de que
a ativação desses neurônios (por exemplo, através de estimulação por eletrodos) provocará o apare-
cimento de certas sensações visuais. O teste das hipóteses através da observação deve ser levada
a cabo, preferencialmente, em condições controladas. A observação deve ser controlada de modo
a permitir o afastamento de hipóteses alternativas na explicação dos fenômenos sobre os quais se
fez a predição. Por exemplo, se quisermos demonstrar que a estimulação do lobo occipital provoca
sensações visuais, temos que mostrar que estamos controlando a observação para outro tipo de esti-
mulação cerebral que possa estar provocando tais sensações. Inversamente, teríamos, também, que
demonstrar que a estimulação do lobo occipital não leva a uma série de outras sensações que não as
visuais.
Verificação:
Depois da evidência ter sido colhida, o investigador decide se os achados são consistentes ou não
com as predições da hipótese. Se a hipótese é confirmada pela evidência, então, a teoria de onde
proveio a hipótese é fortalecida ou verificada. Porém, quando os dados não confirmam a hipótese, a
teoria não é verificada. Se uma teoria não continua a conseguir predizer ou explicar as observações
torna-se menos útil, e é normalmente substituída por novas teorias mais fortes e consistentes. Assim,
as teorias científicas não devem ser entendidas como verdades absolutas e finais, mas meras explicações
provisórias da evidência existente até ao momento.
Foi a aplicação do processo acima descrito que permitiu o espetacular crescimento do conhecimento
científico a que temos assistido nos últimos séculos e, em especial, nos últimos cem anos. É desta
forma que o método científico contribui para a concretização dos nossos objetivos, ajudando-nos a
descrever, explicar, predizer e, por vezes, controlar o mundo em que vivemos.
1.2 Definição de Estatística
Fonte: http://www.usp.br/aun/exibir.php?id=5023
Para Magalhães
3
estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequên-
cia da ocorrência de eventos, tanto em estudos observacionais quanto em experimentos que visam a
modelar a aleatoriedade e a incerteza de forma a estimar valores nesses eventos.
�É claro que nem todas as pessoas têm formação para entender os cálculos feitos por quem
trabalha na área, mas todos devem compreender as informações passadas por eles, pois lidamos com
estatística o tempo todo�, afirmou Magalhães. A compreensão se daria a partir do momento em
que os professores �desmistificam� a matemática, fazendo isso, principalmente, com a �alfabetização
estatística�, isto é, fazer os estudantes entender gráficos e diagramas encontrados no cotidiano das
pessoas, de modo a contextualizar a importância do que está sendo dito (Magalhães).
A palavra estatística de do latim STATUS que significa ESTADO. Em suma, a Estatística é a
ciência que aplica processos próprios para coletar, apresentar e interpretar adequadamente os dados,
sendo numéricos ou não. Tem como objetivo apresentar informações sobre dados em análises para
que se tenha maior compreensão dos fatos que os mesmos representam.
É considerada um método científico pois resulta de um conjunto de regras e princípios que pro-
duzem resultados �controlados� ou �previsíveis� a partir de dados aleatórios levando a um objetivo
almejado.
Há três ramos da estatística: descritiva, probabilística e inferencial.
3
Marcos Magalhães, do Departamento de Estatística (MAE) do Instituto de Matemática e Estatística da Universidade
de SãoPaulo (IME-USP)
8
1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO
Estatística Descritiva:
O conjunto de dados recolhidos em um estudo científico, pode variar desde poucas dezenas a vários
milhares de valores. Esta informação bruta dificilmente poderá ser compreendida ou interpretada sem
métodos que, de alguma forma, a sintetizem e descrevam. Estes métodos de síntese são designados
por métodos de Estatística Descritiva.
Assim, como o próprio nome diz, a estatística descritiva, organiza, sumariza e descreve um conjunto
de dados, através da construção de gráficos, tabelas, e com cálculo de medidas com base em uma
coleção de dados numéricos. Ou seja, tenta tornar os dados mais fáceis de ler, interpretar e discuti-los.
Tabela: é um quadro que resume um conjunto de observações.
Gráficos: são formas didáticas de apresentar os dados, com o objetivo de produzir uma impressão
mais rápida dos dados ou fenômenos.
Medidas descritivas: são formulações matemáticas usadas para interpretar grandes quantidades
de dados agrupados (médias, desvios,...).
Estatística Probabilística:
É onde se estuda o acaso, ou seja, através de cálculos matemáticos, pretende-se prever a ocorrência
de dados aleatórios.
Estatística Inferencial:
Destina-se à análise e interpretação de dados amostrais, ou seja, consiste em efetuar determinada
mensuração sobre uma parcela pequena, mas típica, de determinada população e utilizar essa infor-
mação para fazer inferências sobre a população toda. A exemplo: colocar a ponta do pé na água para
avaliar a temperatura desta na piscina.
1.3 Fases do Método Estatístico
Os dados estatísticos lidam com números, ou seja, envolvem a análise e interpretação de números.
Para interpretar estes números faz-se necessária uma organização racional dos dados, portanto,
inicia-se determinando a diferença entre dados e informação.
Dados são números ou valores coletados primariamente, e quase sempre não tem sentido. Já a
informação compreende o processamento dos dados, reduzindo a quantidade de detalhes e facilitando
o encontro de relações. Portanto os dados, quando coletados, são reunidos através de técnicas
estatísticas e posteriormente apresentados na forma de TABELAS ou GRÁFICOS; isto faz com que
sejam eliminados detalhes não importantes e enfatizados os aspectos cruciais dos dados.
Estes dados estatísticos são obtidos através de um processo que envolve a observação; e os
itens observados são chamados de variáveis. Variáveis são valores que tendem a exibir certo grau de
variabilidade quando se fazem mensurações sucessivas.
1.3.1 Coleta dos Dados
Após o cuidadoso planejamento e a devida determinação das características mensuráveis do fenô-
meno coletivamente típico que se quer pesquisar, damos início à coleta de dados numéricos necessários
a sua descrição.
A coleta pode ser direta ou indireta.
A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimento,
casamento e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários
dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador através
de inquéritos e questionamentos, como e o caso das notas de verificação e de exames, do censo
demográfico, etc..
A coleta direta de dados pode ser classificada relativamente ao fator tempo em:
9
1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO
Contínua (registro) � quando feita continuamente, tal como a de nascimento e óbitos e a de
frequência dos alunos nas aulas;
Periódica � quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos)
e as avaliações mensais dos alunos;
Ocasional � quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma
emergência, como no caso de epidemias.
A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhe-
cimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar
a pesquisa sobre a mortalidade infantil, que e feita através de dados colhidos por uma coleta direta.
Mas se levarmos em consideração a natureza dos dados estes podem ser:
Contínuos: trata-se de dados quantitativos em que as variáveis podem assumir virtualmente qual-
quer valor num intervalo de valores, ou quando feita continuamente.
Exemplo: altura, peso, comprimento, espessura, velocidade, etc.
Discretos: também são dados quantitativos que só podem assumir valores inteiros. Os dados
discretos surgem na contagem do número de itens com determinada característica.
Exemplo: número diário de clientes, alunos numa sala, número de acidentes diários numa fábrica
e outros.
Nominais: são dados qualitativos e caracterizam-se pela denominação de categorias ou nomes,
geralmente compreendem variáveis que não relacionam-se a priori com números.
Exemplo: sexo, cor dos olhos, campo de estudo, desempenho no trabalho, etc.
Por Posto: apesar de lidarem com números, são considerados dados de natureza qualitativa, pois
se referem a avaliações subjetivas; quando se dispõem os itens segundo preferência ou desempenho.
São valores relativos atribuídos para denotar ordem.
Exemplo: primeiro, segundo, terceiro ...
1.3.2 Crítica dos Dados
Obtidos os dados, eles devem ser cuidadosamente criticados a procura de possíveis falhas e im-
perfeições, a fim de não incorrermos em erros grosseiros ou de certo vulto, que possam influir sensi-
velmente nos resultados.
A crítica é externa quando visa as causas dos erros por parte do informante, por distração ou
má interpretação das perguntas que lhe foram feitas; e interna, quando visa observar os elementos
originais dos dados da coleta.
1.3.3 Apuração dos Dados
Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios
de classificação. Pode ser manual, eletromecânica ou eletrônica.
1.3.4 Exposição ou Apresentação dos Dados
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados
sob forma adequada (tabela ou gráfico), tornando mais fácil o exame daquilo que está sendo objeto
de tratamento estatístico e ulterior obtenção de medidas típicas.
1.3.5 Análise dos Resultados
O objetivo da Estatística e tirar conclusões sobre o todo (população) a partir de informações for-
necidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística
Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva
ou Inferencial e tiramos desses resultados as conclusões e previsões.
10
1.4. LEITURA COMPLEMENTAR CAPÍTULO 1. INTRODUÇÃO
1.4 Leitura Complementar
INFORMAÇÃO EM SAÚDE
Arlinda B. Moreno
Claudia Medina Coeli
Sergio Munck
GÊNESE DO CONCEITO E DESENVOLVIMENTO HISTÓRICO
Para refletir sobre a expressão Informação em Saúde podemos nos remeter à necessidade existente,
desde a antiguidade, do ser humano comunicar algo a alguém (ou a alguma coletividade) sobre sua
própria saúde ou sobre a saúde de alguém (ou de algum grupo de pessoas) a ele relacionado. Ou seja,
preliminarmente, a Informação em Saúde pode ser pensada como um compósito de transmissão e/ou
recepção de eventos relacionados ao cuidado em saúde.
Assim sendo, podemos inferir que não é tarefa fácil demarcar o início do uso dessa terminologia
no campo da saúde. Mas, certamente, é a partir do século XIX, período que marca o recrudescimento
dos estudos em epidemiologia, que a necessidade de comunicar questões relacionadas à saúde das
populações se torna a grande alavanca para a disseminação das Informações em Saúde. Quase que
concomitantemente, a estatística do final desse século XIX e início do século XX, inspiradora de
estudiosos como Benthan, Price, Laplace, Galton (Rosen, 1994) pode ser vista, também,como um
ponto de partida importante para a geração de Informações em Saúde de forma agregada e preditiva.
Daí, pode-se partir, sem muito pecado, para as primeiras peças da Informação em Saúde, compostas
pelas Estatísticas Vitais, pelas Tábuas de Sobrevida, enfim, por instrumentos de predição e inferência
de estados de saúde a partir do status atual de um grupo de pessoas em determinado contexto
de saúde. E, no correr da história, numerosos desdobramentos para a expressão Informação em
Saúde transformaram-se, praticamente, em subáreas distintas e dirigidas, principalmente, a subsidiar,
não apenas a população em geral, mas também gestores da área saúde: sobre: perfil da população
(de que adoece e morre, dados demográficos e socioeconômicos); serviços prestados; materiais e
medicamentos consumidos; força de trabalho envolvida; para conhecer: necessidades da população
atendida; uso potencial e real da rede instalada; investimentos necessários; a fim de planejar, controlar
e avaliar as ações e serviços de saúde (EPSJV, 2005).
Como marcos históricos para tanto, tem-se, no século XVII, na Alemanha, o surgimento da cha-
mada `topografia política ou uma descrição das condições atuais do país', proposta por Leibniz, em
cuja descrição deveriam constar: o número de cidades (maiores e menores) e de aldeias; a popula-
ção total e a área do país em acres; a enumeração de soldados, mercadores, artesãos e diaristas; as
informações sobre as relações entre os ofícios; o número de mortes e das causas de morte (Rosen,
1980). Em decorrência dessa e de outras ações semelhantes, surgiram os inquéritos de morbidade e
as estatísticas dos serviços de saúde. Na gênese da vigilância epidemiológica, é inegável a influência
de Farr, que realizou atividades de coleta, processamento e análise de dados e sua divulgação para
as autoridades sanitárias. Quando observamos o célebre estudo sobre o cólera realizado por Snow,
é impossível negar o uso das Informações em Saúde constantes dos mapas de ponto e do raciocínio
epidemiológico no controle desta doença, já no século XIX.
A essa altura é, também, de suma importância destacar o papel fundamental do desenvolvimento
das ciências da computação, no século XX, e, portanto, da informática como instrumental necessário
e multiplicador tanto das metodologias estatísticas quanto das Informações em Saúde. Ressalte-se,
também, que esse desenvolvimento tecnológico tem papel crucial em inovações intrínsecas à área da
saúde, tais como: a) a disseminação e facilitação da acessibilidade à s bases de dados em saúde; b) o
surgimento e a propagação da informática médica; c) a concepção e a implementação do prontuário
eletrônico do paciente, entre outros.
11
Parte II
Estatística Descritiva
12
Capítulo 2
Conceitos Básicos
2.1 População e Amostra
População é o conjunto de entes portadores de, pelo menos, uma característica comum. Ex. fazer
uma pesquisa entre os alunos das escolas de Ensino Fundamental: precisamos definir quais são os
alunos que formam o universo, ou seja, os que atualmente estão no colégio ou devemos incluir os que
já passaram pela escola? A solução do problema depende de cada caso em particular. Na maioria
das vezes, por impossibilidade ou inviabilidade econômica ou temporal, limitamos a pesquisa a apenas
uma parte da população. A essa parte proveniente da população em estudo denominamos amostra.
Exemplo: O número de enfermeiros de um hospital é 233. Uma pesquisa sobre opção de horário
de trabalho pode ser feita com apenas 20 enfermeiros tomados ao acaso.
Tabela 2.1: Exemplos de População e Amostra
Variável de Interesse População Amostra
1 Insalubridade Todos os enfermeiros do hospital 20 enfermeiros do hospital
2 Tipo Sanguíneo Total de enfermeiros do hospital enfermeiros do bloco cirúrgico
3 Tipo Sanguíneo Sangue num indivíduo de 70kg 3 gotas de sangue
4 Salário Enfermeiros no território brasileiro Alguns enfermeiros de cada estado
5 Anos de Trabalho Total de enfermeiros do hospital enfermeiros do pronto socorro
6 Número de Filhos Total de enfermeiros do hospital enfermeiros da pediatria
2.2 Variáveis Estatísticas
Qualquer atributo medido numa pesquisa: renda familiar, número de indivíduos de uma família,
etc.
� Variáveis Qualitativas: expressam qualidade. Representadas por palavras.
Exemplo: sexo (masculino ou feminino), grau de instrução (fundamental, médio ou superior),
estado civil (solteiro, casado, ...).
13
2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS
� Nominal: Os indivíduos são classificados em categorias segundo uma característica.
Exemplo: hábito de fumar (fumante, não fumante), sobrepeso (sim, não).
Não existe ordem entre as categorias e suas representações, se numéricas, são destituídas
de significado numérico.
Exemplo: sexo masculino = 1, sexo feminino = 2. Os valores 1 e 2 são apenas rótulos.
Exemplo: Você tem diabetes? Sim. Não. Não sei.
Você é fumante? Sim. Não. Já fui.
Exemplo: Qual é o seu tipo de sangue? A. B. AB. O. Não sei.
� Ordinal: Os indivíduos são classificados em categorias que possuem algum tipo inerente de
ordem. Neste caso, uma categoria pode ser "maior"ou "menor"do que outra.
Exemplo: nível sócio-econômico (A, B, C e D; onde A representa maior poder aquisitivo);
nível de retinol sérico (alto, aceitável, baixo, deficiente) onde alto: maior ou igual a 50,0
�g/dl; aceitável: 20,0 a 49,9 �g/dl, baixo: 10,0 a 19,9 �g/dl e deficiente: menor ou
igual a 10,0 �g/dl. Estes critérios são do Commitee on Nutrition for National Defense
ICNND/USA, 1963 (in Prado MS et al , 1995).
� Variáveis Quantitativas: expressam quantidade. Representadas por números.
� Discretas: o resultado numérico da mensuração é um valor inteiro.
Exemplo: número de refeições em um dia (nenhuma, uma, duas, três, quatro, ...), frequên-
cia de consumo semanal de determinado alimento (1 vez, 2 vezes, 3 vezes, 4 vezes, 5 vezes,
6 vezes, 7 vezes), número de filhos.
� Contínuas: podem assumir qualquer valor do intervalo.
Exemplo: estatura, salário, nível de retinol sérico (�g/dl), circunferência da cintura (cm).
Observação: É incorreto fazer a simplificação "se tem número é quantitativo", pois muitas vezes,
os números podem ser meros rótulos, tal como o número na camisa de um jogador.
Exercício: Preencha o quadro abaixo VQO(variável qualitativa ordinal), VQN(variável qualitativa
nominal), VQTD(variável quantitativa discreta), VQTC(variável quantitativa contínua)
Tipos de variáveis.
População Variável Opção para a variável Classificação
Enfermeiros Salário bruto R$ 2003,52
do Brasil mensal
Odontólogos de Anos de 1,5/2/4
uma clínica trabalho
Professores do Produção 0, 1, 2, 3,...
curso de Farmácia científica
Funcionários Tipo A, B, AB, O
de um hospital sanguíneo
Enfermeiros Insalubridade Recebe, não recebe
de um hospital
Candidatos ao Sexo M, F
curso de Nutrição
Professores Número de 0, 1, 2, 3, ...
UNIFRA nutricionistas
Professores Nível de stress Alto, médio, baixo
de um curso
2.3 Exercícios
1. Foi encomendado um estudo para avaliação de uma entidade de ensino superior. Para isso, aplicou-se
um questionário e obtiveram-se respostas de 110 alunos. Indique:
14
2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS
(a) a variável em estudo;
(b) a população em estudo;
(c) a amostra escolhida.
2. Os dados abaixo referem-se a medidas de prostaglandina (pg/ml) e cálcio (ml/dl) em pacientes com
câncer apresentando ou não hipercalcemia. Classifique as variáveis envolvidas no estudo, o tamanho
amostral e as populações de interesse.
Prostaglandina e cálcio em pacientes com câncer.
IPGE Calcium status
500.00 13.30 hyper
301.00 13.40 hyper
254.00 10.10 nonhyper
150.00 8.60 nonhyper
100.00 9.70 nonhyper
3. Classifique as seguintes variáveis em: Quantitativas (Discretasou Contínuas) ou Qualitativas (Nominais
ou Ordinais).
(a) A cor da pele de pessoas (ex.: branca, negra, amarela). Variável do tipo e .
(b) O número de consultas médicas feitas por ano por um associado de certo plano de saúde. Variável
do tipo e .
(c) O teor de gordura, medido em gramas por 24 horas, nas fezes de crianças de 1 a 3 anos de idade.
(Ex: 23,4 g) Variável do tipo e .
(d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A, Droga
B e placebo. Variável do tipo e .
(e) A pressão intra-ocular, medida em mmHg, em pessoas. Variável do tipo e .
(f) O número de filhos das pacientes participantes de certo estudo. Variável do tipo e
.
15
Capítulo 3
Tabelas e Distribuições de Frequência
As tabelas sintetizam informações relevantes sobre uma ou mais variáveis a fim de que tenhamos
uma visão geral sobre a variável.
Tabela é um quadro que resume um conjunto de observações.
As tabelas devem obedecer ao seguinte postulado:
"Obter um máximo de esclarecimentos com um mínimo de espaço e tempo."
Exemplos:
Taxa de Colesterol (mg/dl) em 30 pacientes.
248 157 124 124 215 312 254 156 132 145
214 256 258 298 189 178 186 231 301 265
298 178 196 152 144 185 132 289 264 256
Distribuição de idade dos pacientes portadores de mieloma múltiplo.
Idade (anos) Frequência Absoluta Frequência Relativa
10 - 19 57 18,54
20 - 29 113 37,42
30 - 39 57 18,87
40 - 49 32 10,62
50 - 59 19 6,29
60 - 69 7 2,29
> 70 2 0,67
Indeterminada 13 4,3
Total 302 100
Pacientes portadores de mieloma múltiplo.
Ano do Diagnóstico Sexo Total
Masculino Feminino
1998 50 44 94
1999 54 46 100
2000 59 49 108
Total 163 139 302
Uma tabela e mesmo um gráfico podem ser decompostos em partes: Cabeçalho, Corpo e Rodapé.
Partes de uma tabela.
16
CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Cabeçalho - O cabeçalho, que é a apresentação do que a tabela está procurando representar, deve
conter o suficiente para que sejam respondidas as seguintes questões: O QUÊ? (referente ao fato),
ONDE? (relativo ao lugar), QUANDO? (correspondente ao tempo).
Exemplo: Acidentes de trabalho ocorridos no Hospital X em 2006.
O quê? - (fato): Acidentes de trabalho.
Onde? - (lugar): Hospital X.
Quando? - (tempo): 2006.
Corpo - O corpo de uma tabela é representado por uma série de colunas e subcolunas, dentro das
quais são colocados os dados apurados.
Segundo o corpo, as tabelas podem ser: de Entradas Simples, de Dupla Entrada e de Múltipla
Entrada.
Rodapé - No rodapé de uma tabela devemos colocar a legenda e todas as observações que venham
a esclarecer a interpretação da tabela Geralmente também é no rodapé que se coloca a fonte dos
dados embora em alguns casos ela possa ser colocada também no cabeçalho. A fonte serve para dar
maior autenticidade à tabela.
CONSIDERAÇÕES
As tabelas utilizadas nos cálculos estatísticos em geral não servem para artigos científicos pois são
organizadas para facilitar os cálculos e entendimento das variáveis e não para a sua apresentação.
por Sidia C. Jacques.
Abaixo seguem as principais regras para a construção de tabelas em artigos científicos:
� A tabela deve ser precedida de um título, suficientemente claro para que o leitor não necessite
voltar ao texto para entender o conteúdo da mesma.
� a tabela é limitada por uma linha limitante superior e outra inferior, que indica seu final. o
cabeçalho deve ser separado do restante do texto por uma linha horizontal.
� Não se usam linhas verticais separando as colunas; usam-se espaços em branco.
� As abreviaturas e os símbolos pouco conhecidos devem se explicados no rodapé da tabela.
� Deve ser indicada a fonte dos dados.
17
3.1. DADOS ABSOLUTOS E DADOS RELATIVOSCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Nosso Padrão: No Excel, as tabelas devem conter todas as células centralizadas, o título e o rodapé
devem ter o tamanho da tabela e suas células devem estar mescladas. A palavra tabela, o seu número
e o traço devem estar em negrito, bem como a palavra fonte, quando existir. A palavra fonte deve
estar também em itálico. O cabeçalho deve estar em negrito. Deve haver quatro linhas horizontais:
uma limitante superior, uma inferior, uma separando o título do cabeçalho e uma entre o cabeçalho e
o corpo da tabela. A palavra total, quando existir, deve estar em negrito.
3.1 Dados Absolutos e Dados Relativos
Os dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação senão a con-
tagem ou medida, são chamados dados absolutos. A leitura dos dados absolutos é sempre cansativa
e inexpressiva; embora esses dados traduzam um resultado exato e fiel, não tem a virtude de ressaltar
de imediato as suas conclusões numéricas.
Dados relativos são o resultado de comparações por quociente (razões) que se estabelecem entre
dados absolutos e tem por finalidade realçar ou facilitar as comparações entre quantidades. Traduzem-
se os dados relativos, em geral, por meio de percentagens.
Exemplo: A tabela abaixo apresenta o número de irmãos relatados por 115 estudantes universi-
tários da UFRGS (dados obtidos entre 1986 e 1992)
Quantidade de irmãos de alunos da UFRGS.
N
o
de irmãos Frequência
0 8
1 20
2 40
3 26
4 9
5 7
6 4
7 0
8 0
9 1
Total
Determine o percentual de estudantes que têm 3 irmãos.
3.2 Distribuição de Frequências
É uma tabela, onde os dados encontram-se dispostos em classes ou não, juntamente com as
frequências correspondentes. Desta forma, podemos dividir as distribuições de frequências em dois
tipos:
Tabela de agrupamento simples
Mostram os valores obtidos e o número de vezes que cada dado foi observado. Os valores obtidos,
em geral, são colocados em ordem crescente e ao seu lado coloca-se a quantidade de vezes que cada
valor ocorreu (frequência).
Exemplo:
18
3.2. DISTRIBUIÇÃO DE FREQUÊNCIASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Número de médicos na população, países selecionados, 1984.
País Habitantes por Médico
Chile 1.230
Brasil 1.080
França 320
EUA 470
Argentina 370
Exemplo: Número de cáries dos alunos do 1
o
ano do Colégio X; quantidade de livros de bioesta-
tística na biblioteca da UNIFRA.
Número de cáries por aluno em uma escola X da cidade (Santa Maria/2008).
Número de Cáries (X
i
) Número de Alunos (f
i
)
0 35
1 20
2 13
3 6
4 4
5 ou mais 2
Total 80
Usada para variáveis qualitativas ou então quantitativas discretas com poucos valores diferentes.
Tabela de agrupamento por intervalo de classe
As classes são cada um dos intervalos que se subdivide os dados brutos a fim de condensar a
informação, mesmo que este procedimento perca algumas informações.
Usada para variáveis quantitativas contínuas ou discretas com muitos valores diferentes. Geral-
mente esta variável provém de medições.
Exemplo: A seguir temos as notas finais dos estudantes, as quais, se não forem agrupadas em
classes, geram tabelas com pouca utilidade prática.
Notas finais de 50 estudantes da disciplina de bioestatística.
22 46 9 40 57 22 22 13 50 42
35 2 15 41 34 52 32 75 69 44
26 42 60 56 30 3 17 79 45 37
0 12 62 50 45 41 59 11 66 39
43 33 70 50 47 20 36 40 67 29
Então, agrupamos os dados em classes cujas notas variam de 10 em 10 e contamos quantas notas
observadas estão em cada classe. A distribuição de frequência resultante será expressa pela tabela:
Tabela 3.1: Notas finais de estudantes da disciplina de bioestatística.
Notas f
i
0 7!10 4
107!20 5
207!30 6
307!40 8
407!50 12
507!60 7
607!70 5
707!80 3
Total 50
Onde f
i
é a frequência absoluta das classes.
19
3.2. DISTRIBUIÇÃO DE FREQUÊNCIASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Para explicara colocação das notas dos alunos, segundo uma distribuição em classes, necessitamos
de algumas definições:
1. Dados Brutos: Aqueles que não foram numericamente organizados, como é o caso das 50
notas dos alunos.
2. Rol: É o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente:
0 2 3 9 11 12 13 15 17 20
22 22 22 26 29 30 32 33 34 35
36 37 39 40 40 41 41 42 42 43
44 45 45 46 47 50 50 50 52 56
57 59 60 62 66 67 69 70 75 79
3. Intervalo de Classe: Existem várias maneiras de apresentarmos o intervalo de classes: iguais
ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que
facilitará os cálculos posteriores. O tamanho do intervalo de classe é definido pelo pesquisador.
Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma:
0 � 10: compreende todos os valores entre 0 e 10, exclusive os extremos.
0 `a 10: compreende todos os valores entre 0 e 10, inclusive os extremos.
0 a 10: compreende todos os valores entre 0 e 10, inclusive o 10 e exclusive o 0.
0 7!10 (ou 0 ` 10): compreende todos os valores entre 0 e 10, inclusive o 0 e exclusive o 10.
Como optamos por este último tipo (0 7! 10), podemos definir como intervalo de classe a
diferença entre o limite superior e o limite inferior da classe. Portanto, no exemplo, 10 � 0 = 10
é o intervalo ou amplitude da classe.
4. Amplitude Total ou "Range": é a diferença entre o maior e o menor dado. Em nosso caso, a
nota maior é 79 é a menor é 0; logo, nossa amplitude total é 79� 0 = 79.
5. Número de Classes (K): quantas classes serão necessárias para representar o fato? Existem
vários critérios que podem ser utilizados a fim de possuirmos uma idéia do melhor número de
classes, porém tais critérios servirão apenas como indicação e nunca como regra fixa, pois caberá
sempre ao pesquisador estabelecer o melhor número, levando-se em conta o intervalo de classe
e a facilidade para os posteriores cálculos numéricos.
6. Amplitude ou Intervalo de Classes (h):
h =
amplitude total
número de classes
Teríamos no exemplo:
79
7
= 12
Dessa forma, o pesquisador, usando o bom-senso e a sua experiência, verificará que seria mais
conveniente a utilização de um intervalo de classe igual a 10 e de um número de classes igual a
8, para que facilite as operações posteriores. Assim sendo:
Exemplo de intervalos de classe.
Classe (i) Notas (c
i
) Freq. (f
i
)
1 0 7! 10 4
2 10 7! 20 5
3 20 7! 30 6
4 30 7! 40 8
5 40 7! 50 12
6 50 7! 60 7
7 60 7! 70 5
8 70 7! 80 3
Total 50
20
3.3. EXERCÍCIOS NO EXCEL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Observação: O número de classes e a amplitude são usados como base para a montagem de
uma tabela. Podemos aumentar ou diminuir o número de classes e arredondar uma amplitude
decimal. Use o bom senso.
7. Frequência Relativa da Classe
Corresponde ao quociente entre a frequência absoluta da classe e o total de elementos.
No exemplo, a frequência relativa da 7
a
classe é: f
r7
=
5
50
= 0; 1 = 10%
Resumindo, teríamos:
Tabela 3.2: Exemplo de intervalos de classe.
Classe (i) Notas (c
i
) Freq. (f
i
) F.Rel.(f
(r i)
)
1 0 7! 10 4
2 10 7! 20 5
3 20 7! 30 6
4 30 7! 40 8
5 40 7! 50 12
6 50 7! 60 7
7 60 7! 70 5 10
8 70 7! 80 3
Total 50
3.3 Exercícios no Excel
1. Os pesos dos 40 alunos de uma classe estão abaixo descritos:
Pesos de 40 alunos.
69 57 72 54 93 68 72 58 64 62 65 76 60 49 74
59 66 83 70 45 60 81 71 67 63 64 53 73 81 50
67 68 53 75 65 58 80 60 63 53
Construir a distribuição de frequência simples desta tabela.
2. Organizar os dados em uma tabela de frequência simples e relativa.
Dados brutos.
154 160 164 166 170 155 160 164 166 170 156
160 164 166 171 157 161 164 167 172 158 161
164 167 172 158 161 165 168 173 159 162 165
168 173 159 162 165 168 174 159 162 165 169
176 159 164 165 169 177
3. Os dados abaixo referem-se à taxa de creatinina na urina de 24 horas (mg/100 ml), em uma
amostra de 36 homens normais. Distribua os dados em classes e represente sua frequência
absoluta e relativa.
Nível de creatinina na urina (24h)
1,51 1,61 1,69 1,49 1,67 2,18 1,46 1,89 1,76 1,08
1,66 1,52 1,40 1,22 1,46 1,43 1,49 1,54 1,38 1,47
1,73 1,60 1,43 1,58 1,66 1,26 1,59 1,40 1,44 1,52
1,37 1,86 2,02 1,75 1,83 1,66
21
3.4. GRÁFICOS DE COLUNAS E HISTOGRAMASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
4. Os dados da tabela mostram o peso (kg) de 80 mulheres. Apresente-os em uma tabela de
frequência.
Pesos de 80 mulheres.
5. Substituir por uma única tabela o trecho do relatório a seguir: �Assim sendo, podemos concluir
que este banco, em 1995, contou com a colaboração de 345 funcionários, distribuídos pelas
nossas 5 agências, a saber: Niterói, 43; Rio de Janeiro, 102; São Paulo, 98; Belo Horizonte,
75; Vitória, 27. Em Niterói, 38 eram do sexo masculino e no Rio de Janeiro, 87. Apenas em
Vitória não existiam funcionárias, mas em São Paulo trabalharam 11 delas, enquanto que em
Belo Horizonte, apenas 3.�
6. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 crianças
nascidas vivas, antes de completarem um ano de vida. Os dados da tabela representam a Taxa de
mortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e foram extraídos
da publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dados
levantados pelo IBGE.
Taxa de mortalidade infantil da microrregião.
32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0
22,7 27,2 11,9 36,4 23,5 18,0 22,6 20,3 38,3
32,9 29,9 29,7 39,2 25,4 19,6 28,9 18,4 27,3
21,7 23,7 13,9 23,8 15,7 17,0 36,3
Agrupe convenientemente os dados da tabela em classes (Distribuição de frequências).
3.4 Gráficos de Colunas e Histogramas
Os gráficos de colunas (bastões) são comumente utilizados para representarem distribuições de
frequências de grupamento simples enquanto que os histogramas representam distribuições em classes.
Um histograma é composto por retângulos justapostos onde a base de cada um deles corresponde
ao intervalo de classe e a sua altura à respectiva frequência.
Exemplo: Construa o histograma da distribuição de frequência abaixo:
Pressão arterial sistólica de 96 recém-nacidos.
PAS(mmHg) f
55 ` 59 3
59 ` 63 5
63 ` 67 40
67 ` 71 24
71 ` 75 15
75 ` 79 8
79 ` 83 1
No Excel: Copie a tabela para o grid do Excel:
22
3.4. GRÁFICOS DE COLUNAS E HISTOGRAMASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Selecione toda a tabela e clique sobre inserir > colunas > colunas 2D (primeira opção)
Você vai obter o seguinte gráfico de colunas:
Agora basta transformar este gráfico de colunas num histograma, para isto, clique com o botão
direito sobre qualquer uma das colunas e selecione �Formatar Séries de Dados�. Na janela que se
abre, defina �Largura do Espaçamento� como 0% e clique sobre "fechar". Você obterá o histograma
abaixo.
23
3.5. GRÁFICO DE PIZZA CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indica-
dor da distribuição de dados. Podem indicar se uma distribuição aproxima-se de uma função normal,
como pode indicar mistura de populações quando se apresentam bimodais.
3.5 Gráfico de Pizza
Um gráfico de setores (pizza) apresenta uma circunferência onde as "fatias"têm tamanhos pro-
porcionais à s frequências da distribuição considerada.
Para o exemplo da pressão arterial visto acima, criamos um gráfico de pizza selecionando: inserir
> pizza > pizza 2D (primeira opção), obtendo a figura abaixo:
24
3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
3.6 Box Plots
O boxplot (gráfico de caixa)é um gráfico utilizado para avaliar a distribuição do dados. O boxplot
é formado pelo primeiro e terceiro quartil e pela mediana.
As linhas que se projetam para fora da caixa em ambos os lados estendem-se para valores adjacentes
do gráfico. Os valores adjacentes são as observações mais extremas no conjunto de dados que não
estão a mais de 1,5 vez a altura da caixa além dos quartis. Todos os pontos fora do intervalo dos
dados adjacentes são repesentados por círculos. Essas observações são consideradas fora do padrão
e são chamadas de valores extremos.
Exemplo: A tabela abaixo categoriza 10614 visitas ao consultório de especialistas de doenças
cardiovasculares por duração de cada visita. Uma duração de 0 minuto implica que o paciente não
teve contato direto com o especialista.
25
3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Duração Visitas
(min) (milhares)
0 390
1 a 5 227
6 a 10 1023
11 a 15 3390
16 a 30 4431
31 a 60 968
mais de 61 185
No Bioestat:
Gráficos > Box-Plot: mediana e quartis
Obs: O Bioestat não mostra os valores extremos para o gráfico Box-Plot: mediana e quartis.
Para saber quais são os valores mostrados no gráfico é preciso fazer a estatística descritiva:
Estatísticas > Estatística Descritiva
26
3.7. A DISTRIBUIÇÃO NORMALCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
3.7 A Distribuição Normal
Suponha que você faça um gráfico das probabilidades dos números de caras esperados em 15
jogadas sucessivas de uma moeda, ou suponha 1.000 pessoas na rua, escolhidas aleatoriamente, para
cujas alturas você faz um diagrama de frequência:
Distribuição de probabilidade.
Histograma
27
3.8. DISTRIBUIÇÃO DE PROBABILIDADECAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Esses dois gráficos são semelhantes. Essa curva em forma de sino, chamada curva normal, é a
curva mais importante da estatística. Há inúmeros exemplos de grandezas que se distribuem segundo
a curva normal:
� a altura, o peso, ou o QI de uma população;
� os resultados da medida de uma grandeza física, como o peso molecular de um composto
químico;
� o total que aparece quando vários dados são jogados simultaneamente;
� o número de clientes semanais em muitos negócios.
A distribuição normal se aplica frequentemente em situações em que valores extremos são menos
prováveis do que valores moderados.
3.8 Distribuição de Probabilidade
A frequência relativa de um valor estima a probabilidade de ocorrência deste valor.
Exemplo: A tabela tem sua representação gráfica dada pelo gráfico de colunas.
Número de irmãos relatados por 115 estudantes da UFRGS entre 1986 e 1992.
N
o
de irmãos f f
r
F
r
0 8 0,07 0,07
1 20 0,17 0,24
2 40 0,35 0,59
3 26 0,23 0,82
4 9 0,08 0,90
5 7 0,06 0,96
6 4 0,03 0,99
7 0 0,00 0,99
8 0 0,00 0,99
9 1 0,01 1,00
Gráfico de colunas relativo à tabela.
28
3.8. DISTRIBUIÇÃO DE PROBABILIDADECAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
A frequência relativa associada a x = 2 irmãos é de 0,35 na amostra estudada. Estima-se, então,
que 35% dos universitários tem 2 irmãos. Isto equivale a dizer que se estima em 0,35 a probabilidade
de que um universitário, selecionado ao acaso desta população, tenha dois irmãos. No gráfico de
bastões, a probabilidade estimada para cada valor é a altura do bastão.
Exemplo: A tabela tem sua representação gráfica dada pelo histograma.
Pesos (kg) de 256 alunas da UFRGS.
Peso (kg) f f
r
40 7! 45 9 0,035
45 7! 50 36 0,141
50 7! 55 78 0,304
55 7! 60 55 0,215
60 7! 65 53 0,207
65 7! 70 11 0,043
70 7! 75 7 0,027
75 7! 80 5 0,020
80 7! 85 1 0,004
85 7! 90 1 0,004∑
256 1,000
Histograma relativo à tabela.
No histograma, a área do retângulo referente ao intervalo 45 7! 50 corresponde a 14% da área
de todo o histograma (100%). Portanto, a área deste retângulo é a representação geométrica da
probabilidade estimada de se encontrar valores entre 45 e 50 na população.
29
Capítulo 4
Medidas de Posição
4.1 Introdução
O estudo que fizemos sobre distribuições de frequência, até agora, permite-nos descrever, de modo
geral, os grupos dos valores que uma variável pode assumir. Dessa forma, podemos localizar a maior
concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no
final, ou ainda, se há uma distribuição por igual.
Porém, para ressaltar as tendências características de cada distribuição, isoladamente, ou em con-
fronto com outras, necessitamos introduzir conceitos que se expressem através de números, que nos
permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribui-
ção e são as:
a. medidas de posição;
b. medidas de variabilidade ou dispersão;
c. medidas de assimetria;
d. medidas de curtose.
Dentre os elementos típicos, destacamos, nesta unidade, as medidas de posição: estatísticas que
representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo
horizontal (eixo das abscissas).
As medidas de posição mais importantes são as medidas de tendência central, que recebem tal
denominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valores
centrais. Dentre as medidas de tendência central, destacamos: a média aritmética; a mediana e a
moda.
As outras medidas de posição são as separatrizes, que englobam a própria mediana; os quartis e
os percentis.
4.2 Média Aritmética (x)
Existem vários tipos de média (aritmética, ponderada, geométrica, harmônica, etc.), mas estuda-
remos apenas a média aritmética.
Média aritmética é o quociente da divisão da soma dos valores da variável pela quantidade deles:
x =
∑
x
i
n
onde, x é a média aritmética, x
i
são os valores da variável e n é a quantidade de valores.
Dados com agrupamento simples
Quando desejamos conhecer a média dos dados não-agrupados, determinamos a média aritmética
simples.
30
4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO
Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10,
14, 13, 15, 16, 18 e 12 litros, temos, para produção média da semana:
x =
10 + 14 + 13 + 15 + 16 + 18 + 12
7
=
98
7
= 14
Logo, a média da produção de leite foi de 14 litros por dia.
Às vezes, a média pode ser um número diferente de todos os da série de dados que ela representa.
É o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a média é 5. Esse será o número
representativo dessa série de valores, embora não esteja nos dados originais. Neste caso, diz-se que a
média não tem existência concreta.
Exemplo: Determine a média dos volumes respiratórios forçados em um segundo para 10 adoles-
centes que sofrem de asma, representados na tabela:
Volumes respiratórios por indivíduo.
Indivíduo FEV(litros)
1 2,30
2 2,15
3 3,50
4 2,60
5 2,75
6 2,82
7 4,05
8 2,25
9 2,68
10 3,00∑
=
Resp.: 2,81 litros
Consideremos a distribuição relativa a 34 famílias de 4 filhos, tomando para variável o número de
filhos do sexo masculino:
Número de filhos por família.
Número de meninos f
i
0 2
1 6
2 10
3 12
4 4∑
= 34
Neste caso, como as frequências são números indicadores da intensidade de cada valor da variável,
elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada,
dada pela fórmula:
x =
∑
x
i
� f
i∑
f
i
Um modo prático de obtenção da média ponderada é abrir, na tabela, uma coluna correspondente aos
produtos x
i
� f
i
. Assim, temos:
Número de filhos por família.
Número de meninos f
i
x
i
� f
i
0 2
1 6
2 10
3 12
4 4
TOTAL 34
31
4.2. MÉDIA ARITMÉTICA(X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO
Observação: O valor médio obtido acima de 2,3 meninos sugere, neste caso, que o maior número
de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral uma leve superioridade
numérica em relação ao número de meninos.
Com Intervalos de Classes
Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe
coincidem com o seu ponto médio, e determinamos a sua média aritmética ponderada por meio da
fórmula que já conhecemos: x =
∑
x
i
�f
i∑
f
i
, porém, agora, x
i
é o ponto médio de cada classe.
Exemplo:
Altura de 40 alunos da escola X - Santa Maria - 2007.
i Estaturas (cm) f
i
1 150 ` 154 4
2 154 ` 158 9
3 158 ` 162 11
4 162 ` 166 8
5 166 ` 170 5
6 170 ` 174 3
TOTAL 40
Primeiro vamos abrir uma coluna para os pontos médios e outra para os produtos x
i
� f
i
.
Altura de 40 alunos da escola X - Santa Maria - 2007.
i Estaturas (cm) f
i
x
i
x
i
� f
i
1 150 ` 154 4
2 154 ` 158 9
3 158 ` 162 11
4 162 ` 166 8
5 166 ` 170 5
6 170 ` 174 3
TOTAL 40 �
Resp.: 161cm
Exercício:
Determine a média de níveis séricos de colesterol entre os homens indicados na tabela:
Níveis séricos de colesterol para homens de Santa Maria com idades entre 25 e 34 anos.
Nível de colesterol(mg=10ml) f
i
x
i
x
i
� f
i
80 ` 120 13
120 ` 160 150
160 ` 200 442
200 ` 240 299
240 ` 280 115
280 ` 320 34
320 ` 360 9
360 ` 400 5
TOTAL 1067 �
Resp.: 199,34
Vantagens e desvantagens da média aritmética
Por ser muito influenciada por valores extremos da série, a média aritmética não representa bem
as distribuições em que existem valores extremos em relação aos demais, como, por exemplo, a série
32
4.3. MODA (M
O
) CAPÍTULO 4. MEDIDAS DE POSIÇÃO
cujos elementos são os seguintes: 18, 20, 22, 24 e 850 (onde a média aritmética é igual a 186,8,
resultado que foi muito influenciado pelo elemento 850).
1) Apesar de a média aritmética situar-se entre o menor e o maior resultado da distribuição de
frequências, ela não tem, necessariamente, a existência real. Podemos obter, por exemplo, uma média
do tamanho de família de 4,5 pessoas, que é um valor inexistente.
2) Pode ser calculada para distribuições com classes, mas os seus resultados não são considerados
reais.
3) Pode ser calculada diretamente usando qualquer calculadora eletrônica.
4) Depende de todos os valores da distribuição.
5) Evidencia bastante estabilidade de amostra para amostra, ou seja, se pesquisarmos numerosas
amostras extraídas de uma mesma população, os valores das médias obtidas tendem a variar pouco
(pouca variabilidade com amostras da mesma população).
4.3 Moda (M
o
)
Denominamos moda o valor que ocorre com maior frequência em uma série de valores.
Dados com agrupamento simples
Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta procurar o
valor que mais se repete.
Exemplo: A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 tem moda igual a 10.
Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto é, nas quais nenhum
valor apareça mais vezes que outros.
É o caso da série: 3, 5, 8, 10, 12, 13, que não apresenta moda (amodal).
Em outros casos, ao contrário, pode haver dois ou mais valores de concentração.
Dizemos, então, que a série tem dois ou mais valores modais. Na série: 2, 3, 4, 4, 4, 5, 6, 7, 7,
7, 8, 9 temos duas modas: 4 e 7 (bimodal).
A moda é utilizada:
quando desejamos obter uma medida rápida e aproximada de posição;
quando a medida de posição deve ser o valor mais típico da distribuição.
33
4.4. MEDIANA (M
D
) CAPÍTULO 4. MEDIDAS DE POSIÇÃO
4.4 Mediana (M
d
)
A mediana é outra medida de posição, definida como o número que se encontra no centro de
uma série de números, estando estes dispostos segundo uma ordem (em Rol). Em outras palavras, a
mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de
tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.
Exemplo: Seja a seguinte série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9. O primeiro passo é
ordenar os números (ordem crescente ou decrescente): 2, 5, 6, 9, 10, 13, 15, 16, 18.
Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita
e à esquerda. Em nosso exemplo, esse valor é o 10, já que, há quatro elementos acima dele e quatro
abaixo.
Temos, então: M
d
= 10
Se, porém, a série dada tiver um número par de termos, a mediana será, por definição, qualquer
dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto
médio. Assim, a série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritmética
entre 10 e 12.
M
d
=
10 + 12
2
= 11
Verificamos que, estando ordenados os valores de uma série e sendo n o número de elementos da
série, o valor mediano será:
o termo de ordem
n+1
2
, se n for ímpar;
a média aritmética dos termos de ordem
n
2
e
n
2
+ 1 , se n for par.
A mediana é utilizada:
quando desejamos obter o ponto que divide a distribuição em partes iguais;
quando há valores extremos que afetam de uma maneira acentuada a média.
Observação: No cálculo da média, todos os valores da amostra são levados em conta, ao passo
que no caso da mediana isto não acontece. Por esta razão, valores muito grandes ou muito pequenos,
comparados aos demais valores da amostra, causam grandes variações na média, o que em geral não
ocorre com a mediana. Por isso, dizemos que a mediana é robusta, isto é, ela é resistente a valores
atípicos.
4.5 Exercícios no Excel
1. A tabela abaixo lista as durações das terapias para dez pacientes inscritos em um estudo que
investiga os efeitos da interrupção das transfusões de sangue. Determine a média desses valores.
Duração da terapia de transfusão para 10 pacientes com doenças falciformes.
Indivíduo Duração
1 12
2 11
3 12
4 6
5 11
6 11
7 8
8 5
9 5
10 5
TOTAL
Resp.: 8,6 anos
34
4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO
2. Na sequência temos a massa (peso) em gramas, de ratos da raça Wistar com 30 dias de idade.
(Fonte: Vieira, S., 1980). Calcule a média aritmética.
50 62 70 86 66 55 60 77 82 64 58 74
Resp.: 67
3. Os tempos de reação de um indivíduo a determinados estímulos foram medidos por um psico-
logista como sendo 0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos, respectivamente.
Determinar: os tempos médio, modal e mediano de reação do indivíduo a esses estímulos.
Resp.: 0,50; 0,53; 0,51
4. Calcule a média dos números de dentes perdidos ou danificados em uma amostra de 50 pessoas
tratadas em determinada clínica dentária (Fonte: Callegari- Jacques, S. 2003).
Dentes perdidos ou danificados.
Número de dentes (x) Número de pessoas (f
i
) x � f
i
0 9
1 5
2 6
3 7
4 9
5 5
6 4
7 3
8 2
TOTAL 50
Resp.: 3,2 dentes
5. Calcule o número médio de dentes cariados, para cada sexo, a partir dos dados apresentados na
tabela a seguir:
Resp.: Masc.: 0,88 e Fem.: 1,6
Número de dentes cariados das pessoas tratadas em uma clínica dentária � Santa Maria/RS.
Número de Sexo
dentes cariados Masculino Feminino
0 16 14
1 2 6
2 3 7
3 2 8
4 2 5
Total
Resp.: Média Masc.: 0,88; Média Fem.: 1,6
6. Quinze indivíduos foram sujeitos à recolha de urina em dois momentos, antes da toma de um
diurético e após a tomada desse diurético, tendo-se obtido os valores em litros/dia mostrados
na tabela:
Coleta de urina.
Indiv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Sem 1,2 1,2 1,2 1,2 1,1 1,3 1,8 1,21,1 1,4 1,1 1,3 1,1 1,2 1,3
Com 1,4 1,3 1,5 1,4 1,3 1,6 2,1 1,4 1,3 1,5 1,2 1,4 1,2 1,2 1,3
35
4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO
a) Determine as medidas de localização central da urina sem diurético.
Resp.: x = 1; 25; M
d
= 1; 2 e M
o
= 1; 2.
b) Determine as medidas de tendência central da urina com diurético.
Resp.: x = 1; 41; M
d
= 1; 4 e M
o
= 1; 3 e 1; 4.
7. Durante uma epidemia de escarlatina, recolheu-se um certo número de mortos, em 40 cidades
de um país, obtendo-se os dados da tabela .(DIAZ e LOPEZ, 2007)
Quantidade de mortos devido à escarlatina.
Mortos(número) 0 1 2 3 4 5 6 7
Cidades 7 11 10 7 1 2 1 1
a) Calcule as medidas de posição central. Resp.: x = 1; 98; M
d
= 2 e M
o
= 1.
b) Calcule a porcentagem de cidades com pelo menos dois mortos. Resp.: 55%
c) Calcule a porcentagem de cidades com no máximo 2 mortos. Resp.: 70%
d) Calcule a porcentagem de cidades com no mínimo 3 mortos. Resp.: 30%
8. A tabela mostra a composição por idade e sexo de um grupo de trabalhadores, com tuberculose
pulmonar, numa determinada cidade.
Distribuição da tuberculose por sexo.
Idade(anos) Homem Mulher Total
14 ` 19 2 2 4
19 ` 24 10 5 15
24 ` 29 33 9 42
29 ` 34 45 12 57
34 ` 39 39 8 47
39 ` 44 21 4 25
Total
Pede-se:
Qual é a média de idade dos trabalhadores do sexo masculino e feminino com tuberculose
pulmonar.
Resp.: F: 30,38 anos; M: 32,23 anos
36
Capítulo 5
Separatrizes
Como vimos, a mediana separa uma série de valores em dois grupos que apresentam a mesma
quantidade de elementos.
Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente,
não são medidas de tendência central, já que se baseiam em sua posição na série. Essas medidas �
os quartis, os percentis e os decis � são, juntamente com a mediana, conhecidas pelo nome genérico
de separatrizes.
5.1 Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto,
três quartis:
a) O primeiro quartil (Q
1
): valor situado de tal modo na série que uma quarta parte (25%) dos
dados é menor que ele e as três quartas partes restantes (75%) são maiores.
b) O segundo quartil (Q
2
): evidentemente, coincide com a mediana (Q
2
= M
d
).
c) O terceiro quartil (Q
3
) � valor situado de tal modo que as três quartas partes (75%) dos
termos são menores que ele e uma quarta parte (25%) é maior.
5.2 Decis e Percentis
Os decis D
i
são valores que dividem os dados em 10 partes iguais enquanto que os percen-
tis são os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos por
P
1
; P
2
; P
3
; � � � ; P
32
; � � � ; P
99
.
P
50
= M
d
, P
25
= Q
1
e P
75
= Q
3
5.3 Exercícios no Excel
1. Com o objetivo de estudar a eficácia de um regime alimentar para tratamento de diabetes
foram recolhidas 12 amostras de sangue em diabéticos e analisada a quantidade de açúcar.
37
5.3. EXERCÍCIOS NO EXCEL CAPÍTULO 5. SEPARATRIZES
Obtiveram-se os resultados mostrados na tabela abaixo:
Glicose de amostras sanguíneas (mg/100ml)
187.45 187.57 187.37 187.49 187.58 187.37
187.46 187.62 187.47 187.53 187.39 187.46
(a) Determine a média, moda e mediana. Resp.: x = 187:48 ; M
o
= 187:37; M
d
= 187:465
(b) Determine os quartis Q
1
e Q
3
. Resp.: Q
1
= 187:42 ; Q
3
= 187:55
2. Os dados referentes ao número de dentes cariados, perdidos ou obturados em uma amostra de
20 pessoas tratadas em uma determinada clínica dentária estão apresentados na tabela a seguir.
Considerando dados brutos, pede-se:
Dentes cariados, perdidos ou obturados.
6 4 1 0 2 3 0 5 0 4
4 6 0 1 3 5 8 3 2 7
Primeiro e o terceiro quartil . Interprete os resultados.
Resp.: Q
1
= 1 (25% do total tem 0 ou 1 cárie); Q
3
= 3
3. Considerando 12 observações (ordenadas) do tempo de internação (dias) de acidentados no
trabalho, em um certo hospital: 1, 4, 7, 9, 10, 13, 15, 17, 17, 18, 19, 21. Obtenha os quartis
e interprete estes valores.
Resp.: Q
1
= 8, Q
2
= 14 Q
3
= 17; 5
38
Capítulo 6
Medidas de Dispersão
6.1 Dispersão ou Variabilidade
As medidas de dispersão procuram verificar o quanto os dados estão dispersos em torno de uma
medida de posição (média, mediana ou moda), ou seja, elas informam o quanto os dados estão
afastados, em média, do ponto central.
Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um
conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades
é a mesma, e igual a 24
�
C, ainda assim somos levados a pensar a respeito do clima dessas cidades.
Em uma delas poderá a temperatura variar entre limites de muito calor e de muito frio e haver, ainda,
uma temperatura média de 24
�
C. A outra poderá ter uma variação pequena de temperatura e possuir,
portanto, no que se refere à temperatura, um clima mais favorável.
Vemos, então, que a média � ainda que considerada como um número que tem a faculdade de
representar uma série de valores � não pode, por si mesma, destacar o grau de homogeneidade ou
heterogeneidade que existe entre os valores que compõem o conjunto.
Exemplo: Consideremos os seguintes conjuntos de valores das variáveis x, y e z:
X: 70, 70, 70, 70, 70.
Y: 68, 69, 70, 71, 72.
Z: 5, 15, 50, 120, 160.
Calculando a média aritmética de cada um desses conjuntos, obtemos:
X =
350
5
= 70 , Y =
350
5
= 70 e Z =
350
5
= 70.
Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70.
Entretanto, é fácil notar que o conjunto X é mais homogênea que os conjuntos Y e Z, já que
todos os valores são iguais à média.
O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação
entre cada um de seus valores e a média representativa.
Chamando de dispersão ou variabilidade a maior ou menor diversificação dos valores de uma variável
em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o
conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou
variabilidade menor que o conjunto Z.
Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão
ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre à s medidas de
dispersão ou de variabilidade.
Dessas medidas, estudaremos a amplitude total, a variância, o desvio padrão e o coeficiente de
variação.
39
6.2. AMPLITUDE TOTAL CAPÍTULO 6. MEDIDAS DE DISPERSÃO
6.2 Amplitude Total
É a diferença entre o maior e o menor valores observados e serve para ajudar a entender a dispersão
dos dados, assim, amplitudes grandes indicam dados dispersos enquanto que amplitudes pequenas
indicam que os dados são mais homogêneos.
Exemplo: Consideremos quatro grupos de alunos cujas notas são:
Grupo A � 7, 5, 6, 9 e 8;
Grupo B � 9, 10, 4, 1, 8 e 10;
Grupo C � 5, 7, 7, 7,7, 7, 7, 7, 7 e 9;
Grupo D � 7, 7, 7 e 7.
Com base na amplitude ou intervalo total, qual é o mais homogêneo?
Resp.: Grupo B, Grupos A e C (empatados) e Grupo D.
Comentário: Vimos acima que os grupos A e C são considerados igualmente homogêneos por
terem o mesmo intervalo total. No entanto, um simples exame visual das notas respectivas nos leva
a concluir que certamente o grupo C é o mais homogêneo, uma vez que dá para perceber que os seus
elementos estão mais próximos entre si que os elementos do grupo A.
O que de fato ocorre é que, infelizmente, o intervalo total não é uma medida capaz de quantificar
de modo eficiente a dispersão de uma série, uma

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes