Buscar

1° Semestre Estatística descritiva

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE ESTADUAL DO OESTE DO PARANÁ - UNIOESTE 
Curso: Enfermagem – 2º Ano 
Disciplina: Bioestatística 
Professor: Wilson Alves de Oliveira 
 
 
1 ESTATÍSTICA DESCRITIVA (Análise exploratória de dados) 
 
1.1 Estatística e a Bioestatística 
 
O primeiro uso da palavra estatística parece datar de 1589 e apareceu em 
um trabalho do historiador italiano Girolomo Ghilini quando se referiu a uma 
“Ciência Civil, política, estatística e militar”, segundo Berquó, Souza e Gotlieb1. 
Costuma-se dividir a estatística em geral ou metodológica e aplicada. A 
estatística geral visa elaborar métodos gerais aplicáveis a todas as fases do estudo 
dos fenômenos de massa, desde a coleta dos dados necessários até a apresentação 
e interpretação dos resultados. A estatística aplicada é todo ramo do conhecimento 
científico que proceda única ou principalmente por intermédio da metodologia 
estatística. Compreende a demografia, a biometria, a econometria, a psicometria, a 
mecânica estatística, etc. Segundo o vocábulo brasileiro de estatística, 
“Bioestatística é a estatística aplicada que tem por objetivo o estudo e a exposição 
da situação e do movimento das populações humanas em seus característicos 
biológicos”. 
Para Greenberg, “Bioestatística é a ciência que trata com os planos e 
métodos de coleta, tabulação e análise de fatos numéricos nas ciências da vida”. 
Os métodos estatísticos abrangem as áreas da estatística vital, biometria, 
sociometria e psicometria. O fato de bio e vita significarem ambos vida, em 
grego e latim, respectivamente, explica por que esta igualdade literal levou alguns 
autores a pensarem na igualdade, também quanto ao objeto, da bioestatística e da 
estatística vital. Esta última, para Greenberg, limita-se ao estudo dos dados 
provenientes dos registros de nascimentos e óbitos. 
Para Berquó, Souza e Gotlieb, Bioestatística é a estatística aplicada às 
ciências da vida. 
 
 
 
 
 
 
 
 
1 BERQUÓ, E.S.; PACHECO, J.M.P.; GOTLIED, S.L.P. Bioestatística, São Paulo, E.P.U. 1980. 
 
2
1.2 Tipos de Variáveis 
 
 
A estatística trabalha com informações referentes a conjunto de dados observados. Estes 
elementos constituem uma amostra retirada da população que se deseja estudar ou a população 
toda. 
 De um modo geral, para cada elemento observado, tem-se associado um resultado (ou 
mais de um resultado) correspondendo à realização de uma variável (ou variáveis). 
 
As variáveis podem ser classificadas em dois grupos: variáveis quantitativas e variáveis 
qualitativas. 
 
Variáveis quantitativas: são aquelas que descrevem quantidades e são associadas a números. 
As variáveis quantitativas são classificadas em discretas e contínuas. 
 
 
Variáveis quantitativas discretas: são aquelas que assumem apenas determinados valores no 
campo dos reais. Em geral, descrevem problemas de contagem. Assumem, portanto, somente 
valores inteiros. 
 
Exemplos: a) Número de filhos em casais residentes em uma determinada cidade. 
 b) Pontos obtidos jogando-se 5 vezes um dado. 
 c) Número de sementes germinadas, de uma determinada planta, em 6 vasos com 5 
sementes por vaso, após 2 semanas. 
 
Variáveis quantitativas contínuas: são aquelas que podem teoricamente assumir qualquer valor 
de um subconjunto dos números reais. 
 
Exemplos: a) Idade de pessoas residentes em uma determinada cidade. 
 b) Peso de pessoas residentes em uma determinada cidade. 
 c) Altura de pessoas residentes em uma determinada cidade 
 
Variáveis qualitativas: são usada para descrever qualidades, categorias, etc. 
 
Exemplos: 
 
a) Conceito obtido pelos alunos de pós-graduação de uma determinada Universidade (A, B, C, 
D, E). 
b) Sexo dos alunos da UNIOESTE (M, F). 
c) Classe de renda dos operários do bairro B (baixa, média, alta). 
d) Causa mortis (moléstias cardiovasculares, cânceres, moléstias do aparelho digestivo, etc.) em 
um hospital, nos últimos 5 anos. 
 
OBS. As variáveis qualitativas são classificadas em ordinais e nominais. 
Variáveis qualitativas ordinais: quando houver um sentido de ordenação em seus possíveis 
valores, como nas variáveis citadas nos itens a e c. 
Variáveis qualitativas nominais: quando não houver sentido de ordenação, em seus valores, 
como nas variáveis citadas nos itens b e d. 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 
3
Variáveis Bidimensionais ou multidimensionais 
 
 Pode ocorrer, em problemas práticos, que tenhamos interesse em estudar 
simultaneamente dois ou mais atributos quantitativos, qualitativos ou ambos. 
 
Exemplo: Visando planejar uma dieta alimentar padrão para os funcionários de certa empresa, 
um nutricionista anotou o peso e a altura de 10 deles. Tomando X e Y para descrever, 
respectivamente, as variáveis quantitativas contínuas peso em kg e altura em cm, temos a 
variável bidimensional (X, Y) e um conjunto de pares ordenados (xi, yi). Por exemplo: 
 
(X, Y) = {(65, 175), (82, 181), ... , (70, 172)}. 
 
Note que o nutricionista poderia ter julgado relevante tomar a idade Z dos funcionários. Neste 
caso, teríamos uma variável tridimensional (X, Y, Z) descrita por ternas ordenadas (xi, yi, zi). 
Poderia-se incluir, também, a variável sexo (qualitativa). 
 
 
1.3 Distribuição de Frequências 
 
Alguns conceitos fundamentais: 
 
População é um conjunto de indivíduos ou objetos que apresentam pelo menos uma 
característica em comum. A população pode ser finita ou infinita. 
 
Amostra – Considerando-se a impossibilidade, na maioria das vezes, do tratamento 
de todos os elementos da população, retira-se uma amostra. Portanto, amostra é um subconjunto 
da população. 
 
Os procedimentos para a representação das distribuições de frequências são dados a 
seguir. 
 
1. Dados brutos. O conjunto dos dados numéricos obtidos após a crítica dos valores coletados 
constitui-se nos dados brutos. 
 
2. Rol. É o arranjo dos dados brutos em ordem de frequência crescente ou decrescente. 
 
3. Amplitude total ou “range” (R). É a diferença entre o maior e o menor valor observado. 
 
4. Frequência absoluta (fi). É o número de vezes que o elemento aparece na amostra, ou o 
número de elementos pertencentes a uma classe. 
 
5. Distribuição de frequência. É o arranjo dos valores e suas respectivas frequências. 
 
6. Número de classes (K). Não há uma fórmula exata para o cálculo do número de classes. A 
mais utilizada é fórmula de Sturges, nK log22,31+≅ . 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 
4
7. Amplitude das classes (h). É a diferença entre o limite superior e o limite inferior da classe 
correspondente, KRh ÷≅ . 
 
8. Limites das classes. Existem diversas maneiras de expressar os limites das classes. 
 
a) a | b, a classe compreende valores de a, inclusive, até b, exclusive. 
 
b) a | b, a classe compreende valores de a, exclusive, até b, inclusive. 
 
c) a  b, a classe compreende valores de a, exclusive, até b, exclusive. 
 
d) a || b, a classe compreende valores de a, inclusive, até b, inclusive. 
 
9. Ponto médio das classes (xi). É a média aritmética entre o limite superior e o limite inferior 
da classe. 
 
10. Frequência absoluta acumulada (Fac). É a soma das frequências dos valores inferiores ou 
iguais ao valor dado. 
 
11. Frequência relativa (ri). É o quociente entre a frequência simples da classe e o total de 
elementos, 
n
f
r ii = , onde n = ∑ fi. 
 
12. Frequência relativa acumulada (Ri). É o quociente entre a frequência acumulada da classe 
e o total de elementos, 
n
F
R aci = . 
 
13. Histograma. É a representação gráfica de umadistribuição de frequências por meios de 
retângulos justapostos. 
 
14. Polígono de frequências. Unindo por linhas retas os pontos médios das bases superiores dos 
retângulos do histograma, obtém-se outra representação dos dados, denominada polígono de 
frequências. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 
5
Exemplo: Dado o rol de 50 notas, formar uma distribuição de frequências, construir o 
histograma e o polígono de frequências. 
 
33 35 35 39 41 41 42 45 47 48 
50 52 53 54 55 55 57 59 60 60 
61 64 65 65 65 66 66 66 67 68 
69 71 73 73 74 74 76 77 77 78 
80 81 84 85 85 88 89 91 94 97 
 
Solução: 
Amplitude total (R): R = 97 – 33 = 64; 
 
Número de classes (K): .log22,31 nK +≅ 
Como n = 50 e log 50≅ 1,7. Então, 
 
.47,647,51)7,1(22,31 =+=+=K 
 
Portanto, K ≅ 7. 
Amplitude das classes (h): 14,9
7
64
==h . Logo, h 10≅ . 
 
Para facilitar a contagem das frequências, iniciaremos a primeira classe por 30. Porém, 
poderíamos iniciar por 33. 
 
Logo, a distribuição de frequências será: 
 Classes fi Fac xi ri Ri 
30 | 40 4 4 35 0,08 0,08 
40 | 50 6 10 45 0,12 0,20 
50 | 60 8 18 55 0,16 0,36 
60 | 70 13 31 65 0,26 0,62 
70 | 80 9 40 75 0,18 0,80 
80 | 90 7 47 85 0,14 0,94 
90 | 100 3 50 95 0,06 1,00 
 Total 50 - - 1,00 - 
 
 
Obs. A finalidade de uma distribuição de frequências é resumir os dados e tirar conclusões sobre 
os mesmos. Observa-se, por exemplo, pela frequência acumulada, que 31 alunos obtiveram nota 
inferior a 70. Isto corresponde, pela frequência acumulada relativa, a 62% dos alunos. Podemos 
observar, também, que a classe que teve maior frequência (13 alunos) foi a de 60 a 70. E a de 
menor frequência (3 alunos) foi a de 90 a 100. 
 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 
6
Histograma e Polígono de Frequências 
 
Expected
Normal 
Histograma e polígono de frequência
Notas
N
ú
m
e
ro
 d
e
 a
lu
n
o
s
0
2
4
6
8
10
12
14
16
20 30 40 50 60 70 80 90 100
 
 
 
1.4 Representações estatísticas - Tabelas e Gráficos (Capítulo 2 e 3 do livro da Sonia Vieira). 
 
 
LISTA DE EXERCÍCIOS Nº 1 
 
Utilizando os dados da tabela 1. 
 
1. Classifique as variáveis: Estado civil, Grau de instrução, Nº de filhos, Salário, Idade e Região 
de procedência, quanto aos tipos de variáveis. 
 
2. Faça uma tabela de distribuição de frequências e um gráfico de setores para a variável grau de 
instrução. Comente os resultados. 
 
3. Faça uma tabela de distribuição de frequências e o histograma para a variável salário. Faça o 
mesmo para a variável idade. Comente os resultados. 
 
4. Repita o item 2 para a variável região de procedência, utilizando um outro tipo de gráfico 
para representar esta variável. 
 
5. Represente graficamente a variável número de filhos considerando apenas os funcionários 
casados. 
 
 
 
 
 
 
 
 
7
Tabela 1. Informações sobre estado civil, grau de instrução, salário, idade e 
 procedência de 36 funcionários da Companhia Milsa. 
Nº Estado 
Civil 
Grau de 
Instrução 
Nº de 
filhos 
Salário 
(X sal. Min.) 
Idade 
 anos meses 
Região de 
procedência 
1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
Solteiro 
casado 
casado 
solteiro 
solteiro 
casado 
solteiro 
solteiro 
casado 
solteiro 
casado 
solteiro 
solteiro 
casado 
casado 
solteiro 
casado 
casado 
solteiro 
solteiro 
casado 
solteiro 
solteiro 
casado 
casado 
casado 
solteiro 
casado 
casado 
casado 
solteiro 
casado 
casado 
solteiro 
casado 
casado 
1º grau 
1º grau 
1º grau 
2º grau 
1º grau 
1º grau 
1º grau 
1º grau 
2º grau 
2º grau 
2º grau 
1º grau 
2º grau 
1º grau 
2º grau 
2º grau 
2º grau 
1º grau 
superior 
2º grau 
2º grau 
2º grau 
1º grau 
superior 
2º grau 
2º grau 
1º grau 
2º grau 
2º grau 
2º grau 
superior 
2º grau 
superior 
superior 
2º grau 
Superior 
--- 
1 
2 
--- 
--- 
0 
--- 
--- 
1 
--- 
2 
--- 
--- 
3 
0 
--- 
1 
2 
--- 
--- 
1 
--- 
--- 
0 
2 
2 
--- 
0 
5 
2 
--- 
1 
3 
--- 
2 
3 
4,00 
4,56 
5,25 
5,73 
6,26 
6,66 
6,86 
7,39 
7,59 
7,44 
8,12 
8,46 
8,74 
8,95 
9,13 
9,35 
9,77 
9,80 
10,53 
10,76 
11,06 
11,59 
12,00 
12,79 
13,23 
13,60 
13,85 
14,69 
14,71 
15,99 
16,22 
16,61 
17,26 
18,75 
19,40 
23,30 
26 
32 
36 
20 
40 
28 
41 
43 
34 
23 
33 
27 
37 
44 
30 
38 
31 
39 
25 
37 
30 
34 
41 
26 
32 
35 
46 
29 
40 
35 
31 
36 
43 
33 
48 
42 
03 
10 
05 
10 
07 
00 
00 
04 
10 
06 
06 
11 
05 
02 
05 
08 
07 
07 
08 
04 
09 
02 
00 
01 
05 
00 
07 
08 
06 
10 
05 
04 
07 
07 
11 
02 
 Interior 
 Capital 
 Capital 
 Outro 
 Outro 
 Interior 
 Interior 
 Capital 
 Capital 
 Outro 
 Interior 
 Capital 
 Outro 
 Outro 
 Interior 
 Outro 
 Capital 
 Outro 
 Interior 
 Interior 
 Outro 
 Capital 
 Outro 
 Outro 
 Interior 
 Outro 
 Outro 
 Interior 
 Interior 
 Capital 
 Outro 
 Interior 
 Capital 
 Capital 
 Capital 
 Interior 
 FONTE: Estatística Básica - BUSSAB, Wilton O. e MORETIN, Pedro A. 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
1.5 Principais medidas de posição 
 
 As medidas de posição mais importantes são as medidas de tendência central que 
fornecem o valor do ponto em torno do qual os dados se distribuem. São medidas de tendência 
central: a média aritmética, a mediana e a moda. 
 
Média aritmética 
 
 Sejam x1, x2, ... , xn, n valores da variável X. A média aritmética de X, representada por 
x é definida por: 
 
 
n
x
x
n
i
i∑
== 1 , onde n é o número elementos do conjunto. 
 
Exemplo: Determinar a média aritmética dos valores 3, 7, 8, 10 e 12. 
 
 8
5
40
5
12108731 ==
++++
==
∑
=
n
x
x
n
i
i
. 
 
Média aritmética para dados agrupados 
 
 Sejam x1, x2, ... , xn, n valores da variável X e sejam f1, f2, ... , fn as respectivas 
frequências. A média aritmética de X é dada por: 
 
 ∑
∑
=
= ==
n
i
i
n
i
ii
fn
n
fx
x
1
1 onde , . 
 
 
Exemplo: Seja a tabela 2 de distribuição de frequências. 
 
 Tabela 2: Nascidos vivos segundo 
 o peso ao nascer, em kg. 
 
 
 
 
 
 
 
 
 
 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
CLASSES fi 
1,5 | 2,0 3 
2,0 | 2,5 16 
2,5 | 3,0 31 
3,0 | 3,5 34 
3,5 | 4,0 11 
4,0 | 4,5 4 
4,5 | 5,0 1 
Total 100 
 
9
Neste caso, o valor de xi é obtido pelo ponto médio da classe correspondente. Os cálculos para 
obtenção da média aritmética ficam facilitados com o uso de uma tabela auxiliar. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Logo, a média aritmética é dada por: 
 
00,3
100
00,3001 ===
∑
=
n
fx
x
n
i
ii
. 
 
Portanto, o peso médio destes 100 recém nascidos é de 3,00 kg. 
 
Mediana 
 
 Se a amostra é constituída por um número ímpar de observações, a mediana (Md) é o 
valor que fica no centro dos dados ordenados. Por exemplo, a mediana dos valores 1, 2, 3, 5, 
e 9 é 3. 
 Se a amostra é constituída por um número par de observações,a mediana é a média 
aritmética dos dois valores centrais dos dados ordenados. Por exemplo, a mediana dos valores 1, 
2, 3, 4, 7 e 9 é a média aritmética entre os valores 3 e 4, ou seja, Md = 3,5. 
 
Mediana para dados agrupados em classes 
 
Procedimentos: 
 
1º) Calcula-se o termo n/2; 
2º) Pela frequência acumulada (Fac) identifica-se a classe que contém a mediana (classe Md); 
3º) Aplica-se a fórmula: 
 
 
 h
f
f
n
lMd
md
ant
md .
2









 −
+= , em que: 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
CLASSES fi xi xifi 
1,5 | 2,0 3 1,75 5,25 
2,0 | 2,5 16 2,25 36,00 
2,5 | 3,0 31 2,75 85,25 
3,0 | 3,5 34 3,25 110,50 
3,5 | 4,0 11 3,75 41,25 
4,0 | 4,5 4 4,25 17,00 
4,5 | 5,0 1 4,75 4,75 
Total 100 - 300,00 
 
10
lmd é o limite inferior da classe Md; 
fant é a frequência acumulada da classe anterior à classe Md; 
fmd é a frequência absoluta da classe Md; 
h é a amplitude da classe Md. 
 
Exemplo: Obtenha a mediana para os dados da tabela 2. 
 
1º) 50
2
100
2
==
n
; 
 
2º) Clase Md: 2,5 | 3,0 ; 
 
3º) lmd = 2,5; fant = 19; fmd = 31 e h = 0,5. 
 
 35,0.
31
1950
5,2.2 =


 −+=









 −
+= h
f
f
n
lMd
md
ant
md . 
Moda 
 
 A moda (Mo) é o valor que ocorre com maior frequência. Por exemplo, a moda dos 
valores 3, 4, 5, 7, 7, 7, 9 e 9 é 7, porque o 7 é o valor que ocorre mais vezes. 
 Existem conjuntos de dados que não apresentam moda e são chamados de amodal. Por 
outro lado, existem conjuntos com duas ou mais modas. 
 
Exemplos: 
a) 1, 2, 3, 4 e 5 ⇒ este conjunto não possui moda, ou seja, é amodal. 
b) 1, 2, 2, 3, 4, 4 e 5 ⇒ este conjunto possui duas modas, ou seja, 2 e 4. 
 
A moda diferentemente das outras medidas de tendência central, pode ser obtida mesmo 
que a variável seja qualitativa. 
 
Exemplo: 
 
 Tabela 3: Indivíduos segundo o tipo 
 de sangue. 
 
 
 
 
 
 
 
 Observa-se na tabela 3 que o sangue tipo O ocorreu com maior frequência. Então, a moda 
desta amostra é o sangue tipo O. 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
Tipo de Sangue fi 
O 
A 
B 
AB 
547 
441 
123 
25 
FONTE: GARCIA (1977) 
 
11
Moda para dados agrupados em classes 
 
 Existem diversas fórmulas para o cálculo da moda. Uma delas é a fórmula de CZUBER. 
 
Procedimentos: 
 
1º) Identifica-se a classe modal (a de maior frequência). 
2º) Aplica-se a fórmula: 
 
h
dd
d
lMo
21
1
+
+= , onde: 
 
l é o limite inferior da classe modal; 
d1 é a diferença entre a frequência da classe modal e a imediatamente anterior; 
d2 é a diferença entre a frequência da classe modal e a imediatamente posterior; 
h é a amplitude da classe modal. 
 
Exemplo: Calcular a moda para os dados da tabela 2: 
 
1º) Classe modal: 3,0 | 3,5 ; 
 
2º) l = 3,0; d1 = 34 – 31 = 3; d2 = 34 – 11 = 23; h = 0,5; 
 
então, )5,0(
233
3
0,3
+
+=Mo = 3,06. 
 
Portanto, .06,30,3;0,3 === MoeMdx 
 
 
Relação entre média, mediana e moda 
 
Em uma distribuição simétrica, observa-se que a média = mediana = moda. 
 
 
 
 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
MoMdx ==
 
12
Em uma distribuição assimétrica positiva, observa-se que a média ≥ mediana ≥ moda. 
 
 
 
Em uma distribuição assimétrica negativa, observa-se que a média ≤ mediana ≤ moda. 
 
 
 
Outras Medidas de Posição 
 
 A mediana caracteriza um conjunto de dados devido à sua posição central. Mas ela tem 
outra característica importante, pois divide o conjunto de dados em dois grupos com o mesmo 
número de elementos. Existem outras medidas de posição com esta característica. São os 
quartis, decis, e percentis que são chamadas de “separatrizes”. 
 
Quartis 
 
Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: 
Q1 = 1º quartil, deixa 25% dos elementos abaixo. 
Q2 = 2º quartil, coincide com a mediana, deixa 50% dos elementos abaixo. 
Q3 = 3º quartil, deixa 75% dos elementos abaixo. 
 
 As fórmulas para a determinação de Q1 e Q3 são semelhantes à usada para o cálculo da 
mediana. 
 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 Mo Md x 
 x Md Mo 
 
13
Determinação de Q1: 
 1º Passo: calcula-se n/4. 
 2º Passo: identifica-se a classe Q1 pela frequência acumulada. 
 3º Passo: aplica-se a fórmula: 
 
( )
1
1
.
4
1
Q
n
Q
f
hf
lQ
∑−+= . 
Determinação de Q3: 
 1º Passo: calcula-se 3n/4. 
 2º Passo: identifica-se a classe Q3 pela frequência acumulada. 
 3º Passo: aplica-se a fórmula: 
 
( )
3
3
.
4
3
3
Q
n
Q
f
hf
lQ
∑−+= . 
Exemplo: Determinar Q1 e Q3 para a seguinte distribuição: 
 
Renda Familiar 
(Salário Mínimo) 
Número de 
Famílias (fi) 
 
 Fac 
2 | 4 
4 | 6 
6 | 8 
 8 | 10 
 10 | 12 
5 
10 
14 
8 
3 
 5 
 15 (Q1) 
 29 
 37 (Q3) 
 40 
Total 40 - 
 
1º Passo: n = 40; 
10
4
40
4
==
n
 (Q1); 30
4
)40(3
4
3
==
n
 (Q3); 
2º Passo: pela frequência acumulada identifica-se a classe Q1 e a classe Q3. 
3º Passo: aplicam-se as fórmulas: 
 
 
( ) ( )
5
10
2.510
4
.
1
1
4
1 =
−
+=
−
+= ∑
Q
n
Q
f
hf
lQ e 
 
 
( ) ( )
25,8
8
2.2930
8
.
3
3
4
3
3 =
−
+=
−
+= ∑
Q
n
Q
f
hf
lQ . 
 
Então, 25% dos elementos estão abaixo de Q1 = 5, ou seja, 25% das famílias ganham 
menos que 5 salários mínimos e 75% das famílias ganham menos que 8,25 salários mínimos. 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 
14
Decis 
 
Os decis são valores que dividem um conjunto de dados em 10 partes iguais. O cálculo é 
dado por: 
1º Passo: calcula-se 
10
ni×
, onde i = 1, 2, 3, 4, 5, 6, 7, 8 e 9. 
 2º Passo: identifica-se a classe Di pela frequência acumulada. 
 3º Passo: aplica-se a fórmula: 
 
( )
i
i
D
in
Di
f
hf
lD
.
10 ∑−+= . 
Percentis 
 
São medidas que dividem um conjunto de dados em 100 partes iguais. O cálculo é dado 
por: 
1º Passo: calcula-se 
100
ni×
, onde i = 1, 2, 3, ... , 98, 99. 
 2º Passo: identifica-se a classe Pi pela frequência acumulada. 
 3º Passo: aplica-se a fórmula: 
 
( )
i
i
P
in
Pi
f
hf
lP
.
100 ∑−+= . 
 
Exemplo: Determinar o decil 8 (D8) e o percentil 95 (P95) para a distribuição usada no exemplo 
anterior. 
 
1º Passo: n = 40; 
32
10
)40(8
10
==
in
 (D8); 38
100
)40(95
100
==
in
 (P95); 
2º Passo: pela frequência acumulada identifica-se a classe D8 e a classe P95. 
3º Passo: aplicam-se as fórmulas: 
 
( ) ( )
75,8
8
2.2932
8
.
8
8
10
8 =
−
+=
−
+= ∑
D
in
D
f
hf
lD e 
 
 
( ) ( )
67,10
3
2.3738
10
.
95
95
100
95 =
−
+=
−
+= ∑
p
in
P
f
hf
lP . 
 
Portanto, 80% das famílias ganham menos que 8,75 salários mínimos e 95% ganham 
menos que 10,67 salários mínimos. 
Obs. Md = Q2 = D5 = P50. 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 
15
1.6 Principais Medidas de Dispersão 
 
 Ainformação fornecida pelas medidas de posição necessita, em geral, ser complementada 
pelas medidas de dispersão. Estas indicam o grau de variação existente no conjunto de dados. A 
dispersão (variação) dos dados pode ser verificada através das seguintes medidas de dispersão: 
amplitude, variância, desvio padrão e coeficiente de variação. 
 
Amplitude 
 
 Por definição, amplitude é a diferença entre o maior e o menor valor observado. A 
utilização da amplitude é limitada, pois, leva em consideração apenas os valores extremos, não 
sendo afetada pela dispersão dos valores internos. 
 
Variância 
 
 O grau de dispersão de um conjunto de dados pode ser medido pelos desvios em relação à 
média, que é a diferença entre cada valor e a média do conjunto. Não se pode calcular a média 
dos desvios porque a soma é sempre igual a zero. 
 
Exemplo: Considere os valores: 0, 4, 6, 7 e 8. A média destes valores é 5. Os desvios em relação 
à média, representados por (x - x ) são os seguintes: -5, -1, 1, 2 e 3. Portanto, 
( ) 0
1
=−∑
=
n
i
i xx . 
 
Qualquer que seja o conjunto de dados, a soma dos desvios é sempre igual a zero. Então, para 
medir a dispersão dos dados em torno da média utiliza-se a variância que leva em consideração a 
soma dos quadrados dos desvios e o tamanho da amostra. 
 
 A variância pode ser definida como a soma dos quadrados dos desvios dividida pelo 
número de elementos da amostra, menos 1 (n – 1), ou seja: 
 
 ( )∑
=
−
−
=
n
i
i xx
n
s
1
22
1
1
. 
 
Desenvolvendo algebricamente a fórmula da variância, obtém-se: 
 
 
( )








−
−
=
∑∑
n
x
x
n
s
i
i
i
2
22
1
1
. 
 
Exemplo: Obtenha a variância para os dados 0, 4, 6, 7 e 8, utilizando as duas fórmulas 
anteriores. 
 
 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 
16
Para facilitar os cálculos, utiliza-se a seguinte tabela auxiliar. 
 
 
 
 
 
 
 
 
 
 
 
Então, pela fórmula 
 
 ( )∑
=
−
−
=
n
i
i xx
n
s
1
22
1
1
, tem-se que 10)40(
15
12 =
−
=s 
 
e pela fórmula 
 
( )








−
−
=
∑∑
n
x
x
n
s
i
i
i
2
22
1
1
, tem-se que 
 
( ) { } 10125165
4
1
5
25
165
15
1 22 =−=






−
−
=s . 
 
Variância para dados agrupados 
 
 O cálculo da variância para dados agrupados é dado por: 
 
 
( )








−
−
= ∑∑
n
fx
fx
n
s
ii
i
ii
2
22
1
1
. 
 
Obs. Usa-se s2 para obter a variância dos dados provenientes de uma amostra. Quando os dados 
são provenientes de uma população, usa-se a fórmula: 
 
 
( )








−=
∑∑
n
fx
fx
n
ii
i
ii
2
22 1σ . 
 
Desvio Padrão 
 
 O desvio padrão é definido como a raiz quadrada positiva da variância e é representado 
por s (se os dados são provenientes de uma amostra) ou porσ ( se os dados são provenientes de 
uma população). 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
xi (xi - x ) (xi - x )
2 2
ix 
0 
4 
6 
7 
8 
-5 
-1 
1 
2 
3 
25 
1 
1 
4 
9 
0 
16 
36 
49 
64 
25 0 40 165 
 
17
Exemplos: 1) Obtenha a variância e o desvio padrão para os dados da tabela 2 (peso de nascidos 
vivos). 
 
Os cálculos para obtenção da variância ficam facilitados com o uso da tabela auxiliar. 
 
 
 
Então, 
( ) { } 34,026,33
99
1
100
300
26,933
1100
1 22 ≅=






−
−
=s e 
 
 58,034,02 ≅== ss . 
 
Portanto, o peso médio destes 100 recém nascidos é de 3,00 kg, com uma variância de 
aproximadamente 0,34 kg2 e um desvio padrão de 0,58 kg, ou seja, a dispersão (variação) dos 
dados em relação a média é de aproximadamente s = 0,58 kg. 
 
2) Considere os dados da tabela 4. Qual aluno teve maior variação, em relação à média, nas suas 
notas. 
 
 
 
 
 
 
 
 
 
Observa-se, na tabela 4, que todos os alunos obtiveram média 5, mas a variação das notas 
em torno da média não é a mesma e será verificada através das seguintes medidas de dispersão: 
amplitude, variância e desvio padrão. 
 
As notas de Antônio têm amplitude: h = 5 – 5 = 0. 
As notas de João têm amplitude: h = 6 – 4 = 2. 
As notas de José têm amplitude: h = 10 – 0 = 10. 
As notas de Pedro têm amplitude: h = 10 – 0 = 10. 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
CLASSES fi P.M.(xi) xi fi ii fx
2 
1,5 | 2,0 3 1,75 5,25 9,19 
2,0 | 2,5 16 2,25 36,00 81,00 
2,5 | 3,0 31 2,75 85,25 234,44 
3,0 | 3,5 34 3,25 110,50 359,13 
3,5 | 4,0 11 3,75 41,25 154,69 
4,0 | 4,5 4 4,25 17,00 72,25 
4,5 | 5,0 1 4,75 4,75 22,56 
Total 100 - 300,00 933,26 
Tabela 4: Notas de quatro alunos em cinco provas 
Aluno Notas Média 
Antônio 
João 
José 
Pedro 
5 
6 
10 
10 
5 
4 
5 
10 
5 
5 
5 
5 
5 
4 
5 
0 
5 
6 
0 
0 
5 
5 
5 
5 
 
18
Cálculo das variâncias 
 
Para as notas de Antônio, que não variaram, s2 = 0 ⇒ s = 0. 
 
Para as notas de João: 
 
( )








−
−
=
∑∑
n
x
x
n
s
i
i
i
2
22
1
1
 = { } 14
4
1
5
)25(
129
4
1 2
==






− ⇒ s = 1. 
 
Para as notas de José: 
 { } 5,1250
4
1
5
)25(
175
4
1 22 ==






−=s ⇒ s = 3,54. 
 
Para as notas de Pedro: 
 { } 25100
4
1
5
)25(
225
4
1 22 ==






−=s ⇒ s = 5. 
 
Portanto, as notas de Pedro tiveram maior variação (dispersão) em relação a média. 
 
Coeficiente de Variação 
 
 O coeficiente de variação é o quociente entre o desvio padrão e a média aritmética e 
expressa a dispersão dos dados em termos relativos ao seu valor médio, sendo dado pela fórmula 
 )100(
x
s
CV = . 
 
Exemplo: Considere dois grupos com idades de pessoas. 
 Grupo A: 3, 1 e 5; 
 Grupo B: 55, 57 e 53. 
 
Para o grupo A, tem-se que: x = 3; s2 = 4 ⇒ s = 2; 
 
 %67,66)100(
3
2
)100( ===
x
s
CV . 
 
Para o grupo B, tem-se que: x = 55; s2 = 4 ⇒ s = 2; 
 
 %64,3)100(
55
2
)100( ===
x
s
CV . 
 
 Um CV = 66,67 % indica uma dispersão dos dados em relação à média muito grande, ou 
seja, a dispersão relativa é alta. Já um CV = 3,64 % indica que a dispersão dos dados em relação 
à média é pequena. 
 
 
 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
 
19
1.7 Medidas de assimetria e curtose 
 
 As medidas de assimetria caracterizam como e quanto a distribuição de frequências se 
afasta da condição de simetria. 
 Dentre os vários estimadores da assimetria, tem-se o coeficiente de assimetria de Pearson, 
dado por 
 
 
s
Mox
PAs
−
=)( , onde se As(P) = 0, a distribuição é simétrica; 
 se As(P) > 0, a distribuição é assimétrica positiva; 
 se As(P) < 0, a distribuição é assimétrica negativa. 
 
Para os dados da tabela 2 (peso de nascidos vivos), tem-se que: 
 
 1034,0
58,0
06,33
)( −=
−
=
−
=
s
Mox
PAs , portanto, a distribuição tem uma leve assimetria 
negativa. 
 
 Quando |As(P)| < 0,15, podemos considerar a distribuição como praticamente simétrica. 
Por outro lado, costuma-se considerar a assimetria como moderada se 0,15 < |As(P)| < 1, e forte 
se |As(P)| > 1.
 
 
 O coeficiente de curtose de uma distribuição forneceuma medida do achatamento da 
curva que a descreve. 
 
 
 Uma distribuição cuja curva tem a forma da curva 1, tem seu coeficiente de curtose 
C = 0,263 e é dita mesocúrtica. Se ela tem uma curva mais afilada, como a curva 2, ela é dita 
leptocúrtica e tem C < 0,263. Se a curva é mais achatada, como a curva 3, ela é dita platicúrtica e 
tem coeficiente de curtose C > 0,263. 
 Dentre os vários coeficientes de curtose disponíveis, tem-se o coeficiente de Keley, 
definido com base nas separatrizes, 
 
 
( )19
13
2
)(
DD
QQ
KC
−
−
= . 
 
 Bioestatística – Prof. Wilson Alves de Oliveira 
2 
1 
3

Continue navegando