Buscar

Aulas de Bioestatistica

Prévia do material em texto

MSc. Martins Abudo Mupuelque
2020
1
Conteúdos programáticos
História da estatística
Conceitos básicos: população, atributo, 
modalidades e amostra
Variáveis estatísticas
 Frequências absolutas e relativas.
 Frequências acumuladas.
Representação tabular e gráfica.
2
Conteúdos programáticos (cont.)
Medidas de tendência central ou de posição: 
média aritmética, mediana, moda e quantis.
Medidas de dispersão: variância e desvio 
padrão.
Medidas de assimetria e curtose
3
4
História da Estatística
 A origem da palavra Estatística está associada à palavra
latina STATUS (Estado). Há indícios de que 3000 anos
A.C. já se faziam censos na Babilônia, China e Egito.
Até mesmo o 4o livro do antigo Testamento faz
referência a uma instrução dada a Moisés, para que
fizesse um levantamento dos homens de Israel que
estivessem aptos para guerrear.
 Seus fundamentos do ponto de vista matemático
foram estabelecidos no século XVII com o surgimento
da teoria das probabilidades, devido a Pascal e Fermat,
inicialmente aplicados ao estudo dos jogos de azar.
5
História da Estatística (cont.)
Atualmente, o uso de computadores
modernos permite a computação e a análise
de dados estatísticos em larga escala e
também tornam possíveis novos métodos
antes impraticáveis.
Conceitos introdutórios
 Estatística: é a ciência que tem por objetivo
planear, coletar, tabular, analisar e interpretar
informações e delas extrair conclusões que
permitam a tomada de decisões acertadas
mediante incertezas.
Áreas: Estatística Descritiva e Estatística
Inferencial ou Indutiva e Probabilidade
Bioestatística: aplicação da estatística nos
campos relacionados a saúde, biologia,
biotecnologia etc.
6
População: é o conjunto de elementos
(valores, pessoas, medidas etc.) que tem
pelos menos uma característica em comum.
Amostra: é um subconjunto de elementos
extraídos de uma população.
Parâmetro: é uma medida numérica que
descreve uma característica de uma
população.
 Estatística: é uma medida numérica que
descreve uma característica da amostra.
7
Conceitos introdutórios (cont.)
Amostragem aleatória
 Se os dados amostrais não forem coletados
de maneira apropriada, eles podem ser de
tal modo inúteis que nenhuma manipulação
estatística poderá salvá-los.
A aleatoriedade comumente desempenha
papel crucial na determinação de quais
dados coletar.
8
Amostragem aleatória (cont.)
 Vantagens do levantamento por amostragem: custo
menor, menor tempo e objetivos mais amplos.
 Situações para trabalho com amostras: população
muito grande, dificuldade de acesso, grande número
de variáveis.
 Tipos amostragens aleatórias
 Simples
 Estratificada
 Por grupos
9
Amostragem aleatória (cont.)
 simples: todos os indivíduos têm probabilidades
iguais e independentes de serem seleccionados
 estratificada: a população é dividida em estratos, por
uma variável de interesse, e dentro desses estratos
são escolhidos, aleatoriamente, indivíduos.
 por grupos: há dois ou mais estágios no processo de
amostragem. Em primeiro lugar, grupos de unidades
são escolhidos, aleatoriamente, em seguida, dentro
desses grupos são escolhidos todos os indivíduos ou
são seleccionados, aleatoriamente, apenas alguns.
10
Dados primários: dados coletados pelo
próprio pesquisador e sua equipe.
Dados secundários: não foram obtidos pelo
pesquisador e sua equipe (diversas fontes
como artigos em revistas, institutos de
pesquisa, OMS, INCAJU).
11
Conceitos introdutórios (cont.)
Censo: é uma coleção de dados relativos a
todos os elementos de uma população.
Variável: é a característica de interesse que
é medida em cada elemento da amostra ou
população, podendo ter resultados
numéricos ou não. Seus valores variam de
elemento a elemento.
12
Conceitos introdutórios (cont.)
Variáveis estatísticas - classificação
VARIÁVEL
qualitativa Quantitativa
Nominal Ordinal Discreta Continua
-----------------------------------------------
São representados por porcentagem
--------------------------------------------------
São representados por média±desvio
Padrão ou mediana (intervalo entre
Quartis), etc
13
VARIÁVEIS QUALITATIVAS
 Nominais- aquelas que se definem exclusivamente
por nomes (não são mensurados), ex: grupo
sanguineo (A, AB, B e O), estado civil
(casado/viúvo/solteiro,etc), raça, sexo.
 Ordinais – os dados são ordenados de alguma
maneira (incluem escalas). Ex: estado de doença
(avançada, moderada, branda, nenhuma), grau da
dor (forte, moderada, branda, nenhuma), etc.
Variáveis estatísticas – classificação (cont.)
14
VARIÁVEIS QUANTITATIVAS
 Discretas – só podem assumir valores numéricos
inteiros, ex: número de consultas médicas, número
de episódios de uma enfermidade.
 Contínuas – podem existir valores intermediários,
ex: peso, altura, creatinina, hemoglobina.
Variáveis estatísticas – classificação (cont.)
15
 Exemplo 1:
Num estudo para analisar a taxa de germinação de um
certo tipo de cereal foram semeadas cinco sementes em
cada um de 50 vasos iguais com o mesmo tipo de solo.
O nº de sementes germinadas em cada vaso está
registado a seguir:
1, 0, 1, 2, 1, 3, 2, 0, 0, 1, 4, 0, 2, 1, 0, 2, 4, 1, 2, 0, 3, 5, 3,
0, 2, 1, 3, 3, 0, 4, 0, 2, 5, 3, 0, 2, 5, 1, 1, 0, 4, 4, 1, 2, 1, 0,
5, 1, 2, 3
Construa uma distribuição com todas as frequências.
16
Apresentação de dados - Tabelas
 Exemplo 1 (cont.):
Os dados são de natureza discreta, com um 
número pequeno de valores distintos.
Dados deste tipo podem ser condensados numa 
tabela da forma:
17
Apresentação de dados – Tabelas (cont.)
xi fi fac fr far
0 12 12 0,24 0,24
1 12 24 0,24 0,48
2 10 34 0,2 0,68
3 7 41 0,14 0,82
4 5 46 0,1 0,92
5 4 50 0,08 1
 50 1
18
Xi=Nº de sementes germinadas.
fi=frequência absoluta; fac=Frequência absoluta acumulada.
fr=frequência relativa; far=frequência relativa acumulada.
Tabela de frequências – Exemplo 1:
 Exemplo 2:
Considere o seguinte conjunto de dados referente
as idades de mulheres responsáveis pelos
domicílios.
19 19 20 21 23 23 23 23 24 24 25 25 26 26 26 27 
27 27 29 29 29 29 30 31 31 31 33 33 33 34 37 37 
37 37 40 40 40 40 43 43 44 44 47 48 48 48 51 52 
52 53
Construa uma distribuição com todas as
frequências.
Solução:
19
Apresentação de dados – Tabelas (cont.)
Para a construção de tabelas de frequências 
para variáveis contínuas, os dados devem ser 
agrupados em intervalos de classes.
Para a construção das classes algumas 
definições são necessárias:
20
Apresentação de dados – Tabelas (cont.)
Considerando os dados do exemplo 2:
 Amplitude Total ou “Range” (AT): É a
diferença entre o maior e o menor valor
observado.
Ex.: AT = 53 - 19 = 34.
21
Apresentação de dados – Tabelas (cont.)
 Intervalos de Classe: Conjunto de
observações apresentadas na forma
contínua, sem superposição de intervalos, de
tal modo que cada valor do conjunto de
observação possa ser alocado em um, e
apenas um, dos intervalos.
22
Apresentação de dados – Tabelas (cont.)
O número k de intervalos para cada conjunto de
observações com n valores pode ser calculado como:
k = 1 + 3,322(log10 n) (fórmula de Sturges)
Para o conjunto de dados do exemplo 2 com 50 
observações obtemos log10(50) ≈ 1,699; 
k = 1 + 3,322 x 1,699 ≈ 6,6 ≈ 7 intervalos
O tamanho h de cada intervalo é obtido pela divisão do
valor da diferença entre o maior e o menor valor, R,
pelo número de intervalos k:
h = AT/k = 34/7 ≈ 5
23
Apresentação de dados – Tabelas (cont.)
 Etapas para a construção de tabelas de
frequência para dados agrupados:
1) Encontrar o menor e o maior valor (mínimo e
máximo) do conjunto de dados.
2) Calcular o número de classes que englobem
todos os dados sem haver superposição dos
intervalos.
24
Apresentação de dados – Tabelas (cont.)
3) Contar o número de elementos que
pertencem a cada classe.
4) Determinar a frequência relativa de cada
classe.
25
Apresentação de dados – Tabelas (cont.)
Tabela de frequências – Exemplo 2:
Solução:
se utilizar afórmula de
Sturges
R = 53 – 19 = 34 e n = 50
Então:
K = 1 + 3,322 x 1,699 ≈ 7
intervalos
h = 34/7 ≈ 5 idades em
cada intervalo
Intervalo de 
classe
Freqüência
19 |------- 24 8
24 |------- 29 10
29 |------- 34 11
34 |------- 39 5
39 |------- 44 6
44 |------- 49 6
49 |------- 54 4
26
Representação de dados em tabelas
 Apresentação de tabelas
 A tabela deve ser simples, claras e objetivas.
Grandes volumes de dados devem ser divididos
em várias tabelas.
 A tabela deve ser auto-explicativa.
 Nenhuma casa da tabela deve ficar em branco,
apresentando sempre um número ou um
símbolo.
 As tabelas, excluídos os títulos, serão delimitadas,
no alto e em baixo, por traços horizontais grossos,
preferencialmente.
27
Apresentação de tabelas
Recomenda-se não delimitar as tabelas à
direita e à esquerda, por traços verticais.
Será facultativo o emprego de traços
verticais para a separação de colunas no
corpo da tabela.
Deve-se manter a uniformidade quanto
ao número de casas decimais.
Os totais e subtotais devem ser
destacados.
28
Representação de dados em tabelas
Tabelas de contingência
 São utilizadas para estudar a relação entre duas
variáveis categóricas descrevendo a frequências das
categorias de uma das variáveis relativamente às
categorias de outra.
29
Tipo de 
vinho
Estabilidade
Total
Péssima Problemática Regular Aceitável
Branco 8 (4,3%) 29 28 7 72
Rosa 10 (5,3%) 22 10 3 45
Tinto 29 (15,4%) 21 13 8 71
Total 47 (25%) 72 51 18 188
Representação gráfica de dados
Os gráficos são representações pictóricas dos 
dados. 
 Tem por finalidade dar uma ideia, a mais
imediata possível, dos resultados obtidos,
permitindo chegar-se a conclusões sobre a
evolução do fenômeno ou sobre como se
relacionam os valores da série.
30
A escolha do gráfico mais apropriado ficará a
critério do analista.
Contudo, os elementos simplicidade, clareza e
veracidade devem ser considerados quando da
elaboração de um gráfico.
31
Representação gráfica de dados
Gráficos para variáveis qualitativas
Dentre os gráficos para representar variáveis
qualitativas temos o gráfico de barras e em
setores (gráfico de pizza).
32
Representação gráfica de dados
Gráfico de barras consiste em construir
rectângulos ou barras em que uma das
dimensões é proporcional a magnitude a ser
representada a frequência absoluta.
 Estas barras são dispostas paralelamente umas
as outras horizontal ou verticalmente
33
Representação gráfica de dados
Gráfico de barras (exemplo 1):
34
Gráfico de pizza: Destina-se a representar a
composição, usualmente em porcentagem, de
partes de um todo.
Consiste num círculo de raio arbitrário,
representando o todo, dividido e setores, que
corresponde as partes de maneira
proporcional.
35
Representação gráfica de dados
Gráfico de pizza (exemplo 1):
36
Gráfico para variáveis quantitativas:
Os tipos de gráficos geralmente são utilizados
nesse caso: Gráfico de dispersão, Histograma,
polígono de frequência e gráfico de linhas.
Histograma: é um gráfico de barras contíguas,
com bases proporcionais aos intervalos das
classes e a área de cada retângulo
proporcional à respectiva frequência
37
Representação gráfica de dados
Histograma (exemplo 2):
38
Polígono de frequência: É um gráfico em linha,
onde as frequências são marcadas sobre
perpendiculares ao eixo horizontal, levantadas
pelos pontos médios dos intervalos de classe.
Para conseguir um polígono, ligamos os
extremos da linha obtida aos pontos médios
da classe anterior à primeira e da posterior à
última, da distribuição.
39
Representação gráfica de dados
 É um gráfico de linha, sendo as frequências os 
pontos médios dos intervalos das classes.
40
Polígono de Frequências 
Gráfico de dispersão:
São utilizados para estudar a relação entre
duas variáveis contínuas.
Os valores são representados por pontos ao
longo da reta.
Exemplo: Pesos das mães na admissão para
o parto em relação o peso ao nascimento
dos seus bebés.
41
Representação gráfica de dados
Diagrama ou gráfico de dispersão
42
Gráfico de linhas: É indicado para dados
coletados ao longo do tempo, ou de medidas
repetidas.
Através desse gráfico é possível constatar
algum tipo de tendência e identificar alguns
eventos inusitados, como por exemplo, o surto
de uma determinada doença.
43
Representação gráfica de dados
Diagrama de ramos e folha
Representar Distribuições de Freqüências
Utilização: Conjunto pequeno de dados
Vantagem: Visualização completa das obs.
Construção: Cada obs. dividida em duas 
partes:
Ramo
Folha
44
Diagrama de ramos e folha
45
 Exemplo 1:
2,5 2,6 2,5 2,4 5,4 8,8 12,3
Unidade das folhas = 0,1
RAMOS FOLHAS
2
5 
8
12 
4 5 5 6
4
8
3
Diagrama de ramos e folha
46
 Exemplo 2:
56 62 63 65 65 65 68 70 72
Unidade das folhas = 1
Ramos Folhas
5 
6 
7
6
2 3 5 5 5 8
0 2
Diagrama de ramos e folha
47
 Exemplo 3: Unidade das Folhas = 0,1
Ramos Folhas
1
2
2
2
2
2
3
3
9 9
0 1 1
2 3
4 4 5 5 5 5 5
6 6 7 7 7 7 7
8 8 9 9
0 0 1 1
4
Medidas de Tendência Central
Definição
Representam os fenômenos pelos seus valores 
médios, em torno dos quais tendem a 
concentrar-se os dados.
Dentre todas as medidas de tendência central, 
veremos:
Média; 
Mediana;
Moda
48
Média
Definição
É o valor médio de uma distribuição, determinado 
segundo uma regra estabelecida a priori e que se 
utiliza para representar todos os valores da 
distribuição. Representada por ҧ𝑥
Pode ser:
 Aritmética;
 Ponderada;
 Harmônica;
 Geométrica.
49
Média Aritmética
É a mais utilizada dentre todas as médias.
É dada pela fórmula:
ҧ𝑥 =
1
𝑛
෍
𝑖=1
𝑛
𝑥𝑖 =
1
𝑛
𝑥1 +⋯+ 𝑥𝑛
Onde:
n é o número de valores em uma amostra;
 xi é cada variável que representa os valores 
individuais dos dados.
50
Média Aritmética
Exemplo: considere os pesos de 10 recém-
nascidos (em kgs): 3,3 3,1 2,8 2,7 2,9 3,1 3,2 
3,0 3,5 3,4 
ҧ𝑥 =
3,3+3,1+2,8+2,7+2,9+3,1+3,2+3,0+3,5+3,4
10
=3,1
51
Média aritmética para dados agrupados
É calculada quando a informação disponível é o 
valor médio do intervalo i (Xi) e a frequência de 
intervalo i (fi):
ത𝑋 =
𝑓1𝑋1 +⋯+ 𝑓𝑘𝑋𝑘
𝑓1 +⋯+ 𝑓𝑘
=
σ𝑖=1
𝑘 𝑓𝑖𝑋𝑖
σ𝑖=1
𝑘 𝑓𝑖
52
Média aritmética para dados agrupados -
exemplo
Considere os seguintes dados:
12,58 12,97 13,45 13,53 13,59 13,61 13,62 13,78 13,97 14,21
14,47 14,51 14,53 14,58 14,65 14,78 14,83 14,97 15,06 15,13
15,17 15,23 15,29 15,37 15,40 15,45 15,51 15,62 15,67 15,73
15,83 15,98 16,01 16,11 16,17 16,23 16,35 16,43 16,49 16,52
16,67 16,83 16,97 17,05 17,13 17,22 17,30 17,48 17,80 18,47
53
ത𝑋 =
3 ⋅ 13 + 8 ⋅ 14 + 15 ⋅ 15 + 13 ⋅ 16 + 9 ⋅ 17 + 2 ⋅ 18
30
= 15,46
Intervalos de classes xi Frequência 
absoluta
12,51 a 13,50 13 3
13,51 a 14,50 14 8
14,51 a 15,50 15
15,51 a 16,50 13
16,51 a 17,50 9
17,51 a 18,50 2
Média aritmética para dados agrupados -
exemplo
54
Média Ponderada
Nos cálculos envolvendo média aritmética
simples, todas as ocorrências têm exatamente a
mesma importância ou o mesmo peso. No
entanto, existem casos onde as ocorrências têm
importância relativa ou pesos relativos
diferentes. Nestes casos, o cálculo da média
deve levar em conta esta importância relativa ou
peso relativo. Este tipo de média chama-se
média aritmética ponderada.
55
Média Ponderada
É dada por:
ത𝑋 =
σ𝑖=1
𝑛 𝑤𝑖𝑥𝑖
σ𝑖=1
𝑛 𝑤𝑖
=
𝑤1𝑥1 +𝑤2𝑥2 +⋯+𝑤𝑛𝑥𝑛
𝑤1 +𝑤2 +⋯+𝑤𝑛
Ondewi é o peso de cada xi.
56
Média Ponderada
Exemplo
O exame de seleção pode ser composto de 3 
provas onde as duas primeiras tem peso 1 e a 
terceira tem peso 2. Um candidato com notas 
70, 75 e 90 terá média final:
ത𝑋 =
1 ⋅ 70 + 1 ⋅ 75 + 2 ⋅ 90
4
= 81,25
57
Média Harmônica
A média harmônica equivale ao inverso da 
média aritmética dos inversos de n valores.
𝐻 =
𝑛
σ𝑖=1
𝑛 1
𝑥𝑖
=
𝑛
1
𝑥1
+
1
𝑥2
+⋯+
1
𝑥𝑛
Exemplo: a média harmônica de 12, 14 e 16 é:
𝐻 =
3
1
12
+
1
14
+
1
16
= 13,81
58
Média GeométricaÉ a raiz de ordem n do produto dos valores da 
amostra:
𝐺 = ෑ
𝑖=1
𝑛
𝑥𝑖
1
𝑛
= 𝑛 𝑥1 ⋅ 𝑥2 ⋅ … ⋅ 𝑥𝑛
Exemplo: a média geométrica de 12, 14 e 16 é:
𝐺 =
3
12 ⋅ 14 ⋅ 16 = 13,90
59
Relação entre Médias
A média geométrica e a média harmônica são 
menores, ou no máximo, iguais, à aritmética.
A igualdade só ocorre no caso em que todos os 
valores da amostra são idênticos.
Quanto maior a variabilidade, maior será a 
diferença entre as médias harmônica e 
geométrica e a média aritmética.
𝐻 ≤ 𝐺 ≤ ത𝑋
60
Relação entre Médias (cont.)
 Exemplo: Para a amostra 12, 14, 16 temos:
13,81 < 13,90 < 14,00
61
Mediana – dados simples
Definição
É um número que caracteriza as observações de uma
determinada variável de tal forma que este número
de um grupo de dados ordenados separa a metade
inferior da amostra, população ou distribuição de
probabilidade, da metade superior. Representada por
෤𝑥 ou Md.
Isto é, ½ da população terá valores inferiores ou
iguais à mediana e ½ da população terá valores
superiores ou iguais à mediana (a média não
garante essa propriedade)
62
Mediana – dados simples
Para valores ordenados crescentemente, dois 
modos de calcular:
 Se n é ímpar, mediana é o valor central:
Na amostra 30 32 35 48 76 a mediana é 35
 Se n é par, mediana é a média simples entre os 
dois valores centrais:
Na amostra 30 32 35 48 76 81 a mediana é 
35+48
2
= 41,5
63
Mediana para dados agrupados
1. Calcula-se n/2;
2. Achar qual das classes esse valor se encontra a partir das 
frequências absolutas;
3. Usar a fórmula
𝑀𝑑 = 𝑙𝑀𝑑 +
𝑛
2
− σ𝑓 ⋅ ℎ
𝑓𝑀𝑑
Aonde:
𝑙𝑀𝑑 é o limite inferior da classe mediana;
𝑓𝑀𝑑 é a frequência absoluta da classe mediana;
σ𝑓 é a Soma das frequências anteriores à classe da 
mediana;
ℎ é a amplitude da classe mediana.
64
1. Calcula-se n/2 50/2
2. Identifica-se a classe da mediana
Terceira classe
Intervalos de classe Frequência absoluta Frequência 
acumulada
12,51 a 13,50 3 3
13,51 a 14,50 8 11
14,51 a 15,50 15 26
15,51 a 16,50 13 39
16,51 a 17,50 9 48
17,51 a 18,50 2 50
Mediana para dados agrupados -exemplo
65
3. Utiliza-se a fórmula:
𝑀𝑑 = 𝑙𝑀𝑑 +
𝑛
2
− σ𝑓 ⋅ ℎ
𝑓𝑀𝑑
 𝑙𝑀𝑑 = 14,51
𝑓𝑀𝑑 = 15
σ𝑓 = 11
ℎ = 0,99
𝑀𝑑 = 14,51 +
25 − 11 ⋅ 0,99
15
= 15,434
Mediana para dados agrupados –exemplo 
(cont.)
66
Moda – dados simples
Definição
É o valor que ocorre com mais frequência. 
Representada por Mo.
Numa amostra, Mo pode não existir ou ser 
múltipla (amostra multimodal).
Exemplos:
Na amostra 21 24 27 27 28 28 31 31 31 Mo = 31
Na amostra 45 46 49 52 52 60 60 76 79 tem 
moda 52 e 60
67
Moda para Dados Agrupados
Utiliza-se a fórmula de King:
𝑀𝑜 = 𝑙 +
Δ1
Δ1 + Δ2
⋅ ℎ
Aonde:
• 𝑙é o limite inferior da classe modal = 14,51
• Δ1 é a diferença entre a frequência da classe e 
a anterior = 7
• Δ2 é a diferença entre a frequência da classe e 
a posterior = 2
• ℎ é a amplitude da classe modal = 0,99
68
Moda para Dados Agrupados
Determinar a classe modal pela maior 
frequência absoluta. Na tabela, a terceira, 
utilizando a fórmula:
𝑀𝑜 = 𝑙 +
Δ1
Δ1 + Δ2
⋅ ℎ
Notas Número de Alunos
0 |- 20 2
20 |- 40 7
40 |- 60 23
60 |- 80 16
80 |- 100 3
Total 51
69
Moda para dados agrupados
Onde:
• 𝑙- limite inferior da classe modal = 40
• Δ1- diferença entre a frequência da classe e a 
anterior = 16
• Δ2- diferença entre a frequência da classe e a 
posterior = 7 
• ℎ- amplitude da classe modal = 20
𝑀𝑜 = 𝑙 +
Δ1
Δ1 + Δ2
⋅ ℎ = 40 +
16
16 + 7
⋅ 20 = 53,91
70
Comparação
Para distribuições simétricas, a média, 
mediana e moda são aproximadamente iguais;
Para assimétricas, observa-se o seguinte:
71
Relações Empíricas entre Medidas de 
Posição
Exemplo
A relação entre média e mediana para as 
amostras a seguir é:
A Distribuição Simétrica 10 12 14 16 18 ҧ𝑥 = 14 = ෤𝑥 = 14
B Distribuição Assimétrica à 
direita
10 12 14 16 23 ҧ𝑥 = 15 > ෤𝑥 = 14
C Distribuição Assimétrica à 
esquerda
05 12 14 16 18 ҧ𝑥 = 13 < ෤𝑥 = 14
72
Medidas de Posição
Definição
São medidas que dividem a área de uma 
distribuição de frequências em regiões de 
áreas iguais.
As principais medidas de posição são:
Quartil;
Percentil.
73
Medidas de Posição
74
São os valores que subdividem uma disposição 
em rol 
Medidas: QUARTIS, DECIS E PERCENTIS
Os Quartis são medidas que dividem o 
conjunto ordenado de dados em quatro partes 
iguais, e assim cada parte representa ¼ da 
amostra ou população
Q1, Q2, Q3
Medidas de Posição – cont.
75
Os Decis são medidas que dividem o conjunto 
ordenado de dados em 10 partes iguais
D1, D2, D3, D4, D5, D6, D7, D8, D9
Os Percentis são medidadas que dividem o 
conjunto ordenado de dados em 100 partes 
iguais
P1, P2, P3, P4, P5, P6, ... , P99
Quartis para dados simples
76
Os Quartis dividem a disposição em 4 partes iguais
Q1, Q2, Q3
 Entre cada quartil há 25% dos dados da 
disposição
Posição do Primeiro Quartil (Q1) = (n + 1) / 4
Posição do Segundo Quartil (Q2) = 2.(n + 1) / 4
Posição do Terceiro Quartil (Q3) = 3.(n + 1) / 4
 O segundo quartil coincide com a Mediana (Q2 = Md)
Quartil – dados simples
77
Os Quartis dividem a disposição em 4 partes iguais
Q1, Q2, Q3
1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9
Q1 Q2 Q3
7o termo 14o
termo
21o
termo
n = 27
Decil – dados simples
78
Os Decis dividem a disposição em 10 partes iguais
D1, D2, D3, D4, D5, D6, D7, D8, D9
Entre cada decil há 10% dos dados da disposição
Posição do Primeiro Decil (D1) = (n + 1) / 10
Posição do Segundo Decil (D2) = 2.(n + 1) / 10
Posição do Nono Decil (D9) = 9.(n + 1) / 10
O Quinto Decil coincide com a Mediana (D5 = Md)
Percentil – dados simples
79
Os percentis dividem a disposição em 100 partes iguais
P1, P2, P3, P4, P5, P6, ... , P99
Entre cada percentil há 1% dos dados da disposição
Posição do Primeiro Percentil (P1) = (n + 1) / 100
Posição do Segundo Percentil (P2) = 2.(n + 1) / 100
Posição do Nonagésimo Nono Percentil (P99) = 99.(n + 1) / 100
P50 = Md P25 = Q1 P75 = Q3 
Exercícios
80
1) Dado o conjunto de dados:
a) apresente a disposição em rol; 
b) o Percentil 50, 
c) o Primeiro Quartil, 
d) a Média, 
e) a Moda e 
f) a Mediana 
10 13 24 45 
66 77 11 14 26 
33 65 21 57
Quartil para dados agrupados
Para dados agrupados:
Determinação de Q1:
1º Passo: calcula-se n/4
2º Passo: Identifica-se a classe Q1 pela Fac
Aplica-se a fórmula: 𝑄1 = 𝑙𝑄1 +
𝑛
4
−σ 𝑓 ⋅ℎ
𝐹𝑄1
81
Quartil para dados agrupados
Para dados agrupados:
Determinação de Q3:
1º Passo: calcula-se 3n/4
2º Passo: Identifica-se a classe Q3pela Fac
Aplica-se a fórmula: 𝑄3 = 𝑙𝑄3 +
3𝑛
4
−σ 𝑓 ⋅ℎ
𝐹𝑄3
82
Percentil para dados agrupados
Definição
É um valor que divide o conjunto ordenado de 
dados em cem partes iguais, e assim cada 
parte representa 1/100 da amostra ou 
população.
O k-ésimo percentil Pk corresponde a 
frequência cumulativa de N k/100, onde N é o 
tamanho amostral. 
𝑃𝑘 =
𝑁 ⋅ 𝑘
100
(arredondar para o inteiro mais próximo)
83
Percentil para dados agrupados
Para dados agrupados:
𝑃𝑖 = 𝑙𝑃𝑖 +
𝑖𝑛
100
− σ𝑓 ⋅ ℎ
𝐹𝑃𝑖
𝑖 ∈ {1,2,3,4, … , 96,97,98,99,100}
Aonde:
 𝑙𝑃𝑖 é o limite inferior de 𝑃𝑖
σ𝑓 é a soma das frequências anteriores de 𝑃𝑖
ℎ é a amplitude da classe de 𝑃𝑖
𝐹𝑃𝑖 é a frequência da classe 𝑃𝑖
84
Percentis: Exemplo com dados agrupados
1º Quartil = 25º Percentil
𝑃25 = 14,51 +
25 ⋅ 50
100 − 11 ⋅ 1,01
15
= 14,51 + 0,1 = 14,52
Intervalos de classe Frequência absoluta Frequência 
acumulada
12,51 a 13,50 3 0,06
13,51 a 14,50 8 0,22
14,51 a 15,50 15 0,52
15,51 a 16,50 13 0,78
16,51 a 17,50 9 0,96
17,51 a 18,50 2 1
85
Relações
1º quartil = 25º percentil;
Mediana = 5º decil = 50º percentil;
3º quartil = 75º percentil.
86
Diagrama dos Cinco Números (Box-Plot)
87
 Representação Gráfica dos Quartis
Q1, Q2 e Q3
 Utilização
 Identficar Obs. Discrepantes (Outliers) Comparar dispersão de diferentes conjuntos 
de dados 
Diagrama dos Cinco Números (Box-Plot)
88
 Construção
 Calcular o Intervalo Interquartis
 [Q1 – 1,5(Q3 –Q1) ; Q3 + 1,5(Q3 –Q1) ]
 Obs. fora desse intervalos, são consideradas 
discrepantes
 Construir um retângulo com base inferior igual a 
Q1, e base superior igual a Q3.
 A partir do pto. médio da base superior, levantar 
haste indo até a maior obs,que esteja dentro do 
Intervalo Interquartis.
Diagrama dos Cinco Números (Box-Plot)
89
A partir do pto. médio da base inferior, 
traçar haste indo até a menor obs,que 
esteja dentro do Intervalo Interquartis
Assinalar com um traço, dentro do 
retângulo, a mediana 
Observações que estão fora do intervalo 
(Discrepante), assinalar com *, acima da 
haste superior, ou abaixo da inferior, 
conforme o caso 
90
Box-Plot
 Exemplo 6: 7 9 12 15 17 21 23
Q1 = 9Q2 = 15 Q3 =21 Inter. = (-9,39)
25
20
15
10
C
1
23
7
Max
Min
Q2
Q3
Q1
Medidas de Dispersão
Definição
É um valor que busca quantificar o quanto os 
valores da amostra estão afastados ou 
dispersos relativos à média amostral;
As medidas utilizadas para representar 
dispersão são:
Amplitude Total
Desvio Padrão;
Variância;
Amplitude Interquartílica.
91
Amplitude Total
Definição
Também chamado simplesmente de Amplitude, é a 
diferença entre o maior e o menor valor de um 
conjunto de dados.
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 = 𝑚𝑎𝑖𝑜𝑟 𝑣𝑎𝑙𝑜𝑟 − (𝑚𝑒𝑛𝑜𝑟 𝑣𝑎𝑙𝑜𝑟)
A amplitude é muito fácil de ser calculada, mas como 
depende apenas dos valores maior e menor, não é 
tão útil quanto as outras medidas de variação que 
usam todos os valores.
92
Amplitude Total
Exemplo
8,5 8,7 8,9 10,1 10,5 10,7 11,5 11,9
A amplitude é total: 𝑅 = 11,9 − 8,5 = 3,4
93
Desvio Padrão
Definição
É uma medida da variação dos valores em 
torno da média em um conjunto de valores 
amostrais. Representado por s (para amostral) 
e σ (para populacional). 
94
Desvio Padrão
Para uma população de N indivíduos: 
𝜎 =
1
𝑁
σ𝑖=1
𝑁 𝑥𝑖 − 𝜇
2;
Para uma amostra de nobservações, x1, ..., xn: 
𝑆 =
1
𝑛−1
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
Aonde:
𝑥𝑖é o valor de cada variável;
 ҧ𝑥 é a média amostral e 𝜇 é a média 
populacional.
95
Desvio Padrão
Exemplo
Para a amostra 10 12 14 16 18:
 A média é 14 e o desvio-padrão é calculado:
 Os desvios de cada valor em relação à média 
totalizam zero, pois a média é o valor central:
 10 − 14 = −4
 12 − 14 = −2
 14 − 14 = 0
 16 − 14 = +2
 18 − 14 = +4
 𝑆 =
10−14 2+ 12−14 2+ 14−14 2+ 16−14 2+ 18−14 2
𝑛−1
= 3,16
96
Desvio padrão: dados agrupados
Considere os seguintes dados:
12,58 12,97 13,45 13,53 13,59 13,61 13,62 13,78 13,97 14,21
14,47 14,51 14,53 14,58 14,65 14,78 14,83 14,97 15,06 15,13
15,17 15,23 15,29 15,37 15,40 15,45 15,51 15,62 15,67 15,73
15,83 15,98 16,01 16,11 16,17 16,23 16,35 16,43 16,49 16,52
16,67 16,83 16,97 17,05 17,13 17,22 17,3 17,48 17,8 18,47
97
Desvio padrão: dados agrupados
Considere os seguintes dados:
𝑆 =
3 ⋅ 13 − 15,46 2 + 8 ⋅ 14 − 15,46 2 +15 ⋅ 15 − 15,46 2 + 13 ⋅ 16 − 15,46 2 +9 ⋅ 17 − 15,46 2 + 2 ⋅ 18 − 15,46 2
50
= 1,308
Intervalos de Classe Frequência Absoluta
12,50 a 13,50 3
13,51 a 14,50 8
14,51 a 15,50 15
15,51 a16,50 13
16,51 a 17,50 9
17,51 a 18,50 2
98
Coeficiente de Variação
Definição
Para um conjunto de dados amostrais ou 
populacionais, expresso como um percentual, 
descreve o desvio padrão relativo à média, e é 
dado pelo seguinte:
Para população: 𝑐𝑣 =
𝜎
𝜇
Para amostra: 𝑐𝑣 =
𝑠
ҧ𝑥
99
Coeficiente de Variação
 É uma medida dimensional, útil para comparar 
resultados de amostras ou populações cujas 
unidades podem ser diferentes;
Uma desvantagem do coeficiente de variação é 
que ele deixa de ser útil quando a média é 
próxima de zero.
100
Coeficiente de Variação
101
Classificação da proporção que o desvio 
padrão apresenta sobre a média
 GRAU DE HOMOGENEIDADE DOS DADOS
 até 10%  ÓTIMO
 de 10% a 20%  BOM
 de 20% a 30%  REGULAR
 acima de 30%  RUIM
Variância
Definição
É uma medida da variação igual ao quadrado 
do desvio padrão. Representada por s2 ou σ2;
 Para a população: 𝜎2 =
1
𝑁
σ𝑖=1
𝑁 𝑥𝑖 − 𝜇
2
 Para a amostra: s2 =
1
𝑛−1
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
Aonde:
𝑥𝑖 é o valor de cada variável;
 ҧ𝑥 é a média amostral e 𝜇 é a populacional.
102
Variância
Uma dificuldade é que a variância não é 
expressa nas mesmas unidades dos dados 
originais;
Exemplo
Em uma amostra o desvio padrão é de 7,0 
minutos; a variância é dada em unidade de 
min2;
variância amostral = s2 = 7,02 = 49,0 min2
103
Amplitude interquartil
Definição
É a amplitude do intervalo entre o primeiro e o 
terceiro quartil. Representada por Q;
𝑄 = 𝑄3 − 𝑄1
Às vezes também é usada a semi-amplitude 
interquartílica, que é a metade da anterior.
104
Amplitude interquartil
Trata-se de uma medida de variabilidade 
bastante robusta, que é pouco afetada pela 
presença de dados atípicos;
Guarda a seguinte relação aproximada com o 
desvio-padrão:
𝑄 =
4
3
𝑠 ou 𝑄 =
4
3
𝜎
105
Medida de Assimetria e Curtose
As medidas de assimetria possibilitam analisar 
uma distribuição de acordo com as relações 
entre suas medidas de moda, média e mediana, 
quando observadas graficamente ou analisando 
apenas os valores;
Uma distribuição é dita simétrica quando 
apresenta o mesmo valor para a moda, a 
média e a mediana;
É dita assimétrica quando essa igualdade não 
ocorre.
106
Medida de Assimetria e Curtose
Para o cálculo de assimetria, usa-se o coeficiente 
de assimetria de Pearson:
𝑆𝑘 =
ത𝑋 −𝑀𝑜
𝑆
Valores entre -1 e +1.
107
Medida de Assimetria e Curtose
Quando a cauda da curva da distribuição 
declina para direita, temos uma distribuição 
com curva assimétrica positiva;
 Coeficiente > 0.
108
Medida de Assimetria e Curtose
Quando a cauda da curva da distribuição declina 
para esquerda, temos uma distribuição com 
curva assimétrica negativa;
Coeficiente < 0;
109
Medida de Assimetria e Curtose
Definição
Curtose é o grau de achatamento da distribuição. Ou 
o quanto uma curva de frequência será achatada em 
relação a uma curva normal de referência.
 Para o cálculo da curtose, usa-se o coeficiente de 
curtose de Pearson: 𝑎4 =
𝑚4
𝑠4
, onde 𝑚4 =
σ 𝑋− ҧ𝑥 4
𝑛
;
 Pode ser:
 Mesocúrtica (𝑎4 = 3);
 Leptocúrtica (𝑎4 > 3);
 Platocúrtica (𝑎4 < 3);
110
Medida de Assimetria e Curtose
Mesocúrtica
Leptocúrtica
Platocúrtica
111
Exercícios
1) Foram feitas coletas do tempo (ms) de acesso 
de uma página na internet e obteve-se os 
valores:
85,3 84,3 79,5 82,5 80,2 84,6 79,2 70,9 
78,6 86,2 74,0 83,7
Calcule:
a) Média
b) Mediana
c) Desvio Padrão
112
Exercícios
2) Dada a amostra:
28 33 27 30 31 30 33 30 33 29 27 33 31 27 31 
28 27 29 31 24 31 33 30 32 30 33 27 33 31 33 
23 29 30 24 28 34 30 30 18 17 18 15 16 17 17 
18 19 19 20 29
a) Construir a tabela com a distribuição de 
frequência;
b) Calcular a média;
c) Moda;
d) Mediana;
e) O coeficiente de variação;
f) Determinar a curtose.
113

Continue navegando