Prévia do material em texto
Universidade Salgado de Oliveira
Reconhecida pela Portaria Ministerial nº 1283 de 08/09/93, publicada no D.O.U. de 09/09/93
Mantida pela Associação Salgado de Oliveira de Educação e Cultura (ASOEC)
BIOESTATÍSTICA
PARA O CURSO DE
FARMÁCIA
Professor Antonio Rodolfo Barreto
2
DISTRIBUIÇÃO DE FREQUÊNCIAS
Freqüentemente, ao coletar dados, o pesquisador se depara com uma grande massa de valores numéricos,
que se repetem algumas vezes, dificultando sua análise e interpretação. Surge então a necessidade de
organizar esses dados em uma tabela onde os valores observados se apresentam associados
individualmente ou em classes com os números de suas repetições, isto é, com suas respectivas
frequências. Esta tabela recebe o nome de Distribuição de Frequências.
A seguir são apresentados alguns conceitos fundamentais para a compreensão dessas tabelas.
Dados Brutos
É a apresentação dos dados observados na sequência em que foram coletados, isto é, sem nenhuma
ordenação numérica.
Exemplo:
Rol
É a organização dos dados brutos em ordem crescente ou decrescente.
Exemplo:
Amplitude Total (AT)
É a diferença entre o maior valor e o menor valor da sequência dos dados observados.
AT = valor máximo – valor mínimo
Exemplo:
Frequência Absoluta Simples (ou simplesmente frequência):
if
Denotada por
if
, a frequência indica o número de ocorrências de cada valor ou o número de valores
pertencentes a uma classe.
3
Frequência Relativa Simples, ou simplesmente, Frequência Relativa:
ifr
Simbolizada por
ifr
, a frequência relativa simples fornece a proporção de cada valor ou de casos ocorridos
em cada classe, em relação ao número total de observações. Portanto é um número relativo. Para calcular
a frequência relativa, basta dividir a frequência absoluta da ordem em questão pelo número de
observações.
n
f
fr ii
As comparações expressas através de porcentagem são mais usuais. Para obter a porcentagem de cada
valor ou de casos ocorridos em cada classe, multiplica-se o quociente obtido por 100, ou seja:
100
n
f
fr ii
Frequência Absoluta Acumulada:
iF
Denotada por
iF
, a frequência absoluta acumulada fornece a informação de quantos elementos se situam
até determinado valor. A frequência acumulada do i-ésimo valor ou i-ésima classe (frequência acumulada de
ordem i) é obtida somando-se a frequência desse valor ou classe com as frequências anteriores, ou seja, é
a soma de todas as frequências de ordens menores ou igual a da ordem em questão.
Por exemplo:
3F
=
3
1i
fi = f1 + f2 + f3
Frequência Acumulada Relativa:
iFr
Denotada por
iFr
, fornece a proporção de elementos situados até determinado valor. Consiste na soma da
frequência relativa de cada valor ou classe com as frequências relativas dos valores ou classes anteriores,
ou seja, é a soma das frequências simples relativas de ordens menores ou iguais a da ordem em questão.
Por exemplo:
3Fr
=
3
1i
fri = fr1 + fr2 + fr3
DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES (dados não agrupados ou não tabulados em classes de
valores)
É uma tabela onde os valores da variável analisada aparecem individualmente correlacionados com os
números de suas repetições (frequências).
Atividade 1. Um pesquisador perguntou a 15 crianças quantas refeições diárias ela realiza e obteve as
seguintes respostas:
3 4 2 2 5
4 4 3 4 2
5 3 3 4 4
Confeccione a tabela de distribuição de frequências para dados agrupados, considere as freqüências:
absolutas, relativas percentuais e a freqüência absoluta acumulada.
4
Atividade 2. Uma companhia de ônibus urbano fez uma pesquisa, na sexta feira, perguntando quantas
vezes os passageiros que estavam na fila às 15 h 00 haviam utilizado do ônibus daquela companhia
durante a semana. As informações foram as seguintes:
4 8 6 4 2 7 2 3 6 4
2 7 2 2 4 2 3 3 5 7
2 5 7 4 3 6 2 5 2 2
Confeccione a tabela de distribuição de frequências para dados agrupados, considere as freqüências:
absolutas, relativas percentuais e a freqüência absoluta acumulada.
DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSES (dados agrupados ou tabulados em classes de
valores)
Quando a variável analisada apresenta um grande número de valores torna-se mais vantajoso o
agrupamento destes em classes de frequência, evitando assim grande extensão da tabela e facilitando a
visualização do fenômeno como um todo.
A distribuição de frequências por classes é uma tabela onde os valores observados são agrupados em
classes, isto é, em intervalos de variações da variável em questão.
Número de Classes (k)
Não existe uma regra fixa que forneça o número de classes. No entanto, como o objetivo da distribuição de
frequências é facilitar a compreensão dos dados, é importante que a distribuição contenha um número
adequado de classes.
Intervalo de Classe ou Classe
A notação | indica um intervalo de classe fechado à esquerda.
Classes são intervalos de variações da variável, ou seja, é cada um dos grupos de valores em que se
subdivide a amplitude total do conjunto de valores observados da variável.
O número de classes de uma distribuição de frequências será denotado por k.
5
Limites de Classe
São os valores extremos de cada classe. O menor valor denomina-se limite inferior da classe
il
e o maior,
limite superior da classe
iL
.
Amplitude do Intervalo de Classe (h)
A amplitude do intervalo de classe é o comprimento da classe, sendo definida como a diferença entre o
limite superior e o limite inferior da classe.
iii lLh
Atividade 3. Os dados abaixo se referem à idade de 36 doentes que recorreram à certo terapeuta durante o
primeiro semestre de 2013 para corrigir problemas de coluna.
27 28 29 31 31 32
33 33 34 35 35 35
36 36 36 37 37 37
38 38 38 39 39 39
39 39 40 40 40 40
40 41 41 42 43 44
Com base nestes dados confeccione uma distribuição de freqüências utilizando 6 classes.
6
Atividade 4. Os números abaixo representam o comprimento, em centímetros, de cobaias de 90 dias:
25,5 27,0 26,0 27,5 26,0 25,0 25,5 26,0 27,5 27,0 26,0 27,0
25,0 24,5 26,0 25,0 26,5 25,0 26,0 27,0 27,5 25,5 24,0 25,0
Montar a tabela de freqüência utilizando 4 classes.
Ponto Médio da Classe (xi)
Considerando que os valores de uma classe estão distribuídos uniformemente, o ponto médio ou valor
médio de uma classe é o valor que melhor a representa para efeito de cálculo de certas medidas.
O ponto médio de uma classe i é definido por:
2
L
x iii
Uma outra maneira de obter o ponto médio é adicionar a metade da amplitude ao limite inferior da classe.
Atividade 5. Determine os pontos médios da distribuição a seguir.
Salários dos Funcionários da Indústria HeleStar S/A
Salários (R$) fi
1.000 | 1.600 40
1.600 | 2.200 30
2.200 | 2.800 10
2.800 | 3.400 5
3.400 | 4.000 5
Total 907
Trabalho em Grupo 1 (TG1)
1) As alturas, em centímetros, de 18 alunos da Universidade Salgado de Oliveira são apresentadas a
seguir.
149 162 170 157 152 171 158 164 169
154 155 167 157 163 167 165 164 171
Construa a tabela de freqüência utilizando 3 classes.
2) As notas obtidas por 20 alunos de uma turma em uma avaliação de Bioestatística estão abaixo
relacionadas:
3,3 4,3 2,1 5,6 6,2 7,4 4,8 1,9 8,0 4,8
6,5 3,2 3,5 8,6 4,5 3,8 5,3 1,2 5,4 9,3
a) Agrupe os dados em seis classes de intervalo, cada uma com amplitude 1,5 a partir da nota 1,0, e faça
uma tabela de freqüência.
b) Qual a porcentagem de alunos com nota menor ou igual a 4?
3) Os dados a seguir representam as notas de 50 alunos. Agrupar estes elementos em uma distribuição de
freqüências por classes:
33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 66 67 68
69 71 73 73 74 74 76 77 77 78
80 81 84 85 85 88 89 91 94 97
4) Assinale a opção CORRETA. Frequência relativa simples de um valor da variável é:
a) O número de repetições desse valor
b) A porcentagem de repetições desse valor
c) O número de observações acumuladas até esse valor
d) A quantidade de elementos maiores que esse valor
e) As outras alternativas estão incorretas
5) Considere a seguinte distribuição de frequências correspondente aos diferentes preços de um
determinado medicamento pesquisado em 20 lojas.
Preços do Medicamento A
Preço (R$) Número de Lojas
10 2
11 5
12 6
13 6
14 1
Total 20
FONTE: Dados Fictícios
a) Quantas lojas apresentam preços de R$ 12,00?
b) Quantas lojas apresentaram um preço de até R$ 12,00 (inclusive)?
8
c) Qual é a percentagem de lojas com preços de até R$ 13,00 (inclusive)?
6) Dada a distribuição de frequências:
Indústria de Equipamentos Eletrônicos – IEE
Número de Falhas em Componentes
durante o período de garantia
Janeiro de 2000
Nº de Falhas
(xi)
Número de Equipamentos
(fi)
0 148
1 52
2 34
3 26
4 13
5 7
Total 280
a) Determinar as frequências relativas percentuais.
b) Responder qual a porcentagem de:
b.1) equipamentos que não apresentaram falha em seus componentes;
b.2) equipamentos que apresentaram pelo menos uma falha em seus componentes;
b.3) equipamentos trocados, sabendo-se que a indústria se compromete a trocar o equipamento que
apresente 4 ou mais falhas em seus componentes.
9
MEDIDAS DE TENDÊNCIA CENTRAL
Os valores que representam o conjunto de dados observados ou então promovem uma partição sobre este
conjunto são chamados de medidas de posição. Entre as medidas de posição destacam-se as medidas de
tendência central e as separatrizes.
MÉDIA ARITMÉTICA (
x
)
a) Média aritmética para dados não agrupados
Sejam x1, x2, ..., xn, n valores da variável x. A média aritmética simples, denotada por x , é definida por:
n
x
x
n
i
i
1
onde n é o número de valores observados da variável x.
Atividade 1. As notas finais de 15 alunos estão apresentadas abaixo. Determine a média aritmética das
notas obtidas.
7,5 9,0 4,5 4,0 5,5 8,0 8,5 9,0
7,5 7,5 7,0 6,5 7,5 9,0 6,5
Atividade 2. A seleção Brasileira de basquete preparou-se, durante quatro meses, para um torneio
internacional, contando com 10 atletas com média de altura de 1,94 m. Na véspera do embarque, um atleta
de 2,06 m contundiu-se e o técnico decidiu substituí-lo, convocando, às pressas, um pivô de 1,95 m.
Determine a nova média de altura da seleção que embarcou para o torneio.
b) Média aritmética para dados agrupados
Neste caso, usamos a média aritmética dos valores x1, x2, ..., xk, ponderada pelas suas respectivas
frequências absolutas f1, f2, f3, ... , fk. Desta forma, temos:
n
fx
x
i
n
i
i
1
onde: n = f1 + f2 + ... + fk =
k
1i
if
10
Atividade 3. Abaixo está representada a distribuição do número de irmão de 20 alunos da turma A.
Determinar a média aritmética dessa distribuição.
xi fi
0 4
1 8
2 3
3 3
4 1
5 1
Total 20
Atividade 4. Um comerciante mistura 4 kg do café tipo A, que custa R$ 6,00 o quilo; 10 kg do café B, que
custa R$ 5,60 o quilo; e 6 Kg do café C, que custa R$ 5,00 o quilo. Qual o preço por quilo da mistura?
Atividade 5. Dada a distribuição abaixo determine a renda média familiar destas 40 famílias.
OBS: Quando se tratar de uma distribuição de frequência por classe, xi corresponde ao ponto médio da classe, ou seja,
2
ii
i
L
x
.
Renda Familiar de 40 Famílias
i Salários (R$ 1.000) fi
1 2 | 4 5
2 4 | 6 10
3 6 | 8 14
4 8 | 10 8
5 10 | 12 3
TOTAL 40
Atividade 6. Houve uma denúncia de intoxicação por mercúrio em uma remessa de 20 latas de certo
produto que chegaram a um supermercado. Então, foi feita uma inspeção para determinar a massa de
mercúrio (material tóxico) presente em cada lata. Os resultados da inspeção são dados a seguir (em g de
mercúrio por 1000g do produto):
0,3 0,4 0,5 0,4 0,4 0,4 0,6 0,2 0,15 0,35
0,4 0,55 0,35 0,4 0,4 0,4 0,55 0,6 0,5 0,45
Uma remessa é confiscada quando, em média, a massa de mercúrio é superior a 0,4 g.
a) Deve essa remessa ser confiscada? Justifique.
b) Para evitar o confisco, o fornecedor propôs acrescentar cinco novas latas a essa remessa, garantindo
que todas as novas latas contêm massas iguais de mercúrio. Qual a massa máxima de mercúrio que cada
lata pode conter, a fim de que a “nova” remessa não seja confiscada?
11
Trabalho em Grupo 2 (TG2)
1) Em certo ano, uma indústria farmacêutica teve a produção bimestral de certo medicamento conforme
mostra a tabela a seguir:
Mês Jan./fev. Mar./abr. Maio/jun. Jul./ago. Set./out. Nov./dez
Produção 6.000 11.000 13.000 15.000 25.000 10.000
Responda:
Qual a média bimestral de produção?
2) Os valores de glicemia em jejum em mg medidos fotocolorimetricamente no sangue de 10 adultos do
sexo masculino, clinicamente normais e sem história familial de diabetes mellitus, foram:
79 86 91 96 100 102 108 108 110 120
Para os dados acima determine a média aritmética.
3) Em uma amostra com 50 notas a média é 7,5. Os valores 4,5 e 5,7 foram retirados. Então determine a
nova média da amostra.
4) Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de agosto os
seguintes dados:
Nº de crises Nº de pacientes
0 14
1 18
2 32
3 29
4 5
5 2
TOTAL 100
Qual foi neste mês o número médio de crises por paciente?
5) A academia Boa Forma fez uma pesquisa sobre o peso dos seus clientes. A tabela abaixo mostra o
resultado obtido:
Peso (kg) Nº de pessoas
50 | 55 9
55 | 60 10
60 | 65 25
65 | 70 18
70 | 75 8
Total 70
Com base nos dados acima, determine o peso médio dos clientes.
6) A média mínima para aprovação em uma matériaé 5. Se um estudante obteve as notas 7,5; 8,0; 3,5;
6,0; 2,5; 2,0; 5,5 e 4,0 nos trabalhos mensais desta matéria, pergunta-se: ele foi ou não aprovado?
12
ALTURA DOS ATLETAS
DA EQUIPE DE NATAÇÃO
0
1
2
3
4
5
6
7
8
9
ALTURA (cm)
Nº de
Atletas
160 170 180 190 200
7) O histograma, a seguir, apresenta a altura média de 20 atletas de uma equipe de natação.
Com base nos dados do histograma determine a altura média dos atletas.
13
MEDIANA (Md)
A mediana, denotada por Md, é o valor que divide o rol em duas partes contendo, cada uma, a mesma
quantidade de elementos. Assim, a mediana é o valor que ocupa a posição central de uma série de dados.
50% 50%
Md
a) Mediana para dados não agrupados
i) Se n é ímpar – o rol admite apenas um termo central que ocupa a posição
2
1n
.
O valor do elemento que ocupa esta posição é a mediana.
Atividade 1. Determinar a mediana da série: 20; 12; 23; 20; 8; 12; 2.
ii) Se n é par – neste caso o rol admite dois termos centrais que ocupam as posições
2
n
e
1
2
n
.
Neste caso a mediana é definida como a média aritmética destes dois termos centrais.
Atividade 2. Determinar a mediana da série: 7; 21; 13; 15; 10; 8; 9; 13.
Atividade 3. Os dados ordenados abaixo referem-se ao tempo de espera (em minutos) de 10 pessoas que
foram atendidas em um posto de saúde durante uma manhã:
1 5 8 9 x 16 18 y 23 26
Sabendo que o tempo médio de espera foi de 14 minutos e o tempo mediano foi de 15 minutos, determine
os valores de x e de y.
14
b) Mediana para dados agrupados sem intervalos de classes
O procedimento para o cálculo da mediana para dados agrupados sem intervalos de classes é o mesmo
utilizado para dados não agrupados, ou seja:
Se n for ímpar, a mediana será o termo central, isto é, o termo de ordem
2
1n .
Se n for par, a mediana será a média aritmética entre os elementos centrais, isto é, os elementos de
ordem
2
n
e
1
2
n
.
Atividade 4. Determinar a média e a mediana da distribuição:
xi fi Fi
2 1 1
5 4 5
8 10 15
10 6 21
12 2 23
Total 23
Atividade 5. Determinar a média e a mediana da distribuição:
xi fi
0 3
1 5
2 8
3 10
5 6
Total 32
15
c) Mediana para dados agrupados com intervalos de classes
Calcula-se
2
n
, independente de n ser par ou ímpar;
Localiza-se, através das frequências acumuladas, a classe mediana, ou seja, a classe que contém o
termo de ordem
2
n
;
Aplica-se a fórmula:
h
f
F
n
Md
Md
ant
Md
2
onde:
ℓMd = limite inferior da classe mediana;
Fant = frequência acumulada da classe anterior à classe mediana;
h = amplitude da classe mediana;
fMd = frequência absoluta da classe mediana.
Atividade 6. Determine a média e a mediana da distribuição:
Preço (R$) fi
12 | 14 2
14 | 16 4
16 | 18 5
18 | 20 12
20 | 22 2
Total 25
Atividade 7. Determine a média e a mediana da distribuição:
Altura (cm) fi
150 | 154 4
154 | 158 9
158 | 162 11
162 | 166 8
166 | 170 5
170 | 174 3
Total 40
16
Trabalho em Grupo 3 (TG3)
1) Determinar a média e a mediana das séries:
a) 2; 5; 8; 10; 12; 8; 5; 12
b) 3,4; 5,2; 4,7; 6; 8,4; 9,3; 2,1; 4,8
2) Durante uma epidemia de cólera, recolheu-se certo número de mortos em 35 cidades de um país,
obtendo-se a seguinte tabela:
(nº) Mortos (nº) Cidades
0 9
1 9
2 11
3 3
4 2
5 1
Total 35
Com base nos dados, determine o número mediano de mortos.
3) A Secretaria de Saúde do Estado suspeita que os fornecedores de um determinado medicamento, com
fábrica num município do interior, estejam fazendo uma política combinada de preços (cartel). Para verificar
essa suspeita, foram tomados os preços praticados por uma amostra de 25 fábricas.
Preço (R$) Nº de fábricas
12 | 14 2
14 | 16 4
16 | 18 5
18 | 20 12
20 | 22 2
Total 25
Determine a mediana.
4) A tabela abaixo mostra a distribuição de frequência obtida de uma amostra aleatória dos salários anuais
em reais de uma firma.
Classes de Salários (R$) Frequências Acumuladas
5.000 | 6.500 12
6.500 | 8.000 28
8.000 | 9.500 52
9.500 | 11.000 74
11.000 | 12.500 89
12.500 | 14.000 97
14.000 | 15.500 100
Determine o salário mediano.
5) Na tabela ao lado são dadas as idades de 54 pessoas. Pede-se para calcular a idade mediana.
Idades Nº de pessoas
10 | 15 6
15 | 20 11
20 | 25 16
25 | 30 13
30 | 35 5
35 | 40 3
54
17
MODA (Mo)
É o valor mais frequente do conjunto de dados observados.
a) Moda para dados não agrupados
Para determinar a moda, basta identificar o(s) elemento(s) que mais se repete(m).
Atividade 1. Determinar a moda dos conjuntos de dados abaixo:
a) 2; 8; 3; 5; 4; 5; 3; 5; 1
b) 6; 10; 5; 6; 10; 2
c) 2; 2; 8; 8; 5; 5; 6; 6
b) Moda para dados agrupados sem intervalos de classes
Neste caso, basta identificar o(s) elemento(s) de maior frequência.
Atividade 2. Determinar a moda da distribuição:
Atividade 3. Determinar a moda da distribuição:
xi fi
0 2
2 5
3 8
4 3
5 1
Total 19
xi fi
1 2
2 5
3 4
4 5
5 1
Total 17
18
Atividade 4. Determinar a moda da distribuição:
c) Moda para dados agrupados com intervalos de classes
Neste caso há diversos processos para o cálculo da moda, entre eles: a moda bruta e a moda de Czuber.
i) Fórmula da Moda Bruta
Identifica-se a classe modal (a que possui maior frequência);
Aplica-se a fórmula:
2
L
Mo MoMo
onde:
ℓMo = limite inferior da classe modal.
L Mo = limite superior da classe modal.
ii) Fórmula da Moda de Czuber
Identifica-se a classe modal (a que possui maior frequência);
Aplica-se a fórmula:
hMo
21
1
Mo
onde:
ℓMo = limite inferior da classe modal.
1 = diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe anterior à
classe modal.
2 = diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe posterior à
classe modal.
h = amplitude da classe modal.
Atividade 5. Dada a distribuição abaixo calcule a moda bruta e a moda de Czuber
classes fi
0 | 1 3
1 | 2 10
2 | 3 17
3 | 4 8
4 | 5 5
TOTAL 43
xi fi
4 5
5 5
8 5
10 5
Total 20
19
Atividade 6. Dada a distribuição abaixo calcule a média, a mediana, a moda bruta e a moda de Czuber.
classes fi
5 | 10 3
10 | 15 8
15 | 20 620 | 25 7
25 | 30 6
TOTAL 30
Trabalho em Grupo 4 (TG4)
1) Os tempos, em segundos, que 8 atletas mirins levam para percorrer uma distância de 400 metros na
prova de atletismo, são:
90 85 100 92 92 87 84 98
Assinale a alternativa CORRETA. Neste caso, o valor 91 representa:
a) a média
b) a média e a mediana
c) a média e a moda
d) a mediana e a moda
e) a média, a mediana e a moda
2) Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de março os
seguintes dados:
Nº de crises Nº de pacientes
0 14
1 18
2 32
3 29
4 5
5 2
TOTAL 100
Qual o número modal de crises por paciente?
20
3) A academia Boa Forma fez uma pesquisa sobre o peso dos seus clientes. A tabela abaixo mostra o
resultado obtido:
1.
Peso (kg) Nº de pessoas
50 | 55 9
55 | 60 10
60 | 65 25
65 | 70 18
70 | 75 8
Total 70
Assinale a alternativa CORRETA. Com base nos dados acima, podemos concluir que o peso modal (moda
bruta), é de:
a) 62,5 kg
b) 62,9 kg
c) 63,2 kg
d) 63,4 kg
e) 64,0 kg
4) A Secretaria de Saúde do Estado suspeita que os fornecedores de um determinado medicamento, com
fábrica num município do interior, estejam fazendo uma política combinada de preços (cartel). Para verificar
essa suspeita, foram tomados os preços praticados por uma amostra de 25 fábricas.
Preço (R$) Nº de fábricas
12 | 14 2
14 | 16 4
16 | 18 5
18 | 20 12
20 | 22 2
Total 25
Assinale a alternativa CORRETA. A moda de Czuber desta distribuição é:
a) 17,60
b) 18,25
c) 18,50
d) 18,80
e) 19,90
5) A distribuição de freqüências abaixo representa o peso em Kg de 20 pessoas.
Sejam as sentenças:
I O peso mediano da distribuição é 73 kg.
II – O peso médio da distribuição é 74,5 kg.
III – O peso modal da distribuição (moda bruta) é 100 kg.
Marque a alternativa CORRETA:
a) Todas as sentenças estão corretas.
b) Todas as sentenças estão erradas.
c) Apenas a sentença I está correta.
d) Apenas a sentença III está errada.
e) Nenhuma das anteriores
Pesos (kg) Freq. acumulada
55 65 6
65 | 75 11
75 | 85 15
85 | 95 19
95 | 105 20
21
MEDIDAS DE DISPERSÃO
São medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno
da média. Servem para medir a representatividade da média. Essa avaliação é necessária, pois quando se
trata de interpretar dados estatísticos, mesmo aqueles já convenientemente simplificados, como a média
aritmética, deve-se ter uma ideia retrospectiva de como se apresentavam esses mesmos dados nas tabelas.
Assim, não é o bastante dar uma medida de posição para caracterizar perfeitamente um conjunto de
valores, devemos, também, medir a variabilidade do conjunto de valores em relação à essa medida de
posição.
Se observarmos as sequências:
X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10
Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13
Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13
concluiremos que todas possuem a mesma média 13. No entanto, são sequências completamente distintas
do ponto de vista da variabilidade de dados.
Na sequência Z não há variabilidade de dados. A média 13 representa bem qualquer valor da série.
Na sequência Y, a média 13 representa bem a série, mas existem elementos da série levemente
diferenciados da média 13.
Na sequência X existem muitos elementos bastante diferenciados da média 13.
Concluímos que a média 13 representa otimamente a sequência Z, representa bem a sequência Y, mas
não representa bem a sequência X.
a) Variância e desvio padrão para dados não agrupados
Se a sequência representa uma população, a variância é calculada pela fórmula:
n
)xx( 2i2
,
e o desvio padrão é
2
.
Atividade 1. Calcule a variância e o desvio padrão da sequência: 4, 5, 8, 5.
22
Atividade 2. Com o objetivo de verificar o comportamento do consumidor, um órgão de defesa do
consumidor registrou o seguinte número de queixas ao longo de 7 dias:
58 39 63 60 95 48 71
a) Determine a média e a mediana do número de queixas recebidas.
b) Qual o desvio padrão dos dados acima?
b) Variância e desvio padrão para dados agrupados sem intervalos de classes
Como há repetições de elementos na série, definimos a variância como sendo uma média aritmética
ponderada dos quadrados dos desvios dos elementos da série para a média da série.
Se a variável é representativa de uma população, então a variância é dada por:
n
f)xx( i
2
i2
.
Atividade 3. Calcule a variância e o desvio padrão da série abaixo, representativa de uma população:
xi fi
2 3
3 5
4 8
5 4
Total 20
23
Atividade 4. Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de
agosto os seguintes dados:
Nº de crises Nº de pacientes
0 14
1 18
2 32
3 29
4 5
5 2
TOTAL 100
Calcule e variância e o desvio padrão dos dados obtidos.
c) Variância e desvio padrão para dados agrupados com intervalos de classes
Novamente, por desconhecer os particulares valores xi da série, substituiremos nas fórmulas anteriores
estes valores pelos pontos médios das classes.
Atividade 5. Determinar a variância e o desvio padrão da distribuição:
Classes fi
0 | 4 1
4 | 8 3
8 | 12 5
12 | 16 1
TOTAL 10
24
Atividade 6. Determinar a mediana, a moda bruta, a variância e o desvio padrão da distribuição:
Classes fi
2 | 6 2
6 | 10 4
10 | 14 7
14 | 18 1
TOTAL 14
Trabalho em Grupo 5 (TG5)
1) Calcule a variância e o desvio padrão de cada um dos conjuntos:
a) 23 43 34 23 25 27 22
b) 25 14 19 25 19
2) Entre os funcionários de uma clínica, foi retirada uma amostra de dez indivíduos. Os números que
representam as ausências ao trabalho registradas para cada um deles, no último ano, são:
{0; 0; 0; 2; 2; 2; 4; 4; 6; 10}. Sendo assim, determine o valor do desvio padrão desta amostra.
3) A prefeitura de Goiânia encomendou uma pesquisa que avaliasse o grau de satisfação dos moradores da
cidade. Cada um dos oitenta entrevistados atribuiu uma nota de 0 a 100 para a administração do prefeito.
Os resultados estão apresentados na tabela seguinte:
Nota Frequência Absoluta
0 ├ 20 4
20 ├ 40 13
40 ├ 60 32
60 ├ 80 25
80 ├ 100 6
a) Determine a nota média dada ao prefeito nesta pesquisa.
b) Calcule o desvio padrão
25
4) Um radar fotográfico, instalado em uma rodovia na qual o limite de velocidade é de 100 km/h, registrou
em uma semana x multas por excesso de velocidade, assim distribuídas:
Velocidade em Km/h Número de ocorrências
101 ├ 108 34
108 ├ 115 41
115 ├ 122 35
122 ├ 129 22
129 ├ 136 18
a) Determine o valor de x.
b) Calcule a média e o desvio padrão da velocidade dos veículos multados.
5) Em uma classe de 40 alunos as notas obtidas em teste formaram a seguinte distribuição:
Notas 1 2 3 4 5 6 78 9 10
Nº se alunos 4 4 8 1 2 7 7 5 1 1
Calcule a média, a mediana, a moda e o desvio padrão das notas apresentadas.
6) Em um determinado dia da semana foram atendidas 10 crianças em um Posto de Saúde na periferia de
Goiânia, cujas idades eram:
3 11 2 10 11 13 7 7 12 4
Determine o desvio-padrão das idades.
26
COEFICIENTE DE VARIAÇÃO (CV)
Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de
concentração em torno da média de séries distintas.
O desvio padrão por si só não nos diz muita coisa. Assim, se uma série X apresenta
x
= 10 e
)x(
=2 e
uma série Y apresenta
y
= 100 e
)y(
= 5, do ponto de vista da dispersão absoluta, a série Y apresenta
maior dispersão que a série X. No entanto, se levarmos em consideração as médias das séries, o desvio
padrão de Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que é 2 em
relação a 10. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu
emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou
variabilidade, quando expressas em unidades diferentes.
Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos
dados em termos relativos a seu valor médio através do coeficiente de variação:
100
x
CV
que é expresso em porcentagens.
Diz-se que a distribuição possui pequena variabilidade (dispersão), isto é, a distribuição é mais homogênea,
quando o coeficiente der até 15%; média dispersão quando estiver acima de 15% até 30%; e grande
dispersão quando superar 30%.
Ou seja: Baixa dispersão: CV
15%
Média dispersão: 15% < CV < 30%
Alta dispersão: CV
30%
Atividade 1 Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de
R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00 com desvio padrão de R$1.200,00. Qual grupo
é mais homogêneo em relação aos salários?
Atividade 2. A distribuição das estaturas de um grupo de pessoas apresentou uma estatura média de
175 cm e um desvio padrão de 12 cm, enquanto que a distribuição dos pesos apresentou um peso médio de
78 kg, com um desvio padrão de 15 kg. Com base nestes dados, qual é a variável mais homogênea deste
grupo?
27
Atividade 3. Marque a alternativa CORRETA Os dados abaixo representam os pesos de crianças na
enfermaria da clínica X:
15,0 18,6 20,5 21,2 22,3 25,6 28,6 29,4 35,2
Sabendo-se que a variância dos dados acima é 38,9, podemos afirmar que:
a) 0% CV < 10%
b) 10% CV < 20%
c) 20% CV < 30%
d) 30% CV < 40%
e) CV 40%
Atividade 4. A tabela a seguir contém algumas estatísticas associadas aos tempos de vida da população de
certa comunidade (pessoas falecidas nos anos 2000-2007).
Média Mediana Moda Desvio padrão
Homens 69,2 73 80 16,4
Mulheres 78,7 80 83 13,7
Com base nestas informações, assinale a alternativa CORRETA.
a) O tempo de vida dos homens apresenta maior CV e por isso apresenta maior homogeneidade.
b) O tempo de vida dos homens apresenta menor variabilidade.
c) O tempo de vida das mulheres apresenta o menor CV e por isso apresenta maior homogeneidade.
d) Como a média de tempo de vida das mulheres é menor então elas apresentam menor variabilidade
e) O tempo de vida das mulheres possui maior dispersão porque tem a maior média.
Atividade 5. Realizada uma pesquisa referente à renda familiar de um grupo de dez alunos obtiveram-se os
seguintes resultados.
8,5 15,2 13 17,2 14,5 15,7 12,8 19 18 1 5,7
a) Montar a tabela de freqüência para a variável renda familiar utilizando 3 classes;
b) Determine a renda média familiar destas 10 famílias.
c) Calcule o coeficiente de variação dessa amostra e interprete.
28
Atividade 6. O número de erros de português (ortografia, acentuação, concordância, etc) encontrado por
pagina de um trabalho escolar está relacionado na tabela seguinte:
Número de erros Frequência Absoluta
0 ├ 2 6
2 ├ 4 4
4 ├ 6 3
6 ├ 8 1
Determine:
a) A média;
b) O desvio padrão;
c) O coeficiente de variação dessa amostra e interprete
Trabalho em Grupo 6 (TG6)
1) Marque a alternativa CORRETA. A homogeneidade de uma série de valores ou de uma distribuição de
frequências é dada pela razão entre o desvio padrão e a média aritmética. Podemos afirmar que :
a) Quanto maior o coeficiente de variação maior homogeneidade.
b) Quanto menor o coeficiente de variação menor homogeneidade.
c) Quanto menor o coeficiente de variação maior a homogeneidade.
d) Quando o desvio padrão é igual a média menor a homogeneidade.
e) As alternativa "a" e "b" estão corretas.
O enunciado abaixo se refere às questões 2 e 3.
Encontram-se a seguir alguns valores de Média e Desvio Padrão extraídos de uma pesquisa no hospital X.
Variável Média ± DP (mg/dL)
Glicemia 85,86 ± 14,77
Triglicerídeos 174,36 ± 75,24
Colesterol HDL 46,43 ± 11,71
2) Marque a alternativa CORRETA. Para medir a variabilidade relativa das três variáveis mensuradas, e
compará-las, a melhor medida é:
a) a média
b) o desvio padrão
c) a moda
d) a mediana
e) o coeficiente de variação
29
3) Marque a alternativa CORRETA:
a) O Triglicerídeos é a variável mais homogênea porque possui o maior CV.
b) O Colesterol HDL é a variável mais homogênea porque possui o menor desvio padrão.
c) A Glicemia é a variável mais homogênea porque possui o menor CV.
d) A variável que apresenta menor homogeneidade é a Glicemia.
e) A variável que apresenta menor homogeneidade é o Colesterol HDL.
4) Conhecidas as médias e os desvios-padrões da pressão sanguínea (mm/Hg) segundo o tipo de anestesia
(halotano ou morfina), determine qual tipo apresenta os dados mais homogêneos.
Informações sobre a amostra
Anestesia
Halotano Morfina
Média 66,9 75
Desvio-Padrão 12,5 13,5
5) A seguir apresenta-se o nível de colesterol de 5 pessoas
233 291 310 250 196
Calcule o coeficiente de variação dessa amostra e interprete.
6) Em um exame final de Matemática Básica, o grau médio de um grupo de 150 alunos foi 6,8 e o desvio
padrão 1,2. Em Bioestatística, entretanto, o grau médio final foi 6,9 e o desvio padrão, 1,3. Em que
disciplina foi maior a dispersão?
30
MATERIAL EXTRA
CONCEITOS BÁSICOS
ESTATÍSTICA é um conjunto de métodos e processos quantitativos que serve para estudar e medir os
fenômenos coletivos.
ESTATÍSTICA é a ciência que estuda as técnicas necessárias para coletar, organizar, apresentar,
analisar e interpretar os dados, a fim de extrair informações a respeito de uma população.
POPULAÇÃO é o conjunto de todos os elementos (pessoas ou objetos) que interessam ao estudo de
um fenômeno coletivo segundo alguma característica.
AMOSTRA é qualquer subconjunto não vazio de uma população.
PARÂMETRO é uma característica numérica estabelecida para toda uma população.
ESTIMADORé uma característica numérica estabelecida para uma amostra.
CENSO é um levantamento estatístico (pesquisa) que abrange todos os elementos de uma população.
Principais propriedades do Censo:
Confiabilidade 100%
Custo elevado
Lento
Nem sempre é viável
AMOSTRAGEM é o processo de obter as amostras, com a finalidade de fazer generalizações sobre a
população sem precisar examinar cada um de seus elementos.
Principais propriedades da Amostragem:
Confiabilidade menor que 100%
Mais barata que o Censo
Mais rápida que o Censo
É sempre viável
DADO ESTATÍSTICO é toda informação devidamente coletada e registrada. Todo dado se refere a uma
variável.
VARIÁVEL é uma característica dos elementos de uma população ou de uma amostra, que pode
assumir diferentes valores, sejam numéricos ou não, e que interessa ao estudo.
CLASSIFICAÇÃO DAS VARIÁVEIS:
VARIÁVEIS QUALITATIVAS – quando seus valores são expressos por atributos ou qualidades;
VARIÁVEIS QUANTITATIVAS – quanto seus valores são expressos em números.
PARTES DA ESTATÍSTICA
Estatística Descritiva – é a parte da Estatística que trabalha com a organização e a apresentação dos
dados.
31
Estatística Indutiva ou Inferência Estatística – é a parte da Estatística que trabalha com análise e
interpretação dos dados, com o objetivo de obter e generalizar conclusões para a população a partir de
uma amostra.
ESTATÍSTICA DESCRITIVA
ATRIBUIÇÕES DA ESTATÍSTICA DESCRITIVA - Fases do Método Estatístico
Definição do problema O que exatamente se pretende pesquisar? Delimitar o tema.
Planejamento Como levantar informações? Que dados deverão ser obtidos? Qual levantamento a ser
utilizado? Censo? Amostragem? Qual é o cronograma de atividades? Quais são os custos envolvidos no
processo?
Obtenção ou coleta de dados – normalmente feita através de um questionário ou de observação direta
Crítica, Apuração e Organização dos dados – consiste na ordenação e crítica dos dados para evitar
erros que possam vir a alterar os resultados
Apresentação dos dados – através de tabelas e gráficos
Obtenção de algumas informações como médias, proporções, dispersões, índices que facilitam a
descrição e análise dos fenômenos observados.
ORGANIZAÇÃO DE DADOS EM TABELAS
Objetivo: apresentar resumidamente, de maneira clara e precisa, um conjunto de dados estatísticos.
ELEMENTOS DAS TABELAS
Título – texto conciso, indicador do conteúdo de uma tabela. Localizado no topo da tabela, responde às
perguntas: O quê? Quando? Onde?
Corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo. Cada
cruzamento de uma linha com uma coluna constitui uma casa ou célula.
Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas.
Coluna Indicadora – parte da tabela que especifica o tipo de informação que cada linha contém.
Fonte – identificador do responsável (pessoa física ou jurídica) pelo fornecimento dos dados. Não se indica
a fonte no caso em que a tabela é apresentada pelo próprio pesquisador, ou pelo próprio grupo de
pesquisadores, ou pela própria instituição que obteve os dados. É inscrita na primeira linha do rodapé (parte
inferior da tabela) e deve ser precedida da palavra Fonte.
Notas – são informações de natureza geral que servem para esclarecer o conteúdo das tabelas ou para
explicar o método utilizado no levantamento dos dados. As notas são colocadas logo após a fonte.
Chamadas – são informações de natureza específica que servem para explicar ou conceituar determinados
dados. As chamadas são inscritas no rodapé após a Fonte e as Notas.
Exemplo de tabela:
EFETIVO DO REBANHO BOVINO Título
2005-2009
Coluna ANOS PRODUÇÃO (1.000 t) Cabeçalho
Indicadora 2005 207.157
2006 205.886 Casa ou célula
2007 199.752
2008 202.307
2009 205.260
Rodapé FONTE: IBGE Corpo
32
SÉRIES ESTATÍSTICAS
SÉRIE ESTATÍSTICA é toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em
função do tempo, do local ou do fenômeno.
Tipos Básicos de Séries:
Temporal, Cronológica ou Histórica
Geográfica, Territorial ou de Localização
Categórica ou Específica
SÉRIE TEMPORAL
Usada para apresentar dados observados em determinado local, discriminados ao longo do tempo.
Exemplo:
Produção Brasileira de Cana-de-açúcar
1980/2006
Ano Produção (toneladas)
1980 139.584.521
1985 229.882.037
1996 259.806.703
2006 384.165.158
Fonte: IBGE
SÉRIE GEOGRÁFICA
Usada para apresentar dados de diferentes regiões geográficas, em determinado tempo.
Exemplo:
ÓBITOS POR NEOPLASIAS MALIGNAS
2009
Regiões
Quantidade
(por 100 mil habitantes)
Norte 46,7
Nordeste 66,2
Sudeste 102,8
Sul 121,1
Centro-Oeste 73,2
Fonte: Ministério da Saúde/Indicadores e Dados Básicos-Brasil-2010
O Instituto do Câncer (Inca) é o órgão de referência Técnica nacional
para um só do indicador
SÉRIE CATEGÓRICA
Usada para apresentar dados que se distribuem em diferentes categorias, em determinado tempo e local.
Exemplo:
Vendas das empresas brasileiras de tecnologia
2006
Setores
Vendas
(milhões de dólares)
Comunicação 56.927,70
Hardware 20.488,20
Serviços de Software 7.300,40
Serviços 5.603,50
Software 2.419,10
D Distribuição 1.380,40
Internet 657,40
Fonte: Info Exame-ago.2007
*200 maiores empresas de tecnologia do Brasil
33
REPRESENTAÇÃO GRÁFICA DAS SÉRIES ESTATÍSTICAS
Os gráficos produzem uma visão mais rápida e viva do fenômeno em estudo, ajudando a visualizar as
tendências e a interpretar os valores representativos deste fenômeno.
Requisitos Fundamentais na Representação Gráfica:
O gráfico deve ser simples, claro e deve expressar a verdade sobre o fenômeno em estudo;
Todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de
esclarecimentos adicionais no texto;
O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE escreve o título acima do gráfico;
As variáveis devem ser claramente identificadas;
A escala deve iniciar-se na origem do sistema de eixos cartesianos. Quando os valores iniciais dos
dados são muito altos, deve ser feita uma interrupção no eixo, com indicação clara da posição do zero;
O sistema de eixos cartesianos e as linhas auxiliares devem ter traçado mais leve do que a parte do
gráfico que se pretende evidenciar;
Para facilitar a leitura, podem ser feitas linhas auxiliares. Nesses casos, o gráfico é feito dentro de um
retângulo.
Principais Tipos de Gráficos: Diagramas
Cartogramas
Pictogramas
CARTOGRAMAS: São representações através de mapas (cartas geográficas). Este gráfico é empregado
quando o objetivo é o de relacionar os dados estatísticos diretamente com áreas geográficas ou políticas.
PICTOGRAMAS: É a representação gráfica através de figuras. Por se tratar de uma apresentação atraente,
é um gráfico que desperta muito a atenção do leitor.
34
Exemplo:
DIAGRAMAS: São gráficos geométricos construídos, em geral, no sistema cartesiano.
Principais Diagramas: Gráfico emLinha, Gráfico em Colunas, Gráfico em Barras, Gráfico em Colunas ou
em Barras Múltiplas e Gráfico em Setores.
GRÁFICO EM LINHA
Usado para apresentar as séries temporais. Representado num sistema de coordenadas cartesianas, cada
par de valores da série corresponde a um ponto. Estes pontos são unidos por segmentos de reta.
Exemplo: GASTO FEDERAL COM SAÚDE COMO
PROPORÇÃO DO PIB
2000-2009
ANOS Percentual/PIB
2000 0,87
2001 0,81
2002 0,75
2003 0,67
2004 0,54
2005 0,48
2006 0,52
2007 0,47
2008 0,46
2009 0,60
FONTE: IBGE
35
GRÁFICO EM COLUNAS
Usado para representar as séries cronológicas, geográficas e categóricas. Representado por meio de
retângulos de mesma base, dispostos verticalmente (em colunas).
Exemplo 5:
LEITOS EM HOSPITAIS PÚBLICOS
2009
ESTADO
Quantidade
(leito/1000 habitantes)
Bahia 0,9
Distrito Federal 1,39
Espírito Santo 0,58
Goiás 0,87
Minas Gerais 0,55
Paraná 0,61
Rio de Janeiro 1,04
São Paulo 0,58
Tocantins 1,65
FONTE: IBGE, Pesquisa de Assistência Médico-Sanitária
36
GRÁFICO EM BARRAS
Usado para representar as séries geográficas e categóricas. Representado por meio de retângulos
dispostos horizontalmente (em barras).
Exemplo 6:
Famílias residentes em domicílios particulares permanentes
2011
ESTADOS Famílias ( 1000)
Norte 4.832
Nordeste 17.001
Sudeste 27.904
Sul 9.695
Centro-Oeste 4.926
FONTE: IBGE, Pesquisa Nacional por Amostra de Domicílios 2001/2011
OBSERVAÇÕES:
1) O procedimento para a construção de um gráfico em colunas (ou barras) é análogo ao do gráfico em
linhas, observando que no gráfico em barras deve-se fazer a inversão nos eixos cartesianos (o eixo x
corresponde a altura e o eixo y corresponde a largura).
2) Sempre que os dizeres a serem inscritos forem extensos, deve-se dar preferência ao gráfico em barras
(séries geográficas e específicas).
37
GRÁFICO EM SETORES
Construído com base em um círculo, este gráfico é usado para comparar proporções.
Exemplo
REBANHO SUÍNO DO SUDESTE DO BRASIL
2009
ESTADOS QUANTIDADE (mil cabeças)
Minas Gerais 4.640
Espírito Santo 263
Rio de Janeiro 150
São Paulo 1.639
Total 6.692
FONTE: IBGE
Regras para a elaboração de um gráfico em setores:
Trace uma circunferência. A área do círculo representa o total, isto é, 100%, devendo ser dividida em
tantos setores quantas sejam as partes.
Lembre-se de que uma circunferência tem 360. Então, se ao total correspondem 360, a cada parte
corresponderá um setor cujo ângulo x é dado por:
TOTAL
360PARTE
x
Marque os valores dos ângulos calculados na circunferência e trace os raios, separando os setores.
Para facilitar a distinção, faça um tracejado diferente em cada setor.
Coloque título e legenda no gráfico.
IMPORTANTE: Para clareza dos dados, deve-se usar no máximo sete setores.