Buscar

Estatística e Probabilidade

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 109 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 109 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 109 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

EEssttaattííssttiiccaa 
ee 
PPrroobbaabbiilliiddaaddee 
 
 
PPrrooffeessssoorreess:: 
DDaanniieellaa CCaarriinnee RRaammiirreess ddee OOlliivveeiirraa 
MMaarrccooss SSaannttooss ddee OOlliivveeiirraa 
 
Prof. Daniela ____/____/____ ii
 
Índice 
 
1. Introdução à Estatística 1
 
 1.1. O que é Estatística? 1
 1.2. Estatística na Prática 1
 1.3. Um pouco da história da Estatística 2
 1.4. Exercícios 2
 
2. Variáveis 3
 
 2.1. Definição de Variável 3
 2.2. Classificação das Variáveis 3
 2.3. Exercícios 5
 
3. Amostragem 6
 
 3.1. Por que fazer Amostragem? 6
 3.2. Quando o uso de amostragem não é interessante? 6
 3.3. Tipos de Amostragem 6
 3.3.1. Amostragem Aleatória Simples (AAS) 6
 3.3.2. Amostragem Sistemática (AS) 7
 3.3.3. Amostragem Estratificada (AE) 8
 3.3.4. Amostragem por Conglomerado (AC) 9
 3.4. Exercícios 10
 
4. Tabulação de Variáveis 11
 
 4.1. Variáveis Qualitativas Unidimensionais 11
 4.2. Variáveis Quantitativas Unidimensionais 12
 4.3. Variáveis Qualitativas e Quantitativas Bidimensionais 13
 4.4. Exercícios 14
 
5. Medidas de Posição 15
 
 5.1. Mínimo e Máximo 15
 5.2. Moda 15
 5.3. Média 15
 5.4. Mediana 16
 5.5. Exercícios 18
Prof. Daniela ____/____/____ iii
 
6. Medidas de Dispersão 19
 
 6.1. Motivação 19
 6.2. Amplitude 19
 6.3. Variância e Desvio Padrão 19
 6.4. Intervalo Interquartil 21
 6.5. Exercícios 21
 
7. Estatística Gráfica 22
 
 7.1. Gráficos para as Variáveis Qualitativas 22
 7.1.1. Gráfico em Barras 22
 7.1.2. Gráfico de Composição em Setores (“Pizza”) 23
 7.1.3. Gráfico de Pareto 23
 7.2. Gráficos para as Variáveis Quantitativas 25
 7.2.1. Gráfico em Barras 25
 7.2.2. Gráfico de Pontos 26
 7.2.3. Histograma 26
 7.2.4. Gráfico em Linhas (ou Gráfico Temporal) 27
 7.2.5. Ramo-e-Folhas 28
 7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) 29
 7.3 Exercícios 31
 
8. Correlação e Regressão 32
 
 8.1. Estudo da relação entre variáveis 32
 8.2. Diagrama de Dispersão 32
 8.3. Coeficiente de Correlação 35
 8.4. Regressão Linear Simples 37
 8.5. Coeficiente de Determinação 39
 8.6. Exercícios 40
 
Lista de Exercícios 1 41
 
9. Probabilidade 44
 
 9.1. Processo ou Experimento Aleatório 44
 9.2. Espaço Amostral (Ω) 44
 9.3. Evento 45
 9.4. Exercícios 46
 9.5. Introdução à Probabilidade 47
Prof. Daniela ____/____/____ iv
 9.6. Definição Clássica 48
 9.7. Definição Freqüentista 49
 9.8. Definição Subjetiva 51
 9.9. Definição Moderna 51
 9.10. Probabilidade Condicional 52
 9.11. Independência de Eventos 53
 9.12. Regra da Probabilidade Total 54
 9.13. Teorema de Bayes 54
 
10. Variável Aleatória Discreta 56
 
 10.1. Introdução 56
 10.2. Esperança Matemática (Média) 57
 10.3. Variância 58
 10.4. Exercício 58
 10.5. Modelo Bernoulli 58
 10.6. Modelo Binomial 59
 10.7. Exercícios 60
 10.8. Distribuição Hipergeométrica 60
 10.9 Exercício 61
 10.10. Distribuição Poisson 61
 10.11. Exercícios 62
 
11. Variável Aleatória Contínua 63
 
 11.1. Esperança e Variância 65
 11.2. Distribuição Normal 66
 11.3. Tabela da Distribuição Normal Padrão 69
 11.4. Exercícios 73
 
Lista de Exercícios 2 74
 
12. Estimação 77
 
 12.1. Inferência Estatística 77
 12.2. Estimação Pontual e Intervalar para Proporção 77
 12.3. Exercícios 79
 12.4. Estimativa Pontual e Intervalar para a Média Populacional 79
 12.5. Exercícios 81
 12.6. Estimativa para a Média Populacional com Variância Desconhecida 81
 12.7. Exercício 83
 
Prof. Daniela ____/____/____ v
13. Testes de Hipóteses 84
 
 13.1. Introdução 84
 13.2. Formulação das Hipóteses 84
 13.3. Tipos de Erros possíveis nos Testes de Hipóteses 84
 13.4. Nível de Significância de um Teste de Hipótese (α) 85
 13.5. Teste de Hipóteses para a Proporção 85
 13.6. Exercícios 87
 13.7. Teste de Hipóteses para Média com Variância Conhecida 88
 13.8 Exercícios 90
 13.9 Teste de Hipóteses para Média com Variância Desconhecida 91
 13.10. Exercícios 93
 
Lista de Exercícios 3 94
 
Apêndice 
 
 A Gabarito da Lista de Exercícios 1 95
 B Gabarito da Lista de Exercícios 2 101
 C Gabarito da Lista de Exercícios 3 102
 D Aula no Laboratório de Computação 104
 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 1
1. INTRODUÇÃO À ESTATÍSTICA 
 
1.1. O que é Estatística? 
 
Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretar 
dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. 
Estamos denominando por dados a um (ou mais) conjunto de valores, numéricos ou não. A 
aplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas das atividades 
humanas. Assim, o principal objetivo da Estatística é nos auxiliar a tomar decisões ou tirar 
conclusões em situações de incerteza, a partir de informações numéricas. 
 
1.2. Estatística na Prática 
 
 
 
 
 
 
 
 
 
 
 
 
População: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que na 
terminologia estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvo 
no qual reside nosso interesse. Exemplos: todos os clientes de um banco, todos os alunos de uma 
faculdade, todos os automóveis da Ford, todo o sangue no corpo de uma pessoa, etc. 
 
Técnicas de Amostragem: ferramentas que nos auxiliam a coletar amostras. 
 
Planejamento de Experimentos: cria esquemas e teorias para verificação de hipóteses científicas. 
 
Amostra: é qualquer subconjunto da população. 
 
Análise Descritiva: Conjunto de técnicas destinadas a descrever e resumir os dados a fim de 
tirarmos conclusões a respeito de características de interesse. 
 
Probabilidade: Teoria utilizada para se estudar a incerteza associada a fenômenos aleatórios. 
 
Inferência Estatística: Técnicas que possibilitam a extrapolação, a um grande conjunto de dados 
(população), das informações e conclusões obtidas a partir de um subconjunto de valores 
(amostra). 
 
População 
(Características) 
Informações 
contidas nos 
dados 
Conclusões 
sobre as 
características 
da população 
Análise 
descritiva 
Inferência Estatística 
Amostra 
Técnicas de amostragem 
Análise 
descritiva 
Planejamento de Experimentos
Cálculo de Probabilidades
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 2
1.3. Um pouco da história da Estatística 
 
5000 AC Registros egípcios de presos de guerra; 
2000 AC Censo Chinês; 
695 Primeira utilização da média ponderada pelos árabes na contagem de moedas; 
1654 Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das 
Probabilidades; 
1763 Inferência Estatística (Reverendo Bayes); 
1930 Controle de Qualidade nas indústrias; 
1959 Estudo retrospectivo de doenças (Mantel & Haenszel); 
1996 Profundidade da Regressão (Rousseeuw e Hubert); 
1997 Modelos Fatoriais; 
2001 100 anos da Biometrika. 
 
Maiores detalhes sobre a história da Estatística no site: http://www.redeabe.org.br/historia.htm 
 
1.4. Exercícios – Parte I – A1 
 
1) Para as situações descritas a seguir, identifique a população e a amostra correspondente. 
 
(a) Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães de 
recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em Belo 
Horizonte, foram perguntadas a respeito da última vez que vacinaram seus filhos. 
População: 
 
Amostra: 
 
(b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. 
População: 
 
Amostra: 
 
(c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por 
telefone com relação ao canal em que estavam sintonizados. 
População: 
 
Amostra: 
 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 3
2. VARIÁVEIS2.1. Definição de Variável 
 
Qualquer característica associada a uma população é chamada de variável. 
Porque o nome variável? Porque ela “varia” de alguma forma. 
 
Exemplos: Idade: pode variar de 0, 1 , 2, ... anos 
 Sexo: pode ser masculino ou feminino 
 Estado Civil: pode ser solteiro, casado, divorciado, etc. 
 
2.2. Classificação das Variáveis 
 
As variáveis podem ser classificadas como Qualitativas ou Quantitativas. 
Algumas variáveis como sexo, grau de instrução, estado civil, região de procedência, 
apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo, 
estas variáveis são chamadas de variáveis Qualitativas. 
As variáveis como número de filhos, salário, idade, apresentam como possíveis resultados 
números resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas de 
variáveis Quantitativas. 
 
Exemplo: Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos 
socio-econômicos dos empregados da seção de orçamentos de uma empresa. Usando informações 
obtidas do departamento pessoal, ele elaborou a Tabela 2.1. 
 
Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso 
como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados 
da seção de orçamentos de uma Empresa. 
 Idade 
N° Estado Civil Grau de Instrução N° de Filhos Salário Anos Meses Região de Procedência 
1 Solteiro Fundamental ... 4,00 26 3 Interior 
2 Casado Fundamental 1 4,56 32 10 Capital 
... ... ... ... ... ... ... ... 
35 Casado Médio 2 19,40 48 11 Capital 
36 Casado Superior 3 23,30 42 2 Interior 
Fonte: Bussab e Morettin (2002) 
 
Observações sobre a Tabela 2.1. 
De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou 
mais de um) resultado correspondendo à realização de uma característica (ou características). Por 
exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos 
resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado, 
divorciado, mas somente as duas mencionadas foram consideradas no estudo). 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 4
Dentre as variáveis Qualitativas, ainda podemos fazer uma distinção entre dois tipos: 
 
Variável Qualitativa Nominal: para a qual não existe nenhuma ordenação nos possíveis 
resultados. 
Exemplo: Região de Procedência, etc. 
 
Variável Qualitativa Ordinal: para a qual existe uma ordem natural nos seus resultados. 
Exemplo: Grau de instrução, etc. 
 
As variáveis Quantitativas também podem sofrer uma classificação dicotômica: 
 
Variável Quantitativa Discreta: cujos possíveis valores formam um conjunto finito ou 
enumerável de números, e que resultam, freqüentemente, de uma contagem. 
Exemplo: Nº de Filhos, etc. 
 
Variável Quantitativa Contínua: cujos possíveis valores pertencem a um intervalo de números 
reais e que resultam de uma mensuração. 
Exemplo: Salário, etc. 
 
Resumindo 
Como as variáveis são classificadas e outros exemplos: 
 
Nominal Sexo, Cor dos Olhos. 
Qualitativa 
Ordinal Estado Civil, Classe social. 
 
Discreta Números de carros. 
Quantitativa 
Contínua Peso, altura. 
 
Para cada tipo de variável existem técnicas apropriadas para resumir as informações dos 
dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os 
dados de uma forma resumida. 
Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou 
atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa, 
desde que o procedimento seja passível de interpretação. 
 
Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada 
variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente 
chamadas de sucesso e fracasso. 
 
Exemplos: Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc. 
 
 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 5
2.3. Exercícios – Parte I – A1 
 
1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes 
informações: 
ID: Identificação do aluno; 
Turma: Turma a que o aluno foi alocado (A ou B); 
Sexo: Feminino (F) ou Masculino (M); 
Idade: Idade; 
Alt: Altura; 
Peso: Peso; 
Filh: Número de filhos na família; 
Fuma: Hábito de fumar (sim ou não); 
Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito; 
Exer: Horas de atividade física, por semana; 
Cine: Número de vezes que vai ao cinema por semana; 
OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa 
TV: Horas gastas assistindo TV, por semana 
OpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe. 
 
Tabela 2.2: Informações do questionário estudantil. 
ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV
1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 R 
2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R 
... ... ... ... ... ... ... ... ... ... ... ... ... ... 
49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R 
50 B M 18 1,83 86,0 1 Não P 7 7 M 20 B 
Fonte: Magalhães e Lima (2004). 
 
Classifique as variáveis da Tabela 2.2. como 
Variável Qualitativa Nominal: 
 
 
Variável Qualitativa Ordinal: 
 
 
Variável Quantitativa Discreta: 
 
 
Variável Quantitativa Contínua: 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 6
3. AMOSTRAGEM 
 
 A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o 
tempero de um alimento em preparação, podemos provar (observar) uma pequena porção deste 
alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população), uma parte 
(amostra) com propósito de avaliarmos sobre a qualidade do tempero de todo o alimento. 
 
3.1. Por que fazer Amostragem? 
 
Existem várias razões para o uso de amostragem em levantamento de grandes populações. 
Algumas delas são: 
ƒ Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte 
da população. 
ƒ Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo 
suficiente para pesquisar toda a população de eleitores do país. 
ƒ Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas 
típicos nos grandes censos é o controle dos entrevistadores. 
 
3.2. Quando o uso de amostragem não é interessante? 
 
ƒ População pequena: Não há necessidade de utilizar técnicas estatísticas, pois neste caso é 
aconselhável realizar o censo (análise de toda a população). 
ƒ Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a 
variável que se quer observar é de tão fácil mensuração, que não compensa investir num 
plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários 
favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a 
população no próprio local de trabalho. Esta atitude pode ser politicamente mais 
recomendável. 
ƒ Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo1 Demográfico 
para estudar diversas característica da população brasileira. Dentre estas características têm-
se o número total de habitantes, que é fundamental para o planejamento do país. Desta 
forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se 
pesquisa toda a população. 
 
3.3. Tipos de Amostragem 
 
3.3.1. Amostragem Aleatória Simples (AAS) 
 
A técnica de Amostragem Aleatória Simples (ou Amostragem Casual Simples) é o método 
mais simples e um dos mais importantes para a seleção de uma amostra. Para a seleção de uma 
AAS precisamos ter uma lista completa dos elementos da população. Este tipode amostragem 
consiste em selecionar a amostra através de um sorteio. Sua principal característica está no fato de 
todos os elementos da população ter igual probabilidade de serem escolhidos. 
 
1 Censo: estudo de todos os elementos da população. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 7
ƒ Procedimento para o uso deste método: 
 1) Numerar todos os elementos da população (N elementos); 
 2) Efetuar sucessivos sorteios até completar o tamanho da amostra (n). 
 
Para realizar este sorteio, podemos utilizar urnas, tabelas de números aleatórios ou algum 
software que gere números aleatórios. A Tabela abaixo foi feita usando o Excel®. 
 
Tabela de Números Aleatórios 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Exemplo: Estamos interessados em estudar a qualidade da gasolina nos postos de uma 
determinada cidade. Essa cidade possui N = 40 postos. A empresa que estudará a qualidade pode 
investigar apenas uma amostra de n = 4 postos. Para selecionarmos uma amostra, utilizando a 
amostragem casual simples, basta escolhermos uma posição de qualquer linha da tabela de 
números aleatórios e extrairmos conjuntos de dois algarismos (pois N, que é o tamanho da 
população, possui 2 casas decimais), até completarmos os 4 elementos da amostra. Se o número 
sorteado não existir, simplesmente não consideramos e prosseguimos o processo. 
Escolhendo a primeira linha da Tabela de Números Aleatórios, temos a seguinte amostra de 
4 elementos: {09, 26, 29, 11}. 
 
Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 
10 elementos. Obtenha uma AAS utilizando a primeira linha da Tabela de Números Aleatórios. 
 
3.3.2. Amostragem Sistemática (AS) 
 
É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichas 
de cadastramento, produção de garrafas da cervejas, etc. 
ƒ Procedimento para o uso deste método: 
 
1) Seja N o tamanho da população e n o tamanho amostral. Calcula-se o intervalo da 
amostragem i = N/n (considera-se apenas a parte inteira do número). 
6 1 0 9 2 6 2 9 8 5 1 1 9 5 7 7 7 9 0 4 5 7 0 0 9 1 2 9 5 9 8 3 5 3 8 7 0 2 0 2
9 4 4 7 4 0 9 9 9 3 8 2 1 3 2 2 4 0 3 3 1 9 7 2 5 5 6 9 8 2 1 6 9 4 2 1 6 6 3 9
5 0 4 0 5 0 5 5 7 9 0 0 5 8 1 7 2 6 3 0 3 8 1 1 5 4 8 9 0 4 1 3 6 9 1 7 3 5 4 8
5 8 9 3 4 2 7 0 1 5 2 8 9 6 2 4 7 5 0 3 0 0 4 5 8 6 6 8 7 9 0 2 5 8 9 6 2 4 8 5
8 0 4 8 9 6 3 2 5 8 1 2 5 8 7 4 6 3 2 1 4 8 9 6 5 4 1 2 3 2 0 1 4 5 2 3 6 9 8 0
1 2 8 7 5 6 3 2 1 0 8 5 6 4 9 7 3 2 1 0 5 9 4 7 6 4 1 2 3 3 0 1 2 5 8 9 7 4 1 0
3 1 4 5 8 7 6 9 3 2 0 1 4 5 6 9 8 7 4 5 9 8 7 4 5 6 3 2 1 5 9 4 5 6 0 2 5 8 0 0
8 5 1 8 9 6 5 4 7 3 1 0 2 5 8 9 6 3 2 0 4 7 8 9 6 3 2 0 1 4 8 2 3 6 8 9 5 2 0 1
0 8 5 8 9 6 3 2 1 4 5 2 5 8 9 6 3 2 1 4 8 5 2 3 0 2 5 7 4 0 8 5 6 3 1 2 5 2 3 0
9 0 1 2 5 9 0 3 6 8 2 0 3 5 8 4 6 1 3 0 5 8 7 9 6 3 2 0 1 8 9 6 3 2 5 8 4 1 0 3
1 9 1 5 8 9 6 3 2 1 7 8 9 6 5 2 0 3 2 5 9 6 3 2 0 1 5 8 9 6 2 1 5 4 7 9 9 4 0 2
2 7 9 1 2 3 5 8 9 6 0 1 5 4 2 0 3 6 9 8 2 5 8 0 2 1 4 8 0 9 5 2 0 3 2 1 2 4 8 9
5 6 1 9 4 5 9 6 3 2 1 4 7 8 9 6 3 0 1 5 1 4 5 8 9 6 3 2 1 4 0 2 1 3 6 5 4 7 8 9
9 2 5 1 2 3 5 8 9 4 3 2 1 4 7 0 2 3 0 0 4 5 6 3 0 0 1 4 5 2 9 3 0 2 5 8 9 2 6 4
6 3 3 1 2 5 8 7 0 3 9 4 7 8 4 1 0 1 3 6 8 7 4 1 2 3 0 2 5 8 6 1 0 2 5 4 6 7 8 9
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 8
2) Sorteia-se, utilizando a tabela de números aleatórios, um número x entre 1 e i formando a 
amostra: x, (x + i), (x + 2*i), ... , (x + (n-1)*i). 
 
Exemplo: Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos para 
verificar uma característica de interesse. Utilize a técnica de amostragem sistemática para retirar 
essa amostra. 
1) Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7; 
2) Sortear um número entre 1 e 7 da Tabela de Números Aleatórios. Escolhendo a última linha e a 
primeira coluna, temos que o primeiro número que está entre 1 e 7 é 6. Logo a amostra será 
composta dos elementos: {06, 13, 20, 27, 34} 
 
Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 
10 elementos. Obtenha uma AS utilizando a primeira linha da Tabela de Números Aleatórios, 
quando for necessário. 
 
3.3.3. Amostragem Estratificada (AE) 
 
A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda, 
bairro, etc.) e a AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devem 
ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo. 
Aqui, um conhecimento prévio sobre a população em estudo é fundamental. 
 
Estrato 1 Subgrupo 1 da amostra 
Estrato 2 Subgrupo 2 da amostra 
... ... ... 
Estrato k Subgrupo k da amostra 
 
Amostra 
Estratificada 
 
A AE tem as seguintes características: 
• dentro de cada estrato há uma grande homogeneidade (pequena variabilidade); 
• entre os estratos há uma grande heterogeneidade (grande variabilidade). 
Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho da 
amostra de cada estrato da população é mantida na amostra. Por exemplo, se um estrato 
corresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra. 
 
Exemplo: Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria em 
uma determinada universidade, realizaremos um levantamento por amostragem. A população é 
composta por 100 professores, 100 servidores técnicos administrativos e 300 alunos, que 
identificaremos da seguinte forma: 
População 
Professores P001 P002 … P100 
Servidores S001 S002 ... S100 
Alunos A001 A002 ... A300 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 9
Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneo 
dentro de cada categoria, realizaremos uma amostragem estratificada proporcional por categoria, 
para obter uma amostra global de tamanho n = 10. A tabela a seguir mostra as relações de 
proporcionalidade. 
Estrato Proporção na População Tamanho do subgrupo na amostra 
Professores 100/500 = 0,20 (ou 20%) np = ( 0,20)*10 = 2 
Servidores 100/500 = 0,20 (ou 20%) ns = ( 0,20)*10 = 2 
Alunos 300/500 = 0,60 (ou 60%) na = ( 0,60)*10 = 6 
 
Para selecionar aleatoriamente dois professores, podemos usar a Tabela de Números 
Aleatórios, tomando dois números com três algarismos. Usando, por exemplo a primeira linha da 
tabela de números aleatórios, temos os seguintes professores selecionados: {P045, P020}. Para os 
servidores, usando a segunda linha da tabela, temos: {S055, S058}. Usando a terceira linha da 
tabela, temos a seguinte amostra de alunos: {A050, A136, A270, A152, A247, A004}. A amostra 
{P045, P020, S055, S058, A050, A136, A270, A152, A247, A004} é uma amostra estratificada 
proporcional da comunidade da universidade. Cada indivíduo desta amostra deverá ser pesquisado 
para se obter a opinião em relação à gestão atual da reitoria. 
 
3.3.4. Amostragem por Conglomerado (AC) 
 
A população é dividida em subpopulações (conglomerados) distintas (quarteirões, 
residências, famílias, bairros, etc.). Alguns dos conglomerados são selecionados segundo a AAS e 
todos os indivíduos nos conglomerados selecionados são observados. Em geral, é menos eficiente 
que a AAS ou AE, mas por outro lado é bem mais econômica. Tal procedimento amostral é 
adequado quando é possível dividir a população em um grande número de pequenas 
subpopulações. 
A AC tem as seguintes características: 
• dentro de cada conglomerado há uma grande heterogeneidade (grande 
variabilidade); 
• entre os conglomerados há uma pequena variabilidade (grande homogeneidade). 
 
Exemplo: Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando a 
técnica de amostragem por conglomerados, podemosselecionar aleatoriamente 2 zonas eleitorais e, 
em seguida, entrevistar todos os eleitores dessas zonas selecionadas 
 
 
 
 
 
 
 
 
Zona
1
2
3
4
5
6
7
8
9
10
11
12
Entrevistar todos os 
eleitores dessas zonas
Zona
1
2
3
4
5
6
7
8
9
10
11
12
Zona
1
2
3
4
5
6
7
8
9
10
11
12
Entrevistar todos os 
eleitores dessas zonas
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 10
Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porque 
ambas envolvem a formação de subgrupos. A diferença é que a amostragem por conglomerado usa 
todos os membros de uma amostra de conglomerados, enquanto a amostragem estratificada usa 
uma amostra de membros de todos os estratos. 
 
Curiosidade 
 
Também podemos encontrar na prática a Técnica de Amostragem de Conveniência que 
simplesmente usa resultados que sejam muito fáceis de obter. 
 
 
 
 
 
 
 
 
 
 
 
3.4. Exercícios – Parte I – A1 
 
1) Um administrador especialista em avaliar através de sistemas informatizados as ações da 
BOVESPA, está interessado em fazer uma pesquisa nos preços das ações, para indicar aos seus 
clientes se hoje é um dia favorável a fazer investimentos. Ele sabe que existe N = 500 ações em 
venda. Como o tempo de estudo de cada ação é de aproximadamente 10 minutos, decidiu-se 
verificar apenas n = 25 ações. Utilizando as técnicas de amostragem aleatória simples, quais ações 
serão selecionadas (Use a primeira linha da tabela de números aleatórios)? 
 
 
2) Um gerente de controle de qualidade estudará fontes de computador que passam numa esteira 
transportadora dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e na 
amostra deverá ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica de 
amostragem sistemática? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a 
primeira linha) 
 
 
3) Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100 
computadores que estão separados em duas qualidades. N1 = 40 computadores Pentium 3 e N2 = 
60 computadores Pentium 4. O custo para verificar se cada computador está sob controle é muito 
alto. O administrador responsável disse que a empresa tem condições de verificar apenas n = 12 
computadores. Utilizando a técnica de amostragem estratificada proporcional, quais computadores 
serão selecionados? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a 
primeira linha) 
 
 
Ei! Você é a favor 
da pena de morte?
Ei! Você é a favor 
da pena de morte?
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 11
4. TABULAÇÃO DE VARIÁVEIS 
 
4.1. Variáveis Qualitativas Unidimensionais 
 
Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o 
comportamento dessa variável, analisando a ocorrência de seus possíveis resultados. 
A tabela a seguir apresenta a distribuição de freqüências da variável grau de instrução dos 
dados da Tabela 2.1. 
 
Tabela 4.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da 
Companhia MB segundo o grau de instrução. 
Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 
Fundamental 12 
Médio 18 
Superior 6 
Total n = 36 1,0000 
Fonte: Bussab e Morettin (2002) 
 
Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33% 
tem nível fundamental, 50% nível médio e apenas 16,67% nível superior. 
Notação: Usaremos a notação ni para indicar a freqüência (absoluta) de cada classificação ou 
categoria da variável. A notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cada 
categoria, sendo o “n” o número total de observações. 
As proporções são muito úteis quando se querem comparar resultados de duas pesquisas 
distintas. O próximo exemplo ilustra este fato. 
 
Exemplo: Suponhamos que se queira comparar a variável grau de instrução para empregados da 
seção de orçamentos com a mesma variável para todos os empregados da Companhia MB. 
Digamos que a empresa tenha 2000 empregados e que a distribuição de freqüências seja a tabela 
abaixo: 
 
Tabela 4.2: Freqüências e Porcentagens dos 2000 empregados da Companhia MB, segundo o grau 
de instrução. 
Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 
Fundamental 650 
Médio 1020 0,5100 
Superior 
Total n = 2000 1,0000 
Fonte: Bussab e Morettin (2002) 
 
Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunas 
das freqüências (ni) das duas tabelas pois os totais de empregados são diferentes nos dois casos (n = 
36 e n = 2000). Mas as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimos 
as freqüências relativas a um mesmo total. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 12
4.2. Variáveis Quantitativas Unidimensionais 
 
A construção de tabelas de freqüências para variáveis quantitativas necessita de certos 
cuidados. Por exemplo, a construção da tabela de freqüências para a variável Salário da Tabela 2.1., 
usando o mesmo procedimento que o grau de instrução, não resumirá as 36 observações num grupo 
menor, pois não existem observações iguais. 
 
Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabela 
de Classes de Freqüências. 
 
Exemplo: Distribuição de Freqüências dos salários dos 36 empregados da seção de orçamentos da 
Companhia MB por faixas de salário: 
 
Tabela 4.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da 
Companhia MB por faixas de salário. 
Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 
04 |-- 08 10 0,2778 27,78% 
08 |-- 12 12 
12 |-- 16 8 
16 |-- 20 5 
20 |-- 24 1 
Total 36 1,0000 
 
Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-se 
alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a 
não ser que investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor que 
todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14. 
 
Número de Classes 
 
A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lhe 
indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, 
com um número pequeno de classes, perde-se informação, e com um número grande de classes, o 
objetivo de resumir os dados fica prejudicado. 
Solução: Normalmente, sugere-se o uso de 4 a 8 classes com a mesma amplitude. 
Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso o 
pesquisador não tenha idéia alguma sobre o número de classes adotar. O número ideal de classes é 
um número inteiro próximo de: 
 
Regra 1: nlogx2,31C += Regra 2: nC = 
onde n é o número de elementos pesquisado. 
As duas regras são equivalentes para n ≤ 80. A partir daí, a Regra 2 fornece valores que 
crescem rapidamente e desse modo a Regra 1, proposta por Sturges tem sido preferida. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 13
4.3. Variáveis Qualitativas e Quantitativas Bidimensionais 
 
As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela de 
associação, tabela de contingência ou distribuições conjuntas de freqüências. 
 
Tabela 4.4: Distribuição dos funcionários da empresa MB, segundo o 
conceito em Metodologia e a Seção a que pertence. 
Conceito em Metodologia Seção 
A B C 
Total por 
Seção 
Dep. Pessoal 3 1 3 7 
Séc. Técnica 0 4 3 7 
Sec. Venda 4 3 4 11 
Total por Conceito 7 8 10 25 
 
 
Tabela 4.5: Vendas dos Produtos A, B, C, no supermercado Glória, no 
Primeiro semestrede 2005. 
Vendas em 1000 R$ Meses 
A B C 
Total por 
Mês 
Janeiro 40,0 25,2 8,1 73,3 
Fevereiro 40,1 28,0 10,0 78,1 
Março 35,1 28,0 15,4 78,5 
Abril 28,2 20,2 22,3 70,7 
Maio 14,1 25,6 28,1 67,8 
Junho 5,0 30,0 35,2 70,2 
Total por Produto 162,5 157,0 119,1 438,6 
Fonte: Dados Hipotéticos. 
 
 
Tabela 4.6: Distribuição dos alunos da Faculdade Vitória, segundo suas 
notas em Matemática e Estatística. 
Matemática Estatística 
0 |- 4 4 |- 7 7 |- 10 
Totais em 
Estatística 
0 |- 4 32 25 5 62 
4 |- 7 20 183 82 285 
7 |- 10 7 27 19 53 
Totais em 
Matemática 
59 235 106 400 
Fonte: Dados Hipotéticos. 
 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 14
4.4. Exercícios – Parte I – A1 
 
Tabela 4.7: Conjuntos de dados da empresa MB Indústria e Comércio 
Func. Seção* Admin. Direito Redação Estat. Inglês Metodologia Política Economia 
1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5 
2 P 8,0 9,0 7,0 9,0 B C 6,5 8,0 
3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5 
4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5 
5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0 
6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5 
7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0 
8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5 
9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0 
10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5 
11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5 
12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0 
13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5 
14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5 
15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0 
16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5 
17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5 
18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5 
19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5 
20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5 
21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0 
22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0 
23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0 
24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0 
25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5 
(*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas. 
Fonte: Bussab e Morettin (2002) 
 
1) Baseado na Tabela 4.7., construa a distribuição de freqüências da variável Metodologia, com as 
freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 
 
2) Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Freqüências para a variável 
Redação, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 
 
3) Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” da 
Tabela 4.7. 
 
4) Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela 
4.7. 
 
5) Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela 
4.7. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 15
5. MEDIDAS DE POSIÇÃO 
 
5.1. Mínimo e Máximo 
 
O mínimo é a menor observação do conjunto de dados, enquanto que o máximo é a maior 
observação. 
 
Exemplo: Considere o seguinte conjunto de dados: 4, 5, 4, 6, 5, 8, 4. Logo, 
Min = __ e Max = __. 
 
5.2. Moda 
 
Valor ou atributo que ocorre com maior freqüência. 
Exemplo (a): 2, 5, 2, 7, 8 Moda = __ . 
Exemplo (b): 3, 4, 2, 2, 4, 5 Moda = __ e __. “Conjunto _ _ _ _ _ _ _” 
Exemplo (c): 1, 2, 3, 4, 5 Moda = não tem “Conjunto _ _ _ _ _ _” 
 
Moda para dados agrupados em Tabelas de Freqüências 
 
Exemplo: Uma empresa de segurança deseja estudar qual o número de ligações a cobrar mais 
freqüentes que são recebidas em um determinado bairro de classe alta da cidade de São Paulo no 
mês de março. Foram selecionadas 30 residências e observadas 10 ligações em cada residência. O 
resultado foi: 
 
Números de Ligações a Cobrar (xi) Número de Residências (ni) 
0 2 
1 5 
2 15 
3 8 
Total 30 
 
Moda = __. 
Interpretação: __ ligações a cobrar foi o que ocorreu com maior freqüência. 
 
5.3. Média 
 
Valor que representa o centro do conjunto de dados. 
Considere n observações de um conjunto de dados representados por x1, x2, ..., xn. A média 
desse conjunto é obtida pela soma das n observações dividido por n, ou seja, 
 
n
x
n
xxxx
x
n
i
i
n
∑
==++++= 1321 L (5.1) 
Exemplo: Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 16
Média para dados agrupados em Tabelas de Freqüências 
 
Exemplo: Considere novamente o exemplo da empresa de segurança, mas suponha que o interesse 
seja estudar o número médio de ligações a cobrar recebido em um determinado bairro de classe 
alta da cidade de São Paulo no mês de março. 
 
Números de Ligações a Cobrar (xi) Número de Residências (ni) 
0 2 
1 5 
2 15 
3 8 
Total 30 
 
Nesse caso, a média é calculada levando em conta as freqüências de cada valor da variável, 
da seguinte forma: 
 
n
nx
x
v
i
ii∑
== 1 , (5.2) 
onde v é a quantidade de resultados que a variável contém e ni a respectiva freqüência da i-ésima 
classe. Assim, para o exemplo temos: 
=+++==
∑
=
30
8315251201 xxxx
n
nx
x
i
n
i
i
___. 
Logo, o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da 
cidade de São Paulo no mês de março é ___. 
 
5.4. Mediana 
 
É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana e 
metade será menor ou igual. 
Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10. 
De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de 
valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana 
é 9. 
 
Método prático para o cálculo da Mediana para dados em Rol 
1) Ordenar os valores do menor para o maior, isto é, x(1),...., x(n), onde x(1) é o mínimo e x(n) é o 
máximo. 
2) Calcular em que posição estará a mediana nos dados ordenados através da fórmula: 
2
1np += . 
3) O valor da mediana será: 
(a) Se p for um número inteiro, então a mediana será o valor que está na posição p nos dados 
ordenados, isto é 
Mediana = x(p) 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 17
(b) Se p não for inteiro, considere p- e p+ os inteiros imediatamente abaixo e acima de p, 
respectivamente. A mediana será a média dos valores que estão nas posições p- e p+ nos dados 
ordenados, ou seja, 
2
xx
Mediana )P()P(
+− +=
 
 
Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 2, 5 
1º ordenar a série: __, __, __, __, __, __, __, __, __. 
n = __ . Logo, P = (n + 1)/2 é dado por P = (__+1)/2 = 5, ou seja, o 5º elemento da série ordenada 
será a mediana. Assim, mediana = __ . 
 
Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 
1º ordenar a série: __, __, __, __, __, __, __, __, __, __. 
n = __. P = (n + 1)/2 é dado por P = (__+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6º 
elementos da série ordenada, que representam os seguintes valores: __ e __, respectivamente. Pela 
definição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja, 
Mediana = (2+3)/2 = 2,5. 
 
Notas: 
1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana 
com um dos elementos da série. 
2) Quando o número de elementos da série estatística for par, a mediana será sempre a média 
aritmética dos 2 elementos centrais da série. 
3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor. 
4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma 
diferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores 
extremos). Vejamos: 
Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10; 
Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10, 
isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos 
valores extremos, ao passo que a mediana permanece a mesma. 
 
 
Mediana para dados agrupados em Tabelas de FreqüênciasNesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana. 
 
Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual o 
número de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta da 
cidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dados 
referentes a freqüência acumulada. 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 18
Números de Ligações a Cobrar (xi) Número de Residências (ni) Freqüência Acumulada (Fi) 
0 2 
1 5 
2 15 
3 8 
Total 30 
 
Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16. 
Ambos valores que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 é 
a primeira freqüência acumulada que contém os elementos 15 e 16. 
 
 
5.5. Exercícios – Parte I – A1 
 
1) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir. 
5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60. 
Calcule o mínimo, máximo, moda, média e mediana. 
 
 
2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de tempos 
de falha (em horas) para motores de jatos. Alguns desses dados estão a seguir. 
 
Tabela 5.1: Dados Brutos (em horas) 
Máquina # Tempo de Falha Máquina # Tempo de Falha 
1 150 14 171 
2 291 15 197 
3 93 16 200 
4 53 17 262 
5 2 18 255 
6 65 19 286 
7 183 20 206 
8 144 21 179 
9 223 22 232 
10 197 23 165 
11 187 24 155 
12 197 25 203 
13 213 
 
Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interprete 
os resultados. 
 
3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma 
universidade foram as seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 
28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média e 
mediana das idades organizadas nessa tabela. 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 19
6. MEDIDAS DE DISPERSÃO 
 
6.1. Motivação 
 
Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos 
a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos 
destacaram-se com as notas descritas na tabela abaixo: 
 
Tabela 6.1: Distribuição das Notas 
Provas 
Candidatos 
1 2 3 4 5 6 
A 7,0 7,5 8,0 8,0 8,5 9,0 
B 6,0 7,0 8,0 8,0 9,0 10,0 
C 7,5 8,0 8,0 8,0 8,0 8,5 
Fonte: Dados Hipotéticos 
 
Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média, 
mas: 
Candidatos A B C 
Média 
De modo análogo, nem adianta pensar em moda ou mediana, pois: 
Candidatos A B C 
Moda 
Mediana 
Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais 
homogêneas, isto é, aquele que apresentou menor dispersão das notas. 
 
6.2. Amplitude 
 
A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de 
dados, ou seja, 
 Amplitude = Máximo – Mínimo (6.1) 
Exemplo: Para os três candidatos temos: 
Candidatos A B C 
Amplitude 
 
6.3. Variância e Desvio Padrão 
 
A variância mede a dispersão dos dados em torno de sua média. 
 
1
)(
1
)()()()( 1
2
22
3
2
2
2
12
−
−
=−
−++−+−+−=
∑
=
n
xx
n
xxxxxxxx
s
n
i
i
nL (6.2) 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 20
O desvio padrão é simplesmente a raiz quadrada positiva da variância 
 2ss = (6.3) 
 
Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos: 
 
 Notas Média 
Candidato A 7,0 7,5 8,0 8,0 8,5 9,0 8,0 
 
5,0
5
5,2
16
)89()85,8()88()88()85,7()87( 2222222 ==−
−+−+−+−+−+−=As 7,05,0 ≅=As 
 
 Notas Média 
Candidato B 6,0 7,0 8,0 8,0 9,0 10,0 8,0 
 
==−= 516
2
Bs =Bs 
 
 Notas Média 
Candidato C 7,5 8,0 8,0 8,0 8,0 8,5 8,0 
 
==−= 516
2
Cs =Cs 
 
Resumindo 
 
Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos 
Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão 
A 8,0 8,0 8,0 
B 8,0 8,0 8,0 
C 8,0 8,0 8,0 
 
Fórmula alternativa para o cálculo da variância 
 
Podemos calcular a variância através da seguinte fórmula alternativa: 
 ⎥⎦
⎤⎢⎣
⎡ −⎟⎠
⎞⎜⎝
⎛
−= ∑= 21 22 )(1
1 xnx
n
s
n
i
i (6.4) 
. 
A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Esta 
tem a facilidade de apenas necessitar da informação da média ( x ) e da soma dos valores ao 
quadrado da variável ( )∑ 2ix . 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 21
6.4. Intervalo Interquartil 
 
O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), 
ou seja, 
 IQ = Q3 – Q1. (6.5) 
 
Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de 
dados ordenados. 
 
6.5. Exercícios – Parte I – A1 
 
1) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calcular 
a variância, sabendo que a média é 5,4. 
 
2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada 
um deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego, 
em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionários 
entrevistados foi: 
Empresa A Empresa B Empresa C 
5,5 4 5 
6 5 6 
6 6 6 
6 6 6 
6,5 9 7 
Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa 
para tomar sua decisão. 
 
3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagem 
de sangue. Para isto o responsável pelas análises preparou uma substância de concentração 
conhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os 
resultados obtidos em cada um deles foram os seguintes: 
A 5 10 7 15 16 12 4 8 10 13 
B 10 9 10 9 11 8 9 7 8 9 
C 10 11 9 10 10 9 11 12 8 10 
Em medidas clínicas três termos são utilizados freqüentemente: 
Precisão: refere-se à dispersão dos resultados 
Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao 
“verdadeiro valor” 
Exato: refere-se ao instrumento preciso e não-viciado 
(a) Descreva os três instrumentos em termos das definições acima. 
(b) Qual instrumento lhe parece recomendável? Justifique sua resposta. 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 22
7. ESTATÍSTICA GRÁFICA 
 
7.1. Gráficos para as Variáveis Qualitativas 
 
A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e 
concisamente, informar sobre sua variabilidade. 
Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados três 
deles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto. 
 
7.1.1. Gráfico em Barras 
 
O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensões 
é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas 
as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou 
verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de 
Instrução. 
 
Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da 
Companhia MB segundo o grau de instrução. 
Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 
Fundamental 12 0,3333 33,33% 
Médio 18 0,5000 50,00% 
Superior 6 0,1667 16,67% 
Total n = 36 1,0000 100,00% 
Fonte: Bussab e Morettin (2002) 
 
12
18
6
0
2
4
6
8
10
1214
16
18
Fr
eq
üê
nc
ia
 (n
i)
Fundamental Médio Superior
Grau de Instrução
 
Figura 7.1: Gráfico em Barras para a variável Grau de Instrução 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 23
7.1.2. Gráfico de Composição em Setores (“Pizza”) 
 
O gráfico de composição em setores (“pizza”), destina-se a representar a composição, 
usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, 
representando o todo, dividido em setores, que correspondem às partes de maneira proporcional. 
Para o exemplo anterior temos o seguinte gráfico: 
50%
17%
33%
Fundamental
Médio
Superior
 
Figura 7.2: Gráfico em Setores para a variável Grau de Instrução 
 
7.1.3. Gráfico de Pareto 
O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com um 
gráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e a 
porcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (Ver 
Figura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência de 
ocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maior 
freqüência, e assim por diante. 
 
Fr
eq
ue
nc
ia
 A
bs
ol
ut
a
Po
rc
en
ta
ge
m
 A
cu
m
ul
ad
a
Modelo-Aviões
Count
Percent 57,5 11,2 9,2 9,0 6,5 5,1 0,8 0,6
Cum %
281
57,5 68,7 77,9 86,9 93,5 98,6 99,4 100,0
55 45 44 32 25 4 3
MD-90MD-11MD-747MD-717MD-767MD-757MD-777MD-737
500
400
300
200
100
0
100
80
60
40
20
0
 
Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company) 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 24
A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da 
Boeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular, 
seguido pelos 777, 757, 767, 717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta as 
porcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesse 
exemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% do 
total dos aviões produzidos em 2000. 
 
Nú
m
er
o 
de
 D
ef
ei
to
s
Po
rc
en
ta
ge
m
 A
cu
m
ul
ad
a
Tipo de Defeito
Count
Percent 37,0 25,9 7,4 7,4 6,2 6,2 4,9 4,9
Cum %
30
37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0
21 6 6 5 5 4 4
Ou
tro
s
En
tal
he
s/f
en
da
s/g
oiv
as
Pa
rte
s s
al i
en
tes
Pa
rte
s n
ão
 lu
bri
fic
ad
as
Fo
ra
 de
 se
qü
ên
cia
Fa
lta
 de
 fu
ro
s/r
an
hu
ra
s
Pa
rte
s m
al 
ap
ar
ad
as
Fo
ra
 do
 co
nto
rn
o
90
80
70
60
50
40
30
20
10
0
100
80
60
40
20
0
445566
21
30
 
Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta. 
 
 
 Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de 
produção. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que vários 
tipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura de 
uma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitos 
que são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parte 
importante no programa de melhora da qualidade, porque permite que a gerência e a engenharia 
concentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificados 
esses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los ou 
eliminá-los. 
 
Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano Vilfredo 
Pareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%) 
pertence à minoria da população (20%). 
 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 25
7.2. Gráficos para as Variáveis Quantitativas 
 
Para variáveis Quantitativas podemos considerar uma variedade maior de representações 
gráficas. 
 
7.2.1. Gráfico em Barras 
 
O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao das 
variáveis qualitativas. 
Como ilustração, considere a variável “Número de Filhos” dos empregados casados da 
seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados. 
 
Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia 
MB, segundo o número de filhos. 
Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi) 
0 4 20 
1 5 25 
2 7 35 
3 3 15 
4 0 0 
5 1 5 
Total n = 20 100 
Fonte: Bussab e Morettin (2002) 
 
 
Figura 7.5: Gráfico de Barras para a variável Números de Filhos 
 
 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 26
7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot) 
 
Quando os dados consistem em um pequeno conjunto de números, estes podem ser 
representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e 
grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também 
conhecido como gráfico de pontos. 
 
Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento, 
viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10. 
 
 
 
 
 
Figura 7.6: Gráfico de Dispersão – Dot Plot 
 
7.2.3. Histograma 
 
O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de 
barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo 
proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai. 
Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a 
di = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos 
em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma 
será 1 (um). 
 
Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia 
MB, temos os seguintes dados: 
 
Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da 
Companhia MB, por faixas de salário 
Classe de 
Salário 
Freqüência 
(ni) 
Proporção 
(fi) 
Porcentagem 
(100 x fi) 
Densidade de Freqüência 
(di = fi/ai) 
04 |-- 08 10 0,2778 27,78 0,0695 
08 |-- 12 12 0,3333 33,33 0,0833 
12 |-- 16 8 0,2222 22,22 0,0556 
16 |-- 20 5 0,1389 13,89 0,0347 
20 |-- 24 1 0,0278 2,78 0,0070 
Total n = 36 1,0000 100,00 
 
1098765432
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 27
0,0695
0,0833
0,0556
0,0347
0,007
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
D
en
sid
ad
e 
de
 F
re
qü
ên
ci
a
04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24
Classes de Salários
 
Figura 7.7: Histograma da variável Salário 
 
7.2.4. Gráfico em Linhas (ou Gráfico Temporal) 
 
É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos 
iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries 
temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo. 
 
Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares. 
Ano Dívida Ano Dívida Ano Dívida 
1956 2736 1973 14857 1990 123439 
1957 2491 1974 20032 1991 123910 
1958 2870 1975 25115 1992 135949 
1959 3160 1976 32145 1993 145726 
1960 3738 1977 37951 1994 148295 
1961 3291 1978 52187 1995 159256 
19623533 1979 55803 1996 179935 
1963 3612 1980 64259 1997 199998 
1964 3294 1981 73963 1998 241644 
1965 3823 1982 85487 1999 241468 
1966 3771 1983 93745 2000 236156 
1967 3440 1984 102127 2001 226067 
1968 4092 1985 105171 2002 227689 
1969 4635 1986 111203 2003 235414 
1970 6240 1987 121188 2004 220182 
1971 8284 1988 113511 2005 187987 
1972 11464 1989 115506 2006 191999 
Fonte: IPEADATA 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 28
0
50000
100000
150000
200000
250000
19
56
19
58
19
60
19
62
19
64
19
66
19
68
19
70
19
72
19
74
19
76
19
78
19
80
19
82
19
84
19
86
19
88
19
90
19
92
19
94
19
96
19
98
20
00
20
02
20
04
20
06
Ano
D
ív
id
a 
em
 M
ilh
õe
s d
e 
D
ól
ar
es
 
Figura 7.8: Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006 
 
7.2.5. Ramo-e-Folhas 
 
 Suponha que os dados sejam representados por x1, x2, ..., xn, e que cada número xi consista 
em, pelo menos, dois dígitos. Para construir um diagrama ramo-e-folhas dividimos cada número xi 
em duas partes: um ramo, que consiste em um ou mais dos dígitos líderes, e uma folha, que 
consiste nos dígitos restantes. Por exemplo, se os dados representam porcentagens de defeitos 
(valores entre 0 e 100), em lotes de placas de semicondutores, então poderíamos dividir o valor 76 
no ramo 7 e na folha 6. Em geral, devemos escolher poucos ramos em comparação com o número 
de observações. Usualmente, é utilizado entre 5 e 20 ramos. Uma vez escolhido um conjunto de 
ramos, eles são listados ao longo da margem esquerda do diagrama e, ao lado de cada ramo, são 
listadas todas as folhas que correspondem aos valores dos dados observados. 
 
Tabela 7.5: Força de ruptura em libras por polegada para 100 garrafas 
descartáveis de 1 litro de refrigerante. 
176 221 242 253 261 265 271 278 286 301 
187 223 243 254 262 265 272 278 287 307 
197 228 245 254 263 267 274 280 290 308 
200 231 246 257 263 267 274 280 293 317 
205 231 248 258 264 268 274 280 294 318 
208 234 248 258 264 268 274 280 296 321 
210 235 250 260 265 269 275 281 298 328 
214 235 250 260 265 269 276 281 299 334 
215 235 250 260 265 270 276 283 299 337 
220 242 251 260 265 271 277 283 300 346 
Fonte: Hines et al. (2006), p. 157. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 29
 1 17 6 
 2 18 7 
 3 19 7 
 6 20 058 
 9 21 045 
 13 22 0138 
 19 23 114555 
 26 24 2235688 
 36 25 0001344788 
(22) 26 0000123344555555778899 
 42 27 01124444566788 
 28 28 0000113367 
 18 29 0346899 
 11 30 0178 
 7 31 78 
 5 32 18 
 3 33 47 
 1 34 6 
Figura 7.9: Diagrama ramo-e-folhas para os dados da força de ruptura de garrafas da Tabela 7.5. 
 
O ramo-e-folhas resultante está representado na Figura 7.9. A inspeção dessa representação 
revela imediatamente que a maioria das forças de ruptura fica entre 220 e 308 psi, e que o valor 
central está em algum ponto entre 260 e 270 psi. Além disso, as forças de ruptura estão distribuídas 
de maneira aproximadamente simétrica em torno do valor central. Assim, o ramo-e-folhas, como o 
histograma, nos permite determinar rapidamente algumas características importantes dos dados que 
não eram tão imediatamente óbvias na apresentação original da Tabela 7.5. Note que, aqui, os 
números originais não se perdem, como ocorre em um histograma. Através do ramo-e-folhas 
podemos calcular qualquer medida de posição e dispersão. 
 
7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) 
 
 Representa os dados utilizando os três quartis (Q1, Q2 ou mediana e Q3), o mínimo e o 
máximo em uma caixa retangular, alinhada verticalmente. A caixa inclui o intervalo-interquartil 
para o cálculo das linhas extremas. 
 * (Outlier ou Ponto Discrepante ou Ponto Aberrante) 
 
 
 
 
 
 
 
 
 
 
 
Figura 7.10: Desenho esquemático geral. 
“M áxim o”
Q 3
M ediana
Q 1
“M ínim o”
25%
50%
75%
Q 3+1,5(Q 3-Q 1)
Q 1-1,5(Q 3-Q 1)
“M áxim o”
Q 3
M ediana
Q 1
“M ínim o”
25%
50%
75%
“M áxim o”
Q 3
M ediana
Q 1
“M ínim o”
25%
50%
75%
Q 3+1,5(Q 3-Q 1)
Q 1-1,5(Q 3-Q 1)
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 30
 O diagrama de caixas ou desenho esquemático ou box-plot é útil na comparação de duas ou 
mais amostras. Para ilustrar considere os dados da Tabela 7.6, retirados de Hines et al (2006), que 
representam leituras de viscosidade em três misturas diferentes de uma matéria-prima usada em 
uma linha de produção. Um dos objetivos do estudo que Hines et al discutem é comparar as três 
misturas. 
 
Tabela 7.6: Medidas de viscosidade para três misturas 
Mistura 1 Mistura 2 Mistura 3 
22,02 21,49 20,33 
23,5 22,56 20,49 
23,83 22,67 21,67 
25,38 22,78 21,95 
25,49 24,18 22,28 
25,9 24,46 22,45 
26,67 24,62 27,00 
 
 A Figura 7.11 a seguir apresenta os box-plot para os dados da viscosidade. Essa 
apresentação permite uma interpretação fácil dos dados. A mistura 1 tem viscosidade mais alta do 
que a mistura 2, e esta tem viscosidade mais alta que a mistura 3. A distribuição da viscosidade não 
é simétrica, porque as linhas superior e inferior e os comprimentos das caixas superior e inferior 
em torno da linha mediana não são iguais. O valor da viscosidade máxima da mistura 3 parece alta, 
em comparação com os demais valores da mistura 3 e, também, é maior que os valores das demais 
misturas 1 e 2. Essa observação é um outlier, e ela exige exame e análise mais aprofundados. 
 
V
is
co
si
da
de
 (c
en
tip
oi
se
)
Mistura 3Mistura 2Mistura 1
27
26
25
24
23
22
21
20
26,67
25,9
25,38
23,5
22,02
24,62
24,46
22,78
22,56
21,49
27
22,45
21,95
20,49
20,33
 
Figura 7.11: Diagramas de caixas para os dados de viscosidade da mistura na Tabela 7.6. 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 31
7.3. Exercícios – Parte I – A1 
 
1) Faça o gráfico de barras, o de composição em setores e o de Pareto para os dados fornecidos na 
Tabela 7.7. 
Tabela 7.7: Defeitos em elementos estruturais da porta 
Tipo de Defeito Frequência Absoluta 
Partes Salientes 5 
Fora do Contorno 30 
Partes mal aparadas 25 
Total 60 
 
2) Observe a sua conta de luz de 2007 e construa um gráfico temporal e um gráfico de barras, 
colocando no eixo x, os meses (janeiro, ..., dezembro) e no eixo y, consumo de energia (em kWh). 
 
3) Desenhe o ramo-e-folhas, box-plot e o dot plot para os dados das taxas médias geométricas de 
incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil abaixo: 
 
 
 
 
 
 
4) Construa uma tabela de classes de freqüências para os dados do exercício 3, com intervalos de 
amplitude 1, de 0 a 10, isto é: 
 
Taxas Freqüência Absoluta Proporção Densidade 
[0, 1) 
[1, 2) 
[2, 3) 
[3, 4) 
[4, 5) 
[5, 6) 
[6, 7) 
[7, 8) 
[8, 9) 
[9, 10] 
 
em seguida, faça o histograma. 
 
3,67 1,82 3,73 4,10 4,30 
1,28 8,14 2,43 4,17 5,36 
3,96 6,54 5,84 7,35 3,63 
2,93 2,82 8,45 5,28 5,41 
7,77 4,65 1,88 2,12 4,26 
2,78 5,54 0,90 5,09 4,07 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 32
8. CORRELAÇÃO E REGRESSÃO 
 
8.1. Estudo da relação entre variáveis 
 
O objetivo é investigar a presença ou ausência de relação linear sob três pontos de vista: 
 
(a) Inspeção visual: diagrama de dispersão 
(b) Quantificando a força dessa relação: coeficiente de correlação. 
(c) Explicitando a forma dessa relação: ajuste de uma reta. 
 
Exemplos: 1) Idade e altura das crianças; 
2) Tempo de prática de esportes e ritmo cardíaco; 
3) Tempo de estudo e nota na prova; 
4) Taxade desemprego e taxa de criminalidade; 
5) Expectativa de vida e taxa de analfabetismo. 
 
8.2. Diagrama de Dispersão 
 
Utilizado para estudar a relação entre duas variáveis quantitativas, fornecendo uma 
representação gráfica das duas variáveis. 
 
Exemplo: Nota na Prova e Tempo de Estudo 
 
X: tempo de estudo (em horas) 
Y: nota obtida na prova 
 
Tabela 8.1: Pares de observações (Xi, Yi) 
Tempo Nota 
3,0 4,5 
7,0 6,5 
2,0 3,7 
1,5 4,0 
12,0 9,3 
 
Construção do Gráfico de Dispersão 
 
No Excel podemos fazer: 
Coluna A: Valores de X (Tempo) 
Coluna B: Valores de Y (Notas) 
 
Selecione as duas colunas e clique no ícone “Assistente de Gráfico”. Selecione o gráfico de 
“Dispersão (XY)”. 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 33
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12 14
Tempo
N
ot
a
 
Figura 8.1: Diagrama de Dispersão para as variáveis Tempo e Nota 
 
 
 
Exemplo: Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com 
Assistência Médica. 
Numa pesquisa feita com 11 famílias com renda bruta mensal entre 10 e 60 salários 
mínimos mediram-se: 
 
X: renda bruta mensal (em salários mínimos) 
Y: porcentagem da renda bruta anual gasta com assistência médica 
 
 
Tabela 8.2 
X Y X Y 
12 7,2 40 6,0 
16 7,4 48 5,6 
18 7,0 50 6,0 
20 6,5 54 5,5 
28 6,6 32 6,5 
30 6,7 
 
 
 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 34
0
1
2
3
4
5
6
7
8
0 10 20 30 40 50 60
Renda Bruta Mensal (em sal. mínimos) 
Po
rc
en
ta
ge
m
 d
a 
R
en
da
 B
ru
ta
 A
nu
al
 g
as
ta
 c
om
 A
ss
ist
. M
éd
ic
a
 
Figura 8.2: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da 
Renda Bruta Anual gasta com Assistência Médica. 
 
Nesta Figura 8.2, temos o diagrama de dispersão de X (Renda Bruta Mensal) e Y 
(Porcentagem da Renda Bruta Anual gasta com Assist. Médica). Podemos notar que, conforme 
aumenta a renda bruta mensal, a porcentagem da renda bruta anual gasta com assistência médica 
diminui. Nota-se também uma tendência linear decrescente. 
Fazendo apenas uma mudança na escala do eixo Y da Figura 8.2, obtemos a Figura 8.3, que 
ilustra com maior clareza essa tendência linear decrescente. 
 
5
5,5
6
6,5
7
7,5
0 10 20 30 40 50 60
Renda Bruta Mensal (em sal. mínimos) 
Po
rc
en
ta
ge
m
 d
a 
R
en
da
 B
ru
ta
 A
nu
al
 g
as
ta
 c
om
 A
ss
is
t. 
M
éd
ic
a
 
Figura 8.3: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da 
Renda Bruta Anual gasta com Assistência Médica. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 35
8.3. Coeficiente de Correlação 
 
O coeficiente de correlação linear é definido como: 
yx
n
i
ii
yx
n
i
ii
SSn
YXnYX
SSn
YYXX
r
)1()1(
))((
11
−
−
=−
−−
=
∑∑
== (9.1) 
onde X e Y são as médias amostrais das variáveis X e Y , respectivamente. 
xS e yS são os desvios padrão das variáveis X e Y , respectivamente 
Recordando: 
1
)(
1
2
−
−
=
∑
=
n
XX
S
n
i
i
x e 1
)(
1
2
−
−
=
∑
=
n
YY
S
n
i
i
y 
 
Propriedades do coeficiente de correlação linear 
 
O valor do coeficiente de correlação linear situa no intervalo [-1, 1], ou seja, 
11 ≤≤− r 
 
Classificação da correlação 
1. 1=r indica correlação linear positiva e perfeita; 
2. 1−=r indica correlação linear negativa e perfeita; 
3. 0=r indica inexistência de correlação linear; 
4. 01 ≤≤− r indica correlação linear negativa; 
5. 10 ≤≤ r indica correlação linear positiva. 
 
Gráficos - Exemplos da classificação da correlação 
 
1=r , correlação linear positiva e perfeita 1−=r , correlação linear negativa e perfeita 
 
 
 
 
 
 
 
0≅r , inexistência de correlação linear 
 
 
 
 
 
 
5040302010
40
30
20
10
Y
5040302010
40
30
20
10
Y
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 36
-1 ≤ r ≤ 0, correlação linear negativa 0 ≤ r ≤ 1, correlação linear positiva. 
 
 
 
 
 
 
 
 
 
 
O valor do coeficiente de correlação não depende da escala que medimos as variáveis. Para 
as duas figuras abaixo o valor do coeficiente de correlação é 46,0=r . 
 
 
 
 
 
 
 
 
O coeficiente de correlação linear mede apenas o grau de associação LINEAR. 
 
 
 
 
 
 
 
01,0≅r 
 
O coeficiente de correlação linear é sensível a valores discrepantes. 
 
 
 
 
 
 
 
 
 
 
 
X
Y
X
Z=Y/10+0,8
X
Y
r = 0 r = 0.91
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 37
Exemplo: Considere o Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual 
gasta com Assistência Médica. Obter o coeficiente de correlação com os dados da Tabela 8.2. 
Medidas Descritivas com os dados da Tabela 8.2 
Média X 31,63636 
Média Y 6,454545 
Desvio de X 14,63744 
Desvio de Y 0,62348 
n 11 
Soma XY 2160,4 
 
-0,9399564
62348,0.63744,14.10
454545,6.636363,31.114,2160
SS)1n(
YXnYX
r
yx
n
1i
ii =−=−
∑ −
= = 
 Podemos observar uma correlação negativa entre a renda bruta mensal e a 
porcentagem da renda bruta anual gasta com assistência médica, isto é quanto maior for a renda 
bruta mensal, menor é a porcentagem de sua renda gasta com assistência médica. 
 
8.4. Regressão Linear Simples 
 
Objetivo: ajustar uma reta entre duas variáveis quantitativas. 
 
Reta Ajustada 
A reta ajustada de duas variáveis quantitativas Y e X é dado por 
 
bXaY +=) 
 
Definição de a e b 
 
a: intercepto; 
b: inclinação da reta. 
 
Interpretação de b: Para cada aumento de uma unidade em X, temos um aumento médio de b 
unidades em Y. 
 
Podemos calcular a e b utilizando o método de mínimos quadrados, que visa encontrar os 
valores de a e b, que minimiza a soma dos quadrados dos erros (ou desvios) 
∑∑
==
+−==
n
i
ii
n
i
i bXaYebaSQ
1
2
1
2 )}({),( 
O problema agora se restringe a encontrar o mínimo de uma função de duas variáveis, a e b. 
Derivando e igualando a zero, observamos que as soluções de a e b devem satisfazer: 
XbYa −= 21 )1( x
n
i ii
Sn
YXnYX
b −
−= ∑ = 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 38
Reta Ajustada - Uso do Excel 
Coluna A: variável Y; 
Coluna B: variável X. 
Para pedir à reta que se ajusta aos dados devemos utilizar os seguintes comandos: 
=INTERCEPÇÃO(A1:An;B1:Bn): Mostrará o intercepto (a); 
=INCLINAÇÃO(A1:An;B1:Bn): Mostrará a inclinação (b). 
 
Exemplo: Consumo de cerveja e temperatura 
As variáveis foram observadas em nove localidades com as mesmas características 
demográficas e sócio-econômicas. 
Y: consumo de cerveja em um dia (em 100 litros) 
X: temperatura máxima (em ºC) 
Os dados amostrais estão dispostos na Tabela 8.3. 
 
Tabela 8.3 
Temperatura Consumo Temperatura Consumo 
16 290 36 370 
31 374 36 365 
38 393 22 320 
39 425 15 270 
37 406 
A correlação entre X e Y é: 
X = xS = Y = yS = ∑
=
n
i
iiYX
1
= 
A reta ajustada para este exemplo é: 
 
y = 5,2194x + 200,42
250
270
290
310
330
350
370
390
410
430
450
10 15 20 25 30 35 40 45
Temperatura Máxima
C
on
su
m
o 
de
 C
er
ve
ja
 
Figura 8.4: Diagrama de Dispersão para as variáveis Temperatura Máxima e Consumo de Cerveja, 
juntamente com a Reta de Regressão 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 39
(a) Qual a interpretação de b para o exemplo consumo de cerveja e temperatura? 
 
 
(b) Qual o consumo previsto para uma temperatura de 25ºC? 
 
8.5. Coeficiente de Determinação 
 
 A quantidader2 = (quadrado do coeficiente de correlação x 100%) chama-se coeficiente de 
determinação e é, em geral, usada para julgar-se a adequação de um modelo de regressão. 
Claramente, 0 ≤ r2 ≤ 100. Na prática, nos referimos a r2 de modo mais informal como a quantidade 
de variabilidade nos dados explicada pelo, ou devido ao, modelo de regressão. 
 
Exemplo: Considere o estudo da renda bruta mensal pela porcentagem da renda bruta anual gasta 
com assistência médica, onde o coeficiente de correlação deu aproximadamente -0,9399, com os 
dados da Tabela 8.2, logo, o coeficiente de determinação será r2 ≅ 88,35%, isto é, 88,35% da 
variabilidade nos dados é explicada pelo modelo de regressão y = 7,7212 – 0,04x. 
 
y = -0,04x + 7,7212
R2 = 0,8835
5
5,5
6
6,5
7
7,5
10 15 20 25 30 35 40 45 50 55 60
renda bruta mensal (em salários mínimos)
po
rc
en
ta
ge
m
 d
a 
re
nd
a 
br
ut
a 
an
ua
l g
as
ta
 c
om
 a
ss
is
tê
nc
ia
 m
éd
ic
a
 
 
 
 
 
 
 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 40
8.6. Exercícios – Parte I – A1 
 
1) Considere o exemplo das variáveis Nota na Prova e Tempo de Estudo 
 
X : tempo de estudo (em horas) 
Y : nota obtida na prova 
 
Tempo 3 7 2 1,5 12 
Nota 4,5 6,5 3,7 4 9,3 
 
(a) Faça o Gráfico de Dispersão. 
(b) Obtenha o Coeficiente de Correlação. 
(c) Calcule a Reta de Regressão e represente no Gráfico de Dispersão. 
(d) Obtenha o coeficiente de determinação. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 41
Lista de Exercícios 1 
 
1) Identifique a população e a amostra correspondente à: A fim de avaliar a intenção de voto para 
presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília. 
 
2) Classifique as seguintes variáveis: 
a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo); 
b) Bacias Hidrográficas (A:Amazônica, P:Platina, SF:São Francisco, N:do Nordeste, L:do Leste, 
S:do Sul); 
c) Número de sementes germinadas (0, 1, 2, 3, 4, 5); 
d) Renda; 
 
3) Selecione uma amostra de tamanho 10 dentre 80 funcionários, utilizando as técnicas de 
amostragem aleatória simples e sistemática. Depois, levando em conta que o sexo dos funcionários 
é importante na pesquisa, obtenha uma amostra de mesmo tamanho utilizando amostragem 
estratificada proporcional considerando que dos 80 funcionários, 30 são mulheres e 50 são homens. 
(Utilize a primeira linha da tabela de números aleatórios, quando for necessário) 
 
4) Uma certa cidade possui N = 200 zonas eleitorais. Uma empresa destinada a fazer uma pesquisa 
eleitoral vai selecionar aleatoriamente n = 15 zonas e entrevistar todos os elementos que estão 
dentro dessas zonas eleitorais, isto é, foi utilizada amostragem por conglomerado. Apresentem 
quais serão as 15 zonas eleitorais amostradas. (Utilize a primeira linha da tabela de números 
aleatórios, quando for necessário) 
 
5) Os dados a seguir referem-se aos conceitos obtidos de n = 60 alunos, na disciplina de Estatística 
na Escola E. 
Tabela 1: Dados Brutos 
R : Ruim M : Médio B: Bom O : Ótimo 
M R M M M R B B M M R B M M M M R B B R 
B M R M B M R M R M B M R M R M B M B M
B B B B O M M M M M B B B B B B B O B O 
a) Organize os dados abaixo em uma Tabela de Freqüências, com título, freqüências absoluta e 
relativa, porcentagens e interpretação. 
b) Faça os gráficos de barras,o de composição em setores e o de Pareto para os dados da Tabela 1. 
 
6) Os dados abaixo se referem ao comprimento de 31 canos PVC vendidos em uma loja de material 
de construção. 
Tabela 2: Dados Brutos (em m) 
19,5 20,0 14,1 16,1 10,0 16,0 22,0 20,5 15,0 16,7 22,0 
12,5 16,3 15,3 16,0 13,8 19,7 17,0 14,1 18,8 12,3 
15,5 14,7 20,3 17,4 19,5 17,9 18,2 16,9 19,3 16,9 
 
a) Obtenha as medidas de posição: mínimo, máximo, média, moda, mediana, Q1 e Q3. 
b) Obtenha as medidas de dispersão: amplitude, variância, desvio-padrão e intervalo-interquartil. 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 42
c) Organize os dados da Tabela 2 em uma Tabela de Classes de Freqüências, com título, 
freqüências absoluta e relativa, porcentagem e interpretação. Utilize uma amplitude de 2 para as 
classes. 
d) Faça o histograma utilizando os dados agrupados em (c), baseados na Tabela 2. 
e) Construa o dot-plot, box-plot e o ramo-e-folhas para os dados da Tabela 2. 
 
7) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a seguir: 
Tabela 3: Medidas da pulsação 
64 64 68 68 76 60 72 68 
80 60 72 88 60 88 60 
a) Calcule: Média, Mediana. Comente os resultados; 
b) Calcule: Mínimo, Q1, Q3 e Máximo. Interprete estas 4 estatísticas; 
c) Calcule: Variância e Desvio Padrão. Comente. 
d) Construa o gráfico de barras para os dados de pulsação dos índios. 
 
8) Um órgão do governo do estado está interessado em determinar padrões sobre o investimento 
em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram 
obtidos os valores (codificados) da tabela abaixo: 
Tabela 4: Valores codificados do investimento em educação 
Cidade A B C D E F G H I J 
Investimento 20 16 14 7 19 15 14 16 19 18 
a) Calcule a média e o desvio-padrão das observações; 
b) Receberão um programa especial às cidades com valores de investimento inferiores à média 
menos duas vezes o desvio padrão. Alguma cidade receberá o programa? 
c) Será considerado como investimento básico a média das observações compreendidas entre a 
média original menos dois desvios padrão e a média original mais dois desvios padrão. Calcule o 
investimento básico e compare com a média obtida no item a). Justifique a diferença encontrada. 
 
9) Três medicamentos para cicatrização estão sendo testados e um experimento é feito para estudar 
o tempo (em dias) do completo fechamento em cortes provenientes de cirurgia. Os resultados 
abaixo mostram o tempo de cicatrização em cobaias submetidas a um dos três tratamentos (A, B, 
C): 
Tabela 5: Tempo (em dias) do completo fechamento em 
cortes provenientes de cirurgia 
A 13 14 15 13 15 14 15 15 14 14 
B 14 12 13 13 14 14 13 14 
C 12 12 13 13 12 13 11 11 
Analise os dados descritivamente utilizando todas as medidas apresentadas em aula e comente. 
 
10) A seguir, temos informações do número de peixes-boi mortos e o número de barcos de turismo 
(em milhares) que circulam em seu habitat na Flórida-EUA. 
Tabela 6: Dados Brutos 
Barcos(X) 68 68 67 70 71 73 76 81 83 84 
Mortes(Y) 53 38 35 49 42 60 54 67 82 78 
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 43
a) Observe o diagrama de dispersão e comente sobre a relação linear dessas duas variáveis. 
b) Verifique se a correlação é significativa (através do coeficiente de correlação (r)). 
c) Obtenha a reta de regressão, considerando o número de peixes mortos a variável dependente e o 
número de barcos como a variável independente. 
d) Interprete o coeficiente de determinação (r2). 
 
11) É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa 
relação uma nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em 
cada uma delas a idade (X) e a massa muscular (Y). 
Tabela 7: Dados Brutos 
X 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78 73 68 
Y 82 91 100 68 87 73 78 80 65 84 116 76 97 100 105 77 73 78 
a) Faça o diagrama de dispersão dos dados. 
b) Calcule o coeficiente de correlação linear entre X e Y e interprete-o. 
c) Ajuste uma reta de regressão para mostrar a relação linear entre as variáveis Y: massa muscular 
(dependente) e X: idade (independente) e interprete os coeficientes. 
 
Alguns resultados: n = 18; 1108
18
1
=∑
=i
iX ; 70362
18
1
2 =∑
=i
iX ; 1530
18
1
=∑
=i
iY ; 133300
18
1
2 =∑
=i
iY e 
91964
18
1
=∑
=
i
i
iYX . 
 
Observação: O gabarito da Lista de Exercícios

Outros materiais