Apostila_EBB

Probabilidade e Estatística

•
UTFPR

WELTON ANTUNES RODRIGUES
09/03/2020
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 179 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 179 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 179 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Probabilidade e Estatística

29.458 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Notas de aula
PROBABILIDADE E ESTATÍSTICA
Eng. Bioprocessos e Biotecnologia
Daniela Trentin Nava e
Regiane Slongo Fagundes 1 2
2 de Março de 2020
1Professoras da UTFPR - Câmpus Toledo.
2Esta apostila é o resultado de compilações encontradas em diversos materiais pesquisados e que
constam na bibliografia.
Conteúdo
1 Conceitos iniciais 4
1.1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 O que é ESTATÍSTICA???? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Pesquisas, dados, variabilidade e estat́ıstica . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Pesquisa Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Finalidade da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Tipos de Pesquisas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Estat́ıstica descritiva e inferência estat́ıstica . . . . . . . . . . . . . . . . . . . . . 10
1.6 População e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6.1 Terminologia Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Classificação das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.1 Variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.2 Variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7.3 Natureza dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Amostragem 16
2.1 Amostragem probabiĺıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Amostragem casual simples . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.3 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.4 Amostragem por meio de conglomerados . . . . . . . . . . . . . . . . . . . 21
2.2 Amostragem não-probabiĺıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Amostragem a Esmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2 Amostragem intencional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3 Amostragem por cota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Estat́ıstica Descritiva 28
3.1 Organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.1 Tabelas de distribuições de frequências . . . . . . . . . . . . . . . . . . . . 29
3.1.2 Tabela de distribuição de frequências bidimensional . . . . . . . . . . . . . 33
3.2 Apresentações gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Medidas descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . 38
1
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
3.3.2 Medidas de dispersão ou Medidas de Variabilidade . . . . . . . . . . . . . . 47
3.3.3 Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4 Elementos de Probabilidade 60
4.1 Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2 Experimento aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 Espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4 Evento Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5 Definição axiomática de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . 64
4.6 Probabilidade condicional e independência . . . . . . . . . . . . . . . . . . . . . . 66
4.7 Teorema da probabilidade total . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.8 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.9 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5 Distribuições de Probabilidade 76
5.1 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.1 Variáveis aleatórias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.2 Variáveis aleatórias cont́ınuas . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2 Distribuições teóricas de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2.1 Principais distribuições teóricas discretas de probabilidades . . . . . . . . . 85
5.2.2 Principais distribuições teóricas cont́ınuas de probabilidades . . . . . . . . 94
5.3 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6 Tamanho amostral 116
6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.2 Dimensionamento de uma amostra . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.2.1 Variável intervalar e população infinita . . . . . . . . . . . . . . . . . . . . 116
6.2.2 Variável intervalar e população finita . . . . . . . . . . . . . . . . . . . . . 117
6.2.3 Variável Nominal ou ordinal e população infinita . . . . . . . . . . . . . . . 117
6.2.4 Variável Nominal ou ordinal e população finita . . . . . . . . . . . . . . . . 118
7 Estimação 119
7.1 Estimador e Estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.2 Qualidades de um bom estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.3 Estimação por pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.3.1 Estimador da média populacional µ . . . . . . . . . . . . . . . . . . . . . . 120
7.3.2 Estimador da variância populacional σ2 . . . . . . . . . . . . . . . . . . . . 120
7.3.3 Estimador do desvio padrão populacional σ . . . . . . . . . . . . . . . . . 120
7.3.4 Estimador da proporção populacional P . . . . . . . . . . . . . . . . . . . 120
7.4 Estimação por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.4.1 I.C. para a média populacional µ . . . . . . . . . . . . . . . . . . . . . . . 121
7.4.2 I.C. para a variância populacional σ2 . . . . . . . . . . . . . . . . . . . . . 123
7.4.3 I.C. para o desvio padrão populacional σ . . . . . . . . . . . . . . . . . . 125
7.4.4 I.C. para a proporção populacional p . . . . . . . . . . . . . . . . . . . . . 125
2
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
7.5 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
8 Teste de hipóteses 129
8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.2 Passos para realizar um T.H. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.3 Teste para a média populacional µ . . . . . . . . . . . . . . . . . . . . . . . . . . 131
8.4 Teste para a diferença ente duas médias populacionais µ1 e µ2 . . . . . . . . . . . 132
8.5 Teste para a variância populacional σ2 . . . . . . . . . . . . . . . . . . . . . . . . 136
8.6 Teste para a igualdade de duas variâncias populacionais σ21 e σ
2
2 . . . . . . . . . . 137
8.7 Teste para a proporção populacional p . . . . . . . . . . . . . . . . . . . . . . . . 139
8.8 Teste para duas proporções populacionais . . . . . . . . . . . . . . . . . . . . . . . 139
8.9 Teste de normalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.10 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
9 ANAVA 147
9.1 Introdução .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2 Conceitos Básicos sobre Experimentação . . . . . . . . . . . . . . . . . . . . . . . 147
9.2.1 Tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2.2 Unidade experimental ou parcela . . . . . . . . . . . . . . . . . . . . . . . 148
9.2.3 Repetição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
9.2.4 Variável resposta ou variável dependente . . . . . . . . . . . . . . . . . . . 148
9.2.5 Delineamento experimental (Design) . . . . . . . . . . . . . . . . . . . . . 149
9.2.6 Modelo associado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
9.3 ANAVA - fator único . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
9.3.1 Testes de comparação de médias . . . . . . . . . . . . . . . . . . . . . . . . 151
9.4 ANAVA - fator duplo sem repetição . . . . . . . . . . . . . . . . . . . . . . . . . . 154
9.5 ANAVA - fator duplo com repetição . . . . . . . . . . . . . . . . . . . . . . . . . . 156
9.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10 Regressão linear simples 165
10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
10.2 Exemplo motivacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
10.3 Gráfico de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
10.4 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
10.5 O modelo probabiĺıstico de RLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
10.5.1 Estimação dos parâmetros β0 e β1 . . . . . . . . . . . . . . . . . . . . . . . 168
10.6 Verificação do ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
10.6.1 Coeficiente de explicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
10.6.2 Análise de variância do modelo . . . . . . . . . . . . . . . . . . . . . . . . 171
10.7 Funções linearizáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
10.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
11 Bibliografia 177
3
Caṕıtulo 1
Conceitos iniciais
1.1 INTRODUÇÃO
A Estat́ıstica é um processo que permite a análise e a interpretação de dados provenientes de
uma ou mais amostras, com o objetivo de inferir caracteŕısticas de populações. Sendo aplicável
a qualquer ramo do conhecimento onde se manipulam dados experimentais. Trabalha com a
coleta, apresentação, análise e uso de dados para a resolução de problemas, tomada de decisões,
desenvolvimento de estimativas e planejamento e desenvolvimento tanto de produtos quanto de
procedimentos.
A estat́ıstica é usada em vários sentidos. Pode referir-se não só a simples tabulação de
informações numéricas, como a relatórios de transações na bolsa de valores, como ao corpo de
técnicas utilizadas para processar ou analisar dados. A palavra Estat́ıstica é de origem grega
statistós que significa estabelecer ou verificar. Este ramo da ciência também pode ser definido
como a parte da matemática em que se investigam os processos de obtenção, organização e análise
de dados sobre determinada população ou amostra e os métodos de obtenção de conclusões, fazer
inferência, ilações ou predições com base nesses dados.
Historicamente, o crescimento e o desenvolvimento da estat́ıstica moderna podem ser relaci-
onados a três fenômenos isolados - a necessidade do governo de coletar dados sobre os cidadãos,
o desenvolvimento da teoria da probabilidade e o advento da informática.
Dados têm sido coletados através de toda a história. Nas civilizações Eǵıpcias, Grega e
Romana, dados primários eram coletados com propósito de taxações e finalidades militares. Na
4
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
idade Média, igrejas registraram dados e informações sobre nascimentos, mortes e casamentos.
Nos Estados Unidos, a Constituição de 1790 determinava a realização de censo a cada 10 anos.
Atualmente, informações numéricas são necessárias para cidadãos e organizações de qualquer
natureza, e de qualquer parte do globo.
Nas últimas décadas têm ocorrido um crescimento acentuado do uso das técnicas estat́ısticas,
uma vez que através delas é posśıvel estudar fenômenos e prever alguns resultados, e ainda é
posśıvel melhorar ı́ndices.
A essência de uma análise estatı́stica é tirar conclus~oes sobre uma populaç~ao,
ou universo, com base em uma amostra de observaç~oes.
1.2 O que é ESTATÍSTICA????
Segundo o Dicionário de Ĺıngua Portuguesa Aurélio:
1 Parte da matemática em que se investigam processos de obtenção, organização e análise
dedados sobre uma coleção de seres quaisquer, e métodos de tirar conclusões e fazer predições
com base nesses dados. 2 Conjunto de elementos numéricos relativos a um fato social.
Para muitas pessoas, a palavra estat́ıstica faz lembrar longas colunas de números, gráficos e di-
agramas que mostram de que forma o governo está gastando o dinheiro dos impostos. No passado,
esta palavra referia-se exclusivamente à informações numéricas de que os governos necessitavam
para planejar sua conduta. Os estat́ısticos eram pessoas que coletavam grandes quantidades de
informações numéricas. Alguns estat́ısticos ainda realizam este tipo de trabalho, mas existem
outros que auxiliam a conduzir e interpretar experimentos cient́ıficos e pesquisas profissionais.
As mudanças no significado da palavra estat́ıstica acompanharam as mudanças ocorridas no tipo
de trabalho realizado pelos estat́ısticos.
A palavra estat́ıstica pode ser utilizada para designar dados numéricos, como, por exemplo,
estat́ısticas esportivas ou estat́ısticas financeiras. Entretanto, a palavra pode também se referir
à estat́ıstica como uma disciplina própria da mesma forma que a matemática ou a economia.
Assim, conceituando temos que:
A estat́ıstica é o ramo da matemática interessado nos métodos cient́ıficos para coleta, orga-
nização, resumo, apresentação e análise de dados, bem como na obtenção de conclusões válidas
e na tomada de decisões razoáveis baseadas em tais análises.
Portanto, a estat́ıstica é uma ciência que se preocupa com o planejamento de uma pesquisa,
envolvendo desde a forma de coleta das observações obtidas em experimentos ou levantamentos,
até a maneira como será feita a organização, a descrição, o resumo dos dados e a avaliação e
afirmação sobre caracteŕısticas de interesse do pesquisador. Tudo isso corresponde às fases do
método estat́ıstico. As fases do método estat́ıstico são então:
1. Definição do Problema
Consiste na:
(a) formulação correta do problema;
(b) examinar outros levantamentos realizados no mesmo campo (revisão da literatura);
5
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
(c) saber exatamente o que se pretende pesquisar definindo o problema corretamente
(variáveis, população, hipóteses, etc.)
2. Planejamento
Determinar o procedimento necessário para resolver o problema:
(a) Como levantar informações;
(b) Tipos de levantamentos: por censo (completo) ou por amostragem (parcial);
(c) Cronograma, custos, etc.
3. Coleta ou levantamento dos dados
Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer. A coleta pode
ser:
(a) Direta - diretamente da fonte;
(b) Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria
pessoa (primários) ou se baseia no registro de terceiros (secundários).
4. Apuração dos dados ou sumarização
Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho
de coordenação e de tabulação.
5. Apresentação dos dados
É a fase em que são mostrados os resultados obtidosna coleta e na organização.
6. Análise e interpretação dos dados
É a fase mais importante e também a mais delicada. Obtêm-se conclusões que auxiliam o
pesquisador nas tomadas de decisões.
Observaç~ao: As análises estat́ısticas dependem da forma de como os dados são coletados, e
o planejamento estat́ıstico da pesquisa indica o esquema sob o qual os dados serão obtidos.
Portanto, o planejamento da pesquisa e a análise estat́ıstica dos dados estão intimamente ligados.
PLANEJAMENTO DA PESQUISA =⇒ ANÁLISE ESTATÍSTICA
Assim, o pesquisador deve possuir razoável conhecimento de estat́ıstica para desenvolver suas
pesquisas, ou então consultar um estat́ıstico para auxiliá-lo. Vale ressaltar que esta consulta deve
ser feita antes do ińıcio da pesquisa, ainda durante a fase de elaboração do projeto.
1.3 Pesquisas, dados, variabilidade e estat́ıstica
Normalmente a Estat́ıstica está associada a números, tabelas e números, mas a importância da
Estat́ıstica fica melhor representada por dois ingredientes comuns: dados e variabilidade.
Em geral, a busca por melhorias na qualidade de um processo produtivo implica a redução
da variabilidade. A variabilidade pode ser reduzida com investimentos em pessoal, máquinas
6
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
e tecnologia, mas muitas vezes ela pode ser acomodada com o conhecimento de relações entre
fatores do processo e caracteŕısticas funcionais do produto, o que envolve conhecimentos de
engenharia, pesquisas, dados e análises estat́ısticas.
Logo após a Revolução Industrial, métodos estat́ısticos foram incorporados nos processos
industriais para garantir a qualidade dos produtos. Amostras de itens produzidos eram avaliadas
sistematicamente para inferir se o processo estava sob controle. Mais recentemente, a avaliação
da qualidade passou a ser feita ao longo do processo produtivo como forma de corrigir eventuais
falhas no sistema assim que elas aparecessem. Isso levou a um aumento da qualidade do produto
final e redução de custos, pois se reduziriam drasticamente as perdas por defeitos.
Além do acompanhamento estat́ıstico da qualidade, as indústrias costumam fazer experimen-
tos estatisticamente planejados para encontrar a combinação dos ńıveis dos fatores do processo
que levem a melhor qualidade posśıvel. Na outra ponta, as empresas levantam dados de amostras
de consumidores para realizar pesquisas de marketing direcionadas ou para adequar os produ-
tos aos clientes. O planejamento dessas amostras e a análise dos dados necessitam de técnicas
estat́ısticas.
Muitas vezes, a relação entre estat́ıstica e engenharia é ainda mais estreita. Os próprios
métodos de engenharia costumam incorporar intrinsecamente procedimentos probabiĺısticos ou
estat́ısticos.
A Estat́ıstica pode ser dividida em 4 grandes grupos:
1. Amostragem: subconjuntos com as mesmas caracteŕısticas da população, usada em quase
tudo na Estat́ıstica;
2. Estat́ıstica Descritiva: descreve e organiza os dados através de tabelas, gráficos e números
ı́ndices;
3. Probabilidade: estudo de fenômenos aleatórios que ocorrem ao acaso (incerteza);
4. Inferência Estat́ıstica: ferramentas para tomadas de decisão acerca da população (Testes
de hipóteses, Intervalos de confiança, ANOVA).
1.4 Pesquisa Estat́ıstica
Pesquisa é um conjunto de atividades orientadas para a busca de um determinado conhecimento.
Para merecer qualificativo de cient́ıfica a pesquisa deve ser feita de modo sistematizada, utilizando
7
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
para isto métodos próprios e técnicas espećıfica. A pesquisa cient́ıfica se distingue de outras
modalidades quaisquer de pesquisa pelo método, pela técnica, por estar voltada para a realidade
emṕırica e pela forma de comunicar o conhecimento.
1.4.1 Finalidade da Pesquisa
Descobrir respostas para questões, mediante as aplicações de métodos cient́ıficos, e, tentar co-
nhecer e explicar fenômenos que ocorrem no mundo existente.
1.4.2 Tipos de Pesquisas
• Pesquisa bibliográfica: Pesquisa bibliográfica é aquela que se desenvolve tentando expli-
car um problema a partir das teorias publicadas em diversos tipos de fontes: livros, artigos,
manuais, enciclopédias, anais, meios eletrônicos, etc. A realização da pesquisa bibliográfica
é fundamental para que se conheça e analise as principais contribuições teóricas sobre um
determinado tema ou assunto. A pesquisa bibliográfica pode ser realizada com diferentes
fins:
– para ampliar o grau de conhecimentos em uma determinada área, capacitando o in-
vestigador a compreender ou delimitar melhor um problema de pesquisa;
– para dominar o conhecimento dispońıvel e utilizá-lo como base ou fundamentação na
construção de um modelo teórico explicativo de um problema, isto é, como instrumento
auxiliar para a construção e fundamentação de hipóteses;
– para descrever ou sistematizar o estado da arte, daquele momento, pertinente a um
determinado tema ou problema.
Ao analisar essas finalidades pode-se inferir que a pesquisa bibliográfica pode ser realizada
em ńıvel de pesquisa exploratória, quando apenas se quer ter maiores conhecimentos ou uma
certa familiaridade sobre um assunto; oferecer informações mais precisas ao investigador
no momento da construção de problemas ou questões de pesquisa e fundamentar na análise
e discussão de resultados de pesquisas emṕıricas
• Pesquisa documental: A pesquisa documental assemelha-se muito com a pesquisa bi-
bliográfica. Ambas adotam o mesmo procedimento na coleta de dados. A diferença está,
essencialmente, no tipo de fonte que cada uma utiliza. Enquanto a pesquisa documental
utiliza fontes primárias, a pesquisa bibliográfica utiliza fontes secundárias. O quadro abaixo
apresenta alguns tipos de documentos de fontes primárias e secundárias, este por sua vez,
diferenciar as principais fontes utilizadas pela pesquisa bibliográfica e documental.
• Pesquisa experimental: A pesquisa experimental está interessada em verificar a relação
de causalidade que se estabelece entre as variáveis, isto é, em saber se a variável X (inde-
pendente) determina a variável Y (dependente). Para isto, cria-se uma situação de controle
rigoroso neutralizando todas as influências alheias que Y pode sofrer.
• Estudo de caso e controle: Nos estudos de caso controle investiga-se os fatos após a sua
ocorrência, sem manipular a variável independente. Neste tipo de pesquisa o investigador
8
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
não pode, conforme o seu desejo, manipular a variável independente, mas sim localizar
grupos cujos indiv́ıduos sejam bastante semelhantes entre si, verificando as conseqüências
naturais que o acréscimo de uma variável possa produzir em um grupo e comparar com o
outro que se manteve em condições normais.
• Levantamento: As pesquisas do tipo levantamento procuram analisar, quantitativamente,
caracteŕısticas de determinada população. Caracterizam-se pela interrogação direta das
pessoas cujo comportamento se deseja conhecer. Basicamente, procede-se à solicitação
de informações a um grupo significativo de pessoas acerca do problema estudado para, em
seguida, mediante análise quantitativa, obterem-se as conclusões correspondentes aos dados
pesquisados.
Os levantamentos podem abranger o universo dos indiv́ıduos que compõem a população,
no caso, um censo, ou apenas uma amostra, um subconjunto da população. Os censos
geralmente são desenvolvidos por instituições governamentais em decorrência do grande
investimento financeiro, necessário para a sua realização.
As pesquisas por amostragem apresentam vantagens e limitações. Entre as vantagens estão
o conhecimento direto da realidade, economia, rapidez e quantificação dos dados. Entre as
limitações estão a possibilidade de não fidedignidade nas respostas, de pouca profundidade
no estudo da estrutura e dos processos sociais e delimitada apreensão do processo de
mudança. Os estudos por levantamentos, por serem de natureza descritiva/quantitativa,
pouco se aproximam de estudos explicativos, bem pelo contrário, podem estar muito mais
próximos de estudos exploratórios.
• Estudo de caso: Estudo de caso pode ser definido com um estudo exaustivo, profundo e
extenso de uma ou de poucas unidades, empiricamente verificáveis, de maneira que permita
seu conhecimento amplo e detalhado. Nas ciências, durante muito tempo, o estudo de
caso foi encarado como procedimento pouco rigoroso, que serviria apenas para estudos de
maneira exploratória. Hoje, porém, é encarado como o delineamento mais adequado para
a investigação de um fenômeno contemporâneo dentro de seu contexto real, onde os limites
entre o fenômeno e o contexto não são claramente percebidos.
O estudo de caso, como modalidade de pesquisa, pode ser utilizado tanto nas ciências
biomédicas como nas ciências sociais. Nas ciências biomédicas é utilizado para a inves-
tigação das peculiaridades que envolvem determinados casos cĺınicos e nas ciências soci-
9
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
ais para a investigação das particularidades que envolvem a formação de determinados
fenômenos sociais.
Por unidade-caso podemos entender uma pessoa, uma famı́lia, uma comunidade, uma em-
presa, um regime poĺıtico, uma doença, etc. Para a coleta de dados no estudo de casos
geralmente utilizam-se as técnicas da pesquisa qualitativa, sendo a entrevista a principal
delas.
• Estudo de campo: O estudo de campo é um tipo de pesquisa que procura o aprofun-
damento de uma realidade espećıfica. É basicamente realizado por meio da observação
direta das atividades do grupo estudado e de entrevistas com informantes que captam as
explicações e interpretações do que ocorre naquela realidade.
1.5 Estat́ıstica descritiva e inferência estat́ıstica
Os governos vêm, de longa data, utilizando recenceamentos como forma de contar indiv́ıduos
e propriedades, e o escopo de descrever, resumir e analisar dados de censos levou ao desenvol-
vimento de métodos que consistem o que se chama estat́ıstica descritiva, que compreende
o manejo dos dados para resumi-los ou descrevê-los, sem ir além, isto é, sem fazer nenhuma
inferência. Por exemplo, se os testes feitos em um laboratório mostraram que um determinado
metal atinge de 0 a 60 graus em
18, 7 19, 2 16, 2 12, 3 17, 5 13, 9
minutos, afirmamos que a metade deles atinge 60 graus em 16,3 minutos, esta é uma caracteŕıstica
da estat́ıstica descritiva.
Embora a estat́ıstica descritiva seja um ramo importante da estat́ıstica as informações es-
tat́ısticas quase sempre são obtidas de amostras, e isto significa que sua análise exige genera-
lizações que ultrapassam os dados. Assim, a inferência estat́ıstica têm sido muito utilizada, e
seus métodos têm apresentados resultados interessantes.
Logo, para se resolver um problema de probabilidade, supõe-se conhecer certas carac-
teŕısticas de uma população. Então, respondemos a questões relativas à amostra extráıda da-
10
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
quela população. Em um problema estat́ıstico, admitimos muito pouco sobre uma população.
Usamos a informação sobre uma amostra para respondermos a questões relativas à população.
Os métodos da inferência estat́ıstica permitem prever a duração média da vida útil de uma
calculadora manual, estimar o valor de consumo de água do ano de 2010, comparar eficiência
de dois programas de dieta, determinar a dosagem ideal para determinado medicamento, entre
várias coisas.
1.6 População e amostra
Define-se população como um conjunto de elementos que possuem caracteŕısticas similares.
Amostra pode ser definida como uma parte da população, um subconjunto, ou ainda um
fragmento ou exemplar representativo da população. Geralmente, é a partir deste subconjunto
da população que se estabelecem ou estimam as propriedades e caracteŕısticas dessa população.
Na maioria dos casos, os pesquisadores fazem uso de amostras com o objetivo de descrever e
fazer inferências na população.
1.6.1 Terminologia Estat́ıstica
• Unidade experimental, amostral ou de análise: É o objeto ou indiv́ıduo que será
estudado na população, e sobre os quais obtêm-se os dados.
11
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
• Dados: É o valor ou resposta que toma a variável em cada unidade experimental. É o
resultado de uma observação. É a matéria prima da estat́ıstica.
• Variável: É uma caracteŕıstica observável, suscept́ıvel de adotar distintos valores ou ser
expresso em várias categorias. Exemplos: Idades; Sexo; Série; Horas de estudo; Horas de
treino; etc...
• Informação: É o resultado dos dados processados (ou organizados) de acordo com certos
objetivos.
• Estat́ıstica: É qualquer função dos dados emṕıricos (baseado apenas na experiência, e
não no estudo) que é usada com fins descritivos ou anaĺıticos. É uma medida resumo dos
dados.
• Parâmetros: São as caracteŕısticas mais importantes da população. Comumente são
desconhecidos.
1.7 Classificação das variáveis
Os dados estat́ısticos constituem a matéria-prima das pesquisas estat́ısticas, e nada mais são do
que informações sobre fatos observados.
1.7.1 Variáveis qualitativas
São caracteŕısticas cujos dados não são numéricos, isto é, são apresentados como uma qualidade
ou atributo. Ex: Sexo, estado civil, ńıvel de escolaridade.
1. Nominal: Não existe nenhuma ordenação ou hierarquia nos posśıveis resultados. Ex:
sexo, estado civil, região de procedência.
2. Ordinal: Existe uma certa ordem ou hierarquia nos posśıveis resultados. Ex: Nı́vel de
escolaridade, ńıvel de satisfação.
12
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
1.7.2 Variáveis quantitativas
É uma caracteŕıstica em estudo cujos resultados se referem a quantidades, isto é, são medidas
numa escala numérica. Ex: idade, salário, número de filhos, etc.
1. Discretas: Cujos resultados se referem a dados que podem assumir valores inteiros (N).
Ex: idade, número de pessoas, número de filhos por famı́lia, etc.
2. Cont́ınuas: São dados que podem assumir qualquer valor de um conjunto de números
reais (R). Ex: peso, altura, consumo mensal de energia, etc.
Exemplo: Classifique cada uma das variáveis:
Variável tipo (natureza)
Condição de saúde (doente, não doente)
Tipo de parto (normal, cesáreo)
Nı́vel de colesterol sérico (mg/100cc)
Tempo de um procedimento cirúrgico (minutos)
Número de praias consideradas polúıdas
Custo de procedimento (reais)
Peso (g)
Estado nutricional (desnutrição, eutrofia, sobrepeso, obesidade
Consumo de energia (Kcal)
Realização do desjejum (sim/não)
Número de escolares por turma
Realização de atividade f́ısica diária (sim/não)
Tempo assistido de TV/dia (< 2h, 2 a 4h, > 4h)
Percentual de gordura corporal (%)
Estado civil
Tempo de processamento de um algoritmo
Número de sucessos em 20 rep. de um exper.
Nı́vel de escolaridade
Cor dos olhos
Classificação de peça (Def./não Def.)
Estado de uma lâmpada (ligada/desligada)
N. buracos em 100km de rodovia
1.7.3 Natureza dos dados
Principalmente em pesquisas sociais, o analista se defronta com situações em que dispõe de
muitos dados, e é dif́ıcil absorver as informações que procura investigar, e portanto é dif́ıcil
captar intuitivamente todas as informações que os dados contém.
É necessário reduzir as informações até o ponto que elas possam ser interpretadas com clareza,
isto é, resumi-las através de medidas-śınteses, comumente chamadas de estat́ısticas descritivas.
Assim, uma estat́ısitca descritiva é um número que descreve sozinho uma caracteŕıstica de um
conjunto de dados.
13
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
As pessoas normalmente se lembram da estat́ıstica quando se vêem diante de grandes quan-
tidades de informação.Na percepção do senso comum, o emprego de métodos estat́ısticos seria
algo semelhante à prática da mineração. Um estat́ıstico seria um tipo de minerador bem suce-
dido, capaz de explorar e processar montanhas de números e delas extrair valiosas conclusões.
Entretanto, a atividade estat́ıstica mais importante não é a análise de dados, e sim o planeja-
mento dos experimentos em que os dados devem ser obtidos. Quando isso não for feito da forma
apropriada, o resultado muitas vezes é uma montanha de números estéreis, da qual estat́ıstico
algum conseguiria quaisquer conclusões.
Para tal, devemos projetar o planejamento de forma que ele seja capaz de fornecer exatamente
o tipo de informação que procuramos. Quando se pretende fazer um estudo estat́ıstico completo,
existem várias faces do trabalho que devem ser observadas:
1. definição do problema: definição ou formulação correta do problema a ser estudado;
2. planejamento: determinação do procedimento necessário para resolver o problema, espe-
cialmente em como levantar informações sobre o objeto de estudo;
3. coleta de dados: obtenção, reunião e registro sistemático de dados;
4. operação dos dados: sumarização, consiste em resumir os dados através de sua contagem
e agrupamento;
5. apresentação dos dados: pode ser em forma de tabelas ou gráficos;
6. análise e interpretação dos dados: mais importante e mais delicada fase, consiste em
tirar conclusões que auxiliem o pesquisador a resolver seu problema e propor medidas que
solucionem o mesmo.
1.8 Exerćıcios
1. Há alguma evidencia que sugere que as pessoas com hepatite C crônica tem um ńıvel de
enzima do f́ıgado que flutua do normal ao anormal. Cinquenta pacientes diagnosticados com
hepatite C foram selecionados e sues ńıveis de enzima do f́ıgado registrados diariamente,
durante um mês. Descreva a população, a amostra e a variável resposta.
14
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
2. Realizou-se um estudo para determinar se a exaustão esta relacionada a ńıveis de cortisol.
Setenta e oito indiv́ıduos foram selecionados e seus ńıveis de cortisol foram medidos 30
minutos após acordarem. Descreva a população, a amostra e a variável resposta neste
problema.
15
Caṕıtulo 2
Amostragem
Em quase todos os casos de estudos estat́ısticos, uma estimativa está associada a uma pesquisa
ou a uma verificação de caracteŕısticas, que devido a custos acesśıveis com resultados satisfatórios,
não é realizada sobre todos os elementos da população, mas sim sobre uma parte dela, chamada de
amostra. Assim, um dos objetivos da estat́ıstica é tirar conclusões sobre o “todo” (população) a
partir das informações fornecidas por “parte representativa” do todo (amostra). Assim, realizadas
as fases de descrição dos dados. (estat́ıstica descritiva), é feita uma análise dos resultados, obtidos
através dos métodos da Estat́ıstica Inferencial ou Indutiva, que tem por base a indução, inferência
de dados com indução da precisão, obtida por meio da teoria da probabilidade.
A Estat́ıstica lida não somente com a organização e análise de dados depois de sua coleta,
como também com o desenvolvimento de técnicas de coleta (Amostragem).
Não basta saber descrever os dados convenientemente e dominar as técnicas estat́ısticas as-
sociadas para tal. Antes de tudo, é preciso garantir que a amostra ou amostras que serão usadas
sejam obtidas de maneira adequada, para evitar que erros grosseiros aconteçam e leve a perder
os resultados.
É de suma importância que os dados sejam de uma amostra representativa da população, ou
seja, a amostra deve manter as caracteŕısticas principais da população. Para tal, assumiremos
que a população seja finita e composta de N elementos, salvo quando explicitamos o contrário.
O número de elementos que serão amostrados será representado por n.
16
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Os problemas de amostragem podem ser de dif́ıcil entendimento dependendo do que se deseja
estudar em uma população. Por exemplo, em pesquisas de opinião há uma grande complexidade
de coleta de dados, e, em tais casos é necessário maiores cuidados.
Distinguem-se dois tipos de amostragem: (1) Amostragem probabiĺıstica: quando todos os ele-
mentos da população tem probabilidades conhecidas, e diferente de zero, de pertencer à amostra.
(2) Em caso contrário, a amostragem é dita ser não-probabiĺıstica.
Vantagens de um levantamento por amostragem
1. Menor custo;
2. Menor tempo;
3. Maior amplitude do universo;
4. Menor erro da medida.
2.1 Amostragem probabiĺıstica
Desta maneira, a amostragem probabiĺıstica implica um sorteio com regras bem determinadas,
cuja realização só é posśıvel se a população é finita e totalmente acesśıvel.
A amostragem probabiĺıstica é a melhor recomendação que se deve fazer no sentido de garantir
a representatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias
entre população e amostra.
Além disso, as amostragens probabiĺısticas são particularmente importantes nos processos de
inferência, pois os métodos estat́ısticos são constrúıdos sob suas propriedades. Descreveremos a
seguir alguns tipos de amostragens probabiĺısticas.
2.1.1 Amostragem casual simples
Também conhecida como simples ao acaso, aleatória, casual, simples, elementar, randômica, é
equivalente a um sorteio lotérico. Nela, todos os elementos da população têm igual probabilidade
de pertencer à amostra.
17
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Sendo N o número de elementos da população e n o número de elementos da amostra, cada
elemento da população tem probabilidade n
N
de pertencer à amostra (considernado-se amostras
sem reposição).
É a técnica amostral mais utilizada em pesquisas. Na prática, enumera-se os elementos da
população de 1 a N , e sorteia-se, a seguir, por meio de um dispositivo aleatório qualquer, n
números da sequência, estes números comporão a amostra.
A seleção de uma amostra aleatória simples pode ser facilitada com o uso de números
aleatórios, ou seja, números resultantes de sucessivos sorteios aleatórios do conjunto {1, 2, 3, · · · , 9}
fazendo com que todo número com mesma quantidade de algarismos tenha a mesma probabili-
dade de ocorrência.
Exemplo 1: Obtenha uma amostra casual simples de tamanho n = 6 da sua turma de Probabi-
lidade e Estat́ıstica, em que N = , usando um dispositivo de sorteio aleatório.
Exemplo 2: Queremos realizar uma pesquisa de opinião sobre a qualidade de um curso uni-
versitário, que tem cerca de 1000 alunos, perguntando aspectos relativos ao encadeamento das
disciplinas no curŕıculo. Decidimos utilizar amostragem aleatória simples para selecionar os
respondentes. Este método de amostragem é o mais apropriado?
Exemplo do BioEstat: Para determinar a estatura média de uma população de 350 alunos da
segunda série do Ensino Fundamental, tomou-se amostra aleatória de 40 estudantes, precedida
da listagem numérica de todos os discentes desse universo.
18
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
2.1.2 Amostragem sistemática
Quando os elementos da população se apresentam ordenados e a retirada dos elementos da
amostra é feita periodicamente, temos uma amostragem sistemática.
Assim:
1. calcula-se o intervalo de seleção, dado por r = N/n, desprezando as decimais
2. sorteia-se o primeiro elemento do conjunto, a1, que deverá ser menor ou igual a r;
3. completa-se a amostra, extraindo um elemento a cada r elementos. Assim, teremos a PA
de razão r, dada por:
(
a1, a1 + r, a1 + 2r, . . . , a1 + (n− 1)r).
Por exemplo, em uma linha de produção onde são produzidos 300 itens por dia, uma amostra
sistemática de tamanho 10, deve escolher elementos de cada 30 itens produzidos.
Ou ainda, seja N = 800 e n = 50, supondo a população ordenada, a amostra sistemática é
composta peloselementos de posição múltipla de 16 (800
50
= 16)!!!
A principal vantagem da amostragem sistemática está na grande facilidade de coleta, en-
tretanto existe um grande perigo: pois se existem ciclos de variação da variável de interesse, a
amostra sistemática conterá a caracteŕıstica do ciclo; especialmente se o peŕıdo coincidir com a
retirada do elemento.
Exemplo 1: Obtenha uma amostra sistemática de tamanho n = 6 da sua turma de Probabilidade
e Estat́ıstica, em que N = .
Exemplo 2: Suponhamos que desejamos estudar o estado de conservação da rodovia BR277
com 180 Km. Para tal, estudaremos uma amostra aleatória de 30 elementos. Quais elementos
poderão ser escolhidos?
19
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Exemplo 3: Uma operadora telefônica dispõe de uma lista ordenada alfabeticamente com todos
os seus assinantes e pretende saber a opinião de seus assinantes comerciais sobre seus serviços
na cidade de Florianópolis. Supondo que há 25037 assinantes comerciais, e a amostra precisa
ter no mı́nimo 800 elementos, mostre como seria organizada uma amostragem sistemática para
selecionar os respondentes.
Resposta: A operadora dispõe de uma lista ordenada alfabeticamente com todos os seus
assinantes, o intervalo de retirada será:
r = N/n = 25037/800 = 31, 2965.
Como o valor de r é fracionário algo precisa ser feito. Aumentar o tamanho da amostra não resol-
verá o problema, porque 25037 é um número primo. Como não podemos reduzir o tamanho de
amostra, devendo permanecer igual a 800, se excluirmos por sorteio 237 elementos da população,
e refizermos a lista teremos:
r = N/n = 24800/800 = 31.
A cada 31 assinantes um é retirado para fazer parte da amostra. Devemos sortear o ponto de
partida: um número de 1 a 31 (do 1o ao 31o assinante).
2.1.3 Amostragem Estratificada
Muitas vezes a população se divide em subpopulações ou estratos, com caracteŕısticas comuns
em cada estrato, e diferente de estrato para estrato. E pode ocorrer que os estratos não sejam
bem representados na amostra simples, por exemplo, pois os tamanhos dos estratos diferem.
Por exemplo, se para estudar a dureza de certo aço temos corpos de prova de dois fornecedores,
então a população dos corpos de prova pode ser dividida em dois estratos. Sob os diversos estratos
da população são realizadas seleções aleatórias de forma independente. A amostra completa é
obtida através da agregação das amostras de cada estrato.
• Amostragem estratificada proporcional: a proporcionalidade do tamanho de cada estrato da
população é mantida na amostra. Por exemplo, se um estrato abrange 20% da população,
ele também deve abranger 20% da amostra.
20
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
• Amostragem estratificada uniforme: selecionamos o mesmo número de elementos em cada
estrato. É o processo usual quando se deseja comparar os diversos estratos.
• Amostragem estratificada ótima: quando se toma em cada estrato um número de elemen-
tos proporcional ao número de elementos do estrato e também à variação da variável de
interesse no estrato, medida pelo seu desvio padrão.
Primeiramente a população N é dividida em L sub-populações (estratos) com N1, N2, · · · , NL
elementos. Para cada estrato, escolhe-se ni elementos aleatoriamente, com i = 1, · · · , L, totali-
zando n elementos.
ni =

todos iguais : ni =
n
L
,
proporcionais a Ni : ni = nWi, em que Wi =
Ni
N
,
tamanho ótimo (considera a variabilidade) : ni = n
Nisi∑
i=1 LNisi
.
Exemplo 1: Selecionar aleatoriamente 60 pessoas da população organizada da seguinte forma:
50 solteiros, 210 casados e 40 outras.
Exemplo 2: Considere uma população de tamanho 100, onde existem 4 estratos, com 50, 25, 10
e 15 elementos cada um.
(a) Extraia uma amostra estratificada proporcional de tamanho 10.
(b) Extraia uma amostra estratificada uniforme de tamanho 10.
Exemplo do BioEstat: A população de uma cidade de 600 habitantes foi dividida em dois
estratos: urbano e rural, com a finalidade de se estudar a incidência de malária em cada grupo
de seus residentes. O estrato urbano possui 400 habitantes e o rural, 200. O tamanho total da
amostra deve compreender 60 pessoas. Deve-se notar que o tamanho da amostra retirada de cada
subconjunto é proporcional ao tamanho de cada estrato em relação ao tamanho da população.
2.1.4 Amostragem por meio de conglomerados
Ao contrário da amostragem estratificada, a amostragem de conglomerados tende a produzir
uma amostra que gera resultados menos precisos, quando comparada com uma amostra aleatória
21
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
simples de mesmo tamanho. Contudo, seu custo financeiro tende a ser bem menor, especialmente
em amostragens de grandes populações.
Quando a população apresenta uma subdivisão por meio de pequenos grupos, chamados de
conglomerados, é posśıvel - e conveniente - fazer-se a amostragem por conglomerados, que consiste
em sortear um número suficiente de conglomerados, cujos elementos construirão a amostra.
Ou seja, as unidades de amostragem, sobre as quais é feito o sorteio, passam a ser os conglo-
merados, e não mais os elementos individuais da população.
Exemplo 1: Pesquisa Nacional por Amostra de Domićılios (PNAD) do IBGE. Coleta informações
demográficas e sócio-econômicas sobre a população brasileira. Utiliza amostragem por conglo-
merados.
Primeiro estágio: amostras de munićıpios (conglomerados) para cada uma das regiões
geográficas do Brasil;
Segundo estágio: setores censitários sorteados em cada munićıpio (conglomerado sorteado);
Terceiro estágio: domićılios sorteados em cada setor censitário.
Exemplo do BioEstat: Calcular o peso médio de estudantes da quinta série do ensino funda-
mental das escolas públicas de um munićıpio. O total de estabelecimentos de ensino é de 52
escolas (conglomerados do 1o estágio), cada uma com 10 turmas da quinta série (conglomerados
do 2o estágio), e cada turma apresentando 40 alunos matriculados (unidades simples, 3o estágio).
Foram selecionadas 5, 4 e 8 unidades dos estágios 1o, 2o e 3o, respectivamente, constituindo, ao
final, amostra de 160 discentes (5 x 4 x 8).
2.2 Amostragem não-probabiĺıstica
As amostras não-probabiĺısticas são também, muitas vezes, empregadas na estat́ıstica, por sim-
plicidade ou inacessibilidade de toda a população. Nestes casos, supõe-se um tamanho amostral
e usa-o para coletar as amostras.
A obtenção de uma amostra probabiĺıstica exige que se obtenha uma listagem com os elemen-
tos da população. Em suma, exige acesso a todos os elementos da população, que a população
22
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
acesśıvel seja igual à população alvo. Nem sempre é posśıvel obter tal listagem na prática, o
que teoricamente inviabilizaria a retirada de uma amostra aleatória. Então deve-se recorrer à
amostragem não probabiĺıstica.
Ao usar a amostragem não probabiĺıstica o pesquisador não sabe qual é a probabilidade de que
um elemento da população tem de pertencer à amostra. Portanto, os resultados da amostra não
podem ser estatisticamente generalizados para a população, porque não se pode estimar o erro
amostral. Se as caracteŕısticas da população acesśıvel forem semelhantes às da população alvo
os resultados podem ser equivalentes aos de uma amostragem probabiĺıstica, mas não podemos
garantir a sua confiabilidade.
Alguns dos usos habituais da amostragem não probabiĺıstica são os seguintes:
a) Como etapa preliminar em projetos de pesquisa;
b) em projetos de pesquisa qualitativa;
c) em casos onde a população de trabalho não pode ser enumerada.
2.2.1 Amostragem a Esmo
É a amostragem em que o amostrador, para simplificar o processo, procura ser aleatório sem,
no entanto realizar propriamente o sorteio usando algum dispositivo aleatório confiável. Por
exemplo, se desejarmos retirar uma amostra de 100 parafusos de uma caixacontendo 1000
evidentemente não faremos uma amostragem casual simples, pois seria extremamente trabalhosa,
mas procederemos a retirada simplesmente a esmo.
Os resultados da amostragem a esmo são em geral equivalentes aos de uma amostragem
probabiĺıstica se a população é homogênea e se não existe a possibilidade de o amostrador ser
inconscientemente influenciado por alguma caracteŕıstica dos elementos da população.
Exemplo 5: Imagine um lote de 10000 parafusos, do qual queremos tirar uma amostra de 100,
se fôssemos realizar uma amostragem aleatória simples o processo seria muito trabalhoso. Então
simplesmente retiramos os elementos a esmo. Este tipo de amostragem também pode ser utilizado
quando a população for formada por material cont́ınuo (gases, ĺıquidos, minérios), bastando
homogeneizar o material e proceder a retirada da amostra.
23
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
2.2.2 Amostragem intencional
É uma amostragem não probabiĺıstica e consiste em selecionar um subgrupo de população que,
com base nas informações dispońıveis, possa ser considerado representativo, de toda a população.
A principal vantagem da amostragem intencional esta nos baixos custos de sua seleção. A
amostragem intencional não é considerada um bom método, pois os dados podem ser facilmente
manipulados, direcionados aos interesses do pesquisador ou de quem encomendou a pesquisa.
Exemplo 6: Por exemplo, suponhamos que você quer saber a opinião de estudantes universitários
brasileiros sobre poĺıtica. Para realizar uma amostra probabiĺıstica, seria necessário ter acesso a
todos os estudantes universitários brasileiros, selecionar um grupo aleatório e realizar a pesquisa.
Já para realizar uma amostra por conveniência, podeŕıamos abordar três universidades próximas,
simplesmente porque representam o local onde a população da pesquisa “reside” e perguntar a
alguns estudantes do peŕıodo matutino que concordam em participar.
2.2.3 Amostragem por cota
Parece semelhante a uma amostragem estratificada proporcional, da qual se diferencia por não
empregar sorteio na seleção dos elementos. A população é dividida em vários subgrupos, na
realidade é comum dividir em um grande número para compensar a falta de aleatoriedade, e
seleciona-se uma cota de cada subgrupo, proporcional ao seu tamanho.
Na amostragem por cotas os elementos da amostra são escolhidos pelos entrevistadores (de
acordo com os critérios...), geralmente em pontos de grande movimento, o que sempre acarreta
certa subjetividade (e impede que qualquer um que não esteja passando pelo local no exato mo-
mento da pesquisa possa ser selecionado). Na prática muitas pesquisas são realizadas utilizando
amostragem por cotas.
Exemplo 7: Em uma pesquisa de opinião eleitoral podeŕıamos dividir a população de eleitores
por sexo, ńıvel de instrução, faixas de renda entre outros aspectos, e obter cotas proporcionais
ao tamanho dos grupos (que poderia ser obtido através das informações do IBGE).
Exemplo 8: Se definirmos segmentos por sexo numa população onde há 60% masculino e 40%
feminino e queremos uma amostra de n = 1000, podeŕıamos coletar 600 pessoas do sexo masculino
e 400 do sexo feminino.
2.3 Exerćıcios
1. Uma população de 1000 elementos foi dividida em 3 estratos, sendo um com 100 elementos
(E1), outro com 300 elementos (E2) e o último com 600 elementos (E3). Pretende-se retirar
uma amostra de 60 elementos para uma pesquisa, qual deve ser o tamanho da amostra em
cada estrato proporcionalmente?
2. Selecione 8 alunos da população listada abaixo, através de amostragem casual simples,
usando um dispositivo de sorteio aleatório, considere usar com reposição e sem reposição.
24
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Número Nome Notas Número Nome Notas
1 Alysson 5,8 19 Isabela 7,0
2 Amanda 7,3 20 Jessica 2,1
3 Anderson 2,1 21 Jhonatan 3,9
4 Angela 7,5 22 João 5,6
5 Arthur 8,2 23 José 7,8
6 Artur 4,3 24 Kaio 6,5
7 Camila 5,6 25 Leandro 4,6
8 Cayo 6,6 26 Let́ıcia 7,8
9 Cesar 5,4 27 Lucas 4,9
10 Cezar 7,8 28 Maicon 6,5
11 Daniel 9,5 29 Maresa 4,5
12 Fabio 3,2 30 Maria 6,7
13 Fagner 4,0 31 Mauŕıcio 5,5
14 Gabriela 3,7 32 Nathan 5,4
15 Glória 8,4 33 Ricardo 0,3
16 Gryele 6,5 34 Thais 1,3
17 Herily 3,4 35 Thayse 2,5
18 Igor 6,7 36 Valeria 5,8
3. Selecione uma amostra estratificada uniforme, de tamanho n = 6 do exerćıcio 1.
4. Identifique o tipo de amostragem utilizado.
(a) Ao escalar um júri um tribunal de justiça decidiu selecionar aleatoriamente 4 pessoas
brancas, 3 morenas, e 4 negras.
(b) Um cabo eleitoral escreve o nome de cada senador do Brasil, em cartões separados,
mistura e extráı 10 nomes.
(c) Um administrador hospitalar faz uma pesquisa com as pessoas que estão na fila de
espera para serem atendidas pelo sistema SUS, entrevistando uma a cada 10 pessoas
da fila.
(d) Ao escalar uma comissão para atuar em determinado projeto, uma empresa decidiu
selecionar aleatoriamente 4 pessoas brancas, 3 pardas e 4 negras.
(e) Uma professora escreve o nome de todos os seus alunos em pedaços de papel e coloca
em uma caixa. Depois de misturá-los, sorteia 10 nomes.
(f) Um administrador de uma sala de cinema faz uma pesquisa com as pessoas que estão
na fila de espera para comprar ingresso, entrevistando uma pessoa a cada 10 presentes
na fila.
(g) Deseja-se selecionar uma amostra de domićılios da cidade de São Paulo. As ruas estão
identificadas pelas letras de A a F. As casas de cada rua estão identificadas pelo nome
da rua, seguido por um número. Primeiro foram sorteadas duas ruas (B e F) e depois,
foram selecionados ao acaso 50% dos domićılios de cada rua
25
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
5. Um pesquisador pretende levantar dados sobre o número de moradores por domićılio,
usando a técnica de amostragem simples sistemática. Para isso, o pesquisador visitará
cada domićılio selecionado. Se nenhuma pessoa estiver presente na ocasião da visita, o
pesquisador exclúıra o domićılio da amostra. Esta última determinação introduz tendenci-
osidade. Por quê?
6. Com o objetivo de fazer testes de qualidade com determinados produtos de uma indústria
optou-se por realizar um levantamento por amostragem. A população é constitúıda por:
produto A: A1, A2, A3, A4, A5, A6, A7, A8, A9, A10
produto B: B1, B2, B3, B4, B5, B6, B7, B8, B9, B10
produto C: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10,
C11, C12, C13, C14, C15, C16, C17, C18, C19, C20,
C21, C22, C23, C24, C25, C26, C27, C28, C29, C30
Realizar uma amostragem aleatória estratificada proporcional por produto para obter uma
amostra global de tamanho 10.
7. Comente os seguintes planos de amostragens, apontando suas incoerências, quando for o
caso:
(a) Com a finalidade de estudar o perfil dos consumidores de um supermercado, observaram-
se os consumidores que compareceram ao supermercado no primeiro sábado do mês;
(b) Com a finalidade de estudar o perfil dos consumidores de um supermercado, fez-se a
coleta de dados durante um mês, tomando a cada dia um consumidor da fila de cada
caixa do supermercado, variando sistematicamente o horário da coleta dos dados;
(c) Para avaliar a qualidade dos itens que saem de uma linha de produção, observaram-se
todos os itens das 14 às 14:30min;
(d) Para avaliar a qualidade dos itens que saem de uma linha de produção, observou-se
um item a cada meia hora, durante todo o dia;
8. Um pesquisador obteve as seguintes observações. Classifique cada conjunto de dados re-
sultante como categórico ou numérico. Se o conjunto for numérico, determine se é discreto
ou cont́ınuo.
(a) O número de livros lidos por alunos do Ensino Médio durante um ano acadêmico.
(b) A posição da ponte móvel de Belmar, New Jersey, ao meio dia, em dias de julho.
Suponha que a ponte não esteja se movendo, e esteja ou aberta ou fechada ao tráfego
de barcos.
(c) O tempo (em minutos) necessário para um corte de cabelo.
(d) O númerode guardas de segurança em serviço em prédios de escritórios.
(e) Os tipos de doces recebidos em casa no dia de Halloween.
(f) A pressão do ar em bolas de futebol no ińıcio dos jogos colegiais.
(g) Os pesos de várias resmas de papel.
(h) O número de carros levados pelo guincho em uma rodovia, durante certos peŕıodos de
24 horas.
26
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
(i) O número de jogos ganhos pelo Brasil durante a Copa do mundo.
(j) Os diagnósticos de pacientes em um pronto atendimento de emergência.
(k) O número de degraus de escadas de incêndio em prédios de apartamentos.
(l) O número de folhas em árvores frut́ıferas.
(m) As razões pelas quais vários automóveis não passam na inspeção.
(n) Os pesos dos reboques de trator completamente carregados.
(o) As áreas de várias fazendas em Toledo.
(p) O plano de telefonia escolhido pelos clientes.
(q) O número de rotações por minuto de motores de carros.
(r) O estado em que várias famı́lias passaram as últimas férias.
(s) Os tempos necessários para compilação de programas de computador.
(t) O número de abelhas em colméias.
9. Para as questões a seguir imagine um experimento em que se dividam os elementos em dois
grupos: Um grupo experimental e um grupo de controle.
(a) Por que os grupos devem ser tão semelhante quanto posśıvel?
(b) As pessoas devem saber em que grupo estão?
(c) Qual é o melhor sistema de dividir os indiv́ıduos pelos dois grupos?
10. Diversas universidades e faculdades institúıram programa de instrução suplementar (IS),
em que o monitor se encontra regularmente com um grupo de estudantes matriculados em
um curso para promover discussões sobre o material desse curso e melhorar o domı́nio da
disciplina. Suponha que os estudantes de um grande curso de estat́ıstica são aleatoriamente
divididos em grupo de controle que não participará do IS e um grupo de tratamento que o
fará. No final do peŕıodo, é determinada a pontuação total de cada estudante do curso.
(a) As pontuações do grupo IS são uma amostra da população existente? Caso seja, qual
é? Caso contrário, qual é a população conceitual relevante?
(b) Qual você acha que é a vantagem de dividir aleatoriamente os estudantes em dois
grupos em vez de deixar que cada um escolha o grupo a qual participará?
(c) Por que os investigadores não colocaram todos os estudantes no grupo de tratamento?
27
Caṕıtulo 3
Estat́ıstica Descritiva
Com o advento da informática, o mundo encheu-se de dados. As empresas tem dados de suas
atividades, de seus funcionários, de seus clientes, etc. Mas para que estes dados sejam informa-
tivos, necessitamos organizá-los de forma adequada. Este é o papel da Estat́ıstica Descritiva.
A Estat́ıstica Descritiva é a fase na qual os dados de um experimento ou pesquisa, são orga-
nizados, resumidos, descritos, apresentados e interpretados. Esta fase é de grande importância
para uma pesquisa, pois nela, podemos perceber as tendências do nosso de dados. Após a coleta
dos dados experimentais, devemos organizá-los e apresentá-los, e esta apresentação, pode ser
feita através de tabelas e gráficos.
3.1 Organização e apresentação de dados
No dia-a-dia nos deparamos com variáveis qualitativas e variáveis quantitativas, estas últimas
podendo ser cont́ınuas (idade, peso, diâmetro) ou discretas (n. de filhos, n. de defeitos por uni-
dade). O método mais comum de resumir dados consiste em apresentá-los em forma condensada
de tabelas ou gráficos.
Suponha o banco de dados abaixo, que são notas de um teste de coordenação f́ısica aplicado
a 20 estudantes, após terem ingerido uma quantidade de álcool igual a 10% de seu peso:
69 84 52 93 61 74 79 65 88 63
57 64 67 72 74 55 82 61 68 77
Pergunta: O que podemos fazer para tornar esta massa de informação mais utilizável???
28
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
1. alguns autores acham interessante calcular valores extremos;
2. algumas vezes é interessante ordenar os dados, ou seja criar um rol de dados;
3. entretanto, para um banco grande de dados, a ordenação é uma tarefa bastante dif́ıcil. É
conveniente então usar a técnica de apresentação em ramo-e-folhas que oferece uma boa
visualização global dos dados.
Para tal, decompomos os algarismos em dezenas e unidades, marcando junto valores com
mesmas dezenas. As dezenas ficam alinhadas a esquerda, e as unidades à direita. Cada
linha representa a posição de um ramo e cada algarismo à direita da reta vertical pode ser
considerado como uma folha;
4. ou em forma de Tabelas:
3.1.1 Tabelas de distribuições de frequências
As apresentações através de tabelas deverão ser realizadas em uma pesquisa, mediante alguma
convenção ou norma, dependendo de qual instituição, congresso ou órgão, esta tabela será apre-
sentada. Mas alguns prinćıpios/elementos básicos podem ser utilizados:
• Número: vem sempre depois da palavra Tabela e antes do t́ıtulo, serve para que se possa
identificar a tabela ao citá-la no texto;
• Tı́tulo: onde é dada uma noção inicial ao leitor sobre o que é a tabela;
• Cabeçalho: para que sejam identificados os conteúdos referentes a cada coluna da tabela.
O cabeçalho deve conter o suficiente para responder as questões: o que está sendo repre-
sentado? onde ocorreu? Quando ocorreu?
• Coluna Indicadora: que especifica as diferentes categorias da variável;
• Corpo: é representado por colunas e subcolunas dos quais são registrados os dados numéricos
e informações.
• Rodapé ou pé: onde é identificada a fonte original dos dados, ou alguma nota referente a
tabela.
Por exemplo,
29
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Tabela 1: Notas finais dos estudantes da disciplina de Probabilidade e Estat́ıstica 2014.2
Notas frequência
00 ` 10 4
10` 20 5
20` 30 6
30` 40 8
40` 50 12
50` 60 7
60` 70 5
70` 80 3
Fonte: Diário de classe da profa. Regiane Slongo Fagundes.
Observação: Não há linhas laterais, ponto final em cada linha e linhas horizontais no corpo da
tabela separando as linhas!!!
Esta tabela é chamada de distribuição de frequência ou distribuição. Se os dados estão
agrupados em categorias não numéricas, a tabela se chama distribuição por categorias (ou qua-
litativa). Por exemplo, considere as 2439 queixas sobre caracteŕısticas de conforto nos aviões de
uma companhia aérea:
Tabela 2: Queixas sobre caracteŕısticas de conforto nos aviões de uma companhia aérea
Natureza das reclamações n. de reclamações
espaço insuficiente para pernas 719
assentos desconfortáveis 914
corredores estreitos 146
espaço insuficiente p/ bagagem mão 218
banheiros insuficientes 58
outras 384
Fonte: Montgomery e Runger, (2009).
É posśıvel transformar uma tabela como esta em uma distribuição numérica mediante codi-
ficação dos dados, por exemplo, atribuindo às seis alternativas os números 1, 2, 3, 4, 5 e 6, mas
isto nos daria dados nominais que são numéricos apenas em sentido trivial.
A construção de uma tabela de frequência consiste essencialmente de três etapas:
1. escolha das classes (intervalos ou categorias);
2. enquadramento dos dados nessa categoria;
3. contagem do número de elementos em cada classe.
A etapa mais dif́ıcil é a primeira, a saber, a escolha de uma classificação conveniente. Em
distribuições numéricas, consiste em decidir quantas classes utilizar e a amplitude de cada uma.
Esta escolha é puramente arbitrária, mas costuma-se observar:
1. raramente usam-se menos de seis classes ou mais de quinze classes. O número exato depende
de cada situação;
2. ter certeza que cada elemento se enquadra em uma e somente uma classe;
30
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
3. sempre que posśıvel, as classes devem ter amplitudes iguais, geralmente são múltiplos de
5;
Segundo Fonseca e Martins (2012), há duas aparentes soluções para a definição do número
de intervalos:
a)Se o número de elementos (n) for menor que 25 então o número de classes (k) é igual a 5;
se n for maior que 25, então o número de classes é aproximadamente a raiz quadrada positiva de
n. Ou seja:
** Para n ≤ 25, k = 5
** Para n > 25, k =
√
n.
b) Outro critério utilizado na determinação do número de classes k é através da fórmula
emṕırica de Sturges:
k = 1 + 3, 32 log n
onde n representa o total de observações.
A amplitude (h) de cada classe será dada por
h =
A
k
onde A = Xmax −Xmin representa a amplitude total das observações, definida como a diferença
entre o maior e o menor valores observados. Existem 4 variações de frequências, a saber
1. Frequência absoluta simples (fi): é o número de vezes em que cada elemento aparece
na amostra ou população.
2. Frequência Absoluta Simples Acumulada (Fi): É a soma das frequências dos dados
anteriores.
3. Frequência Relativa (fri): É a razão entre o valor de cada frequência e o número total
de dados existentes na observação. Ou seja:
fri =
fi
n
, i = 1, · · · , k
4. Frequência Relativa Acumulada (Fri): É a soma das frequências relativas dos dados
anteriores.
Exemplo 1: Quarenta alunos da UTFPR - Toledo foram questionados quanto ao número de
livros lidos no segundo semestre de 2016.
4 2 1 0 3 1 2 0 1 2
0 2 1 1 0 4 3 2 3 5
6 0 1 6 5 3 2 1 6 4
3 4 5 3 2 1 0 2 1 0
31
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
1. Organize os dados e construa as 4 variações da tabela de distribuição de frequências;
2. Qual o percentual de alunos que leram menos do que 3 livros?
3. Qual o percentual de alunos que leram 4 ou mais livros?
Exemplo 2: Os dados a seguir representam a idade 50 funcionários (colocados em ordem cres-
cente) selecionados aleatoriamente da população de uma indústria X.
18 20 20 21 22 24 25 25 26 27
29 29 30 30 31 31 32 33 34 35
36 36 37 37 37 37 38 38 38 40
41 43 44 44 45 45 45 46 47 48
49 50 51 53 54 54 56 58 62 65
Organize os dados e construa as 4 variações da tabela de distribuição de frequências. Interprete
os resultados.
32
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Exemplo 3: Construa uma distribuição de frequências simples (fi) para as seguintes notas obti-
das por 40 estudantes em um teste.
75 89 66 52 90 68 83 94 77 60 38 47 87 65 97 49 65 72
73 81 63 77 91 88 74 37 85 76 74 63 69 72 31 87 76 58
63 70 72 65
Organize os dados e construa as 4 variações da tabela de distribuição de frequências. Interprete
os resultados.
3.1.2 Tabela de distribuição de frequências bidimensional
Muitas vezes, estamos interessados em analisar o comportamento conjunto de duas ou mais
variáveis. Assim, vamos estudar como organizamos e resumimos os dados para uma distribuição
conjunta de duas variáveis em forma de tabelas. Essas tabelas podem apresentar freqüências
relativas as quais servem para apresentar estimativas de riscos, ou seja, dão estimativas das
probabilidades de dano.
O exemplo mostrado abaixo apresenta o número de nascidos vivos registrados, classificados
segundo dois fatores: o ano de registro e o sexo.
Tabela 3: Nascidos vivos registrados segundo o ano de registro e o sexo
Ano reg. Total
Masculino Feminino
1984 1.307.758 1.251.258 2.559.038
1985 1.339.059 1.280.545 2.619.604
1986 1.418.050 1.361.203 2.779.253
Nota: Nascimentos ocorridos no ano de registro.
Fonte: IBGE (1980).
3.2 Apresentações gráficas
Quando as distribuições de frequência têm como principal objetivo condensar grandes conjuntos
de dados em uma forma fácil de assimilar, é melhor apresentar essas distribuições graficamente.
Uma figura fala mais alto que mil palavras!
Para as distribuições de frequência, a forma mais comum de apresentação gráfica é o his-
tograma. Um histograma é constrúıdo, representando-se as medidas ou observações que são
agrupadas em uma escala horizontal, e as frequências de classe em uma escala vertical; traçam-se
então retângulos, cujas bases são iguais aos intervalos de classe e cujas alturas são as frequências
de classe correspondentes. As marcações na escala horizontal de um histograma podem ser os
pontos médios, os limites de classe, as fronteiras de classe ou outros valores básicos arbitrários.
33
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Observaç~ao: os retângulos de um histograma vão de uma fronteira de classe até a próxima. Não
é posśıvel traçar histogramas de distribuições com classes abertas; exige-se, outrossim, cuidado
especial quando os intervalos de classe não são todos iguais.
Figura 3.1: Exemplo de histograma.
Exemplo 1: Obtenha o histograma das notas finais dos estudantes da disciplina de Probabilidade
e Estat́ıstica 2014.2
Análogos aos histogramas são os gráficos de barras. As alturas dos retângulos, ou barras,
representam as frequências de classe como em um histograma, mas não se tem necessariamente
em vista uma escala horizontal cont́ınua.
34
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.2: Exemplo de gráfico de barras.
Exemplo 2: Obtenha o gráfico de barras do número de livros lidos no segundo semestre de 2016
na UTFPR - Toledo.
Outra forma, não tanto utilizada, é o poĺıgono de frequência. Aqui, as frequências de classe
são marcadas nos pontos médios, e os valores sucessivos são unidos por segmentos retiĺıneos. Se
faz necessário acrescentar classes com frequência zero em ambos os extremos da distribuição para
ligar o gráfico à escala horizontal.
Figura 3.3: Exemplo de poĺıgono de frequências.
Exemplo 3: Obtenha o poĺıgono de frequências das notas finais dos estudantes da disciplina de
Probabilidade e Estat́ıstica 2014.2
35
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Aplicando a uma distribuição cumulativa técnica idêntica, obtemos a chamada ogiva. Em
uma ogiva, entretanto, as frequências são acumuladas são marcadas nas fronteiras de classe, e
não nos pontos médios.
Figura 3.4: Exemplo de ogiva.
Exemplo 4: Obtenha o gráfico ogiva das notas finais dos estudantes da disciplina de Probabili-
dade e Estat́ıstica 2014.2
Embora o aspecto visual dos histogramas, gráficos em barras, poĺıgonos de frequência e ogivas
constitua acentuada melhoria sobre as simples tabelas, há várias maneiras em que as distribuições
podem ser apresentadas de forma ainda mais eficiente. Duas formas, bastante utilizada por
jornais e revistas, são o pictograma e o gráfico de setores, conhecido também como gráfico
de pizza.
Para construir um gráfico de setor, começamos por converter a distribuição em uma distri-
buição percentual. Como um ćırculo completo corresponde a 360 graus, obtemos os ângulos
centrais dos diversos setores multiplicando as percentagens por 360. Existem bastante variações
destes gráficos. Um aspecto negativo neste tipo de gráfico é que ele é de dif́ıcil comparação com
outros, o que não ocorre com os histogramas.
Exemplo 5: Obtenha o gráfico de setores do número de livros lidos no segundo semestre de 2016
na UTFPR - Toledo.
36
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.5: Exemplo de gráfico de setores ou de pizza.
E, informações numéricas podem ser resumidas através de mapas, que podem ser feitos
somente com auxilio de programas gráficos.
Figura 3.6: Exemplo de mapa.
3.3 Medidas descritivas
Quando analisamos uma variável qualitativa, basicamente constrúımos sua distribuição de frequências.
No entanto, ao explorarmos variáveis quantitativas, temos condições de empregar algumas me-
didas descritivas, que sintetizam as caracteŕısticas da distribuição. Vamos falar de medidas de
tendência central (MTC), dispersão (MD) e de forma (A e K).
37
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.7: Figura ilustrativa.
3.3.1 Medidas de tendência central
Média aritmética simples
O conceito de média é bastante familiar. Seja (x1, x2, · · · , xn) uma amostra de n observações de
certa variávelaleatória X. A média aritmética dessas observações é definida por:
x̄ =
x1 + x2 + · · ·+ xn
n
=
∑n
i=1 xi
n
A média resume os dados de forma a torná-los mais informativos.
Exemplo 1: Uma indústria de componentes eletrônicos está interessada em determinar a vida
útil de certo tipo de bateria. Uma amostra, em horas, segue abaixo:
123 116 122 110 145 126 125 111 118 117.
Calcule a média de vida útil da bateria.
Exemplo 2: Um gerente de supermercado, que deseja estudar a movimentação de pessoas em
seu estabelecimento, constata que 295, 1002, 941, 768, 1283 pessoas entraram na loja nos últimos
5 dias. Dê o número médio de pessoas na loja.
Exemplo 3: Se o salário médio anual pago aos três administradores de uma firma é R$156000, 00.
Algum deles pode receber um salário anual superior a R$500000, 00?
Propriedades da média
1. A soma algébrica dos desvios de um conjunto de valores em relação ao média aritmética é
zero;
2. A soma algébrica dos quadrados dos desvios de um conjunto de valores em relação a média
aritmética é mı́nima;
38
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
3. Somando ou subtraindo uma constante a todos os valores de uma variável, a média ficará
acrescida ou subtráıda a essa constante;
4. Multiplicando ou dividindo todos os valores de uma variável por uma constante, a média
ficará multiplicada ou dividida por essa constante
Vantagens do emprego da média aritmética:
1. Como faz uso de todos os dados para seu cálculo, pode ser determinada com precisão
matemática;
2. Pode ser determinada quando somente o valor total e o número de elementos forem conhe-
cidos.
Desvantagens do emprego da média aritmética:
1. Não pode ser empregada para dados qualitativos;
2. É influenciada por valores extremos, podendo, em alguns casos, não representar a série.
Para você pesquisar: Investigue outras médias e suas principais propriedades, como por exem-
plo: média geométrica, média harmônica, média aritmética ponderada, média hipergeométrica.
Mediana
É o valor que ocupa a posição central de um conjunto de dados ordenados. É a medida do
elemento do meio se n é ı́mpar, ou a média dos elementos centrais se n é par:
x̃ = Me =
{
x(n+12 )
, se n ı́mpar;
x(n2 )
+x(n2 +1)
2
, se n par.
Nota: Para calcular a mediana é necessário que os dados estejam ordenados!!!
Exemplo 1: Determine a mediana da vida útil das baterias.
110 111 116 117 118 122 123 125 126 145.
Exemplo 2: Considere o número de pessoas que frequentam a disciplina de uma instituição:
40, 32, 37, 30, 24
Dê a mediana.
Vantagem do emprego da mediana
39
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
1. A mediana não é influenciada por valores extremos.
Desvantagens do emprego da mediana
1. A mediana é uma medida que exige uma ordenação de categorias, da mais alta a mais baixa,
assim ela só pode ser obtida para variáveis qualitativas ordinais ou para as quantitativas,
jamais para variáveis qualitativas nominais;
2. Não inclui todos os valores da distribuição;
Moda
A moda de um conjunto de dados é o número que teve maior número de repetições.
Quando não há número que mais repete, dizemos que o conjunto é amodal. Se houverem dois
valores com iguais sequências, o conjunto é bimodal. E se houverem vários números, dizemos que
é um conjunto multimodal.
Exemplo 1: Determine a moda da vida útil das baterias.
110 111 116 117 118 122 123 125 126 145.
Vantagens do emprego da moda
1. A moda é uma medida que requer apenas o conhecimento da frequência absoluta e pode
ser utilizada para qualquer tipo de variáveis, tanto qualitativas, quanto quantitativas;
2. É de uso prático. Exemplificando: os empregadores geralmente adotam a referência modal
de salário. Também carros e roupas são produzidos tomando como referência o tamanho
modal.
Desvantagens do emprego da moda
1. Não inclui todos os valores da distribuição;
2. Mostra-se ineficiente quando a distribuição é amplamente dispersa.
Quartis
A mediana também é conhecida como segundo quartil, e é um quantil dentre vários existentes.
Por exemplo: os quartis, os decis e os percentis, que dividem o banco de dados em 4, 10 e 100
partes, respectivamente.
Para obter os quartis:
Q1 = X(n4 )
e Q3 = X(3n4 )
,
1. Ordene os dados em ordem crescente;
40
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
2. Calcule o Quartil desejado.
3. Se X(∗) não for inteiro, arredonde para o primeiro inteiro acima para encontrar o quartil
desejado.
4. Se X(∗) for inteiro, calcule o quartil fazendo a média entre o entre as observações X(∗) e
X(∗+1).
Exemplo 1: Calcule os quartis da vida útil das baterias.
110 111 116 117 118 122 123 125 126 145.
Exemplo 2: Os registros de uma biblioteca mostram que 22 alunos do ensino médio consultaram
os seguintes números de livros durante o último ano:
62, 73, 40, 72, 79, 88, 35, 51, 48, 42, 75
65, 69, 82, 50, 66, 103, 68, 54, 38, 52, 72
Ache a Me = Q2, Q1 e Q3.
Exemplo 3: Ao testarem um novo sistema de coleta de reśıduos sanitários, engenheiros consta-
taram que 21 residências despejavam os seguintes litros por uma hora:
69 58 70 80 46 61 65 74 75 55 67
56 70 72 61 66 58 68 70 68 58
Determine os quartis.
O diagrama de caixas ou Gráfico Boxplot
Uma forma de apresentar graficamente os conceitos discutidos é através do diagrama de caixas
ou Box-plot. Trata-se de um retângulo que representa o desvio interquart́ılico. Esse retângulo
41
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.8: Exemplo de um diagrama caixas ou boxplot.
representa, portanto, a faixa dos 50% dos valores mais t́ıpicos da distribuição. O retângulo é divi-
dido no valor correspondente à mediana; assim, ele indica o quartil inferior, a mediana e o quartil
superior. Entre os quartis e os extremos, são traçadas linhas. Caso existam valores discrepantes
(além de 1, 5dq), a linha é traçada até o último valor não discrepante, e os valores discrepantes
são indicados por pontos. Eventuais pontos muito discrepantes (além de 3dq) normalmente são
representados por śımbolos diferentes para serem bem destacados.
Interpretando o diagrama de caixa
1. a caixa central inclui os 50% dos dados centrais;
2. os bigodes mostram a amplitude dos dados, isto é, a diferença entre o maior e menor valores;
3. a simetria é indicada pela caixa e bigodes e pela localização da média;
4. é relativamente fácil comparar grupos, construindo diagramas de caixa lado a lado, con-
forme figura a seguir;
Em um Box-plot, para reconhecer simetria nos dados:
1. a distância de Q1 à mediana é igual à distância da mediana até Q3;
2. a distância do valor mı́nimo até Q1 é igual a distância do valor máximo até Q3;
3. a mediana é igual a média.
Detectando outlier
Um boxplot pode ser formado para indicar explicitamente a presença de outlier.
42
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.9: Exemplo de comparação de diversos boxplots.
Qualquer observação distante mais do que 1, 5(Q3−Q1) do quarto mais próximo é um outlier.
Um outlier é extremo se estiver a mais de 3(Q3 − Q1) do quarto mais próximo. Caso contrário
é moderado.
Exemplo 1: Determinar o box-plot esquemático para da vida útil das baterias e verifique se
ocorre presença de outlier.
Exemplo 2: Um artigo reportou dados sobre um experimento, investigando o efeito de muitas
variáveis de processos na oxidação, em fase de vapor, e naftaleno. Uma amostra da conversão
percentual molar de naftaleno em anidrido maléico resulta em:
4, 2 4, 7 4, 7 5, 0 3, 8 3, 6 3, 0 5, 1 3, 1 3, 8
4, 8 4, 0 5, 2 4, 3 2, 8 2, 0 2, 8 3, 3 4, 8 5, 0
Determinar o box-plot esquemático e verifique se ocorre presença de outlier.
Exemplo 3: As nove medidas que seguem são temperaturas de fornalha, registradas em bateladas
sucessivas de um processo de fabricação de semicondutores (unidades em oF )
953 950 948 955 951 949 957 954