Buscar

Apostila_EBB

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 179 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 179 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 179 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Notas de aula
PROBABILIDADE E ESTATÍSTICA
Eng. Bioprocessos e Biotecnologia
Daniela Trentin Nava e
Regiane Slongo Fagundes 1 2
2 de Março de 2020
1Professoras da UTFPR - Câmpus Toledo.
2Esta apostila é o resultado de compilações encontradas em diversos materiais pesquisados e que
constam na bibliografia.
Conteúdo
1 Conceitos iniciais 4
1.1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 O que é ESTATÍSTICA???? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Pesquisas, dados, variabilidade e estat́ıstica . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Pesquisa Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Finalidade da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Tipos de Pesquisas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Estat́ıstica descritiva e inferência estat́ıstica . . . . . . . . . . . . . . . . . . . . . 10
1.6 População e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6.1 Terminologia Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Classificação das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.1 Variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.2 Variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7.3 Natureza dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Amostragem 16
2.1 Amostragem probabiĺıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Amostragem casual simples . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.3 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.4 Amostragem por meio de conglomerados . . . . . . . . . . . . . . . . . . . 21
2.2 Amostragem não-probabiĺıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Amostragem a Esmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2 Amostragem intencional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3 Amostragem por cota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Estat́ıstica Descritiva 28
3.1 Organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.1 Tabelas de distribuições de frequências . . . . . . . . . . . . . . . . . . . . 29
3.1.2 Tabela de distribuição de frequências bidimensional . . . . . . . . . . . . . 33
3.2 Apresentações gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Medidas descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . 38
1
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
3.3.2 Medidas de dispersão ou Medidas de Variabilidade . . . . . . . . . . . . . . 47
3.3.3 Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4 Elementos de Probabilidade 60
4.1 Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2 Experimento aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 Espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4 Evento Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5 Definição axiomática de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . 64
4.6 Probabilidade condicional e independência . . . . . . . . . . . . . . . . . . . . . . 66
4.7 Teorema da probabilidade total . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.8 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.9 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5 Distribuições de Probabilidade 76
5.1 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.1 Variáveis aleatórias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.2 Variáveis aleatórias cont́ınuas . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2 Distribuições teóricas de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2.1 Principais distribuições teóricas discretas de probabilidades . . . . . . . . . 85
5.2.2 Principais distribuições teóricas cont́ınuas de probabilidades . . . . . . . . 94
5.3 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6 Tamanho amostral 116
6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.2 Dimensionamento de uma amostra . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.2.1 Variável intervalar e população infinita . . . . . . . . . . . . . . . . . . . . 116
6.2.2 Variável intervalar e população finita . . . . . . . . . . . . . . . . . . . . . 117
6.2.3 Variável Nominal ou ordinal e população infinita . . . . . . . . . . . . . . . 117
6.2.4 Variável Nominal ou ordinal e população finita . . . . . . . . . . . . . . . . 118
7 Estimação 119
7.1 Estimador e Estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.2 Qualidades de um bom estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.3 Estimação por pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.3.1 Estimador da média populacional µ . . . . . . . . . . . . . . . . . . . . . . 120
7.3.2 Estimador da variância populacional σ2 . . . . . . . . . . . . . . . . . . . . 120
7.3.3 Estimador do desvio padrão populacional σ . . . . . . . . . . . . . . . . . 120
7.3.4 Estimador da proporção populacional P . . . . . . . . . . . . . . . . . . . 120
7.4 Estimação por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.4.1 I.C. para a média populacional µ . . . . . . . . . . . . . . . . . . . . . . . 121
7.4.2 I.C. para a variância populacional σ2 . . . . . . . . . . . . . . . . . . . . . 123
7.4.3 I.C. para o desvio padrão populacional σ . . . . . . . . . . . . . . . . . . 125
7.4.4 I.C. para a proporção populacional p . . . . . . . . . . . . . . . . . . . . . 125
2
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
7.5 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
8 Teste de hipóteses 129
8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.2 Passos para realizar um T.H. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.3 Teste para a média populacional µ . . . . . . . . . . . . . . . . . . . . . . . . . . 131
8.4 Teste para a diferença ente duas médias populacionais µ1 e µ2 . . . . . . . . . . . 132
8.5 Teste para a variância populacional σ2 . . . . . . . . . . . . . . . . . . . . . . . . 136
8.6 Teste para a igualdade de duas variâncias populacionais σ21 e σ
2
2 . . . . . . . . . . 137
8.7 Teste para a proporção populacional p . . . . . . . . . . . . . . . . . . . . . . . . 139
8.8 Teste para duas proporções populacionais . . . . . . . . . . . . . . . . . . . . . . . 139
8.9 Teste de normalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.10 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
9 ANAVA 147
9.1 Introdução .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2 Conceitos Básicos sobre Experimentação . . . . . . . . . . . . . . . . . . . . . . . 147
9.2.1 Tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2.2 Unidade experimental ou parcela . . . . . . . . . . . . . . . . . . . . . . . 148
9.2.3 Repetição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
9.2.4 Variável resposta ou variável dependente . . . . . . . . . . . . . . . . . . . 148
9.2.5 Delineamento experimental (Design) . . . . . . . . . . . . . . . . . . . . . 149
9.2.6 Modelo associado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
9.3 ANAVA - fator único . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
9.3.1 Testes de comparação de médias . . . . . . . . . . . . . . . . . . . . . . . . 151
9.4 ANAVA - fator duplo sem repetição . . . . . . . . . . . . . . . . . . . . . . . . . . 154
9.5 ANAVA - fator duplo com repetição . . . . . . . . . . . . . . . . . . . . . . . . . . 156
9.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10 Regressão linear simples 165
10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
10.2 Exemplo motivacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
10.3 Gráfico de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
10.4 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
10.5 O modelo probabiĺıstico de RLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
10.5.1 Estimação dos parâmetros β0 e β1 . . . . . . . . . . . . . . . . . . . . . . . 168
10.6 Verificação do ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
10.6.1 Coeficiente de explicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
10.6.2 Análise de variância do modelo . . . . . . . . . . . . . . . . . . . . . . . . 171
10.7 Funções linearizáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
10.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
11 Bibliografia 177
3
Caṕıtulo 1
Conceitos iniciais
1.1 INTRODUÇÃO
A Estat́ıstica é um processo que permite a análise e a interpretação de dados provenientes de
uma ou mais amostras, com o objetivo de inferir caracteŕısticas de populações. Sendo aplicável
a qualquer ramo do conhecimento onde se manipulam dados experimentais. Trabalha com a
coleta, apresentação, análise e uso de dados para a resolução de problemas, tomada de decisões,
desenvolvimento de estimativas e planejamento e desenvolvimento tanto de produtos quanto de
procedimentos.
A estat́ıstica é usada em vários sentidos. Pode referir-se não só a simples tabulação de
informações numéricas, como a relatórios de transações na bolsa de valores, como ao corpo de
técnicas utilizadas para processar ou analisar dados. A palavra Estat́ıstica é de origem grega
statistós que significa estabelecer ou verificar. Este ramo da ciência também pode ser definido
como a parte da matemática em que se investigam os processos de obtenção, organização e análise
de dados sobre determinada população ou amostra e os métodos de obtenção de conclusões, fazer
inferência, ilações ou predições com base nesses dados.
Historicamente, o crescimento e o desenvolvimento da estat́ıstica moderna podem ser relaci-
onados a três fenômenos isolados - a necessidade do governo de coletar dados sobre os cidadãos,
o desenvolvimento da teoria da probabilidade e o advento da informática.
Dados têm sido coletados através de toda a história. Nas civilizações Eǵıpcias, Grega e
Romana, dados primários eram coletados com propósito de taxações e finalidades militares. Na
4
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
idade Média, igrejas registraram dados e informações sobre nascimentos, mortes e casamentos.
Nos Estados Unidos, a Constituição de 1790 determinava a realização de censo a cada 10 anos.
Atualmente, informações numéricas são necessárias para cidadãos e organizações de qualquer
natureza, e de qualquer parte do globo.
Nas últimas décadas têm ocorrido um crescimento acentuado do uso das técnicas estat́ısticas,
uma vez que através delas é posśıvel estudar fenômenos e prever alguns resultados, e ainda é
posśıvel melhorar ı́ndices.
A essência de uma análise estatı́stica é tirar conclus~oes sobre uma populaç~ao,
ou universo, com base em uma amostra de observaç~oes.
1.2 O que é ESTATÍSTICA????
Segundo o Dicionário de Ĺıngua Portuguesa Aurélio:
1 Parte da matemática em que se investigam processos de obtenção, organização e análise
dedados sobre uma coleção de seres quaisquer, e métodos de tirar conclusões e fazer predições
com base nesses dados. 2 Conjunto de elementos numéricos relativos a um fato social.
Para muitas pessoas, a palavra estat́ıstica faz lembrar longas colunas de números, gráficos e di-
agramas que mostram de que forma o governo está gastando o dinheiro dos impostos. No passado,
esta palavra referia-se exclusivamente à informações numéricas de que os governos necessitavam
para planejar sua conduta. Os estat́ısticos eram pessoas que coletavam grandes quantidades de
informações numéricas. Alguns estat́ısticos ainda realizam este tipo de trabalho, mas existem
outros que auxiliam a conduzir e interpretar experimentos cient́ıficos e pesquisas profissionais.
As mudanças no significado da palavra estat́ıstica acompanharam as mudanças ocorridas no tipo
de trabalho realizado pelos estat́ısticos.
A palavra estat́ıstica pode ser utilizada para designar dados numéricos, como, por exemplo,
estat́ısticas esportivas ou estat́ısticas financeiras. Entretanto, a palavra pode também se referir
à estat́ıstica como uma disciplina própria da mesma forma que a matemática ou a economia.
Assim, conceituando temos que:
A estat́ıstica é o ramo da matemática interessado nos métodos cient́ıficos para coleta, orga-
nização, resumo, apresentação e análise de dados, bem como na obtenção de conclusões válidas
e na tomada de decisões razoáveis baseadas em tais análises.
Portanto, a estat́ıstica é uma ciência que se preocupa com o planejamento de uma pesquisa,
envolvendo desde a forma de coleta das observações obtidas em experimentos ou levantamentos,
até a maneira como será feita a organização, a descrição, o resumo dos dados e a avaliação e
afirmação sobre caracteŕısticas de interesse do pesquisador. Tudo isso corresponde às fases do
método estat́ıstico. As fases do método estat́ıstico são então:
1. Definição do Problema
Consiste na:
(a) formulação correta do problema;
(b) examinar outros levantamentos realizados no mesmo campo (revisão da literatura);
5
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
(c) saber exatamente o que se pretende pesquisar definindo o problema corretamente
(variáveis, população, hipóteses, etc.)
2. Planejamento
Determinar o procedimento necessário para resolver o problema:
(a) Como levantar informações;
(b) Tipos de levantamentos: por censo (completo) ou por amostragem (parcial);
(c) Cronograma, custos, etc.
3. Coleta ou levantamento dos dados
Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer. A coleta pode
ser:
(a) Direta - diretamente da fonte;
(b) Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria
pessoa (primários) ou se baseia no registro de terceiros (secundários).
4. Apuração dos dados ou sumarização
Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho
de coordenação e de tabulação.
5. Apresentação dos dados
É a fase em que são mostrados os resultados obtidosna coleta e na organização.
6. Análise e interpretação dos dados
É a fase mais importante e também a mais delicada. Obtêm-se conclusões que auxiliam o
pesquisador nas tomadas de decisões.
Observaç~ao: As análises estat́ısticas dependem da forma de como os dados são coletados, e
o planejamento estat́ıstico da pesquisa indica o esquema sob o qual os dados serão obtidos.
Portanto, o planejamento da pesquisa e a análise estat́ıstica dos dados estão intimamente ligados.
PLANEJAMENTO DA PESQUISA =⇒ ANÁLISE ESTATÍSTICA
Assim, o pesquisador deve possuir razoável conhecimento de estat́ıstica para desenvolver suas
pesquisas, ou então consultar um estat́ıstico para auxiliá-lo. Vale ressaltar que esta consulta deve
ser feita antes do ińıcio da pesquisa, ainda durante a fase de elaboração do projeto.
1.3 Pesquisas, dados, variabilidade e estat́ıstica
Normalmente a Estat́ıstica está associada a números, tabelas e números, mas a importância da
Estat́ıstica fica melhor representada por dois ingredientes comuns: dados e variabilidade.
Em geral, a busca por melhorias na qualidade de um processo produtivo implica a redução
da variabilidade. A variabilidade pode ser reduzida com investimentos em pessoal, máquinas
6
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
e tecnologia, mas muitas vezes ela pode ser acomodada com o conhecimento de relações entre
fatores do processo e caracteŕısticas funcionais do produto, o que envolve conhecimentos de
engenharia, pesquisas, dados e análises estat́ısticas.
Logo após a Revolução Industrial, métodos estat́ısticos foram incorporados nos processos
industriais para garantir a qualidade dos produtos. Amostras de itens produzidos eram avaliadas
sistematicamente para inferir se o processo estava sob controle. Mais recentemente, a avaliação
da qualidade passou a ser feita ao longo do processo produtivo como forma de corrigir eventuais
falhas no sistema assim que elas aparecessem. Isso levou a um aumento da qualidade do produto
final e redução de custos, pois se reduziriam drasticamente as perdas por defeitos.
Além do acompanhamento estat́ıstico da qualidade, as indústrias costumam fazer experimen-
tos estatisticamente planejados para encontrar a combinação dos ńıveis dos fatores do processo
que levem a melhor qualidade posśıvel. Na outra ponta, as empresas levantam dados de amostras
de consumidores para realizar pesquisas de marketing direcionadas ou para adequar os produ-
tos aos clientes. O planejamento dessas amostras e a análise dos dados necessitam de técnicas
estat́ısticas.
Muitas vezes, a relação entre estat́ıstica e engenharia é ainda mais estreita. Os próprios
métodos de engenharia costumam incorporar intrinsecamente procedimentos probabiĺısticos ou
estat́ısticos.
A Estat́ıstica pode ser dividida em 4 grandes grupos:
1. Amostragem: subconjuntos com as mesmas caracteŕısticas da população, usada em quase
tudo na Estat́ıstica;
2. Estat́ıstica Descritiva: descreve e organiza os dados através de tabelas, gráficos e números
ı́ndices;
3. Probabilidade: estudo de fenômenos aleatórios que ocorrem ao acaso (incerteza);
4. Inferência Estat́ıstica: ferramentas para tomadas de decisão acerca da população (Testes
de hipóteses, Intervalos de confiança, ANOVA).
1.4 Pesquisa Estat́ıstica
Pesquisa é um conjunto de atividades orientadas para a busca de um determinado conhecimento.
Para merecer qualificativo de cient́ıfica a pesquisa deve ser feita de modo sistematizada, utilizando
7
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
para isto métodos próprios e técnicas espećıfica. A pesquisa cient́ıfica se distingue de outras
modalidades quaisquer de pesquisa pelo método, pela técnica, por estar voltada para a realidade
emṕırica e pela forma de comunicar o conhecimento.
1.4.1 Finalidade da Pesquisa
Descobrir respostas para questões, mediante as aplicações de métodos cient́ıficos, e, tentar co-
nhecer e explicar fenômenos que ocorrem no mundo existente.
1.4.2 Tipos de Pesquisas
• Pesquisa bibliográfica: Pesquisa bibliográfica é aquela que se desenvolve tentando expli-
car um problema a partir das teorias publicadas em diversos tipos de fontes: livros, artigos,
manuais, enciclopédias, anais, meios eletrônicos, etc. A realização da pesquisa bibliográfica
é fundamental para que se conheça e analise as principais contribuições teóricas sobre um
determinado tema ou assunto. A pesquisa bibliográfica pode ser realizada com diferentes
fins:
– para ampliar o grau de conhecimentos em uma determinada área, capacitando o in-
vestigador a compreender ou delimitar melhor um problema de pesquisa;
– para dominar o conhecimento dispońıvel e utilizá-lo como base ou fundamentação na
construção de um modelo teórico explicativo de um problema, isto é, como instrumento
auxiliar para a construção e fundamentação de hipóteses;
– para descrever ou sistematizar o estado da arte, daquele momento, pertinente a um
determinado tema ou problema.
Ao analisar essas finalidades pode-se inferir que a pesquisa bibliográfica pode ser realizada
em ńıvel de pesquisa exploratória, quando apenas se quer ter maiores conhecimentos ou uma
certa familiaridade sobre um assunto; oferecer informações mais precisas ao investigador
no momento da construção de problemas ou questões de pesquisa e fundamentar na análise
e discussão de resultados de pesquisas emṕıricas
• Pesquisa documental: A pesquisa documental assemelha-se muito com a pesquisa bi-
bliográfica. Ambas adotam o mesmo procedimento na coleta de dados. A diferença está,
essencialmente, no tipo de fonte que cada uma utiliza. Enquanto a pesquisa documental
utiliza fontes primárias, a pesquisa bibliográfica utiliza fontes secundárias. O quadro abaixo
apresenta alguns tipos de documentos de fontes primárias e secundárias, este por sua vez,
diferenciar as principais fontes utilizadas pela pesquisa bibliográfica e documental.
• Pesquisa experimental: A pesquisa experimental está interessada em verificar a relação
de causalidade que se estabelece entre as variáveis, isto é, em saber se a variável X (inde-
pendente) determina a variável Y (dependente). Para isto, cria-se uma situação de controle
rigoroso neutralizando todas as influências alheias que Y pode sofrer.
• Estudo de caso e controle: Nos estudos de caso controle investiga-se os fatos após a sua
ocorrência, sem manipular a variável independente. Neste tipo de pesquisa o investigador
8
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
não pode, conforme o seu desejo, manipular a variável independente, mas sim localizar
grupos cujos indiv́ıduos sejam bastante semelhantes entre si, verificando as conseqüências
naturais que o acréscimo de uma variável possa produzir em um grupo e comparar com o
outro que se manteve em condições normais.
• Levantamento: As pesquisas do tipo levantamento procuram analisar, quantitativamente,
caracteŕısticas de determinada população. Caracterizam-se pela interrogação direta das
pessoas cujo comportamento se deseja conhecer. Basicamente, procede-se à solicitação
de informações a um grupo significativo de pessoas acerca do problema estudado para, em
seguida, mediante análise quantitativa, obterem-se as conclusões correspondentes aos dados
pesquisados.
Os levantamentos podem abranger o universo dos indiv́ıduos que compõem a população,
no caso, um censo, ou apenas uma amostra, um subconjunto da população. Os censos
geralmente são desenvolvidos por instituições governamentais em decorrência do grande
investimento financeiro, necessário para a sua realização.
As pesquisas por amostragem apresentam vantagens e limitações. Entre as vantagens estão
o conhecimento direto da realidade, economia, rapidez e quantificação dos dados. Entre as
limitações estão a possibilidade de não fidedignidade nas respostas, de pouca profundidade
no estudo da estrutura e dos processos sociais e delimitada apreensão do processo de
mudança. Os estudos por levantamentos, por serem de natureza descritiva/quantitativa,
pouco se aproximam de estudos explicativos, bem pelo contrário, podem estar muito mais
próximos de estudos exploratórios.
• Estudo de caso: Estudo de caso pode ser definido com um estudo exaustivo, profundo e
extenso de uma ou de poucas unidades, empiricamente verificáveis, de maneira que permita
seu conhecimento amplo e detalhado. Nas ciências, durante muito tempo, o estudo de
caso foi encarado como procedimento pouco rigoroso, que serviria apenas para estudos de
maneira exploratória. Hoje, porém, é encarado como o delineamento mais adequado para
a investigação de um fenômeno contemporâneo dentro de seu contexto real, onde os limites
entre o fenômeno e o contexto não são claramente percebidos.
O estudo de caso, como modalidade de pesquisa, pode ser utilizado tanto nas ciências
biomédicas como nas ciências sociais. Nas ciências biomédicas é utilizado para a inves-
tigação das peculiaridades que envolvem determinados casos cĺınicos e nas ciências soci-
9
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
ais para a investigação das particularidades que envolvem a formação de determinados
fenômenos sociais.
Por unidade-caso podemos entender uma pessoa, uma famı́lia, uma comunidade, uma em-
presa, um regime poĺıtico, uma doença, etc. Para a coleta de dados no estudo de casos
geralmente utilizam-se as técnicas da pesquisa qualitativa, sendo a entrevista a principal
delas.
• Estudo de campo: O estudo de campo é um tipo de pesquisa que procura o aprofun-
damento de uma realidade espećıfica. É basicamente realizado por meio da observação
direta das atividades do grupo estudado e de entrevistas com informantes que captam as
explicações e interpretações do que ocorre naquela realidade.
1.5 Estat́ıstica descritiva e inferência estat́ıstica
Os governos vêm, de longa data, utilizando recenceamentos como forma de contar indiv́ıduos
e propriedades, e o escopo de descrever, resumir e analisar dados de censos levou ao desenvol-
vimento de métodos que consistem o que se chama estat́ıstica descritiva, que compreende
o manejo dos dados para resumi-los ou descrevê-los, sem ir além, isto é, sem fazer nenhuma
inferência. Por exemplo, se os testes feitos em um laboratório mostraram que um determinado
metal atinge de 0 a 60 graus em
18, 7 19, 2 16, 2 12, 3 17, 5 13, 9
minutos, afirmamos que a metade deles atinge 60 graus em 16,3 minutos, esta é uma caracteŕıstica
da estat́ıstica descritiva.
Embora a estat́ıstica descritiva seja um ramo importante da estat́ıstica as informações es-
tat́ısticas quase sempre são obtidas de amostras, e isto significa que sua análise exige genera-
lizações que ultrapassam os dados. Assim, a inferência estat́ıstica têm sido muito utilizada, e
seus métodos têm apresentados resultados interessantes.
Logo, para se resolver um problema de probabilidade, supõe-se conhecer certas carac-
teŕısticas de uma população. Então, respondemos a questões relativas à amostra extráıda da-
10
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
quela população. Em um problema estat́ıstico, admitimos muito pouco sobre uma população.
Usamos a informação sobre uma amostra para respondermos a questões relativas à população.
Os métodos da inferência estat́ıstica permitem prever a duração média da vida útil de uma
calculadora manual, estimar o valor de consumo de água do ano de 2010, comparar eficiência
de dois programas de dieta, determinar a dosagem ideal para determinado medicamento, entre
várias coisas.
1.6 População e amostra
Define-se população como um conjunto de elementos que possuem caracteŕısticas similares.
Amostra pode ser definida como uma parte da população, um subconjunto, ou ainda um
fragmento ou exemplar representativo da população. Geralmente, é a partir deste subconjunto
da população que se estabelecem ou estimam as propriedades e caracteŕısticas dessa população.
Na maioria dos casos, os pesquisadores fazem uso de amostras com o objetivo de descrever e
fazer inferências na população.
1.6.1 Terminologia Estat́ıstica
• Unidade experimental, amostral ou de análise: É o objeto ou indiv́ıduo que será
estudado na população, e sobre os quais obtêm-se os dados.
11
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
• Dados: É o valor ou resposta que toma a variável em cada unidade experimental. É o
resultado de uma observação. É a matéria prima da estat́ıstica.
• Variável: É uma caracteŕıstica observável, suscept́ıvel de adotar distintos valores ou ser
expresso em várias categorias. Exemplos: Idades; Sexo; Série; Horas de estudo; Horas de
treino; etc...
• Informação: É o resultado dos dados processados (ou organizados) de acordo com certos
objetivos.
• Estat́ıstica: É qualquer função dos dados emṕıricos (baseado apenas na experiência, e
não no estudo) que é usada com fins descritivos ou anaĺıticos. É uma medida resumo dos
dados.
• Parâmetros: São as caracteŕısticas mais importantes da população. Comumente são
desconhecidos.
1.7 Classificação das variáveis
Os dados estat́ısticos constituem a matéria-prima das pesquisas estat́ısticas, e nada mais são do
que informações sobre fatos observados.
1.7.1 Variáveis qualitativas
São caracteŕısticas cujos dados não são numéricos, isto é, são apresentados como uma qualidade
ou atributo. Ex: Sexo, estado civil, ńıvel de escolaridade.
1. Nominal: Não existe nenhuma ordenação ou hierarquia nos posśıveis resultados. Ex:
sexo, estado civil, região de procedência.
2. Ordinal: Existe uma certa ordem ou hierarquia nos posśıveis resultados. Ex: Nı́vel de
escolaridade, ńıvel de satisfação.
12
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
1.7.2 Variáveis quantitativas
É uma caracteŕıstica em estudo cujos resultados se referem a quantidades, isto é, são medidas
numa escala numérica. Ex: idade, salário, número de filhos, etc.
1. Discretas: Cujos resultados se referem a dados que podem assumir valores inteiros (N).
Ex: idade, número de pessoas, número de filhos por famı́lia, etc.
2. Cont́ınuas: São dados que podem assumir qualquer valor de um conjunto de números
reais (R). Ex: peso, altura, consumo mensal de energia, etc.
Exemplo: Classifique cada uma das variáveis:
Variável tipo (natureza)
Condição de saúde (doente, não doente)
Tipo de parto (normal, cesáreo)
Nı́vel de colesterol sérico (mg/100cc)
Tempo de um procedimento cirúrgico (minutos)
Número de praias consideradas polúıdas
Custo de procedimento (reais)
Peso (g)
Estado nutricional (desnutrição, eutrofia, sobrepeso, obesidade
Consumo de energia (Kcal)
Realização do desjejum (sim/não)
Número de escolares por turma
Realização de atividade f́ısica diária (sim/não)
Tempo assistido de TV/dia (< 2h, 2 a 4h, > 4h)
Percentual de gordura corporal (%)
Estado civil
Tempo de processamento de um algoritmo
Número de sucessos em 20 rep. de um exper.
Nı́vel de escolaridade
Cor dos olhos
Classificação de peça (Def./não Def.)
Estado de uma lâmpada (ligada/desligada)
N. buracos em 100km de rodovia
1.7.3 Natureza dos dados
Principalmente em pesquisas sociais, o analista se defronta com situações em que dispõe de
muitos dados, e é dif́ıcil absorver as informações que procura investigar, e portanto é dif́ıcil
captar intuitivamente todas as informações que os dados contém.
É necessário reduzir as informações até o ponto que elas possam ser interpretadas com clareza,
isto é, resumi-las através de medidas-śınteses, comumente chamadas de estat́ısticas descritivas.
Assim, uma estat́ısitca descritiva é um número que descreve sozinho uma caracteŕıstica de um
conjunto de dados.
13
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
As pessoas normalmente se lembram da estat́ıstica quando se vêem diante de grandes quan-
tidades de informação.Na percepção do senso comum, o emprego de métodos estat́ısticos seria
algo semelhante à prática da mineração. Um estat́ıstico seria um tipo de minerador bem suce-
dido, capaz de explorar e processar montanhas de números e delas extrair valiosas conclusões.
Entretanto, a atividade estat́ıstica mais importante não é a análise de dados, e sim o planeja-
mento dos experimentos em que os dados devem ser obtidos. Quando isso não for feito da forma
apropriada, o resultado muitas vezes é uma montanha de números estéreis, da qual estat́ıstico
algum conseguiria quaisquer conclusões.
Para tal, devemos projetar o planejamento de forma que ele seja capaz de fornecer exatamente
o tipo de informação que procuramos. Quando se pretende fazer um estudo estat́ıstico completo,
existem várias faces do trabalho que devem ser observadas:
1. definição do problema: definição ou formulação correta do problema a ser estudado;
2. planejamento: determinação do procedimento necessário para resolver o problema, espe-
cialmente em como levantar informações sobre o objeto de estudo;
3. coleta de dados: obtenção, reunião e registro sistemático de dados;
4. operação dos dados: sumarização, consiste em resumir os dados através de sua contagem
e agrupamento;
5. apresentação dos dados: pode ser em forma de tabelas ou gráficos;
6. análise e interpretação dos dados: mais importante e mais delicada fase, consiste em
tirar conclusões que auxiliem o pesquisador a resolver seu problema e propor medidas que
solucionem o mesmo.
1.8 Exerćıcios
1. Há alguma evidencia que sugere que as pessoas com hepatite C crônica tem um ńıvel de
enzima do f́ıgado que flutua do normal ao anormal. Cinquenta pacientes diagnosticados com
hepatite C foram selecionados e sues ńıveis de enzima do f́ıgado registrados diariamente,
durante um mês. Descreva a população, a amostra e a variável resposta.
14
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
2. Realizou-se um estudo para determinar se a exaustão esta relacionada a ńıveis de cortisol.
Setenta e oito indiv́ıduos foram selecionados e seus ńıveis de cortisol foram medidos 30
minutos após acordarem. Descreva a população, a amostra e a variável resposta neste
problema.
15
Caṕıtulo 2
Amostragem
Em quase todos os casos de estudos estat́ısticos, uma estimativa está associada a uma pesquisa
ou a uma verificação de caracteŕısticas, que devido a custos acesśıveis com resultados satisfatórios,
não é realizada sobre todos os elementos da população, mas sim sobre uma parte dela, chamada de
amostra. Assim, um dos objetivos da estat́ıstica é tirar conclusões sobre o “todo” (população) a
partir das informações fornecidas por “parte representativa” do todo (amostra). Assim, realizadas
as fases de descrição dos dados. (estat́ıstica descritiva), é feita uma análise dos resultados, obtidos
através dos métodos da Estat́ıstica Inferencial ou Indutiva, que tem por base a indução, inferência
de dados com indução da precisão, obtida por meio da teoria da probabilidade.
A Estat́ıstica lida não somente com a organização e análise de dados depois de sua coleta,
como também com o desenvolvimento de técnicas de coleta (Amostragem).
Não basta saber descrever os dados convenientemente e dominar as técnicas estat́ısticas as-
sociadas para tal. Antes de tudo, é preciso garantir que a amostra ou amostras que serão usadas
sejam obtidas de maneira adequada, para evitar que erros grosseiros aconteçam e leve a perder
os resultados.
É de suma importância que os dados sejam de uma amostra representativa da população, ou
seja, a amostra deve manter as caracteŕısticas principais da população. Para tal, assumiremos
que a população seja finita e composta de N elementos, salvo quando explicitamos o contrário.
O número de elementos que serão amostrados será representado por n.
16
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Os problemas de amostragem podem ser de dif́ıcil entendimento dependendo do que se deseja
estudar em uma população. Por exemplo, em pesquisas de opinião há uma grande complexidade
de coleta de dados, e, em tais casos é necessário maiores cuidados.
Distinguem-se dois tipos de amostragem: (1) Amostragem probabiĺıstica: quando todos os ele-
mentos da população tem probabilidades conhecidas, e diferente de zero, de pertencer à amostra.
(2) Em caso contrário, a amostragem é dita ser não-probabiĺıstica.
Vantagens de um levantamento por amostragem
1. Menor custo;
2. Menor tempo;
3. Maior amplitude do universo;
4. Menor erro da medida.
2.1 Amostragem probabiĺıstica
Desta maneira, a amostragem probabiĺıstica implica um sorteio com regras bem determinadas,
cuja realização só é posśıvel se a população é finita e totalmente acesśıvel.
A amostragem probabiĺıstica é a melhor recomendação que se deve fazer no sentido de garantir
a representatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias
entre população e amostra.
Além disso, as amostragens probabiĺısticas são particularmente importantes nos processos de
inferência, pois os métodos estat́ısticos são constrúıdos sob suas propriedades. Descreveremos a
seguir alguns tipos de amostragens probabiĺısticas.
2.1.1 Amostragem casual simples
Também conhecida como simples ao acaso, aleatória, casual, simples, elementar, randômica, é
equivalente a um sorteio lotérico. Nela, todos os elementos da população têm igual probabilidade
de pertencer à amostra.
17
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Sendo N o número de elementos da população e n o número de elementos da amostra, cada
elemento da população tem probabilidade n
N
de pertencer à amostra (considernado-se amostras
sem reposição).
É a técnica amostral mais utilizada em pesquisas. Na prática, enumera-se os elementos da
população de 1 a N , e sorteia-se, a seguir, por meio de um dispositivo aleatório qualquer, n
números da sequência, estes números comporão a amostra.
A seleção de uma amostra aleatória simples pode ser facilitada com o uso de números
aleatórios, ou seja, números resultantes de sucessivos sorteios aleatórios do conjunto {1, 2, 3, · · · , 9}
fazendo com que todo número com mesma quantidade de algarismos tenha a mesma probabili-
dade de ocorrência.
Exemplo 1: Obtenha uma amostra casual simples de tamanho n = 6 da sua turma de Probabi-
lidade e Estat́ıstica, em que N = , usando um dispositivo de sorteio aleatório.
Exemplo 2: Queremos realizar uma pesquisa de opinião sobre a qualidade de um curso uni-
versitário, que tem cerca de 1000 alunos, perguntando aspectos relativos ao encadeamento das
disciplinas no curŕıculo. Decidimos utilizar amostragem aleatória simples para selecionar os
respondentes. Este método de amostragem é o mais apropriado?
Exemplo do BioEstat: Para determinar a estatura média de uma população de 350 alunos da
segunda série do Ensino Fundamental, tomou-se amostra aleatória de 40 estudantes, precedida
da listagem numérica de todos os discentes desse universo.
18
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
2.1.2 Amostragem sistemática
Quando os elementos da população se apresentam ordenados e a retirada dos elementos da
amostra é feita periodicamente, temos uma amostragem sistemática.
Assim:
1. calcula-se o intervalo de seleção, dado por r = N/n, desprezando as decimais
2. sorteia-se o primeiro elemento do conjunto, a1, que deverá ser menor ou igual a r;
3. completa-se a amostra, extraindo um elemento a cada r elementos. Assim, teremos a PA
de razão r, dada por:
(
a1, a1 + r, a1 + 2r, . . . , a1 + (n− 1)r).
Por exemplo, em uma linha de produção onde são produzidos 300 itens por dia, uma amostra
sistemática de tamanho 10, deve escolher elementos de cada 30 itens produzidos.
Ou ainda, seja N = 800 e n = 50, supondo a população ordenada, a amostra sistemática é
composta peloselementos de posição múltipla de 16 (800
50
= 16)!!!
A principal vantagem da amostragem sistemática está na grande facilidade de coleta, en-
tretanto existe um grande perigo: pois se existem ciclos de variação da variável de interesse, a
amostra sistemática conterá a caracteŕıstica do ciclo; especialmente se o peŕıdo coincidir com a
retirada do elemento.
Exemplo 1: Obtenha uma amostra sistemática de tamanho n = 6 da sua turma de Probabilidade
e Estat́ıstica, em que N = .
Exemplo 2: Suponhamos que desejamos estudar o estado de conservação da rodovia BR277
com 180 Km. Para tal, estudaremos uma amostra aleatória de 30 elementos. Quais elementos
poderão ser escolhidos?
19
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Exemplo 3: Uma operadora telefônica dispõe de uma lista ordenada alfabeticamente com todos
os seus assinantes e pretende saber a opinião de seus assinantes comerciais sobre seus serviços
na cidade de Florianópolis. Supondo que há 25037 assinantes comerciais, e a amostra precisa
ter no mı́nimo 800 elementos, mostre como seria organizada uma amostragem sistemática para
selecionar os respondentes.
Resposta: A operadora dispõe de uma lista ordenada alfabeticamente com todos os seus
assinantes, o intervalo de retirada será:
r = N/n = 25037/800 = 31, 2965.
Como o valor de r é fracionário algo precisa ser feito. Aumentar o tamanho da amostra não resol-
verá o problema, porque 25037 é um número primo. Como não podemos reduzir o tamanho de
amostra, devendo permanecer igual a 800, se excluirmos por sorteio 237 elementos da população,
e refizermos a lista teremos:
r = N/n = 24800/800 = 31.
A cada 31 assinantes um é retirado para fazer parte da amostra. Devemos sortear o ponto de
partida: um número de 1 a 31 (do 1o ao 31o assinante).
2.1.3 Amostragem Estratificada
Muitas vezes a população se divide em subpopulações ou estratos, com caracteŕısticas comuns
em cada estrato, e diferente de estrato para estrato. E pode ocorrer que os estratos não sejam
bem representados na amostra simples, por exemplo, pois os tamanhos dos estratos diferem.
Por exemplo, se para estudar a dureza de certo aço temos corpos de prova de dois fornecedores,
então a população dos corpos de prova pode ser dividida em dois estratos. Sob os diversos estratos
da população são realizadas seleções aleatórias de forma independente. A amostra completa é
obtida através da agregação das amostras de cada estrato.
• Amostragem estratificada proporcional: a proporcionalidade do tamanho de cada estrato da
população é mantida na amostra. Por exemplo, se um estrato abrange 20% da população,
ele também deve abranger 20% da amostra.
20
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
• Amostragem estratificada uniforme: selecionamos o mesmo número de elementos em cada
estrato. É o processo usual quando se deseja comparar os diversos estratos.
• Amostragem estratificada ótima: quando se toma em cada estrato um número de elemen-
tos proporcional ao número de elementos do estrato e também à variação da variável de
interesse no estrato, medida pelo seu desvio padrão.
Primeiramente a população N é dividida em L sub-populações (estratos) com N1, N2, · · · , NL
elementos. Para cada estrato, escolhe-se ni elementos aleatoriamente, com i = 1, · · · , L, totali-
zando n elementos.
ni =

todos iguais : ni =
n
L
,
proporcionais a Ni : ni = nWi, em que Wi =
Ni
N
,
tamanho ótimo (considera a variabilidade) : ni = n
Nisi∑
i=1 LNisi
.
Exemplo 1: Selecionar aleatoriamente 60 pessoas da população organizada da seguinte forma:
50 solteiros, 210 casados e 40 outras.
Exemplo 2: Considere uma população de tamanho 100, onde existem 4 estratos, com 50, 25, 10
e 15 elementos cada um.
(a) Extraia uma amostra estratificada proporcional de tamanho 10.
(b) Extraia uma amostra estratificada uniforme de tamanho 10.
Exemplo do BioEstat: A população de uma cidade de 600 habitantes foi dividida em dois
estratos: urbano e rural, com a finalidade de se estudar a incidência de malária em cada grupo
de seus residentes. O estrato urbano possui 400 habitantes e o rural, 200. O tamanho total da
amostra deve compreender 60 pessoas. Deve-se notar que o tamanho da amostra retirada de cada
subconjunto é proporcional ao tamanho de cada estrato em relação ao tamanho da população.
2.1.4 Amostragem por meio de conglomerados
Ao contrário da amostragem estratificada, a amostragem de conglomerados tende a produzir
uma amostra que gera resultados menos precisos, quando comparada com uma amostra aleatória
21
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
simples de mesmo tamanho. Contudo, seu custo financeiro tende a ser bem menor, especialmente
em amostragens de grandes populações.
Quando a população apresenta uma subdivisão por meio de pequenos grupos, chamados de
conglomerados, é posśıvel - e conveniente - fazer-se a amostragem por conglomerados, que consiste
em sortear um número suficiente de conglomerados, cujos elementos construirão a amostra.
Ou seja, as unidades de amostragem, sobre as quais é feito o sorteio, passam a ser os conglo-
merados, e não mais os elementos individuais da população.
Exemplo 1: Pesquisa Nacional por Amostra de Domićılios (PNAD) do IBGE. Coleta informações
demográficas e sócio-econômicas sobre a população brasileira. Utiliza amostragem por conglo-
merados.
Primeiro estágio: amostras de munićıpios (conglomerados) para cada uma das regiões
geográficas do Brasil;
Segundo estágio: setores censitários sorteados em cada munićıpio (conglomerado sorteado);
Terceiro estágio: domićılios sorteados em cada setor censitário.
Exemplo do BioEstat: Calcular o peso médio de estudantes da quinta série do ensino funda-
mental das escolas públicas de um munićıpio. O total de estabelecimentos de ensino é de 52
escolas (conglomerados do 1o estágio), cada uma com 10 turmas da quinta série (conglomerados
do 2o estágio), e cada turma apresentando 40 alunos matriculados (unidades simples, 3o estágio).
Foram selecionadas 5, 4 e 8 unidades dos estágios 1o, 2o e 3o, respectivamente, constituindo, ao
final, amostra de 160 discentes (5 x 4 x 8).
2.2 Amostragem não-probabiĺıstica
As amostras não-probabiĺısticas são também, muitas vezes, empregadas na estat́ıstica, por sim-
plicidade ou inacessibilidade de toda a população. Nestes casos, supõe-se um tamanho amostral
e usa-o para coletar as amostras.
A obtenção de uma amostra probabiĺıstica exige que se obtenha uma listagem com os elemen-
tos da população. Em suma, exige acesso a todos os elementos da população, que a população
22
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
acesśıvel seja igual à população alvo. Nem sempre é posśıvel obter tal listagem na prática, o
que teoricamente inviabilizaria a retirada de uma amostra aleatória. Então deve-se recorrer à
amostragem não probabiĺıstica.
Ao usar a amostragem não probabiĺıstica o pesquisador não sabe qual é a probabilidade de que
um elemento da população tem de pertencer à amostra. Portanto, os resultados da amostra não
podem ser estatisticamente generalizados para a população, porque não se pode estimar o erro
amostral. Se as caracteŕısticas da população acesśıvel forem semelhantes às da população alvo
os resultados podem ser equivalentes aos de uma amostragem probabiĺıstica, mas não podemos
garantir a sua confiabilidade.
Alguns dos usos habituais da amostragem não probabiĺıstica são os seguintes:
a) Como etapa preliminar em projetos de pesquisa;
b) em projetos de pesquisa qualitativa;
c) em casos onde a população de trabalho não pode ser enumerada.
2.2.1 Amostragem a Esmo
É a amostragem em que o amostrador, para simplificar o processo, procura ser aleatório sem,
no entanto realizar propriamente o sorteio usando algum dispositivo aleatório confiável. Por
exemplo, se desejarmos retirar uma amostra de 100 parafusos de uma caixacontendo 1000
evidentemente não faremos uma amostragem casual simples, pois seria extremamente trabalhosa,
mas procederemos a retirada simplesmente a esmo.
Os resultados da amostragem a esmo são em geral equivalentes aos de uma amostragem
probabiĺıstica se a população é homogênea e se não existe a possibilidade de o amostrador ser
inconscientemente influenciado por alguma caracteŕıstica dos elementos da população.
Exemplo 5: Imagine um lote de 10000 parafusos, do qual queremos tirar uma amostra de 100,
se fôssemos realizar uma amostragem aleatória simples o processo seria muito trabalhoso. Então
simplesmente retiramos os elementos a esmo. Este tipo de amostragem também pode ser utilizado
quando a população for formada por material cont́ınuo (gases, ĺıquidos, minérios), bastando
homogeneizar o material e proceder a retirada da amostra.
23
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
2.2.2 Amostragem intencional
É uma amostragem não probabiĺıstica e consiste em selecionar um subgrupo de população que,
com base nas informações dispońıveis, possa ser considerado representativo, de toda a população.
A principal vantagem da amostragem intencional esta nos baixos custos de sua seleção. A
amostragem intencional não é considerada um bom método, pois os dados podem ser facilmente
manipulados, direcionados aos interesses do pesquisador ou de quem encomendou a pesquisa.
Exemplo 6: Por exemplo, suponhamos que você quer saber a opinião de estudantes universitários
brasileiros sobre poĺıtica. Para realizar uma amostra probabiĺıstica, seria necessário ter acesso a
todos os estudantes universitários brasileiros, selecionar um grupo aleatório e realizar a pesquisa.
Já para realizar uma amostra por conveniência, podeŕıamos abordar três universidades próximas,
simplesmente porque representam o local onde a população da pesquisa “reside” e perguntar a
alguns estudantes do peŕıodo matutino que concordam em participar.
2.2.3 Amostragem por cota
Parece semelhante a uma amostragem estratificada proporcional, da qual se diferencia por não
empregar sorteio na seleção dos elementos. A população é dividida em vários subgrupos, na
realidade é comum dividir em um grande número para compensar a falta de aleatoriedade, e
seleciona-se uma cota de cada subgrupo, proporcional ao seu tamanho.
Na amostragem por cotas os elementos da amostra são escolhidos pelos entrevistadores (de
acordo com os critérios...), geralmente em pontos de grande movimento, o que sempre acarreta
certa subjetividade (e impede que qualquer um que não esteja passando pelo local no exato mo-
mento da pesquisa possa ser selecionado). Na prática muitas pesquisas são realizadas utilizando
amostragem por cotas.
Exemplo 7: Em uma pesquisa de opinião eleitoral podeŕıamos dividir a população de eleitores
por sexo, ńıvel de instrução, faixas de renda entre outros aspectos, e obter cotas proporcionais
ao tamanho dos grupos (que poderia ser obtido através das informações do IBGE).
Exemplo 8: Se definirmos segmentos por sexo numa população onde há 60% masculino e 40%
feminino e queremos uma amostra de n = 1000, podeŕıamos coletar 600 pessoas do sexo masculino
e 400 do sexo feminino.
2.3 Exerćıcios
1. Uma população de 1000 elementos foi dividida em 3 estratos, sendo um com 100 elementos
(E1), outro com 300 elementos (E2) e o último com 600 elementos (E3). Pretende-se retirar
uma amostra de 60 elementos para uma pesquisa, qual deve ser o tamanho da amostra em
cada estrato proporcionalmente?
2. Selecione 8 alunos da população listada abaixo, através de amostragem casual simples,
usando um dispositivo de sorteio aleatório, considere usar com reposição e sem reposição.
24
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Número Nome Notas Número Nome Notas
1 Alysson 5,8 19 Isabela 7,0
2 Amanda 7,3 20 Jessica 2,1
3 Anderson 2,1 21 Jhonatan 3,9
4 Angela 7,5 22 João 5,6
5 Arthur 8,2 23 José 7,8
6 Artur 4,3 24 Kaio 6,5
7 Camila 5,6 25 Leandro 4,6
8 Cayo 6,6 26 Let́ıcia 7,8
9 Cesar 5,4 27 Lucas 4,9
10 Cezar 7,8 28 Maicon 6,5
11 Daniel 9,5 29 Maresa 4,5
12 Fabio 3,2 30 Maria 6,7
13 Fagner 4,0 31 Mauŕıcio 5,5
14 Gabriela 3,7 32 Nathan 5,4
15 Glória 8,4 33 Ricardo 0,3
16 Gryele 6,5 34 Thais 1,3
17 Herily 3,4 35 Thayse 2,5
18 Igor 6,7 36 Valeria 5,8
3. Selecione uma amostra estratificada uniforme, de tamanho n = 6 do exerćıcio 1.
4. Identifique o tipo de amostragem utilizado.
(a) Ao escalar um júri um tribunal de justiça decidiu selecionar aleatoriamente 4 pessoas
brancas, 3 morenas, e 4 negras.
(b) Um cabo eleitoral escreve o nome de cada senador do Brasil, em cartões separados,
mistura e extráı 10 nomes.
(c) Um administrador hospitalar faz uma pesquisa com as pessoas que estão na fila de
espera para serem atendidas pelo sistema SUS, entrevistando uma a cada 10 pessoas
da fila.
(d) Ao escalar uma comissão para atuar em determinado projeto, uma empresa decidiu
selecionar aleatoriamente 4 pessoas brancas, 3 pardas e 4 negras.
(e) Uma professora escreve o nome de todos os seus alunos em pedaços de papel e coloca
em uma caixa. Depois de misturá-los, sorteia 10 nomes.
(f) Um administrador de uma sala de cinema faz uma pesquisa com as pessoas que estão
na fila de espera para comprar ingresso, entrevistando uma pessoa a cada 10 presentes
na fila.
(g) Deseja-se selecionar uma amostra de domićılios da cidade de São Paulo. As ruas estão
identificadas pelas letras de A a F. As casas de cada rua estão identificadas pelo nome
da rua, seguido por um número. Primeiro foram sorteadas duas ruas (B e F) e depois,
foram selecionados ao acaso 50% dos domićılios de cada rua
25
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
5. Um pesquisador pretende levantar dados sobre o número de moradores por domićılio,
usando a técnica de amostragem simples sistemática. Para isso, o pesquisador visitará
cada domićılio selecionado. Se nenhuma pessoa estiver presente na ocasião da visita, o
pesquisador exclúıra o domićılio da amostra. Esta última determinação introduz tendenci-
osidade. Por quê?
6. Com o objetivo de fazer testes de qualidade com determinados produtos de uma indústria
optou-se por realizar um levantamento por amostragem. A população é constitúıda por:
produto A: A1, A2, A3, A4, A5, A6, A7, A8, A9, A10
produto B: B1, B2, B3, B4, B5, B6, B7, B8, B9, B10
produto C: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10,
C11, C12, C13, C14, C15, C16, C17, C18, C19, C20,
C21, C22, C23, C24, C25, C26, C27, C28, C29, C30
Realizar uma amostragem aleatória estratificada proporcional por produto para obter uma
amostra global de tamanho 10.
7. Comente os seguintes planos de amostragens, apontando suas incoerências, quando for o
caso:
(a) Com a finalidade de estudar o perfil dos consumidores de um supermercado, observaram-
se os consumidores que compareceram ao supermercado no primeiro sábado do mês;
(b) Com a finalidade de estudar o perfil dos consumidores de um supermercado, fez-se a
coleta de dados durante um mês, tomando a cada dia um consumidor da fila de cada
caixa do supermercado, variando sistematicamente o horário da coleta dos dados;
(c) Para avaliar a qualidade dos itens que saem de uma linha de produção, observaram-se
todos os itens das 14 às 14:30min;
(d) Para avaliar a qualidade dos itens que saem de uma linha de produção, observou-se
um item a cada meia hora, durante todo o dia;
8. Um pesquisador obteve as seguintes observações. Classifique cada conjunto de dados re-
sultante como categórico ou numérico. Se o conjunto for numérico, determine se é discreto
ou cont́ınuo.
(a) O número de livros lidos por alunos do Ensino Médio durante um ano acadêmico.
(b) A posição da ponte móvel de Belmar, New Jersey, ao meio dia, em dias de julho.
Suponha que a ponte não esteja se movendo, e esteja ou aberta ou fechada ao tráfego
de barcos.
(c) O tempo (em minutos) necessário para um corte de cabelo.
(d) O númerode guardas de segurança em serviço em prédios de escritórios.
(e) Os tipos de doces recebidos em casa no dia de Halloween.
(f) A pressão do ar em bolas de futebol no ińıcio dos jogos colegiais.
(g) Os pesos de várias resmas de papel.
(h) O número de carros levados pelo guincho em uma rodovia, durante certos peŕıodos de
24 horas.
26
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
(i) O número de jogos ganhos pelo Brasil durante a Copa do mundo.
(j) Os diagnósticos de pacientes em um pronto atendimento de emergência.
(k) O número de degraus de escadas de incêndio em prédios de apartamentos.
(l) O número de folhas em árvores frut́ıferas.
(m) As razões pelas quais vários automóveis não passam na inspeção.
(n) Os pesos dos reboques de trator completamente carregados.
(o) As áreas de várias fazendas em Toledo.
(p) O plano de telefonia escolhido pelos clientes.
(q) O número de rotações por minuto de motores de carros.
(r) O estado em que várias famı́lias passaram as últimas férias.
(s) Os tempos necessários para compilação de programas de computador.
(t) O número de abelhas em colméias.
9. Para as questões a seguir imagine um experimento em que se dividam os elementos em dois
grupos: Um grupo experimental e um grupo de controle.
(a) Por que os grupos devem ser tão semelhante quanto posśıvel?
(b) As pessoas devem saber em que grupo estão?
(c) Qual é o melhor sistema de dividir os indiv́ıduos pelos dois grupos?
10. Diversas universidades e faculdades institúıram programa de instrução suplementar (IS),
em que o monitor se encontra regularmente com um grupo de estudantes matriculados em
um curso para promover discussões sobre o material desse curso e melhorar o domı́nio da
disciplina. Suponha que os estudantes de um grande curso de estat́ıstica são aleatoriamente
divididos em grupo de controle que não participará do IS e um grupo de tratamento que o
fará. No final do peŕıodo, é determinada a pontuação total de cada estudante do curso.
(a) As pontuações do grupo IS são uma amostra da população existente? Caso seja, qual
é? Caso contrário, qual é a população conceitual relevante?
(b) Qual você acha que é a vantagem de dividir aleatoriamente os estudantes em dois
grupos em vez de deixar que cada um escolha o grupo a qual participará?
(c) Por que os investigadores não colocaram todos os estudantes no grupo de tratamento?
27
Caṕıtulo 3
Estat́ıstica Descritiva
Com o advento da informática, o mundo encheu-se de dados. As empresas tem dados de suas
atividades, de seus funcionários, de seus clientes, etc. Mas para que estes dados sejam informa-
tivos, necessitamos organizá-los de forma adequada. Este é o papel da Estat́ıstica Descritiva.
A Estat́ıstica Descritiva é a fase na qual os dados de um experimento ou pesquisa, são orga-
nizados, resumidos, descritos, apresentados e interpretados. Esta fase é de grande importância
para uma pesquisa, pois nela, podemos perceber as tendências do nosso de dados. Após a coleta
dos dados experimentais, devemos organizá-los e apresentá-los, e esta apresentação, pode ser
feita através de tabelas e gráficos.
3.1 Organização e apresentação de dados
No dia-a-dia nos deparamos com variáveis qualitativas e variáveis quantitativas, estas últimas
podendo ser cont́ınuas (idade, peso, diâmetro) ou discretas (n. de filhos, n. de defeitos por uni-
dade). O método mais comum de resumir dados consiste em apresentá-los em forma condensada
de tabelas ou gráficos.
Suponha o banco de dados abaixo, que são notas de um teste de coordenação f́ısica aplicado
a 20 estudantes, após terem ingerido uma quantidade de álcool igual a 10% de seu peso:
69 84 52 93 61 74 79 65 88 63
57 64 67 72 74 55 82 61 68 77
Pergunta: O que podemos fazer para tornar esta massa de informação mais utilizável???
28
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
1. alguns autores acham interessante calcular valores extremos;
2. algumas vezes é interessante ordenar os dados, ou seja criar um rol de dados;
3. entretanto, para um banco grande de dados, a ordenação é uma tarefa bastante dif́ıcil. É
conveniente então usar a técnica de apresentação em ramo-e-folhas que oferece uma boa
visualização global dos dados.
Para tal, decompomos os algarismos em dezenas e unidades, marcando junto valores com
mesmas dezenas. As dezenas ficam alinhadas a esquerda, e as unidades à direita. Cada
linha representa a posição de um ramo e cada algarismo à direita da reta vertical pode ser
considerado como uma folha;
4. ou em forma de Tabelas:
3.1.1 Tabelas de distribuições de frequências
As apresentações através de tabelas deverão ser realizadas em uma pesquisa, mediante alguma
convenção ou norma, dependendo de qual instituição, congresso ou órgão, esta tabela será apre-
sentada. Mas alguns prinćıpios/elementos básicos podem ser utilizados:
• Número: vem sempre depois da palavra Tabela e antes do t́ıtulo, serve para que se possa
identificar a tabela ao citá-la no texto;
• Tı́tulo: onde é dada uma noção inicial ao leitor sobre o que é a tabela;
• Cabeçalho: para que sejam identificados os conteúdos referentes a cada coluna da tabela.
O cabeçalho deve conter o suficiente para responder as questões: o que está sendo repre-
sentado? onde ocorreu? Quando ocorreu?
• Coluna Indicadora: que especifica as diferentes categorias da variável;
• Corpo: é representado por colunas e subcolunas dos quais são registrados os dados numéricos
e informações.
• Rodapé ou pé: onde é identificada a fonte original dos dados, ou alguma nota referente a
tabela.
Por exemplo,
29
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Tabela 1: Notas finais dos estudantes da disciplina de Probabilidade e Estat́ıstica 2014.2
Notas frequência
00 ` 10 4
10` 20 5
20` 30 6
30` 40 8
40` 50 12
50` 60 7
60` 70 5
70` 80 3
Fonte: Diário de classe da profa. Regiane Slongo Fagundes.
Observação: Não há linhas laterais, ponto final em cada linha e linhas horizontais no corpo da
tabela separando as linhas!!!
Esta tabela é chamada de distribuição de frequência ou distribuição. Se os dados estão
agrupados em categorias não numéricas, a tabela se chama distribuição por categorias (ou qua-
litativa). Por exemplo, considere as 2439 queixas sobre caracteŕısticas de conforto nos aviões de
uma companhia aérea:
Tabela 2: Queixas sobre caracteŕısticas de conforto nos aviões de uma companhia aérea
Natureza das reclamações n. de reclamações
espaço insuficiente para pernas 719
assentos desconfortáveis 914
corredores estreitos 146
espaço insuficiente p/ bagagem mão 218
banheiros insuficientes 58
outras 384
Fonte: Montgomery e Runger, (2009).
É posśıvel transformar uma tabela como esta em uma distribuição numérica mediante codi-
ficação dos dados, por exemplo, atribuindo às seis alternativas os números 1, 2, 3, 4, 5 e 6, mas
isto nos daria dados nominais que são numéricos apenas em sentido trivial.
A construção de uma tabela de frequência consiste essencialmente de três etapas:
1. escolha das classes (intervalos ou categorias);
2. enquadramento dos dados nessa categoria;
3. contagem do número de elementos em cada classe.
A etapa mais dif́ıcil é a primeira, a saber, a escolha de uma classificação conveniente. Em
distribuições numéricas, consiste em decidir quantas classes utilizar e a amplitude de cada uma.
Esta escolha é puramente arbitrária, mas costuma-se observar:
1. raramente usam-se menos de seis classes ou mais de quinze classes. O número exato depende
de cada situação;
2. ter certeza que cada elemento se enquadra em uma e somente uma classe;
30
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
3. sempre que posśıvel, as classes devem ter amplitudes iguais, geralmente são múltiplos de
5;
Segundo Fonseca e Martins (2012), há duas aparentes soluções para a definição do número
de intervalos:
a)Se o número de elementos (n) for menor que 25 então o número de classes (k) é igual a 5;
se n for maior que 25, então o número de classes é aproximadamente a raiz quadrada positiva de
n. Ou seja:
** Para n ≤ 25, k = 5
** Para n > 25, k =
√
n.
b) Outro critério utilizado na determinação do número de classes k é através da fórmula
emṕırica de Sturges:
k = 1 + 3, 32 log n
onde n representa o total de observações.
A amplitude (h) de cada classe será dada por
h =
A
k
onde A = Xmax −Xmin representa a amplitude total das observações, definida como a diferença
entre o maior e o menor valores observados. Existem 4 variações de frequências, a saber
1. Frequência absoluta simples (fi): é o número de vezes em que cada elemento aparece
na amostra ou população.
2. Frequência Absoluta Simples Acumulada (Fi): É a soma das frequências dos dados
anteriores.
3. Frequência Relativa (fri): É a razão entre o valor de cada frequência e o número total
de dados existentes na observação. Ou seja:
fri =
fi
n
, i = 1, · · · , k
4. Frequência Relativa Acumulada (Fri): É a soma das frequências relativas dos dados
anteriores.
Exemplo 1: Quarenta alunos da UTFPR - Toledo foram questionados quanto ao número de
livros lidos no segundo semestre de 2016.
4 2 1 0 3 1 2 0 1 2
0 2 1 1 0 4 3 2 3 5
6 0 1 6 5 3 2 1 6 4
3 4 5 3 2 1 0 2 1 0
31
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
1. Organize os dados e construa as 4 variações da tabela de distribuição de frequências;
2. Qual o percentual de alunos que leram menos do que 3 livros?
3. Qual o percentual de alunos que leram 4 ou mais livros?
Exemplo 2: Os dados a seguir representam a idade 50 funcionários (colocados em ordem cres-
cente) selecionados aleatoriamente da população de uma indústria X.
18 20 20 21 22 24 25 25 26 27
29 29 30 30 31 31 32 33 34 35
36 36 37 37 37 37 38 38 38 40
41 43 44 44 45 45 45 46 47 48
49 50 51 53 54 54 56 58 62 65
Organize os dados e construa as 4 variações da tabela de distribuição de frequências. Interprete
os resultados.
32
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Exemplo 3: Construa uma distribuição de frequências simples (fi) para as seguintes notas obti-
das por 40 estudantes em um teste.
75 89 66 52 90 68 83 94 77 60 38 47 87 65 97 49 65 72
73 81 63 77 91 88 74 37 85 76 74 63 69 72 31 87 76 58
63 70 72 65
Organize os dados e construa as 4 variações da tabela de distribuição de frequências. Interprete
os resultados.
3.1.2 Tabela de distribuição de frequências bidimensional
Muitas vezes, estamos interessados em analisar o comportamento conjunto de duas ou mais
variáveis. Assim, vamos estudar como organizamos e resumimos os dados para uma distribuição
conjunta de duas variáveis em forma de tabelas. Essas tabelas podem apresentar freqüências
relativas as quais servem para apresentar estimativas de riscos, ou seja, dão estimativas das
probabilidades de dano.
O exemplo mostrado abaixo apresenta o número de nascidos vivos registrados, classificados
segundo dois fatores: o ano de registro e o sexo.
Tabela 3: Nascidos vivos registrados segundo o ano de registro e o sexo
Ano reg. Total
Masculino Feminino
1984 1.307.758 1.251.258 2.559.038
1985 1.339.059 1.280.545 2.619.604
1986 1.418.050 1.361.203 2.779.253
Nota: Nascimentos ocorridos no ano de registro.
Fonte: IBGE (1980).
3.2 Apresentações gráficas
Quando as distribuições de frequência têm como principal objetivo condensar grandes conjuntos
de dados em uma forma fácil de assimilar, é melhor apresentar essas distribuições graficamente.
Uma figura fala mais alto que mil palavras!
Para as distribuições de frequência, a forma mais comum de apresentação gráfica é o his-
tograma. Um histograma é constrúıdo, representando-se as medidas ou observações que são
agrupadas em uma escala horizontal, e as frequências de classe em uma escala vertical; traçam-se
então retângulos, cujas bases são iguais aos intervalos de classe e cujas alturas são as frequências
de classe correspondentes. As marcações na escala horizontal de um histograma podem ser os
pontos médios, os limites de classe, as fronteiras de classe ou outros valores básicos arbitrários.
33
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Observaç~ao: os retângulos de um histograma vão de uma fronteira de classe até a próxima. Não
é posśıvel traçar histogramas de distribuições com classes abertas; exige-se, outrossim, cuidado
especial quando os intervalos de classe não são todos iguais.
Figura 3.1: Exemplo de histograma.
Exemplo 1: Obtenha o histograma das notas finais dos estudantes da disciplina de Probabilidade
e Estat́ıstica 2014.2
Análogos aos histogramas são os gráficos de barras. As alturas dos retângulos, ou barras,
representam as frequências de classe como em um histograma, mas não se tem necessariamente
em vista uma escala horizontal cont́ınua.
34
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.2: Exemplo de gráfico de barras.
Exemplo 2: Obtenha o gráfico de barras do número de livros lidos no segundo semestre de 2016
na UTFPR - Toledo.
Outra forma, não tanto utilizada, é o poĺıgono de frequência. Aqui, as frequências de classe
são marcadas nos pontos médios, e os valores sucessivos são unidos por segmentos retiĺıneos. Se
faz necessário acrescentar classes com frequência zero em ambos os extremos da distribuição para
ligar o gráfico à escala horizontal.
Figura 3.3: Exemplo de poĺıgono de frequências.
Exemplo 3: Obtenha o poĺıgono de frequências das notas finais dos estudantes da disciplina de
Probabilidade e Estat́ıstica 2014.2
35
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Aplicando a uma distribuição cumulativa técnica idêntica, obtemos a chamada ogiva. Em
uma ogiva, entretanto, as frequências são acumuladas são marcadas nas fronteiras de classe, e
não nos pontos médios.
Figura 3.4: Exemplo de ogiva.
Exemplo 4: Obtenha o gráfico ogiva das notas finais dos estudantes da disciplina de Probabili-
dade e Estat́ıstica 2014.2
Embora o aspecto visual dos histogramas, gráficos em barras, poĺıgonos de frequência e ogivas
constitua acentuada melhoria sobre as simples tabelas, há várias maneiras em que as distribuições
podem ser apresentadas de forma ainda mais eficiente. Duas formas, bastante utilizada por
jornais e revistas, são o pictograma e o gráfico de setores, conhecido também como gráfico
de pizza.
Para construir um gráfico de setor, começamos por converter a distribuição em uma distri-
buição percentual. Como um ćırculo completo corresponde a 360 graus, obtemos os ângulos
centrais dos diversos setores multiplicando as percentagens por 360. Existem bastante variações
destes gráficos. Um aspecto negativo neste tipo de gráfico é que ele é de dif́ıcil comparação com
outros, o que não ocorre com os histogramas.
Exemplo 5: Obtenha o gráfico de setores do número de livros lidos no segundo semestre de 2016
na UTFPR - Toledo.
36
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.5: Exemplo de gráfico de setores ou de pizza.
E, informações numéricas podem ser resumidas através de mapas, que podem ser feitos
somente com auxilio de programas gráficos.
Figura 3.6: Exemplo de mapa.
3.3 Medidas descritivas
Quando analisamos uma variável qualitativa, basicamente constrúımos sua distribuição de frequências.
No entanto, ao explorarmos variáveis quantitativas, temos condições de empregar algumas me-
didas descritivas, que sintetizam as caracteŕısticas da distribuição. Vamos falar de medidas de
tendência central (MTC), dispersão (MD) e de forma (A e K).
37
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.7: Figura ilustrativa.
3.3.1 Medidas de tendência central
Média aritmética simples
O conceito de média é bastante familiar. Seja (x1, x2, · · · , xn) uma amostra de n observações de
certa variávelaleatória X. A média aritmética dessas observações é definida por:
x̄ =
x1 + x2 + · · ·+ xn
n
=
∑n
i=1 xi
n
A média resume os dados de forma a torná-los mais informativos.
Exemplo 1: Uma indústria de componentes eletrônicos está interessada em determinar a vida
útil de certo tipo de bateria. Uma amostra, em horas, segue abaixo:
123 116 122 110 145 126 125 111 118 117.
Calcule a média de vida útil da bateria.
Exemplo 2: Um gerente de supermercado, que deseja estudar a movimentação de pessoas em
seu estabelecimento, constata que 295, 1002, 941, 768, 1283 pessoas entraram na loja nos últimos
5 dias. Dê o número médio de pessoas na loja.
Exemplo 3: Se o salário médio anual pago aos três administradores de uma firma é R$156000, 00.
Algum deles pode receber um salário anual superior a R$500000, 00?
Propriedades da média
1. A soma algébrica dos desvios de um conjunto de valores em relação ao média aritmética é
zero;
2. A soma algébrica dos quadrados dos desvios de um conjunto de valores em relação a média
aritmética é mı́nima;
38
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
3. Somando ou subtraindo uma constante a todos os valores de uma variável, a média ficará
acrescida ou subtráıda a essa constante;
4. Multiplicando ou dividindo todos os valores de uma variável por uma constante, a média
ficará multiplicada ou dividida por essa constante
Vantagens do emprego da média aritmética:
1. Como faz uso de todos os dados para seu cálculo, pode ser determinada com precisão
matemática;
2. Pode ser determinada quando somente o valor total e o número de elementos forem conhe-
cidos.
Desvantagens do emprego da média aritmética:
1. Não pode ser empregada para dados qualitativos;
2. É influenciada por valores extremos, podendo, em alguns casos, não representar a série.
Para você pesquisar: Investigue outras médias e suas principais propriedades, como por exem-
plo: média geométrica, média harmônica, média aritmética ponderada, média hipergeométrica.
Mediana
É o valor que ocupa a posição central de um conjunto de dados ordenados. É a medida do
elemento do meio se n é ı́mpar, ou a média dos elementos centrais se n é par:
x̃ = Me =
{
x(n+12 )
, se n ı́mpar;
x(n2 )
+x(n2 +1)
2
, se n par.
Nota: Para calcular a mediana é necessário que os dados estejam ordenados!!!
Exemplo 1: Determine a mediana da vida útil das baterias.
110 111 116 117 118 122 123 125 126 145.
Exemplo 2: Considere o número de pessoas que frequentam a disciplina de uma instituição:
40, 32, 37, 30, 24
Dê a mediana.
Vantagem do emprego da mediana
39
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
1. A mediana não é influenciada por valores extremos.
Desvantagens do emprego da mediana
1. A mediana é uma medida que exige uma ordenação de categorias, da mais alta a mais baixa,
assim ela só pode ser obtida para variáveis qualitativas ordinais ou para as quantitativas,
jamais para variáveis qualitativas nominais;
2. Não inclui todos os valores da distribuição;
Moda
A moda de um conjunto de dados é o número que teve maior número de repetições.
Quando não há número que mais repete, dizemos que o conjunto é amodal. Se houverem dois
valores com iguais sequências, o conjunto é bimodal. E se houverem vários números, dizemos que
é um conjunto multimodal.
Exemplo 1: Determine a moda da vida útil das baterias.
110 111 116 117 118 122 123 125 126 145.
Vantagens do emprego da moda
1. A moda é uma medida que requer apenas o conhecimento da frequência absoluta e pode
ser utilizada para qualquer tipo de variáveis, tanto qualitativas, quanto quantitativas;
2. É de uso prático. Exemplificando: os empregadores geralmente adotam a referência modal
de salário. Também carros e roupas são produzidos tomando como referência o tamanho
modal.
Desvantagens do emprego da moda
1. Não inclui todos os valores da distribuição;
2. Mostra-se ineficiente quando a distribuição é amplamente dispersa.
Quartis
A mediana também é conhecida como segundo quartil, e é um quantil dentre vários existentes.
Por exemplo: os quartis, os decis e os percentis, que dividem o banco de dados em 4, 10 e 100
partes, respectivamente.
Para obter os quartis:
Q1 = X(n4 )
e Q3 = X(3n4 )
,
1. Ordene os dados em ordem crescente;
40
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
2. Calcule o Quartil desejado.
3. Se X(∗) não for inteiro, arredonde para o primeiro inteiro acima para encontrar o quartil
desejado.
4. Se X(∗) for inteiro, calcule o quartil fazendo a média entre o entre as observações X(∗) e
X(∗+1).
Exemplo 1: Calcule os quartis da vida útil das baterias.
110 111 116 117 118 122 123 125 126 145.
Exemplo 2: Os registros de uma biblioteca mostram que 22 alunos do ensino médio consultaram
os seguintes números de livros durante o último ano:
62, 73, 40, 72, 79, 88, 35, 51, 48, 42, 75
65, 69, 82, 50, 66, 103, 68, 54, 38, 52, 72
Ache a Me = Q2, Q1 e Q3.
Exemplo 3: Ao testarem um novo sistema de coleta de reśıduos sanitários, engenheiros consta-
taram que 21 residências despejavam os seguintes litros por uma hora:
69 58 70 80 46 61 65 74 75 55 67
56 70 72 61 66 58 68 70 68 58
Determine os quartis.
O diagrama de caixas ou Gráfico Boxplot
Uma forma de apresentar graficamente os conceitos discutidos é através do diagrama de caixas
ou Box-plot. Trata-se de um retângulo que representa o desvio interquart́ılico. Esse retângulo
41
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.8: Exemplo de um diagrama caixas ou boxplot.
representa, portanto, a faixa dos 50% dos valores mais t́ıpicos da distribuição. O retângulo é divi-
dido no valor correspondente à mediana; assim, ele indica o quartil inferior, a mediana e o quartil
superior. Entre os quartis e os extremos, são traçadas linhas. Caso existam valores discrepantes
(além de 1, 5dq), a linha é traçada até o último valor não discrepante, e os valores discrepantes
são indicados por pontos. Eventuais pontos muito discrepantes (além de 3dq) normalmente são
representados por śımbolos diferentes para serem bem destacados.
Interpretando o diagrama de caixa
1. a caixa central inclui os 50% dos dados centrais;
2. os bigodes mostram a amplitude dos dados, isto é, a diferença entre o maior e menor valores;
3. a simetria é indicada pela caixa e bigodes e pela localização da média;
4. é relativamente fácil comparar grupos, construindo diagramas de caixa lado a lado, con-
forme figura a seguir;
Em um Box-plot, para reconhecer simetria nos dados:
1. a distância de Q1 à mediana é igual à distância da mediana até Q3;
2. a distância do valor mı́nimo até Q1 é igual a distância do valor máximo até Q3;
3. a mediana é igual a média.
Detectando outlier
Um boxplot pode ser formado para indicar explicitamente a presença de outlier.
42
UTFPR - Câmpus Toledo Professoras Daniela e Regiane
Figura 3.9: Exemplo de comparação de diversos boxplots.
Qualquer observação distante mais do que 1, 5(Q3−Q1) do quarto mais próximo é um outlier.
Um outlier é extremo se estiver a mais de 3(Q3 − Q1) do quarto mais próximo. Caso contrário
é moderado.
Exemplo 1: Determinar o box-plot esquemático para da vida útil das baterias e verifique se
ocorre presença de outlier.
Exemplo 2: Um artigo reportou dados sobre um experimento, investigando o efeito de muitas
variáveis de processos na oxidação, em fase de vapor, e naftaleno. Uma amostra da conversão
percentual molar de naftaleno em anidrido maléico resulta em:
4, 2 4, 7 4, 7 5, 0 3, 8 3, 6 3, 0 5, 1 3, 1 3, 8
4, 8 4, 0 5, 2 4, 3 2, 8 2, 0 2, 8 3, 3 4, 8 5, 0
Determinar o box-plot esquemático e verifique se ocorre presença de outlier.
Exemplo 3: As nove medidas que seguem são temperaturas de fornalha, registradas em bateladas
sucessivas de um processo de fabricação de semicondutores (unidades em oF )
953 950 948 955 951 949 957 954

Outros materiais