Buscar

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

�
ESTATÍSTICA IV
Profª Raquel Andrade Rebelo
ESTATÍSTICA 
O que é Estatística?
O nome Estatística surgiu da palavra latina “status” referindo-se ao “Estado” - organização política e administrativa. A própria raiz da palavra deixa isso claro: status (lat.), de onde se originaram estado, estadista, Estatística (port.). Segundo Achenwall refere-se à ciência das coisas que pertencem ao Estado.
Um pouco da história da Estatística....
5000 AC – Registros egípcios de presos de guerra 
2000 AC – Censo Chinês
695 – Primeira utilização da média ponderada pelos árabes na contagem de moedas
1654 – Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das Probabilidades
1930 – Controle de Qualidade nas Indústrias
1959 – Estudo retrospectivo de doenças (Mantrel & Haenszel).
http://www.redeabe.org.br/historia.htm
1.1. ESTATÍSTICA 
No desenvolvimento científico e em nosso próprio dia-a-dia estamos sempre fazendo observações de fenômeno, gerando dados. Os engenheiros estão frequentemente analisando dados de propriedades dos materiais. Ao ler jornais e revistas, estamos vendo resultados estatísticos de dados do censo demográfico, de pesquisas, etc.
A estatística envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais. As tabelas tornaram-se mais completas, surgiram às representações gráficas, os das probabilidades. A Estatística deixou de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostra). Com base no desenvolvimento das teorias das probabilidades, verificou-se que a estatística poderia ser utilizada para tirar conclusões e tomar decisões baseadas na análise de dados.
Qualquer que seja a área, sempre existe questões que remetem fatos e questões que remetem a dados. Na área da Administração, por exemplo, os gerentes precisam apresentar e descrever informações de forma adequada. Na engenharia, por sua vez, as generalizações de amostras para populações de onde foram extraídas, são fundamentais na resolução de problemas de engenharia e nos processos de tomada de decisões.
Embora os métodos estatísticos descritivos sejam importantes para a apresentação e a caracterização de dados, foi o desenvolvimento de métodos estatísticos de inferência, como um produto da teoria de probabilidade, que levou à ampla aplicação da estatística em todos os campos de pesquisa atuais.
Por exemplo, como se comparam preços de determinados produtos, como se distribuem as rendas familiares de uma determinada cidade. Os gerentes precisam saber como tirar conclusões a partir de grandes populações com base somente em informações obtida de amostras.
1.2. Estatística NA ENGENHARIA
Logo após a revolução industrial, métodos estatísticos foram incorporados nos processos industriais para garantir a qualidade dos produtos. Amostras de itens produzidos eram avaliadas sistematicamente para inferir se o processo estava sobre controle. Mais recentemente (principalmente dos anos 70 em diante), a avaliação da qualidade passou a ser feita ao longo de todo o processo produtivo como forma de corrigir eventuais falhas no sistema assim que elas se aparecessem. Isto levou um aumento da qualidade do produto final acompanhado de redução de custos, pois reduziu drasticamente as perdas por defeitos.
Os métodos de engenharia costumam incorporar intrinsecamente procedimentos probabilísticos ou estatísticos. Desta forma para que o aluno possa entender certos métodos estatísticos de engenharia é necessário que ele tenha conhecimentos de probabilidade e estatística. 
CONCEITOS BÁSICOS
População - é o conjunto de elementos (pessoas, coisas, objetos) que têm em comum uma característica em estudo. A população pode ser:
Finita: quando apresenta um número limitado de indivíduos. 
 Ex.1 a população constituída por todos os parafusos produzidos em uma fábrica em um dia. 
 Ex. 2 nascimento de crianças em um dia em Novo Hamburgo.
Infinita: quando o número de observações for infinito.
Ex. a população constituída de todos os resultados (cara e coroa) em sucessivos lances de uma moeda.
Amostra - é o conjunto de elementos retirados da população, suficientemente representativos dessa população. Através da análise dessa amostra estaremos aptos para analisar os resultados da mesma forma que se estudássemos toda a população.
 
Obs. A amostra é sempre finita. Quanto maior for a amostra mais significativa é o estudo.
Parâmetro - é uma característica numérica estabelecida para toda uma população.
Estimador - é uma característica numérica estabelecida para uma amostra.
Estatística – é uma característica numérica estabelecida para a amostra.
Dado Estatístico - é sempre um número real.
Primitivo ou Bruto: é aquele que não sofreu nenhuma transformação matemática. Número direto.
Elaborado ou secundário: é aquele que sofreu transformação matemática. Ex. porcentagem, média, etc.
ARREDONDAMENTO DE DADOS
Quando o primeiro algarismo após aquele que vai ser arredondado for 0, 1, 2, 3 e 4 despreza-se este algarismo e conserva-se o anterior.
Exemplo: 5,733958 = 5,73; 78,846970 = 78,8.
Quando o primeiro algarismo após aquele que vai ser arredondado for 5, 6, 7, 8 e 9 aumentamos uma unidade no algarismo anterior.
Exemplo: 5,735958 = 5,74; 78,886970 = 78,9.
DIVISÃO DA ESTATÍSTICA
Podemos dividir a Estatística em duas áreas:
Estatística Descritiva – é à parte da Estatística que tem por objetivo descrever os dados observados e na sua função dos dados, tem as seguintes atribuições.
A obtenção ou coleta de dados – é normalmente feita através de um questionário ou de observação direta de uma população ou amostra.
A organização dos dados – consiste na ordenação e crítica quanto à correção dos valores observados, falhas humanas, omissões, abandono de dados duvidosos.
A representação dos dados – os dados estatísticos podem ser mais facilmente compreendidos quando apresentados através de tabelas e gráficos, que permite uma visualização instantânea de todos os dados.
Estatística Indutiva – é à parte da Estatística que tem por objetivo obter e generalizar conclusões para a população a partir de uma amostra, através do cálculo de probabilidade. A tais conclusões estão sempre associados a um grau de incerteza e consequentemente, a uma probabilidade de erro.
VARIÁVEIS
Uma variável é qualquer característica de um elemento observado (pessoa, objeto ou animal).
Algumas variáveis, como sexo e designação de emprego, simplesmente enquadram os indivíduos em categorias. Outras, como altura e renda anual, tomam valores numéricos com os quais podemos fazer cálculos.
Os exemplos acima nos dizem que uma variável pode ser:
a – Qualitativa: quando seus valores são expressos por atributos: sexo (masculino – feminino), cor da pele (branca, preta, amarela, vermelha);
b – Quantitativa: quando seus valores são expressos em números (salários dos operários, idade dos alunos de uma escola, número de filhos, etc.). Uma variável quantitativa que pode assumir, teoricamente, qualquer valor entre dois limites recebe o nome de variável contínua (altura, peso, etc.); uma variável que só pode assumir valores pertencentes a um conjunto enumerável recebe o nome de variável discreta (número de filhos, número de vitórias). 
Exercícios
Classifique as variáveis abaixo:
Tempo para fazer um teste.
Número de alunos aprovados por turma.
Nível sócio-econômico 
QI (Quociente de inteligência).
Sexo
Gastos com alimentação.
Opinião com relação à pena de morte
Religião 
Valor de um imóvel
Conceitos em certa disciplina
Classificação emum concurso
Número de peças produzidas
 Número de peças defeituosas
Classificação de qualidade de uma determinada peça: ótima, muito boa, boa ruim.
Classificação das peças: aproveitada e não aproveitada
Identifique e classifique as variáveis:
Tabela de códigos de declaração de bens e direitos de imóveis: 11 – Apartamento; 12 - Casas; 13 – Terrenos; 14 – Terra nua; 15 – Salas ou lojas; 16 – Construção; 17 – Benfeitorias; 19 – Outras; (Declaração de Ajuste Anual, Instruções de Preenchimento, Imposto de Renda, Pessoa Física, 1999)
“O euro começa a circular com 13 bilhões de notas em sete valores(5, 10, 20, 50, 100, 200 e 500)...A cunhagem de 75 bilhões de moedas de 1 e 2 euros e de 1, 2, 5, 10, 20 e 50 centavos de euro implicará uma troca completa de máquinas e equipamentos de venda de jornais,café e refrigerantes.” (Revista Época, Ano 1, nº 33 , 4/1/1999)
“Em sete deliciosos sabores: tangerina, Laranja, maracujá, lima-limão, carambola, abacaxi e maçã verde.” ( Anúncio de um preparado sólido artificial para refresco)
“ A partir de 1999, as declarações de Imposto de Renda dos contribuintes com patrimônio de até R$ 20 mil poderão ser feitas por telefone.” (Revista época, ano 1, nº 33, 4/1/1999)
Quantidade de sabores de refresco consumida em determinado estabelecimento no fim de semana; 
APRESENTAÇÃO DE DADOS ESTATÍSTICOS
5.1 APRESENTAÇÃO TABULAR
A apresentação de dados estatísticos na forma tabular consiste na reunião ou grupamento dos dados em tabelas ou quadros com a finalidade de apresenta-los de modo ordenado, simples e de fácil percepção e com economia de espaço.
Componentes Básicos
 Em termos genéricos, uma tabela se compõe dos seguintes elementos básicos:
				 Título
	Cabeçalho
	
	
	Indicadora
de 
Coluna
	 C
 o
Casa l Linha
 u
 n
 a
	
	
 Rodapé
Exemplo:
 Tabela 1 - Estimativa de População Brasileira.
 1970 – 76
	Ano
	População
(1000 habitantes)
	1970
1971
1972
1973
1974
1975
1976
	93.139
95.993
98.690
101.433
104.243
107.145
110.124
 Fonte: Anuário Estatístico do Brasil
Principais Elementos de uma Tabela
Título: Conjunto de informações, as mais completas possíveis, localizado no topo da tabela, respondendo às perguntas: O quê? Onde? Quando?
Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas.
Coluna Indicadora: Parte da tabela que especifica o conteúdo das linhas.
 Linhas: Retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas.
Casa ou Célula: Espaço destinado a um só número.
Rodapé: são mencionadas a fonte se a série é extraída de alguma publicação e também as notas ou chamadas que são esclarecimentos gerais ou particulares relativos aos dados.
SÉRIES ESTATÍSTICAS
É toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função de três elementos:
Da época;
Do local;
Da espécie.
Esses elementos determinam o surgimento de quatro tipos fundamentais de séries estatísticas:
Séries Temporais ou Cronológicas: são aquelas nas quais os dados são reunidos segundo o tempo que varia, permanecendo fixos o local e a espécie.
Exemplo: Tabela 2 - Produção de petróleo bruto – Brasil
 1966 – 1970.
	Anos
	Quantidade (cm³)
	1966
1967
1968
1969
1970
	6.748.889
8.508.848
9.509.639
10.169.531
9.685.641
 Fonte: Brasil em dados
Séries Geográficas: são aquelas nas quais os dados são reunidos segundo o local que varia permanecendo fixos o tempo e a espécie.
Exemplo: Tabela 3 - Rebanhos bovinos – Brasil. 1970
	Regiões 
	Bovinos (1000)
	Norte
Nordeste
Sudeste
Sul
Centro-oeste 
	2.132
20.194
35.212
18.702
15.652
 Fonte: Brasil em dados
Séries Específicas: são aquelas nas quais os dados são reunidos segundo a espécie que varia permanecendo fixos o tempo e o local.
Exemplo: Tabela 4 - Produção pesqueira (mar) – Brasil. 1999
	Itens 
	Produção (ton.)
	Peixes
	314
	Crustáceos
	62
	Moluscos
	3
	 Mamíferos
	12
 Fonte Brasil em dados.
Séries Composta ou Mista: é a combinação de dois ou mais fundamentais de séries estatísticas.
Exemplo: Geográfica – Temporal.
Tabela 5 - Evolução do transporte de carga marítima nas 4 principais bacias brasileiras. Brasil. 1968– 1970
	 Bacias
	Anos
	
	1968
	1969
	1970
	 Amazônica
 Nordeste
 Prata
 São Francisco
	233.768*
16.873
177.705
53.142
	324.350
20.272
203.966
48.667
	316.557
20.246
201.464
57.948
Fonte: Brasil em dados.
* Os dados estão em toneladas
A apresentação tabular de dados estatísticos é normalizada pela resolução nº 886 de 26-10-1966 do Conselho Nacional de Estatística a fim de uniformizar a apresentação de dados.
EXERCÍCIOS
Exercício 1: De acordo com o IBGE (1988), em 1986 ocorreram, em acidentes de trânsito, 27306 casos de vítimas fatais, assim distribuídos: 11712 pedestres, 7116 passageiros e 8478 condutores. Faça uma tabela para apresentar esses dados.
Exercício 2: De acordo com o Ministério dos transportes, em 1998, o tamanho das malhas de transporte no Brasil é, assim distribuído: 320480 km de Rodovias (estradas municipais não estão incluídas), 29700 km de Ferrovias (inclui as linhas de trens urbanos) e 40000 km de Hidrovias (desse total, apenas 8000 km estão sendo usados de fato). Faça uma tabela para apresentar esses dados.
Exercício 3: De acordo com Ministério da Educação a quantidade e alunos matriculados no ensino de 1º grau no Brasil nos de 1990 a 1996 em milhares de alunos, são: 19.720 – 20.567 – 21.473 – 21.887 – 20.598 – 22.473 – 23.564. Faça uma tabela para apresentar esses dados.
Exercício 4: Estabelecimentos de ensino da região norte do Brasil em 1982. A região norte subdivide-se em: Rondônia, Acre, Amazonas, Roraima, Pará e Amapá e possuem um total de 29, 13, 78, 4, 10 e 9 estabelecimentos de ensino, respectivamente, segundo o MEC.. Faça uma tabela para apresentar esses dados.
Exercício 5: De acordo com o IBGE (1988), a distribuição dos suicídios ocorridos no Brasil em 1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por dificuldade financeira, 700 por doença mental, 189 por outro tipo de doença, 416 por desilusão amorosa e 217 por outras causas. Apresente essa distribuição em uma tabela.
Exercício 6: Muitos sistemas escolares fornecem o acesso a Internet para seus estudantes hoje em dia. Desde 1996, o acesso á Internet foi facilitado a 21.733 escolas elementares, 7.286 escolas do nível médio e 10.682 escolas de nível superior (Statistical Abstract of United States, 1997). Existe nos Estados Unidos um total de 51.745 escolas elementares, 14.012 escolas do nível médio e 17.229 escolas do nível superior. 
Exercício 7: A chance de uma campanha publicitária atingir sucesso a ponto de ser comentada nas ruas e até incorporada ao vocabulário da população é muito baixa. De acordo com estudos essa probabilidade se altera de acordo com o meio de comunicação utilizado. Numa amostra de 30.000 campanhas publicitárias de Rádio (8mil), TV (10mil) e Rádio+TV (12mil), verificou-se que, das 2800 que atingiram tal sucesso, 1200 foram veiculadas no rádio e na TV e 500 apenas no rádio.
Exercício 8: Classifique as séries dos exercícios 1 até 5.
DISTRIBUIÇÃO DE FREQUÊNCIA
É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados são colocados em classes pré-estabelecidas, registrando freqüência.Divide-se em duas partes: 
Distribuição de Frequência Intervalar (Var. Contínua)
Distribuição de Frequência Pontual (Var. Discreta)
7.1 Distribuição de Frequência Intervalar
É um método de tabulação dos dados em classes, categorias ou intervalos, onde teremos uma melhor visualização e aproveitamento dos dados. 
Exemplo:
Tabela 6 - Notas do curso de Ciência da Computação na disciplina de 
Programação I de uma dada Faculdade. 2012
	Notas
	Nº de Estudantes
	5 |-- 6
	18
	6 |-- 7
	15
	7 |-- 8
	12
	8 |-- 9 
	03
	9 |--10
	02
 Fonte: Dados Fictícios
7.2 Elementos Principais:
a) Classe – é cada um dos intervalos em que os dados são agrupados.
b) Limites de classes são os valores extremos de cada classe.
 li = limite inferior de uma classe;
 Ls = limite superior de uma classe.
c) Amplitude – é a diferença entre o maior valor e o menor valor de certo conjunto de dados. Pode ser referida ao total de dados ou a uma das classes em particular.
Amplitude Total (At) – é calculada pela seguinte expressão:
At = Max. (rol) – Min.(rol).
Amplitude das classes (h) – é a relação entre a amplitude total e o número de classes, conforme mostra a expressão a seguir:
, onde n é o número de intervalos de classe.
d) Ponto médio de classe (xi) - é calculado pela seguinte expressão:
e) Frequência absoluta (fi) - freqüência absoluta de uma classe de ordem i, é o número de dados que pertencem a essa classe.
f) Frequência relativa (fri) - freqüência relativa de uma classe de ordem i, é o quociente da freqüência absoluta dessa classe (fi), pelo total, ou seja,
Obs: a soma de todas as frequências absolutas é igual ao total.
g) Frequência acumulada (Fi) - frequência acumulada de uma classe de ordem i, é a soma das frequências até a classe de ordem i.
h) Frequência relativa acumulada (Fri) - frequência relativa acumulada de uma classe de ordem i, é a soma das frequências relativas até a classe de ordem i.
7.3 ORGANIZAÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA:
	Para organizar um conjunto de dados quantitativos em distribuição de frequências, aconselha-se seguir a seguinte orientação:
1o Organizar o rol – colocar os dados em ordem crescente ou ordem decrescente.
2o Calcular (ou adotar) o número conveniente de classes – o número de classe deve ser escolhido pelo pesquisador, em geral, convém estabelecer de 5 a 15 classes. Existem algumas fórmulas para estabelecer quantas classes devem ser construídas. Nos usaremos,
 onde 
 é a quantidade total de observações.
3o Calcular (ou adotar) a amplitude do intervalo de classes conveniente - a amplitude do intervalo de classes deve ser o mesmo para todas as classes.
onde 
 é o número de intervalos de classe.
4o Obter os limites das classes – Usualmente as classes são intervalos abertos á direita. Os limites são obtidos fazendo-se.
Limite inferior da 1a classe é igual ao mínimo do rol, isto é,
l1 = Min.(rol)
Encontram-se os limites das classes, adicionando-se sucessivamente a amplitude do intervalo de classes aos limites da 1a classe.
5o Obter as 
- contar o número de elementos do rol, que pertencem a cada classe.
6o Apresentar a distribuição – construir uma tabela com título, subtítulo, ...
Distribuição de Frequência Pontual
É uma série de dados agrupados na qual o número de observações está relacionados com um ponto real.
Ex.: Tabela 7 - Notas do Aluno "X" na Disciplina de Estatística – 2011
	Nota
	Alunos 
	6.3
	2
	8.4
	3
	5.3
	2
	9.5
	3
	6.5
	5
	Total
	15
 Fonte: FURB
Exercícios
1) Abaixo são relacionados os salários semanais (em Reais) de 60 operários de uma fábrica de sapatos.
	110
	120
	125
	136
	145
	150
	165
	172
	180
	185
	110
	120
	125
	140
	145
	155
	165
	172
	180
	190
	115
	120
	130
	140
	145
	158
	168
	175
	180
	190
	115
	120
	130
	140
	147
	158
	168
	175
	180
	195
	117
	120
	130
	140
	150
	160
	170
	175
	180
	195
	117
	123
	135
	142
	150
	163
	170
	178
	185
	198
Construir uma distribuição de frequências adequada.
Interpretar os valores da terceira classe.
2) Abaixo são relacionados às estaturas e os pesos de 25 alunos de Estatística.
 Estaturas						Pesos
	1.71
	1.80
	1.75
	1.73
	1.81
	
	58
	60
	60
	62
	63
	 1.90
	1.80
	1.71
	1.74
	1.77
	
	80
	77
	70
	82
	62
	1.63
	1.80
	1.78
	1.84
	1.81
	
	55
	76
	83
	50
	78
	1.83
	1.80
	1.75
	1.79
	1.65
	
	79
	70
	60
	76
	83
	1.72
	1.88
	1.80
	1.66
	1.89
	
	77
	60
	65
	71
	63
Construir uma distribuição de frequências adequada para cada conjunto de dados.
3) Uma amostra de 20 operários de uma companhia apresentou os seguintes salários recebidos durante uma certa semana, arredondados para o valor mais próximo e apresentados em ordem crescente: 140, 140, 140, 140, 140, 140, 140, 140, 155, 155, 165, 165, 180, 180, 190, 200, 205, 225, 230, 240. Construir uma distribuição de frequências adequada.
4) Complete os dados que faltam na distribuição de frequência:
a) 
	 Classes
	
	
	
	
(%)
	0 |-- 2
	1
	4
	...
	4
	2 |-- 4
	...
	8
	...
	...
	4 |-- 6
	5
	...
	30
	18
	...
	7
	27
	...
	27
	 8 |-- 10
	...
	15
	72
	...
	10 |-- 12
	...
	...
	83
	...
	...
	13
	10
	93
	10
	14 |-- 16
	...
	...
	...
	7
	
	
	...
	
	....
b)
	Salários
	
	
	
	 500 |-- 700 
	600
	8
	8
	...
	800
	20
	...
	 900 |-- 1.100
	...
	...
	35
	1.100 |-- 1.300
	...
	5
	40
...
	1.300 |-- 1.500
	1.400
	...
	
	...
	...
	1
	43
	1.700 |-- 1.900
	1.800
	...
	...
	Total
	
	44
	
GRÁFICOS ESTATÍSTICOS
	O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries.
	A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais para ser realmente útil:
Simplicidade – o gráfico deve ser destituído de detalhes de importância secundária, assim como de traços desnecessários que possam levar o observador a uma análise com erros.
Clareza – o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo.
Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em estudo.
8.1 Tipos de gráficos
	
Histograma 
Exemplo: Gráfico 1 – Distribuição de tempo (s) para um determinado aplicativo. Fpolis.2015 
 
 Fonte: BBB
Gráfico em linha: é um dos mais importantes gráficos; representa observações feitas ao longo do tempo. Tais conjuntos de dados constituem as chamadas séries históricas ou temporais. 
	 Fonte: Porto Alegre
Gráfico em setores: É um gráfico construído no círculo, que é dividido em setores correspondentes aos termos da série e proporcionais aos valores numéricos dos termos da série. É mais utilizado para séries específicas ou geográficas com pequeno número de termos e quando se quer salientar a proporção de cada termo em relação ao todo.
Exemplo:
Gráfico 3 - Gráfico de setores para a apresentação da distribuição 
 de frequências do provedor usado pelo visitante do site. 2004
 
Fonte: Site
Gráficos em Barras (ou em colunas). É a representação de uma série por meio de retângulos, dispostos horizontalmente (em barras) ou verticalmente (em colunas).
	Quando em barras, os retângulos têm a mesma altura e os comprimentos são proporcionais aos respectivosdados.
Quando em colunas, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados.
 Gráfico 4 – Estados brasileiros em que a coleta de lixo é precária. 2010
 
 Fonte: Dados fictícios
LISTA DE EXERCÍCIOS 
1) Construir o Histograma das distribuições dos exercícios 1, 2 e 3 anteriores (pág. 11 e 12).
2) Escolha o melhor tipo de gráfico para representar os vários tipos de séries.
a. Tabela 1 - ÁREA TERRESTRE DO BRASIL 2009
 _______________________________
 REGIÕES PERCENTUAL
 _______________________________
 NORTE 45,25
 NORDESTE 18,28
 SUDESTE 10,85
 SUL 6,76
 CENTRO-OESTE 18,86
 _______________________________
 FONTE: IBGE
c. Tabela 2 - COMÉRCIO EXTERIOR BRASIL - 1988/1993
	
	QUANTIDADE (1000 t)
	ANOS
	EXPORTAÇÃO
	IMPORTAÇÃO
	1988
	169666
	58085
	1989
	177033
	57293
	1990
	168095
	57184
	1991
	165974
	63278
	1992
	167295
	68059
	1993
	182561
	77813
FONTE: Ministério da Indústria, Comércio e Turismo.
MEDIDAS DESCRITIVAS
	Estudaremos dois tipos fundamentais de medidas estatísticas: medidas de tendência central e medidas de dispersão.
	As medidas de tendência central mostram o valor representativo em torno do qual os dados tendem a agrupar-se, com maior ou menor frequência. São utilizadas para sintetizar em um único número o conjunto de dados observados.
	As medidas de dispersão mostram o grau de afastamento dos valores observados em relação àquele valor representativo.
9.1 MEDIDAS DE TENDÊNCIA CENTRAL
	A média aritmética simples
A média aritmética simples de um conjunto de valores é o valor obtido somando-se todos eles e dividindo-se o total pelo número de valores. É denotada por 
(leia-se “x barra”)
, onde x são os valores observados.
, se os dados estiverem organizados em distribuição de frequência.
Onde xi e fi são os valores do ponto médio e da frequência absoluta da classe i-ésima respectivamente.
Exemplos:
1º) Calcule a média aritmética dos valores abaixo:
X = {0, 6, 8, 7, 4, 6}
Y = {25, 16, 29, 19, 17}
Z = {105, 123, 98, 140}
2º) Encontre a média para o salário destes funcionários.
Salários semanais para 100 operários não especializados
	Salários semanais
	fi
	xi
	xi.fi
	140 |-- 160
	7
	
	
	160 |-- 180
	20
	
	
	180 |-- 200
	33
	
	
	200 |-- 220
	25
	
	
	220 |-- 240
	11
	
	
	240 |-- 260
	4
	
	
	
	100
	
	
Exercícios: 
1) Encontre a média dos seguintes conjuntos de observações.
X = {2, 3, 7, 8, 9}.
Y = {10, 15, 22, 18, 25, 16}.
Z = {1, 3, 6, 8}.
T = {1, 3, 6, 100}.
2) Encontre a média das notas na disciplina de Programação I.
Notas obtidas na disciplina de 
 Programação I 
	Notas
	fi
	5 |-- 6
	18
	6 |-- 7
	15
	7 |-- 8
	12
	8 |-- 9 
	03
	9 |--10
	02
	
	
 FONTE: Dados hipotéticos.
Resp 6,62.
A mediana é um valor central de um rol, ou seja, a mediana de um conjunto de valores ordenados (crescente ou decrescente) é a medida que divide este conjunto em duas partes iguais.
Exemplo: Calcule a mediana dos conjuntos abaixo:
X={3, 7, 4, 12, 15, 10, 18, 14}
Y={29, 33, 42, 38, 31, 34, 45, 51, 95}
Z={29, 33, 42, 38, 31, 34, 45, 120, 95}
Moda
Seja X um conjunto de dados estatísticos. Define-se Moda de X, denotada por Mo como sendo o elemento mais freqüente no conjunto.
Um conjunto de dados pode ter:
Nenhuma moda (amodal);
Uma moda (unimodal);
Duas ou mais modas (multimodal).
Exercícios: Calcule a moda para os conjuntos abaixo:
X= {2, 3, 4, 3, 7, 8, 9, 14}.
Y= {2, 4, 6, 2, 8, 4, 10}.
Z= {32, 56, 76, 4, 8, 97}.
OBSERVAÇÕES:
Não há regra para se dizer qual a melhor medida de tendência central. Em cada situação específica o problema deve ser analisado pelo estatístico, que concluirá pela medida mais adequada a situação. Assim é que:
A MÉDIA é a medida mais adequada quando não há valores erráticos ou aberrantes.
A MEDIANA deve ser usada sempre que possível como medida representativa de distribuições com valores dispersos, como distribuição de rendas, folhas de pagamentos, etc.
Exercícios:
1) Dados os conjuntos abaixo, calcule a média aritmética, mediana e moda.
	
	4,4
	9,3
	10,3
	6,8
	Md
	4
	8,5
	10
	6,5
	Mo
	
	6
	5
	
A = {3, 5, 2, 1, 4, 7, 9}.
B = {6, 12, 15, 7, 6, 10}.
C = {10, 5, 11, 8, 15, 4, 16, 5, 20, 6, 13}.
D = {4, 4, 10, 5, 8, 5, 10, 8}.
2) Calcule a média aritmética das distribuições de frequências dos exercícios 1 e 2 das páginas 11. Resp. 1) R$ 151,79; 2) 173,53 cm e 68,15 kg.
MEDIDAS DE DISPERSÃO
	Servem para verificarmos a representatividade das medidas de posição, pois é muito comum encontrarmos séries que, apesar de terem a mesma média, são compostas de maneira distinta.
	Assim, para as séries:
25, 28, 31, 34, 37
17, 23, 30, 39, 46
temos 
.
	Nota-se que os valores da série “a” estão mais concentrados em torno da média 31, do que a série “b”. Precisamos medir a dispersão dos dados em torno da média, para isto utilizaremos as medidas de dispersão:
10.1 Desvio Padrão
É a raiz quadrada positiva da média aritmética dos quadrados das diferenças entre cada valor e a média aritmética do conjunto e é denotada por 
. Assim,
 para dados não agrupados
, se os dados estiverem organizados em distribuição de frequência.
Exemplo 1:
	Encontre o desvio padrão para os dados das séries a) e b) acima.
Exemplo 2:
Salários semanais para 100 operários não especializados
	Salários semanais
	fi
	xi
	(xi-
)2
	(xi-
)2fi
	140 |-- 160
	7
	
	
	
	160 |-- 180
	20
	
	
	
	180 |-- 200
	33
	
	
	
	200 |-- 220
	25
	
	
	
	220 |-- 240
	11
	
	
	
	240 |-- 260
	4
	
	
	
	
	100
	
	
	
Encontre o desvio padrão para o salário destes funcionários.
Exercício:
Calcule o desvio padrão das distribuições de frequências dos exercícios 1 e 2 das páginas 11 e 12.
10.2 Coeficiente de variação
Trata-se de uma medida de dispersão, útil para a compreensão em termos relativos do grau de concentração em torno da média de séries distintas. É dado por:
.100
Exemplo 4:
	Para duas emissões de ações ordinárias da indústria eletrônica, o preço médio diário, no fechamento dos negócios, durante um período de um mês, para as ações A, foi de R$ 150,00 com um desvio padrão de R$ 5,00. Para as ações B, o preço médio foi de R$ 50,00 com um desvio padrão de R$ 3,00. Em relação ao nível do preço, qual dos tipos de ações é mais variável?
Exercícios.
Uma amostra de 20 operários de uma companhia apresentou os seguintes salários recebidos durante uma certa semana, arredondados para o valor mais próximo e apresentados em ordem crescente: 140, 140, 140, 140, 140, 140, 140, 140, 155, 155, 165, 165, 180, 180, 190, 200, 205, 225, 230, 240. Calcular (a) a média, (b) a mediana, (c) a moda, (d) o desvio padrão, (e) o coeficiente de variação, para este grupo de salários. R: a) 170,5; d) 33,12. 
 
O número de carros vendidos por cada um dos vendedores de um negócio de automóveis durante um mês particular, em ordem crescente: 2, 4, 7, 10, 10, 10, 12, 12, 14, 15. Determinar (a) a média, (b) a mediana, (c) a moda, (d) o desvio padrão R: a) 9,6; d) 3,95.
Em conjunto com uma auditoria anual, uma firma de contabilidade pública anota o tempo necessário para realizar a auditoria de 50 balanços contábeis. Calcular (a) a média, (b) o desvio padrão, para o tempo de auditoria necessário para esta amostra de registro. R: a) 43,2; b)12,28.
 Temponecessário para a auditoria de balanços contábeis.
	Tempo de auditoria.
(min.)
	Nº de balanços.
(fi)
	10 |-- 20
	3
	20 |-- 30
	5
	30 |-- 40
	10
	40 |-- 50
	12
	50 |-- 60
	20
	Total
	50
 4) Os salários semanais de 50 funcionários de uma indústria alimentícia, em reais, foram os seguintes:
 
	100
	122
	130
	140
	152
	160
	164
	176
	180
	188
	192
	200
	216
	104
	126
	134
	146
	156
	160
	170
	176
	184
	190
	194
	200
	218
	116
	128
	138
	150
	156
	162
	170
	178
	186
	190
	196
	200
	
	120
	128
	140
	150
	156
	162
	176
	180
	186
	192
	196
	210
	
a) Construa uma distribuição de frequências, com h = 20 e limite inferior para a primeira classe igual a 100. 
b) Quantos funcionários tem um salário semanal situado entre R$ 120,00 (inclusive) e R$ 160,00 (exclusive)? 17 funcionários
c) Que porcentagem de funcionários tem um salário semanal situado entre R$ 180,00 (inclusive) e R$ 200,00 (exclusive)?26%
d) Qual o salário médio semanal destes funcionários utilizando o item a)?166,4
e) Determine o desvio padrão e o coeficiente de variação da distribuição. 28,76; 17,28%
5) A distribuição das alturas de um grupo de pessoas apresentou uma altura média de 182 cm e um desvio padrão de 15 cm, enquanto que a distribuição dos pesos, apresentou um peso médio de 78 kg, com um desvio padrão de 8 kg. Qual das duas distribuições apresentou maior dispersão? Por quê?
PROBABILIDADE
INTRODUÇÃO
Encontramos na natureza dois tipos de fenômenos: determinísticos e aleatórios.
Os fenômenos determinísticos são aqueles em que os resultados são sempre os mesmos, qualquer que seja o número de ocorrências.
Nos fenômenos aleatórios, os resultados não serão previsíveis, mesmo que haja um grande número de repetições do mesmo fenômeno.
Nos experimentos aleatórios, mesmo que as condições iniciais sejam as mesmas, os resultados finais de cada tentativa do experimento, serão diferentes e não previsíveis, por isso, é conveniente dispormos de uma medida para o estudo de tais situações. Esta medida é a probabilidade.
EXPERIMENTO ALEATÓRIO. ESPAÇO AMOSTRAL. EVENTO
Antes de passarmos à definição de probabilidade, é necessário fixarmos os conceitos de experimento, espaço amostral e evento.
Um experimento aleatório é o processo de coleta de dados relativos a um fenômeno que acusa variabilidade em seus resultados.
EXEMPLOS:
lançamento de uma moeda honesta;
lançamento de um dado;
determinação da vida útil de um componente eletrônico;
Espaço amostral é o conjunto de todos os resultados possíveis de um experimento. Vamos denotá-lo por (.
EXEMPLOS:
No caso do lançamento de um dado, ( = 
Uma lâmpada é ligada e observada até queimar anotando-se os tempos decorridos, ( = 
Quando o espaço amostral consiste em um número finito ou infinito numerável de eventos, é chamado espaço amostral discreto; e quando for todos os números reais de determinado intervalo, é um espaço amostral contínuo.
Um evento é um subconjunto de um espaço amostral
EXEMPLO: Nos exemplos anteriores 1 e 2. Qual seria um possível evento para cada um dos exemplos?
DEFINIÇÕES DE PROBABILIDADE
Seja “A” um evento de um experimento aleatório, definimos a probabilidade de “A”, denotada por P(A), 
que é a definição clássica de probabilidade.
EXEMPLO: Na jogada de um dado, qual a probabilidade de aparecer face 3 ou face 5?
Solução:
EXEMPLO: Consideremos o experimento que consiste em lançar uma moeda 15 vezes. Suponhamos que o número de caras obtido tenha sido 10. Determine a probabilidade do evento cara:
Solução:
OPERAÇÕES COM EVENTOS ALEATÓRIOS
Consideremos um espaço amostral finito (. Sejam A e B dois eventos de (. As seguintes operações são definidas.
UNIÃO
O evento união de A e B equivale à ocorrência de A, ou de B, ou de ambos. Contém os elementos do espaço amostral em que estão em pelo menos um dos dois conjuntos. Denota-se por A(B. A área hachurada da figura abaixo ilustra a situação.
EXEMPLO: Se A é o conjunto dos alunos de um Estabelecimento que frequentam o curso de Contabilidade e B é o conjunto de alunos do mesmo estabelecimento que fazem Ciência da Computação, então:
A(B =
 
INTERSECÇÃO
O evento intersecção de dois eventos A e B equivale à ocorrência de ambos. Contém todos os pontos do espaço amostral comuns a A e a B. Denota-se por A(B. A intersecção é ilustrada pela área hachurada do diagrama abaixo.
EXEMPLO: Seja A o conjunto de alunos de uma Instituição que freqüentam o 2º grau, e B o conjunto dos que freqüentam um curso facultativo de interpretação musical. A interseção A(B é dada por:
A(B = 
EXCLUSÃO
Dois eventos A e B dizem-se mutuamente exclusivos ou mutuamente excludentes quando a ocorrência de um deles impossibilita a ocorrência do outro. Os dois eventos não têm nenhum elemento em comum. Exprime-se isto escrevendo A(B = (. O diagrama a seguir ilustra esta situação.
EXEMPLO: Na jogada de um dado, seja A o evento “aparece número par” e B o evento “aparece número ímpar”. Então A(B = 
Complementar ou NEGAÇÃO
EXEMPLO: Se, na jogada de um dado, o evento A consiste no aparecimento de face par, seu complementar é dado por: 
	
 REGRAS BÁSICAS
Se A e B são dois eventos do espaço amostral (, então valem as seguintes regras básicas:
0 ( P(A) ( 1
 P(A) = 0 o evento é impossível e P(A) = 1 o evento é certo.
P(() = 1
Se A e B são eventos mutuamente excludentes, A(B = (, então: P(A(B) = P(A) + P(B).
Se A(B 
(, então: P(A(B) = P(A) + P(B) – P(A(B).
P(A) = 1- P(A).
Se ( é o vazio, então P(() =0.
EXERCÍCIO: Consideremos os alunos matriculados na disciplina de Estatística. Temos _____ homens com mais de 25 anos, _____ homens com menos de 25 anos, ____ mulheres com mais de 25 anos, ____ mulheres com menos de 25 anos. Uma pessoa é escolhida ao acaso dentre os ____. Os seguintes eventos são definidos:
A: a pessoa tem mais de 25 anos; C: a pessoa é um homem;
B: a pessoa tem menos de 25 anos; D: a pessoa é uma mulher.
Calcular: P(B(D) e P(A(C).
EXERCÍCIOS
Quais dos valores abaixo não podem ser probabilidades?
0; 
; 0,001; -0,2; 3/2; 2/3.
Um estudo de 500 vôos da American Airlines selecionados aleatoriamente mostrou que 430 chegaram no horário (com base em dados do Ministério dos transportes). Qual é a probabilidade de um vôo da American Airlines chegar no horário?
Em uma pesquisa entre estudantes de uma faculdade, 1162 afirmaram que “colaram” nos exames, enquanto 2468 afirmaram não “colar”. Selecionado aleatoriamente um desses estudantes, determine a probabilidade de ele ou ela ter “colado” em um exame.
A MasterCard International efetuou um estudo de fraudes em cartões de créditos; os resultados estão agrupados na tabela a seguir.
	Tipo de fraude
	Nº de cartões
	Cartão roubado
	243
	Cartão falsificado
	85
	Pedidos por correio/telefone
	52
	Outros
	46
Selecionado aleatoriamente uma caso de fraude nos casos resumidos na tabela, qual a probabilidade de a fraude resultar de um cartão falsificado? . R: 0,2.
Se IP (A)= 2/5, determine 
.
Determine
, dado que IP (A)= 0,228.
Com base em dados do Centro Nacional de Examinadores Forenses, se escolhermos aleatoriamente uma pessoa que se submete ao exame para exercício da advocacia, a probabilidade de obter alguém que seja aprovado é 0,57. Ache a probabilidade de alguém que seja reprovado.
Os pesquisadores estão preocupados com declínio do nível de cooperação por parte dos entrevistados em pesquisas. A tabela mostra o resultado de uma pesquisa feita com 359 pessoas.
	Faixa etária
	Respondem
	Não respondem
	Total
	18-21
	73
	11
	84
	22-29
	255
	20
	275
	Total
	328
	31359
Qual probabilidade de obter alguém que não queira responder? R: 0,086.
Qual probabilidade de obter alguém na faixa etária 22-29? R: 0,766.
Determine a probabilidade de obter alguém na faixa etária 18-21 ou alguém que recuse responder. R: 0,29.
Determine a probabilidade de obter alguém na faixa etária 18-21 que não recuse responder. R: 0,203.
Variável Aleatória
Os resultados de um experimento ou são naturalmente numéricos, ou podem ser codificados numericamente (por exemplo ruim=0 e bom=1). A essa representação numérica de resultados denominamos de variável aleatória. Uma VA é então uma função que associa elementos do espaço amostral ao conjunto de números reais, conforme abaixo ilustrado.
Observações:
1. Apesar da tradição desta terminologia, na verdade uma VA é uma função cujo domínio é S e contradomínio é R.
2. Nas aplicações de estatística, é muito mais conveniente trabalhar com números e não com eventos.
3. Convenciona-se representar funções, variáveis aleatórias, espaço amostral e contradomínio por letras Maiúsculas, e os valores pontuais do espaço amostral e contradomínio por letras Minúsculas.
Variável Aleatória Discreta e Contínua
Exemplo de VA Discreta
Considere o lançamento simultâneo de duas moedas. 
O espaço amostral é S = {(Ca,Ca), (Ca,Co), (Co, Ca), (Co,Co)}.
Se X representa o número de caras, podemos associar um valor numérico para cada evento do espaço amostral, conforme abaixo:
	Ponto Amostral
	X
	(Ca,Ca)
	2
	(Ca,Co)
	1
	(Co,Ca)
	1
	(Co,Co)
	0
Função de Probabilidade ou Função de Densidade de Probabilidade (fdp)
Cada variável aleatória X, seja discreta ou contínua, é quantificada por uma Função de Densidade de Probabilidade (fdp). A fdp é a função que associa a cada ponto do espaço amostral de uma VA, a probabilidade de ocorrência de tais pontos.
No caso da VA X acima, a função de probabilidade de X, denotada por P{X=x} determina a distribuição de probabilidades da variável X conforme mostrado abaixo:
	Pto Amostral
	X
	P{X}
	
	X
	P{X}
	(Ca,Ca)
	2
	½ x ½ = ¼ 
	
	0
	¼
	(Ca,Co)
	1
	½ x ½ = ¼ 
	= ½ 
	
	1
	½
	(Co,Ca)
	1
	½ x ½ = ¼ 
	
	
	2
	¼
	(Co,Co)
	0
	½ x ½ = ¼ 
	
	∑
	1
Ao definir a Função de Densidade de Probabilidade, estabelecemos uma correspondência unívoca entre os valores que a Variável Aleatória X assume (x1, x2, ..., xn) , e os valores da variável P (p1, p2, ..., pn). Observe que sempre teremos ∑ pi = 1 no caso de VA Discreta.
Assim, a função p(x) = P{X = xi} determina a distribuição de probabilidade da variável aleatória X, sendo no caso do exemplo denominada de função de probabilidades de X. Esta denominação é adotada para Variáveis Discretas, enquanto para Variáveis Contínuas permanece a denominação de Função de Densidade de Probabilidade [f(x)].
Características da fdp:	VA Discreta	VA Contínua
Faixa de Aplicabilidade	x = a, a+1, ...,b a ≤ x ≤ b
Condições	p(x) ≥ 0, 
 f(x) ≥ 0, 
Função de Repartição ou Função de Distribuição Acumulada (FDA)
É uma outra forma de representar uma distribuição de probabilidades de uma variável aleatória.
Define-se Função de Distribuição Acumulada ou Função de Repartição da variável aleatória X no ponto x, como sendo a probabilidade de que X assuma um valor menor ou igual a x, isto é:
F(x) = P{X ( x})
FDA	VA Discreta VA Contínua
F(x)=P{X ( x}	F(x) =
 F(x) =
No caso do exemplo de lançamento de duas moedas para verificar o nº de caras, calculamos a FDA como sendo:
	x
	P{x}
	
	x
	F(x)
	0
	¼
	
	0
	¼
	1
	½
	
	1
	¾ 
	2
	¼
	
	2
	1
Da definição F(x)=P{X( x} decorre imediatamente que, para x1 ≤ x2 contidos no espaço amostral da VA X:
P{x1 < X ≤ x2} = F(x2) – F(x1)
Para uma VA Discreta valem ainda as seguintes relações:
P{x1 ≤ X ≤ x2} = F(x2) – F(x1 - 1)
P{x1 ≤ X < x2} = F(x2 - 1) – F(x1 - 1)
P{x1 < X < x2} = F(x2 - 1) – F(x1)
Notas sobre VA Contínua: 
a) A probabilidade da VA Contínua X é sempre definida em um intervalo de valores de X, por exemplo, (x1,x2).
b) A probabilidade da VA Contínua é medida pela área sob a curva da função densidade em um determinado intervalo: 
. 
c) Observe-se que para a VA Contínua X, a fdp f(x) não mede a probabilidade no ponto x. Mostra-se facilmente que P{X=x} = P{x ( X ( x} = F(x)-F(x) = 0, onde utilizamos o seguinte artifício para representamos (X = x) ( (x ( X ( x). Por considerarmos a probabilidade de um ponto como igual a zero, decorre imediatamente que para uma VA Contínua P{x1 < X < x2} = P{x1 ( X < x2} = P{x1 < X ( x2} = P{x1 ( X ( x2} = F(x2) – F(x1)
Valor Esperado de uma Variável Aleatória
Define-se Valor Esperado (ou Esperança Matemática ou Média) de uma variável aleatória X como a média ponderada de longo prazo de x em relação à Função de Densidade de Probabilidade (fdp).
Valor Esperado	VA Discreta VA Contínua
E{X} = (x 
 
No nosso exemplo, E{X} = 0.(1/4) + 1.(1/2) + 2.(1/4) = (1/2) + (1/2) = 1 cara. 
Variância e Desvio Padrão de uma Variável Aleatória
Define-se Variância para uma VA como a média dos desvios quadráticos da variável em relação à sua própria média. Matematicamente, é expressa por:
Variância VA Discreta	 VA Contínua
V{X} = 
 
	 
O Desvio Padrão é definido como a raiz quadrada positiva da Variância:
Desvio Padrão VA Discreta e VA Contínua
DesvPad{X} = 
	 
Nota: Alternativamente, a Variância pode ser calculada por 
No exemplo dado:
	X
	P{X}
	0
	¼
	1
	½
	2
	¼
	∑
	1
A Variância V{X} = (0-1)2.(1/4) + (1-1)2.(1/2) + (2-1)2.(1/4) = (1/4) + (1/4) = 1/2 , e DesvPad{X} = 0,707
13. Modelos de Distribuições de Probabilidade
Até o momento, construímos como exemplo a distribuição de probabilidade de uma variável discreta (nº de caras no lançamento de duas moedas), empregando nosso conhecimento para o cálculo das probabilidades envolvidas. Veremos adiante alguns Modelos Probabilísticos Padrões, que nos auxiliarão em diversas situações práticas. Nosso problema passa a ser determinar qual modelo é o mais adequado para a situação em estudo.
13.1 Distribuição Binomial
Trata-se de uma distribuição de probabilidade adequada aos experimentos que apresentam apenas dois resultados possíveis: sucesso ou fracasso. Fornece a base para inferências sobre proporções.
Hipóteses do Modelo Binomial
1. O experimento é repetido n vezes nas mesmas condições.
2. Os resultados das repetições são independentes, ou seja, uma repetição não interfere nas subseqüentes.
3. Cada repetição admite apenas dois resultados: sucesso ou fracasso.
4. As probabilidades de sucesso “p” e de insucesso “q” (q=1-p) se mantêm constantes durante as repetições.
Por exemplo:
a) Lançar uma moeda 5 vezes e observar o número de caras.
b) Numa linha de produção, observar 10 itens tomados ao acaso e verificar o número de defeituosos.
c) Verificar o número de bits que não estão afetados por ruído num pacote com n bits.
Define-se a Variável Binomial X como o número de sucessos em n repetições do experimento. A expressão geral da Distribuição Binomial é:
Notas:
1. O nome Binomial se deve ao fato da expressão acima corresponder ao termo geral do desenvolvimento do Binômio de Newton.
2. Para p=0,5 a distribuição é simétrica. Para P<0,5, a distribuição tem inclinação para a direita.
3. No caso de n grande (n ( 30) e p não muito pequena nem muito grande (valores centrais, com alguns autores recomendando np>5 e nq>5), a Distribuição Binomial pode ser aproximada pela Distribuição Normal,que será vista adiante. 
Principais Características da Distribuição Binomial
Média μx = E{X} = np e Variância (2x = V{X} = npq.
No Excel
Função DISTRBINOM(núm_s ; tentativas ; probabilidade_s ; cumulativo), onde
núm_s: número de sucessos
tentativas: número de tentativas independentes
probabilidade_s: probabilidade de sucesso em uma tentativa
cumulativo: um valor lógico que define o tipo de distribuição:
Verdadeiro (1): retorna o valor da função de probabilidade acumulada P(X ( num_s)
Falso (0): retorna o valor da função de probabilidade no ponto num_s: P(X = num_s)
Exemplo: Uma moeda não viciada é lançada 5 vezes. Encontre a probabilidade de:
a) dar exatamente 3 caras
b) pelo menos uma cara
c) no máximo 2 caras
d) calcular o valor esperado e o desvio padrão
Solução: Seja X a variável Binomial com os parâmetros: n=5, p=1/2 (e portanto q=1/2).
a) Desejamos P{X = 3} = C(5,3)x(1/2)3x(1/2)2 ( 
e portanto
P{X = 3} = 10 x (1/2)5 = 10/32 = 31,25%
No Excel, a chamada à função DISTRBINOM(3;5;50%;0) fornece o valor 0,3125.
b) Desejamos P{X ( 1} que é o mesmo que 1 – P{X < 1}, equivalente a 1 – P{X = 0} = 1 – 0,03125 = 96,88%
No Excel, a função 1-DISTRBINOM(0;5;50%;0) fornece o valor 0,96875.
c) Desejamos P(X ( 2) que equivale a P{X = 0} + P{X = 1} + P{X = 2} = 50%
No Excel, a chamada à função DISTRBINOM(2;5;50%;1) fornece o valor 0,5000.
d) E{X} =np e portanto E{X} = 2,5 caras, e V{X} = npq = 5/4 = 1,25 . Logo DesvPad{X} = 1,12 caras.
13.2Distribuição de Poisson
Considere as situações em que se avalia o número de ocorrências de um determinado evento por unidade de tempo, de comprimento, de área ou de volume (genericamente denominados de área de oportunidade). Em muitos casos, conhece-se o número de sucessos, mas às vezes é muito difícil ou até mesmo impossível determinar o número de fracassos. Imagine o número de automóveis que passam por uma esquina: pode-se anotar o número de veículos que passaram num determinado intervalo de tempo, mas não se pode determinar quantos deixaram de passar. 
A distribuição de Poisson é aplicada nos tipos de situações em que nos interessa o número de vezes em que um evento pode ocorrer durante um intervalo de tempo ou em determinado ambiente físico (área de oportunidade). Tomando como referência o número de ocorrências em determinado intervalo de tempo, em um processo de Poisson podem ser observados eventos discretos num intervalo de tempo, de tal forma que, reduzindo suficientemente este intervalo, tenhamos:
Hipóteses do Modelo de Poisson
1. A probabilidade de observar apenas um sucesso no intervalo é estável.
2. A probabilidade de observar mais que um sucesso no intervalo é zero.
3. A ocorrência de um sucesso em qualquer intervalo é independente da ocorrência de sucesso em qualquer outro intervalo.
A distribuição de Poisson é caracterizada apenas pelo parâmetro λ, que representa o valor esperada ou média, do número de sucessos por intervalo t. Em outras palavras, λ é a taxa de ocorrência dos eventos no intervalo de tempo.
A função de probabilidade da distribuição de Poisson é :
onde:
e é uma constante (base do logaritmo neperiano) valendo aproximadamente 2,718...
λ é o número esperado de sucessos no intervalo considerado
x é o número de sucessos (x = 0, 1, 2, ...,∞.)
Principais Características da Distribuição de Poisson
Média μx = E{X} = λ e Variância (2x = V{X} = λ.
No Excel
Função POISSON(x ; média ; cumulativo), onde
x: número de sucessos
média: valor esperado no intervalo
cumulativo: um valor lógico que define o tipo de distribuição:
VERDADEIRO (1): retorna o valor da função de probabilidade acumulada P(X ( x)
FALSO (0): retorna o valor da função de probabilidade no ponto x: P(X = x)
Exemplo: As consultas a um banco de dados ocorrem de forma independente e aleatória, à base de 3 consultas por minuto. Calcule as probabilidades:
a) no próximo minuto ocorrerem exatamente 3 consultas
b) no próximo minuto ocorrerem menos de 3 consultas
c) nos próximos dois minutos, ocorrerem mais do que 5 consultas
Solução: Seja X a variável Poisson com ocorrência média de 3 consultas por minuto (λ=3)
a) Desejamos P(X = 3) = [e-3. 33 ]/3! = 22,4%
No Excel, a chamada à função POISSON(3;3;0) fornece o valor 0,22404.
b) Desejamos P(X < 3) = P(X ( 2) = P(X=0) + P(X=1) + P(X=2) = 42,32%
No Excel, a chamada à função POISSON(2;3;1) fornece o valor 0,42319.
c) Observe que a unidade de tempo alterou de 1 para 2 minutos. Como a taxa média é de 3 por minuto, então em dois minutos teremos λ=6. Desejamos assim P(X > 5) = 1 – P(X ( 5) = 1 – 0,44568 = 55,43%
No Excel, a chamada à função 1 - POISSON(5;6;1) fornece o valor 0,55432.
Nota: A Distribuição de Poisson aparece com destaque no estudo das filas.
13.3. Distribuição Normal
É considerada a distribuição de probabilidades mais importante, pois permite modelar uma infinidade de fenômenos naturais e, além disso, possibilita realizar aproximações para calcular probabilidades de muitas variáveis aleatórias que têm outras distribuições, tais como a Binomial (n ( 30, np>5 e nq>5).
É também conhecida como distribuição de Gauss, Laplace ou Laplace-Gauss, e é muito importante também na inferência estatística, como será observado até o final do curso.
A distribuição Normal é caracterizada por uma Função de Densidade de Probabilidade cujo gráfico descreve uma curva em forma de sino, que evidencia maior probabilidade de a VA assumir valores próximos aos valores centrais.
Função Densidade de Probabilidade da Distribuição NORMAL
Uma VA terá Distribuição Normal se sua FDP for da forma abaixo, onde:
μ = média da distribuição 
( = desvio padrão da distribuição 
π e e são constantes (3,1416... e 2,718...)
Parâmetros da Distribuição Normal
Média ou Valor Esperado μx = E{X} = μ e Variância (2x = V{X} = (2
Principais Características:
1. Teoricamente, a curva prolonga-se de –∞ a +∞, sendo que lim f(x) =0 para x tendendo a (∞.
2. A área total sob a curva é igual a 1, ou seja:
3. A curva é simétrica em torno de μ, o que faz com que média = mediana = moda. Adicionalmente, temos também que P(X < μ - a) = P(X > μ + a).
4. A curva tem dois pontos de inflexão, respectivamente em μ-( e μ+( . Cerca de 68% dos valores recaem no intervalo de um desvio padrão de cada lado da média, 95% recaem no intervalo média ( 2 desvios e 99,7% recaem no intervalo média ( 3 desvios.
Considerando a enorme dificuldade de calcularmos probabilidades pela integração da Função de Densidade de Probabilidade (fdp) para as infinitas combinações de valores de μ e (·, utiliza-se a Distribuição Normal Padrão ou Reduzida, definida conforme a seguir.
13.3.1 Distribuição Normal Padrão
Seja Z a variável com distribuição normal com média = 0 e variância = 1, geralmente denotada por N(0;1). Neste caso (lembrando que desvio-padrão = variância = 1) a fdp de Z será 
 com a forma:
Observe-se a conveniência de termos a média igual a zero e o desvio padrão igual a 1, fazendo com que esta distribuição passe a representar os valores de zi como número de desvios em relação à média (origem). Assim, esta distribuição nos permite trabalhar com valores relativos de desvios em relação à média.
13.3.2 Transformação de uma Distribuição Normal N(μ;(2) para a Normal Padrão (ou Reduzida) N(0;1)
Qualquer distribuição normal com média μ e desvio padrão ( pode ser transformada, para efeito de cálculo de probabilidades, na distribuição normal padrão, através de uma mudança de variável conforme a seguir.
Tabelas da Função Normal Padrão
Há vários tipos de tabelas que fornecem as áreas (probabilidades) sob a curva Normal Padrão. O tipo mais comum é a tabela de Faixa Central. Este tipo de tabelafornece a área sob a curva normal padrão entre z=0 e qualquer valor positivo de z. A simetria em torno de z=0 permite-nos obter a área entre quaisquer valores de z, sejam positivos ou negativos, não sem razoável esforço na identificação correta de intervalos. 
No Capítulo Tabelas Estatísticas, apresentamos uma Tabela da Distribuição Acumulada da Normal Padrão, de uso muito mais fácil que as tabelas de faixa central encontradas na maioria da bibliografia recomendada. Na nossa tabela, podemos obter diretamente a probabilidade P(Z ( z).
Exemplos de Uso da Tabela
a) Calcule P(z < 0,85)
A área solicitada é exatamente a área fornecida pela tabela. Basta procurar a linha que contenha o valor 0,8 e sua interseção com a coluna que contenha o valor 0,05. (lembrando que 0,85 = 0,8 + 0,05). 
Logo, P(z < 0,85) = 0,8023 ( ou 80,23%).
b) Calcule P(0 < z < 1,25)
O valor procurado corresponde a P(z<1,25) – P(z<0). Da tabela, tiramos que P(z<1,25)=0,8944 e P(z<0)=0,5. 
Logo, P(0<z<1,25) = 0,8944 -0,5000 = 0,3944 (ou 39,44%).
c) Calcule P(z>2,39)
Observe que o valor tabelado é P(z<2,39). Como a área total sob a curva vale 1, então P(z>2,39)=1-P(z<2,39). 
Logo, P(z>2,39) = 1 – 0,9916 = 0,0084 ou 0,84%
d) Calcule P(z=1)
Considerando que a probabilidade é medida pela área sob a curva definida por um intervalo, P(z=1) pode ser escrita como P(1 ( z ( 1). Isto reduz o intervalo a um só ponto e portanto a área é zero. Outra forma de se obter este resultado é pela utilização do conceito da Função de Distribuição Acumulada, pois P(1 ( z ( 1) = F(1) – F(1) = 0.
e) Calcule P(-2,55<z<1,2)
P(-2,55<z<1,2) = P(z<1,2) - P(z<-2,55) = 0,8849 - 0,0054 = 0,8795 ou 87,95%
f) A altura dos alunos de uma escola é normalmente distribuída com média 1,60 m e desvio padrão 0,30 m. Calcule a probabilidade de um aluno medir entre 1,50 m e 1,80 m.
Seja X a VA N(1,60; 0,302). Deseja-se a probabilidade P(1,50 < x < 1,80)
Precisamos primeiro transformar os limites do intervalo da VA X para a VA Z (Normal Reduzida ou Normal Padrão), para que possamos, pela tabela, calcular P(z1 < z < z2). Assim procedendo, teremos:
z1 = (1,50 – 1,60)/0,30 = -0,10/0,30 = -0,33
z2 = (1,80 – 1,60)/0,30 = 0,20/0,30 = 0,67
Assim,
P(-0,33 < z < 0,67) = P(z<0,67) - P(z<-0,33) = 0,7486 - 0,3707 = 0,3779 ou 37,79%
Nos exemplos anteriores, foram fornecidos os valores do intervalo para que fossem calculadas as probabilidades associadas ao intervalo. Existem aplicações em que devemos determinar os valores de z a partir do conhecimento das probabilidades associadas a estes valores.
Mais Exemplos de Uso da Tabela
g) Sabendo que P(z<a) = 0,3015 determine o valor de a.
Consultando a tabela, procuramos em suas células o valor 0,3015 e encontramos para a o valor -0,52.
Funções do Excel para a Distribuição Normal
O Excel disponibiliza as seguintes funções para cálculos com a Distribuição Normal:
Função DIST.NORMP( z ), onde
z: valor da VA Normal Padrão ou Reduzida.
Esta função retorna a probabilidade P(-∞ < Z < z) = P(Z < z), para qualquer valor de z, da mesma forma que a tabela apresentada no final deste capítulo.
Para um intervalo genérico P(a<z<b), pode-se aplicar F(b) – F(a) diretamente, na forma:
P(a<z<b) = DIST.NORMP(b) – DIST.NORMP(a)
Para P(z>a), usa-se 1 – P(z<a) e portanto P(z>a) = 1 – DIST.NORMP(a).
Aplicável ao exemplo “c” acima.
Função DIST.NORM( x ; média ; desv_padrão ; cumulativo), onde
x: valor da VA Normal 
média: média da VA X
desv_padrão: desvio padrão da VA X
cumulativo: um valor lógico que define o tipo de distribuição:
VERDADEIRO (1): retorna o valor da função de distribuição acumulada (FDA) F(x) = P(X ( x)
FALSO (0): retorna o valor da função densidade de probabilidade (fdp) no ponto x: f(x)
É a função mais completa para tratamento de distribuição normal. Observe que no caso dos parâmetros média=0, desvio=1 e cumulativo=1 ou verdadeiro, esta função retorna o mesmo valor da DIST.NORMP.
Função INV.NORMP( probabilidade )
Retorna o valor z da VA Normal Padrão, abaixo do qual se tem a probabilidade informada. É o inverso da função DIST.NORMP( z)
No caso do exemplo “g” , a função inversa registrada como INV.NORMP(0,3015) retorna exatamente -0,520091. Para o caso da sugestão apresentada, INV.NORMP(0,30)= -0,524401
Função INV.NORM( probabilidade ; média ; desv_padrão)
Como no caso acima, é o inverso da função geral DIST.NORM(), aplicável a qualquer VA Normal X, desde que conhecidos sua média e desvio padrão.
Função PADRONIZAR( x ; média ; desv_padrão)
Retorna o desvio padrão normalizado z, considerando os argumentos x, média e desvio padrao, utilizando a fórmula já apresentada:
13.4 Aproximação da Binomial pela Normal
Se Y admite distribuição binomial de probabilidades, mas o número de repetições do experimento é grande (n ( 30), com a probabilidade p de sucesso não muito distante de 0,5, podemos, com pequena margem de erro, calcular as probabilidades da distribuição binomial Y através das probabilidades obtidas de uma distribuição normal X com as condições a seguir impostas. Alguns autores indicam uma boa aproximação se np > 5 e nq > 5.
1. média de X = média de Y = nxp.
2. variância de X = variância de Y = nxpxq.
3. correção de continuidade: P( Y = y ) da binomial equivale a P( y-0,5 < X < y+0,5 ) da normal, 
P( Y < y ) da binomial equivale a P( X < y-0,5 ) da normal
P( Y > y ) da binomial equivale a P( X > y+0,5 ) da normal
Exemplo: Um teste tipo múltipla escolha é constituído de 50 questões, cada uma com 4 alternativas, das quais uma apenas é correta. Calcule a probabilidade de que um aluno, respondendo ao acaso às questões, acerte exatamente 15 questões.
Seja p = sucesso = ¼ = 0,25 e portanto q =1-p = 0,75 com n = 50 repetições. Logo, np=12,5 que é >5 e nq=37,5 que também é >5, propiciando assim uma boa aproximação.
Estamos interessados em P(X = 15). Pela distribuição binomial, temos que calcular	 
, o que calculado pelo Excel fornece a probabilidade 8,88%.
Uma distribuição normal com média = nxp = 12,5 e variância = nxpxq = 9,375 pode ser usada como aproximação para cálculo da probabilidade P(14,5 < X < 15,5), o que calculado pelo Excel fornece o valor 9,32%.
Observe que o erro relativo, calculado sobre o valor obtido pela distribuição binomial, foi de 4,94%.
14. Amostragem
Como podemos determinar quantas pessoas ou objetos em uma população apresentam certa característica? Por exemplo, quantos eleitores apoiam um candidato à presidência? Ou então, da população de determinada peça produzida, quantas peças são defeituosas, quantas são perfeitas? Uma forma de responder a essas questões é analisar a população, mas este é um processo demorado e caro. Outro processo possível consiste então em consultar um grupo de pessoas ou objetos, que constituem uma amostra. Se a amostra representa de fato toda a população, podemos utilizar as características dos seus elementos para estimar as características de toda população.
Distinguiremos dois tipos de amostragem: a probabilística e a não probabilística. A amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra. Caso contrário, a amostragem será não probabilística. Segundo essa definição, a amostragem probabilística implica um sorteio com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível.
Exemplo: Numa empresa deseja-se escolher 3 diretores entre seus chefes executivos. A escolha é aleatória e não depende do prestígio, da capacidade, dos anos de serviço, etc. Temos uma amostragem probabilística.
As técnicas da estatística pressupõem que as amostras utilizadas sejam probabilísticas, o que muitas vezes não se pode conseguir. No entanto o bom senso irá indicar quando o processo de amostragem, embora não sendoprobabilístico, pode ser, para efeitos práticos, considerado como tal. Isso amplia consideravelmente as possibilidades de utilização do método estatístico em geral.
A utilização de uma amostragem probabilística é a melhor recomendação que se deve fazer no sentido de se garantir a representatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias entre população e amostra, o que é levado em consideração pelos métodos de análise da Estatística Indutiva.
Apresentamos a seguir algumas técnicas de amostragem probabilística.
Amostragem pROBABILÍSTICA conglomerado
A população é dividida em diferentes conglomerados (grupos), extraindo-se uma amostra apenas dos conglomerados selecionados, e não de toda a população. O ideal seria que cada conglomerado representasse tanto quanto possível o total da população. Na prática, selecionam-se os conglomerados geograficamente. Escolhem-se aleatoriamente algumas regiões, em seguida algumas sub-regiões e finalmente, alguns lares. Esse processo possibilita ao pesquisador entrevistar apenas poucas pessoas.
 Amostragem Probabilística Estratificada roporcional
Se a população pode ser dividida em subgrupos que consistem, todo ele, em indivíduos bastante semelhantes entre si, se pode obter uma amostra aleatória de pessoas em cada grupo. Esse processo pode gerar amostras bastante precisas, mas só é viável quando a população pode ser dividida em grupos homogêneos.
Suponhamos que a população é subdividida em k estratos. Sejam:
N = o número de indivíduos na população
n = o número de indivíduos na amostra
Ni = o número de indivíduos contidos no i-ésimo estrato da população
ni = o número de indivíduos contidos no i-ésimo estrato na amostra
 
 
os estratos devem ser o mais homogêneos possíveis com relação às características relevantes da pesquisa (variáveis que se correlacionam fortemente com a variável estudada) para um mesmo tamanho amostral, a amostragem aleatória estratificada com repartição proporcional é mais precisa (menor variância do estimador) do que a amostragem aleatória simples (AAS). 
Por exemplo: 
Numa população de 200 estudantes, há 120 rapazes e 80 raparigas. Pretende-se extrair uma amostra representativa, de 10%, dessa população. 
Neste exemplo, há uma característica que permite identificar 2 subconjuntos, a característica Sexo. Considerando essa divisão, vamos considerar a população e extrair a amostra da população.
 SEXO POPULAÇÃO AMOSTRA (10%) 
Masculino 120 12 
Feminino 80 8 
Total 200 20 
Portanto, a amostra deve conter 12 alunos do sexo masculino e 8 do sexo feminino, totalizando 20 alunos, que correspondem a 10% da população.
14.3 AMOSTRAGEM PROBABILÍSTICA SISTEMÁTICA
Quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente, temos uma amostragem sistemática. Assim, por exemplo, em uma linha de produção, podemos a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária.
 Vantagens em relação à amostragem aleatória simples:
 - mais fácil de executar 
- sujeita a menos erros durante a pesquisa 
- proporciona mais informações por custo unitário 
Desvantagem em relação à amostragem aleatória simples: 
- possibilidade de existirem ciclos de variação 
Para John E. Freund (2006, p. 245): “o perigo real da amostragem sistemática reside na possível presença de periodicidades ocultas. Por exemplo, se inspecionássemos cada 40ª peça produzida por determinada máquina, os resultados seriam enganosos se, em virtude de uma falha regularmente recorrente, cada 10ª peça produzida pela máquina apresentasse defeito. Também, a amostragem sistemática poderia produzir resultados tendenciosos, se entrevistássemos os moradores de cada 12ª casa ao longo de certa via, podendo acontecer que cada 12ª casa seja uma casa de esquina em um lote duplo”.
Procedimento:
 1º) Considerando “N” o tamanho da população e “n” o tamanho da amostra, calcular o intervalo de amostragem, chamado “k”, através da fórmula “k = N/n”, sendo “k” igual ao número inteiro mais próximo. 
2º) Sorteia-se um número entre um e “k”, chamado “m”, sendo 0 < m ≤ k. Esse número “m” será o primeiro elemento da amostra. O segundo elemento da amostra será “m+k”; o terceiro elemento será “m+2k”; e assim sucessivamente, de forma sistemática. 
Observação: quando o resultado de “k = N/n” não for um número inteiro, recomenda-se arredondar o resultado para o valor inteiro menor.
Exemplo 1 - Imagine que você tem 500 cadastros arquivados em sua empresa e você quer uma amostra de 2% desses cadastros. Como você obteria uma amostra sistemática? Resolução: se você quer uma amostra de 2% dos 500 cadastros, então você quer uma amostra de tamanho 10. Para obter a amostra, você pode dividir 500 por 10, obtendo assim 50. Sorteie então um número entre 1 e 50, inclusive. Esse será o número do primeiro cadastro da amostra. Depois, a partir desse número, conte 50 cadastros e retire o último para constituir a amostra. Proceda dessa forma sucessivamente, até completar a amostra. Exemplo: se o número sorteado para iniciar a amostra for 2, então a amostra será constituída pelos seguintes elementos: 2, 52, 102, 152, 202, 252, 302, 352, 402, 452. 
Exemplo 2 - Efetuar um levantamento de opinião em uma universidade com 5.000 alunos. Procedimentos: escolher 250 alunos como numero de elementos da amostra. Dividir 5.000 por 250, quando teremos por resultado o 20, que, o intervalo de amostragem. Colocar em uma urna fichas numeradas, de 01 a 20. Retirar uma ficha; exemplo o número 02. A partir do numero 02, ou seja, do segundo estudante, seleciona-se sempre 20, quando teremos 22-42-62-82-102-122-142-162-182-202-222-242-..., completando dessa maneira a amostra de 250 elementos.
Amostragem Aleatória Simples
A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amostra probabilística de uma população. Comecemos introduzindo o conceito de AAS de uma população finita, para a qual temos uma listagem de todas as unidades elementares. Podemos obter uma amostra nessas condições, escrevendo cada elemento num cartão, misturando-os numa urna e sorteando tantos cartões quantos desejarmos na amostra. Esse procedimento torna-se inviável quando a população é muito grande. Nesse caso, usa-se um processo alternativo, no qual os elementos são numerados e em seguida sorteados por meio de uma tabela de números aleatórios.
Utilizando-se um procedimento aleatório, sorteia-se um elemento da população, sendo que todos os elementos têm a mesma probabilidade de ser selecionados. Repete-se o procedimento até que sejam sorteadas as unidades da amostra.
Podemos ter uma AAS com reposição, se for permitido que uma unidade possa ser sorteada mais de uma vez, e sem reposição, se a unidade sorteada for removida da população. Do ponto de vista da quantidade de informação contida na amostra, amostrar sem reposição é mais adequado. Contudo, a amostragem com reposição conduz a um tratamento teórico mais simples, pois ela implica que tenhamos independência entre as unidades selecionadas. Essa independência facilita o desenvolvimento das propriedades dos estimadores que serão considerados.
Se a população for infinita então as retiradas com e sem reposição serão equivalentes, isto é, se a população for infinita (ou então muito grande), o fato de se recolocar o elemento retirado de volta na população não vai afetar em nada a probabilidade de extração do elemento seguinte.
Se, no entanto, a população for finita (e pequena) será necessário fazer uma distinção entre os dois procedimentos, pois na extração com reposiçãoas diversas retiradas serão independentes, mas no processo sem reposição haverá dependência entre as retiradas, isto é, o fato de não recolocar o elemento retirado afeta a probabilidade do elemento seguinte ser retirado. A amostragem sem reposição é mais eficiente que a amostragem com reposição e reduz a variabilidade uma vez que não é possível retirar elementos extremos mais do que uma vez.
14.5 CÁLCULO DO TAMANHO DA AMOSTRA
Um primeiro cálculo do tamanho da amostra pode ser feito, mesmo sem conhecer o tamanho da população, através da seguinte expressão:
=
Conhecendo o tamanho da população (N), podemos corrigir o cálculo anterior. Temos:
Onde:
N = tamanho da população
n = tamanho da amostra
n0 = uma primeira aproximação para o tamanho da amostra
E0 = erro amostral tolerável (em pesquisas sociais, o erro padrão é fixado em 5%). 
Ex.: Planeja-se um levantamento por amostragem para avaliar diversas características da população (N=200) famílias moradoras de um certo bairro. Qual deve ser o tamanho mínimo da amostra aleatória simples tal que, possamos admitir que o erro amostral não ultrapasse a 5%( E0=0,05)?
 Portanto:
=
= 1/(0,05)2
= 400 famílias
Mas, como em nosso exemplo o tamanho da população é conhecida, temos que fazer uma correção em função do tamanho da população. Usamos então:
 
n =( 200.400) / (200 + 400)
n = 133 famílias (no mínimo)
14.6 ATIVIDADES DE TÉCNICAS DE AMOSTRAGEM
Uma população se encontra dividida em três estratos, com tamanhos N1 = 80, N2 = 120 e N3 = 60. Ao se realizar uma amostragem estratificada proporcional, doze elementos da amostra foram retirados do primeiro estrato. Qual o nº de elementos total da amostra?
Uma indústria especializada em montagem de grandes equipamentos industriais recebeu 70 dispositivos de controle do fornecedor A e outros 30 dispositivos do mesmo tipo do fornecedor B. O aspecto relevante, que se deseja controlar, relativo a esses dispositivos, é a resistência elétrica de certo componente crítico. Vamos admitir que os 100 dispositivos recebidos foram numerados de 1 a 100 ao darem entrada no almoxarifado, e que os 70 primeiros foram os recebidos do fornecedor A . Vamos admitir também, que os valores reais da variável de interesse (a resistência elétrica do componente crítico) dos 100 dispositivos recebidos sejam os dados seguintes respectivamente na ordem de entrada no almoxarifado (lê-se segundo as linhas): 
 33 38 34 34 34 31 36 35 32 37
35 34 30 37 36 33 34 34 32 39
35 33 33 34 31 32 36 33 29 36
34 35 34 33 31 35 35 35 37 32
34 34 36 35 34 33 32 38 34 33
33 32 34 35 37 35 35 30 35 34
36 36 33 34 33 32 31 37 35 34
39 40 40 42 39 38 40 40 40 40
40 41 45 41 40 39 41 41 40 42
39 40 41 40 40 42 39 39 38 40
Uma amostra simples, ao acaso, de 10 dispositivos foi retirada da população de 100 dispositivos, com auxílio dos números aleatórios da tabela, tomando os algarismos da 4.ª e 5.ª coluna (dois algarismos). Qual é esta amostra? Em seguida, foi calculada a resistência elétrica média da amostra. Qual é esta média?
Numa empresa com 1000 funcionários, deseja-se estimar a percentagem de funcionários favoráveis a um certo programa de treinamento. Qual deve ser o tamanho da amostra aleatória simples, sendo o erro amostral não superior a 5%?
Com o objetivo de levantar o estilo de liderança preferido pela comunidade de uma escola, vamos realizar um levantamento por amostragem. A população é composta por 10 professores, 10 servidores técnico-administrativos e 30 alunos, que identificamos da seguinte maneira:
 
	Professores: P1 – P2 – P3 – P4 – P5 – P6 – P7 – P8 – P9 – P10
	Servidores: S1 – S2 – S3 – S4 – S5 – S5 – S7 – S8 – S9 – S10
	Alunos: A1 – A2 – A3 – A4 – A5 – A6 – A7 – A8 – A9 – A10 – A11 – A12 – A13 – A14 – A15 – A16 – A17 – A18 – A19 – A20 – A21 – A22 – A23 – A24 – A25 – A26 – A27 – A28 – A29 – A30.
Supondo que a preferência quanto ao estilo de liderança possa ser relativamente homogêneo dentro de cada categoria, vamos realizar uma amostragem estratificada, proporcional por categoria, para obter uma amostragem de tamanho n=10. Qual deverá ser o tamanho da amostra de cada estrato? Usando a 1.ª linha da tabela de números aleatórios, forme o conjunto de amostragem.
15. Distribuições Amostrais
O conceito de distribuição de probabilidade de uma variável aleatória será agora utilizado para caracterizar a distribuição dos diversos valores de uma variável em uma população.
Ao retirar uma amostra aleatória de uma população estaremos considerando cada valor da amostra como um valor de uma variável aleatória cuja distribuição de probabilidade é a mesma da população no instante da retirada desse elemento para a amostra. 
Em consequência do fato de os valores da amostra serem aleatórios, decorre que qualquer quantidade calculada em função dos elementos da amostra também será uma variável aleatória.
Parâmetros – são valores teóricos correspondentes a população. 
Estatísticas – são funções dos valores amostrais. 
As estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade, com uma média, variância, etc. A distribuição de probabilidade de uma estatística chama-se comumente distribuição amostral ou distribuição por amostragem.
15.1 Estimação
A inferência estatística tem por objetivo fazer generalizações sobre uma população, com base nos dados de amostra. Um dos itens básicos nesse processo é a estimação de parâmetros. A estimação pode ser por ponto ou por intervalo.
Estimativa por Ponto: é a estimativa de um parâmetro populacional por um único valor.
Estimativa por Intervalo: consiste em um intervalo em torno da estimativa por ponto de tal forma que ele possua probabilidade conhecida (nível de confiança (1-()) de conter o verdadeiro valor do parâmetro. Este intervalo é conhecido por intervalo de confiança (IC).
15.2 Intervalo de confiança para a média ( de uma população 
	Os intervalos de confiança para a média são tipicamente construídos com o estimador 
 no centro do intervalo.
1- Quando ( é conhecido:
Quando o uso da distribuição normal está garantido, o intervalo de confiança para a média é determinado por:
	 IC = ( 
 - z 
 ; 
 + z 
 ) ou 
IC = ( 
 - z 
 ; 
 + z 
 ) 
no caso de população finita de tamanho N e amostragem sem reposição.
Os intervalos de confiança mais frequentemente utilizados são os de 90%, 95% e 99%.
	z
	(1-()
	1,65
	0,90
	1,96
	0,95
	2,58
	0,99
2- Quando ( é desconhecido 
Quando o desvio padrão da população não é conhecido, usa-se o desvio padrão da amostra como estimativa, substituindo-se ( por s nas equações para intervalo de confiança. (Distribuição da população normal) 
A distribuição “ t de Student” é utilizada quando o desvio padrão da população é desconhecido. A forma da distribuição t é muito semelhante com a normal, sendo a principal diferença entre as duas distribuições é que a distribuição t apresenta maior área nas caudas. Para calcularmos t, necessitamos conhecer o nível de confiança desejado e o número de graus de liberdade (gl=n-1). 
O intervalo de confiança para a média é determinado por:
	IC = ( 
 - t 
 ; 
 + t 
 ) ou 
IC = ( 
 - t 
 ; 
 + t 
 ) 
no caso de população finita de tamanho N e amostragem sem reposição.
15.3 Intervalo de confiança para a proporção 
de uma população 
A distribuição amostral da proporção é aproximadamente normal para n > 30, pode-se então usar a distribuição normal para estabelecer o intervalo de confiança:
	
IC=( p - z
 ; p + z
) ou 
IC=( p - z
 ; p + z
)
no caso de população finita de tamanho N e amostragem