Prévia do material em texto
1
Silvio Alves de Souza
2
ÍNDICE
Introdução ................................................................................................................... 4
Software R .................................................................................................................. 5
Conceitos Básicos de Estatística ................................................................................ 6
População ................................................................................................................ 6
Amostra ................................................................................................................... 7
Arredondamento de números .................................................................................. 9
Proporção .............................................................................................................. 11
Porcentagem ......................................................................................................... 12
Fases do Método Estatístico ..................................................................................... 16
Definição do Problema .......................................................................................... 16
Planejamento ......................................................................................................... 16
Coleta dos Dados .................................................................................................. 17
Apuração dos Dados ............................................................................................. 18
Apresentação dos Dados....................................................................................... 18
Análise e Interpretação dos Dados ........................................................................ 19
Questionários ............................................................................................................ 20
Ordem das Questões ............................................................................................. 21
Tipo de Abordagem ............................................................................................... 21
Clareza nas Perguntas .......................................................................................... 21
Não Sugerir Respostas .......................................................................................... 22
A Necessidade do Pré-Teste ................................................................................. 22
A Prática de Pesquisas por Amostragem .............................................................. 22
Amostragem .............................................................................................................. 23
Amostragem Aleatória Simples .............................................................................. 24
Amostragem Estratificada ...................................................................................... 25
Amostragem Sistemática ....................................................................................... 28
Exercícios .............................................................................................................. 29
Distribuição de Freqüência ........................................................................................ 34
Dados Brutos ......................................................................................................... 34
Rol ......................................................................................................................... 34
Tabela de freqüência ............................................................................................. 35
Distribuição de Freqüências de Dados Tabulados Não-Agrupados em Classes35
Distribuição de Freqüências de Dados Agrupados em Classes ......................... 39
Manual para Normalização de Publicações Técnico – cientificas .......................... 43
Exercícios .............................................................................................................. 44
Medidas de Tendência Central. ................................................................................ 49
Dados brutos ......................................................................................................... 49
Dados apresentados em tabela de distribuição de freqüência .............................. 53
Exercícios .............................................................................................................. 59
Separatrizes .............................................................................................................. 61
Separatrizes de dados brutos ou em tabela de distribuição simples ..................... 61
Separatrizes de dados agrupados em classes ...................................................... 65
Exercícios: ............................................................................................................. 66
Medidas de Variabilidade .......................................................................................... 69
3
Desvio padrão ........................................................................................................ 69
Coeficiente de variação: ........................................................................................ 71
Exercícios .............................................................................................................. 74
Representação Gráfica ............................................................................................. 79
Probabilidade ............................................................................................................ 88
Técnicas de contagem e Agrupamentos ............................................................... 88
Nocões Básicas de Probabilidade ......................................................................... 92
Exercícios: ........................................................................................................... 103
Distribuições de Probabilidade ................................................................................ 108
Variável Aleatória ................................................................................................. 108
Distribuições discretas de probabilidade.............................................................. 114
I) Distribuição Binomial..................................................................................... 114
II) Distribuição geométrica ................................................................................ 116
III) Distribuição de Poisson ............................................................................... 117
Distribuições contínuas de probabilidade ............................................................ 119
Distribuição Amostral .............................................................................................. 131
Teste de Hipótese Paramétrico ............................................................................... 152
Teste de uma afirmação sobre uma média populacional: σ conhecido ............. 156
Teste de uma afirmação sobre uma média populacional: σ desconhecido ........ 158
Teste de uma afirmação sobre variância ............................................................. 160
Teste de hipótese para proporção ....................................................................... 164
Teste de hipótese não-paramétrico ......................................................................... 167
Teste de Correlação por postos ........................................................................... 168
Correlação ............................................................................................................... 173
Regressão Linear ....................................................................................................178
Regressão Múltipla .................................................................................................. 184
Bibliografia .............................................................................................................. 195
Anexo 1 ................................................................................................................... 196
Anexo 2 ................................................................................................................... 198
4
Introdução
Esta apostila é uma tentativa de compor todo o conteúdo da disciplina
Estatística do CEFET – MG. Esta disciplina é ministrada no cursos de Engenharia.
Seu conteúdo é de acordo com o plano de ensino do curso citado
anteriormente. Na verdade é um material complementar para os alunos. Ele não os
isenta da necessidade de consultar outras bibliografias.
A disciplina de Estatística é abordada com o auxílio do software R para
tratamento de dados.
Os exemplos e exercícios foram montados com o objetivo de contextualizar o
conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum cursos para que
o aluno possa perceber a utilização da Estatística em cada área do conhecimento.
A construção do conhecimento foi elaborada de acordo com os passos de
uma pesquisa, salvo casos em que o conteúdo requer outros elementos essenciais
para seu entendimento.
5
Software R
O software R é um software livre utilizado para análise de dados, cálculo e
construção de gráficos.
Sua construção foi feita utilizando vários colaboradores.
Para sua utilização é necessário conhecimento de sua linguagem própria, ou
seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas
utilizando seus comandos e outras são necessárias a construção de algoritmos.
O R tem um help que os ajuda na execução das tarefas.
No decorrer do curso iremos utilizá-lo para análise de vários dados e para a
construção de alguns gráficos específicos. Os comandos necessários bem como a
utilização do software serão apresentados no decorrer das aulas.
A utilização deste software é uma tentativa de demonstrar como utilizar a
tecnologia computacional na análise de dados.
No anexo 2 encontra-se alguns comandos úteis.
6
Conceitos Básicos de Estatística
Estatísticas
Uma coleção de dados numéricos ou qualitativos.
Estatística
Ramo da ciência que se dedica a desenvolver metodologias para a coleta,
classificação, apresentação, análise e interpretação de dados quantitativos e
qualitativos e a utilização desses dados para a tomada de decisões.
A Estatística pode ser dividida em três grandes áreas:
� Estatística Descritiva
� Probabilidade
� Inferência Estatística
Estatística Descritiva
Utiliza técnicas com o objetivo de descrever, analisar e interpretar o conjunto
de dados.
É utilizada na etapa inicial da análise.
Probabilidade
Trabalha com a idéia de incerteza.
Desenvolve e utiliza técnicas capazes de calcular as chances de que algum
fenômeno aconteça.
Inferência Estatística
Desenvolve e utiliza técnicas capazes de fazer uma extrapolação dos
resultados, estimação de quantidades desconhecidas e testar hipóteses a partir de
uma amostra.
Baseando-se na amostra podemos assim chegar a conclusões sobre a
população.
População
Conjunto da totalidade dos indivíduos sobre o qual de faz uma inferência.
Em linguagem mais formal, a população é o conjunto constituído por todos os
indivíduos que apresentem pelo menos uma característica em comum, cujo
comportamento interessa analisar (inferir).
Essas características da população são comumente chamadas de
parâmetros, os quais são valores fixos e ordinariamente desconhecidos.
Exemplo:
Suponha que estamos interessados em realizar um estudo sobre a qualidade
das peças produzidas por uma empresa em determinado dia. Neste caso existe uma
observação para cada peça fabricada naquele dia. Podemos limitar a população a
cada turno de trabalho da empresa, como por exemplo o 2º turno.
7
Observação:
É importante ficar bem claro que uma população é estudada em termos das
características a serem estudadas. Assim, por exemplo, o diâmetro de uma peça
constituem uma população. Poderia haver uma população correspondente ao
comprimento dessas mesmas peças.
Amostra
Um subconjunto, uma parte selecionada da totalidade de observações
abrangidas pela população, através da qual se faz um juízo ou inferência sobre as
características da população.
Exemplo:
Avaliação da qualidade das peças produzidas por uma determinada empresa.
Seleciona-se, dentre as peças produzidas em determinado dia, uma porcentagem
destas peças. Avalia-se as peças selecionadas.
A partir da amostra estabelecemos o que é conveniente para a população, ou
seja, fazemos uma inferência sobre a população.
A figura a seguir nos dá uma noção de como podemos trabalhar com os
dados:
Natureza dos dados
• Dados Nominais: Trata-se de dados qualitativos ou descritivos, ou seja, que
descrevem uma qualidade ou uma descrição. Exemplos: solteiro ou casado,
certo ou errado, peça boa ou peça defeituosa, etc. Podem ser transformados
em dados numéricos, como por exemplo: 1 – solteiro e 2 – casado.
• Dados ordinais: Trata-se de dados numéricos os quais podemos estabelecer
desigualdades. Como exemplo considere 1- alumínio e 2 – diamante. Temos
que 2>1 (significa que o diamante é mais resistente do que o alumínio).
8
• Dados intervalares: Trata-se de dados numéricos os quais podemos
estabelecer desigualdades e formar diferenças. No entanto não existe um
ponto nulo e uma unidade natural. Exemplo: Temperaturas (Celsius e
Fahrenheit. Não podemos dizer que a temperatura de 600 Celsius seja o
dobro da temperatura de 30 Fahrenheit). A temperatura em Kelvin é de razão.
• Dados de razão: trata-se de dados numéricos que podemos estabelecer
desigualdades, diferenças, formar multiplicação e divisão. Exemplos: peso,
altura, dinheiro, volume, diâmetro, etc.
Objetivo do Estudo da Estatística
A utilização da Estatística é cada vez mais acentuada em qualquer atividade
profissional da vida moderna. Nos seus mais diversificados ramos de atuação, as
pessoas estão freqüentemente expostas à Estatística, utilizando-a com maior ou
menor intensidade. Isto se deve às múltiplas aplicações que o método estatístico
proporciona àqueles que dele necessitam.
9
Arredondamento de números
1) Arredondamento por falta
Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão
ser eliminados, for igual ou menor que quatro, não deverá ser alterado o dígito
anterior.
Número a arredondar Arredondamento para Número arredondado
12,489 Inteiros 12
20,733 Décimos 20,7
35,992 Centésimos 35,99
2) Arredondamento por excesso
Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão
ser eliminados, for maior ou igual a cinco seguido por dígitos maiores que zero, o
dígito anterior será acrescido de uma unidade.
Número a arredondar Arredondamento para Número arredondado
15,504 Inteiros 16
16,561 Décimos 16,6
17,578 Centésimos 17,58
3) Arredondamento centrais
Quando o primeiro dígito, aquele situado mais à esquerda dos que serão
eliminados for um cinco ou um cinco seguido somente de zeros, o último dígito
anterior, se for par, não se altera, e se for ímpar será aumentado uma unidade.
Número a arredondar Arredondamento para Número arredondado
15,500 Inteiros 16
17,750 Décimos 17,8
17,705 Centésimos 17,70
10
4) Arredondamento de Soma
Quando se trata de soma, deve-se arredondar primeiro o total, e
posteriormente as parcelas. Há aqui dois casos a considerar:
a) Se a soma das parcelas da série arredondada for superior ao total, deve-se
retornar à série original, arredondando-se, por falta, tantas parcelas quantas
forem as unidades excedentes. Serão escolhidas as parcelas anteriormente
arredondadaspor excesso e cujas frações desprezadas representem o menor
erro relativo.
Erro relativo
Dados dois números diferentes de zero x e y com yx >>>> , o erro relativo
entre eles será calculado pela expressão
x
yx
ER
−−−−
====
O arredondamento do erro é feito de modo a poder identificar a ordem das
parcelas.
b) Se a soma das parcelas da série arredondada for inferior ao total, deve-se
retornar à série original, arredondando-se, por excesso, tantas parcelas
quantas forem as unidades em falta. Serão escolhidas as parcelas
anteriormente arredondadas por falta e cujas frações desprezadas
representem o menor erro relativo.
Exemplo: Considere o número 11/21. Temos, em decimal 11/21= 0,5238. Ao
arredondar para duas casas decimais temos 11/21=0,52. O erro cometido é dado
por E=(0,5238-0,52)/0,5238=0,0073. Podemos também fazer
E=0,0038/0,5238=0,0073.
11
Proporção
Um certo número de pessoas foi classificado em quatro categorias. Essas
categorias são, naturalmente, mutuamente exclusivas e exaustivas. Em outras
palavras: uma pessoa só poderá estar incluída em uma única categoria, e todas elas
deverão estar classificadas.
Em termos simbólicos, pode-se escrever:
1N = número de pessoas incluídas na categoria 1.
2N = número de pessoas incluídas na categoria 2.
3N = número de pessoas incluídas na categoria 3.
4N = número de pessoas incluídas na categoria 4.
4321 NNNNN +++= = número total de pessoas consideradas.
Neste caso, a proporção de pessoas pertencentes à primeira categoria é
determinada mediante o cálculo do seguinte quociente
N
N1
A proporção de pessoas pertencentes à segunda categoria é determinada
mediante o cálculo do seguinte quociente
N
N2
Sucessivamente temos
N
N3 e
N
N4
o cálculo da proporção das pessoas pertencentes à terceira e quarta categoria.
Observe que
1
N
N
N
N
N
N
N
N
N
N 4321 ==+++ .
Exemplo: A tabela a seguir apresenta o número de sócios praticantes e não-
praticantes de futebol em um clube hipotético.
Tabela 1: Número de sócios praticantes e não-praticantes
de futebol em um clube hipotético
Sócios Praticante (exclusivamente) de: Clube 1 Proporção
Futebol de salão 580 0,100
Futebol de campo 430 0,074
Não-Praticantes 4810 0,826
Total 5820 1,000
Fonte: Referência bibliográfica 1
12
Exercício: A tabela a seguir apresenta o levantamento da quantidade de clientes que
tiveram seus talões de cheques roubados.
Tabela 2: Número de clientes que tiveram seus talões
de cheques roubados
Meses Clientes
Janeiro 35
Fevereiro 25
Março 16
Total 76
Fonte: Dados professor
Calcule a proporção de clientes roubados em cada mês.
Porcentagem
As porcentagens são obtidas a partir do cálculo das proporções,
simplesmente multiplicando-se o quociente obtido por 100. Para representá-las
usamos o símbolo %.
Voltando ao exemplo anterior temos:
Tabela 3: Número de sócios praticantes e não-praticantes
de futebol em um clube hipotético
Sócios Praticante (exclusivamente) de: Clube 1 Porcentagem (%)
Futebol de salão 580 10
Futebol de campo 430 7,4
Não-Praticantes 4810 82,6
Total 5820 100
Fonte: Referência bibliográfica 1
13
Exercícios
1) Considere as situações a seguir e identifique a população e a amostra em cada
caso.
a. Para a análise de desempenho dos alunos da 8.ª série de uma determinada
escola municipal foram escolhidas as notas de português de 35 alunos.
b. Uma amostra de sangue foi retirada de um paciente com suspeita de alto
colesterol.
c. Uma maternidade entrevista 20 mães de recém nascidos dos 218 partos, no
mês de janeiro, para avaliar a satisfação na prestação de serviço.
d. A fim de avaliar a intenção de voto dos eleitores para deputado estadual, um
candidato entrevista 2.120 eleitores em Minas Gerais.
2) Use os critérios de arredondamento para arredondar cada valor a seguir para
décimos.
a) 21,24 d) 0,75 g) 3,521
b) 1,088 e) 5,819 h) 9,275
c) 125,5555 f) 0,3333 i) 235,25
3) Aplique os critérios de arredondamento para completar o quadro abaixo:
Número a arredondar Arredondamento para Número arredondado
25,458 Centésimo
123,99 Décimo
205,7056 Milésimo
17,561 Inteiro
4) Aplique os critérios de arredondamento para completar o quadro abaixo:
Número a arredondar Arredondamento para Número arredondado
1,23 Décimo
5,488 Centésimo
0,126 Centésimo
35,4 Inteiro
13,99 Décimo
25,7056 Milésimo
7,561 Inteiro
690,1555 Centésimo
0,115588 Milésimo
14
5) Considere a tabela a seguir
Tabela 4: Produção, em unidades, da fábrica X de determinada peça no
segundo semestre de 2005.
Mês Produção
Julho 35.500
Agosto 34.750
Setembro 36.800
Outubro 35.150
Novembro 32.300
Dezembro 31.250
Calcule: (Use arredondamento para centésimos)
a) a proporção de peças produzidas no mês de outubro.
b) a proporção de peças produzidas até setembro.
c) a porcentagem de peças produzidas em dezembro.
6) Uma escola ia contratar um grupo de 8 professores para dar um curso sobre
computadores em 48 horas, pagando um total de R$ 9 216,00. No entanto, como
medida de economia, ela resolveu contratar somente 6 professores e dar o curso em
36 horas. Quanto a escola economizará?
7) João comprou uma mercadoria em uma loja de utilidades. Quando foi pagar a
conta, o vendedor informou-lhe que devido a uma promoção relâmpago, ele teria 8
% de desconto na compra à vista pagando, pelo produto, R$ 276,00. João optou por
não pagar à vista. Quanto ele pagará pela mercadoria se compra-la a prazo?
8) Para as situações descritas a seguir, identifique a população e a amostra
correspondente. Discuta a validade do processo de inferência estatística, ou seja, se
as amostras foram coletadas corretamente, para cada um dos casos. Não esqueça
de apontar o erro de cada caso.
a) Uma amostra de sangue foi retirada de um paciente com suspeita de
anemia.
b) Para verificar a audiência de um programa de TV, 563 indivíduos foram
entrevistados por telefone com relação ao canal em que estavam
sintonizados.
c) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122
pessoas foram entrevistadas em Brasília.
9) Para encher um reservatório em 15 dias, são necessárias 3 torneiras. Em quanto
tempo 5 torneiras, idênticas às anteriores, encherão o mesmo reservatório?
10) Um navio dispõe de reservas suficientes para alimentar 14 homens durante 45
dias, mas recebe 4 sobreviventes de um naufrágio. Durante quantos dias durarão as
reservas de alimento?
11) Calcule:
a) 15 % de R$ 2 800,00 ?
b) 42 % de R$ 18 300,00 ?
15
12) Resolva os problemas abaixo:
a) Numa classe foram reprovados 15 % dos alunos, isto é, 9 alunos. Quantos
alunos haviam nesta classe?
b) Em uma cidade haviam 5600 eleitores do candidato A e 7800 eleitores do
candidato B.
1) Qual a proporção dos eleitores do candidato A?
2) Qual a proporção dos eleitores do candidato B?
13) Em um colégio existem 1 200 alunos, dos quais 720 são meninos. Determine:
a) Qual a proporção do número de meninos?
b) Qual a proporção do número de meninas?
14) Num livro de 200 páginas, há 30 linhas em cada página. Se houvesse 25 linhas,
quantas páginas teria o livro?
16
Fases do Método Estatístico
Quando se pretende realizar um estudo estatístico completo existem diversas
fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais
do estudo.
Definição do Problema
A primeira fase do trabalho estatístico consiste em uma definição ou
formulação correta do problema a ser estudado.
O problema deve ser preciso, bem determinado e específico.
Além de considerar detidamente o problema objeto do estudo, o analista
deverá examinar outros levantamentos realizados no mesmo campo e análogos,
uma vez que parte da informação de que necessita pode, muitas vezes, ser
encontrada nesses últimos.
Saber exatamente aquilo que se pretende pesquisaré o mesmo que definir
corretamente o problema.
Planejamento
Consiste em se determinar o procedimento necessário para resolver o
problema e, em especial, como levantar informações sobre o assunto objeto do
estudo.
Mais especialmente, na fase do planejamento a preocupação maior reside na
escolha das perguntas.
É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Sob
esse aspecto, pode haver dois tipos de levantamento:
a) Levantamento censitário, quando a contagem abranger todo o
universo.
b) Levantamento por amostragem, quando a contagem for parcial.
Nesta fase temos outros elementos importantes que devem ser tratados.
a) cronograma das atividades, através do qual são fixados os prazos
para as varias fases;
b) Os custos envolvidos;
c) O exame das informações disponíveis;
d) O delineamento da amostra;
e) A forma como serão escolhidos os dados, etc.
Obs: Os livros mais específicos sobre pesquisa de mercado poderão ser
consultados.
17
Coleta dos Dados
O terceiro passo é essencialmente operacional.
A coleta de dados se refere à obtenção, reunião e registro sistemático de
dados, com um objetivo determinado.
Espécies de dados:
I) Dados Primários: quando são publicados ou comunicados pela
própria pessoa ou organização que os haja recolhido.
II) Dados Secundários: Quando são publicados ou comunicados por
outra organização.
Um conjunto de dados é, pois, primário ou secundário em relação a
alguém.
É mais seguro trabalhar com fontes primárias, pois:
a) Uma fonte primária oferece, em geral, informações mais detalhadas
do que uma secundária.
b) É mais provável que as definições de termos e de unidades figurem
somente nas fontes primárias.
c) O uso da fonte secundária traz o risco adicional de erros de
transcrição.
d) Uma fonte primária poderá vir acompanhada de cópias dos
impressos utilizados para coletar as informações, juntamente com o
procedimento adotado na pesquisa, a metodologia seguida e o tipo
de tamanho da amostra.
Essas informações proporcionam ao usuário uma idéia do grau de garantia
que os dados oferecem.
A coleta de dados pode ser realizada de duas maneiras: direta ou
indiretamente.
Coleta Direta
A coleta é direta quando é obtida diretamente da fonte.
Ex.: Uma empresa pesquisa seus consumidores.
Há três tipos de coleta direta:
a) Coleta direta contínua: quando estes são obtidos ininterruptamente,
automaticamente e na vigência de um determinado período.
Ex.: Registros de nascimento, de casamento, de óbito, etc.
18
b) Coleta direta periódica: quando é realizada em períodos curtos,
determinados, de tempo em tempo.
Ex: Recenseamento demográfico. O censo industrial.
c) Coleta direta ocasional: Quando os dados forem colhidos
esporadicamente, atendendo a uma conjuntura qualquer ou a uma
emergência.
Ex.: Casos fatais em surto epidêmico.
Coleta Indireta
A coleta dos dados é indireta quando é inferida a partir dos elementos
conseguidos pela coleta direta, ou através do conhecimento de outros fenômenos
que, de algum modo, estejam relacionados com o fenômeno em questão.
É feita, portando, por deduções e conjunturas, podendo ser realizada:
a) Por analogia: quando o conhecimento de um fenômeno é induzido a
partir de outro que com ele guarda relações de casualidade.
b) Por proporcionalização: Quando o conhecimento de um fato se induz
das condições quantitativas de uma parte dele.
c) Por indícios: quando são escolhidos fenômenos sintomáticos para
discutir um aspecto geral da vida social.
d) Por avaliação: quando através de informações fidedignas ou
estimativas cadastrais, se presume o estado quantitativo de um
fenômeno.
Apuração dos Dados
Consiste em resumir os dados, através de sua contagem e agrupamento.
Ela pode ser manual, mecânica, eletromecânica ou eletrônica.
Através da apuração tem-se a oportunidade de condensar os dados, de modo
a obter um conjunto compacto de números, o qual possibilita distinguir melhor o
comportamento do fenômeno na sua totalidade.
Entretanto, a contrapartida da melhor apreciação dos dados em seu conjunto
é a perda correspondentes de detalhes, uma vez que se trata de um processo de
sintetização.
Apresentação dos Dados
Há duas formas de apresentação, que não se excluem mutuamente.
a) Apresentação Tabular: É uma apresentação numérica dos dados.
Consiste em dispor os dados em linhas e colunas distribuídas de
modo ordenado.
b) Apresentação Gráfica: Constitui uma Apresentação Geométrica.
Embora a apresentação tabular seja de extrema importância, no
19
sentido de facilitar a análise numérica dos dados, não permite ao
analista obter uma visão tão rápida, fácil e clara do fenômeno e sua
variação como a conseguida através de um gráfico.
Análise e Interpretação dos Dados
É a última fase e a mais importante e também a mais delicada.
O interesse maior, nesta etapa, reside em tirar conclusões que auxiliem o
pesquisador a resolver seu problema.
A análise está ligada essencialmente ao cálculo de medidas, cuja finalidade
principal é descrever o fenômeno.
Obs: As fases do método Estatístico foram tiradas da referência bibliográfica 1.
20
Questionários
Questionários são o meio mais comum de coleta de informações.
Dois tipos de questões são usualmente empregados na redação de
questionários:
� Questões de múltipla escolha
� Questões de resposta aberta
As alternativas em uma questão de múltipla escolha devem ser claras,
mutuamente excludentes e, quando pedirem opiniões, fornecer opções dos dois
lados do assunto. Idealmente, as opções devem cobrir todas as respostas prováveis.
Se, entretanto, muitas alternativas são apresentadas, elas podem não ser
suficientemente claras e confundir o respondente no momento de sua decisão. A
grande desvantagem de questões de múltipla escolha é que tendem a sugerir uma
resposta, já que limita as respostas possíveis, impedindo o respondente de dizer
exatamente o que pensa.
Este tipo de limitação não ocorre nas questões de resposta aberta, em que o
entrevistado usa suas próprias palavras para responder à pergunta. Uma pergunta
deste tipo produz uma grande gama de respostas que devem ser classificadas em
grupos homogêneos antes que se possa fazer uma análise estatística. Esta
classificação é uma tarefa difícil quando o número de respostas a serem analisadas
é muito grande. Por isso, questões de respostas abertas são mais freqüentemente
empregadas em estudos pilotos ou nos estágios exploratórios, quando se procura
determinar quais tipos de respostas aparecerão. Essas informações são então
usadas na construção do questionário a ser utilizado na obtenção dos dados de um
grupo maior. Às vezes é inevitável misturar os dois tipos de pergunta, quando, por
exemplo, colocamos a opção “outros” e pedimos especificação. Se os dados forem
analisados por computador, deve-se pensar na etapa da codificação ao redigir as
perguntas.
21
Ordem das Questões
Um questionário consistente em uma bateria de questões arranjadas em certa
ordem. As primeiras questões são para estabelecer contato com o respondente e
devem ser bem simples. Quando vários tópicos estão envolvidos, deve-se completar
um tópico antes de passar a outro. A ordem das questões freqüentemente afeta as
respostas dadas pelo respondente, já que as perguntas chamam a atenção do
entrevistado para um conjunto de pensamentos e sentimentos, em cujo contexto as
outras perguntas serão respondidas. Em pesquisa de mercado, por exemplo,
questões que mencionam um produto específico tendem a viciar as perguntas que
se seguem; conseqüentemente, estas questões identificando produtos ou firmas
devem ser colocadas no final, sempre que possível.
Tipo de Abordagem
Muitas pessoas tendem a racionalizar ou exagerar suas respostas quando
são questionadas diretamente sobre seus motivos, realizaçõesou outros assuntos
que envolvam seu prestígio ou auto-estima. Para se evitar a introdução de
tendenciosidade nessas respostas, usa-se freqüentemente uma abordagem indireta
na elaboração de questões que envolvem prestígio. Por exemplo, ao invés de
perguntas: “Você terminou o curso secundário?”, pode-se perguntar: “Em que ano
você estava quando deixou de estudar?”. Na segunda pergunta tenta-se evitar
constrangimento aos respondentes que não terminaram o curso secundário.
Clareza nas Perguntas
Uma pergunta deve ter aproximadamente o mesmo sentido para todos os
entrevistados; caso contrário, os dados obtidos não terão grande utilidade. Termos
com sentido dúbio devem ser evitados. As perguntas devem ser simples. Nem todos
os entrevistados entenderão questões com enunciado complexo, originando, assim,
resultados ruins.
22
Não Sugerir Respostas
Na formulação das perguntas deve-se evitar um tipo de redação como esta:
“Você concorda em que esta bebida, sendo a melhor, deva custar mais caro?”
Esta pergunta sugere tão obviamente uma resposta que é praticamente inútil.
Algumas vezes, entretanto, é difícil perceber que a redação de uma pergunta possa
sugerir determinada resposta.
A Necessidade do Pré-Teste
Assim que um questionário tenha sido redigido, deve ser testado em um
estudo piloto. Esta fase é fundamental para detectar dificuldades não observadas,
como o lay out do questionário, ordem e redação das perguntas, necessidade de
instruções mais claras para os entrevistadores, etc. Naturalmente, a correção dessas
imprecisões melhorará a qualidade do levantamento.
A Prática de Pesquisas por Amostragem
O leitor deve convencer-se de que é fundamental conhecer as características
específicas da área onde pretende participar de pesquisas por amostragem. O
significado especial de algumas palavras, os melhores locais e horários para se
fazer coleta de dados, o tipo de entrevistador são, entre outros, fatores importantes
para o bom andamento do levantamento. Só lendo literatura na área específica é
que se pode, entretanto, conhecer estes detalhes.
23
Amostragem
Conceitos Fundamentais
Assim que decidimos obter informações através de um levantamento
amostral, temos imediatamente dois problemas:
� selecionar a característica que iremos pesquisar.
� definir cuidadosamente a população de interesse e
A população-alvo é a população sobre a qual vamos fazer inferências
baseadas na amostra.
Caracterizada a população-alvo, o próximo passo é escolher as
características que iremos medir. Aqui o erro freqüente é querer incluir muitas
características. A qualidade da mensuração cai com o aumento do número de
perguntas. Devemos, portanto, fixar-nos apenas em perguntas que contribuam para
a quantificação adequada da característica populacional de real interesse para o
estudo.
Para que possamos fazer inferências válidas sobre a população a partir de
uma amostra, é preciso que esta seja representativa. Uma das formas de se
conseguir representatividade é fazer com que o processo de escolha da amostra
seja, de alguma forma, aleatório. Além disso, a aleatoriedade permite o cálculo de
estimativas dos erros envolvidos no processo de inferência.
Amostragem ou Censo?
Quando definimos fazer um estudo censorial, todos os elementos da
população são estudados.
Porém existem algumas situações em que o censo não é aconselhável:
a) Populações infinitas: Neste caso o levantamento de dados não teria final.
(Exemplo: )
b) Testes destrutivos: Neste caso os elementos da população utilizados para
estudo seriam destruídos. (Exemplo: teste de tração em uma peça, teste de
peso suportado por uma cadeia)
c) Tempo para execução do estudo: No caso em que o estudo deva ser
realizado em um tempo mínimo, o tamanho da população poderia gastar
tempo a mais do que o esperado. (Exempo: epidemias graves)
d) População grande: Neste caso o custo seria um fator determinante, visto que
a população pode ter um número grande de elementos.
Em um processo de amostragem, as amostras podem ser extraídas de duas
formas distintas:
I) Sem reposição: quando cada elemento da população só pode ser selecionado
apenas uma única vez;
II) Com reposição: quando cada elemento da população pode ser selecionado
mais de uma única vez.
24
Amostragem Aleatória Simples
A amostragem é dita aleatória quando todos os elementos da população têm
a mesma chance de serem estudados.
Neste caso cada elemento da amostra é escolhida elemento a elemento.
A população é numerada de 1 a N.
Escolhem-se, em seguida, na tábua de números aleatórios, n números
compreendidos entre 1 e N.
Obs.: A tabela de números aleatórios foi retirada do Bruni[4].
Esse processo é equivalente a um sorteio no qual se colocam todos os
números misturados dentro de uma urna. Os elementos correspondentes aos
números escolhidos formarão a amostra.
Exemplo: A tabela a seguir refere-se a renda, em salários mínimos, de 15
empregados fictícios.
1,05 2,07 1,96 2,13 1,51 1,14 1,84 1,77 2,39 1,59
1,29 1,69 2,46 1,77 2,30
Extrair, sem reposição, uma amostra aleatória de tamanho n = 5.
Solução: Primeiramente deveremos numerar a população.
Item 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
salário 1,05 2,07 1,96 2,13 1,51 1,14 1,84 1,77 2,39 1,59 1,29 1,69 2,46 1,77 2,30
Escolhe-se uma coluna na TNA.
Procuramos os 5 primeiros números não superiores a 15, lendo os dois
últimos algarismos ou os dois primeiros.
Obtemos:
4.ª coluna – dois primeiros algarísmos
Leitura na TNA (2
primeiros)
14 08 05 10 15
salário 1,77 1,77 1,51 1,59 2,30
25
Amostragem Estratificada
Quando os elementos da população estão divididos em grupos não
superpostos, é mais fácil e mais eficiente escolher, independentemente, uma
amostra aleatória simples dentro de cada um destes grupos, os quais são chamados
estratos.
Esta forma de amostragem é uma das mais utilizadas, já que a maioria das
populações tem estratos bem definidos: os homens e as mulheres; os alunos das
escolas X, Y, Z; os estados brasileiros; ect.
O mais comum é utilizar-se a Amostragem Estratificada Proporcional, que
consiste em selecionar os elementos da amostra entre os vários estratos, em
número proporcional ao tamanho de cada um dos estratos. Em outras palavras,
sejam:
N o número de elementos da população
L o número de estratos
iN o número de elementos do estrato i
n o tamanho da amostra a ser selecionada
in tamanho de amostra no estrato i
Note que
N = N1 + N2 + ... + NL
Calcula-se a fração de amostragem dada por:
f =
N
n
Obs: A fração de amostragem calcula o tamanho de amostra por unidade da
população.
O número de elementos a serem sorteados em cada estrato será:
.fNn 11 =
.fNn 22 =
.fNn LL =
M
Obs.: Neste caso devemos ter
n=+++ L21 nnn K
Caso não aconteça devemos aumentar o valor de in para o qual a parte
decimal de n⋅
N
N i é máxima. (Este resultado foi retirado do livro estatística Aplicada
a Economia, Administração e Contabilidade. Freund & Simon)
Um exemplo o qual a soma das amostras de cada estrato não é igual a n é
dada no exemplo 2.
26
Exemplo 1: Na execução de uma rede elétrica, uma firma especializada utiliza
eletrodutos de dois tipos: E e F. em uma análise do custo do material
foram considerados 30 faturas, representadas abaixo pelo preço de 10m
de eletroduto.
Eletroduto (estrato) E
Fatura 01 02 03 04 05 06
Preço (R$) 710 710 715 715 755 760
Eletroduto (estrato) F
Fatura Preço
(R$)
Fatura Preço
(R$)
Fatura Preço
(R$)
Fatura Preço
(R$)
01 750 07 760 13 770 19 790
02 750 08 765 14 770 20 795
03 750 09 765 15 770 21 795
04 750 10 765 16 785 22 800
05 755 11 765 17 785 23 810
06 760 12 765 18 790 24 820
Extrair, sem reposição, uma amostra estratificada proporcional de tamanho
n = 8.
Solução:
f =
30
8= 0,27
De cada estrato serão sorteadas respectivamente nE e nF unidades:
nE = (0,27) . 6 = 1,62 ≅ 2
nF = (0,27) . 24 = 6,48 ≅6
Para encontrar a amostra referente ao eletroduto E utilizamos TNA (8.ª coluna
– primeiro algarismo) e para encontrar a amostra referente ao eletroduto F utilizamos
TNA (4.ª coluna – últimos algarismos). Assim obtemos:
Estrato E F
Leitura na
TNA
5 4 20 23 12 21 17 15
Fatura (R$) 755 715 795 810 765 795 785 770
Entre as vantagens da amostragem estratificada destacam-se:
a) os dados são geralmente mais homogêneos dentro de cada estrato do que na
população como um todo;
27
b) o custo da coleta e análise dos dados é freqüentemente menor nesse tipo de
amostragem do que na aleatória simples, devido a conveniências
administrativas;
c) podem-se obter estimativas separadas dos parâmetros populacionais para
cada estrato sem selecionar outra amostra e, portanto, sem custo adicional.
Exemplo 2: Suponha que uma população com 3k = estratos tenha os tamanhos
1820,62N 321 === NeN
e que queiramos extrair uma amostra estratificada de tamanho 12.
a) Aplique a fórmula de extração estratificada proporcional arredondando para
inteiro;
b) Revise os resultados da parte (a) fazendo com que a soma total das amostras
seja 12.
28
Amostragem Sistemática
Uma amostragem sistemática de tamanho n é constituída dos elementos de
ordem K, K+r, K+2r, ... , onde K é um inteiro escolhido aleatoriamente entre 1 e n . E
r é o inteiro mais próximo da fração
n
N
r ≈
Por exemplo, se a população tem 100 elementos e vamos escolher uma
amostra de tamanho 6, K é um inteiro escolhido aleatoriamente entre 1 e 6, e r =
100/6 = 16,6 = 17.
Pela TNA (1ª coluna – primeiro algarísmo) K = 3. Assim a amostra será
composta pelos elementos de posição:
3, 20, 37, 54, 71, 88
Se o tamanho da população é desconhecido, não podemos determinar
exatamente o valor de r. Escolheremos intuitivamente um valor razoável para r.
Às vezes a amostragem sistemática é preferida à amostragem aleatória
simples, porque é mais fácil de executar, estando portando menos sujeita a erros, e
proporciona mais informações com menor custo.
Exemplo: Escolha a técnica adequada para extrair uma amostra de 50
compradores de uma loja.
Solução: A amostragem aleatória simples não pode ser empregada neste caso,
pois o entrevistador não pode determinar quais compradores serão incluídos na
amostra, uma vez que não se conhece o tamanho N da população, até que todos os
compradores tenham ido à loja. Assim, ele pode usar a amostragem sistemática
(digamos 1 em cada 20 compradores) até obter a amostra do tamanho desejado.
29
Exercícios
1) Com relação a amostragem aleatória simples é CORRETO afirmar que:
a) ( ) Utilizamos a tabela de números aleatórios para encontrar o valor do k.
b) ( ) É utilizada quando conhecemos parte da população
c) ( ) Pode ser utilizada quando não conhecemos a população
d) ( ) É um método aleatório em que não há possibilidade do pesquisador
interferir na escolha da amostra;
e) ( ) Nenhuma das alternativas acima.
2) Com relação a amostragem sistemática é CORRETO afirmar que:
a) ( ) Permite encontrar amostras de população cujo número total de
elementos é desconhecido;
b) ( ) A amostra é encontrada utilizando uma progressão geométrica cujo
primeiro termo é o primeiro elemento da população ;
c) ( ) A amostra é encontrada utilizando uma progressão aritmética cujo
primeiro termo é o primeiro elemento da população ;
d) ( ) A amostra é encontrada utilizando uma progressão aritmética cuja razão
é encontrada na tabela de números aleatórios;
e) ( ) Nenhuma das alternativas acima.
3) Com relação a amostragem estratificada é CORRETO afirmar que:
a) ( ) Permite encontrar amostras de estratos que não possuem nenhuma
característica em comum;
b) ( ) Os estratos devem ser disjuntos;
c) ( ) A amostra é sempre dividida em partes iguais para cada estrato;
d) ( ) Utilizamos uma amostragem aleatória simples considerando todos os
estratos juntos;
e) ( ) Nenhuma das alternativas acima.
4) O gerente de um determinado banco com o intuito de fazer uma pesquisa junto a
seus clientes utiliza o seguinte processo: Pega o primeiro cliente que compareceu à
agência naquele dia e o entrevista. O segundo a ser entrevistado é o 6.º cliente. O
30
terceiro a ser entrevistado é o 11.º cliente e assim sucessivamente até que a
agência feche. É CORRETO afirmar que:
a) ( ) O gerente utilizou uma amostragem estratificada proporcional;
b) ( ) O gerente utilizou uma amostragem aleatória simples;
c) ( ) O gerente utilizou uma amostragem sistemática;
d) ( ) O gerente não utilizou nenhum método de amostragem;
e) ( ) Nenhuma das alternativas acima.
5) Considere o seguinte problema: Deve-se extrair uma amostra estratificada
proporcional de tamanho 60 de uma população de tamanho 4.000, que consiste de
três estratos de tamanhos N1=2.000, N2=1.200 e N3= 800. É CORRETO afirmar que:
a) ( ) Do primeiro estrato deverá ser extraída 18 amostras;
b) ( ) Do segundo estrato deverá ser extraída 30 amostras;
c) ( ) Do terceiro estrato deverá ser extraída 12 amostras;
d) ( ) Deverá extrair 20 amostras de cada estrato;
e) ( ) Nenhuma das alternativas acima.
6) A única opção que traz dois métodos de amostragem em que é preciso conhecer
todos os elementos da população é:
a) ( ) Aleatória simples e por conglomerado;
b) ( ) Por conglomerado e sistemática;
c) ( ) Aleatória simples e sistemática;
d) ( ) Estratificada e por conglomerado;
e) ( ) Nenhuma das alternativas acima.
31
7) Os dados abaixo se referem a taxa de hemoglobina no sangue (em gramas/cm3)
de 12 professores de uma determinada escola.
Professor 1 2 3 4 5 6 7 8 9 10 11 12
Taxa de
hemoglobina 11,1 12,2 15,2 11,3 14,4 12,7 13,5 15,8 11,7 16,3 14,1 12,5
Extrair uma amostra sistemática de 3 taxas de hemoglobina. (Usar 7.ª coluna da
TNA, último algarismo).
8) Os dados abaixo referem-se ao salário (em salários mínimos) de 20 funcionários
administrativos em uma indústria.
10.1 7.3 8.5 5 4.2 3.1 2.2 9 9.4 6.1
3.3 10.7 1.5 8.2 10 4.7 3.5 6.5 8.9 6.1
a) Extraia uma amostra de 6 elementos usando a amostra aleatória simples.
(Usar 2.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra de 5 elementos usando a amostra sistemática. (Usar
2.ª coluna na TNA, último algarismo).
9) Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo
indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre
ônibus, metrô e trem, o número de diferentes meios de transporte utilizado foi o
seguinte: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2 e
3.
a) Extraia uma amostra de 10 elementos usando a amostra aleatória simples.
(Usar 3.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra de 10 elementos usando a amostra sistemática. (Usar
3.ª coluna na TNA, dois últimos algarismos);
10) A idade dos 20 ingressantes num certo ano no curso de pós-graduação em
jornalismo de uma universidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24,
25, 25, 26, 26, 26, 26, 27, 28, 35 e 40.
a) Extraia uma amostra, com reposição, de 8 elementos usando a amostra
aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra, sem reposição, de 8 elementos usando a amostra
sistemática. (Usar 3.ª coluna na TNA, último algrarismo);
11) Um novo medicamento para cicatrização está sendo testado e um experimento é
feito para estudar o tempo (em dias) de completo fechamento em cortes
provenientes de cirurgia. As 30 cobaias tiveram os seguintes tempos: 15, 17, 16, 15,
17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18,
18, 16, 15 e 14.
32
a) Extraia uma amostra, sem reposição, de 10 elementosusando a amostra
aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra, sem reposição, de 10 elementos usando a amostra
sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos);
12) Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de
português e 40 de matemática. Para os 20 melhores classificados, apresentamos o
número de acertos em cada disciplina, em ordem decrescente de pontos:
Aluno 1 2 3 4 5 6 7 8 9 10
Português 35 35 34 32 31 30 26 26 24 23
Matemática 31 29 27 28 28 26 30 28 25 23
Aluno 11 12 13 14 15 16 17 18 19 20
Português 23 12 11 20 17 12 14 20 8 10
Matemática 21 32 31 20 21 25 20 13 23 20
a) Extraia uma amostra de 5 alunos usando a amostra aleatória simples.
(Usar 3.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra de 5 alunos usando a amostra sistemática. (Usar 3.ª
coluna na TNA, dois últimos algarismos);
14) O Departamento de Ensino de uma Escola Particular, de um bairro de classe
média, deseja realizar uma pesquisa para saber se seria conveniente criar o 2.º grau
em seu quadro de turmas. Isso porque ela ministra apenas da 1.ª série à 8.ª série do
ensino básico e fundamental.
Para isso ela contrata uma firma de consultoria para realizar esta pesquisa.
Suponhamos que você faça parte dessa firma e seja indicado(a) para formular
um questionário a fim de coletar dados que irão ajudar na solução deste problema.
Então você deverá criar um questionário com esse objetivo. Bom trabalho.!!!
15) Os dados a seguir referem-se ao consumo de energia elétrica, em mil MWh. Os
dados são da CEMIG,FURNAS, ELETROBRÁS.
Setor 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997
Refinaria
de petróleo 301 286 262 248 246 253 238 259 242 236 251
Química 3471 3465 3189 3089 2929 2770 2591 2747 2033
Residencial 7301 7118 7047 6965 6963 6785 6899
Extrair uma amostra estratificada proporcional de tamanho 9, sem repetição.
Usar: Refinaria: 2ª coluna, Química: 4ª coluna e Residência: 7ª coluna. Ambos
utilizar primeiros lgarísmos.
33
16) Os dados a seguir referem-se ao número de acidentes de tráfego durante 50
horas de pico em certa rodovia.
1 0 3 2 3 5 3 0 2 7
0 4 3 1 3 1 5 3 4 4
2 1 3 1 2 2 1 0 2 0
0 1 1 2 4 5 3 4 3 4
3 3 5 2 1 6 1 2 4 6
17) Os dados a seguir referem-se ao número de alarmes falsos (acionados
acidentalmente ou por mau funcionamento do equipamento) recebidos em 30 dias
por um serviço de monitoramento da segurança.
3 6 2 4 5 8 2 5 6 3
4 7 4 6 5 5 5 4 3 7
4 4 6 3 9 5 7 4 4 6
18) Um artigo em Technometrics (Vol. 19, 1977, pg. 425) apresenta dados sobre
taxas de octanagem de combustível para motor, de várias misturas de gasolina. 40
destes resultados são apresentados a seguir:
88,5 94,7 84,3 90,1 89 89,8 91,6 90,3 90 91,5
89,9 98,8 88,3 90,4 91,2 90,6 92,2 87,7 91,1 86,7
93,4 96,1 89,6 90,4 91,6 90,7 88,6 88,3 94,2 85,3
90,1 89,3 91,1 92,2 83,4 91 88,2 88,5 93,3 87,4
Extrair uma amostra sistemática de tamanho n = 6.
Utilize a tabela de números aleatórios: 1ª coluna, primeiro algarismo.
OBS.: A numeração deverá ser feita por linha.
34
Distribuição de Freqüência
Dados Brutos
Após a coleta de dados é comum encontrá-los desordenados, ou seja, fora de
alguma ordem. Por essa razão, costuma-se chamá-los de dados brutos.
Exemplo: Os dados a seguir representam a temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto:
43 45 49 47 52
45 51 46 44 48
51 50 52 44 48
50 49 50 46 46
49 49 51 50 49
Rol
Quando tomamos os dados brutos e colocamos seus elementos em uma
determinada ordem, crescente ou decrescente, obtemos um conjunto organizado
denominado Rol.
43 44 44 45 45
46 46 46 47 48
48 49 49 49 49
49 50 50 50 50
51 51 51 52 52
35
Tabela de freqüência
As tabelas de freqüências são representações nas quais os valores se
apresentam em correspondência com suas repetições.
Uma das vantagens da tabela de freqüência é proporcionar uma rápida
visualização dos dados. Também é possível calcular medidas com um menor
número de cálculos.
A seguir apresentamos as tabelas de freqüências simples (não agrupadas em
classes).
Distribuição de Freqüências de Dados Tabulados Não-Agrupados em
Classes
É uma tabela onde cada valor da variável aparece individualmente com sua
respectiva freqüência, repetição. Esse tipo de apresentação é utilizado para
representar uma variável discreta ou descontinua.
Exemplo 1: A tabela abaixo representa a temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto:
36
Tabela 5: Temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto:
Temperatura
Freqüência
fj
43 1
44 2
45 2
46 3
47 1
48 2
49 5
50 4
51 3
52 2
25
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Tipos de freqüência
� Frequência simples ( fj): é a freqüência de cada valor individual ou de cada
classe;
� Frequênca acumulada simples ( Fj): é a soma de todas as frequências simples
anteriores;
� Frequência relativa simples (frj): é o valor de cada freqüência simples dividido
pela soma das freqüências;
� Frequênca acumulada relativa (Frj): é a soma de todas as frequências
relativas simples anteriores;
Exemplo 2: Uma auditoria em 60 faturas de venda revelou os seguintes números de
erros na fixação de preços:
0 0 2 1 4 1 0 1 3 2
2 0 1 1 1 4 0 3 1 5
1 1 0 2 0 0 1 1 4 3
0 1 0 2 1 4 3 1 0 0
5 1 2 0 3 0 2 1 1 3
1 4 3 0 2 0 1 1 0 1
37
Tabela 6: Número de erros na fixação de preços em faturas de vendas
Número de
erros
fj
Fj
frj (%)
0 17 17 28
1 21 38 35
2 8 46 13
3 7 53 12
4 5 58 8
5 2 60 3
60 99
Fonte: Estatística aplicada à gestão empresarial [4]
Como a soma das porcentagens foi de 99% então temos que fazer uma
correção para que a soma seja 100%.
Utilizaremos o erro relativo considerando apenas os arredondamentos por
falta.
01176,0
3333,28
283333,28
=
−
=RE
02499,0
3333,13
133333,13
=
−
=RE
04000,0
3333,8
83333,8
=
−
=RE
09999,0
3333,3
33333,3
=
−
=RE
O menor erro é 0,01176. Assim arredondamos por excesso o valor
28,3333=29.
38
Tabela 7: Número de erros na fixação de preços em faturas de vendas
Número de
erros
fj
Fj
frj (%)
Frj
0 17 17 29* 29
1 21 38 35 64
2 8 46 13 77
3 7 53 12 89
4 5 58 8 97
5 2 60 3 100
60 100
Fonte: Estatística aplicada à gestão empresarial [4]
39
Distribuição de Freqüências de Dados Agrupados em Classes
Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado
na ordenação de valores individuais, há vantagem em resumir os dados originais em
uma distribuição, onde os valores observados não mais aparecerão individualmente,
mas agrupados em classes.
Para variáveis contínuas sempre usamos agrupar. Para variáveis discretas e
número de valores representativos dessa variável muito grande também agrupamos.
Elementos de uma Distribuição de Freqüências
1) Freqüência Simples Absoluta: fj
É o número de observações correspondentes a essa classe ou a esse valor.
A freqüência simples absoluta, ou simplesmente freqüência, é simbolizada por fj .
2) Amplitude Total: At
É a diferença entre o maior e o menor valor observado da variável em estudo.
3) Número de Classes
É cada um dos grupos de valores em que se subdivide a amplitude total do
conjunto de valores observados da variável.
Uma classe pode ser identificada por seus extremos ou pela ordem em que
ela se encontra na tabela (valor do índice j)
O número de classes pode ser calculado usando a fórmula de Sturges:
k = 1 + 3,3 log10 N
Onde
k = número de classes
N = número total de observações
O arredondamento de k é feito para o inteiro imediatamente superior.
4) Limites de classesOs limites de classe são seus valores extremos.
a) Limite Inferior: É o valor mínimo de uma classe.
b) Limite Superior: É o valor máximo de uma classe. Este pode não
pertencer à classe atual.
40
5) Amplitude do Intervalo de classe
Amplitude do intervalo de classe ou simplesmente intervalo de classe é o
comprimento da classe, sendo geralmente definida como a diferença entre seus
limites superior e inferior.
6) Ponto médio de classe
O ponto médio ou valor médio é o valor que representa os dados, para
efeito de cálculos de certas medidas.
Na distribuição de freqüências com valores agrupados em classes,
considera-se que os resultados incluídos em cada classe distribuem-se
uniformemente por seu intervalo.
Exemplo 1: Os dados a seguir representam a temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto:
43 44 44 45 45
46 46 46 47 48
48 49 49 49 49
49 50 50 50 50
51 51 51 52 52
Amplitude total = 52 – 43 = 9
Número de classes:
k = 1 + 3,3 x log 25
k = 1 + 3,3 x 1,3979
k = 5,61
k ≅ 6
Amplitude do intervalo de classe:
Ac = At / k = 9 / 6 = 1,5
Obs: Devemos inicialmente testar se o limite superior da última classe é maior ou
igual ao valor máximo. Para isto utilizamos a fórmula
Limite superior da última classe = mínimo + k. Ac
Caso o limite superior não seja maior ou igual ao valor máximo então devemos,
como alternativa, fazer um arredondamento por excesso na amplitude de classe.
Limite superior da última classe = 43 + 6. 1,5 = 52
41
Tabela 8: Temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Exemplo: Considere a tabela a seguir
Tabela 9: Temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto
temperatura
fj
Frequência
acumulada
simples
Fj
Frequência
relativa
Simples
frj
Frequência
relativa
Acumulada
Frj
43,0 |--- 44,5 3 3 0,12 0,12
44,5 |--- 46,0 2 5 0,08 0,20
46,0 |--- 47,5 4 9 0,16 0,36
47,5 |--- 49,0 2 11 0,08 0,44
49,0 |--- 50,5 9 20 0,36 0,80
50,5 |---| 52,0 5 25 0,20 1,00
Total 25 1,00
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Observação: A soma total da freqüência relativa simples deve ser igual a 1.
Temperatura fj
43,0 |--- 44,5 3
44,5 |--- 46,0 2
46,0 |--- 47,5 4
47,5 |--- 49,0 2
49,0 |--- 50,5 9
50,5 |---| 52,0 5
Total 25
42
ROTEIRO PARA A ELABORAÇÃO DE UMA TABELA DE FREQÜÊNCIAS COM
DADOS AGRUPADOS EM CLASSES
Para a construção de uma tabela de freqüências, é conveniente adotar-se um
roteiro que, embora baseado em critérios relativamente arbitrários, facilita e torna
operacional o trabalho de quem irá montar a tabela. O roteiro proposto consta dos
seguintes passos:
a) Lista de dados brutos que pode ou não ser transformada em rol;
b) Encontrar a amplitude total do conjunto de valores observados:
c) Calcular o número de classes (k) usando a fórmula de Sturges:
d) Determinar a amplitude do intervalo de classe.
Muitas vezes convém arredondar o número correspondente à amplitude
do intervalo de classe a que se chegou para um número mais adequado, que
facilite os cálculos.
e) Determinar os limites das classes, escolhendo-se preferencialmente,
números inteiros.
f) Construir a tabela de freqüências.
Menor valor do conjunto Maior valor do conjunto - At =
43
Manual para Normalização de Publicações Técnico – cientificas
Tabelas de distribuição de freqüência
1) As tabelas devem ser dotadas de um título claro e conciso localizado acima
delas. São numeradas seqüencialmente em todo o trabalho, com algarismos
arábicos (1, 2, 3, ...), segundo normas do IBGE.
2) No cabeçalho de cada coluna indica-se o seu conteúdo. Os títulos das
colunas podem ser datilografados verticalmente, se necessário, para
economizar espaço.
3) Não se deve deixar nenhuma “casa” vazia no corpo da tabela, usando-se os
símbolos, conforme convenção internacional:
- quando, pela natureza do fenômeno, o dado não existir
Z quando o dado for rigorosamente zero
... quando não se dispuser do cálculo
4) Na construção de tabelas usam-se os seguintes traços:
a) traço duplo horizontal, limitando o quadro;
b) traço simples vertical, separando a coluna indicadora das demais e
estas entre si; no corpo da tabela pode ser eliminado desde que o número de
colunas seja pequeno e não haja prejuízo na leitura dos dados;
5) a tabela não deve ser fechada lateralmente, tampouco se colocam traços
horizontais separando os dados numéricos.
44
Exercícios
Para os exercícios 1 a 5 construa uma tabela de distribuição de freqüência
simples.
1) As cifras abaixo representam os ganhos de 15 vendedores:
425 440 610 518 324
482 624 390 468 457
509 561 482 480 520
2) Dão-se a seguir os pesos, em libras, de 20 candidatos a empregos no corpo de
bombeiros de uma cidade:
225 182 194 210 205 172 181 198 164 176
180 193 178 193 208 186 183 170 186 188
3) Os seguintes números de unidades de um produto foram completados em
determinados dia por 20 operários de uma fábrica de artigos de artesanato:
61 58 59 72 47 55 40 73 66 60
71 69 63 58 51 42 67 80 62 53
4) Uma auditoria em 60 faturas de venda revelou os seguintes números de erros na
fixação de preços:
0 0 2 1 4 1 0 1 3 2
2 0 1 1 1 4 0 3 1 5
1 1 0 2 0 0 1 1 4 3
0 1 0 2 1 4 3 1 0 0
5 1 2 0 3 0 2 1 1 3
1 4 3 0 2 0 1 1 0 1
5) Dão-se, a seguir, os números de alarmes falsos(acionados acidentalmente ou por
mau funcionamento do equipamento) recebidos em 30 dias por um serviço de
monitoramento da segurança:
3 6 2 4 5 8 2 5 6 3
4 7 4 6 5 5 5 4 3 7
4 4 6 3 9 5 7 4 4 6
45
As questões de 6 a 11 são referentes à tabela a seguir..
Tabela 10: Notas de alunos, em uma prova de 30 pontos, de uma determinada
escola
6) O valor do limite superior da 4.ª classe é de:
a) ( ) 17;
b) ( ) 18;
c) ( ) 19;
d) ( ) 20;
e) ( ) Nenhuma das alternativas acima.
7) O valor do limite inferior da 3.ª classe é de:
a) ( ) 13;
b) ( ) 14;
c) ( ) 15;
d) ( ) 16;
e) ( ) Nenhuma das alternativas acima.
8) O valor da freqüência acumulada simples da 5.ª classe é de:
a) ( ) 8;
b) ( ) 10;
c) ( ) 20;
d) ( ) 26;
e) ( ) Nenhuma das alternativas acima.
Notas fj
11 I----- 6
I----- 2
I----- 2
I----- 10
I----- 6
21 I----- 4
Total 30
46
9) O valor da freqüência relativa acumulada 4.ª classe é de:
a) ( ) 0,2000;
b) ( ) 0,2667;
c) ( ) 0,3333;
d) ( ) 0,6667;
e) ( ) Nenhuma das alternativas acima.
10) Porcentagem dos alunos que tiraram abaixo de 50% da nota da prova é de:
a) ( ) 20%;
b) ( ) 27%;
c) ( ) 34%;
d) ( ) 67%;
e) ( ) Nenhuma das alternativas acima.
11) A nota em que 66% dos alunos estão acima dela é de:
a) ( ) 15;
b) ( ) 16;
c) ( ) 17;
d) ( ) 18;
e) ( ) Nenhuma das alternativas acima.
47
As questões de 12 a 15 são referentes à tabela a seguir.
Tabela 11: Idade de pacientes internados no hospital X, localidade Y, no ano Z.
12) O valor do limite superior da 4.ª classe é de:
13) O valor do limite inferior da 3.ª classe é de:
14) O valor da freqüência acumulada simples da 5.ª classe é de:
15) O valor da freqüência relativa simples da 4.ª classe é de:
16) Os dados se referem aos pesos dos alunos de uma determinada escola:
60.5 60 70 47.4 60 57 52 47 55 50
55 58 54 66 58.5 63 73 95 39 54.5
72.8 47 58 85.2 49.2 52 56 84 75 50
80.9 57.8 68.5 54.5 48 4958 60 55 71
55 58 63.5 52.5 51.6 59 87 73 49 86
Após construir uma tabela de distribuição de freqüência agrupada em classes,
a freqüência simples da terceira classe é de:
17) Os dados abaixo se referem aos pesos dos alunos de uma determinada escola:
60.5 60 70 47.4 60 57 52 47 55 50
55 58 54 66 58.5 63 73 95 44 54.5
72.8 47 58 85.2 49.2 52 56 84 75 50
80.9 57.8 68.5 54.5 48 49 58 60 55 71
55 58 63.5 52.5 51.6 59 87 73 49 86
Siga os passos para a construção de uma tabela de distribuição de freqüência
com dados agrupados:
a) Determine a amplitude total
b) Determine a amplitude de classe
Grupo etários (em anos) fj
20 |--- 1
|--- 3
|--- 5
|--- 6
|--- 4
70 |--- 1
Total 20
48
c) Construa a tabela usando 7 classes
d) Inclua na tabela as freqüências relativas simples
e) Inclua na tabela as freqüências acumuladas (abaixo de) simples
f) Inclua na tabela as freqüências acumuladas (abaixo de) relativas
18) Com relação à tabela de distribuição de freqüência agrupada acima responda:
a) Quantos alunos pesam até 69 kg?
b) Quantos alunos pesam mais de 76 kg?
c) Qual a porcentagem de alunos que pesam menos de 62 kg?
19) Uma importante característica de qualidade da água é a concentração de
material sólido suspenso. Em seguida, são apresentadas 60 medidas de sólidos
suspensos de um certo lago. Os dados são do livro Estatística Aplicada e
Probabilidade para Engenheiros.
42,4 54,3 56,3 65,7 54 43,3 29,8 73,1 57,4 58,7
81,3 45,3 52,1 59,9 80,1 55,8 56,9 49,7 57 62,2
42,8 68,7 69,9 42,4 67,3 66,9 59,6 67,3 59 65,8
61,4 42,6 61,4 64 77,4 73,1 64,2 54,7 77,3 72,6
57,1 48,5 72,5 77,3 89,8 46,1 39,3 50,7 53,1 76,4
52 56,1 59,3 59,6 67,2 51,1 66,1 70,7 73,8 31,6
Com o objetivo de construir uma tabela de distribuição de frequência agrupada em
classes calcule:
a) Valor mínimo e máximo;
b) Amplitude total;
c) Número de classes;
d) Amplitude de classes;
e) Construa a tabela apresentando as frequência simples e relativa simples.
Considere log 60 = 1,7782
49
Medidas de Tendência Central.
As medidas de tendência central têm por objetivo localizar o centro dos
dados. Estas medidas são: média, mediana e moda.
Em muitos casos estas medidas são diferentes, mas elas também podem ser
iguais.
Nesta apostila adotamos, didaticamente, dois casos para o cálculo destas
medidas: quando os dados são brutos ou estão em tabela de distribuição simples e
quando os dados estão em tabela de distribuição agrupada em classes.
Dados brutos
1) Média Aritmética Simples
A média aritmética simples, amostral, de um conjunto de n observações
},,,{ 21 nxxx L é definida por
n
x
x
n
i
i∑
=
=
1
A média aritmética simples, populacional, de um conjunto de N observações
},,,{ 21 Nxxx L é definida por
N
x
N
i
i∑
=
=
1
µ
Exemplo: Os dados a seguir representam as temperaturas (em ºF) em que ocorrem
uma deflexão, devido à carga, em uma amostra de 10 tubos plásticos idênticos.
206 188 205 187 194 193 207 185 189 213
Qual a média aritmética?
Solução: A média será
50
7,196
10
967.1
10
213189185207193194187205188206
1
=
=
+++++++++
=
=
∑
=
x
x
x
n
x
x
n
i
i
2) Mediana: Md
Para evitar a possibilidade de sermos enganados por valores muito pequenos
ou muito grandes, ocasionalmente descrevemos o “meio” ou “centro”de um
conjunto de dados com outras medidas estatísticas que não a média. Uma
dessas medidas, a MEDIANA de n valores, exige que os ordenemos, e se define
como:
O valor do elemento do meio se n é ímpar, ou a média aritmética dos dois
valores do meio se n é par.
Assim dizemos que a mediana é o valor do
2
1n ++++
elemento.
51
Exemplo: Os dados a seguir representam as temperaturas (em ºF) em que ocorrem
uma deflexão, devido à carga, em uma amostra de 10 tubos plásticos idênticos.
206 188 205 187 194 193 207 185 189 213
Qual a mediana?
Solução: Ordenando os elementos temos:
185 187 188 189 193 194 205 206 207 213
Como temos 10 elementos, número par, a mediana será a média aritmética dos dois
elementos centrais. Logo a mediana é 5,193
2
194193
=
+
=Md .
Exemplo 2: Em algumas áreas, as pessoas autuadas por certas infrações leves de
tráfego podem freqüentar um curso de direção defensiva em lugar de pagar uma
multa. Se 11 desses cursos foram freqüentados por
40 32 37 30 24 40 38 35 40 28 32
Cidadãos. Qual a mediana?
Solução: Ordenando os elementos temos:
24 28 30 32 32 35 37 38 40 40 40
Como temos 11 elementos, número ímpar, a mediana será o valor do elemento
central. A posição central é o 6º elemento, 6
2
111
=
+
=Posição . Logo a mediana será
35.
52
3) Moda: Mo
É o valor que ocorre com maior freqüência e mais de uma vez.
Exemplo: Vinte reuniões de um clube de dança tiveram as seguintes freqüências de
seus membros
26 25 28 23 25 24 24 21 23 26
28 26 24 32 25 27 24 23 24 22
Qual a moda?
Solução: A moda vale 24, pois ocorre 5 vezes.
Observação: A moda é raramente utilizada em inferência estatística pelo fato de
nem sempre existir (o que ocorre quando não há dois valores iguais) ou de,
eventualmente, não ser única.
Exemplo: Os dados a seguir referem-se a quantidade de pessoas que assistiram a 6
sessões de um filme no cinema:
121 133 121 133 114 141
Qual o número modal de pessoas que assistiram ao filme?
Solução: Temos que os números 121 e 133 repetem, ambos, duas vezes. Portanto a
moda não é única. Logo as modas são 121 e 133.
53
Dados apresentados em tabela de distribuição de freqüência
Considere:
xi o ponto médio da classe i ,
fi a freqüência da classe i,
k a quantidade de classe.
1) Média aritmética
A média aritmética é definida por:
∑
∑
=
=
=
k
i
i
k
i
ii
f
fx
x
1
1
.
OBS.:
� Observe que o tamanho da amostra é dado por ∑
=
=
k
i
ifn
1
.
� Caso tenhamos uma tabela de distribuição agrupada em classes, o valor de
xi será o ponto médio da classe.
� O arredondamento será sempre uma casa decimal a mais que os dados.
54
Exemplo: A tabela abaixo representa o número de defeitos por peça.
Tabela 12: Número de defeitos por peça
Número de defeitos (xi)
Freqüência
fj
0 5
1 10
2 18
3 12
4 5
50
Fonte: Referência bibliográfica [1]
Calcule número médio de defeitos.
Solução: Preenchemos a tabela com os valores necessários
Número de defeitos (xi)
Freqüência
fi
Xifi
0 5 0
1 10 10
2 18 36
3 12 36
4 5 20
50 102
A média será
0,2
50
102
.
1
1
===
∑
∑
=
=
k
i
i
k
i
ii
f
fx
x
Exemplo: A tabela abaixo representa as temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto.
Tabela 13: Temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto
temperatura fj
43,0 |--- 44,5 3
44,5 |--- 46,0 2
46,0 |--- 47,5 4
47,5 |--- 49,0 2
49,0 |--- 50,5 9
50,5 |---| 52,0 5
Total 25
55
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Calcule a temperatura média.
Solução: Preenchemos a tabela com os valores necessários
A temperatura média será
37,48
25
25,209.1
.
1
1
===
∑
∑
=
=
k
i
i
k
i
ii
f
fx
x
2) Mediana
Se tivermos uma tabela de distribuição de freqüência simples, então podemos
proceder como no caso dos dados estarem na forma bruta.
Exemplo: A tabela abaixo representa o número de defeitos por peça.
Tabela 14: Número de defeitos por peça
Número de defeitos (xi)
Freqüência
fi
0 5
1 10
2 18
3 12
4 5
50
Fonte:Referência bibliográfica [1]
Qual o número mediano de defeito?
Solução: Como temos 50 elementos, o valor mediano deverá ser a média dos dois
elementos centrais. Neste caso os dois elementos centrais são os elementos de
posição 25º e 26º, 2
2
22
=
+
. Assim o número mediano de defeito é 2,0.
temperatura fj xj xjfj
43,0 |--- 44,5 3 43,75 131,25
44,5 |--- 46,0 2 45,25 90,50
46,0 |--- 47,5 4 46,75 187,00
47,5 |--- 49,0 2 48,25 96,50
49,0 |--- 50,5 9 49,75 447,75
50,5 |---| 52,0 5 51,25 256,25
Total 25 1.209,25
56
Para uma distribuição de freqüência agrupada em classes, a mediana é tal
que metade da área total dos retângulos do histograma da distribuição está à sua
esquerda, e a outra metade está à sua direita.
De modo geral podemos calcular a mediana por:
h
F
f
2
n
Lx~Md ⋅
−
+==
∑
onde
L: é o limite inferior da classe em que a mediana deve estar.
F: é a freqüência da classe mediana
h: o intervalo de classe
n: é o número de elementos ou tamanho da amostra
∑ f : soma das frequência anteriores à classe da mediana
Exemplo: A tabela abaixo representa as temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto.
Calcule a temperatura média.
Tabela 15: Temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Qual o valor da temperatura mediana?
Solução: Como temos 25 elementos, o valor mediano deverá estar no
º5,12
2
25
= elemento.
Assim 3 + 2 + 4 + 2 = 11 e 3 + 2 + 4 + 2 + 9 = 20. A mediana estará na 5.ª classe.
Usando a fórmula temos:
L = 49,0, F = 9, h = 1,5 e ∑ f = 11 . Logo
temperatura fi
43,0 |--- 44,5 3
44,5 |--- 46,0 2
46,0 |--- 47,5 4
47,5 |--- 49,0 2
49,0 |--- 50,5 9
50,5 |---| 52,0 5
Total 25
57
( )
25,49
5,1
9
115,12
0,49
2
=
⋅
−
+=
⋅
−
+=
∑
Md
Md
h
F
f
n
LMd
Portanto a mediana é 49,25.
3) Moda
Se tivermos uma tabela de distribuição de freqüência simples, então podemos
proceder como no caso dos dados brutos.
Exemplo: A tabela abaixo representa o número de defeitos por peça.
Tabela 16: Número de defeitos por peça
Número de defeitos (xi)
Freqüência
fi
0 5
1 10
2 18
3 12
4 5
50
Fonte: Referência bibliográfica [1]
Qual o número de defeito modal?
Solução: 0 número de defeito que mais ocorre é 2, pois ocorre 18 vezes. Logo o
número de defeito modal é Mo = 2.
Quando temos uma tabela de distribuição de freqüência agrupada em
classes, o cálculo da moda é feito utilizando a fórmula de Czuber.
1.º passo: Identificamos a classe modal ( aquela que possui maior frequência)
2.º passo: Aplica-se a fórmula
hLMo ⋅
∆+∆
∆
+=
21
1
58
onde
L: É o limite inferior da classe modal.
1∆∆∆∆ : Diferença entre a freqüência da classe modal e a classe imediatamente anterior.
2∆∆∆∆ : Diferença entre a freqüência da classe modal e a classe imediatamente
posterior.
h: Amplitude da classe modal
Exemplo: A tabela abaixo representa as temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto.
Tabela 17: Temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Calcule a temperatura modal
Solução:
1.º passo: A classe modal é a 5.ª, pois ela possui a maior freqüência.
2.º passo: Temos
0,49=L , 7291 =−=∆ , 4592 =−=∆ e 5,1=h
95,49
5,1
47
7
0,49
=
⋅
+
+=
Mo
Mo
Logo a temperatura modal é Mo = 49,95.
Obs: Caso a moda seja a primeira ou a última classe a fórmula acima para a moda
não se aplica. Neste caso podemos calcular o valor aproximado da moda utilizando
a fórmula de Pearson:
x2Md3Mo −=
temperatura fi
43,0 |--- 44,5 3
44,5 |--- 46,0 2
46,0 |--- 47,5 4
47,5 |--- 49,0 2
49,0 |--- 50,5 9
50,5 |---| 52,0 5
Total 25
59
Exercícios
I) Considere a tabela
Tabela 18: Quantidade de óxido de enxofre (em toneladas)
emitidas por uma indústria em 70 dias
Quantidade de
Óxido de enxofre
f
6,2 |--- 9,4 4
9,4 |--- 12,6 8
12,6 |--- 15,8 9
15,8 |--- 19,0 14
19,0 |--- 22,2 14
22,2 |--- 25,4 11
25,4 |--- 28,6 8
28,6 |--- 31,8 2
70
Fonte: referência bibliográfica [2]
Calcule:
1) Média aritmética
2) Mediana
3) Moda
4) Compare as medidas calculadas.
II) Considere a tabela
Tabela 19: Tempo de percurso, para o trabalho, de 100 empregados
de um grande escritório localizado no centro da cidade
Tempo f
11,4 |--- 25,65 20
25,65 |--- 39,90 36
39,90 |--- 54,15 29
54,15 |--- 68,40 5
68,40 |--- 82,65 1
82,65 |--- 96,90 4
96,90 |--- 111,15 3
111,15 |--- 125,40 2
100
Fonte:
Calcule:
1) Média aritmética
2) Mediana
3) Moda
60
4) Compare as mediadas calculadas.
61
Separatrizes
As separatrizes são medidas de posição, ou seja, são medidas que dividem o
conjunto de dados em partes iguais.
As medidas de posição estudadas nesta apostila são:
� Quartil
� Decil
� Percentil.
A seguir destacamos os métodos de cálculo destas medidas.
Separatrizes de dados brutos ou em tabela de distribuição simples
Para o cálculo das medidas separatrizes é necessário, primeiramente,
ordenar os dados.
Quartis
Os quartis dividem um conjunto de dados em 4 (quatro) partes iguais
Assim,
quartilº1Q1 =
quartilº2Q2 =
quartilº3Q3 =
O cálculo dos quartis é feito utilizando a fórmula:
Posição do quartil: )1(
4
PQ i += N
i
Valor do quartil: ( ) ( ) ( )( )j1jji XX
4
i
XQ −+= + , onde j é a parte inteira do
resultado de iPQ .
62
Observações:
1) O cálculo do valor do quartil utilizando a fórmula acima só é feito caso a
posição seja um valor decimal. Caso a posição seja um inteiro exato então o
valor do quartl é dado pelo valor respectivo ao da sua posição.
2) As formulas anteriores dão uma estimativa dos quartis. Em vários livros
didáticos não são apresentadas relações para estimar as separatrizes no
caso discreto. Várias fórmulas são encontradas, todas servem como
estimativas e não apresentam resultados iguais.
Exemplo: Durante um período de uma hora uma sorveteria recebeu 20 fregueses, e
os valores das compras em reais foram
2,1 4,3 2,1 9,5 5,3 6,4 4,7 10,6 6,8 4,3
2,1 2,1 6,4 10,2 7,6 5,5 2,1 7,6 4,3 3,7
Calcule:
1) 2º quartil
Solução: Ordenando os dados.
2,1 2,1 2,1 2,1 2,1 3,7 4,3 4,3 4,3 4,7
5,3 5,5 6,4 6,4 6,8 7,6 7,6 9,5 10,2 10,6
Posição: ( ) 5,10120
4
2
PQ 2 =+=
Valor: ( ) ( ) ( )( ) ( ) 00,57,43,55,07,4
4
2
Q 1011102 =−+=−+= XXX
2) 3º quartil
Posição: 75,15)120(
4
3
PQ 3 =+=
Valor: ( ) ( ) ( )( ) ( ) 40,78,66,775,08,6
4
3
Q 1516153 =−+=−+= XXX
Decis
Os decis dividem um conjuto de dados em 10 (dez) partes iguais
Assim,
decilº1D1 =
decilº2D2 =
decilº9D9 =
M
O cálculo dos decis é semelhante ao cálculo dos quartis.
Calcula-se a posição utilizando: )1(
10
PD i += N
i
Calcula-se o valor de cada decil utilizando a fórmula:
63
( ) ( ) ( )( )j1jji XX
10
i
XD −+= + ,
onde j é a parte inteira do resultado de iPD .
Obs.: O cálculo do valor do quartil utilizando a fórmula acima só é feito caso a
posição seja um valor decimal. Caso a posição seja um inteiro exato então o valor do
quartl é dado pelo valor respectivo ao da sua posição.
Percentis
Os percentis dividem um conjuto de dados em cem partes iguais
Assim,
percentilº1P1 =
percentilº2P2 =
percentilº99P99 =
M
O cálculo dos percentis é semelhante ao cálculo dos quartis.
Calcula-se a posição utilizando: )1(
100
PPi += N
i
Calcula-seo valor de cada percentil utilizando a fórmula:
( ) ( ) ( )( )j1jji XX
100
i
XP −+= + ,
onde j é a parte inteira do resultado de iPP .
Obs.: O cálculo do valor do quartil utilizando a fórmula acima só é feito caso a
posição seja um valor decimal. Caso a posição seja um inteiro exato então o valor do
quartl é dado pelo valor respectivo ao da sua posição.
64
Exercícios
I) Os dados a seguir referem-se a pressão sanguínea sistólica de 20 pacientes de
um hospital.
124 130 135 141 146 149 151 152 153 155
156 158 159 162 162 165 173 177 182 204
Calcule:
1) 3º decil;
2) 9º decil;
3) 75º percentil;
4) 95º percentil.
II) Os dados a seguir representam a temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto:
43 44 44 45 45
46 46 46 47 48
48 49 49 49 49
49 50 50 50 50
51 51 51 52 52
Calcule:
1) 3º decil;
2) 7º decil;
3) 85º percentil;
III) Doze falhas de energia elétrica duraram, em minutos
18 125 44 96 31 26
80 49 125 63 45 33
Calcule:
1) 1º quartil;
2) 4º decil;
3) 90º percentil;
65
Separatrizes de dados agrupados em classes
Quando os dados estão apresentados em uma tabela de distribuição de
freqüência agrupada em classes o cálculo dos quartis é feito utilizando a fórmula:
i
i
Q
Qi
F
hf
4
in
LQ
⋅
−
⋅
+=
∑
Onde:
i
QL : é o limite inferior da classe em que o quartil deve estar.
i
QF : é a freqüência da classe do quartil
h: o intervalo de classe
n: é o número de elementos ou tamanho da amostra
∑ f : soma das frequência anteriores à classe do quartil
Quando os dados estão apresentados em uma tabela de distribuição de
freqüência agrupada em classes o cálculo dos decis é feito utilizando a fórmula:
i
i
D
Di
F
hf
10
in
LD
⋅
−
⋅
+=
∑
Onde:
i
DL : é o limite inferior da classe em que o decil deve estar.
i
DF : é a freqüência da classe do decil
h: o intervalo de classe
n: é o número de elementos ou tamanho da amostra
∑ f : soma das frequência anteriores à classe do decil
Quando os dados estão apresentados em uma tabela de distribuição de
freqüência agrupada em classes o cálculo dos percentiis é feito utilizando a fórmula:
i
i
P
Pi
F
hf
100
in
LP
⋅
−
⋅
+=
∑
Onde:
i
PL : é o limite inferior da classe em que o percentil deve estar.
i
PF : é a freqüência da classe do percentil
h: o intervalo de classe
n: é o número de elementos ou tamanho da amostra
∑ f : soma das frequência anteriores à classe do percentil
66
Exercícios:
1) Considere a tabela
Tabela 20: Quantidade de óxido de enxofre (em toneladas)
emitidas por uma indústria em 70 dias
Quantidade f
6,2 |--- 9,4 4
9,4 |--- 12,6 8
12,6 |--- 15,8 9
15,8 |--- 19,0 14
19,0 |--- 22,2 14
22,2 |--- 25,4 11
25,4 |--- 28,6 8
28,6 |--- 31,8 2
70
Fonte: Referência bibliográfica [2]
Calcule:
a) 3º quartil
b) 6º decil
c) 90º percentil
2) Considere a tabela
Tabela 21: Tempo de percurso, para o trabalho, de 100 empregados
de um grande escritório localizado no centro da cidade
Tempo f
11,4 |--- 25,65 20
25,65 |--- 39,90 36
39,90 |--- 54,15 29
54,15 |--- 68,40 5
68,40 |--- 82,65 1
82,65 |--- 96,90 4
96,90 |--- 111,15 3
111,15 |--- 125,40 2
100
Fonte:
Calcule:
a) 2º quartil
b) 4º decil
c) 95º percentil
67
3) Em uma fábrica ou um escritório, o tempo, no horário de trabalho, durante o qual
uma máquina não está funcionando em virtude de quebra ou falha é chamado tempo
parado. A tabela a seguir é uma amostra da duração desses tempos parados de
certa máquina.
Tabela 22: o tempo, no horário de trabalho, durante o qual
uma máquina não está funcionando em virtude de quebra ou falha
Tempo parado
(minutos)
Frequência
f
0 |---- 9 2
9 |---- 18 15
18 |---- 27 17
27 |---- 36 12
36 |---- 45 3
45 |---- 54 1
Total 50
Calcule:
a) Tempo 70º percentil.
b) Tempo 3º quartil.
4) O gráfico, ramo e folhas, a seguir representa o número de clientes que almoçaram
em um restaurante. Ele foi gerado pelo software SPSS.
Gráfico 1: Número de clientes que almoçaram em um restaurante
Frequency Stem & Leaf
1,00 4 . 1
3,00 4 . 233
1,00 4 . 5
4,00 4 . 6677
4,00 4 . 8899
5,00 5 . 00111
10,00 5 . 2222233333
9,00 5 . 444555555
12,00 5 . 666666777777
15,00 5 . 888888899999999
16,00 6 . 0000000011111111
15,00 6 . 222222233333333
11,00 6 . 44444445555
7,00 6 . 6666777
2,00 6 . 89
1,00 7 . 1
1,00 7 . 3
1,00 7 . 4
1,00 7 . 6
Stem width: 10
68
Each leaf: 1 case(s)
Baseando no gráfico responda:
a) Qual o 6º decil?
69
Medidas de Variabilidade
São medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou
dispersão, dos valores em torno da média.
Considere os dois conjuntos de dados a seguir:
Conjunto 1 20 20 20 20 20 20 20
Conjunto 2 30 15 15 20 20 20 20
Gráfico: comparação entre a média e conjunto de dados 2
Ambos os conjuntos têm média 20.
O desvio-padrão ou a variância são medidas que expressão o grau de
dispersão dos em torno da média. Quanto maior a dispersão maior o desvio-padrão.
A seguir apresentamos as fórmulas utilizadas para o cálculo do devio-padrão,
S . A variância é dada como o quuadrado do desvio-padrão, 2S .
Em situações práticas é usado o cálculo do desvio-padrão devido ao fato de
que ele tem a mesma unidade de medida que os dados.
Desvio padrão
Símbolo: S
Dados não agrupados
Amostral Populacional
−
−
=
∑
∑ =
=
n
x
x
n
S
n
i
in
i
i
2
1
1
2
1
1
−=
∑
∑ =
= N
x
x
N
N
i
iN
i
i
2
1
1
21σ
70
Cálculo do desvio padrão de dados em tabela de distribuição de freqüência
Sejam :
� xi o ponto médio da classe i ,
� fi a freqüência da classe i,
� k a quantidade de classe.
Amostral Populacional
−
−
=
∑
∑ =
= n
fx
fx
n
S
i
k
i
ik
i
ii
2
1
1
2
.
.
1
1
−=
∑
∑ =
=
N
fx
fx
N
i
k
i
i
k
i
ii
2
1
1
2
.
.
1
σ
Exemplo:
1) Voltando aos dois conjuntos iniciais
Conjunto 1 20 20 20 20 20 20 20
Conjunto 2 30 15 15 20 20 20 20
Temos que o desvio-padrão do conjunto 1 é 0 (zero);
Já o desvio-padrão do conjunto 2 é 5 (cinco);
2) Em uma fábrica ou um escritório, o tempo, no horário de trabalho, durante o qual
uma máquina não está funcionando em virtude de quebra ou falha é chamado tempo
parado.
A tabela a seguir é uma amostra da duração desses tempos parados de certa
máquina.
Tabela 23: Tempo, no horário de trabalho,
durante o qual uma máquina não está
funcionando em virtude de quebra ou falha
Tempo parado
(minutos)
Frequência
f
0 |---- 9 2
9 |---- 18 15
18 |---- 27 17
27 |---- 36 12
36 |---- 45 3
45 |---- 54 1
Total 50
Calcule o desvio-padrão do tempo parado.
71
Solução: Para o cálculo do desvio-padrão é necessário alguns resultados. Podemos
obtê-los completando a tabela, veja a seguir:
Tempo parado
(minutos)
Frequência
f
Tempo
Médio: xi
ifix
if
2
ix
0 |---- 9 2 4,5 9 40,5
9 |---- 18 15 13,5 202,5 2733,75
18 |---- 27 17 22,5 382,5 8606,25
27 |---- 36 12 31,5 378 11907
36 |---- 45 3 40,5 121,5 4920,75
45 |---- 54 1 49,5 49,5 2450,25
Total 50 1143 30658,5
O desvio-padrão será:
( )
[ ]
6,9
4392,92
98,128.265,30658
49
1
50
1143
5,30658
150
1
.
.
1
1
2
2
1
1
2
=
=
−=
−
−
=
−
−
=
∑
∑ =
=
S
S
S
S
n
fx
fxn
S
i
k
i
ik
i
ii
Coeficiente de variação:
Quando calculamos a variância ou o desvio-padrão de um conjunto de dados
obtemos valores absolutos. No entanto, muitas das vezes, é fundamental comparar
o valor do desvio-padrão em termos da média. Esta medida relativa é denominada
coeficiente de variação.
Assim, o coeficiente de variação é uma medida relativa entre a média e o
desvio-padrão.
x
s
CV =
Podemos expressar o valor do coeficiente de variação em porcentagem
multiplicando por 100 o resultado.
72
Exemplo: considere a tabela a segir
Tabela: Notas obtidas por 500 alunos em um teste de geografia.
Temos que
( )
( )
( )
6,20
9975,424
75,073.212
499
1
25,651.621.1725.833.1
499
1
500
475.28
725.833.1
1500
1
2
=
=
=
−=
−
−
=
s
s
s
s
s
Logo o desvio-padrão é de 20,6.
A média é 57,0.
O coeficiente de variação é dado por:
%14,363614,0
0,57
6,20
====
x
s
CV
Neste caso o desvio-padrão corresponde a 33,68 % da média.
Em um conjunto de dados, seja ele amostral ou populacional, o ideal seria
encontrar desvio-padrão igual a zero. No entanto isso é difícil. Então quanto mais
próximo de zero estiver o coeficiente de variação melhor.
Uma pergunta interessante seria a seguinte: se dois conjuntos de dados tem
o mesmo desvio-padrão então eles seriam igualmente bons? A resposta é não.
Para ilustrar a finalidade do coeficiente de variação considere os conjuntos:
Conjunto 1:
10 11 12 13 14 15 16
Conjunto 2:
500 501 502 503 504 505 506
Para estes dois conjuntos temos o mesmo desvio-padrão de 2,16. No entanto
o coeficiente de variação do conjunto 1 é 0,166 e do conjunto 2 é 0,004. Assim
vemos que o desvio-padrão do conjunto 1 representa 16,6% da média enquanto que
Notas fj xi xi.f xi
2. f
10 |--- 25 44 17,5 770 13.475
25 |--- 40 70 32,5 2.275 73.937,5
40 |--- 55 92 47,5 4.370 207.575
55 |--- 70 147 62,5 9.187,5 574.218,75
70 |--- 85 115 77,5 8.912,5 690.718,75
85 |--- 100 32 92,5 2.960 273.800
Total 500 28.475 1.833.725
73
no conjunto 2 representa 0,4%. Logo concluímos que o conjunto 2 é melhor que o
conjunto 1. Podemos perceber que variar 2,16 em 503 (média do conjunto 2) é
melhor que variar 2,16 em 13 (média do conjunto 1) .
74
Exercícios
1) A tabela abaixo se refere ao peso, em kg, de 50 alunos de uma determinada
escola.
Peso = xi fi
45 8
55 22
65 8
75 6
85 5
95 1
Total 50
a) Calcule a média dos pesos.
b) Calcule a variância.
2) A média aritmética é a razão entre:
a) ( ) O número de valores e o somatório;
b) ( ) O somatório dos valores e a quantidade de valores;
c) ( ) Os valores extremos;
d) ( ) Os dois valores centrais.
3) Numa distribuição de valores todos iguais, o desvio-padrão é:
a) ( ) negativo;
b) ( ) positivo;
c) ( ) a unidade;
d) ( ) zero.
4) A média de um conjunto de valores iguais a uma constante é:
a) ( ) zero;
b) ( ) o valor da constante;
c) ( ) a unidade;
d) ( ) a quantidade de valores que temos
5) O desvio-padrão de um conjunto de dados é 4. A variância será:
75
a) ( ) 3;
b) ( ) 4;
c) ( ) 16;
d) ( ) 81.
6) Uma empresa possui dois serventes recebendo salários de R$ 250,00 cada um,
quatro escriturários recebendo R$ 600,00 cada um, um chefe de escritório com
salário de R$ 1.000,00 e três técnicos. A média de salários da empresa é de R$
1.050,00. Quanto cada técnico recebe?
7) A média do conjunto de valores
46,1 57,5 21,6 16,8 4,2
é igual a?
8) O desvio-padrão do conjunto de valores
46 57 21 16 4
É igual a?
9) Os 20 dados abaixo se referem aos índices pluviométricos em determinado
Estado:
144 152 159 160 160 151 157 146 154 145
141 150 142 146 142 141 141 150 143 158
Determine:
a) O índice médio.
b) O índice mediano.
10) Os dados abaixo se referem a pesos (em gramas) de 50 ratos usados em um
estudo de deficiência de vitaminas.
136 125 135 137 126 129 124 118 120 126
119 92 115 115 127 95 100 113 95 113
146 103 101 118 121 129 110 126 106 148
137 87 126 119 125 132 108 118 119 117
120 110 82 105 102 104 133 104 132 146
a) Construa uma tabela de distribuição de freqüência agrupada em classes.
b) Qual o peso modal?
c) Qual o desvio-padrão?
76
d) Um rato é considerado magro se seu peso é menor que sx 2− e gordo se seu
peso é maior que sx 2+ . Quais os pesos máximo e mínimo para que um rato seja
considerado magro ou gordo?
e) Baseado na letra e, um rato cujo peso é de 135 gramas é considerado magro ou
gordo? Justifique sua resposta.
11) Dê um exemplo numérico, com no máximo 4 amostras, em que a média e a
mediana sejam iguais e o desvio-padrão seja nulo.
12) Dê um exemplo numérico, com no máximo 4 amostras, em que a média é menor
que a mediana.
13) Um artigo de jornal fez menção a determinada pesquisa citando que o conjunto
amostral acusa Σx = 5, Σx2 = 7 e s = 0,5. Por erro esqueceram de citar o tamanho da
amostra utilizado. Considerando as informações anteriores o que podemos dizer
sobre os possíveis tamanho da amostra?
14) Uma lista de números acusa Σx =202, Σx2 = 3.452 e n = 15. Qual o desvio-
padrão?
15) Em quatro paradas no box, o mecânico dos pneus dianteiros trocou o pneu
dianteiro direito dos carros de corrida em
10,8 12,0 10,5 10,7
segundos. Calcule:
a) o tempo médio de troca de pneus
b) o desvio-padrão.
16) A tabela a seguir apresenta o tempo que 80 estudantes dedicam a atividade de
lazer durante uma semana escolar típica
Calcule:
a) o tempo médio
b) o tempo mediano
c) Qual a porcentagem dos alunos que dedicam mais de 25 horas de lazer ?
17) Uma lista de números acusa Σx =40 e Σx2 = 156. Quantos valores figuram na
lista, se seu desvio-padrão é 2,0?
Horas fj
10 |--- 15 9
15 |--- 20 28
20 |--- 25 27
25 |--- 30 12
30 |--- 35 4
Total 80
77
18) Um inspetor de controle de qualidade examinou 15 engradados de telhas de
cerâmica, contendo cada um 144 telhas. Os números de telhas trincadas nessas
caixas foram
2 5 3 4 2 0 1 5 7 3 0 2 2 4 3
Calcule:
a) o número médio de telhas trincadas e
b) o desvio-padrão.
19) A tabela de distribuição a seguir apresenta o número de peças defeituosas em
uma produção de determinado produto
N.º de defeitos N.º de peças
0 5
1 10
2 18
3 12
4 5
Total 50
Calcule:
a) a média
b) a mediana
c) a moda
20) A tabela a seguir apresenta os salários pagos a 100 operários de uma empresa
Calcule:
a) o salário médio
b) o salário mediano
c) Qual a porcentagem dos empregados que ganham acima de 4
salários?
d) O dono da empresa afirmou, em entrevista, que seus funcionários
ganham, em média, R$ 1440,00. Considerando o salário mínimo no
valor de R$ 330,00, a afirmação do dono da empresa é verdadeira?
N.º de salários
mínimos
fj
0 |--- 2 40
2 |--- 4 30
4 |--- 6 10
6 |--- 8 15
8 |--- 10 5
Total 100
78
21) Os dados a seguir referem-se ao consumo de eletricidade (mil MWh) pelo
setor ferroviário entre os anos de 1978 e 2007. Os dados são do IBGE.
6 5 5 4 3 6 14 8 9
11 8 10 11 12 14 17 19 21
Calcule a variância e o coeficiente de variação.
22) Em uma fábrica ou um escritório, o tempo, no horário de trabalho, durante o qual
uma máquina não está funcionando em virtude de quebra ou falha é chamado tempo
parado. A tabela a seguir é uma amostra da duração desses tempos parados de
certa máquina.
Tabela: o tempo, no horário de trabalho, durante o qual
uma máquina não está funcionando em virtude de quebra ou falha
Tempo parado
(minutos)
Frequênciaf
0 |---- 9 2
9 |---- 18 15
18 |---- 27 17
27 |---- 36 12
36 |---- 45 3
45 |---- 54 1
Total 50
Calcule:
a) Desvio-padrão.
79
Representação Gráfica
Os gráficos são usados para apresentar visualmente um conjunto de
dados, proporcionando maior facilidade e rapidez de compreensão dos mesmos,
ou, então, para apresentar conclusões ou resultados de uma análise.
Há, portanto, dois tipos de gráficos, conforme o objetivo ou uso a que se
destinam: gráficos de informação e gráficos de análise.
a) Gráficos de Informação
São gráficos destinados principalmente ao público em geral, objetivando
proporcionar uma visualização rápida e clara da intensidade das modalidades e
dos valores relativos ao fenômeno observado.
São gráficos tipicamente expositivos, devendo, por conseguinte, ser o mais
completo possível, dispensando comentários explicativos adicionais.
b) Gráficos de Análise
Os gráficos de análise prestam-se melhor ao trabalho estatístico,
fornecendo elementos úteis à fase de análise dos dados, sem deixar de ser
também informativos.
Quando se usam gráficos para apresentar os resultados de uma análise,
esses freqüentemente vêm acompanhados de uma tabela. Inclui-se, muitas vezes,
um texto dissertativo, chamando a atenção do leitor para os pontos principais
revelados pelo gráfico ou pela tabela.
1) Histograma
O histograma é um gráfico de barras verticais.
Cada barra é proporcional à freqüência (simples ou relativa) da classe que ele
representa. Assim, a soma dos valores correspondentes às áreas dos retângulos
será sempre igual à freqüência total.
Para a construção do histograma utiliza-se dois eixos coordenados. No eixo
horizontal são anotados os valores individuais da variável em estudo, ou os limites
das classes. No eixo vertical temos as freqüências.
Exemplo: Os dados a seguir representam a temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto:
43 45 49 47 52
45 51 46 44 48
51 50 52 44 48
50 49 50 46 46
49 49 51 50 49
Solução: No R temos:
a) Crie um arquivo, y, com os dados;
b) Use o comando:
80
hist(y,freq=F,ylab="Probabilidade",xlab="Temperatura",main="Temperatura de
efluentes",ylim = c(0, 0.2))
O resultado é o gráfico 1.
Gráfico 1: temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto
Exemplo: Um artigo em Technometrics (Vol. 19, 1977, pg. 425) apresenta dados
sobre taxas de octanagem de combustível para motor, de várias misturas de
gasolina. 20 destes resultados são apresentados a seguir:
88,5 94,7 84,3 90,1 89 89,8 91,6 90,3 90 91,5
89,9 98,8 88,3 90,4 91,2 90,6 92,2 87,7 91,1 86,7
Construa o histograma.
Solução: No R temos:
a) Crie um arquivo, y, com os dados;
b) Use o comando:
hist(y,freq=T,ylab="Frequência",xlab="Taxas",main="Taxa de octanagem",ylim = c(0,
10))
O resultado é o gráfico 2.
81
Gráfico 2: taxas de octanagem de combustível para motor,
de várias misturas de gasolina
No R temos a opção de escolher, através do comando nclass= argumento, o
número de retângulos no histograma. Pode ocorrer que o número escolhido não seja
viável. Neste caso o R faz uma aproximação viável do número de retângulos.
2) Box-plot
É um gráfico em forma de caixa.
Nele encontramos valores numéricos do tipo: o ponto de mínimo, 1º quartil,
mediana, 3º quartil e o ponto de máximo.
Dependendo da natureza dos dados estes valores podem ser iguais ou
diferentes.
Para que possamos construir o box-plot é necessário que se conheça os
dados na forma bruta ou rol.
Na construção dos gráficos foi utilizado o software R.
Exemplo 1: Os dados a seguir representam a temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto:
43 45 49 47 52
45 51 46 44 48
51 50 52 44 48
50 49 50 46 46
49 49 51 50 49
Construa o box-plot.
82
Solução: Utilizando o R temos:
a) construa o vetor y com os dados;
b) utilize o comando: boxplot(y,ylab="Temperatura", ylim=c(42,52))
O resultado é o gráfico 3.
Gráfico 3: temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto
Exemplo 2: Um artigo em Technometrics (Vol. 19, 1977, pg. 425) apresenta dados
sobre taxas de octanagem de combustível para motor, de várias misturas de
gasolina. 20 destes resultados são apresentados a seguir:
88,5 94,7 84,3 90,1 89 89,8 91,6 90,3 90 91,5
89,9 98,8 88,3 90,4 91,2 90,6 92,2 87,7 91,1 86,7
Construa o box-plot.
Solução: Utilizando o R temos:
a) construa o vetor y com os dados;
b) utilize o comando: boxplot(t,ylab="Taxa",ylim=c(80,100))
83
O resultado é o gráfico 4.
Gráfico 4: Taxas de octanagem de combustível para motor,
de várias misturas de gasolina
Exemplo 3: O gráfico 5 refere-se ao número de pedidos que um restaurante recebeu,
de frango e bife, em dezesseis dias.
Gráfico 5: Número de pedidos, de frango e bife, em um restaurante
Durante 16 dias
Fonte: Estatística Aplicada [4]
3) Ramo-e-folhas
É uma forma de visualização dos dados originais o qual nos permite ver a
distribuição dos dados sem a perda de informações.
Permite visualizar a ordenação dos dados.
84
Para a construção de um gráfico ramo-e-folhas tomamos como ramo os
algarismos mais a esquerda e a folha o algarismo mais a direita. Por exemplo, no
número 352, o ramo é 35 e a folha é o 2.
Exemplo: Os dados a seguir representam a temperatura de efluentes em dias
consecutivos na descarga de uma estação de tratamento de esgoto:
43 45 49 47 52
45 51 46 44 48
51 50 52 44 48
50 49 50 46 46
49 49 51 50 49
Construa o gráfiico ramo-e-folhas.
Solução: Utilizando o R temos:
a) construa o vetor y com os dados;
b) utilize o comando: stem(y,scale=2)
O resultado é o gráfico 6.
Gráfico 6: Temperatura de efluentes em dias consecutivos
na descarga de uma estação de tratamento de esgoto
The decimal point is at the |
43 | 0
44 | 00
45 | 00
46 | 000
47 | 0
48 | 00
49 | 00000
50 | 0000
51 | 000
52 | 00
85
Exemplo: Os valores a seguir são referentes a salários, em reais, pagos em
determinada empresa. A fonte é o livro Estatística Aplicada á Gestão Empresarial.
381 389 389 418 429 430 472 486 568 1209
669 682 699 728 821 821 856 822 904 866
Construa o gráfico ramo e folhas.
Solução: Utilizando o R temos:
a) construa o vetor y com os dados;
b) Utilizando o comando: stem(y,scale=9) o resultado é o gráfico 7.
Gráfico 7: Salários, em reais, pagos em determinada empresa
The decimal point is 1 digit(s) to the right of the |
38 | 199
40 | 8
42 | 90
46 | 2
48 | 6
56 | 8
66 | 9
68 | 29
72 | 8
82 | 112
84 | 6
86 | 6
90 | 4
120 | 9
c) Considere o conjunto de dados a seguir. Eles são referentes ao número de telhas
estragadas em 21 lotes de um milheiro cada.
100 110 121 124 145 135 122 100 146 151 162 121 123 134 122 118 145 151 100
144 125
Construa o gráfiico ramo-e-folhas.
86
Solução: Utilizando o R temos:
a) construa o vetor y com os dados;
b) utilize o comando: stem(y,scale=2)
O resultado é o gráfico 8
Gráfico 8: número de telhas estragadas em 21 lotes de um milheiro cada
The decimal point is 1 digit(s) to the right of the |
10 | 000
11 | 08
12 | 1122345
13 | 45
14 | 4556
15 | 11
16 | 2
87
Exercícios
1) Observe o histograma abaixo.
Número de defeitos em instrumentos
óticos
40
120
340
290
160
30
0
50
100
150
200
250
300
350
400
0 1 2 3 4 5
Número de defeitos
F
re
q
u
ên
ci
a
Complete a tabela de distribuição abaixo.
Número de defeitos fi
0
1 120
2
3
4
5
Total
88
Probabilidade
Técnicas de contagem e Agrupamentos
Fatorial
O fatorial de um número inteiro positivo n é representado por !n (Lê-se: n
fatorial).
O fatorialdo número n é obtido pela multiplicação de n por todos os inteiros
inferiores até o número 1.
( ) ( ) 12n1nn!n ⋅⋅−⋅−⋅= K
Exemplos:
1) 241.2.3.4!4 ==
2) 7201.2.3.4.5.6!6 ==
Por definição:
1!0 =
1!1 =
Observação:
!5.6!4.5.6!6 ==
Exemplo:
Qual o valor de
!3!10
!12
⋅
?
Solução: 22
6
11.12
1.2.3.!10
!10.11.12
!3!10
!12
===
⋅
Exercício:
Muitas calculadoras ou computadores não podem calcular diretamente valores de
!70 ou superiores. Para n muito grande, !n pode ser aproximado por k10!n = ,
onde o valor de k é dado por ( ) nnnk 43429448,039908993,0log5,0 −++= .
Calcule !50 utilizando a tecla fatorial da calculadora e utilizando a aproximação.
Princípio Fundamental da Contagem
Se um primeiro acontecimento pode ocorrer de
1
m maneiras distintas, um segundo
pode ocorrer de
2
m maneira distintas e, sucessivamente, um ésimon −
acontecimento pode ocorrer de
n
m maneiras distintas, sendo todos eventos
independentes, então o número de maneiras distintas em que os n acontecimentos
ocorrem conjuntamente é
n21
m..m.m K .
89
Exemplos:
1) Quantas placas para identificação de veículos podem ser confeccionadas com 3
letras e 4 algarismos? ( Considere 26 letras, supondo que não há nenhuma
restrição)
2) Existem 5 ruas ligando os supermercados X e Y e 3 ruas ligando os
supermercados Y e W. Quantos trajetos diferentes podem ser utilizados para irmos
de X a W, passando por Y?
3) Uma prova de múltipla escolha é composta por 10 questões. Cada questão possui
4 opções de resposta. Qual o número total de resposta nesta prova?
Arranjo Simples
Corresponde ao estudo da quantidade de maneiras em que se pode agrupar
os objetos de uma amostra em que a ordem dos objetos seja relevante.
O número de arranjos simples (sem repetição) de r elementos escolhidos dentre
n elementos é
( )!rn
!n
A
r,n
−
=
Exemplos:
1) Uma montadora de veículos selecionou 6 projetos diferentes de carros novos.
Destes serão selecionados 4 projetos diferentes para serem executados, sendo que
cada um irá ser montado em um país diferente, segundo a ordem de escolha. De
quantas maneiras estes 4 projetos poderão ser escolhidos
Solução: A ordem com que os projetos são escolhidos é relevante, logo temos um
problema de arranjo. Assim
( )
360
!2
!6
!46
!6
4,6 ==
−
=A
2) Um almoxarifado necessita organizar uma estante, destinada a armazenar
suprimentos diversos. Sabendo que existem 3 itens diferentes da área industrial
(departamento de produção), 6 itens diferentes da área de transporte e 3 itens
diferentes do departamento de recursos humanos. Calcule:
a) de quantas maneiras os itens poderiam ser organizados?
b) se os itens da produção precisassem necessariamente ficar juntos, quantas
maneiras de organizar todos os itens possíveis?
Solução:
a) Temos 12 itens diferentes. Ao organizá-los a ordem é relevante. Assim
( )
600.001.479
!1212
!12
A
12,12
=
−
=
b) Temos 3 itens diferentes da área industrial. Os outros 9 não precisam ficar juntos.
Podemos então considerar os 3 itens da produção como um único bloco. Assim
teremos
90
( ) ( )
!3.!10
!33
!3
!1010
!10
A.A
3,310,10
=
−
⋅
−
=
Exercícios
1) (Brasil escola - Universidade Federal de Ouro Preto (UFOP) – Minas Gerais)
No meio da “invasão tecnológica” que toma conta de nossas vidas, dona Antônia
esqueceu sua senha bancária justamente na hora de efetuar um saque. Ela lembra
que a senha é formada por quatro algarismos distintos, sendo o primeiro 5 e o
algarismo 6 aparece em alguma outra posição. Qual é o número máximo de
tentativas que o banco deveria permitir para que dona Antônia consiga realizar o
saque?
2) Em época de eleição para o grêmio estudantil do colégio, tiveram 12 candidatos
aos cargos de presidente, vice-presidente e secretário. De quantos modos diferentes
estes candidatos poderão ocupar as vagas deste grêmio, considerando a ordem de
escolha para cada cargo?
Combinação Simples
Corresponde ao estudo da quantidade de maneiras em que se pode agrupar
os objetos de uma amostra em que a ordem dos objetos seja irrelevante.
O número de combinações simples (sem repetição) de r elementos escolhidos
dentre n elementos é
( ) !r.!rn
!n
C
r,n
−
=
Exemplos:
1) A área comercial de uma indústria de queijo é composta por 4 departamentos de
vendas que atendem às regiões Norte, Sul, Leste e Oeste. Todos os departamentos
são formados por profissionais de ambos os sexos, conforme tabela a seguir.
Sexo/Depto Norte Sul Leste Oeste
Mulheres 3 4 2 4
Homens 5 7 8 3
Calcule a quantidade de comissões distíntas formadas por 5 pessoas, onde:
a) todas sejam mulheres?
b) tenham 3 homens do departamento Norte e 2 mulheres do Oeste?
Solução:
a)
( )
287.1
1.2.3.4.5
9.10.11.12.13
!5.!513
!13
5,13 ==
−
=C
b)
( ) ( )
60610
!2!24
!4
!3!35
!5
2,43,5 =⋅=
⋅−
⋅
⋅−
=⋅CC
91
2) Supondo que existem 6 candidatos a uma promoção, na existência de 2 vagas:
uma no departamento de finanças e uma na área comercial.
Calcule:
a) de quantas maneiras possíveis os candidatos poderiam ser escolhidos?
b) se as vagas fossem iguais a 2 e no mesmo departamento, de quantas maneiras
os candidatos poderiam ser escolhidos?
Solução:
a) Trata-se de um problerma de arranjo.
( )
30
!26
!6
2,6 =
−
=A
b) Trata-se de um problema de combinação
( )
15
!2.!26
!6
2,6 =
−
=C
Exercícios
1) (Brasil escola - Universidade Estadual do Rio de Janeiro (EU-RJ))
Para montar um sanduíche, os clientes de uma lanchonete podem escolher:
• Um entre os tipos de pão: calabresa, orégano e queijo;
• Um entre os tamanhos: pequeno e grande;
• De um até cinco entre os tipos de recheio: sardinha, atum, queijo, presunto e
salame; sem possibilidade de repetição de recheio num mesmo sanduíche.
Calcule:
a) Quantos sanduíches distintos podem ser montados, considerando apenas um tipo
de recheio?
b) O número de sanduíches distintos que um cliente pode montar, se ele não gosta
de orégano, só come sanduíches pequenos e deseja dois recheios em cada
sanduíche?
2) (Brasil escola - Universidade Federal de Juiz de Fora – Minas Gerais)
Um jornalista foi designado para cobrir uma reunião de ministros de Estado. Ao
chegar ao local da reunião, descobriu que havia terminado. Perguntou ao porteiro o
número de ministros presentes e ele disse: “Ao saírem, todos os ministros se
cumprimentaram mutuamente, num total de 15 apertos de mão”.
Com base nessa informação, qual foi o número de ministros que estiveram
presentes na reunião?
92
Nocões Básicas de Probabilidade
Definições:
Experimento Aleatório:
É qualquer processo que permite ao pesquisador fazer observações cujos
resultados não podem ser previstos com certeza.
Exemplos:
1
E : Retirar uma carta de um baralho com 52 cartas e observar seu naipe.
2
E :Jogar uma moeda 10 vezes e observar o número de caras obtidas.
3
E : Em uma linha de produção, fabricam-se peças em série e conta-se o
número de peças defeituosas produzidas em um período de 24 horas.
4
E : Uma lâmpada é fabricada. Em seguida é testada e verifica-se o tempo
de vida.
5
E : Retira-se uma bola de uma urna que contém bolas pretas, vermelhas e
amarelas e observa sua cor.
Espaço Amostral:
Para cada experimento E, define-se espaço amostral S o conjunto de todos
os possíveis resultados desse experimento.
Exemplos:
Considerando os experimentos aleatórios anteriores, o espaço amostral para
cada um deles pode ser descrito como:
1
S : {ouro, copa, paus, espada}
2
S : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
3
S : {0, 1, 2, 3, ..., N}, onde N é o máximo de peças produzidas em 24 horas.
4
S : {t | t ≥ 0}
5
S : {preta, vermelha, amarela}
O espaço amostral pode ser:
1. Finito: formado por um número limitado de resultados possíveis.
2. Infinito enumerável: formado por um número infinito de resultados, os quais
podem ser listadosou enumerados.
Exemplo: número de mensagens que são transmitidas corretamente por dia
em uma rede de computadores.
3. Infinito: formado por intervalo de números reais.
93
Evento:
É qualquer subconjunto do espaço amostral.
A é um evento ↔ A ⊆ S
Pela figura temos o evento A
Em particular S é o evento certo e φφφφ é o evento impossível.
Exemplo:
Considere o experimento
E = jogar uma moeda três vezes e observar os resultados.
Então ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ){ }k,k,k,c,k,k,k,c,k,k,k,c,c,k,c,c,c,k,k,c,c,c,c,cS =
Seja o evento: A = ocorrer pelo menos duas caras.
Então ( ) ( ) ( ) ( ){ }c,k,c,c,c,k,k,c,c,c,c,cA =
Eventos Mutuamente Exclusivos:
Dois eventos A e B são denominados mutuamente exclusivos, se eles não
puderem ocorrer simultaneamente, isto é φ=∩ BA .
Pela figura temos que A e B são mutuamente exclusivos
Exemplo:
� Considere o experimento
E = jogar um dado e observar o número da parte de cima.
Então {{{{ }}}}654321 ,,,,,S ====
Sejam os eventos: A = ocorrer um número par, e B = ocorrer um número
ímpar.
Então { }6,4,2A = , { }5,3,1B = e φ=∩ BA .
94
Definição clássica de probabilidade
Dado um experimento aleatório E, S o espaço amostral e A um evento. A
probabilidade do evento A, ( )AP , é uma função definida em S que associa a cada
evento um número real calculada pela relação:
( ) ( )
( )Sn
An
AP =
Onde: ( )An : é o número de vezes em que o evento A pode ocorrer
( )Sn : é o número de vezes em que o espaço amostral S pode ocorrer
Obs: Ao expressar a probabilidade devemos fazê-la utilizando as frações ordinárias
ou com 4 casas decimais.
Exemplos:
1. Em uma escola de idiomas com 150 alunos matriculados, 60 fazem o curso
de inglês, 35 fazem o curso de espanhol e 25 fazem o curso de francês.
Escolhido aleatoriamente 1(um) aluno, qual a probabilidade dele fazer o curso
de inglês?
Solução: Considerando o evento A = o aluno faz o curso de inglês, temos
( )
5
2
150
60
==AP
2. Num lote de 12 peças, 4 são defeituosas; duas peças são retiradas
aleatoriamente. Qual a probabilidade de ambas serem defeituosas?
Solução: Evento A = retirar duas peças defeituosas.
Número de maneiras do evento A ocorrer =
( )
6
!2.!24
!4
2
4
=
−
=
.
Número de maneiras do espaço S ocorrer =
( )
66
!2.!212
!12
2
12
=
−
=
.
Logo ( )
11
1
66
6
AP == .
3. A MasterCard International efetuou um estudo de fraude em cartões de
crédito. Os resultados estão apresentados na tabela a seguir.
Tabela: Tipos de fraude em cartões de crédito
Tipo de fraude Número de ocorrência
Cartão roubado 243
Cartão falsificado 85
Pedido por correio/ telefone 52
Outros 46
Selecionando aleatoriamente um caso de fraude, qual a probabilidade de:
95
a) a fraude resultar de um cartão roubado?
b) A fraude não ser de cartão falsificado?
Solução:
a) Considere o evento A = cartão roubado. Logo
( ) 5704,0
426
243
AP == .
b) Considere o evento B = cartão não falsificado. Então
( ) 8005,0
426
341
BP ==
Propriedades da probabilidade
Para cada evento A é associado um número real (((( ))))AP com as seguintes
propriedades:
1) (((( )))) 10 ≤≤≤≤≤≤≤≤ AP
2) (((( )))) 1====SP
3) Se A e B forem eventos mutuamente exclusivos então
(((( )))) (((( )))) (((( ))))BPAPBAP ++++====∪∪∪∪
Eventos complementares:
Dois eventos A e B são complementares quando
A U B = S.
Neste caso vale a propriedade ( ) ( ) 1BPAP =+ .
Simbolicamente cAB =
Exemplo: O evento A = chuva e o evento B = não chuva são complementares.
Evento Composto:
É qualquer evento que combina dois ou mais eventos simples.
Exemplo: No lançamento de um dado considere o evento A = {2,5}.
Regra da Adição:
Se A e B são dois eventos quaisquer, então:
( ) ( ) ( ) ( )BAPBPAPBAP ∩−+=∪
Observações:
� ( )BAP ∪ denota a probabilidade do evento A, ou do evento B, ou de
ambos.
� ( )BAP ∩ denota a probabilidade do evento A e do evento B
simultaneamente em um mesmo experimento.
96
Exemplos:
1) As preferências de homens e mulheres por cada gênero de filme alugado em uma
locadora de vídeos, estão apresentados na tabela a seguir:
Tabela: Preferência de homens e mulheres por filmes
Sexo / Filme Comédia Romance Policial
Homens 136 92 248
Mulheres 102 195 62
Sorteando-se ao acaso uma dessas locações de vídeo, pergunta-se a probabilidade
de:
a) Uma mulher ter alugado um filme ou o filme é do gênero policial;
b) Um homem ter alugado um filme ou o filme é do gênero romance.
Solução:
a) Considere os eventos
A = mulher aluga o filme e
B = Filme é do gênero policial
( ) ( ) ( ) ( )BAPBPAPBAP ∩−+=∪
( ) 7269,0
835
607
835
62
835
310
835
359
BAP ==−+=∪
b) Considere os eventos
A = homem aluga o filme e
B = Filme é do gênero romance
( ) ( ) ( ) ( )BAPBPAPBAP ∩−+=∪
( ) 8036,0
835
671
835
92
835
287
835
476
BAP ==−+=∪
2) Uma loja de material de construção possui 2 caixas de conexões. Na primeira,
das 30 conexões 11 são defeituosas. Na segunda, das 12 conexões 4 são
defeituosas. Uma conexão é retirada aleatoriamente. Qual a probabilidade de a
conexão ser defeituosa ou ter sido retirada da segunda caixa?
Solução:
a) Considere os eventos
A = conexão defeituosa.
B = conexão retirada da segunda caixa.
( ) ( ) ( ) ( )BAPBPAPBAP ∩−+=∪
( ) 5476,0
42
23
42
4
42
12
42
15
BAP ==−+=∪
Obs: Este exemplo pode ser melhor visualizado utilizando a árvore de probabilidade.
Ou seja:
97
Regra da Multiplicação:
Se A e B são dois eventos quaisquer, então:
� ( ) ( ) ( )A|BP.APBAP =∩
Notação: ( )A|BP representa a probabilidade de ocorrência do evento B dado que o
evento A ocorreu. É chamado de probabilidade condicional.
Eventos Independentes
Dois eventos A e B são independentes se a ocorrência de um deles
não afeta a probabilidade de ocorrência do outro. Caso contrário eles são
dependentes.
Obs. Se dois eventos A e B são independentes, então ( ) ( )BPABP =| .
Exemplos:
1) Uma determinada companhia produz um lote de 50 filtros de combustíveis, dos
quais 6 são defeituosos. Escolhem-se aleatoriamente e testam-se dois filtros do lote.
Determine a probabilidade de ambos serem bons, se os filtros são selecionados:
a) com reposição;
b) sem reposição.
Solução: Considere os eventos
A = 1º filtro bom.
B = 2º filtro bom.
a) Como processo de escolha é com reposição, então a escolha do primeiro filtro
não afeta a escolha do segundo filtro. Assim
98
( ) 7744,0
2500
1936
50
44
50
44
BAP ==⋅=∩
b) Como processo de escolha é sem reposição, então a escolha do primeiro filtro
afeta a escolha do segundo filtro. Logo são dependentes. Assim
( ) ( ) ( )A|BP.APBAP =∩
( ) 7722,0
2450
1892
49
43
50
44
BAP ==⋅=∩
2) Uma loja de material de construção possui 2 caixas de conexões. Na primeira,
das 30 conexões 11 são defeituosas. Na segunda, das 12 conexões 4 são
defeituosas. Uma conexão é retirada aleatoriamente de cada caixa. Calcule a
probabilidade de:
a) Apenas uma ser defeituosa.
b) Ambas serem defeituosas.
c) Ambas não serem defeituosas.
Solução:
a) Podemos ter os seguintes casos: DB ou BD. Assim
Caso 1:
A = defeituosa na primeira
B = boa na segunda.
( ) ( ) ( )A|BP.APBAP =∩
( ) 2444,0
360
88
12
8
30
11
BAP ==⋅=∩
Caso 2:
A = defeituosa na segunda
B = boa na primeira.
( ) ( ) ( )A|BP.APBAP =∩
( ) 2111,0
360
76
30
19
12
4
BAP ==⋅=∩
Portanto a probabilidade de apenas uma ser defeituosa é de
( ) 4555,02111,02444,0defeituosaumaapenasP =+=
b) 12,22%.
c) 42,22%.
99
Teorema da probabilidade total
Considere o espaço amostral particionado em k eventos,
k21
A,,A,A K , satisfazendo às seguintes condições:
a) φ=∩
ji
AA para todo ji ≠ .
b) SAAA
k21
=∪∪∪ K .
c) ( ) 0AP
i
≥ para ki ,,2,1 K= .
Seja um evento F qualquer, referente ao espaço amostral S . Então:( ) ( ) ( )∑
=
=
k
1i
ii
A|FPAPFP
Demonstração: Considere F um evento qualquer em S. Então
( ) ( ) ( )
k21
AFAFAFF ∩∪∪∩∪∩= K
Usando a regra do produto teremos
( ) ( ) ( ) ( )
k21
AFPAFPAFPFP ∩++∩+∩= K
Usando a regra do produto teremos o teorema da probabilidade total
( ) ( ) ( ) ( ) ( ) ( ) ( )
kk2211
A|FPAPA|FPAPA|FPAPFP +++= K
( ) ( ) ( )∑
=
=
k
1i
ii
A|FPAPFP
Cqd.
Figura 1: Representação teorema probabilidade total
Exemplo:
Uma determinada peça é manufaturada por três fábricas, denominadas X, Y e Z.
Sabe-se que X produz o dobro de peças que Y, e Y e Z produzem o mesmo
número de peças. Sabe-se também que 2% das peças produzidas por X e Y são
defeituosas, enquanto que 4% das produzidas por Z são defeituosas. Todas as
peças são colocadas em um depósito, e depois uma peça é extraída
aleatoriamente. Qual a probabilidade de que a peça escolhida seja defeituosa?
100
Solução:Considere os seguintes eventos
F = a peça é defeituosa
1
A = a peça provém da fábrica X.
2
A = a peça provém da fábrica Y.
3
A = a peça provém da fábrica Z.
Empregando o teorema da probabilidade total temos
( ) ( ) ( ) ( ) ( ) ( ) ( )
332211
A|FPAPA|FPAPA|FPAPFP ++=
Sabe-se que:
( )
2
1
AP
1
=
( )
4
1
AP
2
=
( )
4
1
AP
3
=
( ) ( ) 02,0A|FPA|FP
21
==
( ) 04,0A|FP
3
=
Logo
( ) 0250,004,0
4
1
02,0
4
1
02,0
2
1
FP =⋅+⋅+⋅=
Assim, a probabilidade da peça ser defeituosa é de 0,0250 ou 2,50%.
Teorema de Bayes (Thomas Bayes 1702 - 1761)
Considere o espaço amostral particionado em k eventos,
k21
A,,A,A K , satisfazendo às seguintes condições:
a) φ=∩
ji
AA para todo ji ≠ .
b) SAAA
k21
=∪∪∪ K .
c) ( ) 0AP
i
≥ para k,,2,1i K= .
Seja um evento F qualquer, referente ao espaço amostral S . Então:
( )
( ) ( )
( )FP
A|FPAP
F|AP ii
i
=
Exemplo:
1) (voltando ao exemplo anterior) Uma determinada peça é manufaturada por três
fábricas, denominadas X, Y e Z. Sabe-se que X produz o dobro de peças que Y, e Y
e Z produzem o mesmo número de peças. Sabe-se também que 2% das peças
produzidas por X e Y são defeituosas, enquanto que 4% das produzidas por Z são
defeituosas. Todas as peças são colocadas em um depósito, e depois uma peça é
extraída aleatoriamente.
101
Qual a probabilidade de que a peça escolhida seja produzida pela fábrica Y dado
que ela era defeituosa?
Solução:Considere os seguintes eventos
F = a peça é defeituosa
1
A = a peça provém da fábrica X.
2
A = a peça provém da fábrica Y.
3
A = a peça provém da fábrica Z.
Sabe-se que:
( ) 0250,0FP = (pelo exemplo anterior)
( )
4
1
AP
2
=
( ) ( ) 02,0A|FPA|FP
21
==
Logo
( )
( ) ( )
( )FP
A|FPAP
F|AP 22
2
=
( )
0250,0
02,0
4
1
F|AP
2
⋅
=
( )
0250,0
005,0
F|AP
2
=
( ) 2000,0F|AP
2
=
2) Uma rede local de computadores é composta por um servidor e cinco clientes (A,
B, C, D e E). Registros anteriores indicam que dos pedidos de determinado tipo de
processamento, realizados através de uma consulta, cerca de 10% vêm do cliente A,
15% do B, 15% do C, 40% do D e 20% do E. Se o pedido não for feito de forma
adequada, o processamento apresentará erro. Usualmente, ocorrem os seguintes
percentuais de pedidos inadequados: 1% do cliente A, 2% do cliente B, 0,5% do
cliente C, 2% do cliente D e 8% do cliente E.
a) Qual é a probabilidade de o sistema apresentar erro?
b) Qual é a probabilidade de que o processo tenha sido pedido pelo cliente E,
sabendo-se que apresentou erro?
3) Um novo método analítico de detectar poluentes em água é testado. Esse novo
método de análise química é importante porque, se adotado, poderia ser usado para
detectar três diferentes contaminantes: poluentes orgânicos, solventes voláteis e
compostos clorados, em vez de ter de usar um único teste para cada poluente.
As pessoas que elaboraram o teste afirmam que ele pode detectar altos níveis de
poluentes orgânicos com 99,7% de acurácia, solventes voláteis com 99,95% de
acurácia e composto clorados com 89,7% de acurácia.
102
Amostras são preparadas para calibração do teste e 60% delas são contaminadas
com poluentes orgânicos, 27% com solventes voláteis e 13% com traços de
compostos clorados.
Se um poluente não estiver presente, o teste não sinaliza.
Uma amostra teste é selecionada aleatoriamente.
a) Qual a probabilidade de o teste sinalizar?
b) Se o teste sinalizar, qual é a probabilidade de os compostos clorados estarem
presentes?
4) Suponha que 2% dos rolos de tecido de algodão e 3% dos rolos de tecido de
naylon contenham falhas. Dos rolos usados por um fabricante, 70% são de algodão
e 30% são de naylon.
Um rolo é selecionado aleatoriamente.
a) Qual será a probabilidade do rolo conter falhas?
b) Sabendo que o rolo selecionado tem falhas, qual a probabilidade dele ter sido
fabricado com algodão?
103
Exercícios:
1) As preferências de homens e mulheres por cada gênero de filme alugado em
uma locadora de vídeos, estão apresentados na tabela a seguir:
Sexo / Filme Comédia Romance Policial
Homens 136 92 248
Mulheres 102 195 62
Sorteando-se ao acaso uma dessas locações de vídeo, pergunta-se a probabilidade
de:
a) Uma mulher ter alugado um filme e o filme ser de comédia;
b) Um homem ter alugado um filme e o filme ser de romance.
2) Uma determinada companhia produz um lote de 50 filtros de combustíveis, dos
quais 6 são defeituosos. Escolhem-se aleatoriamente e testam-se dois filtros do lote.
Determine a probabilidade de ambos serem bons, se os filtros são selecionados:
a) com reposição;
b) sem reposição.
3) Joga-se dois dados equilibrados e soma-se os dois resultados. Qual a
probabilidade de se obter o total 5 ?
4) Se 226 dentre 300 assinantes de um jornal, selecionado aleatoriamente,
afirmaram que lêem a seção cômica diariamente. Qual a probabilidade de um
assinante escolhido aleatoriamente não ler a seção cômica?
5) Diga se cada afirmação é verdadeira ou se ela é falsa.
a. Espaço amostral é o conjunto de todos os resultados possíveis de um
experimento.
b. Se dois eventos não podem ocorrer ao mesmo tempo eles são chamados de
mutuamente excludentes.
c. A regra da adição é usada para encontrar a probabilidade de dois eventos
ocorrerem simultaneamente.
d. A amostra é um subconjunto da população. Em todo experimento a amostra pode
ser igual à população.
e. Dado x um evento, então (((( )))) 1xP0 <<<<<<<< .
6) Dois dados são lançados simultaneamente. Qual a probabilidade de o primeiro
resultado ser maior do que o segundo?
7) Um grupo de 100 alunos de dois cursos de uma faculdade foram escolhidos para
responderem a uma pesquisa. A tabela a seguir apresenta a composição destes
alunos:
104
Matemática Pedagogia
Homens 31 10
Mulheres 23 36
Selecionando aleatoriamente um aluno:
a) qual a probabilidade dele ser homem ou ser do curso de Pedagogia?
b) qual a probabilidade dela ser mulher dado que é do curso de Matemática?
8) Uma livraria acaba de receber 40 novos livros, entre eles 12 romances históricos.
Se quatro desses livros são escolhidos aleatoriamente, e sem reposição, qual a
probabilidade de nenhum deles ser romance histórico? (Expressar o resultado em
fração)
9) A tabela a seguir apresenta o número de pacientes internados no hospital X, por
Alas.
Alas
Sexo e Número
Total Masculino Feminino
A 415 220 635
B 250 375 625
C 105 220 325
Total 770 815 1585
A probabilidade de um paciente selecionado aleatoriamente ser do sexo feminino ou
estar internado na ala A é de:
10) Complete com V se a afirmação for verdadeira e com F se for falsa.
a. ( ) Espaço amostral é o conjunto de todos os resultados possíveis de um
experimento.
b. ( ) Se dois eventos podem ocorrer ao mesmo tempo eles são chamados de
mutuamente excludentes.
c. ( ) A regra da multiplicação é usada para encontrar a probabilidade de dois
eventos ocorrerem simultaneamente.
d. ( ) A amostra é umsubconjunto da população. Em todo experimento a amostra
nunca será igual à população.
e. ( ) Dado x um evento, então ( ) 10 ≤< xP .
11) Dois dados são lançados simultaneamente. Qual a probabilidade de o primeiro
resultado ser menor do que o segundo?
105
12) Um grupo de 100 alunos de dois cursos de uma faculdade foram escolhidos para
responderem a uma pesquisa. A tabela a seguir apresenta a composição destes
alunos:
Matemática Pedagogia
Homens 31 10
Mulheres 23 36
Selecionando aleatoriamente um aluno(a):
a) qual a probabilidade dele ser homem e ser do curso de Pedagogia?
b) qual a probabilidade dela ser mulher ou ser do curso de Matemática?
13) Uma livraria acaba de receber 40 novos livros, entre eles 12 romances
históricos. Se um desses livros é escolhido aleatoriamente, e sem reposição, qual a
probabilidade dele ser romance histórico? (Expressar o resultado em fração)
14) Quais dos valores abaixo não podem ser probabilidade?
0 ; 0,0001; -0,2 ; 3/2 ; 2/3 ; 2 ; 2,0
15) Quanto é P(A), se A é o evento “Fevereiro tem 30 dias este ano”?
16) Quanto é P(A), se A é o evento “Novembro tem 30 dias este ano”?
17) Qual a probabilidade do resultado “cara” ao jogar uma moeda?
18) A MasterCard International efetuou um estudo de fraude em cartões de crédito.
Os resultados estão na tabela a seguir
Tipo de fraude Número
Cartão roubado 243
Cartão falsificado 85
Pedido por correio/ telefone 52
Outros 46
Selecionado aleatoriamente um caso de fraude, qual a probabilidade de a fraude
resultar de um cartão falsificado?
19) Um casal planeja ter 2 filhos.
a) Relacione os diferentes resultados, de acordo com o sexo de cada criança.
b) Determine a probabilidade de o casal ter 2 meninas
c) Determine a probabilidade de exatamente uma criança de cada sexo.
20) Em um teste com 3 questões do tipo verdadeiro/falso, um estudante que não
está preparado deve responder cada uma aleatoriamente.
a) Relacione os diferentes resultados possíveis.
b) Qual é a probabilidade de responder corretamente todas as três questões?
c) Qual a probabilidade de “palpitar” incorretamente todas as três questões?
106
d) Qual a probabilidade de acertar duas questões?
21) Diga se os dois eventos são mutuamente excludentes:
a. Escolha de um espectador de televisão do sexo masculino;
b. Escolha de alguém que raramente utiliza o controle remoto.
22) Diga se os dois eventos são mutuamente excludentes:
c. Girar uma roleta e obter o número 7;
d. Girar uma roleta e obter um número par.
23) De um conjunto de cinco empresas, deseja-se selecionar, aleatoriamente, uma
empresa, mas com probabilidade proporcional ao número de funcionários. O número
de funcionários da Empresa A é 20; de B é 15; de C é 7; de D é 5 e de E é 3.
a) Qual a probabilidade de cada uma das empresas ser selecionada?
b) Qual é a probabilidade de a Empresa A não ser Selecionada?
24) Se 4,0)( =AP e 5,0)( =BP , o que se pode dizer quanto a )( BAP ∪ se A e B são
eventos mutuamente exclusivos?
25) Num lote de 12 peças, 4 são defeituosas; três peças são retiradas
aleatoriamente, com reposição. Calcule:
a. A probabilidade de todas serem defeituosas.
b. A probabilidade de todas não serem defeituosas.
c. A probabilidade de ao menos uma ser defeituosa.
26) Um lote é formado por 10 peças boas, 4 com defeitos leves e 2 com defeitos
graves. Uma peça é escolhida aleatoriamente. Calcule a probabilidade de:
a. Ela não tenha defeitos graves.
b. Ela não tenha defeito.
c. Ela ou seja boa ou tenha defeitos graves.
27) Três máquinas, A, B e C produzem respectivamente 40%, 50% e 10% do total
de peças de uma fábrica. As porcentagens de peças defeituosas nass respectivas
máquinas são 3%, 5% e 2%. Uma peça é selecionada aleatoriamente e verifica-se
que é defeituosa. Qual a probabilidade de que a peça tenha vindo da máquina B?
28) A probabilidade de o aluno X resolver um problema é de 3/5 e a do aluno Y
resolver o mesmo problema é de 4/7. Qual a probabilidade de que o problema seja
resolvido?
107
29) Um grupo de 15 elementos apresenta a seguinte composição:
Homem Mulher
Menores 5 3
Adultos 5 2
Um elemento é escolhido ao acaso. Pergunta-se:
a. Qual a probabilidade de ser homem?
b. Qual a probabilidade de ser adulto?
c. Qual a probabilidade de ser mulher e menor?
d. Sabendo-se que o elemento escolhido é adulto, qual a probabilidade de ser
homem?
e. Dado que a escolhida é mulher, qual a probabilidade de ser menor/
30) Suponha que um fabricante de sorvete recebe 20% de todo o leite que utiliza de
uma fazenda 1F , 30% de uma outra fazenda 2F e 50% de 3F . Um órgão de
fiscalização inspecionou as fazendas de surpresa, e observou que 20% do leite
produzido por 1F estava adulterado por adição de água, enquanto que para 2F e 3F ,
essa proporção era de 5% e 2%, respectivamente. Na indústria de sorvetes os
galões de leite são armazenados em um refrigerador sem identificação das
fazendas. Para um galão escolhido ao acaso, dado que ele foi adulterado, calcule:
a) a probabilidade de que o leite tenha sido produzida pela fazenda 1F
b) a probabilidade de que o leite tenha sido produzida pela fazenda 2F
c) a probabilidade de que o leite tenha sido produzida pela fazenda 3F
31) Uma companhia que fura poços artesianos trabalha numa região escolhendo
aleatoriamente o ponto de furo. Não encontrando água nessa tentativa, sorteia outro
local e, caso também não tenha sucesso, faz uma terceira e última tentativa. Admita
probabilidade de 0,7 de encontrar água em qualquer ponto dessa região. Calcule a
probabilidade de:
a) encontrar água na segunda tentativa.
b) encontrar água em até duas tentativas
c) encontrar água.
32) Pastilhas utilizadas na fabricação de semicondutores podem estar
contaminadas. A tabela a seguir apresenta um histórico de pastilhas produzidas por
uma indústria.
Localização na ferramenta de recolhimento
Contaminação Centro Borda Total
Baixa 514 68 582
Alta 112 246 358
Total 626 314
Selecionando-se aleatoriamente uma pastilha qual a probabilidade dela ter alta
contaminação ou a pastilha esteja no centro de uma ferramenta de recolhimento?
108
Distribuições de Probabilidade
Variável Aleatória
Definição
Sejam E um experimento e S o espaço amostral associado ao experimento.
Uma função X, que associe a cada elemento Ss ∈∈∈∈ um número real (((( ))))sX é
denominada variável aleatória.
Veja a ilustração
Exemplo:
E: Lançamento de duas moedas;
X: Número de caras obtidas nas duas moedas;
(((( )))) (((( )))) (((( )))) (((( )))){{{{ }}}}k,k,c,k,k,c,c,cS ==== , onde c= cara e k= coroa;
A variável aleatória X pode assumir os valores 0, 1 e 2.
Outros exemplos de variáveis aleatórias:
2. X: número de acidentes com aviões de uma determinada companhia;
3. X: número de mulheres entre 10 empregados recém-admitidos;
4. X: número de peças produzidas por uma empresa em determinado dia;
5. X: altura de um adulto do sexo masculino selecionado aleatoriamente.
109
Definições:
Uma variável aleatória discreta admite um número finito de valores ou um
número infinito enumerável de valores.
Exemplo:
a. O número de espectadores que vêem um filme.
b. Número de peças produzidas em um dia.
Uma variável aleatória contínua admite um número infinito de valores, e
esses valores podem ser associados a mensurações em uma escala contínua.
Exemplo:
a) A voltagem em uma pilha.
b) Quantidade de leite em um copo.
Distribuição de Probabilidade
Dada uma variável aleatória discreta, podemos identificar:
1) Quais os possíveis resultados podem ocorrer;
2) Qual a probabilidade de cada resultado ocorrer.
Por exemplo: No lançamento de duas moedas não viciadas, o número de caras
possíveis e suas probabilidades é dada por:
Tabela: Distribuição de probabilidade do nº
de caras no lançamento de duas moedasNº de caras
x
Probabilidade
0 1/4
1 2/4
2 1/4
Total 1
Assim, definimos:
A Distribuição de probabilidade de uma variável aleatória X é a descrição do
conjunto de probabilidades associadas aos possíveis resultados de X. Podemos
também chamá-la de função de probabilidade.
Simbolicamente temos: ...,2,1)()( === icomxXPxp ii
No caso do exemplo anterior temos:
110
4
1
)2X(P)2(p
4
2
)1X(P)1(p
4
1
)0X(P)0(p
===
===
===
O gráfico da distribuição de probabilidade é dada por:
Gráfico: Distribuição de probabilidade do número
de caras no lançamento de duas moedas
A função de probabilidade deve satisfazer às seguintes propriedades:
1) 0)( ≥ixp ;
2) 1)( =∑
i
ixp .
Função de distribuição acumulada
Podemos também representar uma distribuição de probabilidade por sua
função de distribuição acumulada definida por:
ℜ∈∀≤= xxXPxF ),()(
onde ℜ é o conjunto dos números naturais.
Obs.: A distribuição acumulada descreve a probabilidade de ocorrer um valor até x.
Exemplo: No lançamento de duas moedas não viciadas, a distribuição acumulada do
número de caras possíveis é dada por:
( )
≤
≤
≤
=
21
1
4
3
0
4
1
xse
xse
xse
xF
111
Tabela: Distribuição de probabilidade acumulada do nº
de caras no lançamento de duas moedas
Valores possíveis
x
Distribuição acumulada
0 1/4
1 3/4
2 4/4
Na tabela acima temos:
( )
4
1
0)0()0( ===≤= XPXPF
( ) ( )
4
3
10)1()1( ==+==≤= XPXPXPF
( ) ( ) ( )
4
4
210)2()2( ==+=+==≤= XPXPXPXPF
O gráfico da distribuição acumulada da variável X = número de caras em dois
lançamentos é:
Gráfico: Distribuição acumulada de probabilidade do número
de caras no lançamento de duas moedas
Valor esperado
A média ou valor esperado de uma variável aleatória X é dado por:
∑
=
==
k
i
ii xpxXE
1
)(.)(µ
Variância
A variância de uma variável aleatória X é dada por:
( ) 2222 )()( µµ −=−= ∑ ii xpxXEXVar
112
Exemplo: No lançamento de duas moedas não viciadas, a média e a variância são
dadas por:
Valores possíveis
x
Probabilidade
p(x)
( )ii xpx ⋅
( )i
2
i xpx ⋅
0 1/4 0 0
1 2/4 2/4 2/4
2 1/4 2/4 1
Total 1 1 1,5
Assim
∑
=
==
k
1i
ii 1)x(p.xµ
5,015,1)X(E)X(Var
22 =−=−= µ
Exercícios
1) Num lote de 8 celulares, 3 são defeituosas. Três celulares são retirados
aleatoriamente com reposição para tese. Resolva:
a) Encontre a distribuição de probabilidade associada a variável aleatória
X = número de celulares defeituosos.
b) Faça o gráfico do resultado obtido na letra a.
c) Encontre a distribuição acumulada de X.
d) Faça o gráfico do resultado obtido na letra c
e) Encontre a média de celulares defeituosos, ou seja, a média de X.
f) Encontre a variância do número de celulares defeituosos, ou seja, a variância de
X.
2) Considere o lançamento de um dado honesto. Encontre a distribuição de
probabilidade associada ao resultado da face deste dado.
3) Suponha ( )
5
x
xP = (onde x assume valores 0, 1, 2, 3). ( )xP Define uma
distribuição de probabilidade?
4) Suponha ( )
3
x
xP = (onde x assume valores 0, 1, 2). ( )xP Define uma distribuição
de probabilidade?
5) Suponha ( )
( )[ ]!x!x34
3
xP
−
= (onde x assume valores 0, 1, 2, 3). ( )xP Define uma
distribuição de probabilidade?
6) O peso de um livro escolhido aleatoriamente é uma variável aleatória discreta ou
contínua?
7) O custo de uma peça escolhida aleatoriamente é uma variável aleatória discreta
ou contínua?
113
8) Suponha que a variável aleatória discreta x possa tomar os valores 1, 2, 3, ..., n e
que esses valores sejam igualmente prováveis. Mostre que
( )
2
1n +
=µ e
( )
12
1n22 −=σ
Pricipais propriedades:
Considere c constante e X e Y variáveis aleatórias.
Média Variância
E(c) = c V(c) = 0
E(X+c) = E(X) + c V(X + c) = V(X)
E(cX) = c E(X) V(cX) = c2 V(X)
E(X+Y) = E(X) + E(Y) DP(cX) = |c| DP(X)
E(X-Y) = E(X) - E(Y)
114
Distribuições discretas de probabilidade
Para motivar suponha a seguinte situação:
A Empresa RS tem 12 funcionários, 4 são administradores. Três funcionários
são selecionados aleatoriamente. Calcule:
a) Qual a probabilidade de apenas um ser administrador, considerando seleções
com reposição?
b) Qual a probabilidade de o primeiro funcionário administrador ser o 3º funcionário
selecionado, considerando seleções com reposição?
Cada uma destas perguntas tem uma solução diferente. Passaremos agora a
explicar os métodos necessários para a solução das mesmas.
I) Distribuição Binomial
Premissas assumidas pelo modelo binomial:
a) n provas (ou experimentos) independentes e do mesmo tipo são realizadas;
b) cada prova admite apenas dois resultados: sucesso e falha;
c) a probabilidade de sucesso em cada prova é p}sucesso{P = constante em todo o
experimento. Neste caso consideramos amostragem aleatória com reposição.
A probabilidade da variável X assumir certo valor x, pertencente ao conjunto {0, 1, 2,
...} é dada por
xnx pp
x
n
xXP −−
== )1.(.)(
Onde p.n)X(E = e )p1.(p.n)X(Var −= .
Exercícios:
1) Numa empresa com 12 funcionários, 4 são administradores. Dois funcionários são
selecionados aleatoriamente e com reposição. Calcule:
a) Qual a probabilidade de ambos serem administradores?
b) Qual a probabilidade de apenas um ser administrador?
Solução:
a) Sejam os eventos A: 1º funcionário é administrador e B: 2º funcionário é
administrador.
Usando probabilidade (regra da multiplicação) temos
( )
9
1
12
4
12
4
=⋅=∩ BAP .
Resolvendo usando a distribuição binomial temos:
Seja o evento A: um funcionários é administrador e seja a variável aleatória X:
número de administradores. Então ( )
12
4
pAP == . Assim a probabilidade de
selecionar dois funcionários administradores é:
9
1
144
16
)
12
8
.(
12
4
.
2
2
)
12
4
1.(
12
4
.
2
2
)2( 0
2
22
2
==
=−
== −XP
b) Exercício
115
2) Cada amostra de ar tem 10% de chance de conter um determinado poluente
orgânico. Considere que as amostras sejam independentes com relação à presença
do poluente. Determine:
a) a probabilidade de que nas próximas 18 amostras exatamente 2 contenham o
poluente.
b) a probabilidade de que no mínimo quatro amostras contenham o poluente.
c) a probabilidade de que 73 <≤ X .
Solução:
a) ( ) 2835,0)1,01.(1,0.
2
18
)2( 218
2
=−
== −XP
b) ( ) ( ) 098,0)1,01.(1,0.
18
141)4(
3
0
18 =−
−=<−=≥ ∑
=
−
x
xx
x
XPXP
c) ( ) 265,0)1,01.(1,0.
18
)73(
6
3
18 =−
=<≤ ∑
=
−
x
xx
x
XP
3) Dados históricos mostram que 5% dos itens provindos de um fornecedor
apresentam algum tipo de defeito. Considerando um lote de 20 itens, calcule a
probabilidade de (com reposição):
a) haver algum item com defeito;
b) haver exatamente dois itens defeituosos;
c) haver mais de dois itens defeituosos;
d) qual é o número esperado de itens defeituosos?
e) e de itens bons?
4) Considere que 7% das lâmpadas de certa marca são defeituosas. Numa amostra
de 100 lâmpadas, escolhidas ao acaso e com reposição, encontre:
a) a probabilidade de que tenhamos três lâmpadas defeituosas?
b) qual o número médio de lâmpadas defeituosas?
c) qual a variância do número de lâmpadas defetuosas?
5) Seja X uma variável aleatória binomial com 10=n e 5,0=p . Determine as
seguintes probabilidades:
a) ( )5=XP
b) ( )2≤XP
c) ( )52 <≤ XP
6) As linhas telefônicas em um sistema de reservas de uma companhia aérea estão
ocupadas 40% do tempo. Suponha que os eventos em que as linhas estejam
ocupadas em sucessivas chamadas sejam independentes. Considere que 10
chamadas aconteçam.
a) qual a probabilidade de que as linhas estejam ocupadas em exatamente três
chamadas?
b) qual é a probabilidade de que as linhas estejam ocupadas em no mínimo uma
chamada?
c) qual é o número esperado de chamadas em que as linhas estejam ocupadas?d) qual a variância do número de chamadas em que as linhas estejam ocupadas?
116
II) Distribuição geométrica
Se um caso satisfaz todas as condições de um experimento binomial, exceto
pelo fato de o número de provas não ser fixo, então aplicamos a distribuição
geométrica.
A distribuição geométrica se aplica quando estamos interessados na
probabilidade de o primeiro sucesso ocorrer em determinada prova.
Para que o sucesso ocorra, por exemplo na ésimax − prova, deve-se ser precedido
por 1x − fracassos, cuja probabilidade é ( ) 1xp1 −− .
A distribuição é chamada geométrica porque seus valores sucessivos
constituem uma progressão geométrica.
Considere um experimento E e uma variável aleatória X com
probabilidade de sucesso p. Se X tem distribuição geométrica, então a
probabilidade de X obter sucesso na x-ésima prova é dada por
( ) ( ) L,3,2,1,1 1 =−== − xppxXP x
onde
( )
( ) ( )
2
1
1
p
p
XVar
p
XE
−
=
=
Exercícios;
1) Em uma loja de departamento existem 12 estagiários, 4 são estagiários de
engenharia eletrônica. Seleciona-se aleatoriamente 5 funcionários, com reposição.
Qual a probabilidade do primeiro estagiário de engenharia eletrônica ser o 3º
estagiário a ser selecionado?
Solução: A probabilidade de selecionar um estagiário de engenharia eletrônica é
( ) 3333,0
12
4
==eletronicap
Escolhido 5 estagiários, a probabilidade do primeiro estagiário de engenharia
eletrônica ser o 3º estagiário selecionado é
( ) ( ) 1481,03333,013333,03 2 =−⋅==XP
2) A probabilidade de uma pastilha conter uma partícula grande de contaminação é
de 0,01. Se for considerado que as pastilhas sejam independentes, qual será a
probabilidade de que exatamente 125 pastilhas necessitem ser analisadas antes que
uma partícula grande seja detectada?
Solução:
Seja x: o número de amostras analisadas até que uma partícula grande seja
detectada. Então X é uma variável aleatória geométrica com 01,0=p . A
probabilidade então é:
( ) ( ) ( ) 0029,001,099,0125 124 ===XP
117
3) A probabilidade de uma criança contrair uma doença contagiosa, à qual está
exposta é 0,70. Qual é a probabilidade de a sétima criança exposta à doença ser a
primeira a contraí-la?
III) Distribuição de Poisson
Suponha que queremos avaliar o número de ocorrência de um evento por
unidade de tempo, de comprimento, de área, de volume, etc.
Exemplo:
a) número de consultas em uma base de dados por minuto;
b) número de erros de tipografia em um formulário;
Se tivermos:
a) Independência entre as ocorrências do evento e
b) Os eventos ocorrerem de forma aleatória,
Então a probabilidade da variável aleatória X assumir um determinado valor é
dada por
...,1,0
!
.
)( ===
−
xcom
x
e
xXP
xλλ
Onde λ== )X(Var)X(E .
Exercícios:
1) Suponha que as consultas num banco de dados ocorrem de forma independente
e aleatória, com uma taxa média de três consultas por minuto. Qual a probabilidade
de que no próximo minuto ocorram:
a) nenhuma consulta?
b) uma consulta?
c) duas consultas?
d) menos do que três consultas?
Solução:
Seja λ = taxa média = 3 consultas/min.
a) Queremos a probabilidade de não ter consulta no próximo minuto, ou seja,
x = 0. Assim
0498,0
1
10498,0
!0
3.
)0(
03
=
⋅
===
−e
XP
Portanto a probabilidade de, no próximo minuto, ter nenhuma consulta é 0,0498.
b) Queremos a probabilidade de ter 1 consulta no próximo minuto, ou seja,
x = 1. Assim
1494,0
1
30498,0
!1
3.
)1(
13
=
⋅
===
−e
XP
Portanto a probabilidade de, no próximo minuto, ter uma consulta é 0,1494.
c) Queremos a probabilidade de ter 2 consultas no próximo minuto, ou seja,
x = 2. Assim
118
2241,0
2
90498,0
!2
3.
)2(
23
=
⋅
===
−e
XP
Portanto a probabilidade de, no próximo minuto, ter duas consultas é 0,2241.
d) Queremos ( ) ( ) ( ) 4233,02241,01494,00498,0210 =++==+=+= XPXPXP
2) Suponha que as consultas num banco de dados ocorrem de forma independente
e aleatória, com uma taxa média de três consultas por minuto. Qual a probabilidade
de que nos próximos dois minutos ocorram mais do que 2 consultas? Resp.:
3) Suponha que X tenha uma distribuição de Poisson, com uma média de 4.
Determine:
a) ( )4=XP
b) ( )2≤XP
4) O número de falhas na superfície de painéis de plástico usados no interior de
automóveis tem uma distribuição de poisson, com uma média de 0,05 falha por pé
quadrado de painel de plástico. Considere que o interior de um automóvel contém 10
pés quadrados de painel plástico. (Obs.: um pé equivale a 30,48 cm)
a) qual a probabilidade de não haver falha na superfície do interior do automóvel?
Resp.: 0,6065
b) Se 10 carros forem vendidos para uma companhia de aluguel de carros, qual será
a probabilidade de no máximo um carro ter qualquer falha na superfície? Resp.:
0,0404
5) Tráfego de carros é tradicionalmente modelado como uma distribuição de
Poisson. Um engenheiro de tráfego monitora o fluxo de carros em um cruzamento
que tem uma média de 6 carros por minuto.
Calcule: (Para estabelecer o tempo de um sinal, as seguintes probabilidades são
usadas)
a) Qual a probabilidade de três ou mais carros passarem pelo cruzamento em 30
segundos? (Resp.: 0,5768)
b) Calcule o número mínimo de carros que passam pelo cruzamento, em 30
segundos, x , de modo que ( ) 90,0≥≤ xXP .
119
Distribuições contínuas de probabilidade
Variável Aleatória Contínua
Uma variável aleatória X é dita contínua quando ela assume qualquer valor
real dentro de um intervalo.
Exemplos:
1) Altura de uma pessoa;
2) Tempo de viagem;
3) Tempo de uma reação química;
4) Volume de leite em um copo; etc
Função de Densidade
A função de densidade de probabilidade representa a probabilidade da
variável aleatória X assumir determinado valor.
É representada por )(xf
Propriedades
Seja )(xf a função densidade de probabilidade da variável contínua X. Então
)(xf deve satisfazer às seguintes propriedades:
1) realxxf ∀≥ ,0)(
2)
1)( =∫
+∞
∞−
dxxf
3) Se [ ]baA ,= , então ∫=≤≤
b
a
dxxfbXaP )()( .
A função de densidade de probabilidade fornece uma descrição simples das
probabilidades associadas a uma variável aleatória.
120
Exemplos:
1) Considere a função ( ) 30,12 <≤+= xxxf . Verifique se a função ( )xf é função
de densidade de probabilidade.
2) Considere a função ( ) ( ) xexf x <= −− 4,4 . Verifique se a função ( )xf é função de
densidade de probabilidade.
3) Considere a função ( ) xexf x <= − 0, . Verifique se a função ( )xf é função de
densidade de probabilidade.
Função de distribuição acumulada
A função de distribuição acumulada de uma variável aleatória contínua X
é:
( ) ( ) ( )∫
∞−
=≤=
x
duufxXPxF
Para ∞<<∞− x .
Média de uma Variável Contínua
Seja )(xf a função densidade de probabilidade da variável contínua X, então
a média da variável X é dada por:
∫
+∞
∞−
== dxxfxXE )(.)(µ
Variância de uma Variável Contínua
Seja )(xf a função densidade de probabilidade da variável contínua X, então
a variância da variável X é dada por:
∫
+∞
∞−
−== dxxfxXVar )(.)()( 22 µσ
121
Curva de Densidade
Uma curva de densidade é o gráfico de uma distribuição contínua de
probabilidade e deve satisfazer as seguintes propriedades
1. A área total sob a curva deve ser 1;
2. Todo ponto da curva deve ter uma altura vertical não inferior a 0.
A seguir descrevemos alguma distribuições de probabilidade importantes.
I) Distribuição Uniforme.
Uma variável aleatória X tem distribuição uniforme quando todos os seus
valores possíveis tem a mesma probabilidade.
Uma variável aleatória X tem distribuição uniforme de parâmetros α e
β com αβ > se
∉
∈
−=
],[,0
],[,
1
)(
βα
βα
αβ
xpara
xpara
xf
A seguir apresentamos o gráfico da função de densidade uniforme no
intervalo α e β .
Gráfico: Curva de densidade de probabilidade
Da variável X
A mediae a variância de uma distribuição uniforme são dadas por:
2
)(
βα +
=XE
12
)(
)(
2αβ −
=XVar
122
Exemplos:
1) Um profissional de computação observou que seu sistema gasta entre 20 e 24
segundos para realizar determinada tarefa, segundo uma distribuição uniforme em
[20, 24]. Sua curva de densidade é dada por
Gráfico: Curva de densidade da probabilidade
de um sistema
Exercício:
1) Um profissional de computação observou que seu sistema gasta entre 20 e 24
segundos para realizar determinada tarefa. Considere a probabilidade uniforme em
[20, 24]. Resolva:
a) Encontre, graficamente, a função densidade de probabilidade.
b) )23( >XP .
c) )(XE
d) )(XVar .
2) Seja a variável aleatória contínua X a corrente em um fio delgado de cobre,
medida em miliampères. Suponha que a faixa de X seja [ ]mA20,0 e considere que
a função densidade de probabilidade de X seja ( )
20
1
=xf .
a) Qual é a probabilidade de que uma medida da corrente seja menor que 10 mA?
b) Determine x de modo que ( ) 95,0=< xXP .
c) Determine ( )XE e ( )XVar .
d) Calcule a função de distribuição de probabilidade acumulada.
3) A função de densidade para o peso de pacotes entregues pelo correio é
( )
269
70
x
xf =
para 701 << x libras.
Calcule:
a) verifique que f é função de densidade de probabilidade;
b) a probabilidade de ser entregue um pacote com peso entre 60 e 70 libras?
123
c) Determine a média do peso;
d) Se o custo para despachar for R$ 5,00 por libra, qual será o custo médio para
despachar um pacote?
e) A variância do peso?
II) Distribuição Exponencial
Uma distribuição exponencial é utilizada quando queremos modelar a variável
aleatória contínua que representa:
a) Tempo até a próxima consulta a uma base de dados;
b) Tempo entre pedidos a um servidor;
c) Distância entre defeitos de uma fita.
Sejam as variáveis aleatórias:
tX = número de ocorrências no intervalo de tempo [0, t]; e
T = tempo entre as ocorrências.
Sendo λ a taxa média de ocorrências por unidade de tempo, então, considerando
independência entre as ocorrências, T tem distribuição exponencial dada por:
tetf ..)( λλ −=
Onde a média é dada por
λ
1
)( =TE
e a variância é 2
1
)(
λ
=TVar
A curva de densidade da variável T com distribuição exponencial é dada por
124
A probabilidade entre o interval a e b é dada por ( ) ∫
−=≤≤
b
a
t.e.bTaP λλ .
Exercícios:
1) Seja a variável aleatória T definida como o tempo de resposta na consulta a um
banco de dados, em minutos. Suponha que essa variável tenha a seguinte função
densidade de probabilidade:
<
≥
=
−
0,0
0,2
)(
2
tpara
tparae
tf
t
Calcule:
a) A probabilidade de a resposta demorar mais do que 3 minutos?
b) Calcule )32( ≤≤ TP .
Solução:
a) ( ) 0025,00025,00.23
3.2.2
3
.2
3
.2 =+=+−=−==≥ −∞−∞−
∞
−
∫ eeedteTP
tt
.
b) ( ) 0183,00025,0.232
2.23.23
2
.2
3
2
.2 +−=+−=−==≤≤ −−−−∫ eeedteTP
tt
( ) 0158,032 =≤≤ TP
2) O tempo de vida (em horas) de um transistor é uma variável aleatória T com
distribuição exponencial. O tempo médio de vida do transistor é de 500 horas.
a) Faça a curva de densidade.
b) Calcule a probabilidade de o transistor durar mais do que 500 horas. Resp.
0,3679
c) Calcule a probabilidade de o transistor durar entre 300 e 1000 horas. Resp.
0,4135
125
3) A função densidade de probabilidade do tempo em que clientes chegam a um
terminal (em minutos depois de 8h) é
( )
10
10
t
e
tf
−
=
para t > 0. Determine a probabilidade de:
a) o primeiro cliente chegar até 9h.
b) o primeiro cliente chegar entre 8h15min e 8h30min.
c) dois ou mais clientes chegarem antes das 8h40min, entre os cinco que chegam ao
terminal. Considere que as chegadas dos clientes sejam independentes.
d) determine a função de distribuição acumulada.
4) Seja a variável aleatória X o diâmetro de um orifício perfurado em uma placa
com componentes metálicos. O diâmetro-alvo é 12,5 milímetros. A maioria dos
distúrbios aleatórios no processo resulta em diâmetros maiores. Dados históricos
mostram que a distribuição de X pode ser modelada por uma função de densidadde
de probabilidade
( ) ( )5,122020 −−= xexf
para 5,12≥x . Determine:
a) Se uma peça com diâmetro maior que 12,60 mm for descartada, qual será a
proporção de peças descartadas?
b) Qual o diâmetro médio?
c) Qual a variância?
Sugestão: Utilize integração por parte ∫ ∫−= duvuvdvu
126
III) Distribuição Normal
A distribuição Normal é uma das mais importantes distribuições pois descreve
vários fenômenos físicos e financeiros. Serve também, através do “Teorema do
Limite Central”, como aproximação de várias outras distribuições.
É também conhecida como “Distribuição de Gauss ou Gaussiana”. Foi
introduzida inicialmente pelo matemático Abraham de Moivre em um artigo de 1733.
A denominação "curva em forma de sino" ou "curva de sino" foi introduzida
por Esprit Jouffret que inicialmente utilizou o termo "superfície de sino" em 1872.
A forma da distribuição normal é dada pelo gráfico a seguir
Gráfico: Distribuição normal
O nome "distribuição normal", foi dado por Charles S. Peirce, Francis Galton e
Wilhelm Lexis, aproximadamente em 1875.
É determinada por dois parâmetros: a média e a variância.
A seguir é dada a função matemática que descreve a distribuição normal.
Função de densidade Normal
Dados os parâmetros µ e 0>σ reais, a função de densidade de
probabilidade da distribuição normal é dada por:
2)(
2
1
.
2.
1
)( σ
µ
πσ
−
−
=
x
exf
Média e Variância
A media e a variância da distribuição normal é dada por:
µ=)(XE
2)( σ=XVar
127
Como a distribuição normal é definida por dois parâmentros, média e variância,
então para cada valor destes parâmetros temos uma distribuição diferente. A seguir
apresentamos um exemplo
O cálculo de probabilidade usando a distribuição normal não é fácil devido ao
tipo de função. Uma forma de contornar este problema é utilizar um caso especial da
distribuição normal definida como “Distribuição Normal Padronizada”.
A distribuição normal padronizada tem este nome pois sua média é 0 (zero) e
a variância é 1 (um). Neste caso o gráfico da função de densidade fica centralizado
na origem.
Gráfico: Distribuição normal padronizada
Propriedades da distribuição normal
1) a curva é simétrica em torno da média;
2) ( ) 0xflim
x
=
∞→
3) a área total sob a curva é igual a 1;
área=1
área=0,5 área=0,5
128
Comparação entre média e variância
A
C
B
x
f(x)
a) da distribuição A para B muda a tendência central, mas a variabilidade é
constante;
b) da distribuição A para C muda a variabilidade, mas a tendência central é
constante;
c) da distribuição B para C muda a tendência central e a variabilidade.
A figura a segui apresenta uma tabela da distribuição normal padronizada nos
dá a área sobre o gráfico, ou seja, a probabilidade.
A seguir apresentamos alguns exemplos de como utilizar a tabela.
Exemplo: Calcule
1) 2422,0)65,00( =<≤ cZP
2) 1844,0)48,00( =<≤ cZP
3) 0889,01368,02257,0)35,00()60,00()60,035,0( =−=<≤−<≤=<≤ ccc ZPZPZP
129
Uma conseqüência importante do fato de uma distribuição Normal ser
completamente caracterizada por sua média e desvio-padrão é que a área sob a
curva entre um ponto qualquer e a média é função somente do número de desvios-
padrões que o ponto está distante da média.
Gráfico: Característica da distribuição normal
Como existem uma infinidade de distribuições normais (uma para cada média
e desvio-padrão), transformamos a unidade estudada seja ela qual for (peso,
espessura, tempo, etc.) na unidade Z, que indica o número de desvios-padrão a
contar da média.
Para padronizar um conjunto de dados que tem distribuição normal é só
aplicar a fórmula
σ
µ−
=
X
z
Exemplo 1: A resistência à tração do papel usado em sacolas de super-mercadoé
uma característica de qualidade importante.
Sabe-se que essa resistência segue um modelo Normal com média 40 psi e
desvio padrão 2 psi.
Se a especificação estabelece que a resistência deve ser maior que 35 psi,
qual a probabilidade que uma sacola produzida com este material satisfaça a
especificação?
{ } { }35XP135XP ≤−=≥
{ } { }5,2ZP
2
4035
ZP35XP −≤=
−
≤=≤
Pela tabela da normal padronizada temos probabilidade de 0,0062.
Logo a resposta é 1-0,0062 = 99,38%.
130
Exercícios
1) Utilizando a tabela da distribuição normal padronizada calcule:
a) ( )42,0zP <
b) ( )75,0zP <
c) ( )30,0zP −<
d) ( )56,0zP >
e) ( )72,0z25,0P <<
f) ( )20,0z25,0P <<−
g) o valor de z tal que ( ) 90,0zZzP =<<− .
2) Suponha que a absorção de água(%) em certo tipo de piso cerâmico tenha
distribuição normal com média 2,5% e desvio-padrão 0,6%. Selecionando,
aleatoriamente, uma unidade desse piso, qual é a probabilidade de ele acusar
absorção de água entre 2% e 3,5%?
3) Uma fábrica de chocolates comercializa barras que pesam em média 200g. Os
pesos são normalmente distribuídos. Sabe-se que o desvio padrão é igual a 40g.
Calcule a probabilidade de uma barra de chocolate, escolhida aleatoriamente, pesar
a) entre 200 e 250g;
b) mais de 230g;
c) menos que 150g.
4) Suponha que uma variável aleatória X tenha distribuição normal com média 5 e
desvio-padrão 4. Calcule:
( )8X2P <≤
131
Distribuição Amostral
Retirado dos livros: Estatística aplicada á Administração, Stevenson e
Introdução á Estatística, Triola.
Uma distribuição amostral é uma distribuição de probabilidade que nos
mostra como é a variação da estatística amostral ocasionada por variações na
amostragem aleatória.
Uma estatística amostral é qualquer função baseada nos dados amostrais
de uma amostra aleatória.
Uma estimativa é um valor específico, ou um intervalo de valores, numérico
de uma estatística amostral.
Um estimador é uma estatística amostral utilizada para obter uma
aproximação de um parâmetro populacional.
Exemplo:
1) Estimador da média populacional µ : ∑
=
=
n
i
ix
n
x
1
1
.
2) Estimador da variância populacional 2σ :
−
−
=
∑
∑ =
=
n
x
x
n
s
n
i
i
n
i
i
2
1
1
22
1
1
.
Propriedade do estimador:
Um estimador θ̂ é dito não tendencioso para o parâmetro populacional θ , se
( ) θθ =ˆE
Se o estimador θ̂ for tendencioso, então a tendenciosidade é dada por
( ) θθ −= ˆtendencia E
onde ( ) ∑ ==
i
ii xXPxXE )(. .
132
Para verificar se um estimador é ou não tendencioso deveremos calcular a
esperança. Para o cálculo desta esperança algumas propriedades são
fundamentais:
E1) Se cX = , então ( ) cXE = ;
Prova: X é uma variável aleatória discreta. Então ( ) cccXPcXE ==== 1.)(. .
E2) Se baXY += é uma variável aleatória, então ( ) bXaEYE += )( .
Quando estamos interessados em avaliar qual o melhor estimador entre
vários, utilizamos o erro quadrático médio – EQM. A seguir temos a definição do
EQM
O erro quadrático médio de um estimador θ̂ do parâmetro θ é dado por
( ) ( )2ˆˆ θθθ −= EEQM
Ou
( ) ( ) ( )2ˆˆ idadetendenciosVarEQM += θθ
Algumas propriedades da variância:
V1) Se cX = , então 0)( =XVar ;
V2) )()( XVarbXVar =+
V3) )()( 2 XVarabaXVar =+
V4) )()()( 22 YVarbXVarabYaXVar +=+
133
Para exemplificar estas propriedades, considere o exemplo a seguir.
Exemplo: Seja o experimento lançar duas moedas. Considere a variável aleatória
X : número de caras.
A distribuição de probabilidade de X é dada por
Tabela: dstribuição de probabilidade
do número de caras
X )( ixXP =
0 0,25
1 0,50
2 0,25
Temos que 1)( =XE e 5,0)( =XVar .
Considere a variável aletória 13 += XY . Temos
a) ∑
=
=+=
3
1
)()13()(
i
ii xXPxYE
25,0).12.3(50,0).11.3(25,0).10.3()( +++++=YE
4)( =YE
Podemos verificar que 1)(.3)( += XEYE .
b) 22 )]([)()( YEYEYVar −= . Mas 5,20)163(])13[()( 222 =++=+= XXEXEYE
Assim, 5,4165,20)]([)()( 22 =−=−= YEYEYVar
Podemos verificar que )(.3)( 2 XVarYVar = .
OBS.: Resultado: Se X é uma variável aleatória e )(XgY = , então
∑
=
===
n
i
ii xXPxXgYE
1
)().()(
134
Exemplo: (Montgomery) Seja 721 ,,, XXX K uma amostra aleatória de uma
população com média µ e variância 2σ . Considere os seguintes estimadores:
7
721
1
XXX +++
=
K
θ
2
2 461
2
XXX +−
=θ
Resolva:
a) Verifique se os estimadores são não-tendenciosos para µ .
b) Qual é o melhor estimador?
Solução:
a) A esperança do primeiro estimador é
µ
µµµ
θ
=
+++
=
+++
=
+++
=
7
7
)()()(
7
)(
721
721
1
K
K
K
XEXEXE
XXX
EE
A esperança do segundo estimador é
( )
µ
µµµ
θ
=
+−
=
+−
=
+−
=
2
2
2
)()()(2
2
2
461
461
2
XEXEXE
XXX
EE
Verificamos que os dois estimadores não são tendenciosos.
b) Variância do estimador 1
135
2
222
2
721
721
1
7
1
49
7
)()()(
7
)(
σ
σσσ
θ
=
+++
=
+++
=
+++
=
K
K
K
XVarXVarXVar
XXX
VarVar
Variância do estimador 2
( )
( )
2
222
461
461
461
2
4
6
4
4
4
)()()(4
2
4
1
2
2
σ
σσσ
θ
=
++
=
++
=
+−=
+−
=
XVarXVarXVar
XXXVar
XXX
VarVar
O melhor estimador é aquele que tem menor EQM. Como a tendenciosidade é nula
para ambos estimadores, então
( ) ( ) ( )
( )
2
1
2
11
7
1
ˆ
ˆˆ
σ
θ
θθ
=
=
+=
Var
idadetendenciosVarEQM
e
( ) ( ) ( )
( )
2
2
2
22
4
6
ˆ
ˆˆ
σ
θ
θθ
=
=
+=
Var
idadetendenciosVarEQM
Como ( ) ( )21 ˆˆ θθ EQMEQM < , então o melhor estimador é o primeiro.
136
Resultado
Sejam nXXX ,,, 21 K variáveis aleatórias independentes com média µ e variância
2σ .
Considere nn XXXS +++= ...21 . Então
2222 )( µσ nnSE n +=
Demonstração:
= ∑∑
= =
n
i
n
j
jin XXESE
1 1
2)(
∑∑∑
=
≠
==
+=
n
i
n
ij
j
ji
n
i
in XXEXESE
1 11
22 )()()(
Como 222)( µσ +=iXE , )()()( jiji XEXEXXE = e
2
1 1
)1()( µ−=∑∑
=
≠
=
nnXXE
n
i
n
ij
j
ji então
2222 )( µσ nnSE n += .
Exercícios
1) Sejam nXXX ,,, 21 K uma amostra aleatória independente de uma população
com média µ e variância 2σ . Considere o estimador
∑
=
=
n
i
ix
n
x
1
1
a) Calcule a esperança, ( )xE ;
b) Calcule a variância, ( )xVar ;
c) Verifique se ele é tendencioso para µ .
137
2) Sejam nXXX ,,, 21 K uma amostra aleatória de uma população com média µ
e variância 2σ . Considere os estimadores a seguir
−=
∑
∑ =
= n
x
x
n
s
n
i
in
i
i
2
1
1
22
1
1
−
−
=
∑
∑ =
= n
x
x
n
s
n
i
in
i
i
2
1
1
22
2
1
1
a) Calcule as esperanças, ( )21sE e ( )22sE ;
b) Verifique se eles são tendenciosos para 2σ ;
Solução:
a)
( )
−=
∑
∑ =
= n
x
x
n
EsE
n
i
in
i
i
2
1
1
22
1
1
( )
−=
∑
∑ =
= n
xE
xE
n
sE
n
i
in
i
i
2
1
1
22
1 )(
1
( )
+
−+=
n
nn
n
n
sE
222
222
1 )(
1 µσ
µσ
( ) [ ]222221 )(1 µσµσ nn
n
sE −−+=
( ) [ ]222221 1 µσµσ nnn
n
sE −−+=
( )
n
n
sE
2
2
1
)1( σ−
=
138
Tipos de estimativa
Uma estimativa pontual é um valor único usado para aproximar um
parâmetro populacional.
Uma estimativa intervalar, ou intervalo de confiança, é uma amplitude de
valores que tem probabilidade de conter o verdadeiro valor do parâmetro
populacional.
O grau de confiança é a probabilidade α−1 de o intervalo de confiança
conter o verdadeiro valor do parâmetro populacional.
Um valor crítico é o número na fronteira que separa os valores das
estatísticas amostrais prováveis deocorrerem, dos valores que têm pouca chance
de ocorrer.
Quando utilizamos dados amostrais para estimar um parâmetro populacional
podemos cometer erros. A margem de erro, denotada por E, é a diferença máxima
provável (com probabilidade α−1 ) entre o valor amostral e o verdadeiro valor
populacional. A margem de erro E é chamada também de erro máximo da
estimativa.
Para entendermos o erro, tomemos o exemplo anterior com amostras de
tamanho 2:
Amostras Média
Amostral
Média
populacional
Erro
1 e 4 2,5 2,5 0
1 e 2 1,5 2,5 1
1 e 3 2 2,5 0,5
4 e 2 3 2,5 0,5
4 e 3 3,5 2,5 1
2 e 3 2,5 2,5 0
Neste caso o erro máximo foi de 1.
139
O quadro a seguir nos mostra como calcular os erros, o intervalo de confiança
e o tamanho da amostra para uma população infinita.
Parâmetro Cálculo do erro Intervalo de confiança Tamanho de
amostra
Média
(σ conhecido)
ou
(σ desconhecido e
30>n )
Se σ conhecido
n
zE
σ
α ⋅=
2
Se σ desconhecido
n
s
zE ⋅=
2
α
ExEx +<<− µ 2
2
⋅
=
E
z
n
σα
Média
(σ desconhecido
e 30<n )
n
s
tE ⋅=
2
α
ExEx +<<− µ 2
2
⋅
=
E
st
n
α
Proporção
n
qp
zE
ˆˆ
2
⋅= α
EppEp +<<− ˆˆ
2
2
2
ˆˆ
E
qpz
n
=
α
ou
2
2
2
25,0
E
z
n
=
α
Variância ( ) ( )
2
2
2
2
2 11
LR
snsn
χ
σ
χ
−
<<
−
Tabelado
140
Quando trabalhamos com populações finitas e a amostragem constitui mais
de 5% da população devemos aplicar o fator de correção,
1−
−
N
nN
. Assim teremos:
Parâmetro Cálculo do erro Intervalo de
confiança
Tamanho de amostra
Média
(σ conhecido)
ou
(σ desconhecido
e 30>n )
12 −
−
⋅=
N
nN
n
zE
σ
α
ExEx +<<− µ
)1(222
2
22
2
−+
=
NEz
Nz
n
σ
σ
α
α
Média
(σ desconhecido
e 30<n )
12 −
−
⋅=
N
nN
n
s
tE α
ExEx +<<− µ
)1(222
2
22
2
−+
=
NEst
Nst
n
α
α
Proporção
1
ˆˆ
2 −
−
⋅=
N
nN
n
qp
zE α
EppEp +<<− ˆˆ
)1(222
2
22
2
−+
=
NEz
Nz
n
σ
σ
α
α
Exercícios: (Triola)
1) Para as temperatura média do corpo humano temos 106=n , Fx º20,98= e
Fs º62,0= . Para um nível de significância de 5% determine:
a) a margem de erro E ;
b) O intervalo de confiança para µ .
2) Em uma amostra de sete carros, cada um foi testado em relação à emissão
de óxido de nitrogênio (em gramas por milhas) e obtiveram-se os seguintes
resultados
0,06 0,11 0,16 0,15 0,14 0,08 0,15
141
Suponha que essa amostra seja representativa dos carros em uso, construa
um intervalo de confiança de 98% de confiança para a quantidade média das
emissões de oxigênio de nitrogênio para todos os carros.
3) Um economista deseja estimar a renda média para o primeiro ano de
trabalho de um bacharel por uma faculdade. Quantos valores de renda
devem ser tomados, se o economista deseja ter 95% de confiança em que a
média amostral esteja a $500 da verdadeira média populacional? Suponha
que saibamos, por um estudo prévio, que, para tais rendas, 6250$=σ .
4) Deseja-se estimar o preço médio de venda de um livro-texto para uma
faculdade. Quantos exemplares devemos selecionar, para termos 95% de
confiança de que a média amostral esteja a menos de $2 da verdadeira
média populacional? (Suponha que os preços variam entre $10 a $90. Use
4/amplitude=σ )
5) Os pesquisadores de opinião são atormentados por uma diversidade de
fatores de confusão, como secretárias eletrônicas. Em uma pesquisa junto a
1068 americanos, 673 informaram ter secretária eletrônica (com base em
dados da International Mass Retail Association, relatado em USA Today).
Com esses resultados amostrais, determine:
a) A estimativa pontual da proporção populacional de todos os americanos
que têm secretária eletrônica;
b) A estimativa intervalar de 95% da proporção populacional de todos os
americanos que têm secretária eletrônica.
6) Selecionados aleatoriamente e pesquisados 500 universitários, verificou-se
que 135 deles têm computadores pessoais (com base em dados da America
Passage Media Corporation).
a) Determine a estimativa pontual da verdadeira proporção de todos os
universitários que têm computador pessoal;
b) Determine um intervalo de 99% de confiança para a verdadeira proporção
de todos os universitários que têm computador pessoal.
142
7) Um estudo de saúde envolve 1000 mortes selecionadas aleatóriamente,
dentre as quais 331 causadas por doenças cardíacas (com base em dados
do Center for Disease Control).
a) Com os dados mostrais, construa um intervalo de confiança de 99% para
a proporção de todas as mortes causadas por doenças cardíacas;
b) Utilizando os dados amostrais como estudo piloto, determine o tamanho
de amostra necessário para estimar a proporção de todas as mortes
causadas por doenças cardíacas. Admita um nível de confiança de 98%,
em que o erro da estimativa não supere 0.01.
8) No caso de estimativa da proporção quando temos uma população
relativamente pequena, de tamanho N, e a amostragem é sem reposição,
modificamos o erro para
1
ˆˆ
2 −
−
⋅=
N
nN
n
qp
zE α
Mostre que o o tamanho da amostra pode ser encontrada por
( ) 2
2
2
2
2
1ˆˆ
ˆˆ
ENzqp
zqpN
n
−+
=
α
α
9) Uma amostra consiste de 71 aparelhos de televisão adquiridos há vários
anos. Os tempos de substituição desses aparelhos têm média de 8.2 anos e
desvio-padrão de 1.1 anos ( com base em dados de “Getting Things Fixed,”
Consumer Reports). Construa um intervalo de confiança de 90% para o
desvio-padrão dos tempos de substituição de todos os aparelhos de TV
daquela época.
10) Um artigo de jornal inclui um gráfico mostrando que certos dados amostrais
são distribuídos normalmente.
a) Inadvertidamente, omitiu-se o grau de confiança quando foi dado o
intervalo de confiança de 944.35581.7 2 << σ . Determine o grau de
confiança sendo 8.3;2.45;20 === sxn .
b) Dá-se o seguinte intervalo de confiança: 6816.361.19 << σ . Determine o
seguinte valor do desvio-padrão, que foi omitido. Use 95% de confiança e
20=n .
143
11) (Montgomery) Suponha que 1θ̂ e 2θ̂ sejam dois estimadores do parâmetro
θ . Sabemos que ( ) θθ =1ˆE , ( )
2
ˆ
2
θ
θ =E , ( ) 10ˆ1 =θVar e ( ) 4ˆ2 =θVar . Qual o
melhor estimador?
12) (Montgomery)
a) Mostre que ( )∑
=
−=
n
i
i XX
n
s
1
22 1 é um estimador tendencioso para 2σ .
b) Qual é a tendenciosidade?
c) O que acontece com a tendência a medida que o tamanho da amostra
aumenta?
Distribuição amostral da média
Para entendermos como é o comportamento da amostra considere o exemplo a
seguir.
Exemplo: considere uma população formada pelos elementos
1 4 2 3
Percebemos que a média populacional é de 2,5.
Vamos então analisar a distribuição amostral da média. Para isso suponha
todas as amostras de tamanho 2 sem reposição.
Temos 62,4 =C amostras representadas no quadro a seguir
Amostras Média
1 e 4 2,5
1 e 2 1,5
1 e 3 2
4 e 2 3
4 e 3 3,5
2 e 3 2,5
144
Percebemos que em 2 amostras das 6 (33,33%) encontramos o verdadeiro
valor da média populacional. As outras 4 amostras não encontramos a verdadeira
média, no entanto servem como uma aproximação.
Poderíamos, por exemplo, tomar amostras de tamanho 3 sem reposição.
Neste caso teremos 43,4 =C amostras representadas no quadro a seguir
Amostras Média
1, 4 e 2
3
7
1, 4 e 3
3
8
1, 2 e 3
3
6
4, 2 e 3
3
9
Neste caso percebemos que nenhuma amostra tem média igual à média
populacional.
Teorema Central do Limite
Se nXXX ,,, 21 L for uma amostra aleatória de tamanho n, retirada de uma
população (finita ou infinita), com média µ e variância 2σ , e se X for a média
amostral, então a forma limite da distribuição de
n
X
Z
σ
µ−
=
quando n tende ao infinito, é a distribuição normal padrão.
145
Ou:
Teorema Central do LimiteSe extrairmos todas as amostras aleatórias possíveis, de tamanho n, de uma
população com média µ e variância 2σ , a média das médias se denota por
x
µ ;
assim,
µµ =
x
Por sua vez, o desvio-padrão das médias amostrais se denota por
x
σ ; então,
n
x
σ
σ =
OBS.: (Triola)
1) O teorema central do limite se aplica quando estamos em face de uma
distribuição de médias amostrais. Utilizamos o teorema quando o tamanho da
amostra é maior do que 30 ou quando a população original tem distribuição normal.
2) No caso de amostragem sem reposição, quando o tamanho n da amostra é
superior a 5% do tamanho N da população finita (isto é, Nn 05,0> ), ajustamos o
desvio-padrão da média amostral
x
σ multiplicando o pelo fator de correção para
população finita:
1−
−
N
nN
3) (Stevenson) A figura a seguir nos mostra o efeito do tamanho da amostra sobre a
distribuição amostral. A distribuição binomial foi utilizada como parâmetro de
referência. A probabilidade de sucesso foi mantida constante e variou-se o tamanho
da amostra. Percebemos que à medida que o tamanho da amostra cresce a
distribuição amostral das proporções tende a uma distribuição normal. Percebe-se
146
também que a variabilidade decresce. Observamos que a média da distribuição
amostral é sempre igual a proporção.
147
1) (Stevenson) A próxima figura nos dá uma idéia do comportamento da
distribuição amostral considerando a distribuição da população.
148
Exemplo: Voltando ao exemplo da população formada pelos elementos
1 4 2 3
e considerando todas as amostras possíveis de tamanho 2
Amostras Média
1 e 4 2,5
1 e 2 1,5
1 e 3 2
4 e 2 3
4 e 3 3,5
2 e 3 2,5
podemos observar que:
a) Se calcularmos a média das médias (média entre os elementos)
2,5 1,5 2 3 3,5 2,5
encontramos 5,2=
x
µ que corresponde à média populacional µ . Assim temos, de
acordo com o teorema, que µµ =
x
.
b) Considerando os dados populacionais (1,4,2,3) encontramos
( )
( )
2
5
4
10
30
4
1
1
2
2
2
22
=
−=
−=
∑
∑
σ
σ
σ
N
x
x
N
Como o tamanho da amostra é 2=n e o tamanho da população é 4=N ,
verificamos que Nn 05.0> . Assim devemos aplicar o fator de correção,
encontrando
1−
−
=
N
nN
n
x
σ
σ . De fato:
149
6
15
32
5
3
2
2
1
2
5
3
2
2
2
5
14
24
2
2
5
1
=
=
⋅⋅=
=
−
−
=
−
−
=
N
nN
n
x
σ
σ
No entanto vemos que, considerando os dados populacionais (pois são todas
as amostras)
2,5 1,5 2 3 3,5 2,5
encontramos:
( )
( )
6
15
36
15
6
225240
6
1
6
15
40
6
1
1
2
2
2
2
2
22
=
=
−
=
−=
−=
∑
∑
x
x
x
x
x N
x
x
N
σ
σ
σ
σ
σ
150
Exercícios:
1) (Triola) Na engenharia humana e no projeto de produtos, freqüentemente é
importante considerar os pesos das pessoas, de modo que não haja sobrecarga em
aviões ou elevadores, as cadeiras não quebrem, e não ocorram outros
acontecimentos perigosos ou embaraçosos. Dado que a população de homens tem
pesos distribuídos normalmente com média de 173 lb e desvio-padrão de 30 lb (com
base em dados do National Health Survey dos EUA), determine a probabilidade de
que:
a) Um homem escolhido aleatoriamente pese mais de 180 lb;
b) Em 36 homens escolhidos aleatoriamente, o peso médio seja superior a 180
lb.
c) Refaça a letra (b) supondo a população de homens igual a 500=N .
2) Uma companhia eletrônica fabrica resistores que têm uma resistência média de
100 ohms e um desvio-padrão de 10 0hms. A distribuição de resistências é normal.
Encontre a probabilidade de uma amostra aleatória de 25 resistores ter uma
resistência média menor que 95 ohms.
3) Uma população consiste nos valores 2, 3, 6, 8, 11, 18.
a) Determine µ e σ ;
b) Relacione todas as amostras de tamanho 2=n que podem ser obtidas sem
reposição;
c) Determine a população de todos os valores de x achando a média de cada
amostra da parte (b);
d) Ache a média
x
µ e o desvio-padrão
x
σ ;
e) Verifique que
µµ =
x
e
1−
−
=
N
nN
n
x
σ
σ
151
4) O calor liberado, em calorias por grama, de uma mistura de cimento tem
distribuição aproximadamente normal. A média deve ser 100 e o desvio-padrão é 2.
Desejamos testar
100:
100:
1
0
≠
=
µ
µ
H
H
com uma amostra de tamanho 9 espécimes.
Suponha que a região de aceitação é definida como 5,1015,98 ≤≤ X . Encontre a
probabilidade do erro tipo 1 ocorrer.
5) (Stevenson) Um fabricante de baterias alega que seu artigo de primeira categoria
tem uma vida média de 50 meses. Sabe-se que o desvio-padrão correspondente é
de 4 meses. Coleta-se uma amostra de tamanho 36. Que porcentagem destas
amostras acusará vida média no intervalo de 49 a 51 meses, admitindo ser 50
meses a verdadeira vida média das baterias?
152
Teste de Hipótese Paramétrico
Teste de Hipótese
Em Estatística, uma hipótese é uma afirmação sobre uma propriedade de
uma população.
Podemos estar interessados em saber informações sobre a média, a
proporção ou a variância.
Componentes de um teste de hipótese
1) Hipótese nula - 0H : é uma afirmação sobre o valor de um parâmetro
populacional. Deve conter o sinal de igualdade e deve escrever-se como ≥≤= ,, .
2) Hipótese alternativa - 1H : é a afirmação que deve ser verdadeira se a hipótese
nula for falsa. Não deve conter o sinal de igualdade.
Exemplos:
a) Testar a afirmação de que a média populacional é 75.
Solução: Neste caso temos 75:0 =µH e 75:1 ≠µH .
b) Testar a afirmação de que a média é no máximo 2,50.
Solução: Neste caso temos 50,2:0 ≤µH e 50,2:1 >µH .
3) Erro tipo I: Consiste em rejeitar a hipótese nula quando ela é verdadeira.
0H verdadeira 0H falsa
Rejeita 0H Erro tipo I Acerto
Não rejeita 0H Acerto Erro tipo II
4) Nível de significância - α : A probabilidade do erro tipo I ocorrer.
5) Erro tipo II: Consiste em não rejeitar a hipótese nula quando ela é falsa.
6) A probabilidade de ocorrer o erro tipo II é β .
7) Estatística de teste: É uma estatística amostral baseado nos dados amostrais.
8) Região crítica: É o conjunto de todos os valores da estatística de teste que
levam à rejeição da hipótese nula.
9) Valor Crítico: É o valor, ou valores, que separa(m) a região crítica dos valores
da estatística de teste que não levam à rejeição da hipótese nula.
153
Conclusões no teste de hipótese
Em um teste de hipótese concluímos por:
• rejeitar a hipótese nula ou
• não rejeitar a hipótese nula.
Tipos de teste
• Bilateral (sinal de 1H : ≠ ): a região crítica está situada nas duas regiões.
Neste caso cada área tem valor
2
α
.
• Unilateral esquerdo (sinal de 1H : <): a região crítica está situada na parte
esquerda. Neste caso ( ) α=ItipoErroP .
• Unilateral direito (sinal de 1H : >): a região crítica está situada na parte direita.
( ) α=ItipoErroP .
154
Exercícios
1) Para cada teste a seguir contrua a região crítica, encontre os valores críticos
e diga o tipo de teste.
a)
>
≤
5:
5:
1
0
µ
µ
H
H
com nível de significância de 2%, n=64
b)
≠
=
3:
3:
1
0
µ
µ
H
H
com nível de significância de 5%, n= 100
c)
<
≥
75,2:
75,2:
1
0
µ
µ
H
H
com nível de significância de 5%, n=120
d)
≠
=
5,6:
5,6:
1
0
µ
µ
H
H
com nível de significância de 2%, n= 36
155
Teste de uma afirmação sobre uma média populacional: Fluxograma
156
Teste de uma afirmação sobre uma média populacional: σ conhecido
Considere uma amostra razoavelmente grande ( 30≥n ) para valer o teorema
central do limite, ou que os dados provenham de uma distribuição aproximadamente
normal. Para testarmos alguma informação com respeito à média populacional
utilizamos a estatística de teste dada por:
Estatísticade teste
n
x
z x
σ
µ−
=
Os valores críticos são encontrados na Tabela A – 2
Obs.: Caso σ seja desconhecido podemos substituí-lo por s .
Notação
x : média amostral;
x
µ : média populacional.
σ : variância populacional;
n : tamanho da amostra;
Exemplo:
O tempo médio entre falhas de um rádio da Telektronic Companhy para
aviões de pequeno porte é 420 horas. Após terem sido modificados 35 aparelhos de
rádio, em uma tentativa de melhorar sua confiabilidade, os testes acusaram um
tempo médio de 385 horas para esta amostra, com desvio-padrão de 24 horas. Ao
nível de significância de 0,05, teste a afirmação de que o tempo médio, após as
modificações, é menor que 420 horas .
Solução:
a) As hipóteses são:
<
≥
420:
420:
1
0
µ
µ
H
H
157
b) O teste é unilateral esquerdo, pois o sinal de 1H é <.
c) O nível de significância é 05,0=α ;
d) Os valores críticos são 645,1=αz ; Logo temos:
e) Os dados amostrais são: 385=x e 24=s ;
f) Como n=35 ( 30≥n ), a estatística de teste é dada por:
63,8
35
24
420385
−=
−
=
−
=
n
x
z x
σ
µ
g) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos 0H .
Exercícios
1) O gerente de uma empresa de transporte suspeita da afirmação de um
vendedor de pneus de que o seu produto tem uma vida média de, ao menos,
28 000 milhas. Para verificar a afirmação, a firma instala 40 desses pneus em
seus caminhões, obtendo uma vida média de 27 563 milhas, com desvio-
padrão de 1 348 milhas. Qual a conclusão do gerente, se a probabilidade de
um erro tipo I deve ser 0.01?
2) A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas.
Por similaridade com outros processos de fabricação, supomos o desvio-
padrão igual a 120 horas. Utilizando um nível de significância de 2 %, teste a
afirmação de que a duração média de todas as lâmpadas dessa marca é igual
a 1600 horas.
158
Teste de uma afirmação sobre uma média populacional: σ desconhecido
Considere uma amostra pequena ( 30<n ). Suponha que:
a) os dados provenham de uma distribuição normal
b) o desvio-padrão populacional σ é desconhecido.
Para testarmos alguma informação com respeito à média populacional
utilizamos a estatística de teste dada por:
Estatística de teste
n
s
x
t x
µ−
=
Os valores críticos são encontrados na Tabela A – 3
O número de Graus de liberdade = n – 1
Obs.: Caso a variância populacional σ seja conhecida então devemos utilizar a
distribuição normal, independentemente do tamanho da amostra.
n
x
z x
σ
µ−
=
Exemplo:
Os sete valores relacionados a seguir são cargas axiais (em libras) da
primeira amostra de sete latas de alumínio de 12oz. A carga axial de uma lata é o
peso máximo que seus lados podem suportar, e deve ser superior a 165 libras,
porque esta é a pressão máxima aplicada quando se fixa a tampa no lugar. Ao nível
de significância de 0,01, teste a afirmação do engenheiro supervisor de que esta
amostra provém de uma população com média superior a 165 libras.
270 273 258 204 254 228 282
Solução:
a) As hipóteses são:
>
≤
165:
165:
1
0
µ
µ
H
H
159
b) O teste é unilateral direito, pois o sinal de 1H é >;
c) O nível de significância é 01,0=α ;
d) O valor do grau de liberdade é de 7-1 = 6. Logo o valor crítico é 143,3=αt ;
Logo temos:
e) Os dados amostrais são: 7,252=x e 6,27=s ;
Como n = 7 ( 30<n ), a estatística de teste é dada por:
407,8
7
6,27
1657,252
=
−
=
−
=
n
s
x
t x
µ
f) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos 0H .
Exercícios
1) Admitindo que a pressão sanguínea arterial em homens siga o modelo
Normal, 7 pacientes foram sorteados e tiveram sua pressão medida obtendo
os seguintes resultados:
82 - 84 - 78 - 85 - 69 - 80 - 75
Utilizando um nível de significância de 0,02 , teste a afirmação de a média da
pressão sanguínea é de 82.
160
2) O inspetor de qualidade da JF Construções mediu 25 barras de aço e obteve
as seguintes medidas em metros:
4,51 5,38 4,84 5,33 4,74 4,99 5,15 5,52 5,82 5,45
4,68 4,74 5,53 5,40 4,72 4,97 5,24 4,94 4,75 5,50
4,81 5,25 4,86 4,93 4,95
Pode-se afirmar, com com nível de significância de 5%, que tais barras foram
sacadas de um lote cujo comprimento médio é de 5,00 metros?
Teste de uma afirmação sobre variância
Ao testar uma hipótese sobre a variância 2σ de uma população, admitimos
que os valores da população sejam distribuídos normalmente.
Notação
n = tamanho da amostra
2s = variância amostral
2σ = variância populacional
Para testar uma informação sobre a variância 2σ a estatística de teste é dada
por:
Estatística de teste
( )
2
2
2 1
σ
χ
sn ⋅−
=
Os valores críticos são encontrados na Tabela A – 4
O número de Graus de liberdade = n – 1
161
Exemplo:
O tempo para transmitir 10 MB em determinada rede de computadores varia
segundo um modelo normal, com média 7,4 segundos e variância 1,3 segundos
quadrados. Depois de algumas mudanças na rede, acredita-se numa redução no
tempo de transmissão de dados, Além de uma possível mudança na variabilidade.
Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram
coletados os tempos de transmissão, em segundos:
6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,3 6,6 6,3
Resolva:
a) Existe evidência suficiente de que as mudanças na rede de computadores
alteraram a variabilidade no tempo de transmissão de dados? Ao nível de
0,05.
b) Existe evidência suficiente de que as mudanças na rede de computadores
alteraram o tempo médio de transmissão de dados? Ao nível de 0,05
Solução da letra a:
a) As hipóteses são:
≠
=
3,1:
3,1:
2
2
0
1
σ
σ
H
H
b) O teste é bilateral direito, pois o sinal de 1H é ≠ ;
c) O nível de significância é 05,0=α ;
d) O valor do grau de liberdade é de 10-1 = 9. Logo os valores críticos são
700,22 =χ e 023,192 =χ ; Logo temos:
162
e) Os dados amostrais indicam: 261,02 =s ;
f) a estatística de teste é dada por:
807,1
3,1
261,0)110(2 =
⋅−
=χ
g) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos 0H .
Exercícios
1) A cofap alega que a variância da vida média de seus amortecedores é de nove
meses. A Chevrolet ensaia 18 peças e encontra variância de um ano para a vida
média das referidas peças. A 5% de significância, a alegação da Cofap está correta?
2) Um laboratório fez oito determinações da quantidade de impurezas em porções
de certo composto. Os valores eram (em mg):
12,4 – 12,6 – 12,0 – 12,0 – 12,1 – 12,3 – 12,5 – 12,7
Teste a hipótese de que o desvio-padrão é 1, ao nível se significância de 0,05.
163
3) Uma máquina de enchimento automático é usada para encher garrafas com
detergente líquido. Uma amostra aleatória de 20 garrafas resulta em uma variância
amostral de volume de enchimento de 0,0153 (onça fluida)2. Se a variância do
volume de enchimento exceder 0,01 (onça fluida)2, existirá uma proporção
inaceitável de garrafas cujo enchimento não foi completo e cujo enchimento foi em
demasia.
Há evidência nos dados da amostra que sugira que o fabricante tenha um problema
com garrafas cheias com falta e excesso de detergente? Use nível de significância
de 5%.
Observação:
Quando vamos trabalhar com graus de liberdade cujos valores críticos não são
tabelados podemos aproxima-los utilizando a fórmula a seguir
( )22 12
2
1
−+= kzχ
onde
k é o número de graus de liberdade
z é o valor crítico, encontrado na tabela normal padronizada.
Exemplo:
1) Suponha que queiramos fazer o teste
<
≥
21,1:
21,1:
2
2
0
1
σ
σ
H
H
com 05,0=α e 120=n teremos:
a) 119=k
b) 645,1−=zc) ( ) ( ) 529,9411192645,1
2
1
12
2
1 222 =−×+−=−+= kzχ
164
Teste de hipótese para proporção
O teste para proporção é aplicado em situações nas quais queremos verificar
se a proporção de algum atributo na população pode ser igual a certo valor 0p .
SUPOSIÇÕES:
1) São verificadas as condições para um experimento binomial. Isto é, temos um
número fixo de provas independentes com probabilidade constante, e cada
prova comporta dois resultados, que designamos “sucesso” e “falha”.
2) As condições 5≥np e 5≥nq são ambas verificadas, de modo que a
distribuição binomial das proporções amostrais pode ser aproximada por uma
distribuição normal com np=µ e npq=σ .
NOTAÇÃO:
n : número de provas;
p : proporção populacional (usada na hipótese nula);
n
x
p =ˆ : proporção amostral;
pq −=1
A estatística de teste é dada por:
ESTATÍSTICA DE TESTE:
n
pq
pp
z
−
=
ˆ
Os valores críticos são obtidos na tabela A – 2 (distribuição normal
padronizada).
165
Exemplos:
1) Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua
linha de produção para análise da qualidade. As peças da amostra são
classificadas como defeituosas ou não, sendo que a política da empresa
exige que o processo produtivo seja revisto se houver evidência de mais de
1,5% de peças defeituosas. Na última amostra, foram encontradas nove
peças defeituosas. Usando nível de significância de 1%, o processo precisa
ser revisto?
Solução:
h) As hipóteses são:
>
≤
015,0:
015,0:
1
0
pH
pH
i) O teste é unilateral direito, pois o sinal de 1H é > .
j) O nível de significância é 01,0=α ;
k) O valor crítico é 33,2=αz ; Logo temos:
l) Os dados amostrais são: 018,0
500
9
ˆ ==p
m) Critérios para a aproximação normal:
5,7015,0500 =⋅=⋅ pn e
5,492985,0500)015,01(500 =⋅=−⋅=⋅qn
n) Estatística de teste é dada por:
166
552,0
005436,0
003,0
500
985,0015,0
015,0018,0ˆ
==
⋅
−
=
−
=
n
pq
pp
z
o) Conclusão: Como a estatística de teste está fora da região crítica, então não
rejeitamos 0H .
2) Em um estudo da eficácia do air-bag em automóveis, constatou-se que, em
821 colisões de carros de tamanho médio equipados com air-bag, 46 colisões
resultaram em hospitalização do motorista. Ao nível de significância de 0,01,
teste a afirmação de que a taxa de hospitalização nos casos de air-bag é
inferior à taxa de 7,8% para colisões de carros de tamanho médio equipados
com cintos automáticos de segurança.
3) O controle estatístico de certo processo de fabricação de determinada
lâmpada estabeleceu que pelo menos 94% delas têm que estar sem defeito.
Para verificar a validade desta afirmação, foi coletada uma amostra de 150
lâmpadas das quais 138 estavam sem defeito.
Com 1% de significância, há evidência de que o processo está de acordo com
o esperado?
167
Teste de hipótese não-paramétrico
Os testes não-paramétricos são utilizados quando não temos
informação sobre a distribuição da população.
Vantagens- Menos suposições são necessárias. Em muitos casos, apenas
dados nominais (categóricos) ou ordinais (ranks) são necessários, ao invés de
numéricos (intervalares).
Desvantagens- Freqüentemente preferimos ter um modelo bem definido
com parâmetros importantes tais como média e variância incluídas para melhor
interpretação.
São vários os tipos de testes não-paramétricos:
� Teste dos sinais;
� Teste de postos com sinais de Wilcoxon para duas amostras
dependentes;
� Teste da soma de postos de Wilcoxon para duas amostras
independentes;
� Teste de kruskal-Wallis;
� Correlação por postos;
� Teste de repetições para aleatoriedade;
� Teste do qui-quadrado;
� Teste do qui-quadrado para independência ou associação;
� Teste de Mann-Whitney;
� Teste da mediana;
Não se refere à distribuição da estatística de teste, mas ao fato de que os
métodos podem ser aplicados a amostras de populações de qualquer distribuição.
Esta deve ser especificada apenas em termos gerais (ser continua, simétrica,
168
idêntica) sem precisar pertencer a alguma família (como normal, uniforme,
exponencial, etc).
QUANDO PRECISAMOS DOS MÉTODOS NÃO PARAMÉTRICOS?
Mesmo se o teste paramétrico não depende crucialmente da suposição de
que a amostra vem de uma distribuição particular, se há alguma dúvida quanto a
isso o teste não paramétrico, depende de suposições mais fracas, é preferível.
Métodos não paramétricos são usualmente os únicos disponíveis para dados que
simplesmente especificam ordem ou contagem em várias categorias.
Teste de Correlação por postos
Referência: TRIOLA, Mario F. Introdução à estatística.
O teste de correlação por postos pode ser utilizado para verificar se existe
alguma associação entre duas variáveis.
A taxa de eficiência do teste é de 91%.
Notação:
sr : coeficiente de correlação por postos para dados amostrais emparelhados;
sρ : coeficiente de correlação por postos para todos os dados populacionais
emparelhados;
n : número de pares de dados;
d : diferença entre postos para as duas observações dentro de um par.
O índice s é utilizado em homenagem a Charles Spearmen (1863 - 1945).
Ao testar se há ou não correlação, testamos as seguintes hipóteses:
≠
=
0:
0:
1
0
s
s
H
H
ρ
ρ
169
Estatística de teste
A estatística de teste é dada por:
)1(
6
1
2
2
−
−=
∑
nn
d
rs
onde cada valor de d é uma diferença entre os postos para um par de dados
amostrais.
Valores críticos:
Se 30≤n , consulte tabela A – 9.
Se 30>n , use a fórmula
1−
±
=
n
z
rs
onde o valor de z corresponde ao nível de significância
OBS.: Caso haja empate nos postos basta:
a) achar a média dos postos envolvidos;
b) atribuir o posto médio a cada um dos valores empatados.
170
Exemplos
1) A tabela a seguir apresenta 9 dados do volume desgastado do aço e da
viscosidade do óleo.
Volume desgastado
Y (10-4 mm3)
Viscosidade
X
240 1,6
181 9,4
193 15,5
155 20
172 22
110 35,5
113 43
75 40,5
94 33
Há correlação entre as duas variáveis? Use 05,0=α .
Solução:
Passo 1: As hipóteses são
≠
=
0:
0:
1
0
s
s
H
H
ρ
ρ
Passo 2: Nível de significância é 05,0=α
Passo 3: Utilizaremos estatística não-paramétrica pois não temos informação sobre
a população original.
Passo 4: Estatística de teste:
Volume desgastado
Y (10-4 mm3)
Viscosidade
X Posto Y Posto X
d 2d
240 1,6 9 1 8 64
181 9,4 7 2 5 25
193 15,5 8 3 5 25
155 20 5 4 1 1
172 22 6 5 1 1
110 35,5 3 7 4 16
113 43 4 9 5 25
75 40,5 1 8 7 49
94 33 2 6 4 16
Assim temos ∑ = 2222d
171
85,0
85,11
720
1332
1
)181(9
)222(6
1
)1(
6
1
2
2
−=
−=
−=
−
−=
−
−=
∑
nn
d
rs
Passo 5: valores críticos:
Pela tabela A-9, os valores críticos são 683,0± .
Como 85,0−=sr está dentro da região crítica então rejeitamos 0H . Logo existe
correlação.
0
50
100
150
200
250
300
0 10 20 30 40 50
172
2) Os valores a seguir são referentes às vendas de tubos de aço carbono de certa indústria
no período especificado.
X = Ano Y = Venda
80 58
81 85
82 123
83 81
84 57
85 118
86 174
87 147
88 190
89 205
90 255
91 223
92 216
93 297
94 184
95 224
96 318
Existe correlação entre as variáveis?
173
Correlação
Com muita freqüência, na prática, verifica-se que existe uma relação entre
duas (ou mais) variáveis. Por exemplo: os pesos dos adultos do sexo masculino
dependem, em certo grau, de suas alturas; as circunferências de círculos dependem
de seus raios; a pressão de uma determinada massa de gás depende de sua
temperatura e de seu volume.
Dado duas variáveis X e Y, nosso objetivo é verificar se existe relação entre
elas. Por exemplo: Os conjuntos X = {1, 2, 3, 4, 5} e Y = {3, 5, 7, 9, 11} são tais que
Y = 2X+1.Portanto dizemos que as variáveis X e Y são correlacionadas.
Encontrar uma relação entre variáveis é de fundamental importância para
podermos predizer valores futuros. Por exemplo: se soubermos que duas variáveis
se relacionam por Y = 2X – 4, então os valores de Y são encontrado apenas
atribuindo valores a X.
Em engenharia uma das perguntas interessantes é:
Será que existe relação entre o desgaste em um aço e a viscosidade do óleo
utilizado?
A tabela a seguir apresenta 9 dados do volume desgastado do aço e da
viscosidade do óleo. No decorrer da exposição nosso objetivo é utilizar os dados da
tabela abaixo para responder a pergunta inicial.
Tabela 1
Volume desgastado
Y (10-4 mm3)
Viscosidade
X
240 1,6
181 9,4
193 15,5
155 20
172 22
110 35,5
113 43
75 40,5
94 33
Vamos aqui estudar variáveis que se relacionam linearmente. No final deste
estudo daremos um exemplo de variáveis que não se relacionam linearmente e sim
de forma quadrática.
Correlação
Existe uma correlação entre duas variáveis quando uma delas está, de
alguma forma, relacionada com a outra.
Como estamos interessados em variáveis que se relacionam linearmente,
então estas relações são descritas por uma equação de uma reta, ou seja, equações
do tipo Y = b0 + b1X.
Como não podemos basear nossas conclusões apenas em diagramas,
necessitamos de métodos mais precisos e objetivos para tirarmos conclusões.
174
Vamos utilizar o coeficiente de correlação linear. Ele também é conhecido como
coeficiente de correlação de Pearson (Karl Pearson).
Coeficiente de correlação linear
O coeficiente de correlação linear r mede o grau de relacionamento linear
entre os valores emparelhados x e y em uma amostra.
O coeficiente de correlação linear r é dado pela expressão:
∑ ∑∑ ∑
∑ ∑ ∑
−•−
−
=
2222 )()(
))((
yynxxn
yxxyn
r
Como r é calculado com base em dados amostrais, é uma estatística amostral
usada para medir o grau da correlação linear entre x e y. Se tivéssemos todos os
pares de valores (x, y) para a população, a fórmulas acima seria um parâmetro
populacional.
Arredondamento do coeficiente de correlação linear
Arredondamos o coeficiente de correlação linear r para três casas decimais,
afim de que seu valor possa ser comparado com os valores críticos da tabela A-6.
Propriedades do Coeficiente de Correlação Linear r
1) O valor de r está sempre compreendido entre –1 e +1;
2) O valor de r não varia se todos os valores de qualquer uma das variáveis são
convertidos para uma escala diferente;
3) O valor de r não é afetado pela escolha de X ou Y;
4) O valor de r mede a intensidade, ou grau, de um relacionamento linear. Não
serve para medir a intensidade de um relacionamento não-linear.
Os gráficos de dispersão a seguir descrevem alguns dos tipos de correlação
existentes.
Correlação linear positiva
0
5
10
15
20
25
30
0 5 10
X
Y
A correlação será considerada positiva se valores crescentes de X estiverem
associados a valores crescentes de Y, ou valores decrescentes de X estiverem
associados a valores decrescentes de Y. Neste caso 0 < r < 1.
175
Correlação linear perfeita positiva
0
5
10
15
20
25
30
0 5 10
X
Y
A correlação linear será considerada perfeita positiva se valores
crescentes de X estiverem perfeitamente alinhados a valores crescentes de Y, ou
valores decrescentes de X estiverem perfeitamente alinhados a valores
decrescentes de Y. Neste caso r = 1.
Correlação Negativa
0
5
10
15
20
25
30
0 2 4 6 8 10
X
Y
A correlação é considerada negativa quando valores crescentes da variável X
estiverem associados a valores decrescentes da variável Y, ou valores decrescentes
de X estiverem associados a valores crescentes da variável Y. Neste caso –1 < r <
0.
Correlação negativa perfeita
0
5
10
15
20
25
30
0 2 4 6 8 10
X
Y
A correlação linear será considerada perfeita negativa se valores crescentes
de X estiverem perfeitamente alinhados a valores decrescentes de Y, ou valores
decrescentes de X estiverem perfeitamente alinhados a valores crescentes de Y.
Neste caso r = -1.
176
Correlação nula
0
5
10
15
20
25
30
0 2 4 6 8 10
X
Y
Quando não houver relação entre as variáveis X e Y, ou seja, quando as
variações de X e Y ocorrerem independentemente não existe correlação entre elas.
Neste caso r = 0.
Correlação não-linear
0
10
20
30
0 5 10
X
Y
Quando não houver correlação linear entre as variáveis X e Y pode
acontecer que haja outro tipo de correlação. Esta correlação pode ser quadrática,
exponencial, logarítmica, uma curva do 3.º grau, etc.
Cálculo do coeficiente de correlação para os dados da tabela 1.
Para o cálculo do coeficiente de correlação é conveniente a construção de
tabelas ampliadas, onde, a partir dos valores de X e Y, são determinadas todas as
somas necessárias.
Volume desgastado
Y (10-4 mm3)
Viscosidade
X
X2 Y2 XY
240 1,6 2,56 57600 384
181 9,4 88,36 32761 1701,4
193 15,5 240,25 37249 2991,5
155 20 400 24025 3100
172 22 484 29584 3784
110 35,5 1260,25 12100 3905
113 43 1849 12769 4859
75 40,5 1640,25 5625 3037,5
94 33 1089 8836 3102
1333 220,5 7053,67 220549 26864,4
Assim,
177
( ) ( ) ( )
938,0
333.1549.22095,220)67,053.7(9
)333.1()5,220()4,864.26(9
)()(
))((
22
2222
−=
−⋅•−⋅
⋅−⋅
=
−•−
−
=
∑ ∑∑ ∑
∑ ∑ ∑
r
r
yynxxn
yxxyn
r
O valor de r é dado por r = - 0,938.
Interpretação do valor de r
Se o valor de r está próximo de 0 (zero), concluímos que não há correlação
linear significativa entre X e Y, mas se r está próximo de –1 ou +1, concluímos pela
existência de correlação linear significativa entre X e Y. Como o termo “próximo” é
vaga, temos que adotar um critério de decisão. Para verificarmos se há correlação
faremos então um teste de hipótese.
Teste de hipótese para determinar se há correlação
Podemos utilizar dois métodos para verificar se duas variáveis possuem
correlação linear entre elas. Utilizando a teoria do teste de hipótese vamos verificar
se há correlação entre as variáveis X e Y de uma população. Neste caso usaremos o
parâmetro ρ para representar a correlação entre duas variáveis de uma população.
Assim temos:
H0: ρ = 0 (Não há correlação linear entre as variáveis X e Y)
H1: ρ ≠ 0 (Há correlação linear significativa entre as variáveis X e Y)
Método: Estatística de Teste é r. Usamos o valor calculado do Coeficiente de
Correlação Linear de Pearson r.
Estatística de Teste r para Correlação Linear
Estatística de Teste: r
Valores críticos: Tabela do Coeficiente de Correlação r de Peason.
Exemplo: Para os dados da Tabela 1 temos: r = - 0,938 (calculado). Utilizando o
teste de hipótese teremos:
A estatística de teste é r = - 0,938. Os valores críticos são r = - 0,666 e r =
0,666 com n = 9 e nível de significância 0,05. Como r está dentro da área crítica,
então rejeitamos H0. Logo há evidências para apoiar a existência de uma correlação
linear.
Rejeitar
ρ = 0
Não Rejeitar
ρ = 0
Rejeitar
ρ = 0
-1 r = -0,666 r = 0,666 1
Como sabemos que há correlação entre as variáveis X e Y, basta agora
encontrar qual a correlação, ou seja, qual a equação que relaciona as duas
variáveis. Isto podemos facilmente encontrar usando a Regressão Linear.
178
Regressão Linear
Definição:
Dada uma coleção de dados emparelhados (X, Y) populacionais, a equação
de regressão é dada por
xy 10 ββ +=
Como não conhecemnos os coeficientes populacionais devemos estimá-los.
Então dada uma coleção de dados amostrais emparelhados (X, Y), a equação
de regressão
xbbŷ 10 +=
descreve a relação entre as duas variáveis. O gráfico da equação de regressão é
chamado reta de regressão. (ou reta de melhor ajuste, ou reta de mínimos
quadrados)
Esta definição expressa uma relação entre x (chamada variável independente
ou variável preditora)e ŷ (chamada variável dependente ou variável resposta).
Temos que b0 é o intercepto y e b1 é o coeficiente angular.
Suposições:
1) Estamos investigando apenas relações lineares.
2) Para cada x, y é uma variável aleatória com distribuição normal. Todas essas
distribuições de y têm a mesma variância e, ainda, para um dado valor de x, a
média da distribuição dos valores de y está sobre a reta de regressão.
Estimação dos coeficientes da regressão
Estimamos os valores b0 e b1 , utilizando método dos mínimos quadrados,
pelas fórmulas a seguir.
221
22
2
0
)x()x(n
)y)(x()xy(n
b
)x()x(n
)xy)(x()x)(y(
b
∑∑
∑∑∑
∑∑
∑∑∑∑
−
−
=
−
−
=
Arredondamentos
Cálculos intermediários arredondar para seis casas decimais. Arredondar o
resultado final para uma casa decimal a mais que os dados.
Voltando ao problema proposto, Tabela 1, vamos calcular a reta de regressão
entre as variáveis X e Y.
179
07,234
)5,220()67,053.7(9
)4,864.26)(5,220()67,053.7)(333.1(
)()(
))(())((
0
20
22
2
0
=
−⋅
−
=
−
−
=
∑∑
∑∑∑∑
b
b
xxn
xyxxy
b
e
51,3
)5,220()67,053.7(9
)333.1)(5,220()4,864.26(9
)()(
))(()(
1
21
221
−=
−⋅
−⋅
=
−
−
=
∑∑
∑∑∑
b
b
xxn
yxxyn
b
Assim a reta de regressão é dada por xy 51,307,234ˆ −= .
As equações de regressão podem ser úteis quando usadas para predizer o
valor de uma variável, dado um valor determinado da outra variável. Ao predizer um
valor de y com base em determinado valor de x:
1) Se não há correlação linear significativa, o melhor valor predito de y é a média
de y;
2) Se há correlação linear significativa, obtém-se o melhor valor predito de y
substituindo-se o valor de x na equação de regressão.
Por exemplo, se queremos saber qual o desgaste quando a viscosidade for
de 41 então basta substituir na reta de regressão o valor de x por 41:
16,90
4151,307,234
=
⋅−=
y
y
Estimativa da variância
Seja ( )∑
=
−=
n
i
iiE yySQ
1
2ˆ a soma dos quadrados dos erros. Uma estimativa da
variância do modelo é dada por
2
ˆ 2
−
=
n
SQEσ .
180
No nosso exemplo teremos:
Volume desgastado
Y (10-4 mm3) Ŷ
2)ˆ( YY −
240 228,454 133,3101
181 201,076 403,0458
193 179,665 177,8222
155 163,87 78,6769
172 156,85 229,5225
110 109,465 0,286225
113 83,14 891,6196
75 91,915 286,1172
94 118,24 587,5776
2.787,978
Assim,
28,398ˆ
7
978,787.2
ˆ
2
ˆ
2
2
2
=
=
−
=
σ
σ
σ
n
SQE
Exemplo:
1) Os dados a seguir trazem os resultados do experimento que avalia o índice de
octanagem da gasolina (y) em função da adição de um novo aditivo (x), em
porcentagem.
x (%) y (%)
1 80
2 81
3 82
4 83
5 83
6 85
A reta de regressão estimada é XY 9,01,79 += . Qual a estimativa da variância da
reta estimada?
181
Teste de hipótese na regressão linear simples
Quando estimamos os coeficientes da regressão linear é importante
testarmos a hipótese de que eles são ou não iguais a zero. Caso isso seja
verdadeiro podemos retira-lo do modelo.
No caso da regressão simples testamos:
0:
0:
01
00
≠
=
β
β
H
H
e
0:
0:
11
10
≠
=
β
β
H
H
Para testarmos estar a hipótese sobre 0β utilizamos a estatística de teste
xxS
T
2
0
0
ˆ
ˆ
σ
β
= onde 0T tem distribuição t com n-2 graus de liberdade. Utilizamos
n
x
xS
n
i
i
n
i
ixx
2
1
1
2
−=
∑
∑ =
=
.
Utilizamos o método análogo para testar 1β . Neste caso a estatística de teste
é
xxS
T
2
1
1
ˆ
ˆ
σ
β
= onde 1T tem distribuição t com n-2 graus de liberdade.
Exemplo: Voltando ao nosso exemplo anterior teremos:
1º caso: Para testarmos a hipótese sobre 0β
( )
42,651.1
25,402.567,053.7
9
5,220
67,053.7
2
2
1
1
2
=
−=
−=
−=
∑
∑ =
=
xx
xx
xx
n
i
i
n
i
ixx
S
S
S
n
x
xS
Estatística de teste
182
63,476
42,651.1
28,398
07,234
ˆ
ˆ
0
0
2
0
0
=
=
=
T
T
S
T
xx
σ
β
Para valores críticos temos 365,2±=t com nível de significância 05,0=α .
Como a estatística 0T está dentro da região crítica, então rejeitamos a hipótese
nula. Logo o coeficiente é significativo.
2º caso: Para testar hipótese sobre 1β :
Estatística de teste
147,7
42,651.1
28,398
51,3
ˆ
ˆ
1
1
2
1
1
−=
−
=
=
T
T
S
T
xx
σ
β
Para valores críticos temos 365,2±=t com nível de significância 05,0=α .
Como a estatística 0T está dentro da região crítica, então rejeitamos a hipótese
nula. Logo o coeficiente é significativo.
Intervalo de confiança para os coeficientes
Sob a suposição de que as observações sejam normal e independentemente
distribuídas, um intervalo de confiança de ( )%1100 α− para a inclinação na
regressão linear simples é:
xx
n
xx
n S
t
S
t
2
2,
2
11
2
2,
2
1
ˆˆˆˆ σββ
σ
β αα −− +≤≤−
Similarmente, um intervalo de confiança de ( )%1100 α− para a interseção na
regressão linear simples é:
++≤≤
+−
−−
xx
n
xx
n S
x
n
t
S
x
n
t
2
2
2,
2
00
2
2
2,
2
0
1
ˆˆ
1
ˆˆ σββσβ αα
183
Exemplo: Considerando o exemplo anterior, um intervalo de confiança de 95% para
os coeficientes é dado por:
58,26656,201
42,651.1
5,24
9
1
28,398365,207,234
42,651.1
5,24
9
1
28,398365,207,234
42,651.1
5,24
9
1
28,398365,207,234
42,651.1
5,24
9
1
28,398365,207,234
1
ˆˆ
1
ˆˆ
0
2
0
2
2
0
2
2
2
2,
2
00
2
2
2,
2
0
≤≤
++≤≤
+−
++≤≤
+−
++≤≤
+−
−−
β
β
β
σββσβ αα
xx
n
xx
n S
x
n
t
S
x
n
t
e
35,267,4
42,651.1
28,398
365,251,3
42,651.1
28,398
365,251,3
ˆˆˆˆ
1
1
2
2,
2
11
2
2,
2
1
−≤≤−
+−≤≤−−
+≤≤−
−−
β
β
σ
ββ
σ
β αα
xx
n
xx
n S
t
S
t
Exercício:
1) Considere Y a pureza do oxigênio (%) e X o nível de hidrocarboneto (%). A reta
de regressão entre Y e X é dada por:
XY 947,14283,74 +=
A estimativa da variância é de 18,1ˆ 2 =σ e 68088,0=xxS . Use 05,0=α e 18=n .
Encontre um intervalo de 95% de confiança para a inclinação 1β .
Exercícios Suplementares
1) Mostre que, para um modelo de regressão linear simples, as seguintes
afirmações são verdadeiras:
a) ( ) 0ˆ
1
=−∑
=
n
i
ii yy
b) ( ) 0ˆ
1
=−∑
=
i
n
i
ii xyy
c) yy
n
i =∑ ˆ
1
184
Regressão Múltipla
Este material foi retirado do livro: Estatística Aplicada e Probabilidade para
Engenheiros. Douglas C. Montgomery & George C. Runger.
1. Definição:
Uma equação de regressão linear múltipla expressa um relacionamento entre
uma variável dependente ou de resposta, y , e as variáveis independentes ou
regressoras ( )kxxx ,,, 21 K .
O modelo de regressão linear múltiplo com k variáveis é definido por:
εββββ +++++= kk xxxy L22110ˆ
Notação:
n : tamanho da amostra;
k : número de variáveis independentes;
ŷ : valor predito da variável dependente;
kxxx ,,, 21 K : variáveis independentes;
kββββ ,,,, 210 K : coeficientes de regressão;
ε : erro.
O parâmetro jβ representa a variação esperada na resposta y por unidade
de variação unitária em jx quando todos os outros regressores restantes ( )jixi ≠
forem mantidos constantes.
Exemplo:
a) 21 01253,074427,226379,2ˆ xxy ++= ;
2. Estimação de Mínimos Quadrados dos Parâmetros
185
O método dos mínimos quadrados pode ser usado para estimar os
coeficientes de regressão no modelo de regressão múltipla.
O objetivo é minimizar a função
∑
=
=
n
i
L
1
2ε
Queremos minimizar a função L com relação a kββββ ,,,, 210 K . As
estimativas de mínimos quadrados têm de satisfazer
0ˆˆ2
1 1
0ˆ,,ˆ,ˆ,ˆ
0 210
=
−−−=
∂
∂
∑ ∑
= =
n
i
k
j
ijji xy
L
k
ββ
β ββββ K (1)
e
kjxxy
L
ij
n
i
k
j
ijji
j
k
,,2,1,0ˆˆ2
1 1
0ˆ,,ˆ,ˆ,ˆ 210
K
K
==
−−−=
∂
∂
∑ ∑
= =
ββ
β ββββ (2)
Simplificandoas equações (1) e (2), obtemos as equações normais de
mínimos quadrados:
∑
=
=∑
=
++∑
=
+∑
=
+
∑
=
=∑
=
++∑
=
+∑
=
+
∑
=
=∑
=
++∑
=
+∑
=
+
∑
∑
=
=
n
i
iyx
n
i
xk
n
i
ixx
n
i
xxx
n
i
iyx
n
i
ikxxk
n
i
ixx
n
i
xx
n
i
iy
n
i
ikxk
n
i
ix
n
i
ixn
ikikikiik
n
i
ik
iiii
n
i
i
11
ˆ
1
22
ˆ
1
1
ˆ
0
ˆ
11
ˆ
1
22
ˆ
1
1
ˆ
0
ˆ
11
ˆ
1
22
ˆ
1
11
ˆ
0
ˆ
2
1
1
111
2
1
1
1
ββββ
ββββ
ββββ
K
MMMMM
K
K
186
Note que há 1+= kp equações normais, uma para cada um dos coeficientes
desconhecidos da regressão. A solução para as equações normais serão os
estimadores de mínimos quadrados.
Exemplo 1: Os dados referem-se a resistência à tração de um fio colado, em um
processo de fabricação de semicondutores, do comprimento do fio e da altura da
garra.
Número da
observação
Resistência à
tração
y
Comprimento
do fio
1x
Altura da garra
2x
1 9,95 2 50
2 24,45 8 110
3 31,75 11 120
4 35 10 550
5 25,02 8 295
6 16,86 4 200
7 14,38 2 375
8 9,60 2 52
9 24,35 9 100
10 27,50 8 300
11 17,08 4 412
12 37 11 400
13 41,95 12 500
14 11,66 2 360
15 21,65 4 205
16 17,89 4 400
17 69 20 600
18 10,30 1 585
19 34,93 10 540
20 46,59 15 250
21 44,88 15 290
22 54,12 16 510
187
23 56,63 17 590
24 22,13 6 100
25 21,15 5 400
Ajustaremos o modelo
εβββ +++= 22110ˆ xxy
Para o modelo a ser ajustado as equações normais são:
∑
=
=∑
=
+∑
=
+
∑
=
=∑
=
+∑
=
+
∑
=
=∑
=
+∑
=
+
∑
∑
=
=
n
i
iyx
n
i
x
n
i
xxx
n
i
iyx
n
i
ixx
n
i
xx
n
i
iy
n
i
ix
n
i
ixn
iiii
n
i
i
iii
n
i
i
11
2
ˆ
1
1
ˆ
0
ˆ
11
22
ˆ
1
1
ˆ
0
ˆ
11
22
ˆ
1
11
ˆ
0
ˆ
2
2
221
1
2
11
2
1
1
1
βββ
βββ
βββ
De acordo com a tabela temos:
71,816.274;47,008.8;177.77
848.531.3;396.2;294.8
206;82,725;25
25
1
2
25
1
1
25
1
21
25
1
2
2
25
1
2
1
25
1
2
25
1
1
25
1
===
===
===
∑∑∑
∑∑∑
∑∑
===
===
==
i
ii
i
ii
i
ii
i
i
i
i
i
i
i
i
i
i
yxyxxx
xxx
xyn
Substituindo as somas temos:
71,816.2742
ˆ848.531.31
ˆ177.770
ˆ294.8
47,008.82
ˆ177.771
ˆ396.20
ˆ206
82,7252
ˆ294.81
ˆ2060
ˆ25
=++
=++
=++
βββ
βββ
βββ
A solução encontrada é:
188
21 01253,07442,226379,2ˆ xxy ++=
3. Abordagem matricial para a regressão linear múltipla
O modelo de regressão é um sistema de n equações, que pode ser expresso
na notação matricial
εβ += Xy
onde
=
=
=
=
nknknn
k
k
n xxx
xxx
xxx
X
y
y
y
y
ε
ε
ε
ε
β
β
β
β
MM
K
MMMM
K
K
M
2
1
1
0
21
22221
11211
2
1
;;
1
1
1
;
As equações normais do modelo são:
yXXX '' ˆ =β
'X representa a transposta da matriz X .
A estimativa de mínimos quadrados é:
( ) yXXX '1'ˆ −=β
4. Estimativa da variância
A estimativa da variância é obtida através do estimador não-tendencioso
pn
SQ
pn
E
n
i
i
−
=
−
=
∑
=1
2
2ˆ
ε
σ
onde
189
( ) εεε 'ˆ
1 1
22 ==−=∑ ∑
= =
n
i
n
i
iiiE yySQ
No denominador temos
pn −
que é denominado graus de liberdade do erro
ou do resíduo.
5. Testes de hipóteses para a regressão linear múltipla
5.1. Teste para a significância da regressão
O teste para a significância da regressão é um teste para determinar se existe
uma relação linear entre as variáveis de resposta e as regressoras.
As hipóteses são:
≠
====
jummínimonoparaH
H
j
k
0:
0:
1
210
β
βββ K
A estatística de teste é dada por:
( )
E
R
E
R
MQ
MQ
pn
SQ
k
SQ
F =
−
=0
onde
−−
−=
∑∑
==
n
y
yX
n
y
yySQ
n
i
i
n
i
i
E
2
1
2
1
''ˆ' β
n
y
yXSQ
n
i
i
E
2
1
''ˆ
−=
∑
=β
190
Podemos também usar o
2
R
e o
2
R
ajustado como uma estatística global
para avaliar o ajuste do modelo. Assim temos:
( )
( )1
12
−
−
−=
n
SQ
pn
SQ
R
T
E
ajustado
5.2. Testes para os coeficientes individuais de regressão e subconjuntos de
coeficientes
As hipóteses para testar se um coeficiente individual de regressão, como jβ ,
é igual a um dado valor 0jβ é:
≠
=
01
00
:
:
jj
jj
H
H
ββ
ββ
A estatística de teste é dada por:
jj
jj
C
T
2
0
0
ˆ
σ
ββ −
=
6. Intervalos de confiança para a regressão linear múltipla
Um intervalo de confiança de ( )%1100 α− para o coeficiente de regressão
kjj ,,2,1,0, K=β no modelo de regressão linear múltipla é dado por:
jjpnjjjjpnj CtCt
2
,2
2
,2 ˆ
ˆˆˆ σββσβ αα −− +≤≤−
191
7. Previsão de novas observações
Um intervalo de previsão de ( )%1100 α− para uma futura observação é dado
por:
( )( ) ( )( )01'02,20001'02,20 '1ˆˆ'1ˆˆ xXXxtyYxXXxty pnpn −−−− ++≤≤+− σσ αα
8. Uso do computador
Podemos, facilitar as contar, utilizando o apoio computacional. Este apoio visa
simplesmente agilidade. Isso não implica que não devemos entender o processo. O
bom entendimento faz parte do conhecimento profundo do assunto.
Podemos utilizar qualquer software que permita fazer a análise de regressão
múltipla, entre eles: Excell, SPSS, R, Minitab, etc.
A seguir damos um exemplo com o apoio do Excell.
Voltamos ao exemplo 1, onde os dados referem-se a resistência à tração de
um fio colado. Os resultados são apresentados a seguir:
Estatística de regressão
R múltiplo 0,990523843
R-Quadrado 0,981137483
R-quadrado ajustado 0,979422709
Erro padrão 2,288046833
Observações 25
ANOVA
gl SQ MQ F F de significação
Regressão 2 5990,771221 2995,386 572,1671503 1,07546E-19
Resíduo 22 115,1734828 5,235158
Total 24 6105,944704
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 2,263791434 1,060066238 2,135519 0,04409945 0,065348623 4,462234246
Variável X 1 2,744269643 0,093523844 29,34299 3,90691E-19 2,550313062 2,938226225
Variável X 2 0,012527811 0,002798419 4,476746 0,000188266 0,006724246 0,018331377
192
RESULTADOS DE RESÍDUOS
Observação Y previsto Resíduos
1 8,37872129 1,57127871
2 25,59600783 -1,146007833
3 33,95409488 -2,204094876
4 36,59678413 -1,596784129
5 27,91365294 -2,893652939
6 15,74643228 1,113567716
7 12,45025999 1,92974001
8 8,403776913 1,196223087
9 28,21499936 -3,864999362
10 27,976292 -0,476291996
11 18,4023283 -1,322328298
12 37,46188206 -0,461882064
13 41,45893285 0,491067154
14 12,26234282 -0,60234282
15 15,80907134 5,840928659
16 18,25199456 -0,361994562
17 64,66587113 4,334128869
18 12,33683074 -2,036830738
19 36,47150602 -1,541506015
20 46,55978893 0,030211071
21 47,06090138 -2,180901385
22 52,56128953 1,558710467
23 56,30778409 0,322215913
24 19,98219043 2,147809568
25 20,9962642 0,153735795
193
Exercício:
1) A energia elétrica consumida mensalmente por uma indústria química está
relacionada à temperatura média ambiente ( )1x , ao número de dias no mês
( )2x , à pureza média do produto ( )3x e às toneladas do produto produzido
( )4x . Os dados históricos do ano passado estão disponíveis e são
apresentados na tabela a seguir:
y
1x 2x 3x 4x
240 25 24 91 100
236 31 21 90 95
270 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98
Faça:
a) Encontre a reta de regressão;
b) Calcule a estimativa da variância;
c) Teste a significância da regressão;
d) Teste os coeficientes;
e) Encontre um intervalo de confiança de 95% para o coeficiente 0β e 1β da
regressão;
194
2) Um estudo foi realizado sobre o desgaste de um mancal, y , e sua relação
com 1x a viscosidade do óleo e 2x carga. Os dados são o seguinte:y
1x 2x
293 1,6 851
230 15,5 816
172 22 1058
91 43 1201
113 33 1357
125 40 1115
Faça:
a) Encontre a reta de regressão;
b) Calcule a estimativa da variância;
c) Teste a significância da regressão;
d) Teste os coeficientes;
e) Encontre um intervalo de confiança de 95% para o coeficiente 0β e 1β da
regressão;
195
Bibliografia
1. TOLEDO, Geraldo Luciano. OVALLE, Ivo Izidoro. Estatística Básica. 2ª edição.
São Paulo: Atlas, 1985.
2. MONTGOMERY, Douglas C., RUNGER, George C.. Estatística aplicada e
probabilidade para engenheiros. Rio de Janeiro: LTC, 2009.
3. MILONE, Giuseppe. Estatística: geral e aplicada. São Paulo: Thomson Learning,
2006.
4. BRUNI, Adriano Leal. Estatística aplicada à gestão empresarial. 2ª edição. São
Paulo: Atlas, 2008.
196
Anexo 1
1. Algoritmo para calcular frequência em tabela agrupada em classes.
freqagrup<-function(dados){
cat("Dados",dados,"\n\n")
n<-length(dados)
cat("dimensão dados =",n,"\n\n")
menor<-min(dados)
maior<-max(dados)
At<-maior-menor;
k1<-1+3.3*log(n)/log(10);
cat("Numero de classes sem arredondamento =",k1,"\n\n")
k2<-round(1.5+3.3*log(n)/log(10),0);
cat("Número de classes arredondado =",k2,"\n\n")
k<-k2
Ac<-At/k;
cat("At =",At,"\n\n")
cat("k =",k,"\n\n")
cat("Ac =",Ac,"\n\n")
for(j in 1:k){
if(j<k){
freq2<-0
freq1<-0
for(i in 1:n){
if((menor+(j-1)*Ac)<=dados[i]&dados[i]<(menor+(j)*Ac)){
freq<-1
freq1<-freq+freq1
}
}
freq2[j]<-freq1
cat("Classe (",j,")=>","De",(menor+(j-1)*Ac),"até",(menor+j*Ac),"=> frequênica
=",freq2[j],"\n\n")
}
if(j==k)
{
freq2<-0
freq1<-0
for(i in 1:n){
if((menor+(j-1)*Ac)<=dados[i]&dados[i]<=(menor+(j)*Ac)){
freq<-1
freq1<-freq+freq1
}
197
}
freq2[j]<-freq1
cat("Classe (",j,")=>","De",(menor+(j-1)*Ac),"até",(menor+j*Ac),"=> frequênica
=",freq2[j],"\n\n")
}
}
}
198
Anexo 2
Comandos Software R
#=======================================================
Gerar amostras aleatórias
#=======================================================
criar vetor de amostras x
sort(x)# ordena os valores de x.
sample(x,5,T)# gera 5 amostras do vetor x com reposição
sample(x,5)# gera 5 amostras do vetor x sem reposição
#=======================================================
# Mudar diretório
#=======================================================
Arquivo
Mudar diretorio
Nome da pasta
#=======================================================
# Leitura e Preliminares dos Dados
#=======================================================
Leitura dos dados
gasolina <- scan(file="gasolina.txt")
frango <- scan(file="frango.txt")
alcatra <- scan(file="alcatra.txt")
dados<-data.frame(frango,alcatra) # banco de dados juntos frango + alcatra
attach(dados)# apresenta os nomes das variáveis
names(dados)# apresenta os nomes das variáveis
dim(dados) # dimensão dos dados
dados[1:15]# apresenta os 15 primeiros resultados
199
#==========================================================
# Estatísticas Descritivas
#==========================================================
summary(gasolina)
summary(frango)
mean(gasolina)
median(gasolina)
quantile(gasolina) # retorna os quartis
var(gasolina)# variância
cov(frango,alcatra) #Covariância
cor(frango,alcatra)#correlação
#==============================================================
# Tabela
#===============================================================
table(frango)# apresenta tabela distribuição frequencia simples.
#==============================================================
# Graficos
#===============================================================
boxplot(gasolina,ylab="Preços da Gasolina")
boxplot(frango,alcatra,ylab="Preços",xlab="frango X alcatra")
hist(frango)
plot(alcatra)
pairs(cbind(frango,alcatra)) # faz o gráfico de dispersão x1 versus x2 e vice
versa
t<-ts(frango) # transforma um conjunto de dados frango em uma série
temporal
plot(t)# faz o gráfico da série temporal
par(mfrow=c(2,1))#divide a tela em 2.
hist(gasolina)
200
abline(v=mean(gasolina))# faz uma linha na média de x1.
abline(v=median(gasolina))# faz uma linha na mediana de x1.
abline(v=quantile(gasolina))# faz uma linha nos quantis de x1.
#==============================================================
Regressão linear
#===============================================================
plot(x, y) # gráfico de dispersão.
fm <- lm(y ~ x) # regressão entre conjuntos pareados y e x.
fm # apresenta os coeficientes da regressão.
anova(fm)# apresenta tabela anova do modelo.
abline(lm(y~x)) # traça a reta de regressão.