Prévia do material em texto
I )t,: l'Rr lttAtìn,n)AI)E
Ís'l'rt rA
rrItr'trlo Mlrgalhães
lur l't'rlt'rlsrl <lc [,ima
l,lsllr olrr ir ('llnlir irrlrorlrtr.iru;t
[tlolrrrlrilirlirtlc c rt l,ìstlrtíslit it, It'ttrlrr
si<[o llirlrot'ir<[l ;rirtir irlrrtros rlrrs r'rrcirs
<k' < iôn< iirs lriolrigi< lrs, ('xlrlirs ('
hrrmanas. Ao corrtliilio rlt' orr(rrrs
textos e lcrlc'Ìì1iìr'('s, os ttilli<'os <lc
Estatística l)escritivir rriro Íìlrarrr
apresentados enì urìì Írnit o capítìrlo:
procurou-se i n trodrrzir csses conceil os
em paralelo corn outros tópicos mais
teóricos no decorrer do livro. Desse
modo,.buscou-se desenvolver ó texto
de forma similar ao uso prático da
Estatística, quando normalmente um
conjunto de dados é explorado
descritivamente antes da modelagem
e aplicação de técnicas estatísticas.
Não foi explicitado o uso de nenhum
software em particular, uma vez que se
procuroÌÌ enfatrzar as idéias envolvidas
e não a habilidade computacional.
Não obstante, vários exercícios
-
apresentados ao {im de cada seção
e em uma seçào específica ao final
de cada capítulo
-
assumem o uso de
computadores para sua resolução e
alguns conjuntos de dados mais
extensos são disponibilizados na
internet, o que estimula o leitor 4
utilizar um programa computacional
com o qual tenha famiÌiariclade panì
ar rxíl io ttits t'csoltr'ç<-rcs.
tÌrpyrlglrt O hy Mulcos Nascinrcnlo Magalhãcs c Arrtonio Carlos l)ctltoso clc Lima
l" r'rliçÍo 1999 (lMli-tJSP)
J'' r'rlt1'rlo 2(XX) ( lMll-l.JSl')
.1" crliçlio 2(X) I (lMli-tJSP)
,1" crliçrìo 2(X)2 (lJclusp)
.1" crliçrìo 2{X}2 (Ddusp)
(rn ctliçlìo 2(X)4 (liclusp)
l )utkrs lnlct nacionais dc Catalogação na Publicaçào (CIP)
(('iìnrala Ilrasileira do Livro, SP, Brasil)
Mttgrt lhilt's, Mitt cos Nascinrento
Nuçiics rlc I'robabilidade c Estatística / Marcos Nascimento
Mngllhitcs, Ânlonio Carlos Pcclroso cle Liml
-
ó ed.
-
São Paulo:
Jltlilurl tlu IJrtive lsichclc de São Paulo, 2004.
-
(Acadêmica; 40)
lllhliogr';r li,rt
tstìN tì5-3 I 4-0ó77-3
L listltísticl
-
llstuclo e Ensino 2. Matemática
-
Estudo e
lirrsirur 3. lÌoltabiliclaclcs
-
Estudo e Ensino I. Título IL Série.
tì,1 0.171 cDD-5 t 9.507
índicos para catálogo sistemático:
l, l1\lirlíslicl: Matcnriitica: Estudo e Ensino 519.507
2, lÌolrlhilitlrtilcs c Estatística: Maternática:
lisluclo c Errsino 519.507
I)ll'cllns lcsclvltlos à
lklusp lulitrtrt tll [Jnivclsidade de São Paulo
Av, lÌrrl, l,rrciarto Gualbclto, Tlavcssa J,374(Í'untlll lltl. rll Ântiga lìeitoria
-
Cidade Universitária
0550tl U{X) .- Siìo l'uulo
-
SP
-
Brasil
I)ivisalo (lrrucrcial: tcl. (Oxxl l) 3091-4008 / 3091-4150
SA(l (0xxl l) 3091-291 I
-
Fax (Oxxll) 3091-4151
www,rrsp,lrr'/ctlusqr
-
c-mail: edusp@edu.usp.br
lrrslilulo rlc Mllcntítica c Estatística
-
IME-USP
Ituil rkr Millikr, l0l0
-
Cidadc Universitária
0-55()t1"9(X)
-
S;io I'aulo
-
SP
-
Brasil
{i
Coutro dç Ciêaerap Ldarcai{h a
do ìì*hrreln
Iiibirotecl
ll.. í:;,gilí''rs
0\Íú/0s4658108
cr|sEra
l)cplrlnnlcnt(ì tlc listatística
-
Tel. (Oxxl l) 3091-6129 / 3091-6130
('uixil lÌrslIl (r(),2tÌI
-
05315-970
rvww, irrx',rrsgr,lrr'/*ttoproest
-
c-mail: noproest@ime.usp.br
lÌ irt('(l iil llril/il l(X)4
lroi leito o rlt'1tr1silo lcgal
)'' "
Prefácio da 6s edição
Bste texto é fruto da nossa experiência de vários anos como professores clÕ
Departamento de Estatística do Instituto de Matentática e Estatística eln
Unìversidade de São Paulo. Nesse período, foram ministradas diversas disciplinns
lrírsicas de Estatística para cursos nas áreas de Ciências Humanas, Exatns e
Biológicas.
Buscamos enfatizar dois aspectos neste livro. O primeiro se refere $
rcpartir a Estatística Descritiva ao longo do texto, suavizando, assim, a transiçilo
pariÌ Probabilidade e Variáveis Aleatórias. Em geral, os alunos sentem o impacto
<le uma maior formalizaçáo e, muitas vezes, não conseguem estabelecer o elo clc
ligação entre essas partes. Um segundo interesse é transmitir a importância dn
colrputação na Estatística. Não atrelamos o texto a nenhum softvvare especíÍ:ico,
permitindo que o conhecimento computacional anterior dos estudantes pudesse ser
incorporado, minimizando o desgaste de um novo aprendizado. Ressaltamos qUe
vários software disponíveis no mercado podem ser utilizados. Os arquivos
mencionados no decorrer do livro estão disponíveis em www.ime.usp.br/-noproest
juntamente com outras informações de interesse'
O livro contém exercícios ao final de seções e capítulos. Os exercícios de
seção são mais diretos e visam a aplicação imediata dos conceitos discutidos. Ao
fim de cada capítulo, um considerável número de exercícios ajuda os estudante$ nll
fixação global das idéias apresentadas. Também são propostos exercícios ptlrn
serem desenvolvidos com a ajuda do computador. O principal objetivo desses
exercícios, é enfatizar as idéias estatísticas envolvidas e não a habilidncle
computacional. No Apêndice'8, "apresentamos as soluções comentadas dos
exercícios de séção e fornecemôs as respostas para os exercícios ímpares de fim de
capítulo.
Em relação à edição anterior, a sextâ edição apresenta pequenfls
rnodificações. Uma das figuras do Capítulo 7 foi mudadapara o Capítulo 6, locnl
que nos pareceu mais apropriado. Foram acrescentados exercícios em alguns
capítulos. Os erros em respostas, identificados até então, foram corrigidos,
Pequenas alterações de redação também foram feitas. As mudanças, em relaçãO tì
quinta edição, estão listadas no endereço Internet mencionado acima.
Ao longo das várias edigões, diversos colegas contribuiram com sugestões,
Entre eles destacamos Adilson Simonis, Cláudia Monteiro Peixoto, Clélia Tsloi,
Denise Botter, Elisabeti Kira, Elisete da Conceição Q. Aubin, Julio da Mottt
Singer, Lighia B. Horodynski-Matsushigue, Lúcia P. Barroso, Marli Mikael,
Nelson Tanaka, Rinaldo Artes e Silvia Ferrari. Maria Cecília Camargo MagalhÍies
vrt
vlu Prefácio
colnborou na revisão final da redação. A estudante Tatyana Maya Okano auxiliou
nn COrreção das respostas de vários exercícios. Apontamos, ainda, o recebimento
CJc vírrias mensagens eletrônicas com comentários e/ou sugestões. A todos que
Colnboraram, o nosso sincero muito obrigado. Agradecemos, ainda, aos alunos de
vÍlrias unidades da USP, que apontaram erros e deram sugestões. Finalmente,
gostaríamos de agradecer a Luís Ricardo Câmara, da ADUSP- Associação dos
Docentes da USP, pela diagramação das tabelas e auxílio na arte final de algumas
dns figuras apresentadas no texto.
Pedimos, desde já, desculpas pelos erros que serão eventualmente
identificados nesta nova edição. As críticas e sugestões de colegas e estudantes
gcrão muito bem-vindas e, certamente, auxiliarão na rnelhoria da próxima versão.
São Paulo, janeiro de2004
Marcos N. Magalhães e Antonio Carlos P. Lima
(marcos @ime.usp.br) (acarlos@ime.usp.br)
Conteúdo
ì
I
Â
ì'
'
Í
t"r
Conteúdo
Lista de Defïnições
2.r
2.2
2.3
2.4
3.r
3.2
3.3
3.4
3.5
3.6
3.7
3.8
4.1
4.2
4.3
4.4
4.5
5.1
5,2
.5.3
5.4
5.5
.5.(r
Probabilidade ......,........ .................... 38
Probabilidade condicional ............. ..................,,,42
Independência de eventos....... .........,44 .
Partição do espaço amostral ............46
Função discreta de probabilidade ...........
Função de distribuição de probabilidade ............63
Modelo Uniforme Discreto ........;.......... ..............68
Modelo Bernoulli ................... ......... 70
Modelo Binomial ................... ..........72
Modelo Geométrico ......78
Modelo Poisson ......,,,,,,79
Modelo Hipergeométrico ........... .....,82
Medidas de posição para um conjunto de dados .......,..,......,,94
Medidas de posição para variáveis aleatórias discretas ........................... 98Amplitude de uma variável em um conjunto de dados ....,.. 103
Variância e desvio-padrão em um conjunto de dados ......... 104
Variância de uma variável aleatória discreta ....109
Função de probabilidade conjunta ............... ..,..128
Probabi lidade condicional para variáveis aleatórias discretas ............... 137
Independência de variáveis aleatórias ..........,... 137
Correlação entre variáveis num conjunto de dados brutos ...........,.......,. l4l
Covariância de duas variáveis aleatórias .........,147
Correlaçiro entre variáveis aleatórias ................. ................,.149
..t-,
xu Lista de Definições
Função densidade de probabilidade ........... ...... 168
Medidas de posição paravariâveis aleatórias contínuas .....I73
Variância paravariâveis aleatórias contínuas .....................1,73
Modelo Uniforme Contínuo ..........177
Modelo Exponencial ................. .....180
Modelo Normal
Parâmetro
Estimador e estimativa .................. 208
Vício ......... ..................213
Consistência ................ ...................213
Eficiência ....................216
6.1
6,2
6.3
6.4
6.5
6,6
7,1
7,2
7.3
7.4
7,5
Lista de Figuras
1.1
r.2
1.3
t.4
1.5
t.6
1.7
1.8
r.9
2,1
2.2
2.3
2.4
3.1.
3.2
3.3
3.4
3.5
3.6
5.1
5.2
5,3
.5.4
5,.5
População e amostra
Classificação de variáveis ....'..'....... ........"'."",.,', d
Exemplos de gráficos publicados na imprensa ..:'....."""""" l2 '
DiagramacircularparaavariávelToler.....'.'. .'.....'..""""""13
Gráfico de barras paÍa avariável Idade ......'.. ......."""':"""" 14
Histograma paraavariável Peso .'.'....'. .'..'.......'.15
Box-plot para o número de laranjas por caixa ...'........""""" 18
Box-plot para a variável Peso '.....'... ....'.....".'.....18
Box-plotda variável Peso para cada sexo .'.'......'."...'..'........ 19
Regra de adição de probabilidades .'....... ....'.,'..' 39
Regra do produto de probabilidades .'....... ....',,,,43
Árvore de probabilidades ......'.. ,...,.,45
Partição do espaço amostral (k : 6) .'....,""""" 46
Árvore de probabilidades - alterações no subsolo ...........'.,..60
Função de distribuição - doses de vacina ...........65
Modelo Uniforme Discreto [0, 10] .'...'...'.......,..,69
Gráfico de freqüências - natalidade em porcos .'."...'..'.........75
Modelo Geométrico (P: 0,0t) ..'.'7g
Modelo Poisson (À : 5) "..........."'.80
Independência de variáveis aleatórias '.....'.".."137
Valor esperado da soma de variáveis aleatórias ..'.'.'.':"'......"'.......'....'. 145
Valor esperado do produto e independôncia de variáveis aleatórias ..,..146
Correlação para conjuntos de dados (brutos) .'.'.'....'.". '.'....151
Covariância e correlação de variáveis aleatórias ..'............. l5l
xtu
rlv I'islu ilct liigrtnts
5,6 Variância da soma de duas variáveis aleatórias """"""""" 151
6,1 Densidade Uniforme Contínua ""' 178
6,2 Densidade Exponencial """"""""' """""""""'180
6,3 Densidade Normal ""' 183
6.4 Aproximação Normal para o Modelo Binomial """"""""' 189
6.5 Histogramas para valores simulados da Binomial """"""""""""""""' 190
7.l Efeito de n na distribuição amostral de X - N(10,I6/n) """"""""""22I
7.2 Efeito do tamanho da amostra sobre a distribuição de X """"" """"""224
8.1 Erros associados a testes de hipóteses """"""'248
8'2Representaçáográficadoserrosd'ep.,.'.....
S.3Representaçáogrâficadaregiãoderejeição-unilateral...,.250
8,4Representaçáogrâf\cadaregiãoderejeição-bilatera1
8.5 Função Poder """""""""' """"""'254
8,6 EtaPas de um teste de hiPóteses
8.7 Densidade ú- Student """"""""""'259
8.8 Nível descritivo unilateral """"""" """""""""264
8.9 Regiões desfavoráveis num teste bilateral com Hoi F : Fo """"""""'265
8. l0 Nível descritivo bilateral """""""' """""""""'266
8.1 I Densidade .Ïf e Região Crítica ""'27O
9.1
9.2
9.3
Cirsos na comparação de duas amostras """""""' """""""'295
Distribuição de Fisher- Snedecor """"""""""'317
Resíduos no modelo de regressão linear simples """"""""':""""""""'335
.qft
Lista de Tabelas
l .l lnformações de questionário estudantil - dados brutos """""'1
1.2 Tubela de freqüência para a variável Sexo """"" """""""""'
9
1,3 Tlbela de freqüência para a variável Idade ""'"" """"""""' 10
1,4 Tabela de freqüência para a variável Peso """"" """""""""
1 I
L5 TabeladefreqüênciaparaavariávelTV""""""' """"""""'1l
4,1 Meclidas de tendência central """"
100
4,2 Medidas de dispersão """""""""" 1 11
4,3 Propriedades da média e da variância """""""' """""""""
1 11
4,4 Modelos discretos- valor esperado e variância """"""""""""""""""" I
l3
6, I Modelos contínuos- valor esperado e variância """"""""""""""""""' 187
7,l Estimadores para média' proporção e variância """''"""""211
1 ,2 Intervalos de confianç apaÏa p e p """"" """"'234
9,I Comparação de médias para duas populações """"""""""309
g,2 Tnbela de Análise de Variância (ANOVA) ""' 326
i
I
Capítulo L
Introdução à Análise Exploratôria de Dados
t.1 O que é Estatística?
Neste capítulo, pretendemos formalizar alguns conceitos que constitucrn tt
base de técnicas desenvolvidas com a finalidade de auxiliar a responder, de I'ortrtit
objetiva e segura, situações que envolvem uma grande quantidadc dc
irrformações. A utilização dessas técnicas, destinadas à análise de situitçõcs
complexas ou não, tem aumentado efaz parte de nosso cotidiano. Tome-sc' pof
cxemplo, as transmissões esportivas. Em jogos de futebol, o número cle
cscanteios, o número de faltas cometidas e o tempo de posse de bola são daclos
geralmente fornecidos ao telespectador e fazem com que as conclusões sobre qunl
time foi o melhor em campo, se tornem objetivas (não que isso impliqlle que
tcnlra sido o vencedor...). O que tem levado a essa quantificação de nossas viclus
no dia a dia? Um fator importante é a populatizaçáo dos computadores. No
passado, tratar uma grande massa de números era uma tarefa custosa e cansativtt,
que exigia horas de trabalho tedioso. Recentemente, no entanto, grnnCle
quantidade de informações pode ser analisada rapidamente com um computudor
pessoal e pfogramas adequados. Desta forma, o computador contribui,
positivamente, na difusão e uso de métodos estatísticos. Por outro lado, o
computador possibilita uma automação que pode levar um indivíduo serÌ prepilro
específico a:utilizar técnicas inadequadas para resolver um dado problema. Assitrt,
é necessário a compreensão dos conceitos básicos da Estatística, bem como 0s
suposições necessárias para o seu uso de forma criteriosa. Entendemos it
Estatística como um conjunto de técnicas que permite, de forma sistemátictt,
organizar, descrever, analisar e interpretat dados oriundos de estudos tltt
experimentos, realizados em qualquer ârea do conhecimento- Estatrtos
denominando por dados um (ou mais) conjunto de valores, numéricos ou nito. A
aplicabilidade das técnicas a serem discutidas se dá nas mais variadas árels tln
atividade humana.
A grosso modo podemos dividir a Estatística em três áreas:
o Estatística Descritiva
o Probabilidade
o Inferência Estatística
Capítulo 1: Introdução à Análise Exploratória de Dados
Estatística Descritiva é, em geral, utilizada na etapa inicial da análise,
cprlndo tomamos contato com os dados pela primeira vez. Objetivando tirar
conclusões de modo informal e direto, a maneira mais simples seria a observação
tlos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados,
lrcrcebemos, imediatamente, que a tarefa pode não ser simples. Para tentar
depreender dos dados informações a respeito do fenômeno sob estudo, é preciso
irplicar alguma técnica que nos permita resumir a informação daquele particular
conjunto de valores. Em outras palavras, a estatística descritiva pode ser definida
cotììo urn conjunto de técnicas destinadas a descrever e resumir os dados, afim de
quc possamos tirar conclusões a respeito de características de interesse.
Probabilidade pode ser pensada.como a teoria matemática utilizada para
sc cstudarr a incerteza oriunda de fenômenos de caráter aleatório. Apesar de ser
urrrn írrea extremamente atraente e estudada do ponto de vista matemático,
abordaremos, aqui, apenas os aspectos necessários para as técnicas estatísticas
irprcsentadas neste livro.
Inferência Estatística é o estudo de técnicas que possibilitam a
cxtrapolação, a um grande conjunto de dados, das informações e conclusões
obtidas a partir de subconjuntos de valores, usualmente de dimensão muito
ffìenor. Deve ser notado que, se tivermos acesso a todos os elementos que
clesejamos estudar, não é necessário o uso das técnicas de inferência estatística.
Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a
todo o conjunto de dados, por razões de natureza econômica, ética ou física.
Estudos complexos que envolvem o tratamento estatístico dos dados,
tusnalrnente, incluem as três áreas mencionadas acima. Na terminologia estatística,
o grande conjunto de dados que contém a característica que temos interesse
reccbc o nome de população. Esse termo refere-se não somente a uma coleção de
inclivícluos, mas também ao alvo sobre o qual reside nosso interesse. Assim, nossa
populnçiro pode ser tanto todos os habitantes de Sorocaba, como todas as
lârnpaclas produzidas por uma fátbrica em um certo período de tempo, ou todo o
sarìgue no corpo de uma pessoa. Algumas vezes podemos acessar toda a
po;lulação para estudarmos características de interesse, mas, em muitas situações,
tal llroccciirnento não pode ser realizado. Em geral, razões econômicas são as mais
clctclrninantes dessas situações. Por exemplo, uma empresa, usualmente, não
dispõo clc vcrba suficiente para saber o que pensam todos os consumidores de
scus proclutos. Hir ainda razões éticas, quando, por exemplo, os experimentos de
lttlornttilio cnvolvem o uso de seres vivos. Além disso, existem casos em que a
irnpossillilitltclc clc sc accssárr toda a população de interesse é incontomável. Na
tndlisc rlo sirngr"rc cle unra pessoiÌ ou em um experimento para determinar o tempo
l.lOqueéEstatística?
cle funcionamento das lâmpadas produzidas por uma indústria, não podemOS
observar toda população de interesse.
Tendo em vista as dificuldades de várias naturezas para se observal todos
os elementos da população, tomaremos alguns deles para formar um grupo iì Ser
cstudado. Este subconjunto da população, em geral com dimensão sensivelmentC
rrìenor, é denominado amostra. A Figura 1.1 ilustra as etapas da anólige
cstatística.
Amostra
w
Figura 1.1: População e amostra.
A seleção da amostra pode ser feita de várias maneiras, dependendo, entre
()lrlr'os Íhtores, do grau de conhecimento que temos da população, da quantidade
rlc rccursos disponíveis e assim por diante. Devemos ressaltar que, em princípio, A
sr:lcçiro da amostra tenta fornecer um subconjunto de valores o mais pareciclo
possívcl com a população que lhe dá origem. A amostragem mais usada é a
(rtt!o,\lru r:ustral simples, em que selecionamos ao acaso, com olt sem reposiç:âo, os
ilcrrs da população que farão parte da amostra.
Eventualmente, se tivermos informações adicionais a respeito cltt
lrrrlrrrlirçlio de interesse, podemos utilizar outros esquemas de amostragem muis
soÍ'isticuclos. Por exemplo, se numa cidade, tivermos mais mulheres do clue
111y111çlrs, podernos selecionar um certo número de indivíduos entre as'mulheres e
outl'o núnrero entre os homens. Esse procedimento é conhecido colno
(tt,toslt'o!:ct"tt. astraíificada. Outras vezes, pode existir uma relação numeradl dOS
Capítulo I: Introdução à Análise Exploratória de Dados
itens da populagão (uma lista de referência) que nos permitiria utilizar a chamada
1mostragem sistemática em que selecionamos os indivíduos de forma pré-
determinada, por exemplo de 8 em 8 ou de 10 em 10. Outros esquemas de
ilmostragem poderiam ser citados e todos fazem parte da chamada Teoria da
Amostragem, cujos detalhes não serão aprofundados neste livro. Assim sendo,
terminamos esta seção mencionando que quanto mais complexa for a amostragem'
maiores cuidados deverão ser tomados nas análises estatísticas utilizadas; em
contrapartida, o uso de esquemas de amostragem mais elaborados pode levar a
uma diminuição no tamanho de amostra necessário para uma dada precisão.
Exercícios da Seção 1.L:
1. Classifique em verdadeiro ou falso as seguintes afirmações:
a. Estatística é um conjunto de técnicas destinadas aorganizar um conjunto de
valores numéricos.
b. Sempre que estivermos trabalhando com números, deveremos utilizar a
Inferência Estatística.
c. A Estatística Descritiva fornece uma maneira adequada de tratar um
conjunto de valores, numéricos ou não, com a finalidade de conhecermos o
fenômeno de interesse.
d. Qualquer amostra representa, de forma adequada, uma população.
e. As técnicas estatísticas não são adequadas para casos que envolvam
experimentos destrutivos como, por exemplo, queima de equipamentos,
destruição de corpos de provas, etc.
2, Para as situações descritas a seguir, identifique a população e a amostfa
correspondente. Discuta a validade do processo.de inferência estatística para
cada um dos casos.
a. Para avaliar a eficá'cia de uma campanha de vacinação no Estado de São
Paulo, 200 mães de recém-nascidos, durante o primeiro semestre de um
dado ano e em uma dada maternidade em São Paulo, foram entrevistadas a
respeito da última vez em que vacinaram seus.filhos.
b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.
c. Para verificar a audiência de um programa de TV, 563 indivíduos foram
entrevistados por telefone com relação ao canal em que estavam
sintonizados.
d. A fim de avaliar a intenção de voto para presidente dos brasileiros, 122
pessoas foram entrevistadas em Brasília.
-"--qt
1.2 Organização de Dados
3. Discuta, para cadaum dos casos abaixo, os cuidados que precisam ser tomadOa
para garantir uma boa conclusão a partir da amostra.
a. Um grupo de crianças será escolhido para receber uma nova vacina contra
meningite.
b. Sorteamos um certo número de donas de casa, para testar um novo sabEO en
pó.
c. Uma fâbrica deseja saber se sua produção de biscoitos está com o ssbof
previsto.
d. Aceitação popular de um certo projeto do governo.
1.2 Organização de Dados
Nesta seção, discutiremos alguns procedimentos que podem ser utilizados
pnrt organizar e descrever um conjunto de dados, seja em uma populaçãO OU em
ulìB omostra. Veremos como conceitos relacionados à Teoria das Probabilidades
11pnrecem naturalmente, levando-nos, assim, a uma exposição maiS criteriosa dO
Rssullto.
A questão inicial é: dado um conjunto de dados, como "tratar" os vttlofeE,
nurnéricos ou não, a fim de se extrair informações a respeito de uma ou mAlC
elllctcrísticas de interesse? Basicamente, faremos uso de tabelas de freqüênclas e
grc'('icos, notando que tais procedimentos devem levar em conta a natUreZ& dOÊ
dnelos,
Suponha, por exemplo, que um questionário foi aplicado aos alunog do
prirneiro ano de uma escola fornecendo as seguintes informações:
Id: identificação do aluno
Turma: turma a que o aluno foi alocado (A ou B)
Scxo: F se feminino, M se masculino
Iclade: idade em anos
Alt: altura em metros
Peso: peso em quilogramas
lìilhos: número de filhos na famíli'a
Ílumn: hábito de fumar, sim ou não
Toler: tolerância ao cigarro:
(I) indif'erente, (P) incomoda pouco e (M) incomoda muito
Capítulo I: Introdução à Análise Exploratória de Dados
Exerc: horas de atividade física, por semana
Cine: número de vezes em que vai ao cinema por semana
OpCine: opinião a respeito das salas de cinema na cidade:
(B) regular a boa e (M) muito boa
TV: horas gastas assistindo TV, por semana
OpTV: opinião a respeito da qualidade da programaçãona TV:
(R) ruim, (M) média, (B) boa e (N) não sabe
O conjunto de informações disponíveis, após a tabulação do questionário
ou pesquisa de campo, é denominado de tabela de dados brutos e contém os
daclos da maneira que foram coletados inicialmente. Os valores obtidos para cada
uma dessas informações estão apresentados na Tabela 1.1. Cada uma das
Características perguntadas aos alunos, tais como o peso, a idade e a altura, entre
outras, é denominada de variável. Assim, a variável Altura assume os valores
(em metros) 1,60; 1,58;... e a variável Turma assume os valores Á ou B.
Claramente tais variáveis têm naturezas diferentes no que tange aos possíveis
valores que podem assumir. Tal fato deve ser levado em conta nas análises e, para
fixar idéias, vamos considerar dois grandes tipos de'variáveis: numéricas e não
numéricas. As numéricas serão denominadas quantitativas, ao passo que as não
numéricas, qualitativ as.
A variável é qualitativa quando os possíveis valores que assume
representam atributos e/ou qualidades. Se tais variáveis têm uma ordenação
natural, indicando intensidades crescentes de realizaçáo, então elas serão
ctassificadas como qualitativas ordinais. Caso contrário, quando não é possível
estabelecer uma ordem natural entre seus valores, elas são classificadas como
qualitativas nominais. Variáveis tais como Turma (A ou B), Sexo (feminino ou
masculino) e Fuma (sim ou não) são variáveis qualitativas nominais. Por outro
lndo, variáveis como Tamanho (pequeno, médio ou grande), Classe Social (baixa,
rnódia ou alta) são variáveis qualitativas ordinais.
Variáveis quantitativas, isto é, variáveis de natureza numérica, podem ser
subdivididas em discretas e contínuas. A grosso modo, variáveis quantitativas
discretas podem ser vistas como resultantes de contagens, assumindo assim, em
geral, valores inteiros. De uma maneira mais formal, o conjunto dos valores
assumidos é finito ou enumerâvel. Jâ as variáveis quantitativas contínuas
assumem valores em intervalos dos números reais e, geralmente, são provenientes
de uma mensuração. Por exemplo, Número de Irmãos (0, I,2, ...) e Número de
Def'eitos (0, 1,2,.,.) são discretas, enquanto que Peso e Altura são quantitativas
contÍnufls.
.
-Edl
71.2 Organização de Dados
Tabela 1,1: Informações de questiondrio estudantil - dados brutos,
.[d Turma Sexo Idade AIt Peso Filh Fuma Toler Exer Cine Opcine TV OpTV
1.AF2AF3AM4AM
5AF6AM
7\FBAF9ÀF
IOAF11 À F12 A F13 A F
T4AM15AF
16AFLTAF1g À M
19 A F30 A F
11 A F22ÀF33 À F24AF
25 A FB6 A F.3'/ B F3E B F
39 B F30 E F31 B F
3ã E Mã3 B F34 ll F
1E li M
16 t! Ir1't 11 MãË t1 M19 11 1,'4r.) B M
41 t] F
4ã Fr F'41 HM44DF4F F F4€ E TI
478Iil4E H FéS H Mh0 11 M
L,60 60 ,5 2
1,69 55,0 1
L,85 12,8 2
l-, 85 80, 9 2
1", s8 55, 0 l-
1_,76 60,0 3
1,60 58.0 1
L,64 41,0 3-
L,62 57,8 3
t,64 58,0 2
r,72 70,0 L
L,66 54,0 3
L,70 58,0 2
1, 78 68, 5 l-
1,65 63,5 l-
7,63 47 ,4 3
1.,82 66 ,0 r
1-,80 85,2 2
1,,60 54,5 t
L,68 52,5 3
1.,70 60,0 2
1,65 58,5 1
1,57 49 ,2 1
L,55 48,0 1
1.,69 57,6 2
L,54 51,0 2
L,62 63 ,0 2
L,62 52,0 1
L,57 49,0 2
t,65 59,0 4
t,6L 52,0 1-
L,71. 73 ,0 Lt,65 56,0 3
r,67 58,0 L
1",73 87,0 r
r,60 47,0 t
1,70 95,0 1
L,85 84,0 1
1,70 60,0 1
1,73 '73 ,0 1
1,70 55,0 1
1,45 44,0 2
I,76 75,0 2
1,68 55,0 1
1,55 49,0 1
1,70 50,0 7
1,5s 54,5 2
r., 60 50, 0 I
L,8o 71,o 1
1,83 86,0 L
NAO P
NAO M
NAO P
NAO P
NAO M
NAO M
NAO P
SIM I
NAO M
NAO M
SIM I
NAO M
NAO M
SIM I
NAO I
NAO P
NAO P
NAO P
NAO P
NAO M
NAO P
NAO M
SfM I
SIM T
NAO P
NAO I
NAO M
NAO P
NAO P
NAO M
NAO P
NAO P
NAO M
NAO M
NAO M
NAO P
NAO P
SIM T
NAO P
NAO M
NAO f
NAO M
NAO I
NAO P
NAO M
NAO M
NAO M
NAO P
NAO P
NAO P
81.6R
B7R
M1.5R
B20R
B5R
13 Z .b{
B7R
MlOR
M1-2R
MlOR
B8N
BOR
M 30 R
M2N
BlOR
B18R
BlON
BlOR
B5R
B14M
B5R
B5R
BlOR
M 28 R
M4N
B5R
M5R
MlOR
BL2R
M2R
M6N
B 20 R
BL4R
BlOR
B25B
M14R
M12N
B],OR
BT2R
B2R
BlOB
B 25 R
M1.4N
B8R
MlOR
B8R
B3R
B5R
M1.4R
M 20 B
1,7
18
1,8
19
19
20
l-8
t_8
T7
l-8
18
a1
I9
18
t-9
L7
1"8
20
l_8
2L
18
L8
20)^
L9
z3
18
18
25
18
17
T7
L7
J.õ
18
77
2L
10
1A
L7
23
24
L8
18
L9
19
18
t7
1B
01-01
52
52
a1
3l-
22102026t5l_41-013134
11
1)
8203
5401
62821"13L12
221L
2142
7L
51
1-0 26452
4L54))
70
510101
432L
"t0
70
Capítulo I: Introdução à Anólise Exploraúrta de Dados
Resumimos a classificação das variáveis no esquema apresentado na
Figura I.2 (atítulo de exercício, tente classificar todas as variáveis da Tabela 1.1).
Nominal
-a"Qualitativa
' -.ordinal
Variável
\
--""-Discreta'Quantitativ u 1
.-,contínua
liSura
1.2: Classificação de varidveis.
Vale ressaltar que, em muitas situações práticas, a classificação depende
de certas particularidades. Por exemplo, a variável ldade, medida em número de
anOS, pode ser vista como discreta, entretanto, Se levarmos em conta os dias, não é
absurdo falar que a idade ê 2,5 ou 2,85 anos, dando assim respaldo para classificá-
la como contínua. Por outro lado, dependendo da precisão do instrumento
utilizado para se obter medidas em um objeto, podemos ter limitações no número
cle casas decimais e uma variável de mensuração pode se "tornar" discreta. E
importante salientar que a classificação apresentada acima se refere à natureza da
variável e, em geral, devemos utilizar o bom senso na hora de decidir qual
procedimento adotar para caracterizar uma variável. Para salientar tal fato,
menciOnamos que podemos, inclusive, discretizar uma variável contínua para
obter uma melhor representação da ocorrência de seus valores no conjunto de
dirclos.
Outro ponto que pode trazer confusão é que, muitas vezes, na utilização
Cle programas computacionais, associamos códigos numéricos a uma variável
qqalitativa. Por exemplo na Tabela 1.1, pode-se associar ao sexo feminino o valor
I e ao masculino 2. Apesar da variável ser representada por valores numéricos,
issO não a torna uma variável quantitativa. Novamente, vemos que a natureza da
vnriável deve sempre ser levada em conta na hora de se interpretar resultados
obtidos na análise descritiva.
I1.2 Organízação de Dados
Apesar de conter muita informaçáo, a tabela de dados brutos pode nãO Sef
prática pu.u r"rpondermos às questões de interesse. Por exemplo, da Tabela 1'1
rriro é imediato dizer se os alunos se incomodam muito ou pouco com Os
l'umantes. Porlanto, a partir da tabela de dados brutos, vamos construir UmO nOvtl
t1$ela com as informações resumidas, para cada variável. Essa tabela Sefd
clenominada de tabela de freqüência e, como o nome indica, conterá os valOfeg dA
virriável e suas respectivas contagens, as quais são denominadas freqüênelAEq
ttbsolutas ou simplesmente, freqüências. No caso de variáveis qualitativas OU
tprantitativas discretas, a tabela de freqüência consiste em listar os valorog
possíveis da variável, numéricos ou não e fazer a contagem na tabela de dadOg
lrrutos do número de suas ocorrências. Representaremos por n; a freqüência dq
vulor i e por ?? a freqüência total. Para efeito de comparação com outros grupOS
ou conjunìos de dadoi, será conveniente acrescentarmos uma coluna na tabela de
lì.oqüência contendo o cálculo da freqüência relativa, definida por fi = U/t\:,
Convém notar que, quando estivermos comparando dois grupos com relaçãO àS
freqiiências de ocorrência dos valores de uma dada variável, grupos cgm Um
número total de dados maior tendem a ter maiores freqüências de ocorrência dos
vtlores da variável. Desta forma, o uso da freqüência relativa vem resolver èBte
problema.
A Tabela 1.2 apresenta as freqüências para a variável Sexo, obtida a p0rtir
cln Tubela I .1.
Tabela 1.2: Tabela de freqüêncía para a variúvel Sexo.
Sexo n,i
.ït
F t t'7dí 0,74
M 13 0,26
total n:50 1
Note que, para variáveis cujos valores possuem ordenação n0tufel
(eluglitltivas ordinaise quantitativas em geral), faz sentido incluirmos também
urttrt coluna contendo asJreqüências acumuladas Ír,,'' Afreqüência acumulada at&
un1 cefto valor é obtida pela soma das freqüências de todos os valores da variúvel,
tncnorcs ou iguais ao vator considerado. Sua utilidade principal é ajudor o
estu$eleccr pontos de corte com uma determinada freqüência nos valores da
vurióvel. Poi exemplo, na Tabela t .3, observamos que 907o dos alunos tôm idadcs
rrté 2l unos, cle fato úé 22, umâ vez que este valor tem Í'reqiiência zero.
l0 Capítulo 1: Introdução à Análise Exploratória de Dados
Tabela 1.3: Tabela de freqüência para a varíável ldade,
Idade TLi
.ft .f o"
L7 9 0,18 0,18
18 22 0,44 0,62
19 I 0,L4 0,76
20 4 0,08 0,84
2L .1 0,06 0,90
22 0 0 0,90
ôtZJ 2 0,04 0,94
24 1 0,02 0,96
25 2 0,04 1,00
total n:50 1
Com relação à variável Peso, lembremos que foi classificada como
quantitativa contínua e assim, teoricamente, seus valores podem ser qualquer
número real num certo intervalo. Aqui os valores variam entre 44,0 e 95,0 kg e
foram medidos com apenas uma casa decimal. Ainda assim, existe um grande
número de valores diferentes de modo que, se a tabela de freqüência fosse feita
nos mesmos moldes dos casos anteriores, obteríamos praticamente os valores
originais da tabela de dados brutos. A alternativa que vamos adotar consiste em
construir classes ou faixas de valores e contar o número de ocorrências em cada
laixa. Para a variável Peso, usamos faixas de amplitude 10, iniciando em 40 kg.
Na Tabela 1.4, escolhemos incluir o extremo inferior e excluir o superior. Dessa
I'orma, a freqüência da faixa 40,0 F 50,0 não incluiu os alunos 46 e 48 que
tinham peso igual a 50,0 kg. A opção de qual extremo incluir pode ser arbitrátria,
n"ìos o importante é indicar claramente quais são os valores que estão sendo
conterdos em cada faixa.
Apesar de não adotarmos nenhuma regra formal quanto ao total de faixas,
utilizarnos, em geral, de 5 a 8 faixas com mesma amplitude. Entretanto,
ressaltamos que faixas de tamanho desigual podem ser convenientes para
representar valores nas extremidades da tabela.
L2 Organização de Dados
Tabela 1.4: Tabela de freqüêncía para a varídvel Peso.
Peso fl,4 lt. fo"
40,01-- 50,0 B 0,16 0,16
50,0 F 60,0 22 0,44 0,60
60,0 l-- 70,0 8 0,16 0,76
70,0 F 80,0 6 0,L2 0,BB
80,0 t-- 90,0 5 0,10 0,98
90,0 F 100,0 1 0',02 1,00
total 50 1
Vamos estudar, agora, a situação em que a variável é por natureza
cliscreta, mas o conjunto de possíveis valores é muito grande. Por exemplo, a
vflriável TV, definida como o número de horas assistindo televisão, tem valores
inteiros entre 0 e 30 e uma tabela representando seus valores e respectivas
Íieqüências seria muito extensa e pouco prática. O caminho adequado, nesse caso,
é trotar a variável como se fosse contínua e criar faixas para representar seus
vulores. Assim, passamos a tratar como contínua uma variável que seria,
originnlmente, classificada como discreta.
Tabela 1.5: Tabela de freqüência para a variável TV.
TV ni
.ft fu"
0F-6 L4 0,28 0,28
6- 12 t7 0,34 0,62
12- 18 11 0,22 0,84
18 t- 24 4 0,08 0,92
24l---136 4 0,08 1,00
total 50 1
A organização dos dados em tabelas de freqüência proporciona um meio
cl'icitz cle estudo do comportamento de características de interesse. Muitas vezes, tt
irríbrnração contida nas tabelas pode ser mais faci'lmente visualizada através dc
grírl'icos. Meios de comunicação apresentam, diariamente, gráficos das mais
vlriiÌdils formas para auxiliar na apresentação das informações. Órgãos públicos e
('nìprcsos sc municiom de grírficos e tabelas em documentos internos e relatórios
il
--- qFFF
t) Cttpftulrt l; hilnxluçiltt à Antilise ll.rplorutórfu dt l)urlt*
de atividades e desempenho. Graças à proliferação de recufsos gráficos, cuja
Cçnstrução tem sido cada vez mais simplificada em programas computacionais,
cxiste hoje uma infinidade de tipos de gráficos que podem ser utilizados' Como
ilustraçãõ deste ponto, apresentamos na Figura 1.3 alguns gráficos publicados em
írrgãos de imprensa.
EVOLUÇÃO DO LUCRO tiQÜIDO
U$$ MII"HÓES
LLiPLTO 8,9 12,ç t5,9
VALO|ìES A-IUATIZADOS NOS IüOIDES DA COR|ìEÇAO INÏEGRAI
CIìÉDIO RU|ìAT
RECURSOS PROPRIOS
No D[ C0NTRATCìS E[/ SIR = 22'l 0Ì
RECURSOS HUMANOS
DrsTRrBUrÇÂO POR ruívrL HtrnRRSUtCO
TSCR Ï
CAIMS
23,891
Figura 1.3: Exemplos de grdficos publicados na im'prensa'
Deve ser notado, entretanto, que a utilização de recursos visuais na
criação de gráficos deve ser f'eita cuidadosamente; um gráfico desproporcional em
suas medidãs pode dar falst impressão de desempenho e conduzir a conclusões
RECURSOS HUN/ANOS
DISIRISUÇÂO POR ESCOLARiDADE
tlse= I t
' ===
==
,=
== ==== == ==
l. GÍor 2Ô GÍou SuPeÍior
1,2 Organtzação de Dados
TF
Figura 7.4: Diagrama circalar pard ü varilúvel Toler'
ográficodebarrasut\|\zaoplanocartesianocomosvaloresdavariável
no eixo das abiissas e as freqüênciai ou porcentagens no eixo das ordenadas'
Note que píIia cada valor ãa variável desenha-se uma barra com altuf8
,nrr"rptnd"rrdo à sua freqüência ou porcentagem. Esse tipo de gráfico se adapta
rnelhoi às variáveis discretas ou qualitativas ordinais'
equivocodâír, Obviamente, questões de manipulação incorreta da informação
p,id.* ocorrer em qualqueí e,"7: nã: cabe culpar a Estatística' O uso e a
divulgação ética e criteriôra de dados devem ser pré-requisitos indispensáveis e
inegociárveis.
vamos definir três tipos básicos de gráficos: disco ou pizza, barras çt
li$t(,t4ruma. como dissemos, a criatividade na apresentação gráfica pode sef
inrerrsa e os gráficos que discutiremos sintetizam três caminhos, entre vários' de
representação.
o
'grâfico
de d.isco, otr pizza, ou ainda diagrama circular, se adapta muito
hem às variáveis qualitativas nominais. consiste em repartir um disco em setores
circularescorrespondentesàsporcentagensdecadlvalor,calculadas
rnnltiplicando-se por 100 a freqüêncìa relativã f6.Por exemplo, O,20 de freqüência
relativa
"o.r"rpond"
a207o o-ã u"' que 100 x 0'20:20' AFigura 1'4 apresenta
o cliagrama de disco para avariável Tol-er, obljd^a.a
.nartir
da Tabela 1.1. Note que
'
fntiir correspondentè à categoria "indiferente" foi destacada.
t4 Capítulo l: Introdução à Aruilise Exploratória de Dados
25
20
.g
co
e15
EL
10
5
0
18 le 20
,í1"
Fígura 1.5: Gráftco de barras para a varíável ldade.
O histograma consiste em retângulos contíguos com base nas faixas de
valores da variável e com área igual à freqüência relativa da respectiva faixa.
Dessa forma, a altura de cada retângulo é denominada densidade de freqüência oa
simplesmente densidade definida pelo quociente da âreapela amplitude da faixa.
Para a variável peso, as densidades de cada faixa podem ser obtidas dividindo-se a
coluna fi da Tabela 1.4 por 10, que é a amplitude de cada faixa. O histograma
correspondente a essa variável é apresentado na Figura 1.6. Note que incluímos,
no topo de cada retângulo, a porcentagem de observações correspondente, para
fìtci I itar a interpretação.
É importante ressaltar que alguns autores utilizam a freqüência absoluta
ou porcentagem na construção do histograma. Preferimos o uso da densidade de
Íì'eqüência, pois ela faz çom que o histograma não fique distorcido, quando
amplitudes diferentes são utilizadas nas faixas. Uma outra vantagem diz respeito à
relação entre histograma e gráfico da função densidade de probabilidade, que será
visto mais adiante.
O histograma também pode ser utilizado no cálculo da mediana (mdor,),
que é o valor da variável que divide o conjunto de dados ordenados em dois
subgrupos de mesmo tamanho, Isto é, das observações ordenadas, 507o estão
abaixo e 507o estão acima da mediana. Assumindo que as observações da variável
t51.2 Organização de Dados
em cada faixa são homogeneamente distribuídas, para um mesmo retângulo,fatias
de mesmo tamanho contém uma mesma porcentagem de observações. Apesar do
suposição de homogeneidade não ser sempre verificada, ela é bastante razoávol
em muitas situações e pode ser uma boa aproximação da realidade.
/-'t'
I40x {) 60 70 80 90 100
'
.?- Peso
Figura 1.6: Histograma para a variável Peso.
Exemplo 1.1.' Vamos calcular a mediana da variável Peso através do histogramÊ,
Inicialmente identificamos o retângulo que deve conter a mediana. Uma simplos
soma das áreas resulta que a mediana pertence ao intervalo [50,0; 60,0), uma vsz
eluc até o valor 60,0 temos acumuladas 607o das observações. Dentro dessa faixa,
precisamos determinar um retângulo com área igual a 34Vo, que é o que falta para
rrÍingir o valor 50Vo. A situação é ilustrada na figura a seguir, cujo retângulo
procurado está marcado com área mais escura.
Com uso de proporções, estabelecemos a seguinte igualdade:
mdor,,
-
50
_
60
-
50 lo
0,34 0,44
f;,li4 .,t. - JJ-' i,!t
r ) ,
rtlt
rn , 1í-, ,lr,
-,-'ì
YÍ ,I''
\r
$ru' t;
t6 Capítulo 1: Introdução à AnáIise Exploratória de Dados
q)
E 0,05p
a
(Do
o,o+
0,03
o,o2
0,01
0,0
Daí segue qtte mdo6, : 57,73kg. tr
O conceito de mediana, que será considerado ern detalhes no Capítulo 4'
pode ser generalizado para situações em que o conjunto de dados é dividido em
mais do q:ue dois subgrupos' Um caso importante é aquele
-em
que dividimos o
conjunto em quatro iubg*pot. Para tanto, deveremos determinar' além da
rn"ãiunu, dois valores tais quã 25Vo das observações ordenadas estarão abaixo de
um deles e 75Vo estarão abaixo do outro' Tais valores são denominados'
respectivamente, primeiro quartil e terceiro quartil, Usualmente representados
poi 8r e Q3. Note que a mediana, discutida anteriormerrte, representa o segundo
q""ríii. O cálculo ãos valores dos quartis também pode ser feito através do
histograma, conforme mostrado no exemplo a seguir.
Exemplo 1.2; No Exemplo 1.1, o valor da mediana (segUndo quartil) calculado
atravéì do histogram u, é 57,73 kg. De forma semelhante, vemos que o valor do
primeiro quartii também se encontra no intervalo [50,0; 60,0)' isto é'
correrpondãrâ ao valor 8r que determinará uma âtea de 9Vo no retângulo
correspondente. Assim, temos (ver figura a seguir)
Q^=
=-!o :
*=
'
lo + Qt:52,,05kg'0,09 0,44
mdot,
"r'qr
1.2 Organização de Dados I7
6r,'6Ò
''
C,t\ í:
.,,'60-
'--'^ú
',r"r''",'4'
60
Peso
l)c I'orma semelhante, obtemos para o terceiro quartil Qs : 69,38 kg. tr
Para o cálculo de quartis e medianas usando a tabela de dados brutos,
prccisamos ordenar as observações e escolher os valores que dividem os dados
nits proporções desejadas. Eventualmente, será necessário tomar médias de
vulores vizinhos. No caso de tabelas de freqüências, os dadosjá estão ordenadoË Ê
ru procedimento é similar.
Uma representação grâfica envolvendo os quartis ê o box-plot Definimoa,
ul'nn "caixa" com o nível superior dado pelo terceiro quartil e o nível inferior pelo
plirneiro quartil. A mediana é representada por um traço no interior da caixa o
seglÌlcntos de reta são colocados da caixa até os valores máximo e mínimo, que
rrÍlo scjam observações discrepantes (o critério para decidir se uma observaçãío é
tliscrcpante não será discutido aqui, mas, em geral, envolve a diferença entre o
tercciro e o primeiro quartis)- O próximo exemplo ilustra a construção do box-plot
pnrt uma variável quantitativa discreta utilizando-se os dados brutos.
Ilwtttplo 1.3.' Suponha que um produtor de laranjas costuma guardar as frutns cm
cuixus c estír interessado em estudar o número de laranjas por caixa. Após um dia
rle colhcita, 20 caixas foram contadas. Os resultados brutos, após a ordennção,
silo: 22, 29, 33, 35, 35, 37, 38, 43, 43, 44y 48, 48, 52, 53, 55, 57, 61, 62, 67 e 69,
lÌrrrr osses dados, temos qüe md,,6, ilfOo+ 11s) l2 : (44+48) 12 = 46,
Annlogarnente, obtemos Qr : 36 e Qs :56. Também observamos que o número
r(-
511,,\ ''i
50
Qt
\,i',, I r(. ,
18 Capítulo 1: Introdução à Análise Exploratória de Dados
mínimo de laranjas em uma caixa é' 22 e
correspondente é apresentado na Figura 1'7'
o número máximo, 69. O box-Plot
60
3soe
E
J
40
30
20
Figara 1.7. Box'plot para o número de laranjas por caixa'
A representaçáo grá,fica através do box-plot é bastante rica no sentido de
informar, entre outras coisas, a variabilidade e simetria dos dados' Note'que na
Figura 1.7 os dados apresentam simetria acentuada (a distância da mediana para
os"quartis é a mesma), o mesmo podendo ser observâdo a respeito da distância dos
ponìo, de mínimo e máximo em relação à mediana. Em contraste, temos na Figura
i.A o box-ptot paraa variável Peso, que apresenta uma pecluena assimetria.
o3toL
60
50
40
'100
90
80
Figura 1.8: Box-plot para a varidvel Peso.
l,.l ()rganização de Dados
Gráficos tipo box-plol também são úteis para detectar, descritivamentc,
rliÍirl'crrças nos comportamentos de grupos de variáveis. Por exemplo, poclemos
tturrsitlornr gráficos da variável Peso para cada sexo. O resultado é apresentado nn
l'jigrrlir 1,9, em que podemos notar que os homens apresentam peso mediano
atrllet'iur ito das mulheres, além de uma maior variabilidade'
60
50
40
I
I
I
F
Sexo
Irigura 1.9: Box'plot da variável Peso para cada sexo,
llxerr'Íclos tll Scção 1.2:
l, tlllssil'ique cacla uma das variáveis abaixo em qualitativa (nominal / ordinal) ott
rltmnl il rt i vil (cliscreta / contínua):
$. Ocorrêlrcia de hipertensão pré-natal em grávidas com mais de 35 anos (sütl
tttrttílrtsf,opossíveisrespostasparaestavariável). l' ", t;t/ìtitt( i ,,r r
h, Inlelrçiio clo voto para presidente (possíveis respdstas são os nomes dos
ctttttlitlitrtts,alémde não sei).''',,,t11 )1' t t'r, " (
C. l,r't'rhì rlc pcso de maratonistas ná Corrida de São Silvestre, em quilos. 'tl,\ttì, 1'l
rl, lrrlr.rrsirlnrlc clt perda de peso de maratonistas na Corrida de São Silvcstre
(lt'Ve, tttoclCrilCla, fOrte). -" ' 1t ( r/ ç/ l1 't.\ l;rtJ' '
ë, (lrrrrr rle satisÍ'açiro cla população brasileira com relaçãro ao trabalho cle seu
presirlerrte (vnlores de 0 a 5, com 0 indicando totalmente insatisÍ'eito e 5
lrtlttltnettlc satisl'eito). i,,t tt! t (l' r/lr'l I , ,,1,',' ,
l, {Jrrirrzt pncientcs clc unra ólírrica de ortopcdia foram entrevistados quânto ito
nrÌnrr'r'rì rk: r'ttcscs prcvistos cle I'isiotcrapin, se haverá (S) ou niro (N) secltlelus
t9
100
90
80
oEnÍ!
I
M
20 Capítulo I: Introdução à Análise Exploratória de Dados
após o tratamento e o grau de complexidade da cirurgia realizada: alto (A),
médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo:
a. Classifique cada uma das variáveis.
b. Para cadavariâvel, construa a tabela de freqüência e faça uma representação
grâlica.
c. Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de
barras para a variável Fisioterapia. Você acha que essa variável se comporta
de modo diferente nesse grupo?
3. Os dados abaixo referem-se ao salário (em salários mínimos) de 20
funcionários administrativos em uma indústria.
a. Construa uma tabela de freqüência agrupando os dados em intervalos de
amplitude 2 apartir de l.
Ìr. Construa o histograma e calculo o 1e e o 3e quartil.
4. Um grupo de estudantes do ensino médio foi submetido a
matemática resultando em:
Nota freqüência
0F-2 L4
2+4 28
4-6 27
6FB 11
8F10 4
a. Construa o histograma.
b. Se a nota mínima para aprovaçã,o é 5, qual será a porcentagem de
aprovação?
c. Obtenha o box-plot.
Um estudo pretende verificar se o problema da,desnutrição em adultos medida
pelo peso, em quilos, em uma região agrícola (denotada por Região A), é maior
um teste de
[a ,.r'
5.
Pacientes 2 3 4 5 6 7 8 9 10 ll t2 l3 I4 I
Fisioterapia 7 8 5 4 5 7 7 6 8 6 5 5 4 5
Seqüelass S .N: ,N) N S s N N' S S rN S N N)
Cirurgia A M A M M B A M B M ts ts M M A
10,1 ntltú 8,5 5,0 412 3,1 ))
-
)- 9,0 914 6,1
ttJr9 10,7 1,5 8;2 10,0 4,7 315 6,5 8,9 6,1
'.qt
2t1.3 O Uso de Computadares em Estatística
do que em uma região industrial (Região B). Para tanto, uma amostrâ
tomada em cada região, fornecendo a tabela de freqüências a seguir:
Região B
Peso ni
<60 10
60F70 34
TOFBO 109
BOF90 111
>90 55
total 319
a. Os dados apresentados sugerem que o grau de desnutrição é diferente nas
duas regiões? (Note que o total de observações difere em cada região).
b. Construa, apartir dos dados das tabelas, um histograma para cada regiã0,
Faça uma suposição conveniente para as faixas não delimitadas.
c. Com base nos histogramas apresentados em (b), obtenha as medidas
necessárias e construa o box-plot, um para cada região. Com base nessa
representação gráfica, rediscuta o item (a).
1.3 O Uso de Computadores em Estatística
Foi mencionado anteriormente que o desenvolvimento da indústrirr de
computadores deu grande impulso ao uso da Estatística. Vários progrumes
computacionais de uso comum contém rotinas estatísticas incorporadas às suas
funções básicas. É o caso das planilhas eletrônicas, usualmente pié-instaladas em
computadores novos. Programas especificamente desenvolvidos para efetuar
análises estatísticas são conhecidos como pacotes estatísticos. Existe um número
considerável desses pacotes, alguns voltados para análises mais comuns na dretl
de humanidades, outros para a área de biomédicas; alguns são extremamente
simples de se utilizar através de menus, outros pressupõem conhecimento de uma
linguagem de programação específica. Qualquer que seja o programa a ser
utilizado, três são as etapas que envolvem seu uso:
1 Entrada de Dados
2. Execução da Análise Estatística
3. Interpretação de Resultados
A Entrada de Dados deve assumir certas convenções. Apesar de certos
programas terem rotinas desenvolvidas de forma a simplificar a criação do banco
foi
(,1,
22 Capítulo 1: Introdução à Análise Explqratória de Dados
de dados, intrinsecamente o que se temê a criação de uma matriz, em que cada
linha corresponde a uma unidade experimental e cada coluna a uma variável.
Por unidade experimental, entende-se o elemento da população ou
amostra no qual observaremos as variáveis. Por exemplo, na Tabela 1.1,
observamos 50 unidades experimentais, os estudantes, nos quais foram
observadas 14 variâveis. Assim, os dados podem ser representados por uma
matriz com dimensão 50 por 14. Leitores familiares com planilhas eletrônicas
não terão problema em visualizar esta situação. Assim, quando estudamos uma
única variâvel, consideramos a coluna correspondente. Se estamos interessados
em saber o comportamento desta variável em dois grupos diferentes (como na
Figura 1.9), precisamos estudar os valores da coluna em que ela se encontra,
conjuntamente com a coluna que contém a informação dos grupos'
A fase da execução da análise estatística pressupõe o conhecimento de
como o programa que está sendo utilizado trabalha as informações. Torna-se,
assim, importante se ter acesso ao manual do programa'
Após as informações terem sido trabalhadas, vem a fase da interpretação
dos resultados obtidos. Nesta hora, é aconselhável consultar o manual sempre que
houver dúvida, se o que foi calculado relaciona-se, de fato, à análise estatística
desejada. Ao interpretar as características observadas, é importante verificar se
resultados absurdos não estão ocorrendo. Em caso positivo, releia o manual e
certifique-se de ter executado a análise correta para os dados em questão. Em
muitos casos, a fase de interpretaçáo é a mais difícil e interessante, pois envolve o
equacionamento das características apresentadas na análise com vistas a
responder as questões inicialmente colocadas'
Exercícios da Seção 1.3:
l. Utilizando alguma planilha eletrônica ou pacote estatístico disponível e com as
informações da Tabela 1.1, construa um banco de dados para os 20 indivíduos
iniciais e as 4 primeiras colunas. Imprima e confira os valores digitados.
2. Considerando o banco de dados criado no Exercício 1 desta seção, construa
histogramas para as quatro variáveis e, baseado no gráfico, descreva os seus
comportamentos.
3. Considerando o banco de dados criado no Exercício I desta seção, divida a
idade em três categorias (menores de 18 anos, idade entre 18 e 21 inclusive, e
maiores de 2l anos). Construa gráficos de barra para essa variável, incluindo
toclos os indivíduos e um para cada sexo. Interprete os resultados obtidos.
1.4 Exercícios
1".4 Exercícios
1. Responda certo ou errado, justificando:
a. Suponha duas amostras colhidas de uma mesma população, sendo uma de
tamanho 100 e outra de tamanho 200. Então, a amostra de tamanho maior é
mais representativa da população. F
b. Duas variáveis diferentes podem apresentar histogramas idênticos' I
c. Duas variáveis combox-plol iguais não podem ter valores diferentes' Fj
2. Suponha que duas empresas desejam empregá-lo e após considerar âs
uuntug"n. de cada uma, você vai escôher aqoelá que lhe pãgar melhor' Após
certa pesquisa, você consegue a distribuição de salário das errÍpresas, dadas
segundo os gráficos abaixo.
5101520253035404550
Sãlários Mínimos
Com base nas informações de cada gráfico, qual seria sua decisão?
3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo
indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre
ônibus, metro e trem, o número de diferentes meios de transporte utilizados foi
oseguinte:2,3,2, 1,2, 1,2, 1,2,3,I,1,1,2,2,3,1,1, 1,I,2, I, 1,2,2, 1,2,
1,2 e 3.
a. Organize uma tabela de freqüência.
b. Faça uma representação grâfica.
c. Admitindo que essa amostra represente bem o comportamento do usuário
paulistano, você acha que a porcentagem dos usuários que utilizam mais de
um tipo de transporte é grande?
4. A idade dos 20 ingressantes num certo ano no curso de pós-graduação em
jornalismo de uma universidade foi o seguinte: 22,22,22,22,23,23,24,24,
24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40.
23
EmpÍesa A Empresa B
24 Capítulo l: Introdução à Análise Exploratória de Dados
a. Apresente os dados em uma tabela de freqüência, incluindo a freqüência
relativa.
b. Idades atípicas parecem ter ocorrido nesse ano. Após sua retirada do
conjunto de dados, refaça o item (a). Comente as diferenças encontradas.
Um novo medicamento para cicatrizaçáo está sendo testado e um experimento é
feito para estudar o tempo (em dias) de completo fechamento em cortes
provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores:
15,17,16, 15, \7, 14,17, 16, 16,17,15, 18, 14,17, 15, 14,15,16,17, 18, 18,
17, 15, 16, 14,18, 18, 16, 15 e 14.
a. Organize uma tabela de freqüência.
b. Que porcentagem das observações estão abaixo de 16 dias?
c. Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e
como lenta as demais. Faça um diagrama circular indicando as
porcentagens para cada classificação.
O Posto de Saúde de um certo bairro mantém um arquivo com o número de
crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4,
3, 4, 5, r, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5,5, 5, 5, 6, ll, r0, 2, l, 2, 3, r, 5 e 2.
a. Organize uma tabela de freqüência.
b. Faça uma representação grâfica.
c. Você identifica valores nruito discrepantes? Que fazer com eles?
Um questionário foi aplicado aos dez funcionários do setor de contabilidade de
uma empresa fornecendo os dados apresentados na tabela.
Funcionário Curso (completo) Idade Salário (R$) Anos de Empresa
supenor oÁ 1100,00 5
2 superior 43 1450,00 8
3 médio 31 960,00 6
4 médio dl 960,00 8
5 médio 24 600,00
6 médio 25 600,00 2
1 médio 27 600,00 5
8 médio 22 450,00 2
9 fundamental 2l 450,00 J
10 fundamental 26 450,00 J
a. Classifique cada uma das variáveis.
b.Faça uma representação gráfica para zì variírvel Curso.
c. Discuta a melhor forma de construir a tabela de I'reqiiência para a vitriiivcl
Idade. Construa uma representação griiÍ'ica,
6.
I -l li rrt t:ícios
rl, l{cpita o item (c) para a variável Salário.
r,. (lonsiderando apenas os funcionários com mais de três anos clc clsn,
tlcscreva o comportamento da variável Salário.
I lrrr gnrpo de pedagogos estuda a influência da troca de escolas no descntpcttlto
tlt. llrrnos do ensino fundamental. Como parte do levantamento realizndo, lìri
nrotiulo o rrúmero de escolas cursadas pelos alunos participantes do estttclo.
Escolas Cursadas freqüência
1 46
2 57
.) 2T
4 15
5 4
ru. (.)rlrl ó a porcentagem dos alunos que cursaram mais de uma escola?
Ir- ('onstrua o grírfico de barras.
c. ('lirssil'i11r.rc os alunos em dois grupos segundo a rotatividade: a/Íc pnt'u
itlulìos cclur rnais de 2 escolas e baixa para os demais. Obtenha a titbclit tlc
lìr'r;iiôncin dcssa variável.
Alrrrros tlir Escola cle Educação Física foram submetidos a urn lcslc rkr
rr.sistôrrciir rpranto ao número de quilômetros que conseguiram corrcr sertì
lrrrrirr'. ( )s clirclos cstiro apresentados a seguir.
rr. (-)rr;rl ó ir vtriiivcl em estudo?
b. ('orrsllrrir o ltistograma.
e. ( )lrlt'rrltir o lnx-pktl.
Faixas freqüência
0t-4 438
4FB 206
8F12 125
12 F I6 22
I6 F 20 I
lltrrrPo t[r rrtilizirçiio rlc citixus clctrônicos clcpcrrclc dc cada usuÍrio c rlits
lrrrirçÕr's r'lctrrirtlirs. liorarn colctadas 2(l rncclidas dcssc tcmpo (crn rnirtutos):
2.\
ll.
rr.
tl
l,t
I ,:t
1,2
l,i
1,7 I ,l'r 0,Í) I ,:Ì t.4 I .(i lr7 1,0 1,0 0,8 I ,l-r
l.(' |
,,1 1,2 1,2 I,0 0,Í) l,g 1,7 [,5 I ,ll I , l-"r
I0.
26 Capítulo I: Introdução à Andlise Exploratória de Dados
a. Organize uma tabela defreqüência sem agrupar os dados.
b. Agrupe os dados em faixas de tamanho 0,2 a pattit de 0,8 e obtenha uma
nova tabela de freqüência.
c. Compare as tabelas obtidas em (a) e (b). Comente as diferenças'
d. Se ao invés de 26 medidas tivéssemos 1000, qual procedimento, dentre
agrupar ou não, você utilizaria?
11. Vinte e uma pacientes de uma clínica médica tiveram o seu nível de potássio
no plasma medido. Os resultados foram os seguintes:
Nível freqüência
2,25 a 2,55 1
2,55
-
2,75 tJ
2,75
-
2,95 2
2,95 F 3,15 4
3,15 F 3,35 5
3,35 F 3,65 6
a. Construa o histograma.
b. Determine os 1e, 2e e 3e quartis.
c. Qual a porcentagem dos valores que estão acima do nível 3?
12. Foram feitas medidas em operários da construção civil a respeito da taxa
hemoglobina no sangue (em gramas/cm3):
11,1 L2,2 LL,7 12,5 13,9 12,3 74,4 13,6 !2,7 12,6
11,3 II,7 12,6 73,4 L5,2 L3,2 13,0 16,9 15,8 L4,7
13,5 L2,7 L2,3 13,5 15,4 16,3 L5,2 72,3 L3,7 L4,1
a. Organize os dados em faixas de tamanho 1 a partir do 1 1.
b. Construa o histograma.
c. Determine o terceiro quartil e a mediana.
d. Taxas abaixo de 12 ou acima de 16 são consideradas alteradas e requerem
acompanhamento médico. Obtenha a tabela de freqüência da variável
Acompanhamento Médico com duas opções sim ou não.
L3. O valor médio de comercializaçáo da saca de milho de 60 cluilos nir Bols:t clc
Cereais é apresentado abaixo, em reais, para últimos 40 meses.
de
I .l l';rtx:ícios
6,1 612 617 615 6,9 6,3 714 7,6 7r7 7,6
/tó 7r7 7,6 714 712 7,2 ító 716 7r5 7,4
7r5 7,7 8,2 8,3 8,1 8,1 8,1 7,9 7,8 714
7r5 716 7,5 716 7,4 író 714 7r5 7,5 714
rr- ( )rgnnize os dados em faixas de tamanho 0,4 a partir de 6.
h. ('orrstrua o histograma.
c. ('irlculc o segundo quartil.
l.l. () lrirlcro de gols marcados no último campeonato daFederação Paulistl tle
liutclxrl pelos 20 clubes participantes nos seus 38 jogos é uma variável conl os
:;r'1it r i tttcs veìlores:
ir, ('lirssií'iquc iÌ variável. Você acha razoâvel construir uma tnbclit tle
l'r'ct;iiôncia de atcordo com a classificação dada?
Ir. ('orrslnrt unra tirbela de freqüência agrupando as observações em intcrvillos
rlt, t:ornprirnento l0 a partir de 20 (não esqueça de indicar claráìnìclìto os
irrlt't'vit los).
r'. ( )lrtt'rrhir o histogranta.
rt. (.)rrçr lrorccntagent dos clubes mârcaram mais de 38 gols?
lã, A t;rlrclir ir soguir apresenta as freqtiências relativzts de ocorrências de lÌrixns tle
illluut (r.nì cnt) para uma iìmostra de 100 criiìnçáìs de l2 anos de icladc.
ar, ('orrslt'ttit o histograma.
lr, ( )lrlcrrhrr <t lxtx-ploÍ.
r'. I )r'st'ilrnclo-so sopirral' os l5o/o mâis eÌltos, qual seria o ponto de cortc'/
,.J
Clube 1 2 , 4 5 6 7 8 I 10
Gols 32 42 ìattd 35 79 57 dt 52 35 25
Clube 11 72 13 t4 15 16 17 IB 19 20
Gols 55 70 42 4L 6B 66 74 29 47 53
28 Capítulo l: Introdução à Análise Exploratória de Dados
Faixas freqüência relativa
100 F 110 0,10
110 F 120 0,25
120 F 130 0,30
130 F 140 0,25
140 F 160 0,10
1.6. O índice de germinaçáo é um dos principais fatores para definir a qualidade
das sementes, Ele é determinado em experimento científico conduzido pelo
fabricante e regulamentado pelo órgãos fiscalizadores. Um fabricante afirma
que o índice de germinação de suas sementes de milho é de 85Vo. Para verificar
tal afirmação, uma cooperativa de agricultores sorteou 100 amostras com 100
sementes em cada uma e anotou a porcentagem de germinação em cada
amostra.
Germinação (Vo) freqüência
60F75 B
75F80 20
BOFBS 42
85F90 18
90F95 10
95 F 100 2
a. Faça uma representação gráfica da tabela acima.
b. Construa o box-plot.
c. Comente a afirmação do fabricante.
17. Uma nova ração foi fornecida a suínos recém desmamados e deseja-se avaliar
sua eficiência. A ração tradicional dava um ganho de peso ao redor de 3,5 kg
em um mês. A seguir, apresentamos os dados referentes ao ganho, em quilos,
para essa nova ração, aplicada durante um môs em 200 animais nas condições
acima.
a. Construa o histograma.
b. Determine o 1e, 2e e3e quartis.
c. Você acha que a nova ração é mais eficiente que a tradicional? Justifique.
I 'l l',ttn'ícios
Ganho freqüência
1,0 F 2,0 45
2,0 F 3,0 83
3,0 F 4,0 52
4,0 F 5,0 15
5,0 F 6,0 4
6,0 F 7,0 I
tH. Nrrrrr cstudo sobre rotatividade de mão-de-obra na indústria, anotou-sc o
nunr(rro de empregos nos últimos 3 anos para operários especializados e nfro
tspt'r'iir Iizados.
tr, (lonstrua o diagrama de barra correspondente a cada tabela usanclo it
porc:cntagem no eixo das ordenadas.
b. ,lrrrrto as inÍormações das duas tabelas em uma só e obtenha um diagratnn tle
Ir:rn'irs cla rotatividade de mão de obra na indústria (sem dif'erenciar it
r's1 rr'c ilrl iz.itçiro).
r'. Vocô ircha que os trabalhadores especializados trocam menos cle errtllrcgo'/
,f rrslil'it1uc.
izados
Empregos TLi
1 2lo
2 342
J 109
4 9l
5 35
total 787
19, ('orrrtl ;lrltc do uurn avaliaçiro rnédica em uma certa universidade, fbi rneclirln
n lrr'r1íiôrrciir cirrdíitca clos alunos do primeiro ano. Os dados são rprcscrttaclos
elrt:ir'1',ttirlit.
it. ( )lrtrrrlrir o histograrna.
ll, lirctl(lêrrciirs cnrclíacls quc cstc.ianr rbaixo de 62 ou ercima de 92 rccluercrn
irlrrrrrpirnlrirrrrcrrto rnéclico, Quirl ó n porcentiÌgem de alunos rìcssits
r ltttliçotrs'/
r', llrrur Íì'cr1ílôrrcil iur rcclor clc 72 baticlas por nrinuto ó considerada paclriìo,
Vor't' irt'lrir rprc dc nroclo gcral csscs alruros sc cncaixaln ncssc caso'Ì
29
Não Especializados
Iirnprcgos ïì,;
I 106
2 222
3 338
4 292
lr 164
totitl 7I22
.to Capítulo I: Introdução à Análise Exploratória de Dados
Freqüência Cardíaca freqüência
60F65 11
65F70 35
70 t- 75 68
75F80 20
80F85 L2
85F90 10
90F95 1
95 F 100 3
20. Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de
português e 4O de matemática. Para os 20 melhores classificados,
apresentamos o número de acertos em cada disciplina, em ordem decrescente
do total de pontos.
a. Organize uma tabela de freqüência para cadavariâvel.
b. Faça uma representação grâfica das tabelas obtidas em (a).
c. Construaa tabela de freqüência da variável total de pontos.
d. Comente sobre a afirmação: os aprovados são melhores em português do
que em matemática.
21. Vinte baterias para automóveis de uma certa marca foram testadas quanto à
sua vida útil. O teste simula autilização da bateria, acelerando seu desgaste de
rnodo a criar uma réplica da situação real. Os resultados da durabilidade (em
mcses) são apresentados a seguir:
a. Construa o histograma.
b. Se a amostra acima for considerada representativa do desempenho desszr
rïiìrceì de bateria, quantas, em 1000 fabricadas, serão repostas pelo
labricante, se ele oí'erece 6 meses de garantia?
aluno 1 2 J 4 5 6 7 8 9 10
Português 35 35 34 32 31 30 26 26 24 23
Matemática 31 29 27 28 28 26 30 28 25 23
aluno 11 t2 t3 T4 15 T6 t7 18 I9 20
Português 23 L2 11 20 17 T2 L4 20 B 10
Matemática 27 t.\òz 31 20 27 25 20 13 23 20
I J I t,'ttít'irts
Slt' o Íìrbricante vende cada bateria por 207o
l(XX) baterias fabricadas, descontadas as que
pol birtcria em função do preço de custo?
acima do preço de custo, em
repõe, quanto será seu lucro
3t
Durabilidade freqüência relativa
0F3 0,02
3F6 0,05
6F9 0,15
I
-L2 0,25
72-15 0,30
15F20 0,23
It, lfr.st. jir-sc comparar três('itrlir trrttir clas técnicas
apt r'st'rrtirrlus a seguir.
técnicas ciúrgicas pata a extração de dente de siso,
foi aplicada em 20 pacientes e os resultados sÍio
ït F
Técnica cirúrgica
*r, lirrr rrrínr virlrlrcs a1-lloximados pilráì er mediana de cada técnica,
b,ll tttlrtvttltt ittlerqltdrtil. é, dcl'inido colno eÌ dil'erença entre o tcrccirc c rr
1rr irtrt'iro rlttiulis, Cllculc scu valor para cerda uma das técnicers e comentc.
.:. llir('ulit rr vlrrilrllilidlrclc do tcnìpo dc rccupcração ern cada técnica.
ri. ,'jt, r'rrr't-' t'r otirrrisla, clual tócnica cscolhcria'l
3ì, tllr*. o corrrPrrlirtlor') Os cllclos a scguir representam indivíduos que Íbtlrrr
r {r!rl'urinrr(krs llr,tlo vcrìclìo clc um ccrto tipo clc inseto e submcticlos ir
Irrllrlrrí'nl() (tr'ês rliI'crcnlos Iipos). As virriiivcis são:
10
.qo!tã
'8. I
E
c)
o.a,o
d)
s6
&Es
c)
t--"
4
-t2 Capítulo l: Introdução à Análise Exploratória de Dados
No.: número associado aos pacientes;
Idade: idade do paciente no momento de admissão' em anos;
Diag: tempo, em horas, gasto entre o contato com o inseto e
administração do tratamento;
Recup: tempo, em horas, entre a administração do tratamento e
recuperação;
Tratam: tipo do tratamento administrado;
Coag: presença de coágulos no momento de admissão.
Pac.No. Idade Diag Recup Tratam Coag
T9 28 7 3 II nao
4 15 52 45 I nao
27 76 30 23 IIÌ slm
7 15 53 46 I stm
14 2l 3 2 II nao
5 11 46 42 I nao
11 16 55 47 I nao
10 16 54 41 I S m
25 47 13 12 ilI S m
6 18 59 51 II nao
l6 40 20 l1 ru slm
20 24 J 1 II nao
l3 32 9 J il nao
15 31 9 -) il nao
8 10 44 40 I slm
18 3t 9 J il slm
T2 3l 10 4 il slm
24 46 t3 11 m sim
21 21 1 2 il slm
22 39 l7 B il slm
-) l5 53 46 I slm
2 9 42 39 I nao
23 75 30 22 III slm
26 54 l8 l6 III nao
l7 35 t2 5 I] S m
9 In -58 50 II s ln úilutu.li
I ,-t l','rrn'ír:ios
Atrlvés do computador, crie uma planilha com os dados apresentados.
:lìirsoando-se nesta planilha:
l. Cltssifique cada uma das variáveis.
ll. Construa uma tabela de freqüência (através do computador) para a
viriável Diag. Utilize 5 classes.
lll. Através de representaçáo grâfica adequada, compare os três tratameÌìtos
corn relação à idade dos pacientes. Você diria que a idade se distribui
Itotttogeneamente nos três tratamentos?
lv. l{cpita o item (iii) para a variável Coag.
b, Strltctrrha, que ao invés de trabalhar corn a variâvel ldade, cria-se uma novÉl
vuriírvcl denominada Etário, assumindo valor 0 se Idade for menor que 29
rlnos c I caso contrário. Utilizando o computador:
l. lixplique como você poderia criar tal variável.
ll, Construa um box-plot para a variável Recup, para cada grupo de Etário,
Corn base nos gráficos, você diria que o tempo de recuperação é diferente
dependendo da faixa etâria? Justifique sua resposta'
€, tJmn nova variável denominada Cura é criada: Cura será rópida se Recup
frrr rnenor ou igual a 10, será normal se entre 10 e 40 (inclusive) e serí lentct
pnt'n lìccr.rp acima de 40. Verifique, graficamente, se pacientes em cada umit
clns cntcgorias de Cura apresentam diferenças no que se refere ao tempo
eltttr! o ccltttitto com o inseto e a administração do tratamento.
Elt nttlttit',t:; ilc dutlos mencionados nos exercícios a seguir podem ser obtidas ent
lflPlt" üllr, rt,y t, b r/- n rt p ro e s t
#, (LIse o corrrputador) Os itens seguintes referem-se aos dados contidos no
âf'rluivo clr.: nome cancer.txt. Esse arquivo contém os dados de uma pesquisa
fOtrrr: irrcidOncia de câncer e é apresentado em 9 colunas representando ns
rÊEu i nlFs vitriÍtvcis de interesse:
33
e'eilttntt l:
e'ulumr 2i
iderrt i l'icação do paciente.
tliitgttóstico:
I = Ínlso-negativo: diagnosticados como não tendo a doença qunnclo
nl verclade a tinham,
2 = ncgativo: diagrrosticados como não tendo a doença quarrdo ele
Í'ato niro a tinham.
-ì = llositivo: diagnosticados corretamente como tendo er doença.
4
=
lulso-positivo: diagnosticados como tendo a doença quando na
verclircle niro tinham.
irlnrle.
34 Capítulo l: Introdução à Análise Exploratória de Dados
coluna 4: espectro químico da análise do sangue-alkaliine phosphatose (AKp).
, coluna 5: concentração de fosfato no sangue (P).
c o luna 6 : enzima, lactate dehydro genase (LDH).
coluna 7: albumina (ALB).
coluna B: nitrogênio na uréia (N).
coluna 9: glicose (GL).
a. Escolha 3 variáveis dentre as colunas 2 a 9. classifique-as e faça o
histograma e a tabela de freqüência para cada uma delas (se necessário, crie
até cinco faixas).
b. unia afirmação feita por alguns médicos é a de que o grupo dos falso-
positivos é mais jovem do que o dos falso-negativos. para os dados dessa
pesquisa, o que você diria a respeito? Justifique sua resposta baseando-se
em gráficos e tabelas de freqüência.
25. (Use o computador) Um empreendimento imobiliário consistiu da construção
de dois edifícios residenciais, com apartamentos de I dormitório e área útil defi #. Em uma primeira fase, foi construído apenas um edifício, denominado
"'Bloco 4". Para a conclusão do Bloco B houve uma troca de empreiteiras.
Suspeita-se que seus apartamentos foram construídos com metragem diferente
daquela especificada na escritura. O arquivo areas.txt contêm as seguintes
variáveis, obtidas por peritos de uma firma independente:
Id: identificaçãoda observação no arquivo
Bloco: bloco a que pèrtence o apartamento
Andar: andar onde o apartamento está situado
Final: número identificando a posição do apto. no andar
Sala: áreada sala, em m2
Cozinha: ârea da cozinha, em m2
Banheiro: ârea do banheiro, em m2
Dorm: área do dormitório, em m2
Rachad: ocorrência de rachaduras no apto: 0 - não, 1- sim
' Infiltr: ocoÍrência de infiltrações no apto: 0 - não, I - sim
a. Explore o arquivo de dados. Qual o número total de apartamentos no
empreendimento? Quantos apartamentos existem por prédio? E por andar?
b. Construa tabelas de freqüência para cada uma das variáveis quantitativas
contínuas e faça gráficos adequados,
c. Repita o item (b), para cada bloco, separadamente. construa gráficos clo tipo
box-plot e compare as áreas para cada cômodo considerado.
1,4 l',ltex'ícios
d. Crrlcnle a ârea útil total para cada apartamento. Armazene esta informação
erìì uma variável denominada Total. Repita os itens (b) e (c) para a variável
'lÌrtal,
c. Buserndo-se nos itens anteriores, você diria que existem diferenças nas áreas
rkrs apartamentos dos blocos A e B? Em caso positivo, qual(is) cômodo(s)
rrplcsenta(m) o problema?
f. lrxplore descritivamente os dados referentes a problemas estruturais
(rlchaduras e infiltrações). Com a informação contida na variável Andar
clivicla os apartamentosem três categorias dependendo do andar onde se
cncontra: baixo, médio e alto. Estude a ocorrência de rachaduras e
inÍ'i ltrações para cada categoria.
l€, (tJse o computador) Os itens seguintes referem-se aos dados contidos no
êrquivo de nome aeusp.txt, que contém parte dos dados de uma pesquisa,
reslizuda pela Associação dos Educadores da USP (AEUSP), sobre aspectos
ãóeio-econômicos e culturais de comunidades de baixa renda da região do
ãutuntÍi, São Paulo. O questionário foi respondido por um dos moradores dn
gãËü sortcada para participar da pesquisa. Os dados estão organizados da
ãêgtlinlc lbrma:
golund /: Número do questionário (Num).
êalunu 2: Comunidade (Comun).
êalnnu.?: Sexo (Sexo):
ëHltl,d 5l
L : masculino;
2 : feminino.
Faixas de idade, em anos (Idade):
1 = 114,25);
2:125,35);
3: [35,45);
4 : [45, oo).
Bstado civil (Ecivil),
1 : solteiro;
2 = casado;
ll : clivorciado;
4 = viúvo;
l'r = outro.
llegiíio de procedência (Reproce).
Tentpo de residência em São Paulo, em anos (Ternposp),
Número de residentes na casa (Resid).
35
eetlttnu (t:
ttúunt 7i
è:olwtil Íli
ì6 Capítulo 1: Introdução à Análise Exploratória de Dados
coluna 9: Trabalho (Trab):
1 : sim;
2: náo;
3 : aposentado.
coluna l0: Tipo de trabalho, só para os que trabalham (Ttrab) :
1 : emPregado com carteira;
2 : emPregado sem carteira;
3 : profissional liberal;
4 : autônomo;
5 : rural.
coluna I l: Idadeque começou a trabalhar, em anos (Itrab).
coluna 12: Rendafamiliar em faixas de reais (Renda):
1
--
[0,150);
2:1t50,300);
g : [300,450);
4 : [450, 900);
5
- [900,1500);
6 : [1500, oo).
coluna 13.' Acesso a computador (Acompu):
1 : sim;
z: nao.
coluna t4: Sêrieem que parou de estudar (Serief).
Branco : não parou de estudar;
1a B : séries do ensino fundamental;
9 aL2: séries do ensino médio.
a. Explore o conjunto de dados e classifique as variáveis. Verifique se existem
variáveis com valores incompatíveis ou inválidos e proponha alternativas
para a solução do problema. Observe que existem variáveis com respostas
em branco e discuta porque isso acontece.
b. Estude a variável Renda em função de Comun. Você diria que os moradores
da Cohab e do Jardim d'Abril têm a mesma renda? Justifique sua resposta
baseando-se em gráficos e tabelas de freqüência.
c, Verifique se o comportamento'da variável Temposp é influenciado pelo tipo
de trabalho (variável Ttrab).
d. Faça um box-plot para a variável ltrab.
habilidades
Introdução
No capítulo anterior, vimos como caracterizar uma massa de dados, com o
do organizar e resumir informações. Neste capítulo, apresentamos o
ã nntemiltica que dá a base teôrica para o desenvolvimento de técnicas
Íatlens tt $erem apresentadas no restante do livro.
Denominamos fenômeno aleatório à situação ou acontecimento cujos
nõo podem ser previstos com certeza. Por exemplo, as condições
clo próximo domingo não podem ser estabelecidas com total acerto, O
pocle ser dito da taxa de inflação do próximo mês. Veremos que, cm
como essas, modelos podem ser estabelecidos para quantificar os
dus diversas ocorrências.
Aprcsentamos, a seguir, alguns conceitos de teoria dos conjuntos, que
Ëãados neste capítulo. Chamamos de espaço amostral ao conjunto de todos
possÍveis de um certo fenômeno aleatório. Ele será represontedo
letfa gregn O (ômega). Os subconjuntos de 0 são denominados eventoge
aclos pelas letras latinas maiúsculas A,8,. . . . O conjunto vazio, como jÍl
lelpnnl, será denotado por 0.
A união de dois eventos A e B, denotada por AUB, represento tt
ia ele, pclo menos, um dos eventos Aou B. Aintersecção do evento á
ã, denotrrcln por.rl a B, é a ocorrência simultânea de A e B.
Dois eventos A e B siro disjuntos ou mutuamefie exclusivos quando não
êlcmcntos ern coffrurïì.Isto é, Ao B : A.
Dlzemos qr,re Á e B são complementares se sua união é o espaço amostral
lnteraecçÍlo é vuzia. O complementarr de Á será representado por Á" e temos
U á', _: fl e .zt À A,, :4.
Vamos considerar probabilidade como sendo uma função P(') que
valores nurnéricos aos eventos do espaço amostral, conforme a defiriiçõo n
37
38 Capítulo 2 : Probabilidades
D efínição 2. 7 : Probabilidade
uma função P(.) é denominada probabilidade se satisfaz as condições:
?) 0< P(A)< 1,VÁcQ;
i,i,) P(A) : r;
iiü P(UAj) : t P(Aì, com os Á7t disjuntos.j:t
.i:r
tr
A pergunta que poderia surgir seria: como atribuir probabilidades aos
elementos do espaço amostral? Há duas maneiras principais de responder essa
questão.
A primeira delas consiste na atribuição de probabilidades, baseando-se
em características teóricas da realizaçáo do fenômeno. Por exemplo, ao lançarmos
um dado, temos o espaço amostral 0: {1,2,3,4,5,6}. Admitindo que o dado
foi construído de forma homogênea e com medidas rigorosamente simétricas, não
temos nenhuma razão para privilegiar essa ou aquela face. Assim, consideramos
P(1) : P(2) :. '. : P(6) :716.
Uma outra maneira de obter probabilidades é através das freqüências de
ocorrências. Observando as diversas repetições do fenômeno em que ocorre a
variável de interesse, podemos anotar o número de ocorrências de cada valor
dessa variável. Para um número grande de realizações, a freqüência relativa
poderia ser usada como probabilidade. For exemplo, desejando estabelecer as
probabilidades de cada face de um dado sem fazer nenhuma suposição inicial
sobre sua construção, usamos a experiência de sucessivas ocorrências. O ponto
delicado é decidir quanta experiência é necessária para se fazer a atribuição de
probabilidades, com alguma garantia de não se estar muito distante do verdadeiro
valor. Questões dessa natureza não serão discutidas aqui e fazem parte doS
capítulos de inferência estatística. Por ora, vamos assumir que, à medida que O
número de repetições vai aumentando, as freqüências relativas se estabilizam em
um número que chamaremos de probabilidade. Em ciências biológicas e humanas,
essa é a forma mais comum de atribuir probabilidades.
De modo geral, diremos que estamos fazendo um sorteio aleatório ou ao
acaso em uma população, se a escolha desse ou daquele elemento só depende da
probabilidade a ele atribuída, seja através da freqüência relativa ou de algumit
suposição teórica.
Exemplo 2.1: Para a variável ldade, ver Tabela 1.3 clo Capítulo l, o cspitço
amostral será f) : {17,18, .. . ,25}. Supondo que um aluno é escolhiclo ao iÌcoso
?,1 ltitit,tlttl'ãtt 39
tr
flËl:n popullção, definimos a probabilidade dele ter uma certa idade pela
fuqttêrre irr rclativa associada à respectiva idade. Assim,
P(17) : 0,18; P(18) : 0,44; ...; P(25) : 0,04.
No 1lróximo exemplo, obtemos a probabilidade da união de eventos.
2.2; Considere a Tabela L2 do Capítulo 1, contendo informações a
r tlirs Íì'cqiiências da variável Sexo. Sabendo que 52Vo dos alunos estão na
A e 48Vo niÌ turma B, suponha que escolhemos um estudante ao acaso da
lnçno, Quirl seria a probabilidade de escolhermos um estudante do sexo
r ott itlguérn da turma B?
l)rrs inÍbrrnações a respeito da freqüência relativa acima e da Tabela 1.2,
/'(/") : 0,74, P(M) :0,26, P(A) :0,52, P(B): 0,48.
trilidrrdc que precisamos determinar pode ser representada por P(F U B),
guLl se sirnplesmente somarmos P(.F') com P(B), obtemos uma somn
Flor l I , E,videntemente isso não pode acontecer, pois o valor clu
llidnde poclc ser, no máximo, igual a 1. Não é difícil perceber que estamos
n trlg,rrns elcmentos duas vezes, pois ao considerarmos apenas estudantcs
t€Xo l'errrinino, temos estudantes da turma A bem como da turma B e ao
los upotìeìs iÌ turn'ìa B, temos estudantes do sexo feminino e masculino,
on r:sluclnntcs do sexo feminino e da turma B, isto é, o evento F O B, estd
Ito rlvcnlo ,Í;' c também no evento B.Logo, precisamos subtrair umiì vez
n IJ) ;turn obter a probabilidade correta. Desta forma, temos qllc il
ilitlrrtle rlit uniÍo FU B é igual àsomadas probabilidadesde ,F' e B menos
lirlnrlc rlu intersccção f' O B.
A plohnbilidaclc da
tltt ltnilnhilitlutlcs
àlf ÍrçÍio lìrrrnul, pois
união de eventos é calculada
apresentada niì Figura 2.1.
ncreditamos que o resultado
tr
através da regru dct
Não faremos unlu
é bastante sirnples c
itivo,
ltignra 2.1: Ilegru de adição dc probahiliclaclcs.
40 Capítulo 2 : Probabilidades
Observe qu€o, se A e B forem disjuntos, a expressão acima se reduz à
sorna das probabilicdades dos eventos A e B, pois a intersecção é vazia e a
correspondente probabilidade é nula. A regra de adição de probabilidades pode
ainda ser expandidan para mais de dois eventos. Jente, por exemplo' escrever a
expressão para P('$UBUC) considerando D: Bl)C e aplicando a regra de
adiçãro de probabilid,lades duas vezes.
Comq cons€eqüência da regra da adição, obtemos que, para qualquer
evcnto A c {1,
P(A):I-P(A'),
que pode ser verifiúcada aplicando a regra da adição com Ac no lugar de B.
Tctnos,
tr(Art A') : P(A) + P(A")
-
P(AÀ A")
: p(A) + P(A')
-
P(A)
: p(A) + P(Á")
-
0.
Como P(Au A) : P(Cl) : 1, segue imediatamente a igualdade desejada'
Ilxercícios da Seçãco 2.L:
1. Para cada um dors casos abaixo, escreva o espaço amostral correspondente e
conte seus elementos'
a. Uma moeda é Íançada duas veze,s, e observam-se as faces obtidas'
b. Um dado é lrançado duas vezes e a ocorrência de face par ou ímpar é
observada.
c. Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões
rigorosamento iguais. Três bolas são selecionadas ao acaso com reposição e
as cores são arnotadas.
çL Dois dados sãio lançados simultaneamente e estamos interessados na soma
'-
clas faces observadas.
g( Em uma cid;ade, famílias com 3 crianças são selecionadas ao acaso,
'
anotando-se o sexo de cada uma.
.
f.'Urna máquina produz 20 peças por hora, escolhe-se um instante qualquer e
observa-se o número de defeituosas na próxima hora.
g. Uma moeda é lançada consecutivamênte até o aparecimento da primeira
' cafiÌ.
2.2 P robab ilidade Condic ional e Indep endêncía
2. Sendo A e B dois eventos em um mesmo espaço amostral, "tÍadrtza" pafa A
linguagem da Teoria dos Conjuntos, as seguintes situações:'
a. Pelo menos um dos eventos ocorre.
b. O evento Á ocorre mas B não.
c. Nenhum deles ocorre.
cl. Exatamente um dos eventos ocorre.
3. Uma universidade tem l0 mil alunos dos quais 4 mil são considerados
csportistas. Temos, ainda, que 500 alunos são do curso de biologia diurno, 700
cla biologia noturno, 100 são esportistas e da biologia diurno e 200 são
csportistas e da biologia noturno. Um aluno é escolhido, ao acaso, e pergunta-
sc a probabilidade de:
a. Ser esportista.
b. Ser esportista e aluno da biologia noturno.,-:l
c. Não ser da biologia.
d. Ser esportista ou aluno da biologia.
c. Não ser esportista, nem aluno da biologia. À ,---(,,,-/
4. Sejam A e B dois eventos em um dado espaço amostral, tais que P(A) :9,2,
P(B) : p, P(AU B) : 0,5 e P(A n B) : 0,1. Determine o valor de p.
5. l)ois processadores tipos A e B são colocados em teste por 50 mil horas. A
probabilidade de que um erro de cálculo aconteça em um processador do tipo
A é de 1/30, no tipo B, 1/80 e, em ambos, 1/1000. Qual a probabilidade de que:
ri. Pelo menos um dos processadores tenha apre.sentado
"rrorc---.-u---b. Nenhum processador tenha apresentado erro? \
c. Apenas o processador A tenha apresentado erro?
2.2 P r obabilidade Condicional e Independência
Em muitas situações práticas, o fenômeno .aleatório com o qual
Irrrbalhamos pode ser separado em etapas. A informação do que ocorreu em uma
rletr-:rrninada etapa pode influenciar nas probabilidades de ocorrências das etapas
srrccssivas.
Nestes casos, dizemos que ganhamos informação e podemos "recalcular"
rrs probabilidades de interesse. EsSas probabilidades "recalculadas" recebem o
Irrrrrrc cle probabilidade condicional; cuja definição apresentamos a seguir.
4T
42 Capítulo 2 : Probabilidades
Definíção 2.2 : Probabilidade c ondicional
Dados dois eventos A e B, a probabilidade condicional de Á dado que
ocorreu .B é representada por P(A I B) e dada por
P(Al B\ : P(!,1,8). PíB) > 0.\
'| ' P(B) \ /'
Caso P(B) : g, P(Al B) pode ser definido arbitrariamente; neste texto
usaremos P(Al B): P(A). tr
Exemplo2.3.' Considere a seguinte situação hipotética. Uma grande região de 100
km2 contém um aqüífero (reservatório de água) subterrâneo com ârea igual a 2
km2, cuja localização é_ desconhecida (ver figura a seguir). A fim de determinar a
posição do aqüífero, perfurações são feitas ao acaso. Vamos representar por If o
evento de encontrar água. Temos P(H): 0,02, obtido pelo quociente da área do
aqüífero pela área total, onde usamos que o espaço amostral é f) : {região de 100k*tÌ.
Ç2 = Região (100 km2)
Suponha agora que, após uma ano de pesquisas, uma área de cerca de 20
km2 jâ foi amplamente perfurada sem encontrar água e pode ser descartada para
novos furos. Representamos essa informação por 1. Qual seria, agora, a,
probabilidade de um furo, feito ao acaso, atingir o aqüífero? Vamos representar
por P(H I 1) u probabilidade desejada. Com a mesma argumentação utilizada
acima, a nova região de procura terâírea B0 km2 e portanto P(H I I):0,025,
Isto é, como esperávamos, a probabilidade de obter água aumentou devido iì
informação recebida. Vamos refazer esse cálculo utilizando agora a fórmula de
probabilidade condicional. Para tal, seja B a nova região de procurir
correspondendo a área total inicial menos a parte que foi descartada para novas
tentirtivits. Temos que P(B) : 0,8. O evento H a B representa a ocorrôncin dc,
scrn ncnhuma informação etuxiliar, çncontrarmos água num Í'uro f'eito na regiiro .R.
?. J l' t r il x t I t i I i datle Condicional e Independência
O = Região (100 km2)
C)'= Nova Região (80 km2)
@ e:ptrç,, rrtttostral perdeu 20 kmz , que é a área descartada para novos furos, tr
l)rr tlcÍ'iniçiro de probabilidade condicional, deduzimos a regra do produto
fr Stnilultililrulcs, uma relação bastante útil que é apresentadanaFigura2'2,
43
P€les srrposições iniciais, 1/ í) B : H e entáo, P(H n B) : P(H): 0,02.
Ettln,t,
P(Htrl:r#ã?: ffi:0,025
â ftgur rr, n scguir, apresenta o efeito da informação l no espaço amostral'
Itigura 2.2: Regra do produto de probabilidades.
I lrrr corrceito nruito inrportante em probabilidade é o da irulependênciu cle
etêrrl.t,\', rllrL1 rict'ii utiliznclo rcpeticlitntcntc ao lottgo de toclo o texto'
44 Capítulo 2 : Probabilidades
Deftnição 2.3: Independência de eventos
Dois eventos A e B sáo independentes, se a informação da ocorrência ou
não de B não altera a probabilidade da ocorrência de ,4. Isto é,
P(Al B): P(A), P(B) > o,
ou ainda a seguinte forma equivalente:
P(A . B) : P(A) P(B).
Não é difícil verificar que se A é, independente de B, então B é
independente de A. O uso da expressão acima permite, ainda, verificar que o
evento vazio é independente de qualquer evento. As demonstrações são deixadas
a cargo do leitor.
E muito comum, à primeira vista, confundir eventos independentes e
eyentos disjuntos. O próximo exemplo ajuda a esclarecer essa questão.
Exemplo 2.4: lJnaempresa produz peças em duas máquinas 1e f f , quepodem
apresentar desajustes com probabilidade 0,05 e 0,10; respectivamente. No início
do dia de operação um teste é realizado e, caso a máquina esteja fora de ajuste, ela
ficará sem operar nesse dia passando por revisão técnica. Para cumprir o nível
mínimo de produção pelo menos uma.das máquinas deve operar. Você diria que a
empresa corre o risco de não cumprir com suas metas de produção?
Seja O; o evento da máquina i estar operando, ,i : 7,2. Pelas informações
disponíveis temos P(Ot): 0,95 e P(O2): 0,90.
Na Figura 2.3, apresentamos um diagrama conhecido como árvore de
probabilidades, qu'e consiste em representar os eventos e as probabilidades
condicionais associadasàs realizações. Cada um dos caminhos da árvore indica
uma possível ocorrência.
No preenchimento dos valores de probabilidades na árvore, observe que
assumimos a independência entre 01 e 02, pois acreditamos que a eventual falta
de ajuste em uma máquina não interfere no comportamento da outra. Note que, no
caso de independência, o segundo ramo da árvore não é afetado pela ocorrência
dos eventos que aparecem no primeiro ramo. Portanto, pela definição de
independência, segue que P(O2l Ot) : P(Or): 0,90.
Para facilitar a notação, vamos escrever O1O2 para o evento OtÀOz.
sua probabilidade da ocorrôncia é dada pelo produto dos ramos que levam nesse
evento. Isto correspondendo à aplicação da regra do produto de probabilidades:
P(Ap2)
=
P(Oz I 01) P(Ol).
tr
P rt tl t il ti I i r k u I c Co ndic ional e Indep endê nc ia
0.9 5
0,0 5
Figura 23: Árvore de probabilidades.
A tabeln u seguir resume as ocorrências e suas respectivas
45
ol
o.;
o2
oi
o;
probabilidades,
Eventos Probabilidade
oro, 0,95x0,90:0,855
OrOí' 0,95x0,1,0:0,095
ol'o, 0,05x0,90:0,045
oí'o;' 0,05x0,10:0,005
Parn otrter o nível mínimo de produção dií'ria, precisamos ter pelo menos
nilleluinn opcrando. Isto corresponde à ocorrência do evento
U (, t( )i' t J Oj'0r.Ternos,
t1(()(),,Q OLOI u Oí'O2) : P(OQz) + P(OLO;') + P(Oí'O),
ãr ll'êe renlizflçõcs são disjuntas. Por exemplo, não é possível as duns
lncs estnrenr operunclo (evento Op) e ao mesmo tempo só a máquinn .I
(evento O()ú').Dessn Íbrma, concluímos que a probabilidade dè manter o
trfninro dc procluçiio é 0,995, Portanto, a empresa tem alta probabilidade de
Êr1nì Huns rnetus cle produção.
No exernplo anterior, os eventos representados pelas intersecções
Ëg,f,l1(J,j', ()i02 c Oi'Oi'lonnnrn novos cventos que têm a propriedacle de
tr
ltlulrlnnrente exclusivos e cuja uniflo contenrplt toclas as possíveis
46 Capítulo 2 : Probabilidades
combinações. Eventos que satisfaçam essas duas características têm importante
papel no cálculo de probabilidades e, assim, merecem destaque.
Definição 2.4: Partíçã.o do espaço amostrsl
Os eventos Cr,Cz,... ,Ct, formam uma partição do espaço amostral, se
eles não têm intersecção entre si e se sua união é igual ao espaço amostral. Isto é,
Ca)Ci:Q Para i'+i e
A Figura 2.4 apresenta um exemplo de uma partição com 6 eventos.
Figura 2.4: Partição do espaço amostral (k=6).
Exemplo 2.5.' Suponha que um fabricante de sorvetes recebe 20Vo de todo o leite
que utiliza de uma fazenda F1, 307o de urìa outra fazenda F2 e 50Vo de -F's. Um
órgão de fiscalizaçáo inspecionou as fazendas de surpresa e observou que20Vo do
leite produzido por .F'1 estava adulterado por adição de água, enquanto que para
F2 e Fs, essa proporção era de 57o e 2Vo, respectivamente. Na indústria de
sorvetes os galões de leite são armazenados em um refrigerador sem identificação
das fazendas. Para um galão escolhido ao acaso, vamos analisar o leite para
decidir sobre sua adulteração ou não.
Se denotarmos por Á o evento "o leite está adulterado", temos que
P(Al.p'r) : 0,20, P(Al Fz):0,05 e P(Al rs):0,02. Além disso, .F'1, F'2 e
,F3 formam uma partição do espaço amostral pois uma dada amostra de leite vem,
necessariamente, de uma e apenas uma das três fazendas. Desta forma, o evento Á
pode ser escrito em termos de intersecções de Ácom os eventos F1, F2 e F3,
conforme ilustra a figura a seguir.
tr
1,
U Ci:9.
.i:t
F tt il t t I t i I il h ul c Co ndicional e Independência
uittcln,estar interessados em saber qual a probabilidade de que a amostra
tenlrir siclo obtida do leite fornecido pela fazenda F1, isto é,, P(4lA),
lmpllen erìì se inverter a probabilidade condicional conheciOa P(ÁlF'1).
conro cssa são típicas para o uso do resultado apresentado a seguir, tr
dc llnycs: Suponha que os eventos Ct,Cz, ... ,Cn formem uma
sejam conhecidas. Suponha, ainda, que
probabilidades P(AlCt) para todoçle íl e
que suas probabilidades
EFl evr:ttlo A, se conheçam as
11 3, , , . , ft, lintão, para qualquer j,
I'(C,il A) : P(A I cò P(c j)
D p(A I cr) p(cr)i:l
rãção: t)r clcl'inição de probabilidade condicional temos
P(ci I A) : P(C1n A)P($
reescrito 'pela regra
47
ãËEtettdor
lgnedo rì
dcssl expressão pode ser
f,'i, isto é,
P(A;1n A) : P(AÀCì : P(Al C,:j)P(C.j).
EEttlFletnr u clentonstraçiro note quê
l; À:
r,,(A) :Dnra.ìci) :Do(1l c,) P(c).
i=l i=L
I
do produto,
tr
A= (A nFr) u (A.F) u (Ánq)
? ( t,' u \") -- T ((trn.r1') -Ì48 ^\'"
rr(È,. s') . p[n'', -? (al@)
lC-0" v-w d"t- J'lv'ng.r.,rzn
Capítulo 2: P
Exemplo 2.6: Yoltando à situação do fabricante de sorvetes (exemplo anterior),
podemos agora calcular facilmente a probabilidade desejada, isto é,
P(.il) A)P(FrlA):--i(A)-
P(A I F'l)P(rl)
,
e, então
Portanto, a probabilidade de que a amostra de leite em questão tenha si
produzida pela fazenda F1é, de 0,615 em contraste com as probabilidades 0,231
0,154 para as fazendas F2e F3, respectivamente.
Exercícios da Seçáo 2.22
L. Considere dois eventos A e B, mrtuâmente exclusivos,
P(B) :0,5. Calcule:
a. P(An B).
b.P(Au B).
c.P(Al B).
d. P(A.).
e. P((A u B)").
2. Se P(AU B) : 0,8;P(Á) : 0,5 e P(B) : r, determine o valor de rno caso
de:
a. Ae -B serem mutuamente exclusivos.,
b. Áe B serem independentes. U'
3. Uma escola do ensino médio do interior de São Paulo tem 40Va de estudanteg
do sexo masculino. Entre estes, 207a n]unca viram o mar, ao passo q\Ìe, entre AÕ
meninas, essa porcentagem é de 50Vo. Qual a probabilidade de que um aluno
selecionado ao acaso seja:
a. Do sexo masculino e nunca tenha visto o mar?
b. Do sexo feminino ou nunca tenha visto o mar? '/
a.SeP(f) :0,4;P(A) =0,7e P(A nr) = 0,3;calculc P(AI D"),
P(Frlrl: :0,615.
/-t /(-"
i, ( àÒ a) b'\ - P ( ('*t'r',-,ll' )
l
l/
I
se dois eventos são mutuamente exclusivos então eles'rt ttÍ'irttritção:
lnrlelrcttclcntes.
Pgulo llutebol Clube ganha com probabilidade 0,7 se chove ;e com 0,8 se
Éeve, l'inr Sctcrnbro a probabilidade de chuva é de 0,3. O São Paulo
ull1n l)nrticln em Setembro, qual a probabilidade de ter chovido nesse
que sc A e B são independentes entáo A e B" também ião
les.
reíelos
fuedn é vicitclu de modo que a probabilidade de sair cara é 4 vezes maior
I de urir coloiì. Para 2 lançamentos independentes dessa moeda,
p@btthiliduclc de sair somente uma cara.
pbchiliclnde dc sair pelo menos uma cara.
ffebntrllidurle de dois resultados iguais.
urrr conjunto de 4 números dos quais nenhum deles é zero, dois são
c dois sÍio negativos. Sorteamos ao acaso, com reposição, 2 números
€enjunto, l)eterrnine a probabilidade de:
deler r,rer negntivo.
qune ietrle set negativo.
dclr núrrrerc)s terem o mesmo sinal.
He sf,o vrlliclas ats afirmações:
á)
-
lllaf'@ lÁ) :3/5então AeB nãopodemserdisjtrntos'
& ntá)
--
I 12,l'(Dl A):r e P(A lB) : Lf2 então An'/ao pode estar
€€f,tldn ettt /J.
€lÉrce dr, estuíística tcve a seguinte distribuição das notas finais: 4 do sexg
lnu c fi clo Í'crnirrino íbram reprovados, 8 do sexo masculino e 14 do
ãlno frtrurn ttprovndos, Para um atluno sorteado dessa classe, denote por M
Ëlutto eseollrirlo íbr do scxo masculino e por Á se o aluno foi aprovado.
F1d t=t ltl";,
F(é' rr ilI"),
F(d | /1/).
49
com P(Á) :0,3
50 Capítulo 2 : P robabilidades
d.P(M'I A).
e,P(M I A).
?eças produzidas por uma máquina são classificadas como defeituosas,
,"c,rpe.ãveis ou perfeitas com probabilidade de 0, 1 ; 0,2 e 0,7 ; respectivamente.
De um grande lote, foram sorteadas duas peças com reposição. Calcule:
a. P(duas serem defeituosas)
b. P(pelo menos uma ser Perfeita).
c. P(uma ser recuperável e uma perfeita).
,,@)t"Oiqu. as suposições utilizadas para resolver os itens anteriores. E se ovsorteio for sem rePosição?
6.Paradois evento s A e B,num mesmo espaço amostral, verifique, através ile um
diagrama, que é semprepossível escrever o evento A como sendO
çe"o A1U (Á n B") e que, portanto, vale P(Á) : P(An B) + P(AÀ B")'
7. Numa cidade do interior de São Paulo, estima-se que cerca de 20Va doS
habitantes têm algum tipo de alergia. Sabe-se qne 50Vo dos alérgicos praticam
esporte, enquanto que essa porcentagem entre os não alérgicos é de 407o'PatA
um indivíduo
"r"olhido
aleatoriamente nessa cidade, obtenha a probabilidade
de:
a. Não praticar esporte. ' ',
b. Ser alérgico dado que não pratica esportes.
8. As preferências de homens e mulheres por cada gênero de filme alugado em
uma locadora de vídeos, estão apresentadas na próxima tabela'
Sexo \ Filme Comédia Romance Policial
Homens 136 92 248
Mulheres r02 195 62
Sorteando-se, ao acaso, uma dessas locações de vídeo, pergunta-Se A
probabilidade de:
a. Uma mulher ter alugado um filme policial?
b. O filme alugado ser uma comédia?
c. Um homem ter alugado ou o filme ser um romance?
d. O filme ser policial dado que foi alugado por um homem?
,f,Ooit dados equilibrados são lançados' Calcule a probabilidade de:
,,'i' a. Obter o par (3,4), sabendo-se que ocorreu face ímpar no prirneiro dado.
' ll. Ocorrcr face ímpar no segundo ditdo, sabenclo-se quc ocorrcu íacc par nO
pritttciro dado.
Ëfét'r't{'ií,,f
€F ttttr l)uirrg existem três empresas de TV a cabo e 20 mil residôncias. A
'l'A lcrn 2100 assinantes, a TB tem 1850 e a empresa TC tem 2600
Ë:in1ttl,,s, scttclo que algumas residências em condomínios subscrevem aos
lçr'u tlc: urais de uma empfesa. Assim, temos 420 residências que sito
Irlr:s tlo TA e TB, 120 de TA e TC, 180 de TB e TC e 30 que sito
rrtrs tlns trôs empresas. Se uma residência desse bairro é sorteada ao
ruu, quttl é l probabilidade de:
ËFr nssirrlrrtc somente da empresa TA?
A$lttnr 1rclo tncnos uma delas?
!ÍEe t.'r''l'V n cabo?
I gttrrrit'ios guardam as bolas de voleibol e basqüete. O armário 1 tem 3
de vrrleibol e I de basquete, enquanto o armário 2 tem 3 bolas de
I r' ? clc basquete. Escolhendo-se, ao acaso, um armário e, em seguida'
tle runs bolus, citlcule a probabilidade dela ser:
5t
p€ vok ibol, sitbcndo-se que o armário 1 foi escolhido'
-
ãà burq,,.,*, sitbcnclo-se que o armário 2 foi escolhido.0
fu buE,lrrcte,
Fgclctrtcs clc uma Clínica de Ginecologia com idade acima de 40 anos,
tõrr rrrr lìrtrn casadas e 407o são solteiras. Sendo solteira, a probabilidnde
ëf tlrlo urn rlistúrbio hormonal no último ano é de I07o , enquanto que poftl
ftnrn I r e sstt probnb i I idade aumenta para 30Va' Pergunta-se :
QU*rl tr prtoltnbiliclade de uma paciente escolhida ao acaso ter tido um
dlrlúr'trirt ltortttottal ?
ãe A pncierrte sortcada tiver distúrbio hormonal, qual a probabilidade de ser
:sltëit'u'/
Ë€ excullr!'rnus cluits pacientes ao acaso e com reposição, qual é a
pfolruhilirlittlc clc pclo lrenos uma ter o distúrbio?
Yt*ê elttr,'g.tt il s!:tl amigo uma cartáì, destinada à sua namorada, parat sgt
:4111 tro crtrrcio. Entrcttnto, ele pode se esquecer com probabilidade 0,1 .
llãu Er. i,sr.lltec:cl', l probltrilidacle de que o correio extravie a carta é de 0'1,
êlSetttr:, st: liri cnviacla pclo correio a probabilidade de que a namorada nlio
* tscehrr rt tL: 0, I .
1 Efu trrrrturt'urlit ttíio rcccbctt o carta, qual a probabilidade de seu amigo tel
prquecirto tlc crtlocít-la no corrcio'l
br Avrrltr, rrs llossillilidnclcs clcsse rlanìoro cotttinuar, se aÌ comunicaçiio
Ètepett,l,,r rltts ctrtits ottviitdas.
52 Capítulo 2 : Probabilidade
14. Numa certa regiáo, a probabilidade de chuva em um dia qualquer de
primavera é de 0,1. Um meteorologista da TV acerta suas previsões em 807o
dos dias em que chove e em907o dos dias em que não chove.
a. Qual é a probabilidade do meteorologista acertar sua previsão?
b. Se houve acerto na previsão feita, qual a probabilidade de ter sido um dia de
chuva?
15. A tabela a seguir apresenta informações de alunos de uma universidade
quanto às variáveis: Período, Sexo e Opinião sobre a Reforma Agrá'ria,
Determine a probabilidade de escolhermos:
a. Uma pessoa do sexo masculino e sem opinião sobre a reforma agrâria?
b. Uma mulher contrária a reforma agr6,ria?
c. Dentre os estudantes do noturno, um que seja a favor da reforma agrâria?
d. Uma pessoa sem opinião, sabendo-se que ela é do sexo feminino?
Período Sexo Reforma Agrária
Contra A Favor Sem opinião
Diurno Feminino 2 8 2
Masculino 8 9 8
Noturno Feminino 4 8 2
Masculino T2 10 I
16. Três candidatos disputam as eleições para o Governo do Estado. O candidato
do partido de direita tem30Vo da preferência eleitoral, o de centro tem307o e o
da esquerda 40Vo. Em sendo eleito, a probabilidade de dar, efetivamente,
prioridade para Educação e Saúde é de 0,4; 0,6 e 0,9 para os candidatos de
direita, centro e esquerda, respectivamente.
a. Qual é a probabilidade de não ser dada prioridade a essas áreas no próximo
governo?
b. Se a área teve prioridade, qual a probabilidade do candidato de direita ter
,. ganho a eleição?
,.,,.
lf:.Uma companhia que fura poços artesianos trabalha numa região escolhendo,
"âleatoriamente, o ponto de furo. Não encontrando água nessa tentativa, sorteio
outro local e, caso também não tenha sucesso, faz uma terceira e últirnn
tentativa. Admita probabilidade 0,7 de encontrar água em qualquer ponto dcssn
regiãro. Calcule a probabilidade de:
a. Encontrar írguir na seguncla tcntativa.
Ëtçtr t,',,,.r
Flnr'rtttlt'ttt' ígua em até duas tentativas.
Eneottlt'rtr iigtta.
UFt ttrrurlico closconfia que um paciente tem tumor no abdômen, pois isto
nn 70(k' clos casos similares que tratou. Se o paciente de fato tivcr o
, u rxnnìo rrltra-som o detectará com probabilidade 0,9. Entretanto, se ele
tlvr.r o lurÌror, o exame pode, erroneamente, indicar que tem com
lirlirrle 0,1. Se o exame detectou um tumor, qual é a probabilidade clo
lcnte tô lo tlu ílto?
t*helu rt segttir itpresenta dados dos 1000 ingressantes de uma universidade,
lnfolrrrrrçt'ics sobre área de estudo e classe sócio econômica.
Area \ Classe Alta Média Baixa
Exatas L20 156 68
Humanas 72 B5 LL2
Biológicas 169 I45 -qÍL)
BFI ttltttur ittplt'cssiutte é escolhido ao acaso, determine a probabilidade dc:
&r du clussc cconôtrrica mais alta.
&tg,l,tt'ttu rit'cit clc exatas.
&tu,lgr t,,, 1il'r:iì dc humanas, sendo de classe média.
ãgf du r'lrsstr bitixit, clado que estuda na ârea de biológicas.
t'r:r'lrr poprrlitçiro, it probabilidade de gostar de teatro é, Il3, enquiìnto
Ë tlc gostlr rlc cinerna é 112. Determine a probabilidade de gostar de tcatro
:lc citrt'rttir, rtos scguintes casos:
€grlnl'rlt, lerrtnr o gostilr cle cinema são eventos disjuntos.
€lnrttu'rh' lntltrr o gostar de cinema são eventos independentes.
Fgd,,r rlllr' ÈloslnrÌì clc teatro gostáìm de cinema.
A Frrihirlrilirlrtrlo clc gostitr de teittro e de cinema é Ll8.
t flenlre os (lueì niÍo gostam de cinema, a probabilidade de nãro gostar de tcitlro
É ;l/.1,
I TÉr hilrrir'ns lìrrnccctn ecluipamcntos de precisão para o laboratório tle
lpflnlr.rt rlr' untit ttttivct'siditcle, Apesar cle serem aparelhos de precisão, cxiste
EFa p€rlut'nl clrirrrco clo subcstirnirçÍo ou superestimação clas rnecliclns
*lttit,lrrq A tlbcln it scgttit' aprcscnta o collportamcnto do equiparncnto
53
Fdttrl,l,, t'!!t t'iltlll I'iillricl:
54 Capítulo 2: Probabi
Fábrica II Subestima Exata Superestima
Probabilidade 0,005 0,98 0,015
Fábrica III Subestima Exata Superestima
Probabilidade 0,00 0,99 0,01
As fábricas I, II e III fornecem, respectivamente, 20Vo, 30Vo
aparelhos utilizados. Escolhemos, ao acaso, um desses
perguntamos a probabilidade de:
a. Haver superestimação de medidas?
b. Não haver subestimação das medidas efetuadas?
c. Dando medidas exatas, ter sido fabricado em III?
d. Ter sido produzido por I, dado que não subestima as medidas?
22. Acredita-se que numa certa população, 207o de seus habitantes sofrem
algum tipo de alergia e são classificadoscomo alérgicos para fins de saúde
pública. Sendo alérgico, a probabilidade de ter reação a um certo antibiótico é
de 0,5. Para os não alérgicos essa probabilidade é de apenas 0,05. Uma pessoa
dessa população teve reação ao ingerir o antibiótico, qual a probabilidade de:
a. Ser do grupo não alérgico?
b. Ser do grupo alérgico? !
23. Estatísticas dos últimos anos do departamento estadual de estradas são
apresentadas na tabela a seguir, contendo o número de acidentes incluindo
vítimas fatais e as condições do principal motorista envolvido, sóbrio ou
alcoolizado.
Motorista \ Vítimas fatais Não Sim
Sóbrio L22B 275
Alcoolizado 2393 762
e 50Vo dos
aparelhos e
Você diria que o fato do motorista estar ou não alcoolizado
ocorrência de vítimas fatais?
24. Sejam A e B dois eventos de f), tal que P(B) ) 0. Mostre que:
a. Se P(Á I B) : P(Á) então P(Aí18) : P(A)P(B)'
b. Se P(Á n B) : P(A)P(B) entito Á e D siro independcntes'
Fábrica I Subestima Exata Superestima
Probabilidade 0,01 0,98 0,01
E.ttt't'it'irts
ãUporrhl que X represente o número de horas de atividade física por semana.
€cnriirlcrc a tabela a seguir:
Sexo \ Atividade 0<x<3 3<X<5 x>5
Feminino 22 B 7
Masculino td 4 6
ãr Qull ó a probabilidade de sortear aleatoriamente uma menina com atividade
físicit scrnanal na faixa de [3, 5) horas?
Èr enlculc P(X > 5).
Cr €*rlcrrlc a probabilidade de que um rapaz escolhido aleatoriamente dedique
pelo rncnos 5 horas à atividade física. Idem para uma moça.
Ë, €utttltitt'c iìs respostas dadas nos itens (b) e (c)'
A ptrrtlrtrilidade de encontrar gás numa certa região é, llrc. Três sondas
i!'ns estito perfurando de modo independente.
55
ãgbertrlo-se que uma delas (qualquer) não achou gás,
dHg ottlt'its duets encontrarem?
ã$bcttrltt-so que uma delas (qualquer) não achou gás,
dê etteorttrar gás na região através dessas perfurações?
ãtllrc:nrkr-sc que não mais de uma delas (qualquer) achou gás, qual a
prohrrbiliducle de nenhuma encontrar gás?
I A, ll c C pertencentes a um mesmo espaço amostral. Mostre que:
AltJ) :1-P(AlB).
qual a probabilidade
qual a probabilidade
F(a U B I c) : P(Al c) + P(B
te Jt /'' cntito P(Au B I C) :
F(,4 t t 11U C) : P(A) + P(B) +
lc)-P(A)Blc).
1.
P(c)
-
P(A. B)
-
P(A. c)
= t'(/t íì íl) + P(An B nC).
Éjlntr fnrrrÍlil vilja ao litoral para passar um fim de semana. A probabilidade
ft euttgr.slirtttittnento net estrada é de 0,6. Havendo congestionamento, a
Sbttlrilirlrrrkr clos seus dois filhos brigarem no carro é de 0,8 e, sem
$€ngesti.rrrnnrenlo, a bríga pode aparecer com probabilidade 0,4. Quando há
biëtl, ,,.,", or.l scln congestionamento, â probabilidade do pai perder a
p€iêIe in r'(ìnì os Í'ilhos é de 0,7. E claro que havendo congestionamento o pai
p€de per,l,.r'tt pitciênciil com os filhos mesmo sem brigas, o que aconteceria
É€Ft ptohlhilirlndo 0,5. Quando niro hír nem congestionamento, nem briga, o
pi eltrtgr. trnrtqiiilo c níto 1:crdc a puciôncia, Determine a probabilidade de:
* Nnrr kt'ltitvirkl congestiottittrtcnto se o pai não percleu a paciência com seus
interfere na
flllrrtF
56 Capítulo 2: Probabi
b. Ter havido briga, dado que perdeu a paciência.
29.Um candidato a motorista treina na auto-escola e acredita que passa no exame
com probabilidade 0,7. se não passar, fará mais treinamento, o que ele estima
que lhe aumentará em lj%o a probabilidade de passar, isto é, no segundo
exame passará com0,77 de probabilidade.
a. Supondo que ele continue acreditando nesse aumento de possibilidade, em
que exame será aprovado com certeza?
b. Qual é a probabilidade de serem necessários mais de 2 exames?
Os arquivos de dqdos mencionados nos exercícios a seguir podem ser obtidos em
www. i me. us p. b r/- no p ro e s t
30. (Use o computador) Considere os dados do arquivo areas.txt descrito no
Exercício 25, capítulo 1. Suponha que você ganhe um apartamento em uma
promoção feita por uma cadeia de lojas. utilizando o computador, construa
tabelas de freqüência necessárias para responder às seguintes questões.
a. Qual a probabilidade do apartamento estar situado entre os andares 4 e7?
b. Qual a probabilidade do apartamento estar situado no bloco B?
c. Qual seria a probabilidade de você ganhar um apartamento com algum
problema de construção? (Isto é, com rachaduras ou infiltrações).
d. Repita os itens anteriores, dado que o apartamento esta situado no bloco B.
3L. (Use o computador) Considerando o arquivo cancer.txt calcule:
a. As probabilidades de que um paciente selecionado, ao acaso, seja
classificado em cada uma das quatro categorias da variável Diagnóstico.
b. utilizando apenas o item (a), qual a probabilidade de um paciente,
selecionado ao acaso, ser diagnosticado como não tendo a doença?
32. (use o computador) considere os dados do arquivo aeusp.txt descrito no
Exercício 26, Capínlo 1. Suponha que escolhemos, ao acaso, um dos
moradores entrevistados.
a. Qual a probabilidade da idade do entrevistado ser inferior a 35 anos?
b. Dado que o morador tem menos do que 35 anos, qual é a probabiridade
dele ser do sexo feminino?
c. Qual seria a probabilidade de escolher um morador do Jardim Raposo quo
tenha acesso a computador?
d. Determine a probabilidade de escolher um entrevistado qr"re tcnha vinclo clo
nordeste, seja do sexo feminino e estír trabalhando. Se esse rnoraclor Íbi
escolhido, qual é a probabilidaclc delc tor cartcira assinacla?
ultt.ì
rklvcis Aleatórias Discretas
IRtrorluçiro
Nr.rlc c'irpítulo, incorporamos o conceito de probabilidade no estudo de
l: Êtsrociirclls a características em uma população. No Capítulo 1, vimos
Hllllrrrrrrlo rrrtlr tabela de freqüência, podemos apresentar os valores oossíveis
glua rlrtrlir vnriírvel e suas respectivas freqüências. Evitamos, dessa forma,
$endr, ltet'tlir clc informação, a repetição, às vezes muito grande, dos valores
dvc.l, l)tr Íornra irnáloga, vamos formalizar, com a ajuda da Teoria das
llrlnrk's, o conrportamento de variáveis na população, associando a cada
vllor sua probabilidade de ocorrência. Como já mencionamos no
iilrtrli()r', irlónr da probabilidade poder ser obtida a partir do estudo das
Irts, clrr tirrnbém pode ser deduzida a partir de suposições feitas a respeito
llrtç;t,r rlo í'r:nômeno. Na formalizaçáo que faremos com a introdução de
llklnrlr's, nos ocrìparemos apenas das variáveis quantitativas. Vamos
It'etrlrr os casos discreto e contínuo, pois a atribuição de probabilidades
h' r'trt ciulrt situação. As variáveis qualitativas podem ser, em algumas
! E corrl o ctovido cuidado, tratadas como discretas na atribuição de
hliirlt's,
Utnir rilrirrrticlaclc X, associada a cada possível resultado do espaço
, é tlt'rrrrrrrirtirdn dc veviável aleatória discreta, se assume valores num
r etttttrrel'iivol, corn certa probabilidade. Por outro lado, será denominada
ctle'ttltit'itt t:rtttlítuta, se seu conjunto de valores é qualquer intervalo dos
iFntH. o tltrc scria um conjunto não enumerável.
( !r rnlrì i'i rrtcrrcionamos arnteriormente, existem variáveis que são
çrrlr rlrl'irritlls courcl discretas ou contínuas, porém essa atribuição não é
e rlt';rt.trth-r tkr irrstrumento de medida e do estudo que está sendo feito.
Életttlrlrr, rr virliiivol tninrero dc,filltos em.famílias é discreta, enquanto o
clr te'tt1'titt u utn t:erlo mulicdnrcnÍ.o ó contínua. A discussão sobre
iflr.ttç;to rh' vrrliiivcis, lbitn lro Capítulo l, serír utilizada em todo o texto e a
fEl rtl:.'tttrrt'itt ir itcrcscicln itqui pttt'it inclicar qtle, áÌ cada possível valor,
r!1 unut prohullilidnclc clc ocorrôlrciu. No caso discreto, a atribuição é
57
58 Capítulo 3: Varidveis Aleatórias Disc
similar à tabela de freqüência; jáL
generalizaçáo da idéia de histograma.
Neste capítllo apresentamos os
variáveis aleatórias discretas, deixando
contínuo.
Seja X uml variável aleatória discreta e 11,12,ryt..., seus dife
valores.
Definição3.1: Função dìscreta de probabilidade
A função que atribui a cada valor da variável aleatória sua probabr
é denominada de função discreta de probabilidade ou, simplesmente, função
probabilidade. Anotaçáo a ser utilizada é:
P(X = r;) : p(r1) : pi,'i : I,2,...
ou ainda,
Uma função de probabilidade satisfaz 0 1 p, < 1
"
I pt : L.
Note que, na maioria dos casos, X terâ apenas um número finito
valores possíveis e, assim, a verificação de qge a soma de probabilidades é igunl
I será feita através deuma soma finita. As variáveis aleatórias são complet
caracterizadas pela sua função de probabilidade e uma parte importantg
Estatística é, justamente, obter, para uma dada variável de interesse, a funçÍlo
probabilidade que melhor represente seu comportamento na população.
Exemplo 3.1.' Com dados do último censo, a assistente social de um Centro
Saúde constatou que para as famílias da região, 20Vo não têm filhos, 30o/o tê,m
no caso contínuo, utilizaremos
resultados e modelos mais comuns
para o Capítulo 6 a discussão do
filho, 35Vo têm dois e as restantes se dividem iryglgrglf" entre três, quatro
cinco filhos. Suponha que uma família será es'colhida, aleatoriamente, ne
região e o número de filhos averiguado. Definimos N como sendo a vari
aleatória ntimero deftlhos e consideramos que a escolha é feita entre as cli
opções de valores parn N. Isto é, náo importa qual a família escolhida, mas
qual é a resposta dada quanto ao número de filhos. Desse mocJo, est
sorteando um valor deNdentre 0,7,2,3, 4 ou 5. A função de probabilidaclo
variável segue das informações disponíveis, isto ó, como 20ok das l'amílius
têm filhos, então a ptobabilidade de uma ftrrrríliir sortcacla ao iÌcaso niro ter I'ilhoË
levam de
folr,t,lrt1,t,,
=
(l) 0,20. De forma semelhante, temos que P(l'r : 1) : 0,30 e
=: '=l ) 0,1ì5. Para completar a catacterização probabilística a variável
lrt N. Íjrltn obter as probabilidades P(lí : 3), P(l/ :4) e P(N : 5).
r rrs irrÍìlrmações fomecidas, elas são iguais e, digamos, têm valor p.
r rr rlcl'irtição de função discreta de probabilidade, temos que:
/)(N : 0) + P(.^'r : 1) * ... + P(,^f - 5) :
0,20 + 0,30 +0,35 + p+ p + P : r
0,85 + 3p: I
0,15èp:ï:0,05.
ê Ftttrçiìo rlc probabilidade para l/ é dada pela tabela a seguir:
\1 .1,): Nir construção de um certo prédio, as fundações devem atingir 15
de prolìrnrliclade e, para cada 5 metros de estacas colocadas, o operador
lé lrorrvt. ;rltcração no ritmo de perfuração previamente estabelecido. Essa
É icsrrltlulo de mudanças para mais ou para menos, na resistência do
Nps rlçis c1sos, medidas corretivas serão necessárias, encarecendo o
dÊ pltru, ('otrì lrase em avaliações geológicas, admite-se que a probabilidade
tliit rltr irltcrações é de 0,1 para cada 5 metros. O custo básico inicial é
tlf'('s (rrrrirllrlc padrão de construção) e será acrescido de 50k, com k
rtirhr o rrtirncto de alterações observadas. Como Se comporta a variável
ÉÉr rilrtrrs tkr lìtndaçito?
Assrrrrrirrros cluc as alterações ocorrem independentemente entre cada um
$r ltrt,,rvitlos tlc -5 metros e representamos por A a ocorrência de alteração
ê*lç, lrrlr,rrzlo, scltclo Á'' seu complementar. A Figura 3.1 apresenta as trôs
!,r!u (ìs possívcis resultados da perfuração. Cada etapa tem duas
llrlri,l,'s (lu(:, (lr.riurclo combinadas com as outras duas etapas, originam 8
là ç-vlrrlos. lÌlr cxcmplo, o evento AA"A representa que, na primeira e na
ClÍllill,, it(.()tìloccriÌl-n alterações, enquanto que na segunda nada se alterou.
letfrr ri ll ('lirl)irs, coltt 2 possibilidades emcadauma, temos no total 23 :B
59
tr
I I r-r,|nço itrttoslt'itl cclnsistc na união de todos os caminhos que
pHltlrlr {riil!o (llr iirvorc clc probabiliclacles,
60 Capítulo 3: Variáveis Aleatórias Discretas
^0,t4-----_-----0,9 A"
o"
o' on,
0,9
Figura 3.1: Árvore de probabilidades- alterações no subsolo.
Sendo C a varilrvel aleatória custo da obra, obtemos a seguinte tabela:
Eventos Probabilidade Ú' (em UPCs)
AAA 0,1" 250
AAA" 0,12 x 0,9 200
AA.A 0,12 x 0,9 200
AA"A" 0,1 x 0,92 150
A.AA 0,12 x 0,9 200
A.AA. 0,1 x 0,92 150
A" AcA 0,1 x 0,9' 150
AcAcAc 0,9 t 100
Note que associamos a cada evento do espaço amostral um valor para a
variável aleatória C. Os distintos possíveis valores são c1
-
100, cz: L50,
cs : 200 a c4 :250. Além disso, podemos ter um mesmo valor da variável
associado a mais de um elemento do espaço amostral, por exemplo,
P(C : cz) : P(C: 150) : P(AAA'l) AAA'U A"A"A).
Tendo em vista que os eventos são disjuntos, a probabilidade da união fica sendo
simplesmente a soma das probabilidades de cada evento. Então,
lllln,ilrrç'ïro
P(C :150) : P(AA"A') + P(A'AA") + P(A'A'A)
:3 x 0,1 x 0,92 :0,243.
ptrrlrlbilidades para os outros valores de C podem ser obtidas de modo
r, r'csultando na seguinte função de probabilidade:
lìrrrna, o comportamento da variável de interesse pode ser estudado através
ãtsoc:iação de cada custo com sua probabilidade de ocorrência. Essa
tçiio pode auxiliar na previsão de gastos e na elaboração de orçamentos. I
Vlmos considerar agora exemplos em que as probabilidades associadas
ê[:rucrrtos do espaço amostral são obtidas a partir de uma suposição teórica.
3.3r Considere o experimento de lançar uma certa moeda é observar se
número de caras emeilnr ou coroa. Descreva o comportamento da variável
lilnçt mentos dessa moeda.
Sc denotamos por ly' a variável de interesse, segue imediatamente que l/
nssrrrrrir os valores 0, 1 ou 2.Para atribuir probabilidades a cada um desses
ó rrecessário fazu alguma suposição a respeito da probabilidade de
rciir de cara ou coroa. Admitindo que a moeda é equilibrada, as
lrilitlrrcles de cada face serão iguais, isto é, P(cara): P(coroa) : Ll2.
ttos ainda a independência entre lançamentos, de modo que a ocorrência de
rlclclnrinada face no primeiro lançamento não altere a probabilidade de cara
€proír n0 segundo lançamento.
l)oclemos considerar como espaço amostral o seguinte conjunto:
g : {cc ,c R, RC , RR},
( I c /Ì rcpresentando a ocorrôncia de cara e coroa, respectivamente.
l'lra deduzir a função de probabilidade de
-ôy', observe que o valor 1
ã€rrttr. rros cventos CR e ÃC, enquanto que os valores 0 e 2 têm apenas um
Éïetttrr ir cles associado, respectivamente, -RÃ e CC. Segue então que as
pfehnlrilitlucles associadas aos valores de Iy' são as seguintes:
61
tr
62 Capítulo 3: Variáveis Aleatórias Disc
Exemplo 3.4: tJmjogador paga 5 fichas para participar de um jogo de
disputando com a banca quem tem o ponto maior. O jogador e a banca
cada um o seu dado e a seguinte regra de premiação é estabelecida:
- se o Ponto do Joga
ponto e o obtido pela banca;
do jogador é maior, ele ganha 2 vezes a diferença entre o
se o ponto do jogador é menor ou igual ao da banca, ele não ganha
O que você acha desse jogo?
Vamos admitir que os dados utilizados são perfeitamente homogêneos,
tal forma que não há preferência na ocorrência de qualquer uma das seis f
Assim, podemos considerar que os pares de valores (b, i) representt
respectivamente, o resultado obtido pela banca e pelo jogador, têm a met
probabilidade de ocorrência. Isto é, qualquer par tem probabilidade 1136
ocorrer.
Para cada par (b,7) sorteado, a premiação é baseada nos seus va
Definimos a variável aleatória discreta G como sendo o ganho bruto do io
em uma jogada, isto é, o valor arrecadado sem descontar as fichas iniciais
para participar do jogo. Pela regra de premiação' segue que:
t:l o, se i<b.
Dessa forma, se o jogador obtém 5 e a banca 6, temos G : 0 pois j < b (5 <
Por outro lado, se o jogador tira 3 e a bancaJ, o valor do ganho bruto do j
serâG:2x(3-1):4.
O espaço amostral, correspondente a uma jogada, é apresentado a
através dos pares (b, j):
(1,1)
(2,1)
(3,1)
(4,1)
(5, 1)
(6,1)
(\,2) (1,3)(2,2) (2,3)
(3, 2) (3,3)(4,2) (4,3)(5,2) (5,3)(6,2) (6,3)(r,4) (1,5)(2,4) (2,5)(3,4) (3, 5)(4,4) (4,5)(5,4) (5,5)(6,4) (6,5)
(1,6
(2,6
(3,6
(4,6
(5,6
(6,6
O valor G : 0 acontecerá quando o ponto do jogador for menor ou
ao da banca. Esse caso corresponde ao seguinte subconjunto do espaço
unrrr;rletos cstÍo na tabela a seguir.
63
(1, 1)(2,L) (2,2)(3,1) (3,2)(4,1) (4,2)(5,1) (5,2)(6,1) (6,2)
(3,3)(4,3) (4,4)(5,3) (5,4) (5,5)(6,3) (6,4) (6,5) (6,6)
3l 1r,t'.r tôrn todos a mesma probabilidade de ocorrência e, portanto,Jtlf'l 0) :21136. De modo análogo, calculamos os demais valores e
ê futtçiio clc probabilidade:
(;l 0 2 4 6 B 10
7t, I ztlze 5lJ6 4lJ6 Jls6 2186 Llz6
fiubrc o jogo fica, então, evidente. Tendo em vista as 5 fichas pagas
o
.jogirclor só não terâ prejuízo nos casos em que obtiver 6, 8 ou 10de, rctorno, o que acontece com probabilidade
!/aC t lf 36:6/36. Portanto, o jogo é altamente favorável à banca e,
€rint nruitl sorte (1/36), o jogador ganharâ o dobro do que apostou. tr
Ent vriliirs situações é útil calcular a probabilidade acumulada até um
, A tlel'inição a seguir apresenta esse conceito.
ã,2: Itunção de distribuição de probabilídade
$ Jiutr;iltt dc tlistribuição ou função acuru.ulada de probabilidade de uma
ãlerrlririrr cliscretzr X é definida, para qualquer número real r, pela
€xpl'rsstìo:
!F(r): P(X < r)
J,.f,' llrrt população de 1.000 crianças foi analisada num estudo para
n cl'ctiviclnclc de uma vacina contra um tipo de alergia. No estudo, as
fer.t:lrirrnr r.rrna dose de vacina e, após um mês, passavam por um novo
r rritrrlir livcsscm tido alguma reação alérgica, recebiam outra dose da
Ao lirrr rlc.5 closcs todas as crianças foram consideradas imunizadas. Os
l)oses 2 3 4 5
í'r'ccy. 245 28tì 256 t45 66
n
64 Capítulo 3: Variáveis Aleatórias Discre
Supondo que uma criança dessa populaçáo ê sorteada ao acaso, qual será
probabilidade dela ter recebido 2 doses? Utilizando a idéia de atribui
probabilidade através da freqüência de ocorrência, a probabilidade desejada é
288/1000:0,288. A função de probabilidade da variável aleatíria número
doses recebidas fica sendo:
Suponha, agoÍa, que desejamos calcular a probabilidade da criança ter recebi
até duas vacinas. O que precisamos obter é a função de distribuição no ponto
ou seja, calculamos a probabilidade acumulada de ocorrência de valores men
ou iguais a 2. Assim,
F(2) : P(X < 2) : P(X : 1) * P(X :2) : 0,533.
Note que, tendo em vista que avariánel só assume valores inteiros, esse valor
inalterado no intervalo 12,3).Isto é, F(2,L);F(2,45) ou F(2,99) têm todos
mesmo valor acirn*a. Por essa razão escrevemos:
F(r):P(X<r) :0,533 Pata2 (r(3'
Os valores completos da função de distribuição são os seguintes:
",r,
:
{
0
0,245
0,533
0,789
0,934
1
.ser<1;
se 1( r 12;
se 2( r13;
se 3(r14;
se 4( r15;
se r)5.
A notação utilizada para escrever a função de distribuição pode,
primeira vista, parecer confusa, mas como as contas efetuadas são simp
acreditamos que com um pouco de treino o leitor ficará familiarizado com
função. A Figura 3.2 apresenta um diagrama dessa função.
0,145
65
I(.r)
l,Õoo
9,954
Õ,7fltl
€,É113
012s45
I,'lgura 3.2: Função de distribuição - doses de vacina.
3,6.' Nurn cstudo sobre a incidência de câncer foi registrado, para cada
eonr essc diagnóstico, o número de casos de câncer em parentes
(pais, ilrniros, tios, filhos, primos e sobrinhos). Os dados de 26 pacientes
irttes:
Èllltcliorcs irssurnem que a incidência de câncer em parentes próximos
teut'icrrrrrcrrto nrodelada pela seguinte função discreta de probabilidade:
frh*ir,t'vitrlos concordam com o modelo teórico?
Fg tnlrcln rlc dados brutos com as 26 observações, coletamos para cada
dê vtrt'liivel, o númcro de suas ocorrências. Por outro lado, seguindo o
5
tcót'ico, o rrrirrrcro cle observações que seria esperado em cada incidência
66 Capítulo 3: Variáveis Aleatórias Discre
(freqüência esperada) é calculado coÍno €i:26x pi. Note que os valores
esperados não precisam ser números inteiros, pois representam uma freqüência
teórica caso o modelo fosse adequado. A tabela a seguir apresenta os resultados:
Incidência n; (observados) ei (esperados)
0 4 216
1 4 216
2 6 7,8
3 6 7,9
4 2 216
5 4 216
total 26 26
Representando em um mesmo diagrama as duas freqüências obtemos:
Notamos que os dados observados seguem a mesma tendência do
teórico, porém seus valores são dis-crepantes. É uma amostra pequena, mas
não haver boa adaptação entre os dois conjuntos de números.
67
tlc Scçõo 3.1:
fltu*rlii viciada tem probabilidade de cara igual a 0,4. Para dois
nlos itttlcpcndentes dessa moeda, estude o comportamento da variável
rlet rttnlr c lìrça um gráfico de sua função de distribuição.
bgcu ltrt itrlìlrrnação que você conhece, crie os valores e as respectivas
em famílias, no caso dalirlrrrlcs f)ura a variável número de filhos
lsçõn eonsiclcrada ser:
€lgx*e rtrr"ídil paulistana.
hehitntrtcs clo interior do Maranhão.
ëgtttittlro lturit chcgar a uma festa pode ser dividido em três etapas. Sem
o tlrr.jeto ó I'cito em t hora. Se enganos acontecem na primeira etapa,
[e l0 rninutos ao tempo do trajeto. Para enganos na segunda etapa, o
tÌtn É 20 o, pilra er terceira, 30 minutos. Admita que a probabilidade de
é 0, I ; 0,2 e 0,3 para a primeira, segunda e terceira etapas,
vênlenÍc. I'i provável haver atraso na chegada à festa? Determine a
Irlurk tlc ltavcr atraso, e o atraso não passar de 40 minutos.
iãátttetn de iuros prestando vestibular para conseguir uma vaga na
lttlc. esíÍr scttdo estudado. As carreiras têm procura diferentes e, em
delux, o col-r'ullrì pode ser prestar vestibular mais de um ano. Suponha
€ttiolltr'tttos, ito acaso, um dos ingressantes da sua carreira. Que
Itlirtle vocô atribuiria (invente!) à necessidade de 1, 2,3, ...anos de
I
levrt tt í'illro to cinema e vai gastar nas duas entradas R$ 15. O filho vai
plltll e onre r pipocu com probabilidade 0,'l e, além disso, pode pedir bala
pnrbnbilidnrlc 0,9. Esses pedidos são atendidos pelo pai com
illtllrlc 0,.5; inclcpendentemente um do outro. Se a pipoca custa R$ 2. e a
fl$.1, r,strrrlc o gusto eletuado com a ida ao cinema.
Vntl:lvrl rrh:lttirin X tcrn a seguinte função de distribuição:
se r<10;
se 10(r1I2;
se 12(r<13;
se 1"3 ( r 125;
se r)25.
r,'l',1
,t v
{ü
P(r) :
68 Capítulo 3: Variáveis Aleatórias Disc
Determine:
a. A função de probabilidade de X.
b. P(x < L2). í-
c. P(X < L2).
d.P12<X<20).
e.P(x t rs). (t
3.2 Principais Modelos Discretos
Os exemplos da seção anterior ajudam a esclarecer a relação entre
variável e a realização do experimento aleatório que a origina. Cada possí
elemento do espaço amostral é uma realizaçáo do experimento e corresponde
um valor da variável, nem sempre distinto.
Algumas variáveis aleatórias aparecem com bastante freqüêncra
situações práticas e justificam um estudo mais aprofundado. Em geral
casos, a distribuição de probabilidade pode ser escrita de uma maneira
compacta, isto é, existe uma lei para atribuir as probabilidades.
Por exemplo, se uma variável aleatória W tem função de probabili
dada por
wl r 2 3 4 5 6
então, escrevemos essas probabilidades como P(W : k) : k
k:L,2,...,6. Dessa maneira, temos uma forma abreviada de apresentar
variável e sua função de probabilidade. Vamos apresentar os principais mode
de variáveis aleatórias discretas, começando pelo mais simples a seguir, quo
aquele que atribui igual probabilidade a todos os possíveis valores da variável,
Definição 3.3: Modelo Uniforme Discreto
Seja X uma variável aleatória cujos possíveis valores são represe
por Jü1
,
t2,r."1,...,tt. Dizemos que X segue o modelo Uniforme Discreto
atribui a mesma probabilidade llk a cada um desses k valores, isto é, sua fu
de probabilidade é dada por
P(X : x.ì : Ilk: ,V.:i : L,2,... ,k. ããn rlrt pirrlit'rtlrtr escolltu tlo núntcro,
I
I tlt't t n la lr ts D iscretos
€i êrdl'icrr tln densidade é apresentado na Figura 3.3 para o caso k : L0.
Fl,r =.r )
69
E,l0
B,tlH
E,Ofi
g,Õ4
€,sa
2 3 4 5 6 7 I 9 l0 x
ú'ittura 3,3: Modelo Uniforme Discreto [0, 10].
Clhrelve (ple it cxpressão na definição anterior, de fato, representa umn
dhet'etn rlc llrubabilidade, uma vez que seus valores estão no intervitlcl
Ë Fntilr tle loclits as probabilidades é igual a 1. O modelo Uniforrne tem
i pofrlue loclos os seus valores ocorrem com a mesma probabilidade e,
pedetnus tlizer quc a probabilidade se distribui uniformemente entre os
1[hrres,
J,7,' llrrrn rilìr tcrl 100 billretes numerados de 1 a 100. Tenho 5 bilhetes
lvrrr nrtnre'rrulrts dc 2l 'd 25 e meu colega tem outros 5 bilhetes, col'ì1 os
I l, I l, .l(), (rtJ c 93. Quem tem maior possibilidade de ser sorteado?Ã prlrìreill vistn tcnr-se a impressão de que "espalhar" os números é tt
llìtllleill ([. giltìlìitr o $orteio. Entretanto, assumindo a honestidade da ritìt,
Ël tttintr:rus lettt it ttrcsma probabilidade de ôcorrência, com l/100 para cnclit
$ Yntlrivel ttletttór'ia cm questão, o nú,mero sorteado, segue o rnodelo
Fr prrllrrrrlu, !:u c mcu colcgit com 5 bilhetes temos et fiìesll1lt
llrhirlo t[' gnttltitr l riÍÌr. Ncstc sorteio, como no modelo Unilorme cttt
É lltllnr ou tncllot'probabiliclade clc garrhar clcpcndc dc quantos bilhetes'sc
tr
70 Capítulo 3: Varidveis Aleatórias Disc
Em muitas situações práticas a variável de interesse assume somente
valores. Por exemplo, â peça é classificada como boa ou defeituosa;
entrevistado concorda ou não com a afirmação feita; a vacina imunizou ou
criança. Estas situações têm alternativas dicotômicas, que genericamente
ser representadas por respostas do tipo sucesso-fracasso. A atribuição de qual
respostas será referida como sucesso é feita de modo arbitrário, mas deve
definida claramente para evitar ambigüidades. Esses experimentos recebem
nome de Ensaios de Bernoulli e dã,o origem a uma variável aleatória com
mesmo nome.
Dffinição 3.4: Modelo Bernoullí
Dizemos que uma variável X segue o modelo Bernoulli se atribui Õ ou
ocorrência de fracasso ou sucesso, respectivamente. Com p representando
probabilidade de sucesso, 0 ( p 1 7, sua função discreta de probabilidade é
por
p
ou, de modo resumido, P(X
-
r) : p'' (7
- O1L-:r: , r :0,L
A repetição de ensaios de Bernoulli independentes dá origem à
importante variável aleatória discreta denominada modelo Binomial.
Exemplo 3.8.' Sabe-se que a eficiência de ume vacina é de 80Vo. Um grupo de
indivíduos é sorteado, dentre a população vacinada, e submetido a testes
averiguar se a imunização foi efetiva, evento representado por .I. A árvore
probabilidades é apresen tada a seguir.
0,8 /
.
--_-_--_-_-.----..
0,2 I
,"
o''
',,
0,2 t
s
7t
\ ..lir""\ - {-'r
'^ J - ' ., '-''tl.t A l, n I t' I o^t I)iscretos
{F r'nrrsllrril a /rrvore de probabilidades, consideramos que a escolha dos
or loi I'cilir a partir de uma população muito grande. Dessa forma, cadit
ebuullritkr torn probabilidade 0,80 de estar imunizado, independente dos
vírlrros rllr população. Se classificamos como sucesso a ocorrência dc
r, lururs ir repetição independente de três ensaios de Bernoulli.
{Lle rlt'srrjirnros estudar o comportamento da variável X: número dc
llrrrrrrizrrrkls nesse grupo. Ela assume os valores 0, 1,2 e 3 cont
le,ri t'ir['rrlirclas com o auxílio da árvore e apresentadas na tabela:
Eventos Probabilidade X
TTT 0,8' J
ITI'' 0,Bz x 0,2 2
I T,'I 0,82 x 0,2 2
T I,'1,' 0,8 x 0,22 I
rII 0,8" x 0,2 2
[( J J(: 0,8 x 0,2" 1
T,'1,, I 0,8 x 0,22 1
[( I( J(l 0,2" 0
nrcnle, ir Íìrnçiro de probabilidade de
0
X fica sendo
2
o,2ir ll x o,B x 0,22 3 x 0,82 x 0,2 0,8'
f,l çrrnrpurturrre:nlo tlc X ó completamente determinado pela função acima,
lirlrrrlrs lirrrrbótl podem ser escritas através da expressão
I'(,ï Â') x o,gÀ' x or23-k" k :0,7,2,3.
:lue Ê?rlirti lrrohllliliclirclcs correspondem aos temos do desenvolvimcntojustifica o nome escolhiclo pala
ú
: (i)
0,8
Irr rlr. Newl91 rlo (0,8 + 0,2):Ì, o qr-re
72 Capítulo 3: Variáveis Aleatórias Discretas
Definíção 3.5: Modelo Binomial
Considere a repetição de n ensaios de Bernoulli independentes e todos
com a mesma probabilidade de sucesso p. A variâvel aleatória que conta o
núrmero total de sucessos é denominada Binomial com parâmetros n e p e sua
função de probabilidade é dada por
$
P(X : rl : (i,)ru (i
-
p)''-k, k : 0,L,2,...,n,
com (ii) representando o coeficiente binomial calculado por
(n\
-
nt.
\n) - kG-4.
Usaremos a notação X
-U1,",p) paraindicar que a variável aleatória X segue o
modelo Binomial com parâmetros n e p. tr
É importante notar que as probabilidades são completamente
caracterizadas pela informação dos parâmetros. Por exemplo, desejando calcular a
probtrbilidade de 3 sucessos numa b(12;0,4) temos
P(x
-
3) : (lj;o,n'0,6n - -1{e,4s o,6e : 0,142 .
De modo similar, obtemos os outros valores da função discreta de probabilidade:
X 0 I 2
-t 4 5 6
Pt' 0,002 0,017 0,064 0,142 0,2r3 0,227 0,777
X l 8 9 10 11 12
Pt 0,101 0,042 0,012 0,002 0+ 0+
O valor 0+ indica uma probabilidade muito pequena que, na aproximação de
rnilésimos (3 casas após a vírgula), não teve casa decimal diferente de zero.
Diversos programas computacionais contêm rotinas que calculam as
probabilidades da distribuição Binomial e alguns livros-texto incluem tabelas
dessa clistribuiçiro, para vários valores dos parâmetros.
.ì,2 Principais Modelos Discretos
Em muitas situações práticas, a variável Binomial aparece a partir de
outras variáveis, através da criação de duas categorias excludentes, como no
excmplo a seguir.
Ilxemplo 3.9: O escore em um teste internacional de proficiência na língua
itrglesa varia de 0 a 700 pontos, com mais pontos indicando um melhor
rlcscmpenho. Informações, coletadas durante vários anos, permitem estabelecer o
scgr.rinte modelo para o desempenho no teste:
Pontos lo,200) 200,300) 1300,400) 1400,500) 1500,600) 1600,7001
n; 0,06. 0,15 0,16 0r25 0,28 0,10
VÍrits universidades americanas, exigem um escore mínimo de 600 pontos para
ruccitar candidatos de países de língua não inglesa. De um grande grupo de
estudantes brasileiros que prestaram o último exame, escolhemos ao acaso 20
tlclcs. Qual seria a probabilidade de no máximo 3 atenderem ao requisito mínimo
ttrcncionado?
Vamos admitir que a tabela acima representa o escore dos estudantes que
estÍio prestando esse último exame. Essa é uma suposiçáo razoixel tendo em vista
clrc a tabela foi feita a partir de um conjunto muito grande de dados. Isto quer
rliz,cr que um aluno selecionado ao acaso apresentará um dos vários escores de
ttcordo com as probabilidades apresentadas na tabela. Por exemplo, a chance de
nprcsentar menos de 200 pontos é 0,06. Admitimos ainda que os estudantes
lunsileiros têm comportamento similar aos demais e portanto a tabela também
porlc ser usada para representar esse desempenho.
Pelo critério das universidades, o estudante é classificado como apto, se
neu cscore é de 600 pontos ou mais, caso contrário, será considerado não apto.
l)cssa fbrma, para cada indivíduo, teremos a classificação de apto ou não, feita de
ttrotlo independente e com as seguintes probabilidades
P(aPto) : 0,10 e P(não apto) : 6,99 .
Definindo uma nova variável X como o número de estudantes aptos
tlrttlrc os 20, temos que X
-
b(20;0,10). A probabilidade de no máximo 3 serem
nptos ó calculada pela função de distribuição no ponto 3, ou seja,
73
I)ç'ssr Íbrma, temos:
F(3) :P(x<3).
74 Capítulo 3: Varidveis Aleatórias Discretas
: 0,r22 + 0,270 + 0,285 + 0,190 : 0,867.
Esse valor reflete as altas probabilidades atribuídas aos escores menores de 600,
conforme o modelo de desempenho no teste. tr
Exemplo 3.10: Um veterinário está estudando o índicede natalidade em porcos
sujeitos à inseminação artificial. Para tal, coletou informações sobre a variável
número de fllhotes nascidos vivos em cada uma das 100 inseminações re'alizadas
com o mesmo reprodutor. A tabela a seguir apresenta os resultados.
Número ) 2 J 4 5 6 7 8 9
Freq. Observada 1 6 7 9a 26 2L L2 tt) 1
É muito comum buscar estabelecer um modelo para a variável de interesse, o que
nesse caso possibilitaria, por exemplo, p comparação entre diferentes
reprodutores. O veterinário informa que 11 ou mais filhotes nascidos vivos é uma
ocorrência muito rara e pode ser desprezada em termos de modelÒ. Nestes termos,
ele sugeriu considerar que a variável N: número de filhotes nascidos vivos,
poderia ser ajustada pelo modelo Binomial com parâmetros n : 10 e p: 0,5. O
que você acha da sugestão do veterinário?
Note que, mesmo não tendo havido nenhuma observação do valor 0 ou
10, o veterinário sugeriu o modelo de uma variável que contém esses valores, pois
apesar de não serem comuns eles podem acontecer. Com o modelo sugerido,
calculamos as probabilidades de cada um dos valores de 0 a 10 e, a partir deles, os
resultados que seriam esperados em 100 inseminações realizadas. Por exemplo,
r1x 3ly : ã (ï) 0,1È o,e2o-È
: (ï)0,100,e20. (ï)0,11 0,e1e. (ï)0,120,e18. (ï)0,130,e17
(ï;o,t'0,53: o,rr.;P(N :7) :
Fígura 3.4: Gráfico de freqüências- natalidade em porcos.
!
75.ì.2 Principais Modelos Discretos
e, cntão, podemos concluir por uma expectativa de ll,7 nascimentos com 7
I'ilhotes dentre as 100 inseminações. Observe que os valores esperados não
prccisam ser números inteiros, pois representam uma freqüôncia teórica de
ocorrência. A tabela a seguir contém os valores observados e os esperados, se o
nxrclelo Binomial fosse utilizado.
Filhotes 0 2 3 4 5 6 7 8 9 t0
lrrccl. Observada 0 1 6 7 23 26 2t t2 ,) I 0
Iì'cq. Esperada 0,1 I 4,4 tr,7 20,5 24,6 20,5 I,7 4,4 1 0,1
O modelo proposto parece se ajustar bem aos dados observados (veja a
F'igtrra 3.4) e tendemos a acreditar que o modelo Binomial é uma escolhn
ttdccluada. A representação gráfica torna-se assim, um importante passo inicial
purt auxiliar na escolha de um modelo probabilístico. A verificação aqui foi
flpcnas visual, mas é possível estabelecer procedimentos estatísticos que testam o
ajustc do modelo proposto de forma objetiva. Procedimentos mais rigorosos
devcrn ser utilizados para a decisão final e podem se basear em um teste
estirtístico conhecido como Teste de Aderência. tr
a
o
Observada
Esperada
7 I I 10
Filhotês
76 Capítulo 3: Variáveis Aleatórias Discretas
Ao finalizar essa seção, é oportuno mencionar as diferentes formas
utilizadas para referenciar os modelos teóricos das variáveis aleatórias. Por
exemplo, alguns autores referem-se a uma variável aleatória com distribuição
Binomial enquanto outros enfatizam uma variável aleatória seguindo o modelo
Binomial. Neste livro, vamos utilizar indistintamente essas duas formas que
consideramos equivalentes.
Bxercícios da Seção 3.2:
1. Discuta a validade do modelo Uniforme Discreto nos seguintes casos:
a. O número sorteado numa rifa com 100 números.
b. A escolha de um aluno que vai representar a classe junto à direção da
escola.
c. O dia da semana em que ocorrem mais acidentes de trabalho numa indústria.
d. O mês do ano com maior número de enchentes na cidade de São Paulo.
2. Sendo X uma variável seguindo o modelo Uniforme Discreto, com valores no
conjunto {L,2,3,.. . , 10}, pergunta-se:
a. P(X > 7\./
b.P(3 <X<7).
' c. P(X 12 ou t > 8).i
d..P(X)5ouX>B))
,1 e.P(X)3e X<6). \,
' çf. P(x < e lx 2 o;.r
3. Um usuário de transporte coletivo chega pontualmente às 8 horas para pegar o
seu ônibus. Devido ao trânsito caótico, a demora pode ser qualquer tempo
entre 1 e 20 minutos (admita que o relógio "pule" de minuto em minuto).
Pergunta-se:
a. Qual a probabilidade de demorar mais de 10 minutos? e
b. Qual a probabilidade de demorar pelo menos 5 mas não mais de 10 minutos?
c. Qual a probabilidade da demora não chegar a 5 minutos?q._ d. Se um amigo chegou 10 minutos atrasado e vai pegar o mesmo ônibus (que
/n ainda não passou), qual a probabilidade do amigo atrasado esperar até 3
minutos? L
4. Discuta a validade do modelo Binomial nos seguintes casos:
a. Dos alunos de uma grande universidade, sorteamos 5 e contamos quantos se
declaram usuários de drogas.
.ì,.1 Outros Modelos Discretos
b. Escolhemos 20 lâmpadas ao acaso na prateleira de um supermercado, sendo
10 de uma fábrica e 10 de outra. Contamos o número total de defeituosas.
c. Quinze automóveis 0 km de uma mesma marca e tipo são submetidos a um
teste anti-poluição e contamos o número deles que passaram no teste.
d. Um motorista é submetido a um teste em que deve estacionar seu veículo
num pequeno espaço (isto é popularmente chamado defazer baliza). Em l0
tentativas, contamos o número de vezes em que o motorista estacionou
corretamente.
5. Sendo X uma variável seguindo o modelo Binomial com parâmetros n : 15 e
P:0,4; Pergunta-se:
a. P(X > 14).
lr.P(8<X<10).
c. P(X 12 ou X > 11).
d. P(X ) tL ou X > 13).
a.P(X)3eX<6).
r. P(x < 13lx > 11).
6. Urna certa doença pode ser curada atravós de procedimento cinirgi co em 80Vo
dos casos. Dentre os que têm essa doença, sorteamos 15 pacientes que serão
submetidos à cirurgia. Fazendo alguma suposição adicional que julgar
nccessária, responda qual é_a probabilidade de:
ru. Todos serem curados? L--
ll. Pelo menos dois rìão serem curados?
c. Ao menos l0 ficarem livres da doença?
7. Calcule a função de distribuição da variável X nos casos:
t. X éBernoulli com p : 0,6.
b. X
-
b(4;0,20).
c. X - b(B;O,10).
3.3 Outros Modelos Discretos
Apresentamos, nesta seção, os modelos Geométrico, Poisson c
lliptrgcométrico, que têm várias aplicações práticas, conforme ilustram os
e'xcrnrplos desta seção. Na seção anterior, os modelos definidos assumiram apenas
rrrrr número finito de varlores distintos. Foi assim com o modelo Unifbrme
l)iscrcto com valores L,2,,..,À;, Bernoulli com 0 e L e Binomial com os valores
77
78 Capítulo 3: Variáveis Aleatórias Discretas
0, 1,...,n, Como veremos a seguir, os modelos Geométrico e Poisson podem ter
um número infinito de valores dentre os inteiros positivos.
Definição 3.6: Modelo Geométrico
Dizemos que uma variável aleatória X tem distribuição Geométrica de
parâmetro p, se sua função de probabilidade tem a forma
P(X: k): p(L- p)o', 0 < p 1le k:0,1,2,....
Nesse caso, usaremos a notação X- G(p). tr
Interpretando p como a probabilidade de sucesso, a distribuição
Geométrica pode ser pensada como o número de ensaios de Bernoulli que
precedem o primeiro sucesso. Note que a expressão apresentada na Definição 3.6
é de fato uma função de probabilidade, pois é positiva e sua soma é igual a 1,
conforme pode ser verificado através da fórmula da soma de progressão
geométrica (PG) infinita:
@mm
8"," - k): [of t - p)Ã :et (1 - p)^ : r_fr1: r
Exemplo 3,11: lJma linha de produção está sendo analisada para efeito de
controle da qualidade das pêças produzidad. Tendo em vista o alto padrão
requerido, a produção é interrompida para regulagem toda vez que uma peça
defeituosa é observada. Se 0,01 é a probabilidade da peça ser defeituosa, estude o
comportamento da variável Q, quantidade de peças boas produzidas antes da la.
defeituosa.
Vamos admitir que cada peça processada tem a mesma probabilidade de
ser defeituosa, independentemente da qualidade das demais. Sendo a ocorrência
de peça defeituosa um sucesso, podemos aplicar o modelo Geomótrico. Observe
que o número de peças boas produzidas é exatamente o quanto se "espera" para a
ocorrência do primeiro sucesso. Temos,
P(Q :k) :0,01 x 0,99À', k:0,L,2,"',
cuja representação grâfica está na Figura 3.5.
Iüf,t
.1.-l Outros Modelos Discretos
P(Q=
0,010
0,008
0,006
0,004
0,002
0 4 I 12 16 20 24 28 32 36 40 44 48 tc
Figura3.5: Modelo Geométrico (n:0,01).
Clorno podemos verificar através da figura, a probabilidade vai ficando muito
llc(luena para valores grandes de k. Em tese, a produção nunca seria interrompida
se rriro houvesse o aparecimento de uma peça defeituosa. tr
Detïnição 3.7: Modelo Poisson
Uma variável aleatória X tem distribuigão de Poisson com parâmetro
À > 0, se sua função de probabilidade é dada por
P(X
=/c) : e-]'Àk , k : 0,1,2, ... ,\/kl
corìì o parâmetro À sendo usualmente referido como a taxa de ocorrência, A
trnotução utilizadaserâ X- Po(\).
O modelo Poisson tem sido muito utilizado em experimentos físicos e
lriológicos e, nesses casos, À é a freqüência média ou esperada de ocorrêncins
trtrrn determinado intervalo de tempo, Vamos verificar que a expressão
rrprcsentada realmente representa uma função de probabilidade. Não é difícil
rrlrscrvar que, para qualquer k, ela é um número positivo. Resta mostrar que tls
prrrllabilidades somam 1. Temos,
79
80 Capítulo 3: Variáveis Aleatórias Discretas
Ëtt" : 4=Ë# : "-^Ë# : e-\eÀ : r'l':0 k:U Á:ll
No cálculo acima, usamos que a série \R' 1kt , somada para valores de k entre 0 e
oo, produz eÀ. Esse resultado é bastante conhecido e segue do desenvolvimento
em série de Taylor do termo el. O leitor interessado poderá consultar, para outros
detalhes, textos básicos de Cálculo Diferencial e Integral.
Exemplo 3.12: A emissão de partículas radioativas tem sido modelada através de
uma distribuição de Poisson, com o valor do parâmetro dependendo da fonte
utilizada. Suponha que o número de partículas alfa, emitidas por minuto, seja uma
variável aleatória seguindo o modelo Poisson com parâmetro 5, isto é, a taxa
média de ocorrência é de 5 emissões a cada minuto. Calculemos a probabilidade
de haver mais de 2 emissões em um minuto.
Seja Á o ntimero de partículas alfa emitidas por minuto. Pelas suposições
feitas, temos A
-
Po(5) e a probabilidade desejada será
6 , $e-s,nP(A> 2) :t P(A:a) :1-t P(A:0) :1- 4 o,l
Após os cálculos n":"lrrur,or, obtemos ir'o 12) : 0,875. **r"r"t,"*os na
Figura 3.6, alguns valores da função discreta de probabilidade da Po(5).
P(N=n)
0,1 8
0,16
0,14
o,12
0,1 0
0;08
0,0 6
0,04
0,02
4 6 I 10 12 14 16 18
Figura 3.6: Modelo Poisson (),: 5).
20
=1,.1 Otrtros Modelos Discretos
Se o intervalo de tempo é alterado, a variável aleatória mantém a mesma
dlrtritruição de Poisson, mas com o valor do parâmetro ajustado de forma
Ggrrvcniente. Assim, se o período de tempo considerado for de dois minutos,
tglepros que o número de partículas emitidas em dois minutos terá distribuição
Po( l 0),
Eyemplo 3./3; Engenheiros da companhia telefônica estudam se o modelo de
Poisson pode ser ajustado ao número N de chamadas interestaduais que chegam,
FÕr [ora, a uma central telefônica, durante o período notumo. Os dados coletadOS,
Efl:r'cntes a 650 períodos de uma hora, estão apresentados a seguir:
Chamadas 0 1 2 t 4 5 6 7 >8
Freq. Observada I 38 7t 115 r25 106 79 50 57
Da tabela temos que, por exemplo, em 125 períodos de uma hora
€€orrcram 4 chamadas.
Os engenheiros sugerem rttilizar uma taxa de ocorrência de 4-5-chamadas
pet lrora no período estudado. Seguindo o modelo indicado, a freqüência esperada
{g ocorrências com k chamadas é obtida multiplicando 650 (o total das
ãbnr-t'vações) pela probabilidade de k chamadas. Assim, para k : 2, temos
81
tr
Freq. esperadapara 2 chamadas : 650 x
:650x
:73,13.
P(N :2)
"-4's
4152
2l
Ee rrurclo análogo obtemos os demais valores.
utrlas 0 I 2 3 4 5 6 7 >8
rvadn a 38 71 115 125 106 79 50 57
iì 7,22 32,50 73,13 109,66 123,37 111,02 83,27 53,56 56,36
Flr'!
LOhsc
fllsl'1
A tabela acima parece indicar que o modelo Poisson, com À : 4,5
ftl'rrr..c,c unr bom ajuste para a variável aleatóiia de interesse. O leitor pode
e'otrslnrir um gráfico de freqüência'para visualizar melhor essa aderência. A
cxh.nsiro clessas conclusões aos diferentes períodos de tempo e/ou outros tipos de
G:hirrrrncla deve ser feita com cuidado, porém o ajuste já obtido é uma "boa pista"
Flt'n il cscolha do modelo. Como mencionamos anteriormente, a conclusão obtida
82 Capítulo 3: Variáveis ,Aleatórias Discretas
aqui poderia ser feita de modo mais objetivo através de Testes Estatísticos de
Aderência. tr
Encerramos esta seção, definindo o modelo Hipergeométrico. Este
moclelo surge da contagem de objetos de certo tipo, retirados ao acaso e sem
reposição, de um conjunto contendo dois tipos de objetos. Por exemplo, num
grupo de jovens com 5 meninas e 5 meninos, sorteamos 3 deles ao acaso, para
íazer uma comissão. O sorteio será feito sem reposiçáo, para evitar a escolha de
utrìiì mesma pessoa, o que inviabilizaria a formação da comissão. Na primeira
escolha cada um dos 10 jovens tem 1/10 de probabilidade de ser sorteado. Na
segunda, cada um dos 9 restantes, será sorteado com probabilidade I/9 e, na
terceira, 1/8. A variável aleatória número de meninas na comissão segue o modelo
Hipergeométrico, conforme definido abaixo.
Definição 3.8 : Modelo Hipergeométríco
Considere um conjunto de n objetos dos quais msáo do tipo I e n
-
m
são do tipo II. Para um sorteio de r objetos (r < n), feito ao acaso e sem
reposição, defina X como o número de objetos de tipo I selecionados. Diremos
que a variável aleatória X segue o modelo Hipergeométrico e sua função de
probabilidade é dada pela expressão
,^., _
(T) (",--T ) ,- _ ., , ^;^t_P(X:*)- /n,\ ,k:A,I,...,min(r,rn). tr("/
Note que os valores possíveis de X vão de 0 a min(r,rn), uma vez que
não podemos ter mais do que o número de objetos existentes do tipo I, nem
tillnpouco mais que o total de sorteados. Utilizando resultados de análise
combirratória, pode-se verificar que a expressão de P(X : k) é um número não
negativo entre 0 e 1 e a soma, para todos os valores de k, éigual a l. Assim estão
cumpridos os requisitos necessários para ser uma função de probabilidade.
Exentplo 3.14: Uma fátbrica produz peças que são embaladas em caixas com 25
unidades. Para aceitar o lote enviado por essa fábrica, o controle de qualidade de
uma empresa procede da seguinte forma. Sorteia uma caixa do lote e, em seguida,
sorteia cinco peças, sem reposição, dessa mesma caixa. Se constatar no máximo
dr"ras defeituosas, aceita o lote fornecido pela fábrica. Se a caixa sorteada tivesse 4
pcças defeituosas, qual seria a probabilidade de rejeitar o lote?
,ì..ì Outros Modelos Discretos
A caixa pode ter peças boas ou defeituosas e vamos sortear algumas
pcças, sem reposição. Baseado no número de peças defeituosas encontradas
rlccidimos por aceitar ou rejeitar o lote. Seja D a variável que conta o número de
pcrças defeituosas neste sorteio. Ela segue o modelo Hipergeométrico e vamos
itlcrrtilicar os diversos parâmetros. O total de peças é n:25, o número de
elel'cituosas é m : 4 e o número de retiradas é r : 5.
P(aceitar o lote) : P(no máximo 2 peças defeituosas) : P(D < 2).
lintiio,
p(D<r) : (á).(';) . (ï)=('i ) . (Í)=!'il
-0,e84('J) (',J) (',J)
C-oncluímos que, mesmo havendo quatro defeituosas na caixa inspecionada, a
probabilidade de aceitar o Iote é 0,984 ou, equivalentemente, para rejeitar o lote a
prolrabilidade é 0,016. Claro que, na prâtica, não saberemos quantas peças
rlcÍcituosas existem em cada caixa. Entretanto, a probabilidade calculada acima
purlcria ser um indicativo para avaliar se o critério do controle de qualidade está
t'rrzoiivel ou não e, neste caso, parece que não! Poderíamos também criar uma
tobcla contendo os valores da probabilidade de rejeição do lote, em função de
Irrrvcr certo número de peças defeituosas na caixa sorteada. tr
l,lxcrcícios da Seção 3.3:
l. Scndo X(DG(0,4), calcule:
n. P(X:3).
b.P(2<X<4).
c. P(X > LIX < 2).
rl. P(X > 1).
2. IJrrrir moeda equilibrada élançada sucessivamente, de modo independente, até
(f ue ocorra a primeira cara. Seja X avariâvel aleatória que contao número de
lirnçamentos anteriores à ocorrência de cara. Determine:
u. P(X < 2).
b. P(X > 1).
c.P(3<x<5).
rl. Quantas vezes deve, no mínimo, ser lançada a moeda para garantir a
ocorrência de cara com pelo menos 0,8 de probabilidade.
83
8{ Capítulo 3: Variáveis Aleatórias Discretas
3. A variírvel aleatória Y temdensidade poisson com parâmetro À : 2. obtenha:
a. P(Y < 2),
b.P(2<Y <4).
c. P(Y > 0).
d. P(Y: 1l]'< 3).
4. A aplicação de fundo anti-corosivo em chapas de aço de 1 m2 é feita
mecanicamente e pode produzir defeitos (pequenas boihas na pintura), de
ncordo com uma variável aleatória poisson de parâmetro À : t pã, *2. ú-a
chapa é sorteada ao acaso para ser inspecionadã, pergunta-se a probabilidade
de:
n. Encontrarmos pelo menos I defeito.
b. No máximo 2 defeitos serem encontrados.
c. Encontrarmos de 2 a 4 defeitos.
d. Não mais de 1 defeito ser encontrado.
5. A variável 11 segue o modelo Hipergeométrico com parâmetros n: r0,m : 5
a r' : 4. Determine:
a, P(H :2).
b. P(H < L).
c. P(f/ > 0).
6. Por engano 3 peças defeituosas foram misturadas com boas formando um lote
corn l2 peças no total. Escolhendo ao acaso.,4 dessas peças, determine a
probabi lidade de encontrar:
n. Pelo menos 2 defeituosas. t
b. No rnírximo I defeituosa.
c. No mírrimo I boa.
3.4 Exercícios
l. urn agricultor cultiva laranjas e também produz mudas para vender. Após
irlguns meses a muda pode ser atacada por fungos
"o- p.ôbubilidade 0,0j e,nesse cASo, ela é escolhida para ser recuperada com probabilidade 0,5. Admita
que o processo de recuperaçáo é infalível. o custo áe cada muda produzida élì$ 1,00; acrescido de mais R$ 0,50 se precisar ser recuperada. Cada muda é
vorrdida a R$ 3,00 e são descartadas as mudas não recuperadas de ataque de
lïngos. Estude como se comporta o ganho por muda produzida.
3,4 [ixercícios
LJrna agência de turismo apresenta aos clientes o orçamento de uma certa
viagem em duas partes. A primeira é o transporte aéreo que têm três opções
com preços 3;3,5 e 4 mil reais e preferências de escolha de 0,5; O,3 e 0,2 para
;rs companhias TWA, TWB e TWC, respectivamente. A segunda parte do
or'çamento é a escolha de estadia. Existem quatro opções de hotéis que custam
2; 2,5; 3 e 3,5 mil reais e são escolhidos pelos clientes com a mesma
prcferência, independentemente da companhia aérea. Seja x a variável
irlcatória orçamento da viagem. Calcule a função de probabilidade e a função
rlc distribuição da variável X .
Urn equipamento consiste de duas peças A e B que têm 0,10 e 0,15 de
;lrobabilidade de serem de qualidade inferior. um operário escolhe ao acaso
utniÌ peça tipo A e uma tipo B para construir o equipamento. Na passagem pelo
controle de qualidade o equipamento vai ser classificado. Será considerado
como nível I, se as peças A e B forem de qualidade inferior. será nível II, se
trrna delas for de qualidade inferior e, nível III, no outro caso. o lucro na venda
ó dc R$ 10, R$ 20 ou R$ 30 para os níveis I, II ou III, respectivamente. Como se
cornporta a variável lucro? Para dois equipamentos vendidos, obtenha a função
tlo probabilidade do lucro. Nesse caso, qual seria a probabilidade de pelo
rrìonos R$ 30 de lucro?
Na verificação de máquinas, observam-se as partes elétrica, mecânica e
estrutural. A probabilidade de aparecer uma falha em cada uma das partes é
0,01; independente das demais. ocorrendo falha, o tempo de conserto é ro,z0
orr 50 minutos para falha elétrica, mecânica ou estrutural, respectivamente. Se
rr Íalha elétrica aparece junto com a falha mecânica, teremos ainda um
ircróscimo de 20 minutos. Para uma máquina escolhida ao acaso, qual a
lrrobabilidade do tempo de interrupção (se não há falha, esse tempo ê, zero):
tt. Durar menos de 25 minutos?
b. Ultrapassar 40 minutos?
llrna empresa paga a seus estagiários de engenharia de acordo com o ano de
ctrrso do estudante. Para se obter o salário mensal pago por 30 horas semanais,
rnrrltiplica-se o salário mínimo pelo ano de curso do estagiário. Dessa forma, o
trstudante {o primeiro ano ganha um salário mínimo, o do segundo recebe dois
r' itssim por diante até o quinto ano. A empresa vai empregar 2 novos
cstngiírrios e admitimos que todos os anos têm igual número de estudantes
intcressados no estágio (considere a população de candidatos muito grande de
trulclo a não haver diferença entre escolher com ou sem reposição). pergunta-se
;r protrabilidade de:
86 Capítulo 3: Variíweis Aleatórias Discretas
a. Os dois serem do primeiro ano?
b. A empresa gastar no máximo 3 salários míninos com os estágios?
c. Sabendo que gastou pelo menos 4, gastar menos de 7 salários mínimos?
6. Uma variável aleatória X tem a seguinte função de distribuição:
",rr:
{
0 se r<-1;
0,2 se
-1 1 r 12;0,5 se 2(r15;
0,7 se 5(r16;
0,9 se6(r115;
1 se r)15.
Determine:
a. A função de probabilidade de X.
b. P(x <
-2).
c. P(X < 2).
d.P(3<X<12).
e. P(X > 14).
7. Estatísticas de acidentes, num trecho da rodovia SP330, indicam probabilidade
de 0,05 de haver um acidente durante a madrugada (24 às 6 horas). Em
ocorrendo um acidente nesse período, a chance de gerar vítimas é de 0,5.
Ainda considerando o período acima, se acontece um acidente com vítima, ela
será fatal com probabilidade 0,1. o serviço de ajuda aos usuáriqs :utiliza 2
veículos na inspeção do tráfego naquela ârea. A esse número, acrescentamos
mais 2 se houver acidente. Se o acidente tem vítimas, acrescente aos anteriores
mais 2 veículos e, finalmente, acrescente mais 1 se a vítima for fatal. Encontre
a lunção de probabilidade da variável aleatória ntimero de veículos em serviço
de auxílio nessa estrada durante a madrugada.
8. Em treinamento de animais, usa-se a repetição como estratégia de
aprendizagem. Num experimento, um macaco realiza certa tarefa corretamente,
pela primeita vez, com probabilidade 0,5. Caso falhe, a probabilidade de
realizar corretamente na segunda tentativa cresce I\Vo, ou seja, a probabilidade
é, agora 0,55 e assim sucessivamente. Admita que o experimento termina em
quatro tentativas ou antes, na primeira vez que o macaco acertar. Descreva o
comportamento probabilístico do número de tentativas.
.1.4 Exercícios
9. Num certo restaurante, paga-se pelo almoço uma quantia fixa dependendo da
escolha feita de prato e bebida. A carne de peixe tem I}Vo de preferência,
enquanto frango tem 40Vo e carne bovina 50Vo. As três escolhas de bebida
estão condicionadas à opção do prato, segundo a tabela abaixo:
Opção:Peixe Cerveia Agua Vinho
P(Bebida Peixe) 0,4 0,3 0,3
Admita os seguintes preços:
Pedido Peixe Frango Bovina Cerveja Agua Vinho
Preço T2 l5 t8 6 J 9
ru. Dado que alguém escolhe peixe, qual a probabilidade de que escolha
cerveja?
ll. Se escolhe carne bovina, qual a probabilidade de tomar vinho?
c. Sabendo que tomou água, qual a chance de ter escolhido frango?
tl. Determine a função de probabilidade para cada uma das variáveis X: preço
do almoço e Y: preço do almoço para aqueles que preferem cerveja.
l(1. Supondo igualdade de probabilidade entre nascimentos de cada sexo, para
rrrrra família com três filhos, calcule a probabilidade de que:
a. Exatamente dois sejam do sexo masculino.
ll. Pelo menos um deles ser do sexo masculino.
c. Todos serem do sexo feminino.
lf . tJrn time paulista de futebol tem probabilidade 0,92 de vitória sempre que
ioga. Se o time a\uar 4 vezes, determine a probabilidade de que vença
n. Toctas as 4 partidas.
b. Exatamente 2 partidas
c. Pelo menos uma partida.
tl. No rnáximo 3 partidas.
87
Opcão: Frango Cerveia Azua Vinho
P(Bebida I Frango) 0,3 0,5 012
Opção:Bovina Cerveja Agua Vinho
P(Bebida I Bovina) 0,6 0'3 0,1
88 Capítulo 3: Variáveis Aleatórias Discretas
e. Mais da metade das partidas.
12.tJm certo equipamento é expedido em lotes de 500 unidades. Antes que uma
remessa seja aprovada, um inspetor escolhe 5 desses equipamentos e os
inspeciona. Se nenhum dos equipamentosinspecionados for defeituoso, o lote
é aprovado. Se um ou mais equipamentos forem defeituosos, todos as unidades
são inspecionadas. Suponha que existam, de fato, dez equipamentos
defeituosos no lote. Utilizando uma suposição conveniente, qual é, a
probabilidade de que seja necessário testar todos os equipamentos?
13. Suponha que um modelo teórico para a variável notas em um teste de história
(X), ê dado por:
P(X: i1 : , j:0,7,2,...,10.
Para 2l alunos submetidos a esse teste, apresentamos um resumo de suas
notas:
Notas Freqüência
0-2 6
2-4 10
4-6 5
6F8 5
8 Ft10 1
Um professor desconfia que o modelo não é adequado. O que você acha?
14. Um laboratório estuda a emissão de partículas de certo material radioativo.
Seja l/; número de partícula; emitidas em I minuto. O laboratório admite que
l/ tem função de probabilidade Poisson com parâmetro 5, isto é,
--5
^AP(.^/ : k) :;, k:0,7,2,....
a. Calcule a probabilidade de que em um minuto não haja emissões de
partículas.
b. Determine a probabilidade de que pelo menos uma partícula seja emitida em
um minuto.
c. Qual a probabilidade que, em um minuto, o número de partículas emitidas
esteja entre 2 e 5 (inclusive)?
lj - 111
66
.1,,1 lixercícios
lS.Considere uma variável aleatória Xassumindo os valores 0,1,2,...,5 e tal
clLre P(X : j) :/c x 0,8 x 0,2i, i : 0,L,2,...,5.
ir. Para qual valor de k a expressão acima é uma função de probabilidade?
lr. Calcule P(X :3 I X < 5).
lír. Uma vacina contra a gripe é eficiente em707o dos casos. Sorteamos, ao acaso,
20 dos pacientes vacinados e pergunta-se a probabilidade de obter:
ru. Pelo menos 18 imunizados.
b. No máximo 4 imunizados.
c. Não mais do que 3 não imunizados,
17. 25Vo dos universitários de São Paulo praticam esporte. Escolhendo-se, ao
ilcilso, 15 desses estudantes determine a probabilidade de:
a. Pelo menos 2 deles serem esportistas.
b. No mínimo 12 deles não serem esportistas:
c. Havendo mais de 5 esportistas no grupo, obtermos menos de 7 que praticam
esporte.
Itl. As pacientes diagnosticadas com câncer de mama precocemente têm 80Vo de
probabilidade de serem completamente curadas. Para um grupo de 12 pacientes
lìessas condições, calcule a probabilidade de:
:r. Oito ficarem completamente curadas.
ll. Não serem curadas de 3 a 5 pacientes.
c. Não mais de 2 permanecerem com a doença.
19. A resistência (em toneladas) de vigas de concreto produzidas por uma
clrpresa, comporta-se conforme a função de probabilidade abaixo:
Admita que essas vigas são aprovadas para uso em construções se suportarem
pclo menos 3 toneladas. De um grande lote fabricado pela empresa,
cscolhemos 15 vigas ao acaso. Qual será a probabilidade de:
a. Todas serem aptas para construções?
ll. No mínimo 13 serem aptas?
2{). Ern momentos de pico, a chegada de aviões a um aeroporto se dá segundo o
rnodelo Poisson com taxa de 1 por minuto.
ru. Determine a probabilidade de 3 chegadas em um minuto qualquer do horário
de pico.
89
Resistência
90 Capítulo 3: Variáveis Aleatórias Discretas
b. se o aeroporto pode atender 2 aviões por rninuto, qual a probabilidade de
haver aviões sem atendimento imediato?
c. Previsões para os próximos anos indicam que o tráfego deve dobrar nesse
aeroporto, enquanto que a capacidade de atendimento poderá ser no
máximo ampliada em 50vo. como ficaút a probabilidade de espera por
atendimento?
21. IJma indústria de tintas recebe pedidos de seus vendedores através de fax,
telefone e Internet. o número de pedidos que chegam por qualquer meio (no
horário comercial) é uma variável aleatória discreta com distribuição Poisson
com taxa de 5 pedidos por hora.
a. Calcule a probabilidade de mais de 2 pedidos por hora.
b. Em um dia de trabalho (8 horas), qual seria a probabilidade de haver 50
pedidos?
c. Não haver nenhum pedido, em um dia de trabalho, é um evento raro?
22. No estudo do desempenho de uma central de computação, o acesso à unidade
central de Processamento (cPU) é assumido ser poisson com 4 requisições
por segundo. Essas requisições podem ser de várias naturezas tais como:
imprimir um arquivo, efetuar um certo cálculo ou enviar uma mensagem pela
Internet, entre outras.
a. Escolhendo-se ao acaso um intervalo de 1 segundo, qual é a probabilidade
de haver mais de 2 acessos à cPU? E do número de acessos não ultrapassar
5?
b. considerando agora o intervalo de 10 segundos, também escolhido ao acaso,
qual é a probabilidade de haver 50 acessos?
23. Toda manhã, antes de iniciar a produção, o setor de manutenção de uma
indústria faz a verificação de todo o equipamento. A experiência indica que em
95vo dos dias tudo está bem e a produção se inicia. caso haja algum problema,
uma revisão completa será feita e a indústria só começarâ a trabalhar após o
almoço. Faça alguma suposição adicional que julgar necessária e respondá:
a. Qual é a probabilidade de demorar 10 dias para aprimeira revisão completa?
b. E de demorar pelo menos l5 dias?
c. um esquema de manutenção, com revisão preventiva, está sendo montado
de modo a evitar a revisão completa num dia aleatório. Deterrïrine um dia d,
tal que probabilidade de quebra além de d seja pelo menos igual a 0,6.
Revisando conr intervalos de d dias, o que estaremos garantindo?
3,4 Ii.rercícios
24, Considere uma variável aleatória X
-
G (0,8). Construa uma nova variável
)/ tal que Y : X para os valores 0,1,2,...,5 e Y : 6 para X ) 6. Dessa
Íìrrma, Y corresponde ao truncamento de X a valores menores ou iguais a 6.
( )btenha a função de probabilidade de Y e calcule:
r. P(Y :2).
b. O valor da função de distribuição (acumulada) no ponto 2,5.
c. P(Y : 3lY < 5).
d.P(Y>3eX<8).
25. A duração (em centenas de horas) de'uma lâmpada especial segue o modelo
Ceométrico com parâmetro çt :0,7. Determine a probabilidade da lâmpada:
rr. Durar menos de 500 horas.
b. Durar mais de 200 e menos de 400 horas.
c. Sabendo-se que vai durar mais de 300 horas, durar mais de 800 horas.
rl. O item anterior é uma aplicação de um resultado geral válido para o modelo
Geométrico. Assim, mostre que para X
-
G (p) e quaisquer números
inteiros positivos rn e n,vale P(X > m * nlX > m)
=
P(X > n).
2ír. l}n um estudo sobre o crescimento de jacarés, uma pequena lagoa contém 4
cxemplares de espécie A e 5 da espécie B. A evolução de peso e tamanho dos 9
.iacarés da lagoa é acompanhada pelos pesquisadores através de capturas
pcriódicas. Determine a probabilidade de, em três jacarés capturados de uma
vcz, obtermos:
ru. Todos da espécie A.
b. Nem todos serem da espécie B.
c. A maioria ser da espécie A.
27, Un livreiro descuidado mistura 4 exemplares defeituosos junto com outros 16
pcrfeitos de um certo livro didático. Quatro amigas vão a essa livraria para
cornprar seus livros escolares.
ir. Calcule a probabilidade de 3 levarem livros defeituosos.
ll. Qual a probabilidade de, após a visita dessas meninas, restarem o mesmo
número de defeituosos na livraria? E de não restar nenhum?
2ll. (Use o computador) Para os dados apresentados na Tabela l.l no Capítulo l.
l. Construa a tabela de freqüências para a variável Exer, horas de atividade
i'ísica por semana.
b. Suponha que 5 pessoas são selecionadas ao acaso. Qual a probabilidade de
que 3 delas pratiquem, pelo menos, 6 horas de atividade física por semana?
91
92 Capítulo 3: Variáveis Aleatórias Discretas
c. Repita o item (b) calculando a probabilidade de todas as pessoas escolhidas
praticarem pelo menos 6 horas de atividade física.
29. (Use o computador) Considere a variável altura apresentada na Tabela 1.1,
Capítulo 1.
a. Crie uma variável lj assumindo o valor 1 se a altura do indivíduo e for
maior que a média de altura da população (indivídu os altos) e 0 caso
contrário (indivíduos baixos). Apresente a distribuição de freqüência para
esta variável e uma representação grâfica adequada.
b. Suponha que 13 alunos vão ser sorteados com reposiçãoe a cada um deles
será associada uma variável V, ,i:1, ..., 13. Defina X: número de alunos
altos. Como você expressaria X em termos das variáveisY, i,: 1, ..., 13?
c. Obtenhauma amostra de 100 valores da variável X, isto é, repita 100 vezes
o sorteio de 13 alunos nas condições do item (b). Construa uma tabela de
freqüências.
d. Qual seria o modelo de probabilidades adequado para as variâveis Y;,
'i : L,...,73? O modelo Binomial se aplica para X? Em caso afirmativo,
quais seriam os parâmetros? Justifique suas resposta. (Uma boa idéia é
calcular valores esperados e observados e colocá-los em um mesmo
gráfico).
e. Assumindo que o modelo Binomial é adequado para X:
i. Calcule P(X :7), P(X < 9)
"
P(0 S X < 13).
ir'. Qual é a probabilidade de pelo menos 4 alunos serem baixosT E de
mais de 7 e menos do que 12 alunos serem altos?
30. (Use o computador) Considere os dados do arquivo aeusp.txt descrito no
Exercício 26, Capítulo L
a. Para a variável Temposp, construa uma tabela de freqüência com faixas de
tamanho 10, a partir dq zero. Obtenha o histograma correspondente e
discuta a adequação de algum modelo discreto a esses dados.
b. Faça um histograma da variável Resid. Verifique se o modelo Binomial com
parâmetros n: l0 e p : 0,5 seria adequado para representar o
comportamento dessa variável na população.
Capítulo 4
Medidas Resumo
4.1 Introdução
Neste capítulo, vamos apresentar algumas medidas que buscam sumarizar
âs informações disponíveis sobre o comlortamento de uma variável. podemos
del'inir essas medidas nos casos de ur.t còìilnto de dados ôu de uma função de
prrrbabilidade de variável aleatória. Apesar danatureza diferente de cada caso, as
itcrtlidas terão a mesma interpretação, variando apenas na forma de serem
çtrlcu ladas.
Lembremos que, no Capítulo 1, tivemos a oportunidade de discutir
Illg,ttrnas técnicas para estudar e apresentar descritivamente quantidades na
peipulação, seja por tabelas de freqüências ou por gráficos adequados. o conjunto
tle dados com que trabalhamos poderia ser toda a população ou apenas uma parte
delir. Já estudamos, no capítulo anterior, que a representação de eventos de
lnlcrcsse pode ser feita através de variáveis aleatórias discretas e definimos alguns
ntotlclos cuja ocorrência na vida prática é mais comum.
Nosso interesse é caracterizar o conjunto de dados através de medidas que
fsstllìliìm a informação, por exemplo, representando a tendência central dos dados
gu ir rnaneira pela qual estes dados estão dispersos. Tais medidas também podem
FL'r' tlcfinidas para variáveis aleatórias, permitindo caracterizâ-las de forma
ãetrrclhante ao que é feito para um conjunto de dados qualquer.
4.2 Medidas de Posição
Se estamos numa parada de ônibus urbano e nos pedem alguma
llrÍ'orrnação sobre a demora em passar um determinado ônibus, que diremos?
Nirrgtrórn imagina que poderíamos dar como resposta uma tabela de freqüências
rltr(' l)acientemente coletamos no último mês, ou ano! Tampouco, seria adequado
ttllt1'sclìtar um modelo teórico pelo qual teríamos ajustado o comportamento da
virrirívcl aleatória de interesse. Quem perguntou deseja uma resposta breve e
t,tllrirla que sintetize a informação que dispomos e não uma completa descrição dos
tlltrlos colctados ou da modelagem que porventura fizemos.
e3
94 Capítulo 4: Medidas Resumo
Nesta seção, definiremos medidas de posição ot medidas de tendência
central para um conjunto de dados qualquer (população ou amostra) e, então,
consideraremos as correspondentes definições para variáveis aleatórias.
Definição 4./: Medidas de posição para um conjunto de dados
Considere uma variável X com observações representadas por
ï1,t2,... ,tn,. A média desse conjunto é a soma dos valores dividida pelo número
total de observações. Isto é,
Iohs:
rL+ir2*..,*rI,
A mediana, representad a pot rnd,,6r, é o valor que ocupa a posição central
dos dados ordenados.
A moda é dada pelo valor mais freqüente e será denotada poÍ moobs.
Se houver possibilidade de confusão, faremos menção à variável X
representando a mediana e a moda por md,,6r(X) e mo,,6r(X) tr
Note que as definições acima também podem ser aplicadas quando o
conjunto de dados jâ estâ organizado numa tabela de freqüência. Por exemplo,
para a média temos
n
D*ui:T
n
rohs: ntrt * n2r2 * "' I TTÀ'íxAt
A:Dr,.ru À;i:l f-?'ài
n - 4n*"nt*"'lnk,
e, assim, 7n6, pode ser pensada como a média dos k diferentes valores, ponderada
pelas respectivas freqüências relativas de ocorrência. De modo análogo também
podemos obter, através da tabelabe freqüência, a mediana e a moda.
Exemplo 4.1.. Suponha que parafusos a serem utilizados em tomadas elétricas são
embalados em caixas rotuladas como contendo 100 unidades. Em uma construção,
10 caixas de um lote tiveram o número de parafusos contados, fornecendo os
valores 98, 102, 100, 100, 99,97,96,95,99, 100. Para essas caixas, o número
médio de parafusos será dado por
1,) Madidas de Posição
Notcr que o número de parafusos, em cada caixa, ó um valor inteiro, porém, a
Ftérlirr não precisa ser necessariamente um número inteiro, Para este exemplo,
tclrros que, em média, as caixas contém 98,6 parafusos.
Colocando os dados em ordem crescente, obtemos: 95,96,97,98,99,99,
100, 100, 100 e 102. Neste caso, como o número de elementos no conjunto de
datlos ó 10, um número par, tomamos a mediana como sendo a média dos dois
Yãhrrcs que ocupam a posição central. Temos
99+99
ftrdrh, : : 99.
E imediato que o valor mais freqüente ó 100 e assim, mo,,1,.
-
L00. tr
As medidas de posição podem ser utilizadas em conjunto para auxiliar a
êndliso dos dados ou, em determinadas situações, uma pode ser mais conveniente
6o rpr,: a outra. Por exemplo, se um ou mais valores são muito discrepantes do que
€
gerirl das observações, a média será muito influenciad.a por este valor, tornando-
ã1 nssirn, inadequada para representar aquele conjunto de dados. Se uma das
€êlxirs ao invés de 95 tivesse 45 parafusos, a média passaria de 98,6 para 93,6.
NcFl('' cilso, como a mediana não é afetada por valores discrepantes, seu uso seri0
ffiêis irclcquado para representar os dados. Por outro lado, para conjuntos de dados
€Õttr rrruitas observações, a mediana é difícil de ser calculada, uma vez que o
pfoccsso de ordenação é custoso, mesmo com o uso de computadores. É nindn
Egtttrrrrr o aparecimento de distribuições multimodais, isto é, conjuntos de dados
QE:-r possuem mais de uma, moda. Como regra geral, .precisamos usar essfls
ffieclitlirs com o cuidado de não distorcer informações e características dos dados
quË rlril iunos analisando.
llm muitos casos, a variável de iqteresse não é observada diretamente e é
Unln Íìlrìção do conjunto original de dados. Assim, pode ser necessário considerar
ãs vrrlorcs originais multiplicados ou acrescidos de constantes para produzir.um
lltivo corrjunto de valores. Nos próximos exemplos, estudamos como as medidas
de grosiçiro se alteram e veremos como podem ser obtidas a partir das respectivas
flterlirlirs do conjunto original.
El'entplo y'.2.. Nas caixas de parafusos do Exemplo 4.1, vamos admitir um custo
de ,' p,rr paraÍìso e de e pela embalagem da caixa. Desejamos calcular as medidas
ele lrtrsição clo custo total (T), definido como a soma dos custos dos parafusos c
dtt t'rrrlrirhgcm. Iniciamos, calculando as novas medidas de posição apenas piÌra o
ëulttt líqttido por caixa (.L), isto é, o custo dos parafusos contidos na caixa sem it
95
9()
embalagem. Temos,
MédiadeL:lnbs:
Para a mediana segue que,
9Bc f I02c *.'. * 100c 986 c
Capítulo 4: Medidas Resumo
10 : 98,6 c.10
mdr,6r(L) : 99c*99c :99c,
e, sern maiores dificuldades, moo65(L) : 100 c. Concluímos que a multiplicação
;rcla constante c resultou em que as novas medidas de posição são as antigas
nrultiplicadas por c.
Vamosincluiragoraocustodaembalagem.Ascaixascustarão
98c * e, L02c*e,...,100 c+e.
Entãro,
í,,hs: (9Bc + e) +... + (100c + e) _ 9B6c * 10e :98,6c * e.10 10
Il fácil ver que para a mediana md"6,(T) : 99c * e e que para a moda,
tno,1,"(T): 100c * e. Dessa forma, o acréscimo por uma quantidade e teve o
eí'eito de somar essa mesma constante às medidas de po.sição. n
Iixemplo 4.3: Foram coletadas 150 observações da variável x, representando o
ttúnlaro de vestibulares FUVEST (um por ano) que um mesmo estudante prestou,
Assim, foi observado que 75 estudantes prestaram vestibular FUVEST, uma única
vcz, e assim por diante. Os dados estão na tabela abaixo:
Calculando as medidas de posição de X, obtemos
Ix75t_2x47-t3x2I+4x7
I $#t'l''' -
\'
150
: Lr73;
4,2 Merlidas de Posição
,,!0/l'
.jÊ'', md'o1,"(X) :t' /'
n"ff\P.To,,,(x) :
75" + 76" I+2
1.
Potlt scr de inteúse estudar o gasto dos alunos associado com as despesas do
ï€stilrular. Para simplificar um pouco a situação, vamos supor que se atribui, para
€êdu irluno, uma despesa fixa de R$ 1300, relativa à preparação e mais R$ 50 para
Eãeltr vcstibular prestado. De posse dessas informações, vamos calcular as medldas
€e posição da variável D: despesa com vestibular. Pela definição desta nova
QUnrrlirladc temos
50x
t!
--
LCgt,, clo cálculo que fizemos, vem imediatamente que
ãoh.,:50 x 1,73 * 1300 :
md,o1,r(D) x 1,5 * 1300 : 1375;
mo"1,"(D) : 50 x 1 + 1300 : 1350.
fuenplo 4.4: l-lm estudante está procurando um estágio para o próximo ano. As
€Btttltrurlrias A e B têm programas de estágios e oferecem uma remuneração por
ãÕ lr,,r',,* semanais com as seguintes características (em salários mínimos):
Companhia A B
média )5 2,0
mediana T,7 1.9
moda 1,5 l,g
QUttl c.rrnpanhia é mais adequada?
lrricialmente vamos discutir as informações fornecidas, supondo que o
ëlttttlirrrtc terít seu salário "escolhido" de acordo com uma política salarial
FcErrrrritlir na tabela anterior. A companhia Á tem 50vo dos seus estagiários
@r'elrrtttltl ú(: l,'7 salários mínimos e o valor com maior freqüência de ocorrência
,é f ,t, ('rrrÌìo a média é2,5 deve haver alguns poucos estagiáiios com salário bem
llìtris irlío, isto ó, valor alto de salário com freqüência pequena de ocorrência. A
€Elrtlrttttltiit R tem as três medidas bem próximas indicando umaíazoâvel simetria
êltttr: sllítrios altos e baixos. A opção do estudante dependerá de sua qualificação.
fI
9,ï Capítulo 4: Medidas Resumo
Se ele for bem qualificado, deve preferir a companhia ,4, pois terá mais chance de
obter um dos altos salários. Se tiver qualificação próxima ou abaixo dos outros
cstudantes, deve preferir a B que parece ter uma política mais homogênea de
trsalários.
vamos, agora, descrever algumas medidas associadas às variáveis
aleatórias eue, como já mencionamos, serão correspondentes às medidas
apresentadas para um conjunto de dados.
sabemos que a descrição completa do comportamento da variável
aleatória discreta é, feita através da sua função de probabilidade. Assim sendo, é
razoável pensar que, qualquer que seja a quantidade destinada a resumir esse
comportamento, sua definição deverá envolver, de alguma forma, essa função de
probabilidade.
A medida mais popular é o valor esperado, ou simplesmente média, el
representa o ponto de equilíbrio da distribuição de seus valores. Da mesma forma,
como mencionado no caso de um conjunto qualquer de valores, o uso do valor
esperado como síntese de toda a informação pode levar a distorções e
interpretações equivocadas. Em especial, é possível construir uma função de
probabilidade, com valores da variável muito diferentes uns dos outros, em que a
rnódia não caracteriza o real comportamento da variável aleatória. A média junto
com a moda e a mediana são medidas de posição ou de tendência central e são
clefinidas a seguir.
Suponha que os possíveis valores da variável aleatória sejam
rcpresentados por tt, 12, . . .
, tÃ., com correspondentes probabilidades
'l)t,'l)2,',.
,Pk.
De.finição 4.2: Medidas de posição para varídveis aleatórias discretas
A média, valor esperado ol esperança de uma variável X é dada pela
cxprcssão:
À
E(X) : Dr, ou .
' i:L
umer notação alternativa é representar E(x) por px ou simplesmente p, se não
Itouver possibilidade de confusão.
A mediana é o valor Md que satisfaz às seguintes condições
P(x > Md)>Ll2 e P(x < Md) > 1/2.
1,2 Al*lidas de Posição
irlgurnas situações, as
o intervalo e, nesse
99
desigualdades são satisfeitas por qualquer valor num
caso, tomamos a mediana como o ponto médio do
A moda é o valor (ou valores) da variável que tem maior probabilidade de
Egrt'êttcia, representando-a por Mo, temos
P(X : Mo) : max (P1, Pz,' ' ', Pn)'
4.5: Considbre a variável aleatória X com a seguinte função discreta de
Enttts.
/Í,.= t ïipi: (- 5) x 0,3 * 10 x 0,2 * 15 x 0,4+20 x 0,1 :8,5.
i
A mrrrll ó o valor com maior probabilidade e, portanto, segue q1ae Mo: 15. Por
ËÈltnr lnclo, a mediana poderá ser qualquer número entre 10 e 15, pois, para
P e I ttt, J.5], temos
P(X<b)>0,5 e P(X >b) >0,5.
ftln c'orrvenção adotada, tomamos Md:12,5 (ponto médio do intervalo). tr
O$serve que nem a mediana, nem a média precisam ser valores assumidos
peln vrrriÍrvel aleatória. No exemplo anterior, a média de X foi 8,5 e a mediana
13,õi tpro são valores não assumidos pela variável aleatória'
l)c modo similar ao ocorrido com as medidas de posição num conjunto de
dcrl,rs, ir rnultiplicação ou a adição de constantes a uma variável aleatíriafaz com
gue suiÌs medidas de posição fiquem multiplibadas ou acrescidas pelas mesmas
€Elllslitttlcs.
Eremplo 4.ó.. Considere uma v. a. X com função densidade discreta dada por
Nnrr rl tlil'ícil verificar que f/ : 10,3; Md : 8 e Mo : 5. Se uma nova variáxelY
é rrlrlitlir it partir de X através de Y : 5 X - 10, sua função de probabilidade será
tr
100 Capítulo 4: Medidas Resumo
o cálculo das suas medidas de posição pode ser feito pela definição. Temos
Fv : g x 0,1 * 15 x 0,3+... +90 x 0,2 : 4L,5)
Md(Y) : 30, pois é oúnico valorcom p(y > 30) > 0,5 e p(y < B0) ) 0,5;
Mo(Y) : 15, pois é o valor com maior probabilidade.
Estes mesmos resultados poderiam ser obtidos a partir das medidas de posição de
X multiplicadas por 5 e subtraídas de 10. Isto é,
Fv:5x10,3-10:41,5;
Md(Y):5xB-10:30;
Mo(Y):5x5-10:15.
Esta propriedade facilita cálculos e pode ser bastante útil. tr
Na Tabela 4.1, apresentamos as expressões para as medidas de posição
para as duas situações estudadas: conjunto de dados e variável aleatória.
Tabela 4.1: Medidas de tendência càntral.
4,2 Medidas de Posição 101
Ressaltamos que, no caso de conjunto de dados, usamos letras minúsculas
pnrit denotar as referidas medidas, eniluanto, no caso de variáveis aleatórias,
Ulilizamos letras maiúsculas. Como mencionamos, a interpretação é feita de modo
girnilar nos dois casos.
Fxcrcícios da Seção 4.2:
l. l)iscuta quais medidas de posição seriam mais adequadas para os conjuntos de
dados abaixo. Comente suas escolhas.
tu. Estão disponíveis dados mensais sobre a incidência de envenenamento por
picada de cobra. Deseja-se planejar a compra mensal de antídoto.
lr. O número diário de usuários, entre 17 e 19 horas, de determinada linha de
ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a
frota em circulação
c. Um fabricante de baterias deseja divulgar a durabilidade do seu produto e
coleta a informação sobre a duração de 100 de suas baterias.
tl. Num vôo internacional uma companhia serve dois tipos de pratos no jantar:
peixe ou frango. Um banco de dados contém os pedidos feitos nos últimos
200 vôos. Pretende-se planejar o número de cada tipo a ser colocado à
disposição dos passageiros.
2, Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um
cntrevistador que, entre outras questões, perguntou sobre o número de
tclcvisores. Os dados foram os seguintes:
2,2,2,3,7,2,1,1, 1, 1, 0, 1, 2,2,2,2,3,r,1, 3, 1, 2,7,0 e 2. //
Orgirnize os dados numa tabela de freqüência e determine as divers as
^eai#rlc posição.
.1. Ntrrn experimento, l5 coelhos foram alimentados com uma nova ração e seu
pcso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em
r;uilogramas) foram os seguintes:
I
1,5; 1,6; 2,3;\7,7; !;5;2,0; L,g; I,8;2,7;2,L; L;9i \,8;i.!,7;2,5 e 2,2.
n. Utilizando os dados brutos, determine média, moda e mediana
conjunto.
lr. Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de
1,5'
f
desse
0
i
l
l
I
I
t02 Capítulo 4: Medidas Resumo
c. calcule, a partir da tabela de freqüência e com o ponto 'krédio como
representante de cada faixa, a média, a moda e a mediana. comente as
diferenças encontradas com o item (a).
d. se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais
conveniente: o de (a) ou o de (c)? Ter acesso a computador faz diferença?
4. Sendo x uma variável aleatória com função de probabilidade dada a seguir,
obtenha as medidas de posição 1t, Md e Mo.
a-.''
5. Para cada item abaixo, construa uma_variável aleatória que atenda as condições
indicadas.
à. p: Md : Mo.
b. pr, > Md.: Mo. ( -"
c. t-L < Md < Mo.
6. um atacadista recebe de vários fornecedores uma certa peça para revenda. A
peça ê produzida com material de qualidade diferente e, portanto, tem custo
diferenciado. Levando em conta a proporção fornecida e o preço apresentado
por cada fabricante, pode-se admitir que o custo de uma peça em reais,
escolhida ao acaso, é uma variável aleatória (C). Admita a seguinte função de
probabilidade para C:
a. Determine as medidas de posição davariâvgl C.
b. Suponha que o atacadista revenda cada uma dessas peças acrescentando
50% sobre o custo da peça, além de um adicional de R$0,10 pelo frete.
Calcule as medidas de posição davariâvel preço de revenda.
4.3 Medidas de Dispersão
Apesar das medidas de tendência central fornecerem uma idéia do
comportamento das variáveis, elas podem esconder valiosas informações. Essas
medidas podem não ser suficientes para descrever e discriminar diferentes
conjuntos de dados. Por exemplo, um bairro nobre da capital paulista inclui umir
das maiores favelas de São Paulo. o que podemos dizer da renda média do bairro?
4,.ì Medidas de DisPersãtt 103
Ee rtumente os altos rendimentos de alguns residentes serão suficientes para fazer
ê trróclia atingir um patamar comparável às melhores economias do mundo, porém
e rliscrepâncìa entre os diversos valores deve ser muito grande. O que podemos
cntrrr.esquecendo é a variabilidade dos valores da variável e isto não é captado
pelrr rnéãia e sim pelas medidas de dispersão' Por exemplo, para o conjunto de
Vnl.,,'cs 0, 20 e 40 a média é igual a 20. O mesmo acontece com o conjunto 20,
30 c 20. Os dois conjuntos têm valores bem diferentes, apesar de terem a mesma
fltérliir. De fato, éfâctl construir exemplos onde dois conjuntos de dados distintos
possuem medidas de posição idênticas. Em muitas dessas situações existe
ãli'.r"nço em relação à dispersão dos dados, isto é, quanto à maneira como os
Valer.cs de cada conjunto se espalham. A fim de quantificar tal çaracterística,
vtliuos definir algumas medidas de dispersão'
Dc,f'ittição 4.3: Amplitude de uma varidvel em utn coniunto de dados
A amplitude, referente a uma certa variável, é definida como a diferença
€lltr.c o maror e o menor valor do conjunto de dados. Será denotada por A. n
A amplitude só leva em conta dois valores de todo o conjunto e, assim,
ãer.iir mais cónveniente considerarmos uma medida que utilizasse todas as
Ëltscrvações. Uma idéia inicial é considerar o desvio de cada observação em
felrrçiro a um ponto de referência e então tomar sua média. caso a observação seja
nttrilr do que a referência, o desvio seria negativo, caso seja maior, positivo' A
Fqrrur cle tais desvios fará com que termos de sinais diferentes se compensem,
p6tlcrrclo ocultar o efeito da variabilidade. Esta dificuldade é discutida no exemplo
ê üegtlir.
E,rttttplo 4.7: Numa classe com 12 alunos de um curso de inglês, os alunos
llrlir:itt'am o número de outras línguas (além do português e inglês) que tinham
Hlg,rrrla familiaridade. Os resultados ordenados foramos seguintes: 0;0,0,0, 1, 1,
f , l, I ,2,2 e 4. Calculamos sem dificuldade a média e a mediana e obtemos
iT,,/,r . 13f 12 e md,,6* : L.
O desvio de cada observação em relação à mediana é obtido pela
ex;rlcssito ri
-
m(1o65. Para o conjunto de dados acima temos: -1, -1' -1, -1, 0,
[], 0, 0, 0, ]-, 1 e 3. Se calculamos a média desses desvios obtemos 1/12'
Nultrrrr<ts que valores negativos e positivos se compensam, diminuindo a média
rlrs rlcsviós e dando a falsa impressão de pequena variação. Um caminho
trlÍcr.nirtivo seria tomar a média dos valores absolutos dos desvios acima, o que é
rllrrrrtttitttdo tlesvio mediano e definido por
104 Capítulo 4: Medidas Resumo
desvio mediano : iElni - md.o6,l : *
uma outra maneira de calcular os desvios é em relação à média e, neste caso, a
expressão a ser usada é r,;
-
rotr. A soma desses desvios sempre dá zero se o
cálculo for feito sem arredondamento e, portanto, a média deles também é sempre
zero. Dessa maneira, essa medida não seria nada informativa sobre a dispersão
das observações. Entretanto, podemos tomar os valores absolutos obtendo o
desvio m,édio, que é definido como a média dos valores absolutos dos desvios em
relação à média. Isto é,
os desvios mediano e médio utilizam a função módulo que, por suas
características matemáticas, torna mais difícil o estudo de suas propriedades.
Definimos a seguir uúa nova medida de dispersão que úiliza o quaãrado dos
desvios em relação à média.
Definição 4.4: Variâ,ncia e desvio-padrão etn um conjunto de dados
A variôncia, referente à variável x de um conjunto de dados, é definida
por
"12
desvio médio: a \- b (
- L24lri-T"n''l: 6 ' D
aTllÍ-.-
ver(,hs:: ) .(", -T,,t r)2 .n, /-'
Para manter a mesma unidade dos dados originqis, é conveniente definirmos o
desvio-padrão como sendo dpob,: f var,n . se houver possibilidade de
confusão, faremos menção à variável X, utilizando a notação var,,6_(X). tr
A expressão apresentada na Definição 4.4 auxilia o leitor na interpretação
da variância como uma medida de variabilidade. Entretanto, é possível obter uma
expressão alternativa que facilita os cálculos. Fica como exercício ao leitor
mostrar que:
4'ILlt \--,
v Q-tVgfobs -
_u
*obs'
4,.1 Medidas de Dispersão 105
A vantagem de usar essa expressão alternativa é evitar a operação de subtração,
qrrc em muitos casos envolve decimais e torna-se muito trabalhosa.
Exemplo 4.8: No Exemplo 4.1, foram fomecidas as quantidades de parafusos em
l0 caixas de um lote. Pelos valores observados, o maior número de parafusos foi
102, ao passo que o menor foi 95. Logo, a amplitude será dada por
A--102-95:7.
Para calcular a variância, utilizamos o valor da média, 98,6; já,obtido no
teÍ'crido exemplo. Para auxiliar nos cálculos, podemos construir as tabelas abaixo.
tJlilizando a expressão da Definição 4.4, é necessário criar colunas com os
vrrlrrres ri
-
Tohs
"
(*o
-
Tnt r)2, enquanto que a expressão alternativa requer
llpcnas uma coluna com os valores rf .
I)efinição 4.4:
,L 1:; ri'- Tob, / - \.,\ri
-
I,'hs)'
I 98
-
0,6 0,36
2 r02 3,4 11,56
L) 100 r14 1,96
4 100 L,4 1,96
5 99 0,4 0,16
6 97
-
1,6 2,56
I 96
-
2,6 6,76
8 95
-
3,6 L2,96
Í) 99 0,4 0,16
l0 100 L,4 1,96
total 40,40
Scp,rrc da Definição 4.4 e da tabela correspondente que:
i,,)lsiò$
1.\. \,vlr(,hs: ; L\",- t1,6*)' :X:I
lrt:lir cxpressão alternativa, temos
Alternativa:
L lLi ri'
1 98 9604
2 102 70404
.) 100. 10000
4 100 10000
5 99 9801
6 97 9409
7 96 9276
8 95 9025
I 99 9801
10 100 10000
total 97264
ff : n,on'
1.\
" -1vctt'(il).\:-> .rí -ri,t^n,-'z=l
97260:-
10 -:1nu,u;): n,on.
t0(t Capítulo 4: Medidas Resumo
Naturalmente, qualquer que seja a expressão utilizada, o desvio padrão é dado por
dpohr: JT,04:2,AI. n
Para o caso em que o conjunto de dados está organizado numa tabela de
freqüência, o cálculo da variância será modificado de forma conveniente com a
ponderação dos desvios pelas respectivas freqüências. Aproveitamos o próximo
exemplo para ilustrar essa situação, além de discutir o efeito, sobre a variância, da
multiplicação ou adição de constantes aos valores da variável de interesse.
Exemplo 4.9; No Exemplo 4.3, definimos a quantidade D, despesa no vestibular,
obtida a partir de x pela expressão D:50 x x*1800, com x indicando o
número de vestibulares prestados. Para efeitos didáticos, antes de obter a
variância de D, vamos calcular a variância de X e da quantidade auxiliar
Y:50 x x. Iniciamos por ampliar a tabela de freqüência de x, para incluir
também os valores deY e D. Temos,
X Y D Tri
1 50 1350 75
2 100 1400 47
J 150 r450 2L
4 200 1500 7
As médias de X e D jâforam calculadas no Exemplo 4.3 e a de Y segue
sem dificuldade. Assim, Ír,hs : I,73; y,,6-: 86,5 e ã,,h, L 1386,5. Para calcular a
variância de X, via tabela de freqüência, adaptamos as expressões apresentadas
anteriormente obtendo:
14
var,,6.(X): # D",(*, - r,,0,)' ,
--
" i:l
ou, na forma alternativa,
Vafr,6r(X) : _cnohs'hD",",
Optando por utilizar essa última expressão temos o seguinte cálculo:
1
var,,1,,,(X):
r,o (Tsxt2 *4T x22 +2r x 32 + r x +2)-r,TJ2 :0,767.
1,.1 Ã4uliclas de Dispersão 107
Ee trtorlo análogo, escrevemos
var,,6,(Y): # (7b x 502 +.'. + 7 x200\ -86,52 :1917,5i
I
rttr,6,(D): # (75 x 13502 +...+7 x 15002) - 1386,52 :rgr7,5.
Note que a variável D nada mais é do que Y acréscido de 1300. Não
€bãliyì(e, suas variâncias são iguais, isto é, o acréscimo de constante não alterou a
ïCrilìrrcia. Esse resultado é de certa forma previsível, pois a adição ou subtração
$g çorrstante corresponde a uma translação dos valores dessas quantidades, não
êltet'ntrclo sua variabilidade relativa. Por outro lado, Y é igual a 50 vezes a
yât'irívcl X e sua variância é 502 vezes a variância de X. Esse resultado se explica,
pgls l multiplicação por constante altera a distância entre os valores da variável
àflgirrll e, pela fórmula da variância, o efeito será pelo quadrado da constante. E
E*emplo 4.10: O salário de professores do ensino fundamental da rede privada
€Flri scrrclo estudado. A tabela abaixo apresenta os valores, em salários mínimos,
€btitlos em um levantamento numa certa cidade. Desejamos calcular a média e a
Vât'iÍìncia desse conjunto de dados.
Salário freqüência
1F3 L4
3F5 25
5-7 1B
7-9 I
9F11 4
total 70
f-o1lo ir variável está apresentada em faixas de valores, não temos os valores
elï.livirnrente observados e, portanto, não podemos aplicar as fórmulas da média e
rlrr virriârrcia. Para contomar essa situação e obter resultados aproximados para as
ttrt,rlirlas clesejadas, tomamos como representante de cada faixa seu ponto médio.
['orrr cssit alternativa, o cálculo é feito nos mesmos moldes das variáveis
t08
quantitativas discretas. Assim,
Iohs :
Para a variânpia:
Capítulo 4: Medidas Resumo
.5ln
-
) Tli.:xi :
'(0
-
14x2+25 x 4+ ". *4 x 10 : 4,97.
70
VQfohs
-77,u":29,7I - 24',72: 4,99.
Para um salário mínimo de R$ 180, a média e a variância dos salários em reais
seriam, respectivamente, 180 x 4,g7: 894,60 e 1802 x 4,gg: 161.676,00. tr
Vamos, agora, apresentar as medidas de dispersão para variáveis
aleatórias. Como já mencionamos no início da séção, as medidas de posição não
"explicam tudo" que está acontecendo, seja num conjunto de dados ou com
variáveis aleatórias. O próximo expmplo reforça essa idéia para o caso de
variáveis aleatórias.
Exemplo 4.11: llma pequena cirurgia dentária pode ser realizada por três
métodos diferentes cujos tempos de recuperação (em dias) são modelados pelas
variáveis Xr, Xz e Xs. Admita que suas funções de probabilidade são dadas por
0,2 0,2 0,2
.
:h'"*r
10
x, I 1 5 9
Pi I tls 113 rl3
O valor 0 na variável X1 pode ser interpretado como recuperação no mesmo dia
da cirurgia. Na tabela abaixo, apresentamos o valor esperado, a mediana e a moda
para cada uma das três variáveis. Vale ressaltar que a moda nem sempre é única e
para construir a tabela a seguir, escolhemos o valor 5 como representante dos
valores modais de X1e X2.
X1 X2 X3
valor esperado 5 5 5
mediana 5 5 5
moda 5 5 5
4,.1 Medidas de Dispersão 109
, Se apenas a informação dos valores esperados, medianas e modas
ctitivesse disponível, concluiríamos por uma perfeita harmonia de desempenho
elttrc os vários métodos. Entretanto, como podemos observar pelas distribuições
de probabilidade, esse não é o caso. Por serem medidas de tendência central, as
trÊs rnedidas acima não captaram a variabilidade existente em cada método. D
Como mencionamos para as variáveis em um conjunto de dados, podemos
ter várias maneiras de medir a dispersão. Para o caso de variáveis aleatórias
vnrlìos definir apenas a variância, que é a medida mais utilizada.
De.linição 4.5: Vartância de uma varidvel aleatória discreta
Seja X uma variável aleatória com P(Xi
-
*n) : P,i,'i : L,2,... ,k e
Itrédia p. A variância de X é a ponderação pelas respectivas probabilidades, dos
tlesvios relativos à média, elevados ao quadrado, isto é,
k
Var(X): t (*, - p)' pu .
' i:I'
Muitas vezes, denotamos a variância por o2 e, se houver possibilidade de
€otìÍusão, usamos o2r.Exttaindo araiz quadrada da variância obtemos o desvio-
trpulrtÍo que é representado por d ou ox.
Exctnplo 4.12: Retomando o exemplo anterior, calculamos as variâncias dos
tenrpos de recuperação para cada método. Temos,
Wtr(X): (0- 5)2 x0,2+(4-5)2 x0,2 + "'+ (10-b)2 x0,2:10,40.
l)e rrrodo análogo, obtemos:
Var(X2) : L0,67 e Var(X3): 0,60.
l)cssa Íbrma, utilizando-se os métodos 1 e 2 (variáveis X1 e X2),teremos maior
vrrrinbilidade no tempo de recuperação. n
A variância definida anteriormente pode ainda ser considerada como o
vrrlor csperado de uma nova variável aleatória, o desvio ao quadrado. Isto é,
Var(X):E[(X-p)2],
it rltrirl pode ser convenientemente reescrita na seguinte forma
u0 Capítulo 4: Medidas Resumo
k
Var(X) : E(X\
- P2 : la,"? - ut'i:L
Esta última expressão é bastante útil e, para não criar confusão, explicitamos os
seus termos. O termo E(Xt) é o valor esperado da variável ãleatória X2, ao passo
que p2 indica o quadrado do valor esperado de X. O próximo exemplo recalcula
as variâncias do exemplo anterior, através da expressão acima.
Exemplo 4.13: A partir das funções de probabilidade de X1,X2 e Xs
apresentadas no Exemplo 4.11, obtemos
x3 I r 25 81 x?l 16 2b 36w"@
As funções de probabilidade acima foram obtidas a partir de operações simples,
como por exempÌo,
P(X?: 16) : P(Xt
--
4 ou Xt : 4) : P(Xt : 4),
uma vez que X1 não assume valores negativos.
Temos então que
E(x?) : 0 x 0,2 + 16 x 0,2 t"' + 100 x 0,2 :35,40.
Então,
Var(X):35,4-*
-
10,40.
De modo análogo, obtemos E(Xï :35,67 e n(X'zr) :25,60; resultando
emVar(X2) = 70,67 e Var(X3): 0,60. tr
A Tabela 4.2 auxilia o estabelecimento da correspondência entre as
medidas de dispersão obtidas a partir de um conjunto de dados e aquelas
calculadas para variáveis aleatórias. Em seguida, na Tabela 4.3, apresentamos um
resumo das propriedades da média e da variância discutidas até agora.
1,,ì Medidas de Dispersão IlI
Tabela 4.2: Medidas de dispersão.
Tabela 4.3: Propriedades da média e da variância.
t
rlf;\
"4,::r-:i.'
conjünió oe nàaos
i::i; , ,
#,, Ë*íY,ÍÍ ,Ïi.fiffi
Vamos concluir esta seção apresentando, através de exemplos, os cálculos
do vlrlor esperado e da variância de alguns dos modelos teóricos que foram
del'irr itlos no capítulo anterior.
Et'ttttpltt4.14: SejaX com distribuição Bernoulli de parâmetro p. Temos
E(X):0x(1
-p)+Lxp:p e
Lrrg,,, ir variância
""rf
6\: 02 x Q - p) * L2 x p: p '
',:ri;,iií I llìlìÌ
'
u"lsf#'"!'üli
:,'i;i;iiir,-:u^€2,;t
:. i tl'.:li!;!.?.ì
::. Variânciá-,.Ì;=
*: ::::::::::-r:.,, : r:l
::: ::.:!;:::..:!..í:l/a;U
j
:
llllllltlììÌffi
un',;6;f1[rÍi:=(nltcrhâti.v,a),[ $Jr r-r,ip',í.Ít,i;
Var(X)-p-p2:p(t-p). tr
1t2 Capítulo 4: Medidas Resumo
-
p)-'
Exemplo 4.75: Para uma variável aleatória X com distribuição
parâmetrosnep,temos
E(x):IkP(x:k)
À;:0
:ik, n'?'" (n-úub* (r- P)"-*A:I
:Ë 6-#@='Pk(1-P)'-k
sì \r, L)t
''' 2 @- k)t(k -
(n
-
1)!
. nk_r (7k)t(k
-
1)!' \
n,
À:1
Substituindo nesta última expressão, k-L por j e, em seguida n-I pot r
obtemos
uma vez que a somatória é igual a 1, pois corresponde a somar todas
probabilidades de uma variável Binomial com parâmetros r e p'
A variância será calculada mais facilmente no próximo capítulo, qua
apresentaremos propriedades da variância da soma de variáveis a
independentes. Por ora, só informamos que seu valor é nplL
-
p)'
Exemplo 4.16: Considere a variável aleatória Y com modelo Uniforme
entre os valores I e k. Aplicando a definição de esperança matemática
utilizando a conhecida expressão para a soma de uma progressão aritméti
temos
E(x)
-
"e'F_(,) r, e - p)' -i : np,
k:kE(Y):Lipv : ì:Di Lk ï>,t:
'"
.:i=t
k+7
,j:1
Para calcular a variância usaremos o seguinte resultado de soma de séries:
kD/:
.:i:r
j:1
então,
k (k + L)(zk + L)
1,.1 l+4cdidas de Dispersão 113
Var(Y): E(Y\
-
E'(Y)
k
: Ë i2P(Y : i)- (ry)'j:r
:iD,r- (+)'
.:J: L
_L k(k+r)(zk+7)
_k6
k2-L:-
12
(tç + t)2
ú
Para se calcular o valor esperado e a variância, no caso dos modelos de
Pglss<rn, Geométrico e Hipergeométrico, são necessárias técnicas um pouco mais
rrdas. Optamos por não apresentá-las aqui, tendo em vista o objetivo desse
EXto c, para o leitor interessado, indicamos o livro de Mood, Graybill e Boes
ílq7q. Na Tabela 4.4 apresentamos os valores esperados e as variâncias para
tãelos os modelos discutidos no capítulo anterior.
Tabela 4.4: Modelos discretos- valor esperado e variâncía.
Variável Diicietá';/ji;..!.
... .........:.:;....-.
-
: ;;
tffiëi1,///,//rÈij"l;,.?.ï*.-tF.
wffi"',
;-.Ì)( r : b)ii
r! !.!ìl$nìN! !i:!1 Èiii:l:::
_:::h6 :
t x|| I LLtìt\\\riìti Ésffi\è,wqryìlìsì,::l:ì;;,:: :I
Ws'..14)! r.É
'W"{"/"Kí,2/'r'*?tí:;i-z7:titi "riltii;it
il4
2.
Exercícios da Seção 4.3:
l. Você está indeciso em
informações estatísticas,
lroras) do tubo de imagem.
comprar uma televisão e decide
fornecidas pelo fabricante, sobre
Capítulo 4: Medidas Re
avaliar a
a duração (e
Marca da TV GA EB HW
Média 8000 8200 8000
Mediana 8000 9000 7000
Desvio Padrão 600 1500 2500
Com que marca você ficaria? Justifique.
A pulsação de 10 estudantes no início de uma prova de estatística?úam
)86. Calcule a média
"
a uuriân"iu O"rr"
"âÈ".âì
3. Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano
modelo tiveram seu consumo observado durante 1000 quilômetros.
infbrmação obtida é apresentada na tabela abaixo em km/litro.
(-_:,.
4,4 li.rtrcícios t15
.jogador ganhou menos o pagamento inicial (prejuízo 'é lucro negativ.o).
l)ctermine média, moda, mediana e variância dessa variável.
6. Nrrma certa cidade, o número de crianças em idade escolar, em famílias com 4
f ilhos, é uma variável aleatória modelada pela Binomial com parâmetros n : 4
c 1r: 0,6. Para cada filho em idade escolai, um projeto de apoio à educação
prrga 1 salário mínimo para a família. Calcule a média e a variância do custo
rlcsse projeto por família.
4.4 Exercícios
,-
e
---'t'
l, tlrrr certo cruzamento tem alto índice de acidentes de trânsito, conforme pode
scr constatado em uma amostra dos últimos 12 meses: 5,4,7, B, 5, 6, 4,7, g,
7, 6 e B. Determine a média e a variância do número de acidentes mensais
rrcsse local.
l. listudando uma nova técnica de sutura, loram contados os dias necessários para
ir completa cicatrizaçáo de determinada cirurgia. Os resultados de 25 pacientes
lìrlam os seguintes: 6, 8,9, 7,8,6,6,7,8,9,10,7,8, 10,9, 9,9,7,6,5,7,7,8,
l0 e I 1. Organize os dados numa tabela de freqüência e calcule a mêdia e a
virriância.
ã, IJrna amostra de vinte empresas, de porte médio, foi escolhidapata um estudo
sobre o nível educacional dos funcionários do setor de vendas. Os dados
coletados, quanto ao número de empregados com curso superior completo, são
rrpresentados abaixo.
Empresa 1 2 td 4 5 6 7 8 I 10 11
No. Funcionários 1 0 0 tr) 0 L I 2 2 2 0
Empresa 72 13 14 15 16 t7 1B 19 20
No. Funcionários 2 0 2 0 1 1 2 tL) 2
ru. Organize uma tabela de freqüência e calcule média, moda e mediana.'
b. Determine o desvio padrão.
c. As empresas pretendem incentivar o estudo dos seus funcionários
oÍ'erecendo um adicional de 2 salários mínimos para cada funcionário com
curso superior. Qual será a despesa média adicional nessas empresas?
.1. As notas finais de estatística para alunos de um curso de Administração foram
irs scguintes: 7, 5, 4, 5, 6, 3, 8, 4, 5, 4, 6, 4, 5,6, 4,6,6,3, 8, 4, 5, 4, 5, 5 e 6.
Faixas Freqüência
7F8 27
8F9 29
9F10 46
10 F 11 43
11 F 12 55
Detennine o desvio padrão do consumo.
4. Nurn certo bairro da cidade de São pauro, as companhias de seguro
cstabeleceram o seguinte modelo para o número de veículos furtados por
sclnaniì:
purtosl_o.
_1_ 2 J n t"\.
calcule a média e a variância do número de furtos semanais desse bairro.
5. Nunr jogo de dados, umjogador paga R$ S puralançar um dado equilibrado e
ganha R$ 10 se der face g, ganha R$5 se der face 5 e não ganha nãda
"o* asoutras faces. Defina a variável luçro por jogadacomo sendo o saldo do que o
e
5.
ilô Capítulo 4: Medidas R
a. Determine a mediana e a média.
b. Separe o conjunto de dados em dois grupos
nota pelo menos igual a 5, e reprovados
variância desses dois grupos.
denominado s aprovados,
para os demais. Compare
um lrospital maternidade está planejando a ampliação dos leitos para recé
nascidos. Para tal, fez um levantamento dos últimos 50 nascimentos, obtendo
informação sobre o número de dias que os bebes permaneceram no h
antes de terem alta. os dados, já ordenados, são apresentados a seguir: 1, 1,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4,
4,4,4,4,5,5,5, 5, 5, 5,6,7,7, g e 15.
n. Organize uma tabela de freqüência.
b. Calcule média, moda e mediana.
c. Determine o desvio padrão.
d. Dentre as medidas de posição calculadas em (b), discuta quais delas seri
mais adequadas para resumir esse conjunto de dados.
c. você identifica algum valor excepcional dentre os que foram observados,
Se sim, remova-o e recalcule os itens (a) e (b). Comente as difr
encontradas.
6. o departamento de atendimento ao consumidor de um concessionária
veículos recebe, via telefone, as reclamações dos clientes. o número
clramadas dos últimos 30 dias foram anotados e os resultados foram: 3,4,5,
4, 5, 6, g, 4, 4, 5, 6, 4, 3, 6, 7, 4, 5, 4, 5, 7, g, g, 5, 7, 5, 4, 5, 7 e 6.
a. Construa uma tabela de freqüência. ç
b. Calcule a média e o desvio padrão.
c. Admitindo que cada telefonema acarreta serviços sob a garantia avali
em R$ 50 por chamada, calcule a média e o des.rio padrão das
oriundas do atendimento ao consumidor.
lioram anotados os níveis de colesterol (em mg/l00m1) para trinta pacientes
urna clínica cardíaca. As medidas se referem a homens entre 40 e 60 anos
idade que foram à clínica fazer um check-up.
7.
Paciente 1 2 .)d 4 5 6 I 8 I 10
Colesterol 160 160 161 163 167 170 172 172 173 177
Paciente 11 T2 13 74 15 16 T7 1B 19 20
Colesterol 178 181 181 782 185 186 194 797 199 203
ã,
4.4 li.rarcícios t17
n. (lllcule a média, a moda,a mediana e a variância a partir da tabela de dados
llrutos.
b. ( )r'ganize os dados em uma tabela de freqüência com faixas de tamanho de
l0 a partir de 160.
e , l{cÍìrça o item (a) usando a tabela de freqüência obtida em (b).
al. (lomente as diferenças encontradas entre os valores das medidas calculadas
crn (a) e (c).
o tcrnpo, em horas, necessário para um certo medicarnento fazer efeiÍo é
Itplcscntado abaixo:
0,2r 2,71 2,12 2,81 3,30 0,15 0,54 3,r2 0,80 1,76
1,I4 0;16 0,31 0,91 0,18 0,04 l,16 2,16 I,48 0,63
H. ( lllcLrle a média e a variância para o conjunto de dados.
b. (bnstrua uma tabela de freqüência para classes com amplitude de 0,5 hora,
corneçando do zero.
f. Suponha que o conjunto original de dados foi perdido e só dispomos da
tirbcla construída em (b). Utilizando alguma suposição conveniente,
rcrculcule a média e a variância e comente as possíveis diferenças
cncontradas.
1 Ertrrrlirnclo-se o número de acertos em 100 lances-livre de bola ao cesto, uma
$uros(r'a com 20 jogadores forneceu os seguintes resultados: 68,73, 61, 66,96,
ft), (t5,86, 84, 79,65,78,78,62,80,67,75,88, 75 e 82. Agrupe as
obsr:r'vações em intervalos de comprimento 5 a partir de 60 e, usando alguma
Irrgrosiçiro adicional, determine a média e a variância do número de acertos em
l(10 irllcmessos.
10. t I Sindicato dos Engenheiros do Estado de São Paulo está estudando o
irrrgrircto do estágio na obtenção de bons empregos. Dentre os engenheiros
a'r'r'd'ru Í'ormaclos e com empregos considerados bons, foi sorteada uma aúostra
c' olrscrrvado o número de anos de estágio anteriores à formatura.
$, ('irlculc a média e a variância.
It- l'irnr cl'eito de análise, decidiu-se desprezar os valores que se distanciassem
tlir rnódia amostral por mais de dois desvios-padrão, isto é, só serão
crrrrsiclcrados os valores no intervalo fronr* 2 dponr. Recalcule o item (a) e
corncntc os resultitdos.
l)aciente 27 22 23 24 25 26 27 28 29 30
Colesterol 203 205 206 206 208 209 217 214 2IB 225
il8 Capítulo 4: Medidas Resumo
Anos de estágio freqüência
0 25
1 5B
2 t47
,
r) i05
4 72
5 45
6 10
total 462
11. Na linha de produção de uma grande montadora de veículos, existem 7
verificações do controle de qualidade. Sorteamos alguns dias do mês e
anotamos o número de "OKs" recebidos pelos veículos produzidos nesses dias,
isto é, em quantos dos controles mencionados o automóvel foi aprovado.
Aprovações freqüência
4 L26,
5 359
6 1685
7 4764
total 6934
a. Determine média, moda e mediana do número de aprovações por automóvel
produzido.
tr. Calcule a variância.
c. crie uma nova variável Reprovações, indicando o número de verificações
não "OKs" no veículo. Determine média, moda, mediana e variância dessa
variável.
d. Cada reprovação implica em custos adicionais para amontadora, tendo em
vista a necessidade de corrigir o defeito apontado. Admitindo um valor
básico de R$ 200 por cada item reprovado num veículo, calcule a média e a
variância da despesa adicional por automóvel produzido.
12. O órgão do Governo Federal encanegado de fiscalizar a distribuição de
energia elétrica tem acompanhado o núméro semanal de intemrpçáes de
fornecimento numa certa cidade. Os dados, referentes às últimas 50 semanas,
consideraram apenas as interrupções que ultrapassaram 3 horas e são
apresentados na tabela abaixo.
1,.1 Exercícios 119
Interrupções freqüência
0 t2
1 t4
2 I
.) I
4 td
5 3
6 2
total 50
ru. Determine a média e a variância do número de interrupções semanais.
b. O Governo Federal aplica uma multa de 10 mil reais por semana, se há pelo
menos uma interrupção no fornecimento. Calcule a média e a variância do
valor das multas aplicadas por semana.
c. A Prefeitura dessa cidade fez um levantamento dos prejuízos, nos vários
setores, decorrentes da falta de energia e atribuiu um valor total de 900 mil
reais para ser ressarcido pela companhia responsável pelo fornecimento de
eletricidade, referente ao período de 50 semanas. Qual seria o prejuízo
médio por semana?
rl. Nesse período, qual será a média e a variância do desembolso semanal da
companhia, incluindo multa e ressarcimento de prejuízo?
l.l. O Centro Acadêmico de uma faculdade pretende iniciar uma campanha junto
à direção da escola com vistas à melhoria das salas de informática. Para tal, fez
uma enquete com todos os alunos e perguntou sobre o número de
computadores que cada um tinha na sua residência.
Computadores freqüência
0 156
1 135
2 47
t
t) 25
4 B
total 37L
a. Obtenha a média e a variância.
b. O Centro Acadêmico argumenta
cornputador por tluno,
.iuntando os
qüe o ideal é ter uma média de 1
20 da sala de informática da faculdade
H8 Capítulo 4: Medidas Re
Anos de estágio freqüência
0 25
1 5B
2 747
t
e) 105
4 72
5 45
6 10
total 462
1L. Na linha de produção de uma grande montadora de veículos, existem,
verificações do controle de qualidade. Sorteamos alguns dias do mês
anotamos o número de "oKs" recebidos pelos veículos produzidos nesses d
isto é, em quantos dos controles mencionados o automóvel foi aprovado.
Aprovações freqüência
4 726
5 359
6 1685
I 4764
total 6934
lixercícios 119
Interrupções freqüência
0 12
I T4
2 I
t
t) I
4 tJ
5 tr)
6 2
total 50
tt. l)etermine amédia e a variância do número de interrupções semanais.
It. O Govemo Federal aplica uma multa de 10 mil reais por semana, se há pelo
rìlenos uma interrupção no fornecimento. Calcule a média e a variância do
valor das multas aplicadas por semana.
e. A Prefeitura dessa cidade fez um levantamento dos prejuízos, nos vários
sctores, decorrentes da falta de energia e atribuiu um valor total de 900 mil
rcais para ser ressarcido pela companhia responsável pelo fornecimento de
clctricidade, referente ao período de 50 semanas. Qual seria o prejuízo
rrródio por semana?
d. Ncsse período, qual será a média e a variância do desembolso semanal da
companhia, incluindo multa e ressarcimento de prejuízo?
() (-lentro Acadêmico de uma faculdade pretende iniciar uma campanha junto
â rlircção da escola com vistas à melhoria das salas de informática.Parata\ fez
ullìir enquete com todos os alunos e perguntou sobre o número de
€ornllutadores que cada um tinha na sua residência.
Computadores freqüência
0 156
1 135
2 47
3 25
4 B
total 37r
n, ( )lrtcnha a média e a variância,
b. ( ) Centro Acadêmico argumenta
c'onrputador por aluno, juntando os
a. Determine média, moda
produzido.
b. Calcule a variância.
c. Crie uma nova variável
não "OKs" no veículo.
variável.
e mediana do número de aprovações por au
'Reprovações, indicando o número
Determine média, moda, mediana e
de veri
varrancla
d. Cada reprovação implica em custos adicionais para a montadora, tendo
vista a necessidade de corrigir o defeito apontado. Admitindo um
básico de R$ 200 por cada item reprovado num veículo, calcule a média
variância da despesa adicional por automóvel produzido.
12. O órgáo do Governo Federal encarregado de fiscalizar a distribuição
energia elétrica tem acompanhado o número semanal de interrupçõec
fomecimento numa certa cidade. Os dados, referentes às últimas 50
consideraram apenas as interrupções que ultrapasszrram 3 horas I
apresentados na tabela abaixo.
qüe o ideal é ter uma média de 1
20 da sala de informática da faculdade
t20 Capítulo 4: Medidas Resumo
com os que os alunos têm em casa. Quantos computadores precisariam ser
acrescentados à sala para atender o Centro Acadêmico?
14. Duas moedas estão sobre a mesa, uma delas tem duas caras e a outra tem
probabilidade igual de cara e coroa. Sorteamos, ao acaso, uma dessas moedas e
a lançamos duas vezes. Seja X a variâvel aleatória que conta o número de
caras nesses dois lançamentos. Qual é a média de X?
15. Num teste de digitação, o tempo em minutos (7) que os candidatos le
para digitar um texto é modelado, de forma aproximada,pela seguinte funç
de probabilidade:
O candidato recebe 4 pontos se terminar a digitação em 9 minutos, 5
terminar em 8 minutos e assim por diante. Determine amédia e a variância
número de pontos obtidos no teste.
16. A função de probabilidade da variável X é P(X:. k) :
k :7,2,"',5.Calcule E(X) e E(X') e, usando esses resultados,
E[(X + 3)2] evar(3x
-
2).
r/5
17. Estatísticas obtidas junto às assistências técnicas indicam que a bomba
água de uma certa lavadora só pode apresentar defeitos após 4 anos de
Admita que nos próximos 6 meses, após esse tempo, um mal funcioname
tem probabilidade 0,10 de ocorrer e, caso ocorra, terá 0,5 de probabilidade
ser recuperável. O reparo, que só pode ser feito uma vez, tem o preço de R$ I
enquanto uma bomba nova custa R$ 30. Determine a média e a variância
gasto com essa peça em 4,5 anos de uso.
Itì. Os alunos do curso de estatística têm um time de futebol que não é
melhores. O cartola que administra o time paga um prêmio de vitória
partida de um sorvete porjogador, acrescentando mais um sorvete por saldo
gols maior que I (saldo de gols é a diferença entre gols feitos e sofri
Admita que a função de probabilidade dos diversos saldos é a seguinte:
Qu"rl é a despesa média do cartola com cada jogador por partida? E corn os I
"c rilques" ?
determi
Saldo de gols
4.,1 lixercícios 121
10. Uma peça produzida por uma máquina pode receber do controle de qualidade
lrôs classificações: boa, defeituosa ou recuperável, com as seguintes
probabilidades, 0,5; 0,2 e O,3, respectivamente. Suponha que sejam vendidas a
lì$ 100, R$ l0 ou R$50 conforme forem boas, defeituosas ou recuperáveis,
rcspectivamente. Se duas peças, escolhidas ao acaso, são vendidas, qual é o
vtlor médio da venda?
2(1. O tempo de duração em horas de uma lâmpada especial foi modelado por uma
vlriável aleatória X com a seguinte função de probabilidade:
(lacla lâmpada custa ao fabricante R$ 10, mas se sua duração for inferior a 6
Iroras ele se compromete a indenizar o comprador com R$ 15. Qual deve ser o
prcço de cada lâmpada para o fabricante obter um lucro médio por lâmpada de
lì.$ 20?
11. tlrna concessionária tem disponível, para um certo automóvel, os modelos S,('1, c GL com duas versões de combustível, álcool ou gasolina. Com motor a
rilcool os preços são 30, 35 e 40 mil reais para os modelos S, CL e GL,
rrspcctivamente. Esses preços são 107o superiores se o combu3tível for
g,rrsolina. A procura por carros a álcool é, de 307o e a gasolina 707o. Qualquer
tlnc seja o combustível escolhido há igual preferência entre os modelos.
('irlcule a função de probabilidade do preço desse automóvel e obtenha sua
Irrúrlia e variância.
,2, Nurn cassino, um jogador lança dois dados, cujas probabilidades são
lrroporcionais aos valores das faces. Se sair soma 7, ganha R$50, se sair soma
I l, ganha R$ 100 e se sair soma 2, ganha R$ 200. Qualquer outro resultado ele
rriio garrha nada. Qual é o ganho médio do jogador?
l-1. I lrrra indústria pretende comprar 3 lotes de peças que são produzidas por dois
lìrlrrcccdores, A e B. Ela inicia, comprando de um dos fornecedores escolhido
n(l ilciìso e, se ficar satisfeita com o material entregue, compra o próximo lote
rhr nrcsmo fornecedor. Se não ficar satisfeita, troca o fornecedor. Admita que
lrirlir cacla lote o índice de satisfação é de 80Vo e de 707o para A e B,
rrspcctivamente. Calcule a média e a variância do número de lotes fornecidos
por A.
xl5 6 7 8910
pi l0,L 0,1 0,2 0,4 0,1 0,1
122 Capítulo 4: Medidas Resumo
24. A experiência de diversas companhias de resgate de navios naufragados indica
que a probabilidade de um resgate ser bem sucedido na primeira tentativa é de
0,6; caindo para a metade a cada nova tentativa. Uma empresa de resgate tem
como norma não realizar mais de três tentativas e cobra 50 mil reais para
iniciar os trabalhos e mais 10.000 x (k
-
1) reais, com k sendo o número de
tentativas.
a. Qual o custo médio dos serviços dessa empresa?
b. Se um navio resgatado pode render ao proprietário 65 mil
interessante para ele contratar essa empresa? Justifique.
25. Suponha que a demanda por certa peça, numa loja de autopeças,
seguinte modelo:
: P(X: k,):+, tt:r,2,J,4.
a. Encontre o valor de a.
b. Calcule a demanda esperada.
c. Qual é a variabilidade da demanda?
26. Numa indústria farmacêutica, uma máquina produz 100 cápsulas por minuto,
A máquina está regulada de modo que no máximo 5Vo das cápsulas n
contenham remédio e, assim, sejam consideradas defeituosas.
a. Se as cápsulas são acondicionadas em vidros com 20 unidades, qual
probabilidade de um vidro apresentar no máximo 2 cápsulas com defeito?
b. Qual o número esperado de cápsulas com defeito, por vidro?
c. Qual o número esperado de cápsulas com defeito por minuto de produção?
27. Um fotógrafo negocia com o jornal o seguinte trato: ele submete al
fotos semanalmente e por cada foto publicada, ganha R$ 50. Se a foto não
publicada, não ganha nada. Nesta semana 4 fotos são submetidas com
uma tendo probabilidade 0,60 de ser publicada, independentemente da demais,
a. Qual a probabilidade que o fotógrafo tenha pelo menos duas f,
publicadas esta semana?
b. Calcule a distribuição de probabilidade de Y: montante que o fotó
recebe esta semana;
c. Calcule o ganho médio do fotógrafo nesta semana.
28. Admita que, em cada corrida de Fórmula l, o motor tem 0,4 de probabi
de quebrar, independentemente das corridits anteriores. Suponha que a
encerrará sua participação no torneio quanclo o motor quebrar pcla pri
siga o
4,4 lixercícios t23
vcz. se o ganho acumulado da equipe (em milhares de reais) é, 50c , sendo c o
rrrimero de corridas completadas por esse motor antes de quebrar, calcule:
1. Qual a probabilidade da equipe completar 8 corridas? E de participar de B
corridas?
[. Quanto receberá em média essa equipe durante sua "vida" em corridas?
19. tlrn vendedor de cachorro quente trabalha na porta do Estádio do Morumbi
errr clias de jogo. Ele pode deixar preparado 5, 6 ou 7 dúzias de sanduíches que
(:lstam a ete R$ 5 adúzia,. Sabe-se que a procura do cachorro quente (X), no
s!ìu ponto, é uma variável aleatória com a seguinte função de probabilidade:
Sirbo-se que cada dúzia de sanduíche é vendida a R$ 12 e os sanduíches não
Vcrrrlidos vão para um canil que paga R$ 2 pela dízia. Qual é o número de
eltiz,ias de sanduíches que devem ser preparadas de modo a maximizar o lucro
nrúrlio do vendedor?
t.lrrra floricultura vende rosas, cravos e jasmins com lucrO de, respectivamente,
R$ ltl, R$ 12 e R$ 15 por dezena. Observa-se que a procura é igual para as três
flolcs. Se o estoque do dia não for vendido, a floricultura tem um prejuízo
(lrrcro negativo) de, respectivamente, R$ 5, R$7 ou R$ 10 com cada'dezena de
fosils, cravos ou jasmins. Se a floricultura dispõe de duas dezenas de cada flor
€
tr'ôs clientes visitam a floricultura sucessivamente e compram uma dezena
€nrlir um. Fazendo alguma suposição adicional que seja conveniente, determine
s lrrcro esperado da loja.
, t{t pita o problema anterior, se a procura por rosas e cravos forem iguais e
çorrcsponderem ao dobro da procura porjasmins
ãjl, l,rrlir 1tn exame com 25 questões do tipo certo-errado, um estudante sabe a
l'r,slroslrÌ correta de 17 questões e responde as demais "chutando".
n. ('rrlcule a probabilidade dele acertar pelo menos gQVo das respostas.
It. l)ctcrrnine a média e a variância do número de acertos.
f. Srrpottlra que nesse mesmo exame, um outro estudante saiba a resposta
col'rolit para l5 questões e tenha probabilidade de acerto nas demais de 0,7.
(.)rrlrl clo.s estudantes você espera que tenha melhor desempenho?
tl, Nirs lncsmas condições do item (c), qual dos estudantes terá desempenho
rrriris Irornogêneo?
124 Capítulo 4: Medidas Resumo
33. (Use o computador) Usando a Tabela 1.1 do Capítulo 1:
a. Obtenha as medidas de posição e de variabilidade para o Pesoe a Altura.
b. Compare, através de medidas de posição e de variabilidade, o peso e a altura
dos alunos das turmas A e B. Comente as diferenças em relação ao item (a).
c. Com respeito à variável TV, alunos e alunas tôm o mesmo comportamento?
Justifique sua resposta com o uso de medidas resumo.
34. (Use o computador) Considere as observações contidas no arquivo cancerlxt
(ver Exercício 24, Capítulo 1). ì
a. Obtenha as medidas de posição e de variabilidade para as variáveis Idade e
Glicose (GL).
b. Repita o item (a) para cada tipo de diagnóstico. Compare as respostas
obtidas.
35. (Use o computador) Com os dados do Exercício 25, Capítulo 1:
a. Para cada bloco, determine medidas de posição e de variabilidade pãra a
área total do apartamento e para a ârea de cada cômodo. Você diria que
existem diferenças nos apartamentos, dependendo do bloco?
b. Construa uma tabela de freqüência para a ârea total dos apartamentos do
bloco I, utilizando faixas de valores convenientemente definidas. Suponha
que um apartamento é escolhido ao acaso. Defina por X a variável aleatória
área total do apartamento selecionado. Baseando-se na tabela de
freqüência construída, qual é o valor esperado de X? Como este valor se
compara com aquele observado no item (a) para a área total? Porquê
deveriam ser iguais e se não são, qual é arazáo?
36. (Use o computador) As variáveis desse exercício fazem parte do arquivo
aeusp.txt (ver Exercício 26, Capítulo 1).
a. Obtenha as medidas de posição e de variabilidade para as variáveis Itrab e
Renda.
b. Repita o item (a) para cada uma das comunidades estudadas. Existem
diferenças entre elas?
c. Utilizando os valores da variável Serief, divida os moradores em três
categorias: os que não pararam de estudar, aqueles que pararam até a 8Â
série e os demais. Para cada uma das categorias, obtenha as medidas de
posição e a variância da variável Itrab.
d. Baseado nas variáveis Sexo e Itrab, você diria que os homens começam a
trabalhar mais cedo?
Capítulo 5
Variáveis Bidimensionais
5.L Introdução
É muito comum estarmos interessados no comportamento conjunto de
viirias variáveis. Neste capítulo, vamos tratar de duas vâriáveis. Todavia, os
conceitos discutidos aqui podem ser, em geral, expandidos para situações em que
lrôs ou mais variáveis são estudadas. Nesta primeira seção apresentamos, para
variáveis em um conjunto de dados, a tabela de freqüência conjunta e, para o caso
tlc variáveis aleatórias, a função de probabilidade conjunta. A tabela de
lì'cqüência conjunta também pode ser utilizada com variáveis qualitativas,
conforme veremos nos exemplos. Nas seções subseqüentes, estudamos a
russociação entre variáveis e a obtenção de funções de variáveis aleatórias.
As informações em um conjunto de dados, sejam elas referentes ao todo
ou parte de uma população, quase sempre contêm observações multidimensionais,
isto é, observações relacionadas a várias v4riáveis. Por exemplo, num
rprestionário aplicado a alunos de uma universidade, podemos obter a idade, o
llmanho da família e o número de disciplinas já cursadas, entre outras
tluantidades que podem ser de interesse para cada aluno. Considerando duas
variáveis, digamos idade e tamanho da família, podemos listar todos os pares que
ocorrem. Como pode haver repetição de valores, os resultados podem ser
organizados em uma tabela, com os possíveis pares associados às suas respectivas
Íì'cqüências.
Ilxemplo 5.1.. Uma amostra de 20 alunos do primeiro ano de uma faculdade foi
cscolhida. Perguntou-se aos alunos se trabalhevam, variável que foi representada
;ror X, e o número de vestibulares prestados, variável representada por Y' Os
tlados obtidos estão na tabela abaixo.
X nao slm nao nao nao slm slm nao slm stm
Y 1 1 2 1 I 2 Dt) 1 1 1
X nao nao slm nâo slm nao nao nao slm nao
Y 2 2 1 DJ 2 2 2 1 .) 2
t25
I2() Capítulo 5 : Variáveis Bidimensionais
A variável x é qualitativa com dois valores: sim ou não. por outro lado, a
variável Y é quantitativa discreta com valores inteiros I,2 ou 3. Podemos coletar
as freqüências de ocorrência dos possíveis pares, construindo uma tabela de
freqüência conjunta de X eY.
(X,Y) freqüência
(sim,1 4
(sim,2) 2
(sim,3) 2
(não, 1 5
(náo,2) 6
(não,3) 1
total 20
O par (não,1) tem freqüência de
foi esse o número de alunos que
ocorrência igual a 5, pois, na amostra coletada,
não trabalhavam e prestaram o vestibular apenas
uma vez. Os outros valores são
pode ser apresentada de modo
entrada, mosfada a seguir.
x\v 1 2 .) total
slm 4 2 2 8
nao 5 6 1 12
total I B ta) 20
Note que a última linha e a última coluna contêm os totais de ocorrências de cada
variável, separadamente. Dessa forma, fica facilitad a a tarefa de obter a tabela de
ÍÌ'eqtiência individual para cada "variável que, pela posição em que seus valores
aparecem na tabela de dupla entrada, é chamada de tabela marginal de freqíiência
du vuridvel x (ou Y), ou simplesmente marginal de x (ou y). Temos então para
X eY as seguintes tabelas de freqüência:
obtidos de forma semelhante. Esta mesma tabela
mais conveniente através da tabela de dupla
X freqüência
slm 8
nao L2
total 20
Y freqüência
1 I
2 8
t
t) tr)
total 20
5.1 Introdução 127
Ilxcmplo 5.2: Um estudo envolveu 345 pacientes HfV positivos, acompanhados,
dttrante um ano, pelo setor de doenças infecciosas de um grande hospital público.
Os dados apresentados contêm as ocorrências relacionadas às variáveis número de
itttt:rnações (I) e número de crises com infecções oportunistas (C).
l)irra obter as marginais
coluna na tabela anterior,
dessas variáveis, acrescentamos mais uma linha e uma
contendo os respectivos totais de ocorrência. Assim,
Cbnro já mencionamos, a última coluna da tabela acima
eorrcspondentes aos valores da variável -I, enquanto que a
lì'ct1i.iências para C. Logo,
fornece as freqüências
última linha fornece as
C freqüência
0 110
1 91
2 B6
3 44
4 I4
total 345
D
Ii:ccrnplo 5.3.' Numa amostra de 195 empregados de uma grande indústria,
rrlrscrvou-se o Salário recebido (em salários mínimos) e o Tempo de Serviço na
l')rrprcsa (em anos). Tendo em vista que a variável Salário é quantitativa contínua,
lìrrirrn escolhidas algumas faixas para representâ-la. Por outro lado, apesar da
vrrt'iírvel Tempo ser discreta, ela apresentou valores tão diferentes que se achou
rrlris conveniente organizâ-latambém em faixas. Assim,
I freqüência
0 115
1 130
2 100
total 345
1\c 0 1 2 DrJ 4
0 B4 27 8 2 0
1 20 59 35 T4 2
2 6 11 43 28 12
1\c 0 1 2 qO 4 total
0 B4 27 8 2 0 115
1 20 59 35 t4 2 130
2 6 11 43 2B 72 100
total 110 91 B6 44 L4 345
l2tì
Segue então que as marginais são:
Capítulo 5 : Variáveis Bidimensionais
Salário freqüência
<4 63
4F8 77
8F12 35
>12 20
total 195
Tempo freqüência
<5 58
5 t-- 10 57
10F15 51
>15 29
total 195
tr
Pelos exemplos anteriores, podemos perceber que variáveis de qualquer
natüreza podem ter seu comportamento conjunto representado através do tabãlasde freqüência. Dessa forma, variáveis qualitativas ãu quantitativas, discretas ou
contínuas, têm seu comportamento estudado com tabelãs de dupla entrada, para
dados oriundos de toda a população ou de uma amostra. veremos a seguir como
tratar essa questão no caso de variáveis aleatórias discretas, definidas a partir das
suas funções de probabilidade. Iniciamos estendendo a definição de função deprobabilidade para o caso de duas variáveis.
Definíção 5.1: Função de probabílidade conjunta
Sejam X e Y duas variáveis aleatórias discretas originárias do mesmo
fenômeno aleatório, com valores atribuídos apartir do mesmoãspaço amostral. Aíunção de probabilidade conjunta é definida, para todos os possiveis pares de
valores de (X, Y), da seguinte forma:
p(r,a) : P[(X: u) n (Y : Ò]: p(X : r,y : a),
isto é, p(r,A) representa a probabilidade de (X,y) ser igual a (r,A). É comum
nos referirmos, sempreque não houver ambiguidades e o contexto permitir, àftnção de probabilidade conjunta como distribuição conjunta ou simplesmente
Salário \Tempo <5 5F10 10 t-- 15 >15 total
<4 36 21 4 2 634t--B 16 2B 2T 12 778-72 5 6 74 10 35
>12 1 2 72 5 20
total 5B 57 51 29 195
t:otti unta das variáveis. tr Ap(rs coletarmos os pares idênticos, obtemos a conjunta das variáveis:
5.1 Introdução
Note que, pela notação utilizada na Definição 5.1, o termo (X: r)
rcpresenta o conjunto de eventos que levam a variável X a assumir o valor r. No
próximo exemplo, ilustramos esse ponto.
Ilxemplo 5.4: Uma empresa atende encomendas de supermercados dividindo os
pcclidos em duas partes de modo a serem atendidos, de forma independente, pelas
suas duas fábricas. Devido à grande demanda, pode haver atraso no cronograma
rlc entrega, sendo que afátbrica I atrasa com probabilidade 0,1 e a II com 0,2.
Scjam A1 e All os eventos correspondentes a ocorrência de atraso nas fábricas I e
ll, respectivamente. Vamos admitir que as encomendas sempre serão entregues,
tììcsmo que com atraso. O espaço amostral, associado ao atendimento da
encomenda, ficará sendo:
Q : {A1A1r, AïArr, ArAïr, AïAïr}.
Pirra aliviar a notação, os eventos serão representados sem os respectivos
xubscritos mantendo, entretanto, a ordem das fábricas. Dessa forma, o evento
/"Á significa que a fátbrica I entregou sem atraso e afâbrica II com atraso.
Suponha que para um certo pedido, a indústria recebe 200 unidades
tnonetárias (u.m.) pela encomenda total entregue, mas paga uma multa de 20 u.m.
pirra cada fábrica que atrasar sua parte. Considere que o supermercado, que fez a
cncomenda, criou um índice relacionado à pontualidade da entrega. Este ihdice,
trllibui 10 pontos pata cada parte da encomenda entregue dentro do cronograma
prcvisto. Vamos denotar por X o valor recebido pelo pedido eY o índice obtido.
Para cada evento do espaço amostral, podemos obter os valores das
virriírveis. Assim, se ocorre o evento AA', avariâvel X tem valor 180, pois de
?(X) subtraimos a multa de 20, decorrente de um atraso. Por outro lado, a variável)' assinala 10 pontos provenientes de uma entrega dentro do cronograma. A
lirbcla a seguir, apresenta os eventos, as respectivas probabilidades e os
crrrrcspondentes valores de X eY.
Eventos Probabilidade X Y
AA 0,1 X 012 160 0
AA' 0,1-x 0,& 180 10
A'A 0,9 X 012 180 10
A. A. 0,9 x 0,8 200 20
130 Capítulo 5 : Variáveis Bidimensionais
(X,Y) p(r,y)
(160, 0) 0,02
(180, 10) 0,26
(200,20) 0,72
Dessa forma, a distribuição conjunta de (X, Y) contém todas as possíveis
combinações dos valores (r, g), com suas correspondentes probabilidades. tr
Da função de probabilidade conjunta p(r,E) é possível obter as funções
de probabilidade marginal de X ou de Y, através da soma de uma dàb
coordenadas. Assim,
P(X :
") : t p(r,a) e P(Y : a) :\n@,Ò ,u:D
com a somatória percorrendo todos os valores possíveis de X ou Y, conforme o
caso.
Exemplo 5.5.' Uma região foi subdividida em 10 sub-regiões. Em cada uma delas,
foram observadas duas variáveis: nítmero de poços artesianos (X) e número de
riachos ou rios presentes na sub-região (y). Os resultados são apresentados na
tabela a seguir:
Considerando que escolhemos uma das
região têm mesma probabilidade 1/10
distribuição conjunta de (X,Y):
sub-regiões ao acaso, isto é, cada sub-
de ser escolhida, podemos construir a
Sub-região 1 2 J 4 5 6 7 8 9 10
X 0 0 0 0 I 2 I 2 2 0
Y I 2 1 0 I 0 0 1 2 2
(X,Y) probab.
(0,0) L/70
(0,1) 2/70
(0,2) 2lr0
(1,0) r/10
(1,1) r/rc
(2,0) rlL0
(2,1 rlrc
(2,2) r/t0
total 1
5.1 Introdução
Note que pares idênticos foram agrupados e somamos as respectivas
probabilidades. Uma forma equivalente de apresentar a distribuição conjunta,
porém com maior apelo visual, é através da tabela de dupla entrada.
x\), 0 1 2
0 r/rc 2lLj 2110
1 L/n r/rc 0
2 L/n rlL0 rl10
As distribuições marginais também podem aparecer na tabela, bastando efetuar a
soma nas linhas para obter a marginal de X e, nas colunas, paÍa a marginal de Y.
Por exemplo, para calcular a probabilidade de X ser igual a zero, temos
P(X :0) : P(X :0,Y: 0) * P(X :0,Y :1) + P(X :0,Y :2)
r225:10-10-10:10
Iìepetindo os cálculos para outros valores de X e Y, obtemos a tabela a seguir:
x\v 0 1 2 P(X : r)
0 rlt0 2170 2lr0 5lr0
1 7/70 rl70 0 2/r0
2 r/L0 r/n r/t0 3l70
P(Y : u) 3/L0 4lro 3lr0 1
Portanto, as funções de probabilidade marginais são as seguintes:
xl o 1 2 e Yl o 1 2
n I slto 2lro sllo p I slro 4lro slro
tr
Em muitas situações há interesse em estudar o comportamento de uma
í'Lrnção das variáveis tal como soma, produto ou alguma outra relação entre elas.
Vamos nos restringir ao caso de variáveis aleatórias, mas o tratamento é similar
para conjunto de dados referentes à população ou à amostra. Se conhecemos a
clistribuição conjunta de X e Y, o comportamento de outras variáveis, tais como
X +Y, X2 + 5Y ou X Y, pode ser determinado como ilustramos a seguir.
Ilxemplo 5.6: Emuma cidade do Estado de São Paulo, admite-se que o número de
unos para completar o ensino fundamental (variável F) e o número de anos para
cornpletar o ensino médio (variável M) tê,m função de probabilidade conjunta:
r3I
t32 Capítulo 5 : Variáveis Bidimensionais
(F, M) p(.f ,m)
(8,3 3/L0
(8,4 r/rc
(8,5 r/70
(9,3) 2/r0
(9,4 r/20
(9,5 r/10
(10,4 r/70
(10, 5) r/20
Suponha que exista interesse
Acrescentando, à tabela anterior,
variáveis temos
em estudar as variáveis
colunas correspondendo aos
F+M e FxM.
valores dessa novas
(F,M) pU,m) F+M FxM
(8,3 3/10 11 24
(8,4) L/70 L2 32
(8,5) 7/L0 13 40
(9,3) 2/L0 L2, 27
9,4) L/20 13 36
9,5) 7/r0 74 45
(10,4) L/70 L4 40
(10,5 r/20 15 50
Para obter a função de probabilidade de tr.
valores comuns. Por exemplo,
* M, somamos as probabilidades nos
P(F + M : 13) : P(F : 8,M : 5) * P(F : 9,M ón'
Procedendo de modo similar com os outros valores, obtemos as funções de
probabilidade de.F * M e de F x M:
.. 1 1
-
A\ _
'1020
r+twl tt L2 13 1.4 15
prob. | 3/10 3lL0 3120 2lI0 Il20 '
FxMl Z+ 27 32 36 40 45 50
prob. l B/10 2lL0 '
tr
5.1 Introdução
lìxercícios da Seção 5.1:
l. O setor de emergência de um Pronto Socorro Infantil anotou
crianças atendidas (C), de médicos (M)
"
de auxiliares (Á) de
clias de atividades. Os dados são apresentados na tabela abaixo.
o numero
plantão em
de
15
a. Determine as tabelas de freqüência marginais de C, M e A.
b. Obtenha a tabela de freqüência conjunta entre (C, M), (C, A) e (M, A).
c. Represente a tabela de freqüência conjunta de M e A, atravês de uma tabela
de dupla entrada.
d. Calcule amédiadas variáveis M e A.
2.Paru famílias de um certo bairro de São Paulo, apresentamos abaixo a tabela de
f'reqüência conjunta das variáveis: número de automóveis (A) e de Ws (T).
Á\" 0 1 2 total
0 110 235 t20 465
1 51 r22 178 351
2 15 84 L62 267
total 176 44r 460 L077
a. Calcule as marginais de A e T.
b. Determine as médias dessas variáveis.
3. Uma moeda equilibrada é lançada 2 vezes de forma independente. Ao final dos
lançamentos, duas variáveis aleatórias são anotadas: o número total de caras (C)
c o número de coroas no 2o. lançamento (K).
a. Construa uma tabela com os possíveis eventos, as respectivas probabilidades
e os valores de C e K.
b. Apresente a tabela de dupla entrada com a função de probabilidade conjunta
das variáveis aleatórias C e K.
c. Determine o valor esperado de C.
4. Num estudo sobre o tratamento de crises asmáticas, estabeleceu-se a seguinte
Íunção conjunta de probabilidades entre o número de crises de asma (Á) e o
ttíi,mero de internilções hospitalares (H).
?t'
Dia 1 2 tJ 4 5 6 I 8 I 10 11 12 13 L4 15
C 5 7 5 6 5 5 7 5- 6 6 I 5 5 6 6
M 1 1 2 2 2 1 2 1 1 2 2 2 2 2 2
A 4 4 5 6 È7I I 6 5 5 6 È7I I 6 6 7
134 Capítulo 5 : Variáv eis Bidimensionais
Á\H 0 1 2
0 r/8 I/16 0
1 3/16 L/8 r/16
2 r/L6 3lL63/L6
a. Determine as funções de probabilidade marginal das var,{eis Ar/H.
b. Calcule o valor esperado dessas variáveis.
c. Obtenha a função de probabilidade da variável A + H. '-/
5. A função conjunta de probabilidade entre as variáveis X e Y é apresentada
abaixo (com algumas entradas faltando):
x\v
-1 0 2 4 P(X : r)
-2 ,14't 3/64 Ll32 %6ü 5lL6
-1 L/16 7/16 0 \lt (" Ji tto
1 7/at 77/64 1/6tt L/64 5/76
2 5 /64 0 /'r . 3t64 7t32 ì/n(^
P(Y : y1 ,^ 5/16 311ìÇ r/4 1
a. Complete a tabela.
b. Obtenha as marginais de X e Y.
c. Calcule afunção de probabilidade da variável X x Y.
5.2 Associação entre Variáveis
Uma pergunta freqüente de pesquisadores e usuários de Estatística é
sobre a associação entre uma ou mais variáveis. Buôcar explicar como se
comporta uma variável em função do desempenho de outras têm sido o objetivo
de vários estudos que utilizam a Estatística como ferramenta auxiliar. Nesta
seção, começamos a responder a essa questão. Uma resposta mais completa será
dada na parte referente à Inferência Estatística.
Com dados de duas variáveis, em uma população ou amostra, podemos
construir um gráfico no plano cartesiano com a freqüência de ocorrência dos
diversos pares de valores. Esse diagrama pode auxiliar a identificação de
tendências de associação entre as variáveis, conforme veremos no próximo
exemplo.
Exemplo 5.7: Dentre os alunos do 1o. ano do ensino médio de uma certa escola,
selecionou-se os quinze alunos com melhor desempenho (nota acima de 7) em
5,2 Associação entre Variaveis 135
inglôs. Para esses alunos, foi construída a próxima tabela com as notas de inglês
(l), português (P) e matemática (M):
A tabela de freqüência conjunta de (.I, P) é dada por:
tlrn gráfico contendo as informações dessa tabela é apresentado, a seguir, com as
lì'oqüências ao lado de cada ponto. Note que há uma tendência das notas altas em
irrglês, serem acompanhadas por notas altas em português.
Considere
scguinte:
agora as variáveis I e M. A tabela de freqüência conjunta é
P
10
,l
Aluno 1 2 3 4 5 6 ì7I 8 I 10 11 T2 13 L4 15
I ( 7 7 F7I 8 8 B 8 8 8 8 9 I I 10
P 8 6 B 9 8 6 I I 7 6 7 B^ I 8 8
M 5 6 7 5 t) 5 6 4 7 6 5 5 6 5 5
1\ P 6 I 8 I
7 1 0 2 1
8 2 J 1 1
I 0 0 2 1
10 0 0 1 0
IJô
Observe que o bom desempenho em
bom desempenho em matemática.
Capítulo 5 : Variáveis Bidimensionais
8 I 10
inglês parece, neste caso, não implicar num
D
Apesar de ser um instrumento útil para identificar tendências, osrliagramas rornam-se de difícit interpreração,
"rïigun. ;;;;;.;", exempro, se oconjunto de dados tem muitas observãções
"oà pou.os valores diferentes,
'lgumas freqüências serão altas atrapahándo a visualização de uma eventualtcndência' Dessa forma, é importanie ampliar o estudo da associação entrevariáveis, para buscar.uma caracterização que não dependa só da interpretação
visual' com este objetivo, definimos piobabilidad"
"ondi"ional e independênciapara variáveis aleatórias, estendendo os conceitos apresentados no capítul o 2 paracventos aleatórios. Aqui, o condicionamento, na ocorrência de um valor davariável aleatíria, é equivalente ao condicionamento na ocorrência de um evento.
I\M 4 5 6 7
I 0 2 1 1
8 1 tJ 2 II 0 2 1 0
10 0 1 0 0
5,2 Associaçdo entre Variaveis
Deftnição 5.2: Probabilidade condicional para variáveis aleatórias discretas
Dadas duas variáveis aleatórias discretas definidas no mesmo espaço
urnostral, a probabilidade condicional de X : :L,dado que Y : a ocorreu, é dada
pcla expressão:
P(X:rlY:g): P(X:r,Y:y) , se P(Y: g) > 0.P(Y : a)
Caso P(Y : A) :0, a probabilidade condicional pode ser definida
rtrbitrariamente e adotaremos P(X : r lY : A) : P(X : r). D
Definição 5.3: Independência de varidveis aleatórías
Duas variáveis aleatórias discretas são independentes, se a ocorrência de
rlualquer valor de uma delas não altera a probabilidade de ocorrência de valores
tla outra. Em termos matemáticos,
P(X:rlY:y):
prra todos os possíveis valores (r,g) das
irlternativa e equivalente podemos usar que:
P(X
variáveis (X,Y). Como definição
P(X : n,Y : A) : P(X : n) P(Y : A), para quaisquer (*,A).
,
O
A verificação da equivalência entre as duas expressões, acima, pode ser
lbita de modo análogo ao realizado no Capítulo 2. Deixamos ao leitor essa tarefa.
Note, ainda, que a definição de independência exige que a igualdade seja
vcrdadeira para todas as escolhas dos pares (r,A). Assim, basta encontrarmos um
l)rÌr em que a igualdade não se verifique para concluirmos que as variáveis
irleatórias não são independentes. A Figura 5.1 resume esses comentários.
Ilxemplo 5.8r O Centro Acadômico de uma faculdade de administração fez um
lovantamento da remuneraçiro dos estírgios dos alunos, em salários mínimos, com
Figura 5. 1 : Indep endêncin de variáv eis aleatórias .
/.ftï Capítulo 5 : Variáveis Bidimensionais
relação ao ano que estão cursando. As probabilidades de cada caso são
apresentadas na próxima tabela, incluindo as distribuições marginais.
Salário \ Ano 2 ,) 4 5 P(Sal. : z)
2 2/25 2/25 r/25 0 5/25
.) 2/25 5/25 2/25 2/25 Lr/25
4 7/25 2/25 2/25 4/25 I /25P(Ano: y) 5 /25 s/25 5/25 6125 1
Pclas informações apresentadas, as variáveis salário e Ano de curso não sãil
inclcpendentes pois, por exemplo,
P[(Sal. : 3) n (Ano : 4]:2lzs I p(Sat.: B)p(Ano
-
4) : rr/r2s.
Unra maneira bem prá'tica de verificar independência consiste em usar a tabela de
clupla entrada, checando se o produto da última linha e última coluna (as
rnargirrais) reproduz o corpo da tabela. se a tabela contiver um zero no seu corpo,brsta verificar se uma das marginais correspondentes é zero. caso nenhuma
marginal seja zero, concluímos imediatamente a não independência, uma vez que
o produto de dois números não nulos nunca é zero. tr
A verificação da independência, no caso de duas variáveis em um
conjunto de dados, será discutida com maior profundidade no capítulo g que trata
cle Testes de Hipóteses. Entretanto, podemos utilizar as idéias de indepeìdência
cle variáveis aleatórias para estudar a relação de duas variáveis observadas numapopulação ou amostra. Uma das formas utilizadas é construir a tabela de dupla
cntrada com porcentagens em relação ao total de colunas ou linhas.
Ilxcntplo 5.9.' Em uma clínica médica foram coletados dados em 150 pacientes,
relbrcntes ao último ano. observou-se a ocorrência de infecções urindriàs (J) e o
tttítncru tle parceiros sexuais (,n/). Deseja-se verificar se essas variáveis estão
russociadas. os dados são apresentados a seguir, com as respectivas marginais.
u\r/ 0 7 2 ou mais total
Sim t2 2L 47 BO
Não 45 1B 7 70
total 57 39 54 150
Cottstruindo uma nova tabela com as porcentagens em relação ao total de coluna,
otrtcmos a proporção relativa da variável (J em relação i cada subconjunto de
valores de N.
5.2 Associação entre Variáveìs 139
u\r'r 0 1 2 ou mals total
Sim 2r,lvo 53,8%io 87,l%o 53,SVo
Não 7B,9Vo 46,2Vq L3,}Vo 46,7Vo
total I00Vo l0OVo L00Vo L00Vo
(lgnsiderando os valores de [/ no conjunto total de dados, temos 53,3Vo de
rcspostas positivas e 46,7V0 de negativas. Caso não haja associação dessa variável
eoln o número de parceiros, devemos esperar porcentagens similares em cada
virlor da variável ,fí, indicando que esses valores não interferem com as respostas
tlo [/. Assim, por exemplo, para ly' : 0 seria esperado ter, aproximadamente,
lil,3%o de respostas positivas, que é a mesma ocorrência verificada no total da
linha. Como se pode observar da tabela acima, as porcentagens são próximas
lpenas no caso l/: 1, sendo bem diferentes nos outros casos. Dessa forma, os
rludos sugerem que as variáveis não são independentes' n
Continuando o estudo da associação entre variáveis num conjunto de
tllctos, construímos, no próximo exemplo, uma tabela de dupla entrada contendo
rrs freqüências que seriam esperadas, caso houvesse independência entre as
vlriáveis. Precisamos decidirse as duas tabelas, a de freqüências observadas e a
tlc esperadas, estão suficientemente próximas uma da outra.
Ilxemplo 5.-f 0.. Apresentamos os dados relativos a uma amostra de 80 famílias, de
lun certo bairro, com as informações sobre o número de pessoas que trabalham
nufamília (") e o número de adolescentes entre 12 e 1B anos (A).
A rnarginal deT e as freqüências de seus valores, restritas ao grupo Á- 0, serão
irpresentadas em seguida. Note que as freqüências de ocorrência, restritas a cada
grr.rpo de valor de A, nada mais são do que as colunas da tabela de dupla entrada
rlo início do exemplo.
r\Á 0 1 2 trJ 4 total
0 5 4 2 3 1 15
I 2 B 6 4 I 2t
2 4 8 B 5 2 27
.1 , 4 2 2 5 4 I7
total 15 22 1B T7 B, 80
T freq.
0 15
1 2L
2 27
3 L7
total 80
t40 Capítulo 5 : Variáv eis Bidimensionais
T /A:0 freq. observ.
0 5
1 2
2 4
J 4
total 15
Se houvesse independência entre T e A, o comportamento da variâvel ?
em cada grupo deveria ser o mesmo e, portanto, esperaríamos que as freqüênci
de cada valor de 7 mantivessem a mesma proporcionalidade encontrada na
ilmostra como um todo. Em outras palavras, as duas tabelas acima precisariam ser
parecidas quanto à freqüência relativa. Acrescentamos, na tabela restrita ao grupo
A.:0, uma nova coluna com a freqüência esperada caso a independência se
verifique. Essa coluna foi calculada multiplicando a freqüência relativa do valor
cle ? (em toda a amostra) pela freqüência do grupo. Por exemplo, a freqüência
esperada do valor T:7, no grupo dos Á:0, seria 21180 x 15:3,94. Note
que esta freqüência não precisa ser um número inteiro.
T\Á:0 freq. observ. freq. esperada
0 5 2,87
1 2 3,94
2 4 5,06
3 4 3,19
total 15 15
De modo análogo ao feito para o grupo Á: 0, calculamos as freqüências
esperadas para todas as colunas da tabela de dupla entrada (valores aproximados):
7 \.4 0 1 2 ò 4 total
0 2,Bl 4,13 3,37 3,19 1,50 15
I 3,94 5,77 4,73 4,46 2,r0 27
2 5,06 7,42 6,08 5,74 2,70 27
t
t) 3,19 4,67 3,83 3,61 I,70 17
total 15 22 1B 77 B 80
5,2 Associação entre Variáveis 141
eube agora quantificar se essa tabela está ou não "muito" distante da tabela
ohscrvada. Uma medida usualmente calculada é a seguinte:
Q':D4,
i,i "11
Eonl o,;.i e eii repfesentando, respectivamente, as freqüências observadas e
csl)cradas na linha 'i e coluna j. A medida Q2 usa a diferença entre oi.j e ei.j
elcvada ao quadrado para evitar o cancelamento de termos positivos por
flL:gativos. A divisão pot ei.i objetiva padronizar a medida, relativizando o
tnrrranho da diferença encontrada. Como estamos tratando de observações de
vrrriÍrveis, podem ocorrer flutuações devido à natureza aleatóúa da amostragem e
€rrrrcluiremos pela independência entre essas variáveis, se houver razoáxel
proximidade nas tabelas. Não é difícil perceber que isto significa valores
pe(luenos da medida Q2 e,no Capítulo 8, desenvolveremos um critério estatístico,
piìriÌ tomar a decisão de aceitar a independôncia de duas variáveis. Para este
excrnplo, vamos nos contentar em apresentar o cálculo da medida Q2 que, pelo
tlr:rr valor, consideraremos uma indicação de não independência:
D
No caso de dependência linear e de variáveis quantitativas, existe uma
prrtla medida que é freqüentemente utilizada e será definida, a seguir, para um
corr.junto de dados brutos.
I)t1[iníção 5.4: Correlação entre variáveis num conjunto de dados brutos
Considere um conjunto de dados com n pares de valores para as variáveis
.\ c Y, representados por (ru,g),'í:I,2,...,fr.O coeficiente de correlação
rrrcrlc a dependência linear entre as variáveis e é calculado da seguinte forma:
'n
D@o - r,,r,,)(ar. - a,*,)i,:l
(5-2,81)2 +...+ (4-r,70)2 :12.63.2,81 L,70Q,:
Px,Y
=
142
ou, em uma forma mais conveniente para cálculo,
Capítulo 5: Variáveis
n,
LrtAt.-TLIohsAobsi:l
, . | ,,\J-ìlca o
88
D"o: 10Bb ,D"?: 151533;i--L i:l
88
Dru:310, tú:12640;i:t i:L
8
D*oro: 43245.i:l
PX,Y:
As expressões anteriores podem ser adaptadas para o caso em que
dados estão agrupados em uma tabela de freqüência. As expressões não
apresentadas aqui, mas acreditamos que podem ser obtidas sem dificuldade.
É possível verificar que o coeficiente de correlação é sempre um nú
entre
-1 e 1. Um ponto a ser ressaltado, que muitas vezes causa confusão, é
correlação igual a zero não indica independência. Se a correlação é zero, o
podemos dizer é que não existe dependência linear entre as variáveis.
interpretação para os termos presentes no seu cálculo será dada mais adian
quando definiremos coeficiente de correlação para variáveis aleatórias.
Exemplo 5.11: A quantidade de chuva é um fator importante na produtivi
agrícola. Para medir esse efeito foram anotados, para 8 diferentes regi
produtoras de soja, o índice pluviométrico em milímetros (X) e a produção
o, út
uma
,tí'ítt(. Tfutuúll>
çr"ned'u,tt7-D : >
'
"o-'o
auxílio o" rr-uofrín[ilf"
-,1, rtÌ''ú'UtA
5.2 Associação entre Variáveis 143
Scgue que r o6, : l-35, 63 e y oo, : 38, 75. Utilizando a expressão de cálculo da
currelação vem que:
PX,Y:
lÌrrtanto, a correlação entre índice pluviométrico e produção é positiva e bastante
titzoável. Desta forma, locais com maior intensidade de chuva tenderiam a ter
tttlior produtividade. tr
Vamos voltar nossa atenção agora paravariâveis aleatórias discretas. Para
elcí'inir medidas de dependência entre elas, precisamos estudar, inicialmente, as
propriedades do valor esperado.
Sejam X e Y duas variáveis aleatórias discretas com distribuição
conjunta p(r,y). As marginais de X e )z serão representadas, repectivamente, por
p(t:) e p(y).
Vamos determinar o valor esperado da variável X +Y:
E(x-+Y): tIt" +üp@,a)r.u
: I D,p@,Ò +L,\un@,u)
TU:E'!J
: I" (t p@,a))+t, (f p(*,Ò)
rUUT
:trp@)+tap@)
X;U
: E(x) + E(Y).
Notc que obtemos essa importante propriedade do valor esperado, sem necessitar
tlc rtcnhuma hipótese adicional sobre as variáveis. Dessa forma, esse resultado
lcrn ampla aplicação e também é válido para mais de duas variáveis.
Considere agora o produto XY. O valor esperado do produto será o
pt'oduto dos valores esperados, sempre que as variáveis forem independentes.
Para X eY variâveis aleatórias discretas independentes, temos:
43245-8x135,63x38,75
t44 Capítulo 5 : Variáveis B idimensionais
E(xY): tL"yp@,a)
r '!l
: I D,*aP@)P@) -$
r lt
'.ü*
: (T
'p@)) (Duna) ít ,nf: E(x) E(Y) . \ /t
Exemplo 5.12.' No Exemplo 5.5, o par de variáveis f*,h represenr
respectivamente, a quantidade de poços artesianos e de riachos em sub-regiões
uma certa ârea. A próxima tabela contém os valores das variáveis X f Y e X
com suas probabilidades.
(X,Y) X+Y XY p(r,a)
(0,0) 0 0 L /10(0,1) I 0 2/r0
(0,2) 2 0 2/r0
(1,0 1 0 L/n
(1,1) 2 I 1170
(2,0) 2 0 L/10
(2, 1 tr) 2 L/rc
(2,2) 4 4 r/70
Utilizando a tabela acima, a função de probabilidade de X +Y e a de XY
obtidas sem dificuldade:
(
x+rl 0 L 2 3 4
Para os valores esperados temos:
E(X+Y):18/ro
As distribuições marginais de X e Y jâ
reapresentadas em seguida:
e E(XY) :7lto.
foram calculadas no Exemplo 5.5 e são
5.2 Associação entre Variáveis 145
xl o 1 2
p | 5/10 2/70 slto
vl o t z
pi | 3lt0 4lr0 3lt0
Segue então que E(X) : S/10 e E(Y) : L'
Podemos agora verificar que
E(X +Y) : ISlto: E(X) + E(Y): B/10 + 1, '
isto é, o valor esperado da soma é igual à soma dos valores esperados.
Entretanto, para o produto temos
RE(xY):7lLo+E(x)E(Y): õ * t,
ou seja, o valor esperado do produto de duas variáveis não é igual ao produto de
seus valores esperados. Note que, conforme já havíamos mencionado, as variáveis
aleatórias X eY não são independentes. tr
Na Figura 5.2, apresentamos a expressão do valor esperado da sorra de
variáveis aleatórias.
Fígura 5.2: Valor esperado da soma de vuriáveis aleatórias.
É importante salientar a relação unidirecional de implicação entre a
independênciae a fatoração da esperança do produto. O resultado váfido afirma
que a independência de X e Y implica no valor esperado do produto XY set
igual ao produto do valor esperado de X pelo valor esperado de Y. Todavia, se o
valor esperado do produto de duas variáveis é o produto dos valores esperados,
t4(, Capítulo 5: Variáveis Bidimensionais
niio necessariamente é verdade que X e Y são independentes. A Figura
resume esse comentário, que é ilustrado no próximo exemplo.
Itigura 5.3: Valor esperado do produto e independêncía de varióveis aleatórias.
IÌxemplo 5.13.' Considere as variáveis W e Z com a seguinte distribuição
conjunta:
W\Z 2 tL) 4 P(W : w)
-1 2/72 0 3/12 5l12
0 0 r/L2 L/T2 2/12
1 I/L2 2/12 2/12 5/r2
P(Z : z) 3/L2 3/12 6/12 1
A variável W Z tem função de probabilidade dada por:
Temos então,
E(W Z) : (-4) x 3lL2+ .'. + 4 x 2lLz
-0.
Por outro lado, utilizando as distribuições marginais de W e Z, podemoscalcular
seus valores esperados. Assim,
E(W) : (-1) x 5lI2 + 0 x 2lI2 * L x 5fL2 : 0 ;
E(Z) : 2 x 3lI2 + 3 x 3112 + 4 x 6lL2 : 391L2
Vale portanto a relação E(WZ):E(W)E(Z).Nesse caso, seriam W e Z
independentes? A resposta é não, uma vez que, por exemplo,
P(W :
-I,Z - 2) : 2lI2 + P(W : -L)P(Z - 2) : L5/L44,
wzl-4
-2 0
prob. | 3lL2 2/L2 2/L2 7/72 2
5.2 Associação entre Variáveis
c, desde que temos um par em que a probabilidade da conjunta não é igual ao
;rroduto das probabilidades marginais, concluimos que as variáveis aleatórias W e
Z não são independentes. tr
Se as variáveis são dependentes, a relação entre elas pode ser de vários
tiflcs e, no caso de ser linear, vamos definir uma medida dessa dependência.
Definição 5,5: Covaríância de duas varidveis aleatórias
Uma medida de dependência linear entre X eY ê, dada pela covariância:
Cov(X,Y) : ox,Y : E[(X
-
LLx) (Y - P")]'
Iirn palavras, a covariância é o valor esperado do produto dos desvios de cada
variável em relação à sua média. tr
No próximo exemplo ilustramos o cálculo da covariância e, para auxiliar
ir interpretação de sua expressão, faremos uma representação gráfica dos valores
clas variáveis.
Ilxemplo 5.14: As variáveis U eV têm a seguinte distribuição conjunta:
(u,v) (2,2) (3,4) (3, B) (4,6) (5,4) (5,8) (6, 10)
P(u,u) 0,1 012 0,1 012 0,1 012 0,1
l{epresentamos a seguir essa distribuição através de uma tabela de dupla entrada,
i ncluindo as marginais.
Utilizando as probabilidades marginais, obtemos imediatamente que E(t/) : 4 e
Ii(V) :6. Nosso interesse é verificar a existência de uma relação linear entre U e|/. No diagrama a seguir, apresentamos a função de probabilidade conjunta das
cluas variáveis.
t47
u\v 2 4 6 B 10 P(U : u)
2 0,1 0 0 0 0 0,1
D
t) 0 012 0 0,1 0 0,3
4 0 0 012 0 0 012
5 0 0,1 0 012 0 0,3
6 0 0 0 0 0,1 0,1
P(V : u) 0,1 0,3 012 0,3 0,1 I
148 Capítulo 5: Variáveis
Fazemos agora uma translação de eixos para colocar a origem
respectivas médias, isto é, no ponto (4,6).Dessa forma, os pontos anteri
transformam-se em (u
-
4,a
-
6), com cada coordenada representando o desvi
em relação à sua média.
5,2 A,r,vtciação entre Variáveis
r49
€rçu.rirnoo os calculos, obtemos Cov(U rV) : 2, indicando a tendência das
variÍrveis moverem-se na mesma direção, isto é, quando uma variável cresce nquando uma variável cresce a
€UÍru também cresce. tr
A covariância pode ser calculada mais facilmente pela seguinte expressão
ãlternativa:
Cov(X,Y) : o*,, : E(Xlí)
-
E(X) E(y).
Õbserve que' no caso em que xe y serem independentes, temos cov(x,y) : 0,
utì1il vez que o valor esperado do produto se torna igual ao produto do, uâIo.",
ffJl*'.for' A partir da covariância, definimos uma nova medid" d" d;;"dêï;;;lllìcilr.
Derfinição 5.6: Correlação entre vatríáveis aleatórías
O coeficiente de correlação entre as variáveis aleatórias discretas X ey
é r:irlculado pela seguinte expressão:
os pontos localizados no 1" e 3" quadrantes têm suas coordenadas com o
ffiênnro sinal, Iogo o produto delas é positivo. No 2" e 4o, o produto e n"guii;o.
Sonr'ndo esses produtos, ponderados ielas respectivas probabilidades, temos:
tf @ - n(u))x (u - E(v)) x p(u,u),
€
essc número inai"u'ï t"naon"iu de alinhamento no sentido dos quadrantesÍmp'res ou pares, de acordo com o sinal positivo ou negativo, respectivamente. A
€r;trcssão acima nada mais é do que a fórmula da covariância entre x e y,Êprcsentada aqui em uma forma mais detarhada do que na Definição 5.5.Etbtuando os cálculos, obtemos Cov(U,V) :2, inOi"ãnao u tendência das
Cov(X,Y)4'.,- :
OX OY
E
Pela definição acima, o coeficiente de correla ção ê o quociente entre acrviuiância e o produto dos desvios-padrão de x e )2. A divisão pelo produto dos
rlcsvios-padrão tem a função de padronizar a medida e torná-la possível de ser
,tilizada para comparações com outras variáveis. Não é difícil u"rifi.u, gue px,v
é rrrrr número adimensional e limitado por 1, isto é, lpx,vl < 1. A interpretação de
suir cxpressão segue os mesmos passos da covariância, sendo que valores de
1t,y,y próximos de Í 1 indicam correlação forte.
t50 Capítulo 5: Variáveis
Vamos, agora, deduzir a expressão da variância da soma de duas variá
aleatórias. Desenvolvendo a partir da definição de variância temos:
Var(X +Y): E16 +Y)
-
(trt + t"y)l'
: El(x
-
px) + (Y
-
pt)l'
E 16 - px)z + (v - pv)2 + 2(x - px)(Y - p")l
E(x
-
px)2 + E(Y
- ttv)2 +2El(X - px)(Y - p")].
Então,
Var(X + y) : Var(X) + Var(Y) i 2 Cov(X,Y)
que, se rcdtzirâ à soma das variâncias, no caso de independência entre X eY.
Exemplo 5.15.' Nos Exemplos 5 .5 e 5 .I2, o par de variáveis (X ,Y) representa
respectivamente, o número de poços e de riachos em sub-regiões de uma
6trea.
Já calculamos .E(X Y) : 7 ltO, E(X) :8/10 e E(Y) : 1, portanto,
cov(x,Y) : E(xY)
-
E(x) E(Y) :+
- * t t : -*.t0 10 10
Usando as distribuições marginais, podemos obter ozr:2x :76/100 e o2u :
Para avariância de X i Y temos
Var(X +n: 2''100
O coeficiente de correlação será
Cov(X,Y)
ox oY
" # +2(-#) :
-Llt0ffi@
116
100
:
-0,15.
Nas figuras a seguir, resumimos algumas fórmulas dessa seção.
ï :60/1
5,2 Associação entre Variaveis 151
Figura 5.4: Correlação para conjuntos de dados (brutos).
Figura 5.5: Covariância e correlação de varidveis aleatórias.
Figura 5.6: Variância da soma de duas variáveis aleatórins.
Vamos encerrar essa seção, aplicando as propriedades do valor esperado e
rlu variância na obtenção dessas quantidades para o modelo Binomial.
Il"rctnplo 5.1ó.' Considere uma sequência de variáveis aleatórias independentes
eorrr distribuição Bernoulli de parâmetro p. Como se comporta a soma de n dessas
virliiiveis?
Representemos por Xr, Xz, .. ., X,,, a sequência de variáveis de Bernoulli.
lisíirrnos interessados em X : Xr t Xz * '.' * Xn, e, pela definição do modelo
Ilirrornial, já sabemos que X
-
b(n,p).
Lembrando que E(Xa) : p e Var(X6) : p(l
-
p) para 'i:1,2,..., D,
virrrìos calcular a média e a variância de X, utilizando as propriedades
t52 Capítulo 5 : Varidv eis Bidimensionais
apresentadas anteriormente. Temos,
E(X):E(Xt+Xz.-"'+X,)
: E(xt) + E(x2) + ... + E(x")
: p+ p+...+ p
-
np.
Para obter a variância, usaremos a independência dos X;,r:
Var(X) : Var(Xr t Xz + "' 1 X,,)
: Var(Xt) * var(X2) + ... + var(X")
: p(l
-
p) + p(I
-
p) + ... + p(L
-
p)
: np(I- p).
Esses resultados coincidem com aqueles apresentados no Capítulo 3. tl
Exercícios da Seção 5.2:
1. Na tabela a seguir encontram-se os conceitos de história (H), matemótica (M)
efísica (F ) de alguns alunos do 3o. ano do ensino médio de uma escola.
a. Construa as tabelas de freqüência conjunta para H e M e para H e F.
b. Calcule a proporção de alunos com ó em física, dentre os com pelo menos c
em matemática.
2. rJm levantamento obtido, junto aos funcionários de um pequenoescritório;
busca relacionar as variáveis: anos de estudo (X)
"
número de diftrentes
empregos nos últimos 5 anos (y). O que você pode dizer com os dados
fornecidos?
3. Uma amostra de 220 clientes de uma clínica dentária foi selecionada'
variáveis tempo, em anos, decorridos desde a última visita ao dentista (V)
número de córies encontradas (C) é apresentado na próxima tabela'
As
eo
Aluno I 2 J 4 5 6 7 8 9 10 11 l2
H C C' 'c C b. h b b b b b a,
M c C d c b c a c c c c c
F d c b C b c c b b c c b
X 8 I 10 11 l2
Y 4 2 I 2 I
5.2 Associação entre Variáveis
a. Obtenha as tabelas marginais de freqüência.
b. Construa a tabela de freqüências esperadas, caso houvesse independência
entre as variáveis.
c. Determine o índice Q2.
4. A função de probabilidade conjunta entre as variáveis aleatórias X e Y ê,
apresentada na próxima tabela.
a. Obtenha as funções de probabilidade marginais das variáveis.
b. X e Y são independentes?
c. Calcule a covariância e a correlação entre X eY.
,
5. Na caixa I existem duas bolas numeradas 0 e 1, enquanto que a caixa II contêm
duas bolas numeradas 1 e 0. Uma bola é retirada aleatoriamente de cada
caixa, de forma independente uma da outra. A esse experimento, associamos as
variáveis aleatórias: número da bola retirada na caixa I (X), soma dos valores
das duas bolas retiradas (Y) e a difurença, em módulo, desses valores (Z).
a. Determine a função de probabilidade conjunta entre X eY e entre Y e Z.
b. Verifique se X e Y são independentes. Idem paraY e Z.
c. Calcule a covariância entre X eY.
d. Obtenha Var(X +Y).
6. A variável X é,Bernoulli com p : 0,4 eY é Binomial com p : 0,5 e n : 3.
Admita que X e Y são independentes.
a. Determine P(X :\lY :2).
b. Obtenha a função de probabilidade conjunta de X e Y e do produto XY.
c. Calcule E(X),8(Y) e E(XY) e verifique que: E(X) x E(Y) : E(XY).
d. Determine o valor de Cov(X,Y) e de py,y.
t53
r\c 0 1 2
1 1B 16 10
2 34 45 38
oJ T2 16 31
x\y
-2 0 2 4
-1 0,1 0,2 0,1 012
1 012 0 0,1 0,1
t54 Capítulo 5 : Variáv eis Bidimensionais
5.3 Exercícios
1. A tabela a seguir apresenta os valores observados em uma amostra de 130
empregados do ramo do comércio.
Sexo \ Fumante Sim Não
Masculino 24 18
Feminino 25 63
a. Construa as tabelas marginais de freqüência para as variáveis Sexo e
Fumante.
b. Se usássemos a amostra para tirar uma conclusão sobre toda população,
você diria que, proporcionalmente, mais homens fumam do que mulheres?
c. Calcule o índice de associação Q2 entre as variáveis.
Em uma amostra de 8 funcionários de uma empresa, observou-se duas
variáveis: anos de empresa (A) e número de promoções recebidas (P). Com
os resultados apresentados a seguir você diria que, para essa empresa, essas
variáveis estão associadas?
3. Está sendo estudado o efeito do teor de ferro na capacidade ile car p de vigas
,,
de concreto. Os dados abaixo apresentam os resultados de medidas
uma amostra. Obtenha a correlação entre as variáveis.
Ferro (7o peso) 5,4 6,8 6,9 7,3 7,7 8,1 8,2 8,5 8,6 8,9
Carga (ton./m2) 2rL ,) 2r9 2r9 3,0 3,1 3,1 3,1 314 3,5
4. A tabela de freqüência conjunta entre número de filhos (f')
"
número de
cusamentos oficiais (C) é apresentada, a seguir, para os 250 funcionários de
urïáì certa empresa.
a. Determine as tabelas de freqüência marginais, correspondentes a cada uma
das variáveis, isoladamente, e calcule as médias de F e C.
b. Construa um gráfico com a distribuição de freqüência das variáveis. Você
chega a alguma conclusão? r
c. Determine o coeficiente de correlação entre F e C. Note que será
necessário adaptar a expressão apresentada na Definição 5.4.
btidas em
A 5 6 6 7 I B B 8
P 2 2 1 2 0 tJ 1 0
5.
5.3 Exercícios 155
(F,C) freq.
(0,0) L2
(0, 1 25
(0,2) 8
(1,1) t4
(2,1 57
(3,1 40
(3,2) 45
(4,r 27
(4,2) 22
Os dados a seguir referem-se a uma amostra de 5 alunos que
início do curso, seu peso e idade.
informaram, no
a. Encontre a média e o desvio padrão do peso dos alunos c"om l7 anos.
b. Construa o diagrama de Peso por ldade.
c. Obtenha o coeficiente de correlação entre peso e idade.
ír. Para cinco volumes de uma mesma solução foram medidos os tempos
aquecimento, em um mesmo bico de gás, e as respectivas temperaturas
ebulição:
Tempo (min.) 20 22 19 23 17
Temperatura ('C) 75 BO 75 82 78
a. Obtenha o gráfico do Tempo pela Temperatura e calcule a correlação.
b. Você acha que existe associação entre as variáveis?
Alguns cientistas sociais acreditam que a opinião sobre o aborto independe
situação familiar. O que você diria, após estudar a amostra?
Situação \ Opinião Favoráveis Contrários
Casados 56 2:4
Solteiros 15 25
Divorciados 24 16
Viúvos 13 27
de
de
da7.
Aluno I 2 J 4 5
Peso 7L 65 70 57 66
Idade L7 L7 18 17 19
de9.
t56 Capítulo 5 : Variáveis Bidimensionais
8. A tabela a seguir consiste de 16 valores de três variáveis observadas em alunos
do curso de ciências sociaisr sexo (S), nota de estatística (E)
"
nota de
antropologio (A).
a. construa a tabela de dupla entrada para as notas de estatística er
antropologia.
b. Repita o item (a), considerando apenas os homens.
c. calcule, para os alunos do sexo masculino, o coeficiente de correlação entre
as notas de estatística e de antropologia.
d. Com o uso da tabela obtida em (a), calcule a porcentagem de cada
freqüência conjunta em relação ao total de alunos.
a. Obtenha a tabela de dupla entrada.
b. Calcule a porcentagem de cada ocorrência conjunta em relação ao total de
casos.
c. Repita o item (b), fazendo a porcentagem em relação ao total de colunas.
d. Que conclusão se pode tirar da relação entre a incidência de sarampo e
difteria?
10. As informações da tabela a seguir foram coletadas de 24 pacientes da ârea de
cardiologia de um grande hospital público. A variável C indica o número de
intervenções cirúrgicas sofridas pelo paciente, ,9 representa o número de
pontes safena colocadas pelo paciente em uma ou mais cirurgias e a variável F
indica o número de.familiares próximos com problemas cardíacos.
s M F M F M M F F F M M F M F F M
E tr) 6 4 oiJ 6 5 5 I 4 5 5 6 5 4 tr) 6
A te) 4 3 5 5 5 4 6 5 5 4 4 5 5 6 5
Num certo distrito de
sarampo (S) e difteria
saúde, o comportamento conjunto dos
(D) foi o seguinte:
t6 I7 18 t9 20 2t 22 23 24 25 26 27 28 29 30
1 I 2 ó 1 0 1 2 1 0 0 0 1 L 2
2 2 I t.) 2 2 2 2 I 2 1 I 1 ti) t()
Pac. No. t 2 J 4 5 6 7 8 9 10 ll 12 I3
C I 1 2 1 2 1 I ta) 2 2 1 1 2
s 2 2 Dt) 1 1 2 tL) td 2 J 1 2 I
F 0 2 4 0 1 1 1 2 0 DL) 0 1 2
5.3 Exercícios r57
a. Construa a tabela de dupla entrada com as variáveis C e S.
b. Estude a associação entre as variáveis C e S, através das porcentagens em
relação ao total de coluna.
c. Repita os itens (a) e (b) para C e F.
d. Repita os itens (a) e (b) para S e F.
11. O departamento de vendas de certa companhia ofereceu um curso de
atualizaçáo a seus funcionários e, para estudar a eficâcia do curso, resolveu
comparar a noto de teste no curso (7) com o volume de vendas, em rhilhares
de unidades, nos seis meses seguintes ao curso (V). Os resultados estão na
tabela abaixo.
a. A variável ? serve para explicar a variável I/? Justifique.
b. Calcule a correlação entre as variáveis.
12. Um total de 1000 passageiros de vôos domósticos foram entrevistados no
Aeroporto de Guarulhos. Duas variáveis foram observadas: número de viagens
mensais (V)
"
número de automóveis na família (Á). O resultado está na
próxima tabela que, por descuido, está incompleta.
V\A 1 2 tr) total
1 ì/0 BO 60 -zt)O
2 150 :.{.,t C 450
õJ /t0 L20 ,l4a 300
total 300 Ì 200 'i i Ì.. ),
Pac. No. I4 15 t6 ï7 18 t9 20 2I 22 23 24
C 2 I I 1 ta) 1 2 1 1 1 tr)
,9 ,f D() 2 1 2 2 1 1 2 t!) Dt)
F td ,) 0 0 1 0 0 1 1 2 4
,1, R 9 7 8 6 8 É.J 5 6 7 4 7 qd 5 3
V 74 13 T2 13 10 I2 11 11 10 T2 10 13 10 T2 11
/51J Capítulo 5 : Variáveis Bidimensionaisa. Complete a tabela. !
b. Calcule as porcentagens em relação ao total de coluna.
c. As variáveis são independentes? Justifique.
13. A tabela de freqüência apresentada em seguida está incompleta e contêm
observações das variáveis: vida útil do equipamento (t/)
"
garantia do
fabricante (G), ambas medidas em anos.
a. Complete
b. Construa
variáveis.
o gráfico de [/ por G e verifique se há associação entre as
c. Calcule a vida útil média para cada subgrupo de valor da garantia. Comente
os resultados.
L4. Para o lançamento de dois dados equilibrados, defina duas variáveis
aleatórias. Seja X o número de vezes que aparece aface 2 eY igual a 0 se a
soma for par e 1, caso contrário.
a. Determine a função de probabilidade conjunta de X eY.
b. Calcule E(X), E(Y) e E(X +Y).
c. Verifique se X e Y são independentes.
d. Calcule o coeficiente de correlação entre X eY.
15. Considere a função conjunta:
x\v 0 1 2
0 t/78 rls rl6
1 7/9 I/I8 U9
2 L/6 r/6 r/18
a. Calcule P(l < X 12,y > 1) e P(X: 1, Y ) 1).
b. Determine E(X), E(Y) e Cov(X,Y).
c. X e Y são independentes? Justifique.
U\G 2 4 6 B total
8 tt) 3 o 0 6
10 4 I 6 +4.
t2 1 í) 5 4 10\
total 5 '.,Ú 1t <,O /
tabe
5.3 Exercícios t59
16. A função de probabilidade conjunta das variáveis x ey ê dadapela seguinte
tabela de dupla entrada.
x\y
-1 0 1
-1 I/B 1/8 r/8
0 1/8 0 1/B
1 L/8 I/B L/8
a. Verifique se E(XY) : E(X)E(Y).
b. X e Y são independentes? Comente.
17. Numa caixa existem 4 bolas numeradas 3, 5, 5 eT.rJmabola é sorteada ao
acaso, seu número anotado (xr)
"
devolvida à caixa. uma segunda bola é
escolhida, também ao acaso, e seu número denotado por X2.
a. Determine a conjunta de X1e X2.
b. Calcule as marginais de X1 e X2. Elas são independentes?
c. Encontre o valor esperado e a variância de X1, X2 eX : e+Ãt.
18. Uma moeda equilibrada é lançada três vezes e são definidas as variáveis
aleatórias: número de caras nos dois primeiros resultados (x), número de
caras no último lançamento (Y) e número total de caras (S).
a. Construa a tabela conjunta de (X,Y).
b. Verifique se X e Y são independentes. '
,
c. Calcule E(X), E(Y) e Cov(X,Y).
d. Expresse ,5 em função de X e Y e determine E(.9) e Var(S).
19. considere a frase: "Para mais saúde pratique mais esporte,,. Escolha ao acaso
uma palavra dessa frase e considere as variáveis aleatórias número de vogais(V) e número de consoantes (C).
a. Determine a conjunta deV e C.
b. Obtenha as funções de probabilidade marginais.
c. Calcule os valores esperados dessas variáveis.
d. As variáveis são independentes? Justifique.
e. se a escolha acima resultou em v : 2,, qual é a probabilidade da palavra
"mais" ter sido a escolhida.
20. A tabela a seguir representa a função de probabilidade conjunta de duas
variáveis aleatórias independentes.
160 Capítulo 5 : Variáveis Bidimensionais
x\ ), 1 2 3 P(X : r)
-1 L/6
0 2/6
1 3/6
P(Y : y1 r/5 3/5 L/5 1
a. Complete a tabela.
i:3i,iïil'ïl :,Y';E(Y) " cov(x'Y) I
21. sorteia-se ao acaso um dentre os números g, 12,À e zz e é feita a
decomposição do número sorteado em fatores primos. $ejam D e T, as
variáveis que representam, respectivamente, o número de /ezes em que o 2 e o
3 aparecem na decomposição.
{
a. Obtenha a conjunta entre D e T. \
b. calcule a covariância e o coeficiente de correlação entre as variáveis.
22. As variáveis F e M representam, respectivamente, o número de anos para
complêtar o ensino fundamental e o ensino médio. Numa certa cidade , a tabela
a seguir é adotada pafa a função de probabilidade conjunta dessas variáveis.
Determine o valor esperado e a variância da variâvel F + M que representa o
total de anos ató completar o ensino médio.
F\M 3 4 5 6
8 e 160 I /60 7 /60 r/60
9 7 /60 7 /60 5/60 3/60
10 3/60 4160 3/60 2/60
23. Sejam X
-b(5;0,5) e Y -b(3;0,2) independentes. Determine o valor
esperado e a variância da variável2X
-
BY.
24. A rabela a seguir representa a função de probabilidade conjunta entre o
número de empregos desde que começou a trabalhar (E) e a idade do primeiro
enlprego (1), de jovens em uma pequena cidade do Estado de são paulo.
E\r 13 14 15 16
b 0,02 0,02 0,02 0,03
6 0,07 0,09 0,L2 0,13
I 0,10 0,08 0,03 0,05
8 0,10 0,06 0,04 0,04
\..Ì lÌxercícios r61
a. Determine o valor esperado e a variânciadavariâvel X :1- 18.
b.IdemparaY:E-l.tp.
c. Obtenha a conjunta entre X eY.
25. A conjunta das variáveis aleatórias independentes X e Y é' parcialmente
apresentada a seguir:
x\v
-2 0 2 P(X : r)
1 0,3
2 0r7
P(Y : u) 012 0,3
a. Complete a tabela.
b. Calcule o valor esperado e a variância de 2X
-
Y.
26. Sendo Xr,Xz e X3 variáveis aleatórias independentes, seguindo o modelo
Bernoulli de parâmetro p, pergunta-se:
a. Qual é a função de probabilidade de Xt t Xz * Xs? Você reconhece essa
variável?
b. Qual é o valor aeVar(È$h)t
27. Sabe-se que X e Y são independentes e assumem, respectivamente, os valores
7,2 e 3 e-0, I e2. Admita conhecidas as probabilidades P(Y:0):1/3,
P(X :3) : Ll3, P(X : L,Y :0) : 1/9 e P(X :3,Y :2) : Llq,
a. Construa atabela de dupla entrada para X eY.
b. Calcule E(X x Y) e Var(X + Y).
28. Um paleontólogo acredita que o número de minerais presentes em certo tipo
de rocha pode influir na chance de se encontrar fósseis perto de uma indústria
calcâria. Através de amostras de rocha obtidas em levantamentos de campo, elc
obteve a distribuição conjunta para as variáveis Z:número de minerctis
presentes eW: variâvel que assume 1, se for observada a presença de fóssil e 0
caso contrário.
w\z 1 2 tr)
0 r/8 r/8 r/4
I L/8 L/4 1/B
a. Calcule P(W :0, Z > L).
b. Encontre as distribuições marginais para Z e W .
c. Qual a esperança de Z?
I ()2 Capítulo 5 : Variáveis Bidimensionais
d. A suspeita do paleontólogo é confirmada pelos valores apresentados na
tabela? Justifique sua resposta quantitativamente.
29. Sejam (J :Y2 eV : X +Y, com a função de probabilidade conjuntaentre
X eY dada na tabeia a seguir:
x\v 0 7 2
-1 L/12 Ll6 r/3
1 7/6 7/4 0
a. Obtenha a conjunta de U e V.
b. Calcule P(U : 4lV : L).
c. Determine Cov(U,V).
30. considere duas ua.iáveis aleatórias discretas ,1,
"
a/l,aoota que Á assume
somente os valores ay, a2 e oJ, enquanto B os valore sl6 e b2. Sabemos que:
P(A: ot) :0,2; P(A
-
or) : 0,,5 ; P(B: br) : 0,6;
P(A : a1,B :bt) : 0,,L2 e P(B : bz I A : as): 0,b,
a. Construa a tabela de dupla entrada entre A e B.
b. As variáveis são independentes? Justifique.
c. Calcule P(A: or l B: br).
31. sejam x e Y independentes com função de probabilidade G(0,5). Determine
o valor esperado e a variância de:
a.S: X+Y.
b.D:X-Y.
32. Baseando-se nas projeções de preço de duas matérias primas, M1 e M2,
pretende-se estudar a viabilidade econômica do lançamento de um certo
produto. A função conjunta de probabilidade com os preços (em reais) é
apresentada a seguir.
a. Determine o preço médio e a variância das matérias primas.
b. O produto usa 2 unidades de M1e 3 de M2. Qual é seu custo médio?
Mt\ Mz 5 I 13
I 0,1 0 0
Ir) 0,1 0,2 012
5 0 012 012
.\.-l Exercícios
c. Se o produto deverá ser vendido poi 50 reais, qual será o lucro médio por
unidade?
33. A caixa I contém uma bola vermelha e uma azul, enquanto que a caixa II
contém duas vermelhas e uma azul. Um experimento consiste em escolher uma
bola ao acaso da caixa I e passar para a caixa II e, em seguida, escolher uma
bola da II e passar paraa I. Sejam X eY os números de bolas vermelhas nas
caixas Ie II, respectivamente.
a. Calcule a conjunta de X e Y. Elas são independentes?
b. Comente o que ocorre com a variável X +Y.
c. Determine a média e a variância para cada uma das variável X e Y .
34. Considere duas variáveis aleatórias independentes U-Po(2) e V-G(0,3). A
partir dessas variáveis definimos outras duas da seguinte forma:
seI/:0;
seI/:1;
seV ) 2.
a. Construa a conjunta de Xe Y e determine Cov(X,Y).
b. Determine o valor esperado e a variância de 2X
-
3Y .
35. Duas moedas são lançadas simultaneamente. Uma delas é equilibrada e a
outra tem probabilidade 213 de sair face cara. Considere as variáveis U: total
de caras observadas eV éuma Bernoulli que assume valor I se as duas faces
são iguais.
a. Determine a conjunta de U e V e verifique se são independentes.
b. Calcule a média e a variância de 2U
-
V .
36. (Use o computador) Com os dados das variáveis altura e peso da Tabela 1.1
do Capítulo l:
a. Verifique o grau de associação através do cálculo do coeficiente de
correlação.
b. Obtenha a média e o desvio padrão para cada uma das variáveis.
c. Calcule o coeficiente de correlação entre as variáveis peso e altura
padronizadas. Os valores da variável padronizada são obtidos subtraindo-se
a média e dividindo-se pelo correspondente desvio padrão. Compare com o
resultado encontrado no item (a).
.17. (Use o computador) Considere os dados apresentados no Exercício 23 do
Capítulo 1, onde, no item (b) foi definida a variável Etário.
163
-_í0 seU:0;l1 sel/)1:\- e Y: {Í'
IÕ.1 Capítulo 5 : Variáveis Bidimensionais
e Coag nas
coágulos é
n. crie uma tabela de dupla entracla, contendo Etário nas linhas
colunas. Com base em tal tabela, reavalie se a presença de
diferente dependendo da faixa etária.
b. Suponha que um paciente é escolhido ao acaso. Qual a probabilidade de que
a pessoa apresentasse coágulos no momento de admissãol E uma pessoa de
faixa etária mais alta?
c. Você diria que Coag e Etário são independentes? por quô?
38. (Use o computador) Novamente com os dados do Exercício 23 do Capítulo 1.
considere agotaavariávelCuracriadanoitem(c). \
a. Crie uma tabela de dupla entrada com Cura nas linhas e Tratjm nas colunas.
b. com base na tabela do item (a), você diria que neste caso,/rapidezda cura
depende do tipo de tratamento considerado? Justifique. /
c. Qual a probabilidade de que uma pessoa selecionada áo u"uro tenha cura
rápida, dado que recebeu tratamento do tipo I ?
d. Qual a probabilidade de uma pessoa ter recebido tratamento do tipo I, dado
que teve cura normal?
39. (use o computador) Responda os itens a seguir, baseado nos dados de
incidência de câncer apresentados no Exercíc io 24, capítulo l.
a. utilizando a mediana da variâvel GL, classifique os pacientes em dois
grupos, de alta e de baixa taxa de glicose. Denote essa nova variável por
Clagl e construa uma tabela de dupla entrada entre Clagl e ALB. Você diria
que as duas variáveis estão relacionadas de alguma forma?
b. considere os valores da variável Idade em três grupos: jovem com até,25
anos (inclusive), meia idade para indivíduos com idades entre 25 e 55 anos(inclusive) e senior para maiores de 55 anos. construa uma tabela de dupla
entrada para estudar o comportamento desses grupos em relação à
concentração de fosfato, tirando as conclusões pertinentes.
c. Escolhendo-se um paciente ao acaso, qual a probabilidade de que ele seja do
grupo
.falso-negativo, dado que tem mais de 50 anos? E ter acima de 50
irnos, dado que não é do grupo falso-negativo?
40. (use o computador) utilize as informações do arquivo aeusp.txt, introduzido
no Exercício 26 do Capítulo 1.
a. crie uma tabela de dupla entrada com as variáveis comun e Renda. Você
diria que existe associação entre elas?
b. Repita o item (a) para as variáveis Reproce e Trab.
c. O que pode ser dito da associação entre número de residentes (variável
Resid) e idade que começou a traballrar (variírvel Itrab),?
Capítulo 6
Variáveis Aleatórias Contínuas
(r.1 Introdução
Neste capítulo, discutiremos a çVracteriz4ção de variáveis cujos possíveis
valores ocorrem aleatoriamente e pertencem a um intervalo dos númerd's reais:
virriáveis aleatórias contínuas. Renda, salário, tempo de uso de um equipamento,
comprimento de uma peça e área atingida por certa praga agríeola são exemplos
dc quantidades que podem ser modeladas por variáveis aleatórias contínuas. De
lìrrma semelhante àquela desenvolvida. para variáveis aleatórias discretas,
prccisamos estabelecer, para as contínuas, a atribuição de probabilidades às suas
cliversas realizações que, neste caso, podem assumir um número infinito de
vtlores diferentes. Abordamos esta questão no prgximo exemplo.
Iixemplo ó.1.' Estudos anteriores revelam a existência de um grande lençol de
ígua no subsolo de uma região. No entanto, sua profundidade ainda não foi
tlcterminada, sabendo-se apenas que o lençol pode estar situado em qualquer
ponto entre 20 e 100 metros.
Vamos supor que escolhemos, ao acaso, um ponto nessa região e
tlispomos de uma sonda que, ao fazer a perfuração, detecta com precisão a
lrlofundidade do reservatório de água. Denotamos por X a variâvel aleaÍória
rcpresentand o a p rofundidade.
Notemos que, apesar de X poder ser qualquer número entre 20 e 100
nìctros, o instrumento, com que trabalhamos, pode não ser tão preciso como
liostaríamos. Por exemplo, uma profundidade de 32,571 metros poderia ser
rrrcdida por 32,6 metros. Vamos assumir, entretanto, que temos um instrumento
itlcal que náo faz aproximações. Nessas condições, podemos supor a sonda
;rcoplada a um instrumento indicador da profundidade e um dispositivo que,
tlrrnndo a sonda encontrar água, provoque a imediata interrupção da perfuração.
Uma vez que não temos informações adicionais a respeito da
lrroÍnndidade do lençol, é razoâvel assumirmos que a sonda pode parar em
rprnlquer ponto entre 20 e 100 metros, sem que tenhamos motivos para privilegiar
cssn oll aquela profundidade. Assim, consideraremos todos os pontos como
igrralmcnte prováveis. Se utilizarmos a mesma idéia de atribuir a cada possível
l6(t Capítulo 6: Variáveis Aleatórias
ponto uma probabilidade, teremos uma dificuldade extra, pois eles pertencem
intervalo [20, 100], em que existem infinitos números reais. Assim, se cada
cleles tiver, individualmente, probabilidade maior que zero, a soma
probabilidades será igual a infinito e não 1, como requer a definição da função
probabilidade. Em geral, em situações como esta, não é de intEresse conside
um único valor para a variá..vel aleatória, mas intervalos de valores na atribui
dc probabilidades. Neste caso, sabemos que o espaço amostral corresponde
intervalo [20, 100] e as profundidades são igualmente prováveis. suponhã, por
nìomento, que dividimos o espaço amostral em 8 intervalos de comorimento 1
Logo, é razoâvel atribuir aos intervalos a probabilidade us, corres\ondendoLogo, é razoâvel atribuir aos intervalos a probabilidade l/g, corre$ondend,
relação entre o comprimento de cada um deles e o compri-"ntoldo
".p,nmostral. Isto é, 10 para 80 ou 1/8. Assim, com a divisão ém s fzías de is
comprimento e sem intersecção entre elas, teremos os intervalo d po, 30), Ï40),..., [90, 100] todos com a mesma probabilidade l/g, pois todós tem o mes
termanho.
Para construir um histograma, nos mesmos moldes do capítulo
podemos supor que l/8 é, a freqüência relativa da ocorrência de cada um
irrtervalos. As ordenadas do gráfico são as densidades, calculadas de modo que
úrea de cada retângulo seja a freqüência relativa (probabilidade) do intervalo.
Densidade
1/8 1/8 lta 1t8 1/8 'v8 1lA 118
Note que, dada as características do problema, a divisão em g intervalos
produziu o mesmo valor de densidade de l/80 para todos eles. Se dividirmos o
intcrvalo [20, 100] em l6 faixas iguais, utilizando o mesmo argumento anterior,
tcrnos que os intervalos [20, 25), [25, 30), [30, 35), .. . , [95, 100] terão todos a
rììosma probabilidade l/16. O histograma correspondente será:
6,1 Introduçõo 167
Densidade
20 30 40 50 ô0 70 80 90 100
O histograma mostra que, apesar de termos diferentes intervalos, a
clcnsidade permanece com o mesmo valor, igual a 1/80.
Podemos continuar esse procedimento, taumentando cada vez mais o
rrúrnero de faixas, com a conseqüente diminuição das suasamplitudes de tal forma
(ple, em uma situação teórica com infinitos intervalos, temos o seguinte
Iristograma:
Densidade de
Probabilidade
Estamos agora em condições de caracterizar, completamente, a atribuição
rlc probabilidades para o caso contínuo. Ela será definida pela fuea abaixo de uma
I'unção positiva, denominada densidade de probabilidade. Observe que a
clcnsidade em si não é uma probabilidade, mas uma função matemática que nos
100
t68 Capítulo 6: Variáveis Aleatórías Contínuas
ruxilia na atribuição de probabilidades. Assim, paÍa a variável aleatória contínua
X representando a profundidade do lençol de água, a função densidade f é dada)0r
r(,) : {
tt:', para2}<r<100;
pafar ( 20 our > 100.
Tendo em vista que, nesse exemplo, a função densidade é bastante
;imples, a probabilidade de que a profundidade do lençol esteja em qm dado
rrtcrvalo pode ser calculada com o uso de áreas de figuras planas. Assi\r, para
rbter a probabilidade de uma profundidade pelo menos igual a 25, mas injerior a
,, portanto, P(25 < X < 29) : 4180.
Considerando o caso geral, vamos nos ocupar agora em formalizaÍ as
déias discutidas anteriormente. Faremos isso através da definição apresentada a
eguir.
)efinição 6.1: Função densidade de probabilidade
Dizemos que /(r) é uma função contínua de probabilidade ou função
ensidade de probabilidade para uma variável aleatória contínua X, se satisfaz
tuas condições:
i) Í(r) ) 0, para todo r e (
-
oo, oo);
ii) A área definida por f (r) é igual a 1.
(t. I Introdução
Com o auxílio do cálculo diferencial e integral, podemos caracterizar a
condição ii) através de
r6I f@)dr:1.J--
Da mesma forma, para calcular probabilidades, temos que para a 1 b,
f(r) dr ;
a integral, acima, indica a írea sob a função / definida pelo intervalo [4, b].
Note que, pela forma como atribuímos as probabilidades no caso
contínuo, teremos áreazero sob qualquer valor individual, isto é, P(X: k): O
para qualquer k. Portanto, em se tratando de variáveis aleatórias contínuas, a
probabilidade de ocorrência de um valor isolado é sempre zero e,
consequentemente, as probabilidades calculadas sobre os intervalos
lu,,bl,la,b), (o,b) e (a, b) são as mesmas, para qudisquer valores de a e b.
Exemplo 6.2: Arqueólogos estudaram uma certa região e estabeleceram um
rnodelo teórico para a variável C, comprimento de fósseis da região (em cm).
Suponha que C é uma variável aleatória contínua com a seguinte função
densidade de probabilidade:
tG): se0(c120;
caso contrário.
É imediato observar que /(c) é positiva. Através do gráfico da função,
apresentado a seguir, podemos verificar com auxílio da fórmula da área de
trapézio que
1r3
área sob lk): ao : an x 2o : 1.2
Concluímos que /(c) é efetivamente uma densidade. Tendo em vista a forma
simples de /(c), o cálculo de probabilidades de interesse para esse exemplo
poderá ser feito sem dificuldades através de áreas'
169
P(o<x<b): I-::
{y'*""D
170
Capítulo 6: Variáveis Aleatóriqs &t Introduçao
ë, rssim, temos que P(C < B) : 7lZS. tr
Exemplo 6.3; Num teste educacional com crianças, o tempo para arealização de
Umit bateria de questões de raciocínio verbal e lógico é medido e anotado para ser
€ttttlparado com um modelo teórico. Este teste é utilizado para identificar o
descnvolvimento das crianças e auxiliar a aplicação de medidas corretivas. o
ütodelo teórico considera T, tempo de teste rem minuto,s, como uma variável
alcatória contínua com função densidade de probabilidade dada por:
h(t-+), se8(ú<L0;
h, se10(t<15;
0, caso contrário.
o gráfico da função densidade é apresentado a seguir. Deve ser notado que, pela
tlcrÍ'inição de /(ú), ela se anula parat ( 8 ou ú > 15.
171
[]
1140
A probabilidade de um fóssil, escorhido ao acaso nessa região, ap.comprimento inferior a. s-"- poa" ,", ã"rc"r"a" diretamenteìo granco oadensidade de probabitiauo",.ãrï;;ï figura a seguir:
Í(t):
J (t)
O cálculo da probabilidade envoÌve a soma de duas áreas:
172 Capítulo 6: Variáveis Aleatórias Contínuas
solicitamos ao leitor que verifique que a função /(ú") satisfaz a definiçáo
de densidade. Para calcular P(9 < T < 72), vamos obter a área sob /(Í) no
intervalo (9, 12]:
Segue, sem maiores dificuldades, que P(9 < f < L2): 7116, valor esse obtido
pela soma do trapézio definido no intervalo (9, 10) com o retângulo determinado
pelo intervalo [10, 12] (veja a figura).
Através do uso de integral, essa mesma probabilidade seria calculada da
seguinte forma:
P(e< T<12): ["yçr10,
Jg
: /n"
:
In"
r12
l(t)dt+ | r(òdt
Jto
t r72q
^rt
-
4) dt + J,, *ot
: !(t- 4úì I'o * 1,1"40\2 -")ln'20"1,0
11 6
-_r_B0'20
,7
l
16
(t.l Introdução 173
A aplicação da integral foi dividida em duas partes, pois a função f(t) é diferente
nos intervalos (9,10) e [10,12]. tr
Vamos, agora, apresentar as expressões para valor esperado, mediana,
rnoda e variância no caso contínuo. A interpretação de cada uma dessas grandezas
ó semelhante àquela discutida no caso discreto. Algumas das expressões são
irlteradas devido à nova forma de atribuição de probabilidades.
Definição 6.2: Medidas de posição para varídveis aleatórias contínaas
O valor esperado ou média da variável aleat1tia contínua X, com função
tlensidade dada por Í("),ê' dada pela expressão:
B(x) : ,: I:" f @) d,r.
A mediana é o valor Md qte tem a propriedade de:
P(X > Md) > 0,5 e P(X,( Md) > 0,5'
A moda é o valor Mo tal qu'e,
l@o):maxf(r)'
tr
Observe que a definição de mediana é idêntica ao caso discreto. A média
tcve su4 expressão alterada com a substituição da somatória pela integral e de pi
ltor f (r)d,r.Para a moda, precisamos tomar o máximo da função densidade e,
como antes, ela não é necessariamente única. A notação para o caso contínuo será
iì mesma utilizada para as variáveis aleatórias discretas.
Definição 6.3: Variância para variáveis aleaÍórias contínuas
Para uma variável aleatória x com densidade r @), a variância é dada por
o, : f* {* - 1t)z f (r)dr.
tr
Como no caso discreto, a variância é a medida de dispersão mais utilizada
na prática. Aqui podemos, também, utilizar a expressão alternativa
o2 : E(x2)
- F2 ,
t74
com E(X 2) sendo calculado como:
Capítulo 6: Variáveis Aleatórias 6,1 Introdução
E(x') : /_i* r@) d,r l::hrá* r)dc:
Itcsultando na equação do 2o. grau:
L c2 l2o
__t
+oo z l*u
, r@): {ÍT!:l/f;, :: ;,=1";l
r l2o
*
^'l*u:
o'5'
Vamos determinar a média e a variância de C. Temos,
"2o 7 c t
-sPo t ct2or: l-"+(7+r\rtr-- 7 "tlto , L "'fro " n( 10 + 1) dc - _!_i_l n *ïl :20
-
35 aoo : lo - nTIo:To":T'
Para a variância, calculamos primeiro E(C2):
,t,: ! tl'o * 7 "tl'o
-4oo4lo ,aoslo :
,,
, fttt
i,no
ob: E(C'\ ' 500 235\2 275' ) - t-t- : ì-- ( r,) : ï :30,56cm2.
Logo, o desvio padrão é oc _ /fifi: b,5J cm.A moda segue diretamente do gráfico da futer a mediana nôrqmnc ;-:^:^r---,-. tnção-densidade e é igual a 20,iilffi ïï,ïïltlïï":*l:::J::':iiïïi";irï'ïffi l'ilã:","ilïïi,io',ï;lJli:ï ï ï,ï, iï :ï.:ï,ïl:','::
-":
;;*;; ;ï; ï Ïï :ffi ; ïiil" ï:ïltu I c r r ct e r a c o rr d i ç ã o d a d e ri n i ç ao o
"
Á"àì.ï
",
uï r;;:", J":, ;ïn"** :,
Md2+2oMd-4oo:0,
ctr.ia solução é Md : 12,36 (o outro valor é abandonado por ser negativo). tr
As propriedades do valor esperado e da variância apresentadas para
vtrriáveis aleatórias discretas permanecem válidas e a verificação pode ser feita
alravés das propriedades da integral. A distribuição conjunta de duas ou mais
vuriáveis aleatórias contínuâs é definida através da função densidade conjunta de
prubabilidade. As idéias básicas são as mesmas do caso discreto, porém requerem
ttttt melhor conhecimento de cálculo diferencial e integral, envolvendo integrais
dtrplas. Não desenvolveremos esse tópico e recòmendamos ao leitor interessado a
eonsulta às referências.
l,lxcrcícios da Seção6.1:
l. Verifique se as expressões a seguir são funções densidade de probabilidade
(assuma que elas se anulam fora dos intervalos especificados).
*f(r)-3r, se 0( r1L.t--'''
lr. /(r) : r2/2, r ) 0. ,. '
c. Í(r) : (r
-
3)12, 3 S r S {-/?/
d. f (r) :2,0 I r z-2. l-/
Lf@)-
-rj se-7r<z<0.
2. o tempo, em minutos, de digitação de um texto por secretárias experientes é
rurna variável aleatória contínua X. Sua densidade é apresentada a seguir.
se0 ( r 12;
se2(r<6:
caso contrário.
E(c'): f'0",frf fi*r1
:1oo* T:T
ErrlÍio,
{!t
o desvio padrão é' a raiz quadrada..da variância e, como já menci
lÏ1,ïiiï1ïã1'J;:"#3#'#ì:uniaaaËJ".n"aioud";;;l;;"i'oiiËnu,,{u"n
Exemplo 6'4: A variâver c apresentada no Exemp ro 6.2tinha a ..gui7ì" rdensidade: r,v L^vrilpru t).2 Unna ,
,( t." t("): { tf, +r1, se o( c12o;I O, câso contrário.
P(C>Md):s,5. ï(r):
'.qlll!.F
176
Determine:
(ltpltttlo ô: VuricÍveis Alecttórius CctntínuaE
e{auaupoì:
I
a. P(X > J).{,,..
.
t
b. p(l. ;ç < 4).'
c.P(X <BlX>r)., -
d. Um número b tal que,F(y s b): 0,6!_e. o vator esperado, à variância
"
árn"a;d" X. L \3' A quantia gasra anuarmenre, em mirhões g" r.1i:, na manurençao oo ugr)tro.rnuma cidade do inrerior e r"pr"r"ntJãi""tu uuriau"r I, com densidad/ar.r, ,.^",
ffu):{i,-t, se 0,5{yq2.( U, caso contrário.
Obtenha:
a. P(y < 0,8).
b. P(Y > 1,51I'> 1).
c. O valor esperado e a variância de )..d. A medianadey.
4' o grrifico abaixo representa a densidade de uma variáver areatória x.
a. Obtenha o valor a" ol " ,/. ..,..,.Ir.I)ctcr.min? p(X > 0l-r. s).'
tr. C"'irlcute A4d(X), E(X) e Vor(X)
ã.2 Príncipais Modelos Contínuos
5. Numa certa região, fósseis de pequenos animais são freqüentemente
encontrados e um arqueólogo estabeleceu o seguinte modelo de probabilidade
para o comprimento, em centímetros, desses fósseis.
41 r 18:
8(z(10;
10(r(11;
( h",
Í(*):J i" * *'
[ il,'
a. Faça um gráfico da função densidadé; ''-
b. Para um fóssil encontrado nessa região, determine a probabilidade do
comprimento ser inferior a 6 centímetros? E de ser superioi a 5 mas inferigr
a 10,5 cm? (
c. Encontre o valor esperado para o comprirnento dos fósseis da região.
6.2 Principais Modelos Contínuos
Apresentamos, nesta seção, os principais modelos teóricos para variáveis
ttlcatórias contínuas. Vimos que, para caracterizar completamente uma variável
ttlcatória contínua, precisamos fornecer sua função denìidade de probabilidade
11rrc, segundo sua definição, é uma função positiva e com integral iguãt a t.
DcfiniçQo 6.4: Modelo Uniforme Contínuo
uma variável aleatória x tem distribuição (Iniforme contínua no
irrtcrvalo fa,bl, a < b, se sua função densidade de próbabilioáoe o dada por:
caso contrário.
a1r1
caso contrário.
f (") :{ b-a'
0,
Usaremos a notação X
-
[J[a,b] para
t lrriforme Contínuo no intervalo considerado.
queXsegueomodelo
Note que não há restrição de valores paÍa cL e b, exceto o fato de a < b. A
f rigura 6.I mostra a densidade do modelo U[a,b], para a)b > 0. tr
t78 Capítulo 6: Variáveis Aleatórias
Figura 6.7: Densidade Ilnifurme Contínua.
o modelo uniforme pressupõe que os valores possíveis para a variál
aleatória têm todos a mesma probabilidade de ocorrência. seu válor esperado
sua variância são obtidos através do cálculo de integrais, de tal forma que:
f---_.
b2+ab+a2
-t
e}
logo,
b2+ab+a2
o2 : E(xz)
-
p, :
-(+)'
Exemplo ó.5.' com o objetivo de verificar a resistência à pressão de água, oi
técnicos de qualidade de uma empresa inspecionam os tubos ãe pvc produzidos
os tubos inspecionados têm 6 metros de comprimento e são submetidos a
pressões até, o aparecimento do primeiro vazamento, cuja distância a uma dag
extremidades (fixada à priori) é anotada para fins de análise posterior. Escolhe-se
um tubo ao acaso para ser inspecionado. Queremos calcular a probabilidade de
que o vazamento esteja, no máximo, a I metro das extremidades.
vamos denotar por x a variável areatória que indica a distâncie
correspondente ao vazamento. Admitindo igual probabilidade de ocorrência em
"-!
ô,2 Principais Modelos Contínuos 179
torlos os pontos, temos que X - U[0,6], com função densidade de probabilidade
clncla por
r@) : {',3; lï,ï=*ï,ã.1;
Para calcular a probabilidade de X e {[0,1]U [5,6]], podemos obter as
drças dos dois retângulos hachuriados na figura a seguir.
l@)
segrrc, sem maiores dificuldades, que a probabilidade desejadaê 113.
Esse mesmo cálculo poderia ser feito através de integrais da seguinte
P(x e {[0,1] u [5,6]]) :
Note que os intervaloj [0, 1] e [5,6] são disjuntos e, portanto, a
P(0<x<1)+P(5<x<6)
l"'*0. * l,"uo.
rrl r16
_l
-L
-l6lo' 6ls
1651
6-o+6-6:5'
plob.rbilidade
iltlcrvalo.
áu ,uu uniáo é, ffsoma das piobabilidades de ocorrência de cada;[iElf\
/l
tr
Definição 6.5: fuIodelo Exponencial
Uma variável aleatória contínua X,segue o modelo Exponencial
"o_
puram.tro ,
180
A densidade está
X
-
Exp(a) para
Capítulo 6: Varitiveis Alecttórias
o
assumindo valores não) 0 se sua densidade é) 0:
negati
representada graficamente na Figura 6.2 e adotaremos a notÉindicar que X tem distribuiçã" ËÇ;;;;ju, o" parâmerro c.
r@): f ae-o*, rI o,
",
caso contrário.
Fígura 6.2 : Densídade Exponencial.
Í(x)
.
para calcular probabilidades com aintegrll correspondente, jâ qu" não-t".1ïo.
exenrplos considerados até aqui. arri., -'^'
Exponencial, precisamos resolver g
as figuras geométricas simples doJ
Note que a inclusão
acirna.
Para obter a
;rnrÍos, porém, não
P(n < X < b) :
-[,,"
oe-.,:I;dr :
-
"-a:t:1rt
: s-ítn, *
"-art
ou não dos extremos a e ó não altera o cálculo efetuado
média e a variância,
véìmos fazer esse
6,2 I'rincipais Modelos Contínuos t81
êxprcssões finais. Temos, para X - Exp(a),
F:Ila e o2:I/az.
Exe ntplo 6.6: IJma indústria fabrica lâmpadas especiais que ficam em operação
efiptinuamente. A empresa oferece a seus clientes a garantia de reposição, caso a
lâlnpada dure menos de 50 horas. A vida útil dessas lâmpadas é modelada através
drr clistribuição Exponencial com parâmetro 1/8000. Determine a proporção de
trucas por defeito de fabricação.
' Cada lâmpada terá seu tempo de duração definido pela particular
feirlização da variável aleatória. Isto é, a vida útil da lâmpada pode ser pensada
ç(JlÌìo um valor escolhido de acordo com a densidade Exponencial de parâmetro
l/t1000. Representemos, pela variável aleatória T, o tempo de vida da lâmpada, e
assirn 7
-
Exp(I18000). A probabilidade desejada será
P(T <50) : /t'#"- #'dt- 1 - s-*s : 0,006.
l)ussa forma, a proporção de trocas por defeito de fabricação será de
nlrloximadamente 0,67o. Esse número é relativamente pequeno, o que não ê,
lfprpresa, tendo em vista que, como o parâmetro é a:1/8000, a duração média
drrs lâmpadas é Lr - If a':8000 horas. tr
A distribuição Exponencial tem sido amplamente utilizada nas áreas de
l'Ísicn, engenharia, computação e biologia, entre outras. Variáveis como a vida útil
dc equipamentos, tempos de falha, tempos de sobrevivência de espécies e
irrlcrvalos entre solicitações de recursos são algumas das quantidades que têm
sitlo modeladas, com bons resultados, pela Exponencial. Essa densidade tem,
nincla, a vantagem de ter propriedades matemáticas interessantes, conforme
'
;:,:;;:ïïïï"ïïïÏ ;","0", em minuto s, entre emi s sões c onsecurivas de
rurra fonte radioativa é uma variável aleatória com distribuição Exponencial de
lrrrrâmetro a : 0,2. Vamos calcular a probabilidade de haver uma emissão em um
irrtcrvalo inferior a 2 minutos. Temos,
n2
P(x <D:
Jno,z"-}'2:r 4*: - s-012t:13 = - "-0'a + 1 :0,33.
Calculemosl ugoro, a probabilidade do intervalo ser superior ou igual a 7,
sirbencJo-se que ele é superior ou igual a 5 minutos.
será necessário aplicar a integração por
catculo e, apenas,apresentamos os
182
P(x > Tlx > s1 : P(x 2 7, x > s)
r1x 2 s)
ïi0,2
"-o'2t: 4,=Êì--J;0,2s-0,2t: 4,
P(x>t+slx)s): P(x>ú*s,x).çì
_
__l
P(X > s)
L'tt1tÍtttItt ô; Vuriúveitt AIeutórias
_P(x>7)
--+ P(x>st -
.Ïtï"q e-o''d,r
-7õ--
J" ae-''"4,
_ -
r-"'ln._ e-a(i+")
-a-ôzl& -
-
.
- 1." e-4"
:0,67
.
e-1'4:-
e-7por ou,.o lado' p(x > 2) pode ser carcurada pero comprementarP(x < 2)' resurtando em 0,62. N"í";r;; iguardade J"*Jü,"res, sugere quP(x > 7lx > 5): P(x >2).
como veremos' adiante, isto não foi coincidêlcia mas sim uma importarpropriedade da densidaj" 9_n"í.r.ïrn palavras, a inforrntervalo é maior ou iguar a s, iaz";;;;";ï,,1Í:ïïl1t:,i ,inrormaÇão de quoI 7 possa ,".
"ul"ulon
A AtrqvÁo ,:^ --,-l .a probabilidade dele ser maior ou io'
i{:i y= ::l;'lrrffií,*l",mn ïili;f ;ï=ï,",:'itempo que devemos considerar puru
.ur*iur a probabiridade àesejada.
_
A característica de permitir a hanslrìaãn Ã^ ^-.,-'--
:':!,#1iïi^!n:,:;z:í:;:i:j:,,:t,it,:'xïï.,:i,""ïïï;:JÍ:ïi",
propriedade,
";;í;;;" verificc-^" - ^^__,1
única distribuição conrínua com erpropriedade, conforme verit."-^"';::j..,' urtrca olstnbuição contínua com el
temos que Le verificamos a seguir. p"." ,"r, .".i"",ïï "Erpç*)e s, r )
_p(X>ú+s)
- PrxEì)-
:e-at:p(X>t).
t^uP:ldo que X represenra o tempo de vidzseguinte'int"ror"ïu" ão nar^ 4 6r^6-: ,t 9" u3 equipamento, podemogl'azer a seguinte int
--rrvuv'r.
" ""tï:.-YloÍ 9" um equipamento, podemogp.ouauiriJaãe;;
"*,ïlfijïï:"r,l"ii^l,jï1,'hoide da rãïiã' o" memória: aprobabilidade do equ'
--5*v rqr4 4 Pr'opfledade da falta de memória: al';;;' ïili ;ïï:iffi;ïj:fiï ff' :Jï::'* "," á,, ;r;i;" ï"ï, ;1:::, j' é iguat a i,',iu"uirlì;;ï í;""Ï:'"' t + s anos, sabendo-se qu" jáitnos' Em oú.u. puluurur.
"
;r*.-*ï:"::'llÏ:"to novo durar pelo rn*or'jii]_".' P3 outras palavras, a informaça- "YurParrÌento novo durar pelo meìos-úcsquecida
"
; q*'iÃoor,u, Dara o .Áta,tn 1l_:ll3::.do equipam"ì. p"J"-i,il:ffii]# Sue.imnorta, para o "arc"r" aÏi.ffi;'.ff"::ï1qucremos que dure. uantos anos a mais
6,2 Principais Modelos Contínuos
Dentre todos os modelos teóricos, sejam contínuos ou discretos, o mais
lmportante é o modelo Normal. Ele é muito utilizado èm aplicações e também
Eerve como aproximação para muitas outras distribuições.
Dcfinição 6.6: Modelo Normal
Dizemos que uma variável aleatória contínua X tem distribuição Normal
corn parâmetros p e 02, se sua função densidade é dada por:
f(n):+"- ,r'"P lpata -oo<r<oo.o1/2r
Usaremos a notação X
-
N (p,a2), para indicar que X tem distribuição Normal
corn parâmetros p e o2. A densidade é representada na Figura 6.3. !
Algumas propriedades da densidade da Normal podem ser, facilmente,
observadas de seu gráfico:
1) f @) é simétrica em relação à p;
ii) /(r)+ 0 quando r-r* oo ;
iii) o valor máximo de f (r) se dá para r : F.
r83
pl
,,
Otfuro 6.3: Densidade Normsl-
Pode-se ainda verificar que os parâmetros
rcspectivamente,
.a média e a variância da distribuição.
p--g--o'
_tepre s ent am,
A demonstração requer
IEl
fnpftub 6; Vrtridvri,y Alertttjrius Ct
,.;ï+:i:=Ï:'fiiÏ*ì.l,ï ïl,',fj n:, oo r:i,?: interessado poue consu rrarimediatame n^T1i," ilo I : ,
"
,rrer) : :;:o'tomos que x^- u ç1"-'oi\','r'),Nü;ïffiriáveis"";;,r;_
a rnregratda função densidade n;;;##;re inreresse, isro é,
P(o<y<b): [" |
-u-,2: ",/
- J";ãe--Èf dr.
Entretanto, a integral acima só pode seriï:ïï::ïïi:*i;j*:t"i:í:ïïi::ffi ;[;x:J;# jïi,ï:,il:ï: jcaÌculadas com o ur*ifioï"_r#.; ï#oabitidades para o rnod"lo fVorÃojde tabelas para cada õ;ffiï::7ï:,""it]r a multiplicação o"rn"."i*conduz sempre
"" "u,fïï"0:""i'."^T^'"Íf
,,o,2), utitìz-r" ;;;';ânsrormacãn:^o1d.u, sempre uo
",-i----
-" Yqru(ç' \l't, o,'), utiliza-se uma transformuçao(0, 1 ), r'i"'e,ïJr, ;ïïi:ri:,probabi lidaa"' .o'-u'"u ïïnrï., de parâmr
Considere y
-
NQJ,o27 e defina umâ nô\,Õ ì.^_j:propriedades do valor esperado e da variânc:ìlma
nova variâvel z : Il
L 11a, segue que oE(z) :4! - u' 7;:): it6 - t) = lwet - r"l: o;
var(Z)-Vor(X-F\- !rr^-,u
, 1. o, - --;v crr\-X. _ p) =,!_Var(X) : 1.
P(o < X < b)
-
p@
_ p < x__ p 1 b _ u)
_ora-lt aX_t"
-b_1",-rl o o .____)
Pode-se ainda verificar orrê oo". ,-^-L oz
ï;;;*ï",;r;i,:ji'í":ij:::f iii'",,:*iï:lï"qffi ffij;1"i:ï::ïprocedemos r;;;*J;"#iri;Para determinu' u p.àluu-i'riãïilï: i :'t:,
e,portanto,quaisquer ' o
jzì-;
para obter nroh"n;r;.r.f-11e-sejam gs vaÌores de pt e o, utiliztpara obter probabiìid: r --Jq'rr vo vcrurcs o:_1"
"
o, utilizamos a Normal
os
'or^_^^ _-,_d., :o,T
a distribuição Normal.os vatores para p(o 2-;":":ï:iït3,.
:e A. Com a simetrià A" a""",ir",r: íy .i" apresentados em tabelaâ";:Íi;:*;innlrtr;Í:ìl#.:*:#ï:i:ï,ï,::i"Hï#,ï::prúabilidades em outros inr..uuú* ïoà" r\ormal podemos calcular *r".", ,probabilidade de estar acima (ou abaixoì ,?:"":":tTïria também i-pli;;;;,probabilidade de esta vqrws' 't\ore que a simetrisem,.,rê Ìì,- nrí*^,- Lr acrma (ou abaixo) de zero é o ié 0,5. Como probàbitiaadesempre um número entre 0 e 1,; ra;;ü.ffi;i:ï;rïfJi}r#l
H
por exemplo , pa,ra x- ,,t,Ò], remosi'r-i
/'(? < x < 5) : pç?:3
.
x
-r. 5- 2,
\/g t/g - -gl:P(o < z <1):0,3413;
eorrcspondendo à área sombreada no gráfico:
é, 2 I' r'i t t t: i puis M ode los Cott I frr r.to.ç
Para obter
-P(0 < X < 2), usamos
5srgu ir):
185
1
a simetria da Normal (ver figura a
I
P(o < x < 2):p19: 3 < z <Çl : p(_2/J < z < o)
:p(0<Z<2/J):0,2486.
7', 186 /\ I
L
i, Jr'I r''
Cup Ítu lo ô ; Vl1 yi1lyt6, i,1 A I ett Ítí riu;t
apresentar tempo dã
il
t
t
l:
I
í, n'., ( |
""s"ti,J,"li;ï"1Ï* :i',:?' as. probabilidades de intervâlos comrecurs o imporranre
" "
::
"t:ï:jl^",id,e
n tes.
.i
n teruot o. n o 0".ì"' ï"r,,, *recu rs o i mp orran re n o u s o a u t aa
"r
i i. affi ï, # iï ;ïïï:ï iïìï Ëï; ."#P(X>s):pçX-tr,3-2,
-/ q 3 ):P(Z>1/3)
.r, i :0,5_p(0 Szq7,
A rabera tu,,'ue-
^^r" :: ì-
'
.t'
: 0'5
-
0'7293 :0'3707'
cerra probabiria"aa lPét
pode ser utilizada
13^s1nti{o inverso, isro é, dado u
I", : : o,
"
;" ï (ï:, iï ;.5?;, ?;"1ïffi j: íï1.:ïi "."_o r o, qu i
iJ;'ro:1i1,,110,"_qu" rà,, se aproxima de 0.4 é o ?oo7. ^^__., p: ou^ tobËËserá o uutora"ll-'rorò òe aproxrma de 0,4 é 0,3997;
""rr"r;;;ã;J;"tï:rïSuponha, ar
lï jËt:"ffi :ï:xï,;i;Ëïïï#lï:fi
'lfr
,;::,:Áí^ìP^,:,
probabiridade 0,8. pera. simet); ;,"íu";ï;ï fï,Ji: ïJ*ç2, g,$, ,m:Xï::;:::^::,''l^:i::"':;;;ilï:o,uìì0"*;:';:-0,84Exemplo ó.8.. Doente" cnfro-r^ r "'vÌ wPurtanto d: -0184,traram-ento;";;;,;ïr":, sofrendo o"
":11u molésria, são submetidos a ua"
-!o-i'"ï'ÏJ::ï;H;:ïtË*ï::ï .'
'""a"r'"aã"il,. uïu ì*,idade Normc
P(x>rT):11x-15
' \/4- 77- 51/4"J -) P (
A.probabilidade de ur
"\uct'- (( u'< è <' 4 )
)nor a 20 dias ..'u n",lp-1ïenre, escoÌhii,ioÁí13ír!;,,u,cura inferior a20 dias;;;;;Ë;
P(x <,20) : e(4 - ts. 2o - 151
_ D/,7
' v4 rt / ,,:\z < 2,5): 0,993g.
uma questão interessanre seria saber o ,!riJ*:r;:ô- i
:|:ï1".'"çã". de 25vo ao' p*i"n-,;'ï ïï:^ï.t"":l: máximo necessário paro &
'itc
ien tes é i nrerpreradu^'.o-Àï'ï ;"tdf,i,:ï. ïj.;'"ff 'u o "on,un,o aJ'*cnc'rcamente escorhido. Assim, p.*iJ",ï", obter umìaro. r iar oïï:" ;";;;;
")-r\z>t):0Ã582.bo,;P-' u---'r 1
olhiãË Áo à"t^'"In'
-^-:^^ -
1)Z
Pt ittripuis Modelos Contínuos 187
P(X < t) :0,25,
,(#.'#):p(z<
€etrr ,r uso da tabela (e alguma reflexão) obtemos
t-15
-A:-0,67)t:13,66.
il-u],#=ã
ffi ffi
ffi' 1N
t-L5
._
Jt ) : 0,25.
r ,il 0r
,)''"
Çorrclrrírnos, então, informando que 25% dos pacientes ficarão curados antes de,
êpLox irnadamente, 14 dias.
.
considere agora que r00 pacientes são escolhidos ao acaso, quar seria oõtlnrcru esperado de doentes óurados em menos de rr dias? obtemos,
lf,icirrlrnente, a probabilidade de um pacientegenérico ser curado em menos de I Idl's. lirn seguida, essa probabilidade é interpietaau.o-à prú"ìça" de pacientes
ãiliil ::',o em menos de 11 dias e é multiplicada por lOopaia óbter a resposta.I t'lllos,
P(X<rr;:r( 11- 15, n.'t'' ",'1 ' jL 'ìt
-,
) : P(z < -2) :0,0228.
Errtii., para 100 pacientes, o número esperado com tempo de cura inferior a
tlirrs será de 100 x O,0Z2B
-
2 pacientes.
x-75
v4
ll
tr
Na Tabela 6.1 apresentamos as expressões da média e da variância para
us rrrodelos contínuos estudados até aqui.
Tabela 6.1: Modelos contínuos - vsror esperado e variâncía.
,lv-
/88
Cultítulo 6: Varidveis Aleatórias
P ri t r c ipais M odelo s Contínuos
lnnrnial, melhor será a aproximação. Nos casos em que certa assimetria estiver
te, valores crescentes de n fornecerão melhores resultados.
Densidade de
Freqüência
Figura 6,4: Aproximação Normal para o Modelo Binomíal.
Para melhorar a aproximação, alguns autores introduzem a correção de
corltinuidade no cálculo com a Normal. Esse mecanismo consiste em alterar de
0,5 unidade o valor com que se deseja calcular a probabilidade. A alteração para
tuitis ou para menos depende, respectivamente, da probabilidade desejada excluir
ou incluir a igualdade ao valor desejado. Por exemplo, teríamos,
P(X > 50)
-
P(Y > 50,5)
=
P(Z > ) :0,9292.
Note que, com relação a Y e Z, é indiferente se a desigualdade inclui ou não o
sinal de igual.
Para calcular a igualdade a um valor, digamos X : 50, criamos um
intcrvalo artificial, pois com variáveis contínuas essa probabilidade seria zero.
189
::: r: fl.'; :ï'1,:',":?, ilïïïj;.:ï: ::'.'"" i mp ortan re s em Es tarís ti ca M
;"ï,i""1ï:ïiïi:,,ïq"""'à''ï''HJ'ïï-iiJ;,ïï"ffi il';"rï:H';;i
se refere à c,,o ,,,,,1ï:: da média. Uma outra razão daimnorÍÂn^i. r^ rÌ_se_refere à sua util' ""'"::l:u razãoda importânciad;No;
próximo
"*;;;;, ï"ffi:XïffÏï,,fi|fà'*ação para outras
-
disrribuições.
Exemnln tÇ o, ,.-t-_:- ara aproximar o modelo Bin;;;.lxeryrto 6.9.' Estudo do sindicato oo, n-.n;;:;; :,ooelo
smomial'
Fïï'ï:.',ï:*:'#:if ï#ffi
"
j#l':ï'ï,ï**fi :,"":il:í:;
menos 50 com
"rru
ào"nçu ? 's' Qual seria a probabilidaJ" ã";
Admitindo o,ro
"."oo ho-^:_i_
i:r:Ëii:$ìrnrïïËrlJr*i'ï', trï*#ïïï:ï:rïïï
;lï:#,Tlt":*'ilï*l" r":ï Ë.'r'":ï ub1,:,i?que conra o número torar r;ifffrliil""ï""ülâ:::;;;;;;;;Jï:::;;:ï,ïff :ï::;üïiï:r:
1,ffïJ[i:,i,ïil,ï;J,i']i1ïH"l ã f#ï,ï"11;"'::i,?fi; indicando que a so,uçãodada pela distribuição N;;;d ; ##X; sera u'e484; indicando que a soluçãohistograma d" Bi;;iul e a densirran. n.
^1oi1"l'
Na.Figura 6.4, representamos ohistograma da Binãmiar
" "ï""rrãÌ;ï';""ï'"""e1'
Na Figura 6.4, representamoì obaseúa no r"or",ãu ôentral do Lïmite ,,,''1o*l_:1r.!zaaa,1a aproxìmaçã";;;;baseada no Teorema ;
*
-
_ uwrròrudue oa lormaÌ utili
flo Canírrrt^ ? E* _ Central do Lïmite, um impo.tanie
P(x>50):f1zoo\
'tãn\ n )o'sro'7200-t'
P(x >5o)
-
P(Y > 4s,s) : P(z > W, : o,e4l4;
50,5
-
60
----------
\/ 42
n o c apíru r o 7 . Em g"'ur, q, *ì'ilï : ffi ,'ftïnï"r;"ïi r:: ilHf,ïffi :ï ;
FT çap#ulo 6: Vartdvels Alearárlas t9l
Assim,
P(X :50)
-
p(4g,5< f < 50,5)
-
p150,5 - 60
-'/42ì
3^:r1::,". exaro da probabilidade fornece oa qualidade da aproximaçao.
v _ 49,5_60.
' >
-õ-) :0,0182.
valor 0,0190; mostrando,
Note como o histograma se aproxima de um modelo simétrico e em lbrma
Élrro (semelhante ao modelo Normal) à medida que caminhamos da esquerdo
ir direita (valores crescentes de n). Pode também ser notado que a
tvcrgência será mais râpida em situações em que a distribuição Binornial é'
Ëpftrxirnitclitmente simétrica, o que ocorre para valores de p próximos a 112. '
' Uma propriedade muito importante do modelo Normal, cuja
CCtttotrstração será omitida, é aquela que garante que qualquer combinação lineAr
de virriírveis Normais independentes, também, terâ distribuição Normal, Em
€gtlrrs palavras, se X1 , Xz, .. ., X, formam uma seqüência de variáveis aleatóriaS
N(tt,,r?) independentes è atta2,...,a,,, são constantes quaisquer, então
g,r . fouxuterá distribuição Normal. Seus parâmetros são determinados a partir
i=L
dns propriedades do valor esperado e da variância, ou seja,
'\tr 'n rL n,p*: E(DarXr):\n@rxr ) : Don E(Xn):Lorlu;i--r i:l i:l i--L
oï : V"r(Do;Xr, ) : \var(arXr ) : \alvar(Xr) : l"l ol,i:L i.:l i.:l i:l
liste resultado amplia, consideravelmente, o uso da Normal em várias sitUnçõeU,
conforme pode ser notado nos exemplos a seguir.
Iìxemplo 6.10: rJm serviço de fiscalização é criado para averiguar se garrafm de
u,r",
""ito refrigerante
contém, de fato, o volume especificado pelo fabricante. Parn
tanto, 10 gariafas do produto são compradas no varejo, em várias regiões dn
cidade. Cada uma dessas garrafas é esvaziada e o volume de seu conteúdo, que
denotaremos por I/, é aferido. Uma vez obtidos os 10 valores, a média aritmética
M é calculada e, se M < 290 mililitros (ml), a companhia é multada. Estudos na
linha de produção do fabricante mostraram que variações sempre ocorrem' rnesmo
," os
"rp""ificações
forem seguidas. Por essa tazáo, considera-se o volume dO
conteúdó das garrafas como seguindo um modelo Normal, com média P : 300 ml
e desvio-padrão o:25 ml. Gostaríamos de calcular qual é a probabilidade de
que o fabricante seja multado injustamente?
A multa será injusta se, apesar de dentro das especificações, o valor de M
for abaixo de 290 ml. Observe que isto pode ocorrer devido ànattreza aleatória
do enchimento das garrafas.
Como ilust
ïÌïïrïït*::ïïx';i;;ïïJ;'rïïïiii:íf r::ïï,",Í;'.,rrlvator de n ;.;,.i;ï; temos assim p iguat a 0,2.;0,j
"
õ; ;.,ioo o" cada linharumentado, tomando os valores ro, sóÍil,roo
P=0.3,n
=10r[fl 'Àï'='
o'4l]Fn. Jl][
p=0.5,n=100
Â
p=0.2,n
=tO p=0.2,n
=30
p=0.2,n=100
p=0.5,n=10
P=0.5,n
=30
Figura 6.5: Histogramas para valores simulados da Binomíal
''qItF
t92
Denotando por uo volume da z-ésima ganadaa ser aferida e suque o fabricanre esreja denrro das especificaço"i ;;;ìr]ã.ü
_ weoo,'i : 7,...
, 10. A média aritmética U-ãáá'Aupo,
nt:YJ-"+Vo 1-- 1:ro%+...+ruro,
que coffesponde a u.ma. combinação linear com ai :assumindo ìndependência entre as variávels aleatóriasqueM
-
N(pu,o2nn), com
10 10
t-LM : D"ur: à#ros : Boo;i:7
10
o3,r:Ë"i"r: Ë(#)'rrr:
P(mutta) : p(M < 290) : o(, - ro,
-' \ otr /t/n -
: P(z <
-r,26): o,1o3g.
Portanto, a probabilidade de que a empresa seja multada, indevidamente, será de,aproximadamente, I0 Vo. " "vJs 'rqrrcu.' ,ruçvr
tr
iïJ#íJ",i ;í j;, H.ï:"" ï;:ï":: j:::11, r,J.':' n a Ì o r s a de var ore s e u til i za u mmodelo probabilístico para avaliar ,"r, l*'"o rrc Duròil ue valores e utili
comnrâ ê vcnrìe qi;6È^^ t-^^ .
-ucros.
Suas aplicações financei
:"i::ï":""n1 ï*:ï il9: áre as : a gri c u il;"il;;' ;ï *ffi:' :ïlïï1ïï'" Í:ffi:ïï ï#""i:lo representu o "o-portamenro do lucro di u;ïï ".
":.:ilï,1ï:rnilhares de reais):
Cnpftulo 6: VtrlrÍvels Aletttórittt C,
If I0, para todo z.
V,i=1,...,10,
252
10'
Logo,
290
-
300\
I
25/\/n )
L:2Let-5Lr*BLc,
com 24, L1 e Ls representando, respectivamente, os lucros diários nos setores deagricultura, indústria e comércio. As distriúçr";;" o'rãf"olioude dessasvariáveis aleatórias são fe - N(3, 4), ir- lr(0,9)
"
t.l-nrça, 16). supondo
llï,ï],ï'S?ï*,ii,r" os rrês setor"r,'qíu-.".á a probabilioãae àe um lucro diário
'!ÇtF
P t i u t' i 1 tt t i,t M r x I t I tt:t Con! ít t ttt t,r
confbrme mencionado, a variável -L, sendo uma combinação linear
ruis inclependentes, segue distribuição Normal com parâmetros dados por:
"
-2x3*5x6*3x4:48:;Itr
-
.
^2
-
22 x 4*52 x 9+32 x 16 : 385'uL-o
^ïIv ^r I
u
t L
-
N(48, 385) e, portanto,
P(L>bo) : P(z > 4ff) : P(z > o,1o) :0,4602;
' /385 '
clnclo uma alta probabilidadede lucros superiores a 50 mil'
Ercrcícios da Seção 6.2:
1, Sr:rrdo X - Ul\,4l, calcule
n. P(X > 2).
b. P(x > 2).
c.P(1 <X<2).
d.P(l <X<2lX<3).
c.P(X <311<X<2).
2. Admite-se que uma pane pode ocorrer em qualquer ponto de uma rede elétrica
cle 10 quilômetros.
a. euai é a probabilidade da pane ocorrer nos primeiros 500 metros? E de
ocorrer nos 3 quilômetros centrais da rede? , ,""
5. O custo de reparo da rede depende da distância do centro de serviço aó-loóal
da pane. Considere que o centro de serviço está na origem da rede e que o
cusìo é de R$ 200 para distâncias até 3 quilômetros, de R$ 400 entre 3 e 8 e
de R$1.000 para as distâncias acima de 8 quilômetros. Qual é o custo
médio do conserto?
.ì, O tempo necessário para um medicamento contra dor fazer efeito foi modelado
de acordo com a dãnsidade Uniforme no intervalo de 5 a 15 (em minutos),
tendo por base experimentos conduzidos em animais' Um paciente' que esteja
sofrendo dor, reCebe o remédio e, supondo válido o modelo mencionado
acima, pergunta-se a probabilidade da dor :
a. Cessar em até 10 minutos?
b. Demorar pelo menos 12 minutos?
c. Durar mais de 7 minutos, sabendo-se que durou menos de 10?
de
tr
5. Sendo X
-
Exp(I), derermine:
a.P(0<X<2).
b. P(x < 2).
c.P( I<X<4).
d. P(x > 3).
e. P(X < 2lX > r).
7. Seja X- N(4,1). Derermine:
a. P(X < 4).b.P(4<X<5).
c.P(2<x<5).
d.P(5<X<7).
e. P(X < 1).
f.P(0<x<2\,
t-
8. Para X- N(90,100), obtenha:
a. P(X < 11b).
b. P(x > 80).
c.P(X < 75).
d.P(85<X<110).
e. P(lX
-
eol < 10).
f. O valor de atalquep(gO
-
a {X < g0 * a) : 1, 1 : 0,g5.
9. Para X- N(-5,10), calcule:
a.P(-5<X<-2).
b. P(x < 0).
c. P(X >
-6).d.P(-7<X<_6).
c. P(lx + bl > 2).
-=
lí,.1 E.rerck:io't
6.3 Exercícios
l. tJrna vaiiável contínua tem densidade dada por:
1<rí3;
caso contrário.
a. Faça um gráfico da função acima e verifique que ela satisfaz as condições
para ser densidade.
b. Determine P(X > 2), P(X >- 2)
"
P(X:2)'
c. Calcule P(0 < X < 312), P(X > 312) e P(X > 312)'
cl. Obtenha P(312 < X < 5l2l X < 2)'
2. A densidade de probabilidade para uma variável aleatória contínuaX é' dada
pelo gráfico a seguir:
Determine:
a.P(-Lla< X <114).
b.P(o<x<314).
c.P(-314<x<0).
d.P(X>o,x>314).
e.P(X>0lX<Llz).
f.P(x<3l4lx>L12).
g. Um número b tal que P(X > b) : Ll4'
'r91
êapltulo 6: Vartávels Aleeftdrlatt
4. suponha que o varor esperado de uma varidver areatôr"ia corn distribuiluniforme contínuaé I e a variância é iguar a rl r2.Encont.e a probabiridade
variável assumir valores menores qu" ú+.
/(") : {á,
'
6' Suponha que o tempo de vida ?de um vírus exposto ao meio ambiente seu-1 disrribuição Exponencial com parâmãtro
.l : uioï. "õ;ì;"ì;probabilidade condicional p(T > 15 I
"
> 10).
i
3. Suponha que
dada por:
c. Supondo que um automóvel
a probabilidade de que seja
anos de uso?
uma variável aleatória contínua tenha densidade de
'-=F
(itpítuIo ó; Vuridveit AIetttõritu
0<u<3;
caso contrário.
condições descri
ano de uso? E
t96
ï(r):
a. Qual é o valor de k?
b. Quanro valeb,ral que p(X > b) :5/gtt
ïï:f:;t"::1iï,*,11"^" 1: ,,n amorrecedor de cerra marca emsujeitos a uso contínun
",
*,.'"^
*::ï:":"""r oe certa maÍca em aul
contínua, medi'a
"j":-:-r":e.ro,
pode ser consideruOo
"o.ã u.ucontínua, medida em ânôs o,,^"j-ïI*l ò,çr uonsloerado como uma varseguinre expressão: 1 anos' suponha que a função ;il;;; é dada.segulnte expressão:
0{r{2'
24r{6;
caso contrário.
lI,+t',
Ì0,
f (r) :Í; :
a' Verifique que a função-acima é, de fato, uma densidade.o. Sï:t é a probabiliãade d"
"rn';r',;;óvel, sujeiro àsaclma, necessitar de froca de amortecedores antes de I1 e 3 anos?
está há 3 anos com o mesm.ì ah^rr^^^Ã^,-
necessário fazer a,.,t"t-o
amortecedor, qual)ca antes de completar 4t
fi;lí;r;"-no médio adequado para a troca do amorrecedor desses
5. O gráfico, a seguir. rX. _ representa a densidade de uma variável
a. Verifìque que f (r) representa uma densidade.b. Escreva a expressão dà funçao. "- se'o
c. Calcute p(X < S/12). 5---'
d. Determine um número c tal que p(X { c) : 112
ó.
6,J lirercícios t97
O acréscimo anual na área atingida por uma certa praga, numa região produtorit
cle frutas, pode ser modelado por uma variável aleatória contínua, medida em
hectares (10 mil m2), com densidade:(?", 0<z<1;
If@):{1-ã, 1(r13;
I
|. 0, caso contrário.
a. Construa o gráfico dessa densidade.
b. Qual seria a probabilidade da praga atingir entte 2 e 3 hectares esse ano?
c. Que âreaserâatingida com507o decetteza?
d. Determine o acréscimo médio anual na área atingida pela praga.
suponha que o peso de recém-nascidos (em kg) pode ser considerado uma
variável aleatória com a seguinte densidade:
í fi"+rl, 01r12;
If@):1-h"**, 2<r16;
I( 0, caso contrário'
Qual a probabilidade de, escolhendo ao acaso uma criança, ela ter peso:
a. Inferiora3kg?
b.Entrele4kg?
c. Pelo menos 3 kg?
7.
aleatória contínua
a. Determine a mediana e a média.b. Calcule a variância.
10. A função apresentada, a seguir,aleatóriacontínua X.
....-F
Ci t p / t t r I o ó ; Vet r i cí tt e i,t, A I e t r I tí r i us Co n t
corresponde à densidade de uma variâvel
0{r<>.
caso contrário.
l98
t.
Y:^f:"fuso produzido por um rornovariação no i"u
"";;.i;;:' '::i:
automático poderá rer umacomporrame".*":;frï'#:ï:;,.,iïrJ,"r"&lï1;ïïã;f#ï*
f(r):{r"*#, #s'si3;
( 0, caso contrário.
a. Determine o valor
-
probabilidaoe.*^-^ de k tal que f (r) seja, de fato, uma função densidade rb. Para um parafuso
quar a p.Ju"üiüãã"iJ;:,:;*;:,ïï""j.",.: os produzidos
I
".cut"u"ï;;;;#""tomédiodesseso",Ïï:'ïï,;;ï*fi Jiiti*",.:ï
9. Suponha Que u[14 r
seguinte função: variâvel aletória contínua x tem densidade dada
Í(r):
0(r<r'
_
+,
7<r<>.
2ar{B;
caso contrário.
Í(r):
Determine:
a. P(X > 1).
b. P(x < 1'/2).
c.P(1/2<x< llX<3/2).
11. Suponha que o I
',"tfo, em meses, para a fecrrÍìernnõn ,r^ -^re crrurgia oo unor"ll,l i::::-q-:*çto. de pactentes submeridosa um certo tipo de cìrurgia ;;;;;.:ï-ïiïÏ-ry*n'o de pacientes submeridosvariível arearória contínua x,
";;;;;;"";:*:::1,",ryde.
ser moderado p;;;;;
{:*
por:;ï :
*", ar e ar óri a
"
o n, rni i il ;íjï ;ilï"ï:ïn #ï j ïi:iïâ1ïj ï jff ï(*):
---
6,,1 lixercícios
(+, o(r(1;t'f(*):1-I*+*, L<r15;t'"[ 0, caso contrário.
a. Determine a média e a mediana do tempo de recuperação.
b. Calcule o desvio padrão.
12. A trava de segurança de um aparelho industrial deve ser trocada com
freqüência, de modo a evitar a quebra devido ao fim de sua vida útil. Estudos
anteriores admitem que essa vida útil pode ser representada por uma variável
aleatória contínua, assumindo valores entre 0 e 1 ano. Sua densidade é a
seguinte: (*(t-*'), ocr(1;f@):1'\ 't[ 0, caso contrário.
a. Calcule a probabilidade da vida útil ser superior a 6 meses.
b. Determine a vida útil média.
13. Suponha que o comprimento de fósseis encontrados em uma certa regiilo,
dado em centímetros, pode ser representado por uma variável aleatória X conr
função densidade de probabilidade dada por:
r@): L2<r120;
caso contrário.
a. Calcule a média e a variância de X.
b. Se um museu decide comprar os fósseis encontrados pagando R$ 100,00
para os de comprimento menor que 10 centímetros e R$ 200,00 para os
demais, quanto paga em média por exemplar?
'14. O tempo de corrosão, em anos, de uma certa peça metálica é uma varirivel
com densidade:
01r 1I;
Ilr12;
*3a,21r13;
caso contrário.
r99
T2;
{5
;:311ïï:áconstante a
s
que 1,5 unor. T*Toa como tendo
exaramenre
, oF ut ror"'i" ï;
o"'resistência à co'
1 5. o c o n s u rn o d e
"."'
u'
"
o * ; ;;.#
"oit
u t' q' uï' u' ;ffiïlrr5i$:.iïï
medida-Jm"q;#T,:::'ível de um cerro auromóvel é r,*^ .a.,,uuu.iau;iï,ó..,;;;;dï::,liï""rf"ï:ï;,ïilïJ,il:f
l:i,ffi:lr,
/
t,f
['- ..0, losz<1r;f(r):lrr-r, rr<rS12;
f, : 3"ïlï-ïïl#ï ::^" r:rJ'ï *,"
" ""
ï'j on rrá ri o
em uma
"'"*"Ãïïï;fiJ[ïl;;:ir:T+ì, quar será atu'^t"lg: *- ,t;,; derermine: )om esse;il;;;",." média da despesaa. P(0 < X'.'ti' --'çrrrrrll€ib. P6
. 2).- -''
; iÍll â',. nr
e. P(x < 2lx > r).
17. Vigas de ferro
u'ã ãir'"'il:",ff""#ïT;":j:0" sua exrensão a urna
j:,_Í.rull::Í"fliifl
"X,"'",,H:trï;#ËïH:;Ïi;x:"itïT"ï:Íxï
a. sabendo-Sê que ,,* .^,r^-"
t6uat ir o metros' deÍermine a probabiridade de
,
ju,
"Ã;ar"uma
falha ocorreu, eÌa ser distante no mib' ocorrer rurr,ulï."rne h^-
-,
'-"'v rru rnaxlfilo em I metro
18. Dois ;;;"iil nos dois metros centrais da viga.
*l'n*ü*iryn+*ïrïr*i q,'mprobabiÌidad" ããr"r'iïIatamente se nãc ---"!v uu tnrervalo iniciaÌmente
e n c o n t ra re nì il ï i, ii. j ï.""1".ïlï ;
"ïïïïïï ";, ,; i,sï#l#,ï
(irytft u|o ó; Wrriãyei,r Aiettkfu.icts Con.íínuqs 6.3 Exercícios
201
19. Em uma empresa, o equipamento de ar condicionado trabarha continuamentë,exceto quando ocorre alguma falha que causará uma interrupção e necessiduclede manurenção. vamos supor q""-;od"l;;;;'ïi'*ãï,ï",
uma farha porsemana (7 dias), que ocorue
"orn
prãbubilidade OpS.^Ë_.fravendo falha, elnpode ocorrer em qualquer hora ao iia-p+horas).
a. Se o expediente na empresa vai de g às lg.horas de segunda a sexta, qual ttprobabilidade de uma falha durante o expediente?b. As falhas, durante o expediente, acarretam custos de Rg 300,00 enquantoque nos demais horários o cusro é de Rg ZOO,Oò. Ãa"irìnr" se não houver
::tl";:,ïï:,:,ï:ï :r^ o,"rnunu,, quar é o custo ;ãi" devido a fathns
20. Seja X
-
Exp(I/I}), calcule:
a. P(x < s).
b.P(4<x<6).
c.P(2<X<5).
d.P(X<7lX>2).
e. O valor esperado de y, sendo y : JX _12.f. A variânciadey.
, t
;TïJ#""ïjr"ï:1"*^* l:.:ry.:o 1 . calcul e a probabilidade de s ortearmosi#:'::iï,ï,,ïï':i::""::"T?:11ib';.;;;oi;:ffi #;""ïï:::ï:ru;runção de disrribuição dessa
""'ia'"ì. ôr;lJã ffiï;ï::ffi;ffï,ï?
'13.,ïïff;;ïJï:::ì;j: ::ltil:" d::i caixa eretrônico por crientes de unr;:ï1*ï :' ro i mo der ad o p o r ;; ";; á; -il; ï;: ff"ï : ffi ::-,1ï' Í i,ïï]
a. P(I: < r).
b. P(T > l:r < 4.
c. Um número a tal que p(T < a) : 0,4.
23. o tempo necessário para eriminar o perigo de contaminação de certo pesticicra,após sua apricação em um pomar, è u,'u variáver ur"utoriu Exponenciar creparâmetro 2 (em anos). o maior oo n,"no. tempo depende de fatores conro
iii"ïï;,1ïï,ï#'^t^"ie da região. r"noo ", uì*o áir" l"ornpor,omento, us
rr u r a s p u r ve. ;ffi ;".'"",ï,::ïï :ff ," _,ïïjïÍ;ï f ;, j|#; il :i.ïprobabiridade de um. f*rta_cresse porïr,.r.oihiao oo o.o'.o, não estar maiscontaminada após r ano cra purverizuçio. quar e
" "ãrì-
,,segurança,,
seaguarderrrnos 2 anos pnru
.unruini,
"rra*'f,.utn*?
202
classificados como pessoa física é estimada emZ}Vo.
a. Sendo pessoa física, qual a probabilidade de mais de 2 minutos de conexão?b' Sendo pessoa jurídica, qual a probabilidade de ficar conectado menos de 6minutos?
c-' Determine a probabilidade de um cliente ficar mais de 2 minutos conectado.d. se um cliente fica mais de 5 minutos conectado, quar a probabilidade deleser pessoa jurídica?
25. Seja X- N(5,4). Determine:
a. P(X < 6).
b.P(7<X<s).
c.P(2<X<5).
d.P(-1 <X<2).
e. P(X <
-1).f.P(-2<X< 1).
26.Para X- N(50, B1), obtenha:
a.P(X < 75).
b. P(x > 60).
c. P(X < 35).
d.P(85<X<100).
e. P(lx
-
401 < 10).
27. Sendo X- N(S/4,1/9), calcule:
a.P(X <7/s\.
b.P(0<x<6/5).
c.P(X < 3/5).
d. P(x
-
4/31< 1/2).
c. P(lx
-
Ll > r/4).
(t.-l Exercícios
2tì. Na distribuição X- N(p,,o2), encontre:
a. P(X 2 tL, + 2o).
b. P(lx
-
pl 3 o).
c. Onúmero otalque P(p
-
ao 1 X < lL,*oo) : 9,99.
d. O número a tal que P(X ) a) : 9,99.
2g.IJma clínica de emagrecimento recebe pacientes adultos com peso seguinclo
uma distribuição Normal de média 130 kg e desvio padrão 20kg' Para ef'eito
de determinar o tratamento mais adequado, os 257o pacientes de menor peso
são classificados de "magros", enquanto os 25Vo de maior peso de "obeSOS".
Determine os valores que delimitam cada uma dessas classificações.
30. Um teste de aptidão feito por pilotos de aeronaves em treinamento inicinl
requer que uma série de operações seja realizada em uma rápida sucessão.
Suponhá que o tempo necessário para completar o teste seja distribuído de
acórdo com uma Normal de média 90 minutos e desvio padrão 20 minutos.
a. para passar no teste, o candidato deve completálo em menos de 80 minutos,
Se 65 candidatos tomam o teste, quantos são esperados passar?
b. Se os 5Vo melhores candidatos são alocados para aeronaves maiores, quilo
rápido deve ser o candidato para que obtenha essa posição?
31. Com base em experiências anteriores, a Companhia Telefônica sabe que l07o
das contas dos seus clientes em uma comunidade são pagas com atraso. Pnra os
itens abaixo, compare a solução exata com aquela obtida através de
aproximação da variável aleatória pela distribuição Normal'
a. Se 20 contas são enviadas em um dia pela Companhia Telefônica, qual é n
probabilidade de que menos do que 3 sejam pagas com atraso?
b. Se 150 contas são enviadas mensalmente para a comunidade, encontre 0
probabilidade de que 17 ou mais sejam pagas com atraso'
32. A durabilidade de um tipo de pneu da mafca Rodabem é descrita por umg
variável aleatória Normal de média 60.000 km e desvio padrão de 8'300 km,
a. Se a Rodabem garante os pnÇus pelos primeiros 48.000 km, qual a proporção
de pneus que deverão ser trocados pela garantia?
b. O que aconteceria com a proporção do item (a), se a garantia fosse part os
primeiros 45.000km?
c. Óual deveria ser a garantia (em km) de tal forma a assegurar que o fabricnnte
trocaria sob garantia no máximo 2Vo dos pneus?
cl. se você comprar 4 pneus Rodabem, qual será a probabilidade de que voeê
utilizará a garantia (45.000 km) para trocar um ou mais destes pneus?
Capítulo 6: Variáveis Aleatórias C,
pessoa física ou jurídica,
porcentagem dos que são
203
24. Um banco faz operações via Internet e, após umprestado, concluiu o seguinte modelo teórico para o
minutos):
f@):|r"-ir",r)0,
com k sendo 1 ou 2, dependendo do cliente serDentre os clientes que se utilizam da Internet, a
204 (t t p h t t I o ó ; Vr t ri d y c i,t, A I t t t I il r. i t t,t, ( )r t t r I
";:ilff: ffïj;'uttcos indicam que a precipitação pluvibmérrica mensert, e
à i, t.i uu rç ío ú;;#'ilï:ï1ï rïïï'
"ï$;L.,"ffi ,o Jo . o,n o s esu i n d oa' euar seria o
'"r"'i"ïffiiÏïr:Jl'ï#,ï#P[r" que exisra
^
)?^r: !: probabitidad" o" r,àu"iulã'p."",0,,ução inreriàr*/.cô r,^,^.b.construiil;**;':##i:i",ffi ïïï"irï',:ïïm,ïi.;ii,:i;possíveis valores de precipitaça" pìr"i"_ étrica.
" âii:ffi;';;i"*ro "o""io ;;;' próximos 50 meses, em qr; uma precipitação pluviométri.u
,rp"Jo. ázq
^^z34' (use o computador) utilizando um gerador de números aleatórios, obten
;#,n:i;:ï":0,"n
t,o^o
;^os;1aeoe, ï" "rn"
-oj,oïi,ïi#
u,no_,u,, ccparâmerros n : 10.
:0, qg, i00 ; i:-í,ri'ï.ir, ï;ïffi"."ïï1ffi:"".r"#de n e p' consrrua um hisrogra-á. g;;undo-se na ro.r*ïà, hisrogramas
i,""ïiïi'f"'' o que pode ser diio a ';'p;;; au upro'ìãuü;ï; a distribuição
35.^(Use o computador) Com os dados dCapítulo 1;. '*"**""'
vur'us oaoos clo arquivo areas.txt (ver Exercício 25,
u. Po:1.cada bloco, construa um histosra ngráficos. Existe dif"r.n." ênrrê ^ --:^-11
p,ata
? vatiâvel Sala. Compare og
,.3ïllï::;ï:'ï",::::"i!":**;ffi#;';;:^ï^";:;:::''ìïi*ï
;lX'**;,i:lï:*ï',ï,;1:::F;il";J"';ï:ïï;'i""""ïsugeririapara a variável Sala, em cada blõco?
36' (use o computador) para o arquivo cancer.txt descrito no Exercíci o 24 do
":#r'ïi:rhconsidere
u uuriau"iióï_l para os pacienres com pelo menos 40
a. Obtenha o histograma e algumas medidas descritivas.b' você diria que o modero üo*ut re!ìesentaria bem esses dados?
"
"t"uoã1oo
ÏïÏ'"0"r)com os dados do arquivo aeusp.txt(ver Exercíc io 26,
" Ï:ï[tüiffiJ,ïi]o"]rï",ï:"'o pode ser moderada por uma Normar com
b. Para cada região á" pro""aãncia, conslTemposn. c.,"-r"".
^o õrír:^^^ n .
lrua um histograma pata a variávelTemposp. compare os gráficos. É"iri" âirï
u'r ltrslograma para a variável
sobre os rnoo"tár t"ori"os orìê nnÁa.i-* ^^-'111çu entre eles? Algum palpite;: iT::::"'"1 ï'::'"ã' qu" poJà,ú ;ffiill,'Lre eres r..
ãï"i:ïïf":,:;:?,," Ëon,in,; iï;;òj,;#ffi:;r a variáver ResidQualéasuaopinião?
H.
205
Capítulo 7
Inferência Bstatística - Estimação
T.L Introdução
A Inferência Estatística é um conjunto de técnicas que objetiva estudar a
população através de evidências fornecidas por uma amostra' E a amostra que
..,,ntém os elementos que podem ser observados e, a partir daí, quantidades cle
irrteresse podem ser medidas.
para ilustrar as idéias que discutiremos nesse capítulo, considere que é de
interesse estudar a proporção de alunos, em uma escola do ensino médiO, qUe
llretendem fazer vestibular. Para tanto, selecionamos uma amostra de alunos e
ircrguntamos a eles sobre suas intenções futuras de estudo. Com o intuito dd obter
irlguma indicação do valor da proporção na escola como um todo, podemos usar it
proporção dos que pretendem prosseguir os estudos no grupo selecionadO.
.Suponha que a escola tenha 1000 alunos e escolhemos 20 para a amostra. Esstt
cscolha pode ser em uma mesma classe ou espalhada entre os alunos das três
séries ou, ainda, realizada de tal modo a garantir igual presença de meninos e
rneninas no gmpo, independentemente da série cursada. Uma forma simples de
cscolher é associar um número acada um dos 1000 alunos, colocar todos esses
números numa lista e sortear 20 números. Os alunos correspondentes aos números
sorteados formariam a amostra. Suponha que você rcalize o sorteio dessa forma e
um amigo seu, desconhecendo sua iniciativa, repita o mesmo procedimento. Você
acha que as amostras sorteadas por você e por Seu amigo serão as mesmas? PareCe
intuitivo assumir que não. Queremos enfatizar que, se realizarmos várias vezes a
amostragem descrita, provavelmente obteremos amostras compostas por alunOs
diferentes. Uma questão que surge agora é: apesar de diferentes, podemos ter
respostas próximas ou iguais nas diversas amostras? A resposta é afirmativa c
estará subjacente às idóias que desenvolveremos neste capítulo'
Resumindo a discussão do parágrafo anterior, podemos dizer que devido rì
natureza aleatória, geralmente envolvida no procedimento amostral, não podentos
garantir que repetições de amostras produzam sempre resultados idênticos. Assim,
ao coletarmos uma amostra, não podemos prever antecipadamente seu resultado'
206 (e tpítuht 7: ln.fi'rf ncitt li,çttttí,ttit,rt _ Ii,
Em outras palavras,
,todas as quantidades associadas à âmostra terãoaleatório e, portanto, devem r"""b", trataÃLnto probabilístico.Um ponto importante a destacar í
amosrra, remos, nu p,âti"u, roda a i"r"rÃJçïï ru,ï:iïïff iiÏïïrïitramostragem, ou seja, não há alearoriedad" Ënuotuà^ ;;;;;^rn
-^ ^^ rF
E'.rrvurrqõvrrr' wu òçJa''..0 na ateatonedade envolvici\ por exemplo, se os l(iïï::"* ï::' i,ii:ï191 i"i T" ro."_ "n t*ul; ;;r\;;üli o uo r o.
"*
ntoproporção dos que desejam conrinuar os estudos ;;ffird;;":ï"rïï,
iSL: Xïïlli:",r:::::::-::" 1ïstra e o resurtaa"
"utiàã,irá ser ,",n0,,mesmo, não importando qnanras vezes reperi',-,o. u
";l;;j;;ffi. ; ilï:
:::ïï::":j3::iï,::: ::jlll": Ito trocam de opinião
"nt.e a, coreras e, porracomo rodos os arunos sempre enrram na amosrra, a proporção
"#ïl:ïffiïl
n" ,-r^_I"^Ìr^" iil]jy1:, formalizaremos alguns conceitos relacionados a um rânda Inferência Estatística denomina ao
"rìi*oçao. Estudarem". ffiïn;ii
;ltïï**ï::.:: ,*:jïis, objerivanJo a obtençao de informações a reslde características de interesse na ptpulaçao. * ""'"""'w uç ''urrnaçoes a re
,_",_l::: ;:tiji:j1r,ïully": e,ãonrusões de noração, vamos repreuma amostra de ramanho ??, a ser rerirada da populaçã;,Ëìi,ï;;
. .,"i;
Exemplo 7.r: uma empresa fabrica r00 equipamentos eletrônicos por semana
L:'"n ç:,1'::":::ï: ::,:"-.npo.j1 u,",i.tên"iu d",;; ;id ;e equipamento ereração à arreração de voltagem. um res;;;";*dil;#ïïr:ïJ'#ffiiï^:j:
3"""#Jff:,:":i"'ì: "-T r":"^*flsu;1s3ivas art".ãço"Jfuá.onlïuou, de vortagerle observar o efeiro no aparerho. serão consideiado,
"o- ;Ë?ffiïffï:aparelhos que passarem no teste. como esses testes são demorados e demandamcustos expressivos, apenas 5. desses aparelhos ,"rao t"rtoáos. eue cuidadosprecisamos ter na escolha e na interpretação dos resultados?
os 5 aparelhos escorhido, pr""ià. ser "representativos,, da produção, ouseja, a amostra precisa representaì bem a popuração de aparerhos produzidos.Assim, se questões referentes a operado."s, máquinás utilizaãas ou, até mesmo, odia em que foram produzidos tiu"r"- efeito na quuriãuã" ao aparelho, erasprecisam ser consideradas na amostra. uma alte;ativa seria o sorteio, porexemplo, de um aparelho a cadadia, tentando não repetir op"râor". ou máquinasutilizadas' Além disso, fazer alguma froposta de mudança no processo deprodução, baseando-se apenas nos resurtados de ,,nu ,ãLuna, parece serprecipitado. o mais indicaão seria coretar amostras em várias semanas.uma vez escorhido o esquema de amostrag"^
"" ""oa
elemento daamostra podem ser atribuídos varoìes 0 ou 1 depeniendo, ,"rp""tiuumente, doaparelho ser crassificado como tendo má ou bà ,"ririen"iu às arterações de
--F.
207I ltrlt rulttç'ïltt
$ãettt1il, 7.2: Dtvida-se da "honestidade" de um dado e decide-se lançá-lo l0
íãr',,,rr.'; de utilizálo em um jogo. Os resultados obtidos foram: I , 5, I , 4, I , 2,
g,
.1, 2 c 3, A que conclusão chegamos?
A íÌeqüência de ocorrêniias de cada face é apresentada na tabela abatixo:
r. A amostrn (X1 ,X2,..',X5,) poderia ter a resposta (0, l, l' l' l) emtr
r.'olcta o numa outra ( l, l, 0, l, 0).
Face 1 2 J 4 5 6
Freqüência t.) 2 a 1 1 0
Freq. relativa 0,3 0,2 0,3 0,1 0,1 0
Ërrr scndo o dado equilibrado, as freqüências de ocorrência de todas as f'aces
Ghrvcrr.ianr ser próximas. Entretanto, a amostra coletada parece,indicar um certo
rlcshirlanceamànto do dado, favorecendo valores pequenos' E bom notar que
,,r..r,no um dado honesto pode produzir a amostra acima. Talvez uma amosttit
ti,,,i,,, pud"rse corrigir o deìvio encontrado, mas, baseado no que foi informado, o
tnclltor seria não jogarcom esse dado! tr
Ii.vcntploT.3..Noprimeirodia,apósmudarparaumnovobairro,vocêdecicle
1',"rgunto. às pessoas' no ponto de ônibus, quanto tempo se espera
para o ônibus
.t,Jgnr. As li pessoas pràsentes forneceram os seguintes números (em minutos);
.5, lõ, 5, 15,lt,12, rc:15,20, 15,20,12, 8, 10 e 10' uma demora de l0 minutss
l)ilrece ser inevitável?
E claro que as pessoas deram suas op.iniões baseadas em experiêncins
Irnteriores, que devem sór diferentes entre si. É possível, também, que algumas
rlclas sejam mais atentas que outras na questão da demora, além do que nõO
clcvem
""h"gu.
todas no mesmo horário ao ponto. Algumas, talvez, levem em conta
o comportãmento das últimas semanas para dar a opinião, outras apenas o dia
itnterior.Também,quemsabeaSpessoaspessimistaspegugmodiademaior
clemora e as otimistas o de menor. Dessa maneira, a subjetividade da resposta é
Í'ruto da informalidade e imprecisão da pergunta. Das informações obtidas, temos
rnédia igual a 11,6; moda 10 e mediana igual a 12. Assim, num prirneiro
momento, parece ser razoável acreditar em espera pouco acima de 10 minutos. tr
Exercícios da Seção 7.L:
L. Liste as idades de cinco dos seus amigos' Escreva cada um desses números em
umpequenopedaçodepapel,deigualtamanho'ecoloque-osdentrodeum
"nu"lop".
Antes de
"aoa
r"iirada, chacoalhe vigorosamente o envelope e I'eche
os olhos.
208 (it1tftub 7: ln.l'erêndu E,ytutls,tiut " Ii,rri
a. Qual é a intenção de toda a "engenharia" descrita acima?
b. Repitatrês vezes o seguinte procedimento: retire de uma vez três papéis do
envelope e anote seus números. Comente sobre as três trincas d" números
encontradas.
c. Repita três vezes o seguinte procedimento: retire um dos papéis do
envelope, anote o número e devorva-o ao envelope. Faça mais duas
retiradas nos mesmos moldes. Comente sobre as três trincas encontradas.
d. Que diferenças existem nos procedimentos descritos em (b) e (c)?
2. Deseja-se sortear 100 crianças entre 4 e r0 anos, num certo bairro, para urnapesquisa sobre saúde bucal. Foram propostas três alternqtiÍaslpru u
"ãl"tu,
l;Y#.lJlïio
aleatório , reatizado enrre as crianças iir,uaár\g no.io
II: um sorteio aleatório de casas do bairro e, em seguida, uma escolha
aleatória de uma criança de cada casa sorteada, se houver.III: Escolhe-se, ao acaso, um dia de semana em uma das escolas dobairro. Nessa ocasião, 100 crianças são sorteadas dentre as várias
classes, com alunos na faixa etária de interesse.
comente as diferenças e dificuldades de cada alternativa.
7.2 Parãmetros, Estimadores e Estimativas
Para formalizar as idéias que serão apresentadas neste capítulo,precisamos definir alguns conceitos.
Definíção 7. I : Parâmetro
As quantidades da população, em geral desconhecidas, sobre as quais
temos interesse, são denominadas parâmetros e, usualmente, representadas por
letras gregas tais comol$
__
e gentre outras. tr
Dffinição 7.2: Estimador e estimativa
À combinação dos elementos da amostra, construída com a finalidade de
representar, ou estimar, um parâmetro de interesse na população, denominamos
estimador. E^m geral, denotamos os estimadores por ^rr-boio, com o acento
circunflexo: ê, fu, õ, etc. Aos valores numéricos assumidos pelos estimadores
denominamos estimativas pontuais ou simplesmente estimativcrs. tr
A notação utilizada paru a média de uma população é p, acrescida de um
subscrito, se houver possibilidade de confusao soúre a que população ou variável
209
7, J I'ttr(ìrtrttlrrts' lislittndttt'es r E:tlltttttliytts
s referimos. Por exemplo ' px e Fe 1ão-us1ct :J:Ï"':1i,ïì';;ïtï::i:i:iiïíïì,ïï:'ï":;,::JJJïïïïËil,:r:i.:,=T":lï^.,ïi:ïïTfi *fi'""jËjïï
llÍ:l : *ïJff :ï : ï.ilÏï,ï'ï í'"il1*::: |:3ï1i: ï;,:ïïï#ÍJi: i:
Ëï;ì,Ëlï:ilffi l.:1iïi.ï'T:',:íti""if ï;#"Ëï"ïilï,ï,::*ffÍ:1:llilll ïÍ 3Ï 8iÏ:: ï ffi ;: ;;
"
;; "r
"
ü'" *
" 1 i. t,1"^ .',."*..ïff ,.: ï :? :Ï,''n l;
ïïliü:ïil:ïï"fi", aurores e tentaremos utilizar aquera que nos
pareça mars
Notamos que um estimador' digamos 3' :,::"-função t*r:::U",:i
nr.,,,o.ijì iï'nï#;' J" am?stla' ,i":. i 3 ^:^!^Í:::^!-::;;*Ì;,ti:ï;""#
: iï i ìff:ï ffi:i';ï-" ;;;i;ï "ú:r' I ::ï::i :iÍ:i[
^l' ï111ï;:ï: i:;ïllilïffi "ïÏ?"ï-i';;;u,"-o*"eo*"no::ï#".:ïïii'"'*dlll-o*:ïil,ïïilï*iïi,ï*í*u" da amosrra para os parâmetros da população'
";;'r';;;;';.r,u"u'.,o'interessados*:::::.1ï*'ffi
.tïii""ïït""i"i*:
':::,:'i:Íi;"J:ï:#"ìil;:"Ëq:"i:*..1"^Ti":,,:Jï:J:iïï,ïiï
; ïï ::,1"'
"ï *1t i ó'ü.' ;;; d" s oeí e 1i,y1ltt:ï i i.ï"n'.ï;"'ï "l::,ffir::ìlï::ïï ","ï;'"'3ff:J'J'l;"Ëil,
";'";ìhtd;'
uo u"u'o dentre a popuração
ioï"n',*uoécompost"^p"l,.t^l::::i?1,ï:J:?iiïflïi::tlt;'::
,,,'",,n"LtÏïlï:t':H"Ë;#;ï;;'a*"o"4"*'ï::'ï;:liï:ïï:::f ï::i',',ïlïJiï:'"Ïï"::'Ëïru*;Ì{,:j:;"*l'li:ï,ïïl'3i;';""ïffi :iovens, representaoa PUr Á'' n orrrvu!rw'--'Lu" o."cisamos resolver é que função;ì;, ;;;t dizer algo a respeito de p' o- i .^*^^r^ ;",^ 6 n.ar será o estimador.ttcla, vamos üzet.a;1o a rçòPe*v uv r/' v â,uàtu, isto é, qual será o estimador.
rlos valores amostrais "ïti'"ÏÏ::f:i "t'
Apresentamos a seguir algumas opçoes:
ímínimo + máximo) .pr: f1(Xr, ..., Xro) :
frz: lz(Xt ..',Xto) : Xt"Xt*...+Xro
Ft: hlXr,..., Xto) : -----6-
Poderíamos listar outros estimadores' mas
os três apresentados são
suficientes putu lo'itu'- *"u discussão' Inicialmente'
vamos esclarecer o
significado de cada trn a"i"t' O estimado'fu' é
a média aritmética entre os
valores mínimo e máximo da amostra e frz'é"simplesmente'
o primei::"1'1]":
sorteado na amostra' Ëì""f-"tt"' F' é ?-eáiu dos valores da amostra'
ou seJï' il
rnédia amostral.. Apresentamos, a seguir,
os valores observados na amostra e âs
re spectivas
"rti'nutiu
u' ï;;iú ;
"Ín o-s estimadores
definido s acima'
Amostra (em metros): 1,65; !,57; !,72;1,66; |,7|; |,74; |,8|;1,68; 1,60
e 1,77.
lï
2t0
Estimativas:
lJlno" :
u":
teria coletar a amostra?
concordam. Assim tomamos
Capítulo 7: Inferência Estcttístícq _ Es
: 1,69;
1,65;
7,65+r,57+...+r,77
10
16.91:
-10 : 1'69 '
Apesar desses números, calculados para uma amostra particurar,
serem muito distintos uns dos outros, não devemos escolher o estimador olh:
apenas, se a estimativa correspondente é, razoâvel. como decidir qual deles u
X:,::lï, "1lllj:l que esra questão_é resolvida, estudando_s" u, p.opr"Aua",diversos estimadoràs. É .ómp." uo* t"-ú.u; õ;;ú"; Ëï;ï;.'
::ï:1i:ï:l:tïli--Íota na população, pois se eló fosse conhecido, que senti
Exemplo 7.5: Para detectar.o apoio popular a um projeto governamental
reforma agrâria, foram entrevistadãs +oô pessoas espalhadás
".n-uá.iu, capitairamostra conrém as 400 resposras que'consistem de
"r,, (o;:;tïn""Ï:ïtïconcordam com o projeto) e não (para os que discordam).
Para formarizar o problema, iniciàlmente caracterizamos a populaçãointeresse como aquela formada pelos habitantes adultos do país. A informa<desejada é a proporção das pessoãs que concordam com o ,"fàido projeto,
oparâmetro de interesse é p: proporlão dos que concordam com o projeto.
/ t, _, A oTorrra pode ser pensada como o vetor de variáveis aleatór\Ãt,Á2,...,xq00), cada uma delas seguindo um modelo Bernouili, ou seassumindo.valT. 1 para sucesso (resposta sin) e 0 parufraro"", çrerpo sta naQ.E intuitivo considerar como estimador ã prãporçao àmostral dos r
p- número dos entrevistados eue aprovctm o projeto
400
que, tendo em vista as variáveis de Bernoulli, pode ser escrito como:
ì-Xt+.Xz]-"'*Xqoo.
- 400
como veremos adiante, esse estimador arém de intuitivo tem boas propriedades. El
Suponha, como antes, que uma amostra de tamanhopopulação e representada pero cónjunto de variáveis areatóritrs
n é retirada da(Xr, Xz,'.., X,,),
(1,57 + 1,g1)
___
211
7.2 Parôtmetros, Estimadores e Estimativas
Xt*Xz-l +x"
l)cnote os parâmetros média, variância e
população PoÍ F, o'" p, respectivamente'
cprantidades são as correspondentes média,
proporção de certa característica nâ
Os estimadores "naturais" para estas
variância e proporção calculadas na
n rì1ostra. Representpnd-o-os, respectivamente, por /í., o- e P, temos
'^l l,e-
t '"-
X:
^2o.:
:i&,?nn
r1ìjf (xn
-
X), ;n-'
número de itens com a característica na amostra
f'í'hryt n
Note que cada um dos\estiàadores apresentados depende dos valores pertencentes
h o*oìtra aleatória (Xr,'..,Xr;'Como veremos no decorrer desta seção' os
;r;;;;;;r", X
"?, uié* d" serem intuitivos,
têm as boas propriedades que serão
tlcÍ'inidas adiante. No entanto, com respeito àG2, uma alteração na sua expresSãO
scrá necessár ia paraque satisfaça uma dessas importantes propriedades'
Iixcmplo 7.6: Paraestudar o nível de colesterol em uma população de esportistas,
colctamos uma amostra de 10 jovens atletas, obtendo os segUintes valores:
ItÌ0,196, 185, 165, 190, 195, 180, 176, 165 e195'
Vamos definir nosso interesse como sendo o nível médio de colesterol e'
irssumindo que não temos acesso à toda a população, estimaríamos o parâmetro p
(valor descoìhecido da população) pela média amostral calculada com os valores
rlirclos, isto é,
180 + 196 + 185 + + L76 + 165 + 195 : L82,7.Td,": 10
I'rrrtanto, a amostra, através do estimadot X, fornece para o parâmetrO pl n
trstimativa 182,7. O limite de colesterol para pessoas sadias é'200, isto é, acimn
rlcsse valor o indivíduo aumenta o seu risco de ter uma complicação cardíaCA' A
iilÌìostra forneceu umvalor relativamente baixo, indicando que as pessoas que
lrrilticam esportes, aparentemente, estão mais protegidas de complicações
do
coraçito.
Tendo em vista que a população em estudo é constituída de jovens atletas,
rrrn nível de colesterol acima de 190 poderia ser considerado preocupante e
inrlicativo para um acompanhamento médico mais freqüente. Dessa forma,
,ufnnno quà classifiqu"*o, como tendo taxa alta os atletas com valores acima de
2t2
790 e taxa baixa, os demais.
escolhido, definimos
(upltulo 7: In.f'ert)ut,itt listrttístit'tt - Ii,
Y
Sendo X,i o nível de colesterol do z-ésimo
\
_ | t, se X; >\e;.2:<
f 0, se X; ( 190.
Assim, Y; será 1 para as taxas altas e 0 para as baixas. As quantidades h , ... ,ytambém são variáveis aleatórias, uma vez que elas assumem o valor 0 ou
dependendo do valor assumido por X4, que, por sua vez, é uma variável aleatória;
Para os dados apresentados, podemos construir a tabela:
A proporção p de atletas com taxa de colesterol alta será estimada pela proporção
de taxas altas encontradas na amostra, p. A estimativa obtida é:
Y+vrt"'*Y16 o+1+.'.+1 :0r3.
Portanto, baseado na amostra disponível, assumiremos que 30zo de todos
atletas têm taxa relativamente alta de colesterol, indicando a necessidade
acompanhamento médico.
Exemplo 7.7: Foi coletada uma amostra de pacientes, sofrendo de um certo tipo
de câncer, para se ter uma idéia da variabilidade da ârea atingida pela doenia.
Para 12 pacientes sorteados ao acaso mediu-se, através de aparelhos, o tamanho
dos tumores observados. os dados foram os seguintes (em cm2): 3,52; 4,45;3,g5;
4,32; 6,12;5,88; 4,08; 5,9I; 4,50; 4,86; 5,48e 5,10.
Tendo em vista que se deseja estudar a variabilidade, vamos considerar
como parâmetro de interesse a variância o2. para estimador, considere duas
opções:
1 tL
a? :i)]fxo-x),;
TL-Z:I
^2 7máximo - mínimot 2
"r: \______ 2 ) .
A primeira escolha é a variância do conjunto de dados que foi observado,
enquanto que o segundo estimador proposto é a semi-amplitude de valores obtidos
na amostra. Vamos calcular suas estimativas:
Pobs:
1010
i I 2 ot) 4 5 6 7 8 I 10
X.; 180 196 185 165 190 195 180 176 165 195
V 0 1 0 0 0 1 0 0 0 1
rillFÉ
7, 2 l' ( t ríl n t ( l,rt s, Iis l i rttad o re s e t!ú l r t tt t l i v t t't
^2Oo:
máximo
-
mínimo
2ti
ã1.u": $Kt,r, - 4,84)2 + "' + (5,10 - 4,84)21 :0,67i
: {2'601' : 1.6g.\2 /
Esse:s números, apesar de bem distintos, dão idéia da dispersão
de valores que
Jn,l*,' ser encontìados no tamanho dos tumores' Veremos mais adiante que um
il,il:ï ïãü;lã, poro*o, uma esrimariva melhor pode ser obtida. tr
Como vimos nos exemplos acima' mais de uma função da amostra pode
Her proposta para estimar o parãmetro de interesse. Para facilitar a escolha
entre
ttris estimadores, torna-se importante verificar se possuem algumas das
propriedades que serão definidas a seguir'
Dc.finição 7.3: Vício
Um estimad ot? ê' não viciado ot não viesado
tl(?) : 0. Em outras palavras' um estimador é não
esperado coincide com o parâmetro de interesse'
Definição 7.4: Consistência
Um estimado, 3 é consistente, se' à medida que o tamanho da amostÍ&
iurrnenta, seu valor esperado converge^ para o parâmetro de interesse e sua
variância converge purã
""'o'
Ou seja' ? é consistente se as duas propriedades
seguintes são satisfeitas: |.d,r'i-i-o CIJ7'/ o
ilnn a(ì)i ï;lvod,t-dr.r
'n,+@
ii) limVar(?) : O.
nì@
para um parâmetro 0 se
viciado se o seu valor
tr
os
de
tr
tr
Noteque,nadefiniçãodeconsistência'estamosimplicitamenteusandoo
fato que o estimador depende de n, o tamanho da amostraaNa definição
do vício,
o resultado deve valer para qualquer que seja n' isto é' E(0) :.0.' parc todo n' Na
definição da consistên"iu, ã eslimador necessita ser não viciado apenas piÌro
valores grandes de n.
Exemplo 7.8.' Considere que' numa certa população' um1- v1]ável aleatória X
assuma os valores 0, 10, 20 e 3O
"o*
pót"èntagens 20Vo' 3OVo' 30Vo e 207o'
respectivamente.Atravésdafunçãodeprobabilidade,podemoscalcularamédiae
a variância da população' nesse caso p': rÍe o:- l-05' Entretanto' para efeito
2t4
5\ ''| ,i'
\ ì\'
Capítulo 7: Inferência Esatística _
considere os
didático, imagine que ú não fosse conhécido e desejássemos obter informaçseu respeito arravés de uma amosrra a. ton.,oìÌòï{"'"'Jül"oor,ção. videntificar as possíveis amostras selecionadas.,sr qò puòòrv€ls amostras selecionadas.
t,:i^ï:*::i11-'"'á o p*.1i1,x2), com xt e xzsendo variáaleatórias independenres com u
'n"rÀu dìr,;i;;ì;á;"iiriri^i"ïi ïïï,0 10 20 30
lr f:t":s amosrras são as seguinres: (0, 0), fl,'?Ol,o fO.;ii '(0,20),... e (30, 30).
::J;;', j"r,
",
ï,:
^
i: _ lï,, rã "qu rpòu# i i' ;üil;,- ïí;;,i"1, ïu,irsrfas tem r
fi:ffiiiij:Í:,$."::ï::',': j:^ :*'xi' r3i 3.",ini;, ; ;;.,ra (0, I 0)probabilidade 0,06 enquanto que (10, 20) tem 0,09.Para estimar o valor d a média' p, na população,
estimadores:
ìt:Ít(Xt,Xz):Xr;
frz:lz(Xt,Xz):7:XrlXz
Como se comportam esses estimadores?
i,,Tl;::* f:Tr^rll9-"0", o"j, já_foi apresenrada e podemos carcu
::il *ï::ï::::.: ::.':l : : ::r'id : g ".; +,# ;#""ril:'ïï'"à; ï:"fs eu s val ores
":o::il:.^ : r", l*it: e ;rortanro, ;,;;, Eiïij': ï;ì
probabilidade é:
o,l:2^u^.uurrâvet aleatória X, não i Aiiã,f'"*,.ri"'íì;" ,r"
Xl o r(s to 1b 20 25 Bo
e,
Calcularndo o valor esperado de X, obtemos
E(N) :0 x 0,04 -t 5 x 0,I2+ ... + J0 x 0,04 : 15.
Concluímos
viciacrospo.o",iião,1ffì""i"ilïÍifì"ft
""iilïi1iïr1iiï'ÍJl;.ï:,i,u.o estimador Êr, gue é igual à x1,.tem.variância igual à variância de x,rìo caso r05, e não se altera com o tamánho da amostra. ï, our.o, paravras, 4#ï:ï"ïH"#tf. iil:ï:liportanão quão grande ror a amostra. Logo p1
é o q u o c i en, ;;;il ïï ï [ ij: ïï3 #;"$ï ï:ï gil fl ïJ ï:i i:1 lï,.ï ",ï:il
215
Pt t r[tmetros, Estimadores e Estímativas
rir, será influenciado pelo tamanho da amostra. Conforme veremos adiante, a
i,,',,mostral X serâum estimador consistente para a média populacional' tr
ttplo7.9:SuponhaqueésabidoqueumacertacaracterísticaX,na
rlirção, tem média pt e variãncia o2.lJma amostra aleatórìa de tamanho n,
sú,udu por (X1, X2,..',X,) é obtida para estimar o parâmetro'p'
Considere o estimador fut:X Assumimos que o vetor amostral
Xt, Xz,...,Xn) é constituído de váriáveis aleatórias independentes e todas com a
ner,,rnãirtribuíção da variável X, isto é, Xr, Xz, ..., X' ^segltem algum modelo
rrão foi especificado) com média p, e variãncia o2. Com o auxílio das
iiopriedades da esperança e da variância temos
E(F): E(X): nç4tJézJ-: é1:
Pnrit a variância temos,
'rì,
lVar(X';)4:l
-
p.
no2 o2:-:-
n2n
função
Itrrr.tanto, mostramos que a média amostral é um estimador não viciado para a
irróclia populacional pr e' como Var(pt) : o2ln tende a 0 conforme ncresce'
c,,n"luí.nós hmbém que X é um estimador consistente pata pt'
ConsidereagoraqueespecificamosomodelodeXcomosendoNormal,
ist. é, temos X -'í1i,
"'1. Os resultados apresentados
acima para X
l)e r.manecem válidos, pois foram desenvolvidos sem nenhuma
particularidade de
rrrçclelo. suponha qu. u* outro estimador é proposÍo:p,2: mediana(xr,...,x',,.).
A
.f ustificaliva para o uso de frzdeve-se ao fato de que o modelo Normal é
sirnétrico
"
u
-eàiuna, assim
"o.nõ
u média, é uma medida de tendência central'
Os cálculos referentes à P', sáo um pouco mais elaborados e não serão
tlcsenvolvidos aqui. Entretanto, pode-se demonstrar que E(fur) : t" e
i,,|çtr1 : Qr l2)('o2 ln), de tal formã que esse estimador é também não viciado e
cottsistente para LL
- Ú
Iixentplo 7./0.' Supondo uma amostra (Xr, " ',X,) obtida de uma população
.,,,r.r Áédiu p e variânci a 02, ümestimador "natural" da variância foi apresentado
irlteriormente e motivado pelo cálculo da variância de um conjunto de dados'
lisse estimador foidenotado pori\ e é viciado pata o2 ' uma vez que:
2t6 Qtltltulo 7: Inl'erêttt,iu Elktthtic,rt -
E(õ?):*rtËrxt-x)z1
:*,"tttxt-tr+p-x),Ì
:
*utDrx, - rò2\ì)1-,,,,
a'nls: ;2ts6o - P)' - E(x - p)'Z:I
7 , 1":
-no'_ _o.nn
,Tl,
-
7, n: \-;)o"'
como é imediato verificar, o quociente (n- r)/nnunca será r, exceto no rimitcquando n tende a infinito. podemos eliminar ó vício ,nuriipri"uno o al po, , Idividindo por (n
-
1). Assim, definimos um novo estimador
.s2 :
-_l_tf" _ x), ,n
-
IZJ\"z /L) '
que é não viciado para o2. para seu cálcuro, podemos usar a expressão alternativa
.9': 1 /Én-t\ux?-"-*')
Esse estimador recebe o nome de variância amostrare será sempre denotado pors2 paradistinguir de outros estimadores denotados genericamen te porG2. D
Note que a variância ou o_ desvio padrão de um estimador fornece uma
::Í':_1L,':: llïïyl; ïor ìsso, 9 .-"''n; denominar
"
o"#ïi,ï""ï""H
:ïii::: i : .:. :"_ ! : d,*. eu ando a"i.. ",,iÃïãïï",'r;#';;ï,tJ:;ï:. ï Hilil::::,:fiïïé o mais nrecisn Nccra nn-t^ v+^ ^ ^^,^ - .,é o mais preciso. Nesre contexto, o conce iti de eficiênrr" i
^ií*!"!r;ilïïL:?;Definíção 7.5 : Eficiência
" Dados dois estimadores ?1 e ê2, não viciados para um parâmetro d,dizemos qu" ?, é mais eficiente oo qu" ó) ," r"rìA,iï ,ïiïA; tr
-tF
V,. ) I' t t ríl t t t (t t ro s, lis t i t u rul o rc,r c b]l I i t r t t t I i v t t,r
*,_.***.{,
2t7
)Exttrnplo Z.//.. No Exemplo 7 .9, no caso de distribuição Normal, verificamos que
'ãl
"tii*oaores
p1 :X e frz:medtana(Xt,"',X") são não viciados e suas
vnriÍìrrcias foram calculadas' Então'
var(Q)
-
o' ln, : ? :0,63 < L + var(Fr) < var(fr,r),
V'4 p; : ç" 121"'1" iT
ê eottcluímos que p, é mais eficiente do que -1ìr'
Na tabela a seguir, apresentamos estimadores de p, p e 02'
Tabela 7.1: Estimadores para média, proporção e variância'
(x) a consistência não foi demonstrada no texto mas é válida
Exercícios da Seção 7.2:
l. Foram sorteadas 15 famílias com filhos num certo bairro e observado o número
de criancas de cada família, matriculadas na escola. Os dados foram: l, l,Z,D,
2, (,2,,'3,4, ), l, Z,0,0, e2. Obtenha as estimativas correspondentes aos
seguintes estimadores da médìa de crianças na escola nesse bairro:
(mínimo * máximo)
.
PÚI
-
^t (xr+x3.fr: --n- ,
frs:X'
Qual deles é o melhor estimador da média e por quê?
2.Para se estudar a variabilidade em um teste de Inglês (notas de 0 a 5), foram
sorteados 16 alunos de uma escola e suas notas anotadas: 0, 1, 2, 1,2,3,3,2,
3, 3, 4,5, 1, 3, 2 e 3. Paraestimar a variância foram propostos os estimadores:
n
218 Copltub 7: Ittferprrirt liyutíltictt - Ii,
,? :
*E(xo - x)2 ;
Obtenha as estimativas e discuta qual é melhor.
3' o número de reclamaçõ;s,uue chegam por hora à uma centrar de Atendimentodo consumidor foi anotadó puru ,i-u amostra de argumas horas escorhidas,aoacaso. Deseja-se organizar o serviço de modo a ate-nder, iÃ"aiutu-" nte, 909"das chamadas que chegam. O"t"r,,'ln" uma estima tiv.a n^,o n
-,í*^_^ rriru n c i s n f ri s s n ec L s s á r i o i,
"
u ?,";ì ;", ï;,;iïJ ïï; ï JË, i"ï1 ;, i,"{;r,V,l,B,+,$,b, l, X, +,+,i, L:'[,1, i, ìïì: d)V, !
"
+.
4' IJm ônibus passa por um determinado ponto em intervalos regurares (emminutos inteiros) que você, por ser nouo no bairro, d"s"onh""e. Ao chegar a
::ì;,,ï"ï,,ïlï'":"ïj:::i^ 1li: pessoas e resorve ;",s"*;;
"
eras sobre ;seuônibus. uma delas diz_que está no ponro h;;;;; fi";ïftÍ;ï'JJJ: ff:passou. A outra está há cerca de 40 ^minutos e já viu passar dois desses ônibus,Faça uma estimativa da demora puru pu.ru, o seu ônibus.
5' um fabricante deseja estudar a duração de baterias que são utilizadas emrelógios de pulso. uma amostra de vãrios lotes rauric'aÃs por uma mesmacompanhia foi submetida a testes acererados
"
proaori*- JJ r"grint", temposde duração (em anos):. 1,2; I,4; 1,7; 1,3; 1,2;2,3;i,0,-i.S,"f
,S ; 1,4; 1,6; 1,5;7'7;1,5 e 1,3' Determine estimatiu* puru a média e a variância do tempo deduração dessa p'has
-para avariância,'use os estimadores da TaberaT.r.
7.3 Distribuições Amostrais
Vimos que estimadores. são funções de variáveis areatórias e, portanto,eles também são variáveis areatórias. N".'tu ,"çao vamos estudar a distribuição deprobabilidade de arguns dos estimadores mais utilizados. Iniciamo, com umexemplo simpres, em que não é difícil carcurar expticitamánte a função deprobabilidade dos estimadores de interesse.
Exemplo 7.12: um jogo consiste em lançar uma moeda honesta 3 vezes. paracada ,ançamento, se saircara você ganha-ì ponto, caso saia coroa, você perde um
-
219
poilto. Podemos modelar essa situação através de uma variável x que, em umn
i6pulação, pode assumir os valores -l e 1, com probabilidades iguais' Para uma
ãrri,,rtrá aleatória e independente de tamanho 3, vamos determinar as funções de
probabitidade dos estimadores X e ^92.
' Um cálculo simples fornece o valor da média e variância de X, obtendo'
tc, respectivamente, 0 e 1. O vetor amostral (Xt,Xz,Xt) é constituído de
Vlriírveis aleatórias independentes e identicamente distribuídas com função cle
probabilidade igual à de X. A tabela, a seguìr, apresenta as possíveis amostrâs,
i'espectivas probabilidades e valores de X e 52.
7, I I )ist rihuif:íics Arttttst rnl'r
(X1, X2, Xs) probabilidade X gz
-1, -1, -1) L/s -1 0
-1, -1, 1) T/B -113 413(-1, 1,
-1) L18 -r/z 413(-1, 1, 1 rl8 U3 413( 1,
-1, -1) tlB -L/3 413
1,
-1, 1) 7/8 r13 413
1, 1,
-1) r/8 L/3 413
I 1 1 L/s 1 0
Os valores da tabela foram obtidos através dos cálculos usuais. Por exemplo, parn
n umostra (-1,1,
-1), temos
-1+1-1 :
-tl3;rohs:
(-1)'?+ (1)2 + (-1)'z- 3(-1l3)'z
(3-1)
Baseando-se na tabela anterior, podemos construir as distribuições dos
cstimadores, dadas por:
t :413.
Xl-1
-LlB rl3 1 ^
Os valores esperados podem ser calculados facilmente:
E(N) :(-r) x 1/8+ (-1l3) x 1/8 +Lll x 718* 1 x 1/8 : 0;
E(S') : o x rl4+ 413 x 314 : r'
eapftnlo 7: hlferëncio Erttttl,rtictt .
Dessa forma, uma vez que.E(-t) : 0 : ,,li.
: E(s^r): 1 : var(x),ambosestimadores são não ui"iuooì fuluì**Ë.r,"os parâmerros esrimados.
_ t . No exemplo anterior, pudemos en
.'xiïJffi :::**;,ïrTJ*,ï;;riïfu
*,ïi#:",ëJJ"ïï.ï:v ^^_1:x,"ìntinuu,'"''*'"ï"lïüi j#::""ïïïïï*#iílïl;l jï:,Ël
*: iïï* i! J; Jl ; ïï *r:iï'i:iil I utu,,,uc o n r ín u a o
", "
i.liï ïi" :ï*envolvidas, não seria viável ;il;;; ïoàï,"r".o conrinua das variáveis aleatóritobtenção das densidao", pu.u u^Àeji""l"t as amostras possíveis, o qu" l.p"ìo
apresentado flo Exemnl^ ? r. \Ì? para a variância amostral neln mÁr^rapresentado no Exempro 7
13 .wr9 "Ã"íffi;,Hï#fiïï::r peÌo méror
,ffiïïil::rïi'J'::*; :::.o^.1*i" g,", é que o0,", u'oli;,ïff,:,:":
ïi::1,ffi :.ff
"i"'::ii:d;õ;"iË'l'J,ïï,Jlfi "ï"ff :':':;;ïi;Í;..ïi,,;,trt1t*dï;JÍïiï:riïïJ,ï-áïLï,ï::ï:.ïil:rjit*ïyi
ii,ïlïtïfJ.';Í:ïry:ff 4i*:*:*lÈfiï1"Ë,,*,.ï,ü;l"1,::,'iffi "::
uu.iau"r ïïì;H:ï:,,.,n_i"iurm"nr",-;;," de umà õ;;ü; Normar, isro é, a
represenra uma
^;^:.: :
N(!".' o2)' Portan ; ffi;;ï"
:Íï;àïx"Ëïï.Jilïï:,.1i,#i,,;,n#llrdìÉ;J$*li:;i j
X'i
-
N(p,, o2), ,i: I,...rn;
X; é independente 4s X j, para todo i t' j.
XtTr, gue, para quaisquer consianres a,{; também tem disìribuìcãn a^ ^-:;:;,,.*l' ,"'.4:, a combinação lineart*f;*f f rui*ïÍlï* j:ï,J"ï,ii;."àïâ;,X,ïiLiïtï#ï:A distribuição da média ,-;;Ë*" Pruoa'Illdade dada pelo modeló Nor,r,ui.
a,; : 7/n, 'para i,: t, ..., n. A.ssi- u,' :of:n* desÍe resultado ao to-urn,ã.at : 7/n, para i, : I,...,,r."'Ã,,"}:"ïttetamente deste resulrado ao torr
propriedades dâ esrr."o-^ô ^,.^-:^
N(p*, ol) e, com o auxílipropri edades da esperança e variânciu uor"r"n ooxïJ,#".ï;:ï ;:ïnt o das
tt,: E(X) : uÉËx) :
*n, : ,,
o1: va,(X) : v"4!txò : #ro, : #
Logo, para uma
clistribuição de
coleção de variáveis
probabilidade, dada
aleatóriás independentes com uma mesmapor um modeloNormal
""_
;ã;;;'è
E:
Figura 7.1: Efeito de n na distribuíção amostral de X
-
N(10, L6ln).
*I-F '" - --"-=Çt
77t
'. I I t i.t' t riln i çilc,t A rru
^! nli,t
nciã o2, a média amostral'X também terá distribuição Normal, com média p
vrrrifincia o2ln.
Note que, pelo resultado acima, podemos concluir que à medida em que o
talnlnho da amostra cresce, a probabilidade de a média amostral estar nil
Vlzinhança da média populacional torna-se maior. Intuitivamente tal fato é
êFltclirdo, uma vez que, ao aumentarmos o tamanho da amostra, estamos tendo
ituis informação e, de certa forma, fazendo a amostra ficar "mais parecida" com tt
Apolrulação. E, assim, razoâvel acreditar que a média amostral será próxima dn
ntérlia populacional.
Excmplo 7.13: Considere uma amostra independente de tamanho zl de uma
vrrriírvel N(10,16). Isto é, Xt,X2,...,X,, são independentes e todas com
distribuição Normal com média 10 e variância 16. Como se comporta X em
lirrrçiro de n?
A variável aleatória X tem distribuição N(10, 16/n) e o gráfico de sua
elcrrsidade é apresentado, a seguir, para alguns valores de n.
Como podemos notar, à medida que n aumenta, a função densidade vai sc
eoncentrando ao redor da média 10, que é amédia populacional, indicando metior
probabilidade de amostras grandes fornecerem uma estimativa de X próxima dn
rnódia populacional.
Densidade
tr
222
omitida.
com Z
-.À(0,1).
Cnpltulo 7; ltlferênrict E,rkttl,ytiett
-
Exemplo z'14: suponha que a aceitação de.urn rote de r000 peças ocorra
:il ïifiïi,ï,ï:_lï j.:^ lo^tças. retirada, or"oto,lo*ãi,'. oo ro,.,entre 5 e 10 cm. Sabe-se.,r"
^.).,.i^-r'*^v!'rssso
oru'rlurralllenre oo lot
i*, * ;: *",,n"T:ïï J:, ï ïï : iü,1,",," r :i "ãï:iSe definirmos nor y. ^ ^^6.. . .V ì li : 1, . . . . 10. remos lÌ,.0"ïrf1 ,^o ,"^o'Ptimento -da i-ésima peçai- r,... , 10, remos q_ue a médiá d": t0;iç;;;;;ï";;ï'#,"_i:i:#:ïx' terá distribuição Normal com média i,s'"^ ;il;;ïôno:2 cmz.Lca probabilidade de aceitarmos o lote serrá
P(5<X<ro; :r(r-2,t.\ r/z X-p . ro-Z.s\;m.-õ-)
-P(-
obtida da rabela da N(0, 1).
I,77 < Z <I,TZ):0,,92J2;
Io q!" foi discutido até aquia!v Yuv rur (rrscutlclo ate aqui, consideramos a distribuição arnostralmédia X, calculada em uma amostra crrinq êlêmô6Í^^ ^:^ra cuJos elementos são constituídos
Jïïï:i:ï,.ï,,ïï:*""r":::"";:::;;,ü'o_EJÏï:ï'J1"'u;ï.ïï:ï"[
;; ?:ï;'i" ï":, :: t: :Tiçi:: : *:p ei t o ã a or s t,i bu i ç ão a u, uu.i #iï.liï3;,,ïl
lÍ,'3ffi ï::;,::""*::i:':i:;:-;ã;Ï'J'"*ï.:3:'fJ:ïïÏ:i:ï
:::;::;:;ï:;::;'iï:j;:u:'i*::::{::ï";iï;;;:ï;,:"^n)i""#"i":"i::i::n
':{;';:::#:i^r#(:,^l*:l',:x;;;"#b":':r:;:i:##i:n:í:#ï:ft
'ï*ilï:ïTÍ::;"::*:::',','":,'::"N:#;i-ilJ;;Jï-:ï3,xH'#j'.ï1:i mp orr an re s da
-
âr e a
,1: ï:,:i,-,: ::""' Ë," *, iìlïl"ï : ïi :i, ,lÏ Z:H:ii:Central do Limite- cnir do-a-o+*-^x^
:,":;ií:doLimire,"u;aa"mons;;;õ#'ãï:;,".ïïï:::::r^?:,"*!á
Teorema Central do Limüe
suponha uma amostra aleatória simpres de tamanho n retiradade umapopulação com média p e variânc ia o2 (Ãote que o modelo da variável aleatórianão é especificado). Represenrunoo tìï amostra por n variáveis areatóriasindependentes (x1
, ... , x ,,)", a"notunaoïru meaia por X , temos que
X-p,
"/t/"
-+ z,
{arFp.
223
í11 t i i I t tr i ç'íie s A t rtr ttl xti,r
lirn palavras, o teorema gârilnte que pâra n grande a distribuiç.ão da média
lrrl, devidamente padroniiada, se comporta segundo um modelo Normal
,,ró,lia 0 e variântia 1. De imediato, podemos notâr a importância do
rrlr central do Limite, pois em muitas situações práticas, em que o interesse
iif-'ìììì *Jai"
"."rtral, o teorema
permite que utilizemos a distribuição Normnl
ti
"*t,,.tn.
x probabilisticamente. Pelo teorema temos que quanto maior o
il;,';;;- J;
".ori.o, melhor
é a aproximação. Estudos, envolvendo simulações,
ggtt'ttut que, em muitos au'o', valores de n ao redor de 3O fornecem
ipro*i,ì',nçO"s bastante boas para as aplicações práticas' Em casos em
que â
Grd,',t"iro distribuição dos ãados é simétrica, excelentes aproximações sãlo
gbtitlrrs, mesmo com valores de rz inferiores a 30'
Para verificar o efeito do tamanho da amostra sobre a distribuição de X,
Vfltrros considerar diversos modelos de variáveis aleatórias e vários tamanhos de
ãtrr,,stra. Com o auxílio do computador, simulamos a coleta de amostras de um
ãet.,r.,.,.rinodo tamanho do modelã escolhido. Repetindo essa coleta um número
gflrnrlc de vezes e calculando as correspondentes médias amostrais, podemoS
obtrrr um histograma dessas realizações, que ficaria muito próximo da função de
;;;ì;Jiiid"d" d" X. Por exemplo, ii*" um tamanho da amostra e repita a coletn
l(x) vezes. como cada amostra fornece uma média amostral, temos 100 médlns
rrrrrgstrais observadas e com elas construímos um histograma' E claro que' quetnt6
trririor for a coleta e as repetições, mais aproximado será o histograma, dtt
,i-,,r,aJ" de X. Teremos, então, através dessa simulação, uma idéia de corno X
s(j comportaria numa amostra grande e poderemos perceber sua semelhança com ü
tlistribuição Normal, conforme assegura o Teorema Central do Limite'
NaFiguraT'2,apresentamosumaaplicaçãodoprocedimentodescrito
ilcima. procuramos escolhèr modelos bem diferentes de modo a ilustrar a rapidez,
Iro sentido do tamanho da amostra, e a qualidade da aproximação' Os modelos
cscolhidos foram Uniforme Discreto (1,10)' Binomial (n -- 5, p:0,2),
lixponencial (À : 2) e o modelo contínuo definido pela densidade:
se0(r14;
se4( r15.f("): Ítls\tlz
Pode-se observar que' mesmo partindo de distribuição assimétricits,
cliscretas ou contínuas, à medida em que o tamanho da amostra cresce' tì
ãir,.lUriça" de X vai se aproximando pãra a forma de um modelo Normal. A
velocidade da convergência-depende da distribuição inicial, sendo mais rápida nas
distribuições simétricas.
224 Cnpítulo 7: Infi'rilnriu Eskttí,rticu - E,
Figura 7.2: Efeíto do tamanho da amostra sobre a dístribaíção de x.
Exemplo 7.IS: Ílma variável aleatória x assume os valores 3, 6 e g com,
respectivamente, probabilidades 0,4; 0,3 e 0,3. uma amostra com 40 obseré^rtorrTu*. A variável_X não rem disrribuição Normal
" "b;;;;.;":;ïï;::ï,ffiJfi;
amostra grande o suficiente para usar o Teorema Central do Limite. para calcular
a probabilidade da média amostral superar o valor 5, temos:
P(x > 5): P( x,-,1'!=> fs,+í4,44/40 {4,4m) - P(z > -1'20) :0,8849;
com este último resultado obtido da tabela da N(0, 1). tr
Exemplo 7.16: Em uma certa cidade, a duração de conversas terefônicas emminutos, originárias de telefones púbricos, segue um modelo Exponencial com
Exponencial(a10)J
_l lh-.llllllF-r_,
Binomial (rl0) Binomial oFl0)
Exponencial(F50)
Densidade f(r50)
-
225
Fl tt r i I t r t i ç'iie t A ttrttsl rul s
ro l/3. Observando-se umíì amostra aleatória de 50 dessas chamadas, qual
a lrnrbabilidade delas, em média, nãoultrapassârem 1
rnli"9t?
rt"pi.t.nr*do por X a dutaçáo 9T :11-ud:t' l"T:: .*,- t:!!'{}:":
,'1,, d, temos que E(X) : 3 e Var(X): 9' Admitindo uma amostra
it:rrtctnentegrande,pod"-o,calcularaprobabilidadedesejadadaseguinte
vt1\-.) 4-3
P(X < 4) : P(+:i:Ã < :ffi1 = P(z < 2,36): o,eeoe'@= Jqso
rtkr our vista o alto uaior de probabilidade encontrado, podemos dizer que é
iciturcnte certo que a média amostral estará abaixo de 4 minutos'
tr
p: Y +Y, + ... +Y, -v.
"qr
UniÍbrme (rF50)
Binomial (lc50)
Exponencial (n=100)
Uma aplicação importante do Teorema Central do Limite relaciona-se
€gtn ir clistribuição ãu p.oporçao amostral' Recorde que definimos-,1^plT":.ç::
ã;r;;,J ;;"'a fraçãà dìs indivíduos com uma dada característica em uma
Êltostt'it de tamanho n, isto é,
númerodeindiv.naamostracomdadacaracterístícaP- n
ge c0nstruirmos para o z-ésimo indivíduo uma variável aleatória f; tal que
( l, se o indivíduo apresenta a característica;t/ )
'u - \ 0, caso contrário;
ltotlcmos reescrever a proporção amostral como
-
\\}44n
l,ogo, a proporção amostral nada mais é do que a média d: u?tii]:t: aleatórias
..,,,ìu"ni"-nt"*"nt. definidas. Assumindo que a proporção de indivíduos com a
tlircla característica na populaçáo é, p e que os indivíduos são selecionados
irlcatoriamente, temos
'qo; yt'
"',i, formam uma seqüência de variáveis
irlcarórias independentes com ãirtriboição de Bernoulli. Assim, E(Y) : p e
.V,rr(Y) : p(I
-
P). Logo,
E(?): utT.*l: o
ò:l
Assim,! é um estimador não
n \r'
e var(fi) : var(lil:
viciado e consistente Para P.
226 eapftub 7: Inlbrêttrlu Es,kttí,ttirtt .
Tendo em vista o Teorema Central do Limite temos quesuficientemente grande,
Notamos que a soma das variáveiszfe_xgias/, digamos W : Dïl-ttem disrribuição exara dada por uma Binomid ì#;;il;;", n e p. Deforma, probabilidades, envolvèndo a propárção amostrar, podem ser calculadagmodo exato usando essa distribuiçao. cáso o varor de n seja muito grande, eglprobabilidades darão aislm trabar"ho para serem carculadas L to-u_r"
"onu.ni.Jutilizar a aproximação Normal.
,u::*!':.''f,;t\*:^q:: l proporção.de peças rora de especiricação em
?i^
"Í " lZ ^! !: :- T:-uo u
-u
-u_ u''à, tà ;
"
ã'"''r' ; rï, ; ïï'"ïi:ï: J
:i:jÏï
"t:T,:,ï :11 t.:1,".:3:
de
.
peças aereituosls- ;";i;"" 0, 5 0 pode
c arcur ada de l?:-" "I1"
'.'.
b ino'"iuL à ;d;#;"ilï#,:"üilJ:
::: Y l rari ável, aleatóri a represË"r""a"
"
-"',nÁ";""
;; il#;na amostra. Claramente, W _ b(80;0,40). Logo, se pp representa aamostral de peças defeituosas, temos que
P(ì < 0,50): p(W/80 < 0,50) : p(W < 15)
_ +{ /Bo\.: à\"i 1o'no' o'6s30-z: o'8250'
considerando agora
.a aproximação Normal, temos, como conseqüência doTeorema Central do Limite -' --'^rvu' vvrrrv
?
-
N(0,40, o' no,t ;
o, nor,
.
Assim,
P@ < o,5o)
-
pç3-!-
.
/ p(r-p)
v --;,
temos, então, mesmo para uma
razo6*el entre as duas respostas.
0,50
-
0.40 .
-ffi ): P(z < 7,72)
V ----m '
amostra não muito grande, uma
,.1 I t i t t rì h u i çi\e t A nttttl rtt I s 227
,_
rcÍcios da Seção 7.3:
I fltrrn variável de Bernoulli com probabilidade de sucesso p é amostrada, de
lìrlrna independente, duas vezes. Apresente a função de probabilidade da
ltrétliu amostral.
l, 11 ltirnero de divórcios por indivíduo adulto casado, em certa comunidade, foi
rrrorlelado pela variável aleatória D, cuja função de probabilidade é'
rrllrcsentada a seguir:
tlrna amostra, representada por (Dt,Dz), sorteada com dois desses
irrtlivíduos e os seguintes estimadores, para a média de divórcios, foram
e trttsiderados: 0r : JDõ e frz : máximo - mínimo' Para cada estimador'
otrtenha sua distribuição de probabilidade e verifique se é viciado.
!. [.lr-na variável aleatória assume quatro valores (-2, -I, 1, 2) com igual
plobabilidade. Para uma amostra de tamanho dois, obtenha a distribuição de
,92 e verifique se ele é não viesado para estimar a variância da variável.
4. Coleta-se uma amostra de 10 observações independentes de uma N(2,2),
I)etermine a probabilidade de a média amostral:
n. Ser inferior a l.
b. Ser superior a 2,5.
c. Estar entre 0 e 2.
5. Supõe-se que o consumo mensal de água por residência em um certo bairrO
poulirtunolem distribuição Normal com média 10 e desvio padrão 2 (em m3),
Para uma amostra de 25 dessas residências, qual é a probabilidade de a média
amostral não se afastar da verdadeira média por mais de 1 m3?
(r. Um fabricante afirma que sua vacina contra gripe imuniza em 807o dos casos.
Uma amostra de 25 indivíduos que tomaram a vacina foi sorteada e testes
foram feitos para verificar a imunizaçáo ou não desses indivíduos. Se o
fabricante estiver correto, qual é a probabilidade da proporção de imunizados
rra amostra ser inferior à0,75? E superior à 0,85?
ol
a
proximidade
tr
,.E'c
228 Cupítttlo 7: Infi'rêncict Ëstntí,ytittt - Ii,
7. A resistência de vigas de madeira utilizadas na construção está sendo
o fornecedor atesta que, em média, cada vigaresiste a-3 tonelJas com despadrão de aproximadamente 2 toneradas. úint" dessas vigas serãopara serem utilizadas numa obra. considerando que é verdãdeira a inf,do fornecedor e supondo que o modelo Normal é ãdequqdo, pergunta_se:
a. Qual a probabilidade de uma dessas ) ''t.,.ncleÃc,ì r..us us UIIÌa qessas"tgaE-ytar menos doa. Qual a probabilidade de uma dessas-"rgq tipgtrruí'-"ïo, do quetonelada?
b. Qual a probabilidade de
2,5 toneladas?
c. Qual a probabilidade em
suposição de normalidade
as vinte vigas suportarem, em média, pelo
(b), considerando agora 40 vigas e sem fazer
para os dados.
7 .4 Estímação por Intervalo
os estimadores discutidos até aqui são estimadores pontuais,fornecem como estimativa um único varor numérico puru
-o'fuïã**o'
ïl1liïl:, Pi. r"r."T..variáveis_ aleatórias, os
"rti-uããì",
-ü;;;'""
distribuição de probabilidade e, levando este fato em consideração,
apresentar uma estimativa mais informativa para o parâmetro de interèsse
11]:1,::1 ryoi{ de precisão do valor obtido. Ésse métod" o" árìiÃ"çâülX:lY: i:t e rv a t : d e. c o nfi a n çÍ, .iLq 9.noru, à esti mati vu pon*t ;; Ëffi ;;informações a respeito de sua vãriabilidaàe. Intervalor o"
"onrãïçã".il;tdrï
',1, : +#1/v(0,1).o/vn /
atrav.és da distribuição amostral de seus estimadores.
consideremos, inicialmente, o intervalo de confianç a paru a média 1t deuma certa população Normal, com variância conhecida o2. Supãndo uma amostrade tamanho n dada por (Xr,...,X,), vimos que a
-eaiu amostral temdistribuição Normal com a meyq44q a 1_r e variância o2 f n.Assim,
-1 \
+\tr
Fixado um valorì ta7 tal que 0 < 7 < 1, podemos encontrar umvalor zrlz
p(Zl a r.,p)_ .P(_ z-112 { Z < zrlz) : 1.
o índice de zrlz apresenta o valor de 7 dividido por 2 uma vez que a ,,massa,'
deve ser distribuída iguarmente em tomo de 0 (veja a figura a seguir).
'"'uF.
'/.'l |ist ittrctção por I trle rvultt 22e)
-Zw 0 zvz
o valor z1p pode ser obtido da tabela da Normal padrão' localizando o
viúor de 7f2 no
"orpo da tabela e obtendo
o valor 4l'2 nas margens
correspondentes. Feito isso, temos o intervalo
T_,,
-
ztlz<Z< z11zè
-
zt/2a'#1ztlz
" o/\/n
clue pode ser reescrito como'
com coeficiente de conflança'y' é dado
UI
; X + 2.,12--f;1.
\/ lú'
v
tal que
OOX
-
2.,126< t-L < X * zt1z76'
Assim, o intervalo de confiança paÍa p,
por
A interpretação do intervalo de confiança deve ser feita com cuidado' A
expressão IC(t+,'y) envolve a quantidade X que é uma.variável aleatória e'
portanto, o intervalo obtido tambdm é aleafório. Á probabilidade oue ele contenha
o verdadeiro valor da média populacional ;;õãtpìíì:ão aor"iut a amostra' X
i;.*-* ã;=, ètonìõ
"ò-ntiéïéúo,
o, n e z^,12, ó int"tuuto passa a ser numérico'
Desta forma, uma interpretação convenienti e a seguinta se obtivermos vórias
amostras de mesmo tamanho e, parq c:ada i*o delas' calcularmos os
correspondentes intervalos de confiança com coeficiente de confiança 'l'
230 Ctpftulrt 7; ln.li,rêncirt lhttttí,t,tit.tr _ Iilt
esperamos que a proporção de intervaros qne corúenh,am o varor de 1.t, sejaa j.O exemplo a seguir ilustra o, .on""ià. discutidos.
Exemplo z.1g: suponha que os comprimentos de jacarés adurtos de uma cerrit:;jil"#::;? ).*ï3 ::ï:;* pa","oni*r;;;#ïá"cia iguar a 0,0m2' Irma amostra de dez animais i"i;ïJ;ffüJ::lï:r',ïï,;'JDesejamos uma esrimativa para o po.arn"ìro d"*"aeg/;."""
, uora,ïï^S',lXl Íïlï?:jnr" de probabilidade de Ì é NormaÌ com médie variância oz/tO:0,001.r, poa"l_,o, pro""d., d" for_1.ffi:ïi:iti
ff:;ï"iJ,'i:::""j:ïï:::1":ïr^t-3j:iiìu " out". uma estimativa por intervapara p' Isro é, construimos um intervaro ae,"onriann" n;;-;;ïi:3iiffiJïEstabelecendo 7 : gSVo obtemo, Ou tuU"tu da Normal zt/2 : 2s,475 : I,g6.Segue, então, que
IC(p,nrr")
:
1,69
-
1,96
I,63; I,751.
Adotandoa interpretação, mencionada. acima,- de que em 100 intervalosconstruídos, 95 conteriam a verdadeira média,
"
â"" p"a"-J, orr", do intervaròobtido? De modo gerar, o qu" a urruiÀ",rt" conridìraâo é admitir que o intervarode confiança calculado e r- auqu"i".-liuon.,,, isto J, J"ï"ïru- a verdadeiramédia pr. Essa razão expri"u o n""*idade de, atem à" i-n-for_u, o intervalonumérico obtido, fornecei também o índi"€ de confiança que foi ut'izado. trA ampritude do intervaro de confianç a ê,.!.ad,a pela diferença entre oexrremo superior e inferior, isro é, X *
";;i:_"fX:;;'r-:;,tr- ;,;:,fr",o que craramente indica que era depende da confiança 7, do dásvio padrão o e do
':::::;";r::ostra n. É usual '" r"r".i. J" emi-amptitude,
";; o erro envorvido
k::::;:":^*jll como a expressão da amplitude é influenciadaseus termo s
." 1."^rj":-1i.os o s aspec r", in," i,i
"ol Ë í in ïï *, ;t-ï4ü" * qca-rrqaiq{-eentgmente â nmnlirrrÁ- ,:^ ,-;,-'ì '-'
r ':l'11419ì rnarores rem maÌõÌ-podsÌbiliìladg d:
",lc4rf-uÌa -õ
""1affiffi]lffi;il:ï::ï#,ïg:.9,11fËo dã 0 a2,5 metros para a arrura médiaLde indivíduos adultos de uma cidaaei
também um fator
umeoruidelqlg!
importante. Uma
H
a possib:l-idads_de
''-É
2.t I
n
7,.1 1,,'.t' t i tt tttç,ãtt 1tt t r I n lt rwtlt t
àlst,r,rciamento dos possíveis valores amqstrqis ep relaç{g !,péc!-ia populacional,.
èuj' intervato de õontiança estamos obtendo. Dependendo do seu tamanho n, n
êtrr,,stra pode fornecer um valor médio (ro6r) muito influenciado pelos valores
'ex tt'cttros.
Com relaçãq- à.-amostra, temos uma clara intuição de que,-Ilg4!-tg 119igr
ftrr scu tory.qnhd -uior- seú-4 gggllld-4{q d-9-!l&fn+S1r-o-,45l9_1Í,"-"1' Note que,
pelrr expreísao da amplitude, para uma mesma variabilidade o e confiança 'y,
Vr,l,,rc, maiores de n piOduzem intervalos menores e, poftanto, mais informatiVOS.
pgr'cxemplo, para a-altura média de indivíduos, o intervalo 0 a 2,5 metros é
tlrcnos informativo. do que o intervalo I,3 a 1,7 metros'
Il.rcntplo 7.19: A, vida média de baterias automotivas de uma certa marca estí
gcrrclo estudada. Baseado em estudos similares, com outras marcas' é possível
rucluritir que a vida dessas baterias segue a distribuição Normal com desvio padrilo
llLr 4,5 meses. De qual tamanho deverá ser a amostra, para que a amplitucle do
irrtcrvalo de90vo de confiança para a vida média seja de 3 meses?
l'trra calcular o valor de n, consideramos a equação:
v/n:
o
2 x zr12 t- :3'" vn
L,64 (1 : 90Vo) e o :4,5 temos
2 zrpo
_
2 x 1,6_4 x 4,5 : 4t,g2.33
Como o valor de n precisa ser um número inteiro, escolhemos o maior inteiro que
contém (4,92)2, obìendo n:25. Dessa forma, a amplitude do intervalo a ser
construído seiá ligeiramente menor do que 3 e, portanto, o intervalo será mnis
C'om os valores de z-,12:
informativo.
pelo A aplicação do Teorema Central do Limite permite a obtenção dc
iltervalos de confianç a para P, guando a distribuição das variáveis aleatórias' que
constituem a amostra, não segue um modelo Normal. Neste caso, o intervalg
construído terá um coeficiente de confianç a aproximadamente igual a 7, sendo
que esta aproximação melhora à medida que aumenta o tamanho da amostra'
Exemplo 7.20: IJmprovedor de acesso à Internet está monitorando a duraçãto do
tempo das conexões de seus clientes' com o objetivo de dimensionar seus
ecluipamentos. São desconhecidas a média e a distribuição de probabilidade desse
tempo, mas o desvio padrão, por analogia a outros serviços, é considerado igual a
'Áõ' -inuro.. um;
ou."ruuao J;;;;l amostra de 5oo rrtos. o qu" ;;".";;u;onexões resultou num valor
-
o tempo de drrranã^ ,r^^ ,
-
:rdadeira média' com confiançê
::*::'"".ïiiÏï"if :raçãod.as"on"*u",*o-.;';ffi ffi ":ÏÏapricaçao a; ï;#il""Ë;HïT"'ïiii:T,g, u"'" i"-"JiÍu u;au"r e bportanto, será bastan
Normar. Na verdade
.te
razoáve7 ro,ïï. ;,"
tamanho da amostra é iguar a
basranre boa. , com esse ,;il"ìr"l#Lir#irïï,,rï:r;j:.:,j:
Exemplo 7,21: Pteteníle-co o^+i
-
t'Lvvwtvdo p'
certo medicamento
tende_se estimar a prr
do verme da
"r":ï.1o"n,;;.oï,*ilfloreao
p de cura' atralés do uso de uft
,n.ai"um"-n,"-ï*")lï'ïïï:f l*1#ïr.'*ïJ"ïi"1ïéumaJ^t"'"ïilroram",yoì'. ôïápoo.ro. dizer daoro]-o' uo u"uìJ, "";ï:;''
em aplicar o
Uma estimz
ff HiÉ"i{:*=tr#**:*fiffifr ,#í'**ffi
Nestes termc
média o"
"À0" ã" ilL,i#,::ïï:::ïï:.conrianÇa aproximado de e2vo,
rC( t',s2qo)
- [* - r,r5 ; X + rr1rfi]
- [rr-,,rrffi ;25 +r,rrffi
- [24,48;25,55].
Ior" nu"^, em virtude do uso do Teorema Cenrror r^ r :com coericiente de conri
^n^-"0ì"ììã)l|rr";ï:ii:-timire, obtemos um inComo outro r
. on. id"ru. in t-"r;;:;: "Ittol^o de apl i c anto_l,o Teorema cen trar do Limi te,Evo*^r^ q ^a _
ue conÌrança para a proporção p.
?
-N(p,e(t:e)r.
n
:::ï,'#Ïrï:"ï*i""* ràra a", no mínimo, -y. Lembrando que a variância de
--.
2.?.r
rc(p, esvo)' p - r,rur[@;? + t,eo
: [o,s - r,rurlry;0,8 * 1,e6
1o(: òt
tl -
"
I
Notequenestecaso,comopédesconhecido,ointervaloaindanãopodeser
citlculadodiretamentepoisenvolveumaquantidadedesconhecidadentrodaraiz
quadrada.
Uma possível solução é substituirmos p(1 - p)
t)essa forma, estamos utiiizando a estimativa pontual
parâmetro desconhecido p' O intervalo será:
rcr(p ,e'vo): [o,a- ,,nu1ff;o,B+ 1,e6
: 10,745;0,855 ]'
outra abordagem possível é baseada no fato que a expressão
p(L
-
p) t"T
valor máximo igual ít1A',quando 0 < p í 1' Verifique essa afirmação' fazendo
o gráfico da função pçt'-. ei,"o.* I :itiJo de 0 a 1' Nesse caso'
podemos obter
u'i int"ruuto de tonfiànça substituindo p(l - p) por Ll4:
rcz(p,elvo): Io,a -',nuffi; o'8* ''nuffi1
Iis I i rrtttçãt t Ptt r I rrl c rwilo
im, um intervalo de confiança
rnto zrlz: 1,96) é dado Por:
com coeficiente aproximado 7 : 0,95 (e
por ìou"(l - fioa).
obtida no lugar do
: [0,731; 0,8691.
Note que este intervalo tem amplitude maior que IC1'
Temos, portanto, duás alternativas- para o cál1ulo f lt:*::-*
"onriurrçuffi'o."o nri;;ira,
dada por IC1, é úsualmente denominada abordagem
^Lr:,Á^ ^.tÁ "..finienfêrnêntê"],1*',ïì1,'Ëi; ;;;"" da crença qu? u. estimativa ::ttdl' ::t? *t""':::tr1Ï:
"r:;Ki#;^iïìJ#;"ì'"i""'i*"'"dT,1ï::ï(!:?)t"Í::i;:,ïyi*:
Ë'.ï iï :" "?) I ;.' t ; i ;;; I "91ï,":
^
" :.t";1'^*
""ï .l* ; i,ïï:ï H ï1ilïï:ff ; ur'l rïr rri, t"r, n"t' p'efúmos substituir a Ït"::t:ï:.ì:*^l:t "iÏffitr#"""*J;;;; ï,i" : rear',Assim' ":'1:::^-:ï :,::"ï'31*"1ï" ol
D
p(t
-
p)t
-. )
0,8 x 0,2 1
I200 I
7',
um estimador é ul
conservativa
""ilïi"i;ï'ff ,f" ffi g lli'.lo: ao u ri r izarrmaror ampÌitude do i
c on fi an ç a oil;;. ln t"'uu o ã" lldïr:ïË;:;: *:lffi ï: ffiNa Tabela 7.
capíturo. Intervalos 1^'ol::"":"mos urn resumo dos inrervalos
s:::r*;,*lï*ï*iïl_i,,::n#:.t&ü,*ïï"+ï;ïïiïïtj
Exercícios da Seção 7.4:
l. Por.analogia a produtos similares, o temno rto n^^^=- ,pode ser consiàerado
""r;;;;;;;j|To" de reação de umo z, rinuto, iì. n,,uoiu é desconhe.l',11iey.úãl;"J""r' novo medicamentoreceberam o mer
f":" l "; ; "; ;;,: ïffi r#, : J,:.ilïï
={lii
I Uï: i fudj4,8; 5,7; 5,g: 5-
confiançaou.uo',0^*1'q' ï:ü'ï,I,'í,à,t'ï',trt'Jti:rt'ti:"1:l:1*;,:,::r;i;ì
' ïïiffili#;#ï;::iï:,':il; i;;,':.," ";":. ::e 95vo para a.eaÏ' d" 8.' construa intt
3.serácoreradau"'u,uooou,*i"r"i.ï".""ïlJ:ï.:;#"i;:lï:: j|ff;;;;;:;Z:;
u q. pu.u uï"";;iÏ::'ra.de uma população Normat com de
;:l;i*,Uf Xiï';l;li:;;"f 'l::^'""';õ';;ï;ÏiiÏï:,'"'Hrente-as difer;;;;:.'"t casos em que o tamantr" o"
"r""ro" e
Tabela 7.2: Intervalo, s de confiançapara pe p.
.qTF
1 I t,'t r't't'io,y 2.r5
* llttrir iÌrÌ.ìostra ern 100 ciclaclcs lrrasileiras, de até 20 mil habitantes, indicou que
n vltltlr médio da hora aula para os professores do ensino fundarnental õrn
rscolar mr:nicipais é de R$ 2,5. obtenha um intervalo de confiança paril o
vrtlol' tnédio nacional da hora aulaem cidades do tipo mencionaclo. nascnclo
t'rrr cstudos anteriores, o desvio padrão é assumido ser igual a R$ l,l, use
'1' - 0,95.
t. Nurna pesquisa com 50 eÌeitores, o candidato José João obteve 0,34 cla
lrrcíbrência dos eleitores. construa, para a confiança 94vo, os intcrvalos
olirnista e conservador de confiança para a proporção de votos a screnì
lcccbidos pelo candidato mencionado, supondo que a eleição fossc ncsse
lììolnento.
7.5 Bxercícios
l. lÌrlam sorteadas 20 escolas de ensino fundamental da rede privada, na cicllcte
clc São Paulo e observado o número classes de la. série em cada uma clclas, Os
rcsultados foram: 2, 3, 3, 4, 3, 2, I, Z, 3, 2, 3, 4, 5, 4, Z, 4, S, 5, l, e 2. Dcsejn. ,
sc estimar o número médio de classes nesse tipo de escola, com vistas u irnr
í'uturo levantamento de disponibilidade de vagas. Obtenha as estinrativus
correspondentes aos seguintes estimadores propostos:
Êr : mediana amostral;
frz: moda amostral;
I,IJ: Ã .
Tendo em vista o objetivo pretendido, discuta as vantagens de cada r.rm clclcs,
2. O Conselho Regional de Odontologia recomenda visitas periódicas ao dentista
e, para orientar sua campanha de divulgação, realìzou uma pesquisa corn 100
crianças com idades de 12 a 14 anos. Quanto ao número de visitas no últinro
ano, a amostra resultou em uma média de 0,5 e mediana e moda iguais a 0.
Com base nesses dados comente as afirmações abaixo.
a. A maioria não visitou o dentista no último ano.
b. Metade da população dessas crianças nunca foi ao dentista.
c. No último 0,5 ano as crianças tiveram em média I visita.
d. Talvez algumas crianças tenham feito mais de uma visita no último ano.
Capftuta 7: I4ferêncla Eshilrricu
-
3. Um grupo de 15 al
fefruis.a sobre o T,9.:1"
curso de Vererindria Íbi sorreado eË:iïï:HÍxï::*:i:.Ji:,,ï,;,;il;ï,:ï:ïïïlJqïì:ïïH,:
"ïf"* avariânciasegundo os esrimador.rl, ,, r, 3, 2 e
ãl : @ediana
-d: (.;;;ï"
--,ïï,ïtr' rì!:sz:{ÉGá,
o'
^;H";ffi1;ïÍ: Ii :::l* : ;;
il*ï:::::":!*;mli",:*":,,1*r:*ii""?ffiï:iï::::,i:5. Estatísticas do Dena rtq,-o^,^ , :--" wrrrrlrôl'amédiade x.
o" moto-ti'"t" #-:i:mento de Trânsit
oseguinteriã"t;;'oo""oïf ::"mi;l?ïÏ::.ïil|ïilH:irï*
o l.::rlle_ a probabiridade de a médi-
uragrama).
uma b(2;0,3) ser rnferior à I. a amostral de 3 obser
7. sendo x uma;",:ï:: I
-' sv J u,servações arearórjas de
,,
"
r,"irïál;:ffi,',,'.'":ïi;:;í*ïH,li;l*" uma amosra de ramanho8. Uma amostra de
listados abaixo. n1l:t
oot"tvações da
i?t"ht:ix:trËúl1iïï";ïffi i'ãrr"':'f'";ïff ,rÍ,:ï::ïïb.XéBernouilic
c.XéBinomiaÌcr
9. para uma Norma , ,o*'
: 3
"
P: o'5'
".
pff!;;;:' 15, 10) colerou-se uma arnosrra de ramanho 25. calcuÌe:
qF
\ l')t'r'trk'io,r'
b.t,(4,s<X<tr,11;,
t. Ir(X { 4,T ou Ì > 5,1),
l(1. lim l0 observações de uma variável seguindo o modeloNormal corn rnéctiu 3
c dcsvio padrão 2, qual será a probabilidade de a média amostral:
:r. Ser superior a 1,5?
b. Ser inferior a 0?
c. Não se afastar da verdadeira média por mais de I unidade?
I l. Trinta observações de uma Normal com média p e variância 36 são colctaclas,
a. Calcule P(lX
-
pl < :)
lr. Determine o valor de a tal que P(lX
-
pl > c) - 0,g.
12. Sendo a variável amostrada uma Normal de média p e variância 25, obtenht cl
vaf or de P(lx
-
pl < z) nos casos de tamanho da amosrra igual a 2,20 c 60,
Comente os resultados obtidos.
13. considere uma amostra de tamanho 30 de uma população Normal cle nrécliu p,
e variância o2. Derermine p(lX
-
pl < r) nos casos em que o2é igunl u ló,
64 e 100. Qual a conclusão?
14. A duração do "tonner" de uma máquina de fotocópias pode ser moclelndo
como Normal com média 15 e desvio padrão 2 (em milhares de cópias), pura
uma amostra de 12 fotocopiadoras a duração do "tonner" será observncln g
pergunta-se a probabilidade de, em média, durar:
a. Menos de 16 mil cópias?
b. Mais de 13 mil cópias?
c. Entre 12 e 14 mil cópias?
15. uma máquina enche pacotes de café com um peso que se comporta como umir
variável aleatória Normal de média 200 gramas e desvio padrão I0 grarnas.
Uma amostra de 25 pacotes é sorteada e pergunta-se:
a. Qual é o número esperado de pacotes da amostra com peso inferior a 205
gramas?
b. Qual é a probabilidade de que o peso total dos pacotes da amostra rriro
exceda 5125 gramas?
16. Para se ajustar a uma máquina, a correia deve ter entre 60 e 62 cm clc
comprimento. Tendo em vista o processo de fabricação, o comprimento dcssas
comeias pode ser considerado como uma variável aleatória cãm distr.ibuiçÍio
Normal de média 60,7 cme desvio padrão 0,8 cm. pergunta-se:
238 fnpilulo 7; lnlt,rirtt,irt li,yttttl.t,tit,tt _ Ii.
"' lïït ï"t#babilidade de uma correia' escothicJa ao acaso, poder ser
b. Um
i:,11r1.T::T:o_or,o"^ïu: coneias esrabelece um conrrote de
ffi :' :i',n:" :#,tj: j l' *:::' " r " ;" ;;; ; ;;;;.ï' ïff : ï ï:.Jflã
f ;;
"
ï" "" ff ï,t"':T:l l",TÍj' : f i r "ãïï* ;" ïï " ì #.iï: ""::, il' i
tr.,i;i,"ïï:,;:::,"":::1:i::i,_" de uma ,ffitoria x com disrribu
*:::l ::
"ï:: : ï: ";, 1i.,: " " " ;; ; ï;' ; ô:' ôï'ï:ï* J: ï,ï#'"'ilw l.rrnilnnoffi,"ï,r::i,lïl;jïlo:?? o: probabilidad", u Àédiu urno,ú,não difiramédia da população por mais de ã unidades?
18. Seja X-N(p,,36).
a'Para uma amostra rre tamanho 50, obtivemos média amostral 1g,5. co
^;1ïY,1""'::ï:,:"ri","ç2.s-rvo,ó;%;;;%';;."u"f,
o""'o,'o'
b' para uma confian ça de 94vo,
""".,-ì'.í;;"ï;. ï"
"onfiunça supondo trêrtamanhos de amostra 25,50 e 100 (admita que ,"J* i"-"ceram a mesmÂmédia amostral igual a lg,5).
c. Comente sobre a precisão dos intervalos construídos em (a) e (b).
19.Interprete e comente as afirmações abaixo:
"' niÍjide sarário iniciar pu.u r".e- formados em Economia esrá enrre 7 e
b. "euanro dilï"":fr::i:ïi^^!-,1"?oi,^3ior é, aprobab'idade da médiaamostral estar próxima aa verOaaeira médiar,.
,0.ilifi,r#0"",f:,1ïïti1,ï:,1,:ll:ll",coresterol
é uma variâvetalearória comÍlïï:Jf::T:ï*i:T:iT.1ï;;hJd"";;;#i:iï,iii-i;,
". :ïï,ïï"ïii ï:
"1:.1,^,11, "*
; Ëd ffi;ï:l #Ëiï3e c o, e s tero,
S: lSt"lqlll, c on stru a o i nterval o d; ã"iü; o J'r,;A :b. Se você desejasse diminuir
" "_pfl,rã" à" irntervalo encontrado em a), quaisseriam suas alternativas?
,t;"ï""ï;ïi:"0;,:ïo::,,:.:i
u.
:.u, variâvet areatória com parâmerrosi:ff#ï j:, j r ::
"':*:::v' "r : :r
;rd'* ; ; ï'i' :J: ï*'ffi :i:ï
*?:ïïJ.ï1T:"i"""ï:::::ï"-::'iã.!;"ï;iï;;'i'3ï:áïi?,"""*":
lïï:ïtr"::ï:::j"_"^ j:i,umomédior;;;ï,:i,lá,ïi,;íï'."ï jfiïïff.ì
:ut:1l9veis desse modelo e observa_", ;;;;tiJ"r".a. Quem seria um estimador Oo
"on*.Ã médio paradesse tipo?
ì
todos os automóveis
---
,{+Fs
2iq1 lt ti'tt'ít'itt,r
h. Sc a arl-ìostra Íbrnccctt uln consumo médio dc 9,3 krn/l, construiÌ tllìì
irrtcr.v0lo cle confianç d (94Vo) para a média de consumo desses cal'ros.
r.. sc a arnplitude de um intervalo de confiança, construído a partir clessu
atììostra, ó de 1,5; qual teria sido o coeficiente de confiança?
!2. ( ) irrtcrv .aJo 135,21; 35,gg), com confian ça 957o foi construído a partir de uttra
iilrìostra de tamanho 100, para a média p de uma população Normal cotlt
rlcsvio padrão igual a 2.
r. Qual o valor encontrado para a média dessa amostra?
ll. Sc r-rtilizássemos essa mesma amostra, mas uma confiança de 900/o, qutl
seria o novo intervalo de confiança?
2.ì. A dosagem de certa substância no sangue segue distribuição Normal corrr
rrródia pr e desvio padrão l5 mg/I. se uma amostra de tamanho 25 fot colctaclu,
clctermine:
l. A probabilidade de lX - pl ser inferior a 5'
lr. O ìntervalo para É, com confiança 98Vo, se temos Í otts= 98 mg/l'
2.1. Uma amostra de trinta dias do número de ocorrências policiais em um ccrto
bairro de são Paulo, apresentou os seguintes resultados: '7,I1,8,9, 10, 14,6,
B, 8,7, 8, 10, 10, 14,12,14, 12,g, r1,13,13, B, 6, 8, 13, 10, 14' 5' 14 c l0'
a. Fazendo as suposições devidas, construa um intervalo