APOSTILA BIOMETRIA FLORESTAL INPA

•
UFRRJ

Kenedy Mota
07.09.2019
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 141 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 141 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 141 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Biometria Florestal

83 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA 
COORDENAÇÃO DE PESQUISAS EM SILVICULTURA TROPICAL 
LABORATÓRIO DE MANEJO FLORESTAL - LMF 
 
 
 
 
 
 
BIOMETRIA 
FLORESTAL 
 
 
 
 
 
 
 
 
Niro Higuchi 
Joaquim dos Santos 
Adriano José Nogueira Lima 
 
 
 
 
 
 
 
 
Manaus – AM 
Março, 2008 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
PARTE 1 
 
 
 
Capítulo 1 
Introdução - Conceitos gerais 
A estatística é uma ferramenta importante para o manejo florestal, seja pra quem está 
interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar, 
executar e acompanhar um projeto. Difícil é separar a estatística pra essas duas frentes. O 
objetivo desta Parte da apostila é aprofundar em conceitos dos indicadores estatísticos mais 
freqüentemente utilizados pelos florestais e ajudar na interpretação dos resultados. 
 Estatística é um ramo do conhecimento científico que consta de conjunto de processos 
que têm por objeto a observação, a classificação formal e a análise dos fenômenos coletivos 
ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferências 
indutivas válidas a partir dos dados observados e buscar métodos capazes de permitir esta 
inferência (finalidade indutiva). Durante uma defesa de tese no CENA-USP, surgiu um novo 
conceito para estatística que, segundo Edgard, é "a arte de torturar os números até que eles 
confessem aquilo que você quer ouvir." 
Em inventário florestal, produto sem estatística não é produto. Em inventários, o 
principal produto é o intervalo de confiança para a média estimada. Na pesquisa científica, a 
estatística pode ser vista como um instrumento de comunicação e, embora o seu uso seja 
absolutamente opcional, ela fornece os modelos que são necessários para estudar as situações 
que envolvem incertezas, mas a palavra final é sua. 
 O exercício, a análise e a interpretação do pensamento científico normalmente são 
feitos por meio da linguagem operacional dos conceitos e hipóteses científicas. Isso implica 
na formulação de hipóteses estatísticas e estabelecimento dos procedimentos de observações 
diretas ou de medições. 
 Linguagem teórica: “quanto mais grossa é a árvore, mais madeira será oferecida à 
indústria de transformação.” Neste caso, dois conceitos são envolvidos: espessura e madeira. 
Com definir esses dois conceitos? Espessura pode ser o diâmetro de uma árvore. Madeira 
pode ser a quantidade de material lenhoso disponível para a indústria. 
 E daí? Que fazemos agora? Temos que operacionalizar as observações e medições de 
espessura e madeira. Espessura pode ser traduzida operacionalmente, por exemplo, em 
centímetros de diâmetro à altura do peito (DAP), medido a 1,3 m do solo. E a madeira, por 
sua vez, pode ser traduzida como volume cúbico da árvore. 
 Agora, a hipótese científica pode ser enunciada, em termos de hipótese estatística, da 
seguinte maneira: “Quanto maior o DAP, maior será o volume da árvore.” Dessa forma, o 
“pica-pau” fica mais à vontade. 
 Depois de formulada a hipótese, o passo seguinte consiste em testá-la. Para se testar as 
hipóteses serão precisos: planejar a coleta de dados, coletar os dados, tratar os dados, 
processar os dados, analisar os resultados e, finalmente, tomar decisões para rejeitar ou não a 
hipótese estatística formulada (Ver figura 1.1). 
 O papel da estatística na pesquisa científica é ajudar o pesquisador “pica-pau” a 
formular as hipóteses e a fixar as regras de decisão. 
 
 
 
 
 
Um pouco de filosofia. 
 - Aristóteles escreveu: “A verdade é um alvo tão grande que dificilmente alguém 
deixará de tocá-lo, mas, ao mesmo tempo, ninguém será capaz de acertá-lo em cheio, num só 
tiro.” 
 - A meta da ciência é a organização sistemática do conhecimento sobre o universo, 
baseado nos princípios explanatórios que são genuinamente testáveis. 
- O pesquisador tem os dons da instituição e criatividade para saber que o problema é 
importante e quais questões devem ser levantadas; a estatística, por sua vez, o assistirá por 
meio da maximização de output não ambíguos enquanto minimiza os inputs. 
- O pesquisador tem que ter em mente que a pesquisa freqüentemente levanta mais 
questões do que respostas. Os resultados quase sempre são meramente uma demonstração de 
nossa ignorância e uma declaração mais clara do que não sabemos. 
 - O pesquisador tem que manter os olhos abertos, sua mente flexível e estar preparado 
para surpresas. 
- A pesquisa está na cabeça do pesquisador; o laboratório ou o campo meramente 
confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as 
questões certas para fazer e não nas certas respostas. 
- A aplicação indiscriminada dos métodos quantitativos sobre inesgotáveis 
quantidades de dados não significa que o entendimento científico vai emergir só por causa 
disso. 
1.1. A Natureza da Estatística: 
 Basicamente, são dois tipos de estatística: descritiva e de inferência. 
A ciência da estatística inclui ambas, descritiva e de inferência. A estatística descritiva 
apareceu primeiro, nos censos feitos na época do império romano. A de Inferência é mais 
recente e é baseada na teoria da probabilidade que, por sua vez, não se estabeleceu antes da 
metade do século XVII. 
 a) Estatística descritiva => consiste de métodos para organizar e sumarizar as 
informações. 
 O propósito da organização e sumarização é te ajudar na interpretação de um monte de 
informações. Os métodos descritivos incluem a construção de gráficos, figuras e tabelas, 
como também, o cálculo de vários tipos de médias e índices. Exemplos: resultado final de 
uma eleição apresentado pelo Tribunal Superior Eleitoral (TSE) – Quadro 1.1, desmatamento 
na Amazônia – Figura 1.2., áreas desmatadas com autorização e sem autorização – Figura 1.3 
e as origens da madeira amazônica – Figura 1.4. 
 b) Estatística de inferência => consiste de métodos para inferir sobre uma população 
baseada na informação de uma amostra da população. 
A estatística de inferência moderna praticamente surgiu após as publicações científicas 
de Karl Pearson e Ronald Fisher, no início do século passado (XX). Depois disso, houve uma 
evolução fantástica dessa ciência, tornando-se aplicável a várias áreas de conhecimento, tais 
como: Eng. Florestal, Agronomia, Biologia, História, Física, Química, Psicologia etc. 
 Exemplo 1: Pesquisas de opinião realizadas pelas empresas (DATAFOLHA, IBOPE, 
VOX POPULI etc), pouco antes de eleições. A Figura 1.5 mostra a dinâmica de opinião de 
eleitores brasileiros na eleição para presidente de 2002 com base em pesquisas de opinião 
realizadas pelo IBOPE. O resultado do 1º turno é apresentado na última coluna como TSE, 
 
 
tirado do Quadro 1.1. Os resultados do IBOPE, do último dia de pesquisa (com margem de 
erro igual a 1,8%), são praticamente iguais aos oficiais do TSE. A informação do TSE é sobre 
votos válidos enquanto que os da pesquisa de opinião são de intenção de votos. Na pesquisa 
de opinião do 1º turno é difícil identificar o voto “nulo”. 
 Exemplo 2: Pesquisas de opinião sobre o 2º turno da eleição presidencial 2002, 
realizadas pelo Datafolha. Neste caso, foi possível estimar os percentuais sobre os votos 
válidos. No último dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos válidos 
para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinâmica de opinião de eleitores para 
o2º turno da eleição de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7% 
para o Serra – Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos), 
as estimativas do último dia seriam 62% (para menos) para o Lula e 38% (para mais) para o 
Serra. 
 Esta parte da estatística de inferência evoluiu muito no Brasil. A provadisso são os 
resultados finais do primeiro e do segundo turno da eleição presidencial de 2002 que tem 
muito a ver com as previsões feitas pelas pesquisas de opinião dos vários institutos. O sucesso 
tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta de 
dados e processamento & análise dos resultados A evolução da informática também 
contribuiu muito para o sucesso das pesquisas; o rápido processamento e, conseqüente, 
análise dos resultados, permitiu a repetição em intervalos de tempo menores – isso é 
fundamental para a validação dos métodos utilizados que, por sua vez, dá a robustez 
necessária para a pesquisa e a sociedade ganha com a maior precisão e confiabilidade das 
pesquisas de opinião. 
Exemplo 3: Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com 
base no intervalo de confiança (95%) da série histórica de 1978 a 2005 – Figura 1.7. Apesar 
da confusão das estatísticas e de sua interpretação, com boa vontade e profissionalismo, as 
causas do desmatamento poderiam ser identificadas. O desafio é entender a direção que o 
desmatamento pode tomar no futuro. Sem entender as causas, a direção só pode ser 
estocástica. A Figura 1.7 ilustra o uso do intervalo de confiança – IC (nível de probabilidade 
de 95%) para a média do período 1978-2005. De acordo com dinâmica do desmatamento até 
2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) são: 29% 
de ficar acima da estimativa máxima provável (maior do que 20.983 km2), 29% abaixo da 
estimativa mínima provável (menor do que 16.296 km2) e 42 % de ficar dentro do intervalo de 
confiança (entre 16.296 a 20.983 km2) – com 95% de chance de acertar. 
Exemplo 4: Todos os trabalhos de equações de volume que utilizam os modelos 
destrutivos (na maioria das vezes) para ajustar os dados de volume real observado em 
modelos matemáticos que serão utilizados, posteriormente, para estimar o volume da árvore 
em pé. 
 Para concluir a discussão, em torno da natureza da estatística, é importante não perder 
de vista que a opção por uma das duas estatísticas pode ser pessoal. Entretanto, se a escolha 
recair sobre a de inferência, o pesquisador deve se sujeitar as suas regras e condicionantes. A 
estatística de inferência, por sua vez, deve ficar sob as condicionantes da teoria da 
probabilidade, da normalidade e da independência; a violação de uma dessas condicionantes 
implica em um comprometimento muito sério de todo o seu trabalho. 
1.2. Conceitos Básicos: 
Talvez, os conceitos mais importantes para os florestais são erros amostrais e não 
amostrais. Se você conseguir distinguir esses dois conceitos, você sempre fará um trabalho 
confiável e, por conseguinte, a estatística será uma ferramenta útil na execução de seus 
 
 
trabalhos de pesquisa, encurtando caminhos para a produção de ciência e de resultados de 
inventário florestal. 
(i) Erro Amostral => é o erro que você comete por não medir toda a população. Este 
parâmetro é mensurável e, dependendo da escolha dos métodos, você tem condições de 
aumentar ou diminuir este erro. De qualquer modo, trata-se de um parâmetro que pode ser 
controlado e avaliado por você. É o desvio padrão da média ou, simplesmente, erro padrão e 
tem fórmula para o seu cálculo. É a única medida de precisão, por mais paradoxal que possa 
parecer, em qualquer trabalho de pesquisa ou de inventário florestal. 
(ii) Erro não-amostral => é o erro humano, que pode ser cometido acidental ou 
deliberadamente. É o tipo de erro que você comete ao alocar uma amostra no lugar errado – 
ex.: no escritório você faz a opção pela amostragem inteiramente aleatória e sorteia as 
unidades amostrais e distribui em sua área estudo; no campo, entretanto, você não consegue 
alocá-las de acordo com as coordenadas pré-estabelecidas e alocá-as em outro lugar. Você 
também comete erro não-amostral quando utiliza um equipamento defeituoso ou, por 
preguiça, você “chuta” as medidas de uma determinada variável. O problema desse erro é que 
você não consegue dimensioná-lo e, neste caso, não há estatística que dê jeito para consertar o 
mal-feito. A estatística e o computador só são úteis na interpretação de fenômenos observados 
quando os dados são de absoluta confiança e sem erros não-amostrais. 
Moral: Busque sempre a melhor metodologia para conseguir a maior precisão de seu 
trabalho sem, contudo, aumentar a possibilidade de cometer erros não-amostrais. BOM 
PESQUISADOR é aquele que não entrega sua coleta de dados para qualquer “PEÃO”. 
(iii) Populações, Parâmetros e Estimativas 
 A noção central em qualquer problema de amostragem é a existência de uma 
população. Pense em uma população como um agregado de valores unitários, onde a 
“unidade” é a coisa sobre a qual a observação é feita e o “valor” é a propriedade observada 
sobre aquela coisa. População é então o conjunto de todos os indivíduos ou itens sob 
consideração. Ou ainda: população é o universo de seu interesse. 
 Ilustrando: 
 - se você está interessado em estudar o potencial quantitativo da floresta da Reserva 
Ducke, a POPULAÇÃO é o conjunto de todas as árvores acima de um determinado DAP, 
existentes naquela área de 10.000 hectares. 
- se para você potencial quantitativo significa volume cúbico obtido de equações 
simples (DAP como variável independente), o volume médio (por hectare, por ex.) de todas as 
árvores da Reserva Ducke é o PARÂMETRO. 
- se você, no entanto, decidir pela avaliação por amostragem e lançar naquela área 
algumas amostras (ex.: 10 amostras de 1000 m2, aleatoriamente distribuídas), o volume médio 
dessas amostras é a ESTIMATIVA. 
 AMOSTRA é aquela parte da população da qual a informação é coletada. 
(iv) Tendência (bias), Exatidão e Precisão 
 TENDÊNCIA ou VIÉS (bias, em inglês) é uma distorção sistemática. Ela pode ser 
devido a alguma falha na medição, ou no método de selecionar a amostra, ou na técnica de 
estimar o parâmetro. 
Se você medir o DAP com uma fita diamétrica faltando um pedaço na ponta (2 cm), 
você medirá todas as árvores com 2 cm a mais, ou seja, você superestimará esta variável. Uma 
maneira prática de minimizar as tendências em medições é por meio de checagens periódicas 
 
 
dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidado 
com eles. 
 Tendência devido o método de amostragem ocorre quando certas unidades ganham 
maior ou menor representação na amostra do que na população. Ex.: se você excluir 20 
metros de bordadura do lado oeste da Reserva Ducke por causa de um igarapé. Neste caso, 
você está introduzindo tendência em sua avaliação simplesmente porque você não deu a 
mesma oportunidade, para as árvores que ocorrem naquela faixa, em aparecer no seu trabalho. 
Outro exemplo: quando a equipe econômica faz uma pesquisa nos supermercados do centro- 
sul e extrapola o custo de vida para todo o Brasil; isso é uma medida tendenciosa que não 
reflete o que se passa em Manaus. 
 Tendência na forma de estimar determinado parâmetro pode ser introduzida quando 
você, por exemplo, toma o volume médio da Reserva Ducke e junta com o volume médio do 
Distrito Agropecuário da SUFRAMA (600.000 hectares), para avaliar o potencial madeireiro 
da região de Manaus. Um volume médio não tendencioso seria uma média ponderada 
considerando os diferentes tamanhos de cada área, em vez de usar a média aritmética simples 
(tendenciosa, neste caso). 
 Importante: A tendência é a mãe do erro não-amostral, por esta razão, evitá-la é sinal 
de prudência e sensatez. 
 PRECISÃO E EXATIDÃO – uma estimativa tendenciosa pode ser PRECISA, mas 
nunca EXATA. Ainda que o Aurélio (dicionário) pense diferente, para os estatísticos, 
EXATIDÃO refere-se ao sucesso em estimar o valor verdadeiro de uma quantidade; 
PRECISÃO refere-se à distribuição dos valores amostrais em torno de sua própria média que, 
se for tendenciosa,não pode ser o valor verdadeiro – Ver figura 1.8. Exatidão ou estreiteza ao 
valor verdadeiro pode estar ausente por causa da tendência, falta de precisão ou por causa de 
ambas. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
PENSAMENTO
rejeita ?
planejar tratarcoletar processar analisar
HIPOTETIZAR
OPERACIONALIZAR
não, concluir!
sim, concluir!
rejeit
PENSAMENTO
a ?
planejar tratarco processarletar analisar
HIPOTETIZAR
OPERACIONALIZAR
não, concluir!
sim, concluir!
 
 
Figura 1.1: Pesquisa científica – do pensamento à inferência.
 
 
 
Quadro 1.1: Resultados das eleições para presidente de 2002. 
002 
 
RESULTADOS DAS ELEIÇÕES DE 2
Total de eleitores = 115.254.113 
Resultado do 1º turno: nº de votantes = 94.804.126 
ordem Número Candidato total votos % válidos 
1 13 Lula 39.454.692 46,44 
2 45 José Serra 19.705.061 23,20 
3 40 Garotinho 15.179.879 17,87 
4 23 Ciro Gomes 10.170.666 11,97 
5 16 Zé Maria 402.232 0,47 
6 29 Rui Pimenta 38.619 0,05 
Resultado do 2º turno: nº de votantes = 91.664.259 
ordem Número Candidato total votos % válidos 
1 13 Lula 52.793.364 61,27 
2 45 José Serra 33.370.739 38,73 
fonte: www.tse.gov.br => consultas: 1º turno em 21/10/02 e 2º turno em 29/10/02 
 
 
21.050
17.770
13.730
11.030
13.786
14.896
29.059
18.161
13.227
17.383
17.269
18.226
18.165
23.266
24597
27.200
18.900
78/87
87-89
89/90
90/91
91/92
92/94
94/95
95/96
96/97
97/98
98/99
99/00
00/01
01/02
02/03
03/04
04/05
an
o 
ou
 p
er
ío
do
área desmatada em km2
 
fonte: www.inpe.br 
 
Figura 1.2: Desmatamento anual (km2) na Amazônia. 
 
 
 
0
500
1.000
1.500
2.000
2.500
3.000
m
2)
45
1997 1998 1999 2000 2001 2002 2003 2004
ano
ár
ea
 d
es
m
at
ad
a 
(k
0
5
10
15
20
25
30
35
40
re
la
çã
o 
A
:D
 (%
)
A D A:D (%)
 
Fonte: www.ibama.gov.br – sisprof. A = área desmatada com autorização; D = área 
desmatada total e A:D relação entre autorizado e não autorizado. 
 
Figura 1.3: Relação entre áreas (em km2) desmatadas com autorização e sem autorização na 
mazônia. A
 
 
d autorizado
20%
PMFS
17%
sem origem
63%
 
Fonte: www.ibama.gov.br – sisprof 
 
Figura 1.4: Origem da madeira da Amazônia – planos de manejo florestal sustentável 
(PMFS), desmatamento autorizado e sem origem definida. 
 
 
 
 
39
41
39
41
43
45 46
19 19 19 18 19
20
23,2
12 13
14 15
16 15
17,9
15
12
14
12 11
9
12
0
5
10
15
20
25
30
35
40
ot
o 
(%
)
45
50
6 a 9/9 14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10 TSE
período da pesquisa
in
te
nç
ão
 d
e 
v
Lula Serra Garotinho Ciro
 
Figura 1.5: Pesquisas de opinião realizadas pelo IBOPE para o 1º turno da eleição 
residencial de 2002. 
 
p
 
 
58
61 59 58
32 32 31 32
6 4 6
7
4 3 4 3
0
10
20
30
40
50
60
70
11 out 18/out 23/out 26/out
data
in
te
nç
ão
 d
e 
vo
to
s 
(%
)
Lula Serra indecisos nulos/brancos
 
 
Figura 1.6: Pesquisas de opinião realizadas pelo Datafolha para o 2º turno da eleição 
presidencial de 2002. 
 
 
 
 
 
26.000
28.000
30.000
)
10.000
12.000
78
/8
7 89
89
/9
0
90
/9
1
91
/9
2
92
/9
4
94
/9
5
95
/9
6
96
/9
7
97
/9
8
98
/9
9
99
/0
0
00
/0
1
01
/0
2
02
/0
3
03
/0
4
04
/0
5
05
/0
6
14.000
16.000
ár
18.000
20.000
22.000
24.000
m
at
ad
a 
(k
87
-
ea
 d
es
m
2
ano ou período
área média mínima máxima
IC(95%) = 18.689 ± 2.372
21.060
18.689
16.317
Acima = 29%
2005/06? Dentro = 42%
Abaixo = 29%
 
 
Figura 1.7: Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com base no 
intervalo de confiança (95%) da série histórica de 1978 a 2005. 
 
 
 
impreciso preciso
preciso
exatoimpreciso preciso
preciso
exato
 
 
Figura 1.8: Diferença entre precisã
 
o e exatidão. 
 
 
 
 
 
Capítulo 2 
Organização dos dados 
2.1. Dados: 
 A informação coletada e analisada pelo estatístico é chamada de DADOS. Há vários 
etodologia, pelo estatístico é, parcialmente, determinada pelo 
m mãos. 
 
tipos de dados e a escolha da m
tipo de dados que ele tem e
Exemplo 1: No exame de seleção para turma 90/91 do Manejo Florestal, tivemos 15 
candidatos, 13 homens e 2 mulheres. Do total, apenas 7 fizeram o exame. Foram aprovados 6 
candid
ankeados”. No exemplo, as classificações de João e Joaquim são dados 
ordinai
 se refere aos dados mensuráveis e não deve ser 
confun
éricas ou atributos, tais 
tal, cor de alguma coisa etc. 
Dados ordinais: dados sobre classificação, ordem ou “rank”, tais como: classificação 
de toras, orde heg
Dados métricos: dados obtidos de medições de c quanti com po, 
altu DAP, v e, peso etc. 
Um outro importante tipo de d é o cha o DADOS CONTÁVEIS. A contagem 
do numero de indivíduos ou itens que caem em rias c ias, ta mo “h ” e 
“mulher” fornece os dados contáveis. Por exemp a infor dada exemplo anterior 
que foram apr s 5 ho s e 1 m são da contáv
DADO NTÁ S são dados sobre o número ivíduo itens aem 
em certas categorias ou classes, que podem ser obtidos de quaisquer tipos de dados 
(qualitativo, ordinal ou métrico). 
Os dados QUALITATIVO e ORDINAL são referidos pelos estatísticos como dados 
ISCRETOS
atos, 5 homens e 1 mulher. João da Silva tirou o primeiro lugar com nota 6,7 e Joaquim 
Moreira tirou o último lugar com a nota 5,0. 
 No exemplo acima, nós podemos destacar os seguintes tipos de dados: 
QUALITATIVO – o tipo mais simples de dados, é a informação que coloca cada 
candidato em uma das duas categorias “homem ou mulher” ou “tipo florestal I ou tipo II” ou 
“estocada ou não estocada” etc. Esses dados dão informações sobre um indivíduo ou um item. 
ORDINAL – A informação sobre classificação, dados que colocam os indivíduos ou 
objetos em ordem, “r
s. 
MÉTRICO – O termo métrico
dido com os dados em unidades métricas. No exemplo, as notas dos candidatos (6,7 e 
5,0 e outras notas) são dados métricos. 
Resumindo: 
Dados qualitativos: dados que se referem à qualidade não num
como: tipo florestal, gênero ou espécie flores
m de c ada etc. 
ertas dades o: tem
ra, olum
ados mad
 vá ategor is co omem
lo, mação no 
ovado men ulher, dos eis. 
S CO VEI de ind s ou que c
D porque eles classificam coisas em classes separadas e discretas. Na 
lassificação dos candidatos ao mestrado não há como colocar ninguém entre o primeiro lugar 
 o segundo. Também não há como classificar ninguém entre “homem” e “mulher.” São 
xemplos típicos de dados discretos, porque não há como dizer que alguém ficou em 
primeiro lugar e meio” ou o que fulano é “homem e meio”. No caso de ordem de chegada ou 
rank” há possibilidade de empate, mas isso é outra coisa e será discutido na estatística não-
aramétrica. 
c
e
e
“
“
p
 
 
Por outro lado, a maioria dos dados métricos é considerada DADOS CONTÍNUOS 
orque eles envolvem medições sobre uma escala contínua. A escala fica por conta da 
recisão do aparel na fita á mo que podemos 
hegar é décimo d AP demos ter DAP’s 
om 20.1, 20.2, ... , 2 cronô rmula 1, no entanto, o nível de precisão é 
pensável para os no ios d
.2. Dados grupado
A quantidade de dados que pode ser coletada do “mundo-real” é simplesmente 
ntástica. 
p
p ho de medição: 
e cen , ou
suta ou na 
ntre os D
 diamétrica, o m
’s 20 e 21 cm nós
xi
c tímetros seja, e po
c 0.9; nos metros da Fó
o. im ssos relóg e puls
2 s: 
faExemplo 1: O censo brasileiro. Você já imaginou a trabalheira que dá para cadastrar 
aproximadamente 180 milhões de pessoas, anotando o nome, sexo, idade, ocupação, 
escolaridade etc. Apenas para ilustrar, se você usar qualquer software (Excel ou Word) para 
listar toda essa gente, você gastará mais de 600 quilômetros de papel apenas para imprimir as 
informações básicas, é Manaus-Itacoatiara-Manaus. Com todo esse papel, dificilmente você 
teria uma boa fotografia da população brasileira. Então, o que fazem os especialistas do 
 Eles nos proporcionamIBGE? variadas informações: quantidades de hom
(X1); X1 por classe idade (X2); X2 por estado e por região; X1 po
ens e de mulheres 
r nível de escolaridade; 
os dados. 
Exemp
população ativa etc. 
Isso é um exemplo típico da aplicação da estatística DESCRITIVA, por meio da 
organização e simplificação d
lo 2: Dados sobre DAP das árvores da parcela-testemunha do bloco 2 (apenas 
s” normalmente pensam no DAP em classes de 10, 20, 30, 40 cm etc. 
as 40 primeiras árvores). 
Os “pica-pau
Para ver quantos DAPs há em cada classe você faz o seguinte: 
Quadro 2.1. Dados de DAPs de 40 árvores. 
 
árv. nº DAP Árv. nº DAP árv. Nº DAP árv. nº DAP 
1 25.0 11 33.0 21 32.0 31 37.0 
2 27.0 12 38.5 22 63.0 32 41.0 
3 45.0 13 31.8 23 34.0 33 40.0 
4 36.0 14 52.0 24 30.0 34 32.0 
5 39.0 15 37.0 25 29.0 35 58.0 
6 36.0 16 27.7 26 32.0 36 28.0 
7 33.0 17 35.0 27 27.0 37 77.0 
8 47.0 18 33.0 28 28.0 38 58.0 
9 34.0 19 47.0 29 27.0 39 43.0 
10 53.0 20 33.0 30 40.0 40 30.0 
 
 
 
 
 
 
 
 
 
Quadro 2.2. Cálculo de freqüência de cada classe de diâmetro. 
 
 árvores (f) classes de DAP Contagem nº de
 20 < 30 IIIII III 8 
 30 < 40 IIIII IIIII IIIII IIII 19 
 40 < 50 IIIII II 7 
 50 < 60 IIII 4 
 60 < 70 I 1 
 70 < 80 I 1 
 total 40 
O número de indivíduos (árvores) em cada categoria ou de DAP é ch
FREQUÊNCIA daquela classe. O quadro 2.2 é uma tabela de distribuição de freqüê
amada de 
ncia. Não 
alha com quantidade tão pequena de indivíduos (n = 40, neste 
er distribuições de freqüência: 
metro.” Outra forma é 
e tem que ter a mesma dimensão. Do quadro 2.2, as dimensões são: 20 a 
eria continuar, mas isso seria artificial. O propósito de grupar dados é 
confundir distribuição de freqüência em estatística com o termo freqüência da Ecologia 
Vegetal. Nem sempre você trab
caso). Com n maiores é mais seguro montar a distribuição de freqüência utilizando a “tabela 
dinâmica” do Excel – aplicação no Capítulo 17 (Cadeia de Markov). 
 Algumas “dicas” para estabelec
 - o número de classes não deve ser nem muito pequeno e nem muito grande, ao 
contrário, no meio. Sugere-se um número entre 5 e 12 – regra do “olhô
através da seguinte fórmula: 
n classes ≅ 1 + 3,33 log N (N = número de dados) 
 - cada class
29.9, 30 a 39.9 etc. 
 - cada pedaço de dados tem que pertencer a apenas a uma única classe. 
 Essa lista pod
distribuí-los em um número razoável de classes de igual tamanho para facilitar a interpretação 
dos mesmos. Se possível, os intervalos que tem uma interpretação natural, devem ser 
utilizados, como por exemplo: dados em DAP que são normalmente divididos em múltiplos 
de 10. 
0
2
4
6
8
10
12
14
16
18
20
Freq
fr
eq
üê
nc
ia
 a
bs
ol
ut
a
 
Figura 2.1: Histograma de freqüência para os mesmos dados do quadro 2.1. 
 
 
 A freqüência pode ser também porcentagem ou decimal, conhecida 
como FREQUÊNCIA RELATIV r a freqüência relativa de cada 
classe, bastou dividir a freqüê (número total de indivíduos 
contad
 
 apresentada em
A. No quadro 2.3 para obte
ncia de cada classe por 40
os). Se multiplicarmos essas frações por 100, teremos a freqüência em %, caso 
contrário, em decimais. 
Quadro 2.3. - Distribuição de Freqüência relativa do quadro 2.1. 
 
 classes DAP pt médio Freq freq rel freq acum
 20 < 30 25 8 0,200 8 
 30 < 40 35 19 0,475 27 
 40 < 50 45 7 0,175 34 
 50 < 60 55 4 0,100 38 
 60 < 70 65 1 0,025 39 
 70 < 80 75 1 0,025 40 
 
Algumas terminologias: 
 Classe – uma categoria para o grupamento de dados. 
 Freqüência – o número de indivíduos ou objetos numa classe. Por exemplo, a 
ite inferior é 20. 
. No nosso exemplo, o intervalo é 10, ou seja, 30 – 20 =10. 
os. 
TIVA. Há muitas outras formas de representação gráfica de seus 
ados. Hoje em dia, uma forma muito usada é a PIE (torta). De qualquer modo, fique a 
ontade e use de sua imaginação para dar a representação mais conveniente dos seus dados. 
freqüência da classe 30-39.9 é 19. 
 Freqüência relativa – a porcentagem, expressa como um decimal, do número total de 
indivíduos de uma determinada classe. A freqüência relativa da classe 50-59.9 é 0.1 ou 10%. 
 Freqüência acumulada – é a soma das freqüências dos valores inferiores ou iguais a 
valor dado. 
 Distribuição de Freqüência – a listagem das classes com suas freqüências. 
 Limite inferior da classe – o menor valor que pode ir dentro de uma classe. Na classe 
20-29.9 o lim
 Limite superior da classe – o maior valor que pode ir dentro de uma classe. Na classe 
20-29.9 o limite superior é 29.9. Se a precisão fosse de duas casas decimais, o limite superior 
poderia ser 29.99 e assim por diante. 
 Intervalo de classe – é a diferença entre o limite superior e o limite inferior de uma 
dada classe
 Ponto médio da classe – é a média aritmética entre o limite superior e limite inferior 
da classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto médio é 35 e assim 
por diante. 
2.3. Gráficos e figuras: 
 Uma outra maneira de dar sentido a um conjunto de dados é por meio da representação 
gráfica dos mesm
 O gráfico mais simples dos dados é o HISTOGRAMA DE FREQUÊNCIA. A altura 
de cada barra é igual a freqüência que ela representa. Tem também o HISTOGRAMA DE 
FREQUÊNCIA RELA
d
v
 
 
Capítulo 3 
çados, para a descrição sucinta dos fenômenos 
sticas usadas na estatística, para descrever as 
variáveis aleatórias, em populações particulares, caem em uma das três categorias: (1) 
medidas da tendência central (alocação de um valor ordinário); (2) medidas de dispersão 
(distância relativa de valores extremos de um valor central); (3) medidas de relacionamento 
entre a variávei imilaridade ou dissimilaridade em magnitude). 
 de gráficos 
 grupamento de dados são úteis no manuseio de um grande conjunto de dados. Uma outra 
rma de sumarizar os dados é por meio da computação de um número, tal como a média, a 
qual su
3.1 Medidas de tendência central: 
 mediana. 
Menos harmônica. 
 ente 
usada de todas as medidas estatísticas. 
 idade) dividida 
pelo nú de amostra para 
amostr ais desejáveis em 
onexão com as distribuições de probabilidade. 
 crescente ou 
decresc m amostras com 
número lores que estão 
“rankeados” no meio. Estimativas da mediana de pequenas amostras não são muito 
 classe com a maior 
imento pense na mediana como o 50-ésimo 
til. 
a raiz de um produto de n valores, ou antilog da média 
ritmét a dos to de valores e é sempre tão pequeno ou menor que a média 
o mes o con
Medidas descritivas 
Há muitos critérios, por sinal, bem avan
naturais. Apesar disso, a maioria das caracterí
s s (grau de s
Em geral, o volume de dados de uma pesquisa é muito grande. Os métodos 
e
fo
bstitui um grande volume de dados por um simples número. 
As medidas de alocação mais comumente utilizadas são média aritmética e a
 freqüentemente usadas são: moda, percentil, média geométrica e média
A média comum ou média aritmética ou simplesmente média, é a mais freqüentem
Média – é simplesmente a soma de todas observações (DAP, altura,
mero total de observações. É a medida que tem a menor variabilidade
a, é fácil de ser manuseada matematicamente e tem as propriedadesm
c
 Mediana – é o valor de uma variável aleatória que, em ordem
ente, está “rankeado” no meio, entre os valores maiores e menores. E
 par de observações, a mediana é a média aritmética dos 2 va
confiáveis. 
 Moda – é o valor mais freqüente, ou seja, é a categoria ou
freqüência. É uma medida fácil e rápida de ser obtida, mas, por outro lado, fica sempre sujeita 
a variação extrema de uma amostra para outra, ao menos que a amostra seja bem grande. 
 Percentil – para um melhor entend
percen
Média geométrica – é a n-ésim
a ic logs de um conjun
d m junto de dados. 
 Média harmônica – é a recíproca da média de um conjunto de dados recíprocos e é 
tão pequena ou menor que a média geométrica para um mesmo conjunto de dados. 
 Para dados ordinais, é preferível utilizar-se da mediana, apesar de que a média é, as 
vezes, utilizada. 
 Para dados métricos pode ser usada a média ou a mediana. Como com dados ordinais, 
a mediana é preferida para propósitos descritivos. A maioria das teorias estatísticas para dados 
métricos usa a média. 
 
 
 
Computação de Média, Mediana e Moda 
 Média – a estimativa da média, x
_
ou ӯ, do parâmetro µ, é obtida da seguinte maneira: 
 Dos dados do quadro 2.1, a média será: 
40
) x .... x x( 4021 x
+++=
 x
_
 = 38,225 
Mediana – do qua é preciso ordem crescente, 
(1ª) (2) (3) (4) (5) (6) (7) (8) (9) (10) 
25 27 27 27 27.7 28 28 29 30 30 
 
(11) (12) (13) (14) (15) (16) (17) (18) (19) (20) 
 36 36 37 37 38.5 39 40 40 41 
 
 vações, n, é par, a mediana será a média aritmética 
dos vigésimo e ig es, ou seja, (34 + 35)/2 = 34.5. 
 Moda édio da classe que tem a maior freqüência, que no 
nosso caso, quadro 2.2, é 35, que tem a freqüência = 19. 
 = 35,0 
 Interpretação: 
dro 2.1, primeiro ordenar em
 
31.8 32 32 32 33 33 33 33 34 34 
 
(21) (22) (23) (24) (25) (26) (27) (28) (29) (30) 
 35
 (31) (32) (33) (34) (35) (36) (37) (38) (39) (40ª) 
 43 45 47 47 52 53 58 58 63 77 
 
Neste caso, o número total de obser
 v ésimo-primeiro valor
– é simplesmente o ponto m
 Resumo das estimativas das medidas: 
 Média = 38,225 
 Mediana = 34,5 
 Moda
um conjunto de dados pode ter mais de uma moda, mas sempre terá 
somente uma média ou mediana. Como você pode ver, de um mesmo conjunto de dados, você 
tem diferentes medidas de tendência central. Qual delas é a melhor? A decisão vai depender, 
principalmente, do objetivo de sua informação. Quando a gente vende madeira em volume, 
normalmente truncada a um determinado diâmetro mínimo, a média deve prevalecer tendo em 
vista a maior facilidade para os cálculos posteriores. Se a árvore é vendida em pé, a moda 
pode ser mais interessante, porque ela dá uma noção também da distribuição de freqüência. A 
utilização da mediana é mais prática na tomada de decisões quanto a tratamentos 
silviculturais, desbastes etc., quando você precisa priorizar o tamanho que precisa sofrer 
intervenções. 
 
 
3.2. M
nu
edidas de dispersão: 
Uma medida de dispersão é um número usado para mostrar quanto de variação existe 
m conjunto de dados. 
 Até agora discutimos somente as medidas de tendência central. Entretanto, 2 conjuntos 
de dados podem ter a mesma média ou a mesma mediana e, mesmo assim, ser bastante 
diferente. 
Exemplo 1: Dois conjuntos de dados (turmas de Manejo e Ecologia), no quadro 3.1 
Quadro 3.1. Idades de alunos dos cursos de manejo e ecologia do INPA 
 Manejo ) Ecologia (CFT
 de aluno idade aluno ida
 1 1 22 25
 2 28 2 30 
 3 30 3 28 
 4 29 4 21 
 5 28 5 39 
 média 28 média 28 
 As médias dos dois grupos são iguais. No e
dois grupos diferentes em idade. Dá para pe
ntanto, é claro que estamos nos referindo a 
ais uniforme 
em term o que há dentro de cada conjunto de dados, 
podemos usar a amplitude total ou o desvio padrão, as duas medidas de dispersão mais 
comuns. 
tre o 
aior e o maior e 
o men 
Além d do uma medida que depende apenas dos valores 
externos, é instável, não sendo afetada pela dispersão dos valores internos. 
Do quadro 3.1, as amplitudes são: 
ação é freqüentemente simbolizado pela letra grega minúscula (σ). 
Dificilmente a gente trabalha com o parâmetro. Entretanto, dado uma amostra de valores 
a população, podemos fazer uma estimativa de σ que é comumente 
mbol
rceber que o grupo do Manejo é m
os de idade. Neste caso, para ver a variaçã
AMPLITUDE TOTAL – é a medida da variação olhando apenas a diferença en
m o menor valor. Esta medida é de fácil computação porque depende apenas d
d or valor, mas, em compensação ela não diz o que acontece entre esses dois valores.
isso, é considerada muito limita, sen
- Manejo: 30 – 25 = 5 
- Ecologia: 39 – 21 = 18 
DESVIO PADRÃO – nos dá a dispersão dos indivíduos em relação à média. Ele nos 
dá uma idéia se os dados estão próximos da média ou muito longe. O desvio padrão dos 
indivíduos de uma popul
individuais de um
si izada por s. 
1 -n 
)x - (x 
 s :Fórmula
n
1i
2
i∑
±= =
1 -n 
 s :simples ais 1 1i
n / )) x (( - x
n
2
i
2
i∑ ∑n
m , = =ou ±= i
 
 
 
x
_
Por que o denominador é (n-1) em vez (n)? Porque os n desvios, (xi – ), são 
ente conectados pela relação linear ∑ ( xi – x_ ) = 0. Se você especifica o valor da necessariam
x
_
 e os ( n-1 ) valores de xi, então o valor do último xi é fixo; isto é, é uma informação 
édia amostral x
_
redundante. Por esta razão, ao usar a m em vez da média da população µ 
s, você perde um grau de liberdade (gl) e a estimativa de 
 é dita ter ( n – 1 ) gl associados com ela. O uso de (n – 1) em vez de (n) no cálculo de s 
bém fornece uma estimativa não-tendenciosa; isto é, em uma série infinita de amostras 
édio do estimador é igual a σ.
como um ponto central no cálculo de 
σ
tam
aleatórias, o valor m 
Os desvios padrões dos dados do quadro 3.1 são: 
 Manejo: s = ± 1.87 
 Ecologia: s = ± 7.25 
 
-
-
Resumindo: quanto maior a variação den o
os agora, que apesar dos dois terem
tr de um conjunto de dados, maior será o 
desvio padrão. Do exemplo 1 nós constatam as mesmas 
edida ana, as medidas de dispersão são totalmente 
nejo é mais homogêneo em idade, comprovada 
ela m
Cálculo da média e desvio dos dados grupados: 
eguinte maneira: 
m s de tendência central, média e medi
diferentes. Isto quer dizer que o grupo de Ma
p enor variação encontrada. 
A média é calculada da s
x
_
 = ( ∑ xi * fi ) / n 
onde: xi = ponto médio da classe, fi = freqüência de cada classe e n = número de classes 
 E o desvio padrão segue o mesmo princípio da média em relação às classes. 
Do quadro 2.2, essas medidas serão: 
x
_
 = 38,5 e s = ± 11,45 
3.3. M
 mais) variáveis aleatórias, independente das 
s serão vistas, em detalhe, 
um ca
s já vimos um exemplo de percentil. A mediana divide um conjunto de dados em 
 quarto da área total. 
edidas de relacionamento: 
 As medidas mais comumente utilizadas para relacionamento são correlação e 
regressão. Vários tipos de correlação podem ser usados para medir o grau de associação 
(similaridade ou dissimilaridade) entre 2 (ou
unidades de medida e mudanças lineares em escala. Estas medida
n pítulo específico. 
3.4 Percentil: 
 Nó
duas partes, 50% de um lado e 50% de outro, depois de colocá-los em ordem crescente. Por 
esta razão ela se refere ao qüinquagésimopercentil de um conjunto de dados. Além dos 
percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador 
pode também querer encontrar o quartil e o decil. 
 Quartil é a separatriz que divide a área de uma distribuição de freqüência em 
domínios de área igual a múltiplos inteiros de um
 Decil é a separatriz correspondente ao valor do argumento que divide a distribuição 
numa razão decimal. 
 
 
 Exemplo: dados do quadro 2.1 em ordem crescente. 
Primeiro quarto 
 2 27 27 27 
Segundo quarto 
 3 32 32 32 33 33 
Terceiro quarto 
 
Computações: 
Primeiro quartil = (30 + 31.8) / 2 = 30.9 
 Segundo quartil = (34 + 35) / 2 = 34.5 
 Terceiro quartil = (41 + 43) / 2 = 42.0 
3.5. Considerações finais: 
 Neste capítulo não poderíamos deixar de mencionar três outros conceitos muito 
importantes na nossa área de conhecimento, coeficiente de variação, variância e covariância. 
COEFICIENTE DE VARIAÇÃO – é a razão entre o desvio padrão e a média. Ele 
nos dá uma idéia de variação relativa de nossa população, permitindo a comparação de 2 
populações diferentes independentes das unidades de medida. 
 Do quadro 3.1, estimamos as médias (28 para manejo e 28 para Ecologia) e os desvios 
padrões (1.87 e 7.25). Agora temos os coeficientes de variação (CV): 
CV = 1.87/28 = 0.0668 ou 6.68 % - Manejo 
CV = 7.25/28 = 0.2589 ou 25.89 % - Ecologia 
 Do nosso exemplo do quadro 2.1, temos uma população de árvores, com as seguintes 
estimativas: média = 38,225 e desvio = 11,28 
 CV = 11,28/38,225 = 0.2951 ou 29,51 % - floresta ZF-2 
 Mesmo se tratando de populações diferentes podemos concluir com base nos CVs: A 
população Manejo é mais homogênea e a mais heterogênea é a floresta da ZF-2. Isto é 
possível porque o CV é uma medida relativa, que independente da unidade de medida 
utilizada. 
 VARIÂNCIA - Variância é uma medida da dispersão dos valores unitários 
individuais em torno de sua média. A variância não só parece com o desvio padrão, como é o 
próprio, apenas “ao quadrado” . Se você tirar da fórmula do desvio, a raiz quadrada, você tem 
a fórmula da variância. Por que “ao quadrado”? Simplesmente porque a soma de todos os 
desvios tem que se anular, tendendo a zero e, daí, você não teria condições de ver a amplitude 
de variação dos seus dados em relação à média. 
5 27.7 28 28 29 30 30 
1.8 33 33 34 34 
 39 40 40 41 
3 45 47 47 52 53 58 58 63 77 
 35 36 36 37 37 38.5 
Quarto quarto 
 4
 
 
 COVARIÂNCIA - é um
relacionamento (covariabilid
a medida de como 2 variáveis variam juntas, em 
ade). Suponha duas variáveis x e y. Se os maiores valores de x 
nde a ser associados com os maiores valores y, nós dizemos que a covariância é positiva. 
ando os maiores se associam com os menores, ou vice-versa, a covariância é negativa. 
 a zero. 
 
Variância, s2 = SQCx /(n-1) 
Covariância, s SPC / (n-1) 
SPC = Soma dos Produtos Corrigidos 
 
te
Qu
Quando não há uma associação particular de x e y, a covariância tende
As fórmulas são: 
 
 xy = xy
S
SQC = Soma dos Quadrados Corrigidos 
endo: 
 
 
Fórmulas úteis 
 
 
Média Aritmética Variância 
n
x
x i
i∑n
== 1 
)(
1
12
−
−
=
∑ 2
=
n
n
xx
s i
i
 
 
 
Desvio padrão Erro padrão 
 
2ss ±= nss /=x 
 
2 2
∑ −= ix nx 
∑ ⎟⎞⎜⎛n n x
2
=
= ⎠⎝
i
i
i
SQC
1
1
n
ySQC iiy
12 −=∑ 
y
n
⎟⎞⎜⎛∑ in
i 1
⎠⎝ =
=
 
 
 
( )( )
n
yxSPC
i
iixy
yx iin ∑∑−=∑
=1 
 
 
Coeficiente de correlação 
 
 
YX
xy
SQCSQC
SPC
r ×= 
 
 
 
 
 
 
Capítulo 4 
Probabilidade 
a população baseada em uma 
amostra da população. 
 Desde que a estatística de inferência envolve predições (educadas), é sempre possível 
zer uma inferência incorreta. É preciso saber o quanto a nossa inferência está correta. Para 
edir a chance de estar certo na nossa inferência estatística, precisamos entender a teoria de 
clássicos de “cara & coroa”, dos dados e do jogo de baralho. A propósito, a teoria foi 
desenvolvida por causa de jogos de azar. O objetivo deste capítulo é dar uma base geral para 
facilitar o entendimento da aplicação de testes de hipóteses, paramétrica e não-paramétrica. 
 O processo de computação (cálculo) de probabilidades depende de sua capacidade de 
contar, “1, 2, 3 e assim por diante.” A seguir vamos discutir alguns métodos de contagem. 
4.1. Contagem: 
 testes (tentativas); se a moeda é jogada uma vez, ou 
imento deve ser considerado um experimento. 
 teste, vários testes ou de todo o 
exp im
RE
 No capítulo 1 nós distinguimos dois tipos de estatísticas: descritiva e de inferência. A 
estatística descritiva envolve a organização e a sumarização dos dados. A estatística de 
inferência lida com inferências (predições educadas) sobre um
fa
m
probabilidade, que é a fundamentação matemática para a estatística de inferência. 
 Para entender os princípios da teoria de probabilidade não há como fugir dos exemplos 
Primeiro vamos estabelecer as seguintes definições dentro da teoria de probabilidade. 
Resultado - no caso de “cara ou coroa”, 2 resultados são possíveis e no caso do jogo de 
dados, 6 resultados. 
Teste - (ou tentativa) - é a ação de jogar a moeda e ver se ela cai com a cara ou 
coroa. 
Experimento - é o conjunto de
duas, ou n vezes, não interessa – o proced
Eventos - são os possíveis resultados de um
er ento. Exemplo de evento: “uma coroa em 4 jogadas” ou “pelo menos um é cara”. 
GRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos 
k p sí o. 
 
os veis resultados, afirmamos que há k possíveis resultados de todo o experimentn
Exemplo 1: no jogo da moeda você tem dois resultados, cara (C) ou coroa (c), k=2. 
Se você jogar apenas uma vez, n=1, você terá 21 = 2 possíveis resultados, C ou c. Se você 
jogar duas vezes, n = 2, você terá 22 = 4 possíveis resultados, CC cc Cc cC. 
REGRA 2: Há n! (fatorial) maneiras de arranjar n objetos distinguíveis em uma seqüência. 
 
 
Exemplo 2: considere o número de maneiras de arranjar as letras A, B e C numa 
seqüência. A primeira letra pode ser qualquer uma das três, a segunda pode ser escolhida de 
duas maneiras diferentes uma vez que a primeira já foi escolhida, e a letra remanescente se 
torna a última letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6 
possíveis arranjos são: ABC ACB BAC BCA CAB e CBA. 
 Exemplo 3: suponha uma corrida de cavalos com 8 cavalos. Há 8 maneiras de 
qualqu outro. Se 
você q
er um deles chegar em primeiro lugar, tendo nas outras colocações qualquer 
uiser saber quantos arranjos são possíveis tendo, no primeiro e segundo lugar, qualquer 
um deles e, as demais colocações, de qualquer jeito, você fará (8) (7) = 56 arranjos. Se você, 
 
 
no entanto, quiser saber todos os possíveis arranjos do primeiro ao oitavo lugar você fará 8! = 
40320 arranjos. 
REGRA 3: se um grupo de n objetos é composto de k objetos idênticos de um tipo e o 
restante (n-k) são objetos idênticos de um segundo tipo, o número de arranjos distinguíveis 
dos n objetos numa seqüência, denotado por meio de 
Ou: se
k)! -(n k!
n! 
k
n
por dado é 
k
n =⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
 
 um grupo de n objetos é composto de n1 objetos idênticos do tipo 1, n2 objetos 
idênticos do tipo 2, ..., nr objetos idênticos do tipo r, o número de arranjos distintos numaseqüência será: 
nr! ... n2! n1!
n! 
ni
n
por dado é 
ni
n =⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
3 
(1) )1( )2(
(1) (2) (3) 
1! 2!
3! 
2
3 ===⎟⎟⎠
⎞
⎜⎜⎝
⎛
Exemplo 4: no exemplo 2 listamos as 6 maneiras de arranjar as letras A, B e C numa 
üên
4.2. D
seq cia. Suponha agora que as letras A e B são idênticas e chame-as de X. Assim, os 
arranjos ABC e BAC se tornam indistintos, XXC para os dois. Também ACB e BCA se 
tornam XCX. O arranjo original é reduzido para arranjos distintos, que são XXC, XCX e 
CXX. 
efinições de probabilidade: 
Primeiro vamos ver algumas definições: 
 (i) Espaço amostral - é a coleção de todos os possíveis resultados de um 
experimento. 
(ii) Ponto no espaço amostral - é um resultado possível de um experim ento. 
ostral, que consiste essencialmente de 
ento. O espaço é subdividido e 
esultado é representado por um ponto e somente 
m pon
Cada experimento tem o seu próprio espaço am
de um experimuma lista de diferentes resultados possíveis 
cada subdivisão é um ponto. Cada possível r
u to. 
Exemplo 1: se um experimento consiste em jogar duas vezes a moeda, o espaço 
amostral consiste de 4 pontos CC cc Cc cC. 
Exemplo 2: uma prova consistindo de 10 questões “falsa” ou “verdadeira” é passada 
 um aluno como um experimento. Há 210 = 1024 pontos no espaço amostral, onde cada ponto 
consiste da seqüência das possíveis respostas para as 10 questões sucessivas, tais como: 
FFFFVVFFVV. 
gora, então, é possível definir evento, em termos dos pontos do espaço amostral. 
tral. 
 caras”, estamos nos referindo a um 
CC; o evento “uma cara” consiste de dois pontos Cc e cC; o evento “pelo 
a” consiste de três pontos CC, Cc e cC. 
a
A
(iii) Evento - um evento é qualquer conjunto de pontos no espaço amos
No exemplo 1 ao falarmos do evento “duas
simples ponto 
menos uma car
 
 
Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos “pelo menos 
uma cara” e “pelo menos uma coroa” tem os pontos Cc e cC em comum. Se dois eventos não 
têm pontos em comuns eles são chamados de eventos mutuamente exclusivos porque a 
ocorrência de um evento automaticamente exclui a possibilidade de ocorrer outro evento ao 
mesmo tempo. 
Para cada ponto no rrespondente chamado de 
probabilidades podem ser 
 evento inclui a definição 
associadas com um particular espaço 
e acordo com as 
 espaço amostral há um número co
probabilidade do ponto ou probabilidade do resultado. Estas 
quaisquer números entre 0 a 1. A definição da probabilidade de um
da probabilidade de um resultado como um caso especial, desde que o evento possa ser 
considerado como que se consistisse de um resultado simples. 
Na prática, o conjunto de probabilidades 
amostral é raramente conhecido, mas as probabilidades são atribuídas d
noções pré-concebidas do pesquisador, isto é, o pesquisador formula um modelo como uma 
versão ideal do experimento. Então, o espaço amostral do modelo experimental é examinado e 
as probabilidades são atribuídas aos vários pontos do espaço amostral de alguma maneira que 
o pesquisador sinta que pode ser justificada. 
Exemplo 3: Num experimento consistindo de uma única jogada de uma moeda “não 
viciada”, é razoável assumir que o resultado cara (C) tem metade da chance de ocorrer. 
Assim, podemos atribuir a probabilidade de ½ para o resultado C e o mes
aneira: P (C) =1/2 e P (c) = 1/2 . 
mo para c. Isso pode 
ser escrito da seguinte m
Exemplo 4: Num experimento consistindo de 3 jogadas (testes), é razoável assumir 
que cada um dos 23 = 8 resultados CCC CCc CcC Ccc cCC ccC cCc ccc tem a mesma 
chance de ocorrer. Assim, a probabilidade de cada resultado é 1/8. Também P (3 caras) = 1/8, 
P (pelo menos 1 cara) = 7/8, P (pelo menos 2 caras) = 4/8 = ½. 
(iv) Função de Probabilidade: é uma função que atribui probabilidades aos vários 
eventos no espaço amostral. 
Várias propriedades dessas funções são aparentes. Considere S como espaço amostral 
e A, B
onde P (B) > 0, caso contrário, é indefinido. 
 Exemplo 5:
 ou C como qualquer evento em S. Então, se P é a função de probabilidade, P(S) = 1, 
P(A) > 0 e P(a) = 1 – P(A), onde a é o evento “o evento não ocorre”. 
(v) Probabilidade Condicional: é a probabilidade de ocorrer A dado B. 
 P (A | B) = [ P (AB) ] / [ P (B) ] 
 Considere o jogo de dados, tal que cada um dos 6 possíveis resultados 
tem a probabilidade de 1/6 de ocorrer. Como antes, deixe A ser o evento “a ocorrência de 4, 5 
ou 6” e B o evento “a ocorrência de um número par” . Então P (AB) = P (4 ou 6) = 2/6 = 1/3. 
robabilidade condicional P (A|B) é dada por 
) P (B) 
 
Também, P (B) = 3/6 = ½. Então, a p
 
3 / 2 
2/ 1
3 / 1 B) |(A P ==
 
(vi) Eventos independentes: Dois eventos A e B são independentes se 
 (1) P (AB) = P (A
 
 
Exemplo 6: Num experimento consistindo de 2 jogadas de moeda, os 4 pontos no espaço 
amostral assumem ter a mesma probabilidade. Deixe A ser o evento “uma cara ocorre na 
primeira jogad e corre segund tão A tem os 
pontos CC e C o em o os CC ) = 2/4, P (B) 
= 2/4 e P (AB) = 1/4. 
P (AB) = (2/4) (2/4) = 4/16 = 1/4 
satisfaz a condição (1 , por esta razão, A e B são independentes. 
 (vii) Experim tos Mutuamen ndepende ão mutu independentes se 
dos os conjuntos de eventos formados tiverem a seguinte equação com verdadeira: 
nde A
a” e B ser o ev
c. B tem os pont
nto “uma cara o
s CC e . AB t
 na a jogada.” En
. Ta P (A cC s pont mbém
) e
en
n
te I ntes: s amente
oto
 P ( A1, A2, ..An) = P (A1) P(A2) ...P (An) 
o i representa um resultado do i-ésimo experimento para i = 1, 2, ....n. 
 Exemplo 7: Considere um experimento com 1 jogada da moeda, onde o evento C tem 
a probabilidade p e o evento c tem a probabilidade q = 1 – p. Considere 3 repetições 
c2 C3) = P (C1) P (c2) P (C3) = pqp 
ade de obter “exatamente k caras” , então, é igual ao 
rmo 
independentes do experimento, onde o subscrito será usado para diferenciar o experimento 
com o qual o resultado está associado. Dessa maneira, C1 c2 C3 significa que o primeiro 
experimento resultou em C, o segundo em c e o terceiro em C. Por causa de nossa hipótese de 
independência, 
P (C1 
 Se considerarmos o evento “exatamente 2 caras” associado aos experimentos 
combinados, o seguinte pode ocorrer 
ementeconseqüent e maneiras 3 
2
6 
2
3 ==⎟⎟⎠
⎞
⎜⎜⎝
⎛
q3p caras) 2 exatamente ( P 2=
Obviamente o anterior pode ser descrito simplesmente como um experimento com 3 
tentativas independentes. Por extensão, podemos considerar um experimento consistindo de n 
jogadas independentes. A probabilid
te pkqn - k vezes o número de vezes que o termo pode aparecer. Por esta razão, em n 
jogadas independentes de uma moeda 
onde p = P(C) em qualquer jogada. 
 
Outras considerações: Conceito de probabilidade usando distribuições de 
freqüências relativas. 
Exemplo 8: Um diretor de e
⎠⎝
k -n k qp 
k
n
 caras)k e(exatament P ⎟⎟
⎞
⎜⎜
⎛=
scola numa pequena cidade de 40 famílias classificou 
cada família de acordo com o número de crianças (menores que 18 anos). As informações 
obtidas são sumarizadas no quadro 4.1. 
 
 
 
 
Quad
 nº de famílias % freq. relativa 
ro 4.1: Distribuição de número de crianças por família. 
 
nº de crianças
0 18 45,0 0,450 
1 8 20,0 0,200 
2 7 17,5 0,175 
3 4 10,0 0,100 
4 3 7,5 0,075 
 40 100,0 1,000 
 
 O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famílias possuem 2 crianças. 
e acordo com o número de crianças na família. Desde que “o número de crianças” varia de 
mília de variável. Quando selecionamos uma família 
 uma variável aleatóriadesde que o seu valor (um 
 Definição 1:
 Agora, suponha que uma das famílias tenha sido selecionada aleatoriamente, ou seja, 
cada família teve igual chance de ser escolhida. Qual é a probabilidade que a família 
selecionada tenha 3 crianças? A resposta é 4/40, que é a mesma frequência relativa. 
 Suponha que há N resultados possíveis num experimento. A probabilidade que um 
evento ocorra é o número de vezes, f, que o evento pode ocorrer, dividido pelo número total, 
N, de possíveis resultados. 
4.3. Variáveis aleatórias: 
 No exemplo 8 nós vimos um levantamento que classificou cada uma das 40 famílias 
d
fa para família, ela é chamada
ente o “núaleatoriam , mero de crianças” é
número real) depende de uma chance. 
 Uma variável aleatória é uma função que atribui números reais aos 
pontos num espaço amostral. 
As variáveis aleatórias são normalmente representadas pelas letras maiúsculas X, W, 
úmeros reais atribuídos pelas variáveis aleatórias serão 
represe
 Exemplo 1:
 
Y ou Z com ou sem subscritos. Os n
ntados por letras minúsculas. 
 Num experimento onde ao consumidor é dada a chance de escolher 3 
produtos, sabonete, detergente ou marca A, o espaço amostral consiste dos 3 pontos 
representando as 3 possíveis escolhas. Deixe a variável aleatória atribuir o número 1 para a 
scolha “marca A” e o número 0 (zero) para os outros 2 possíveis resultados. Então, P(X = 1) 
or escolher a marca A. 
Exemplo 2:
e
é igual a probabilidade do consumid
 Para 6 meninas e 8 meninos é perguntado se eles se comunicam mais 
facilmente com suas mães ou com seus pais. Deixe X ser o número de meninas que pensam 
que se comunicam melhor com suas mães e deixe Y ser o número total de crianças que 
pensam que se comunicam melhor com suas mães. Se X = 3, nós sabemos que ocorreu o 
evento “3 meninas pensam que se comunicam melhor com suas mães.” Se, ao mesmo tempo, 
Y = 7, nós sabemos que ocorreu o evento “3 meninas e 7 – 3 = 4 meninos pensam que se 
comunicam melhor com suas mães.” 
 Se X é uma variável aleatória, “X = x” é uma notação simplificada que usamos para 
corresponder ao mesmo evento no espaço amostral, especificamente o evento que consiste do 
conjunto de todos os pontos para os quais à variável X foi atribuído o valor “x”. 
 Exemplo 3: Num experimento consistindo de 2 jogadas de moeda, deixe X ser o 
número de caras. Então, X = 1 corresponde ao evento contendo os pontos Cc e cC. 
 
 
 Dessa maneira, “X = x” é, às vezes, referida como o “evento X = x,” quando, na 
realidade, pretendeu-se dizer “o evento consistindo de todos os resultados atribuídos o número 
x pela variável aleatória X.” 
 Por causa desta estreita correspondência entre variáveis aleatórias e eventos, as 
definições de probabilidade condicional e independência se aplicam igualmente bem às 
variáveis aleatórias. 
 Definição 2: A probabilidade condicional de X dado Y, P (X = x | Y = y), é a 
probabilidade que a variável aleatória X assume o valor x, dado que a variável aleatória Y já 
assumiu o valor y. 
0 y) P(Y se 
y)P(Y
y) Y x, (X P y) Y | x P(X (1) >==
=====
 Exemplo 4: Deixe X ser o número de meninas que se comunicam bem com suas 
mães, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y ser o número total de 
crianças que se comunicam bem com suas mães. Por conveniência, deixe Z=Y-X, tal que Z é 
igual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mães. Assuma que 
as respostas dadas pelas crianças são independentes de cada outra e que cada criança tem a 
mesma probabilidade p (desconhecida) de dizer que se comunica bem com a sua mãe. 
Encontre a probabilidade condicional P ( X=3 | Y=7). 
 Primeiro, pelas suposições anteriores, X=3 e Z=4 são eventos independentes. Desde 
que o evento (X=3, Y=7) é o mesmo que o evento (X=3, Z=4), temos a probabilidade 
 P(X=3, Y=7) = P(X=3, Z=4) 
 = P(X=3) P(Z=4) 
 
or c
 
4433 p) - (1p 
4
 p) - (1p 
3
 (2) ⎟⎟⎠⎜
⎜
⎝⎟
⎟
⎠⎜
⎜
⎝=
86 ⎞⎛⎞⎛
p ausa do exemplo 7 do item 4.2. 
Pelo mesmo exemplo, concluímos que 
 
tal que a probabilidade condicional 
 
77 p) - (1p 
7 
14
 7) P(Y (3) ⎟⎟⎠
⎞
⎜⎜⎝
⎛==
 
 
 
 
v
Como os pontos no espaço amostral são mutuamente exclusivos, os valores que uma 
ariável aleatória pode assumir são também mutuamente exclusivos. Para um simples 
junto de valores que uma variável aleatória pode assumir tem as mesmas 
res individuais assumidos pela variável aleatória 
tral, um conjunto de valores corresponde a um 
evento e a probabilidade da variável aleatória assumir qualquer valor dentro de um conjunto 
de valores é igual a soma das probabilidades associadas com todos os valores dentro do 
conjunto. Por exemplo: 
eros a e b, 
onde o som x que são pares. Por causa dessa similaridade 
entre o conjunto de valores possíveis de X e um espaço amostral, a descrição do conjunto de 
es associadas com os vários valores que X pode assumir, é freqüentemente 
hamado de função de probabilidade da variável aleatória X, assim como um espaço amostral 
a variável 
 espaço amostral, as 
robab res de X são conhecidas e a função de 
resultado de um experimento, a variável aleatória é definida por apenas um número. Assim, 
todo o con
propriedades do espaço amostral. Os valo
correspondem aos pontos no espaço amos
 
onde o somatório se estende a todos os valores de x entre, não incluindo os núm
 
atório se aplica a todos os valores de 
probabilidad
c
tem uma função de probabilidade. Entretanto, a função de probabilidade de um
aleatória não é uma atribuição arbitrária de probabilidades, como é a função de probabilidade 
para um espaço amostral. Isto porque uma vez que as probabilidades são atribuídas aos pontos 
num espaço amostral e uma vez que a variável aleatória X é definida no
p ilidades associadas com os vários valo
probabilidade de X é, dessa maneira, já determinada. 
 Definição 3: A função de probabilidade da variável aleatória X, usualmente 
u
representada por f(x) ou de outra maneira qualquer, é a função que dá a probabilidade de X 
assumir o valor x, para qualquer número real x, ou seja, 
x) P(X f(x) (5)
 Vimos até aqui que a distribuição de probabilidades associadas com uma variável 
aleatória pode ser descrita por uma função de probabilidade. Uma outra maneira de dizer a 
esma coisa é através de uma função de distribuição que descreve as probabilidades m
acum ladas. 
==
0.408 
14!
4)! - (8 4!
 
3)! - (6 3!
 =⎞⎛
⎟⎟⎠⎜
⎜
⎝⎟
⎟
⎠⎜
⎜
⎝=
7)! - (14 7!
 
7 
14
 7) 
⎟⎟⎠⎜
⎜
⎝
⎟⎟⎠
⎞
⎜⎜⎝
⎛
4
8
 
3
6
Y | 3 P(X )4(
⎟⎟⎠
⎞
⎜⎜⎝
⎛
==
⎟⎟⎠
⎞
⎜⎜⎝
⎛
=
8!6! ⎞⎛⎞⎛
 x) P(X b) X (a P
bxa
∑ ==<<
<<
∑ ===
parx 
 x) (X P par) número (X P
 
 
 Definição 4: A função de distribuição de uma variável aleatória, usualmente 
representada por F(x), é a função que dá a probabilidade de X ser menor ou igual a qualquer 
número real x, ou seja, 
onde o somatório se estende a todos os valores de t que não forem superiores a x. 
 Definição 5: Deixe X ser uma variável aleatória. A distribuição binominal é a 
distribuição de probabilidade representada pela função de probabilidade 
 
 
A função de distribuição será então 
 
onde: n é número inteiro positivo, 0 ≤ p ≤ 1 e q = 1 – p. Note que usaremos a convenção usual
que 0! = 1. 
 
 
onde o somatório se estende a todos os possíveis valores de i menor ou igual a x. Há tabelas 
prontas para alguns valores selecionados dos parâmetros n e p. 
 Exemplo 5: Um experimento com n testes independentes, onde cada teste pode 
e P e q, 
spect tão, comoostra e
 
para x neira, o experimento tem a distribuição binominal. 
 
resultar em um dos dois resultados “sucesso” ou “insucesso,” com probabilidad
ivamente. Deixe X ser igual ao número total de “sucessos” nos n testes. Enre
m do na quação (7), 
∑
≤xt
n .., 0,1, x para qp 
x
n
 x)P(X f(x) )7( x-nx =⎟⎟⎠
⎞
⎜⎜⎝
⎛===
i-ni
xi
qp 
i
n
 x) P(X F(x) )8( ∑
≤ ⎟
⎟
⎠
⎞
⎜⎜⎝
⎛=≤=
x ⎠⎝
=≤= f(t) x) (X P F(x) )6(
x-nxqp 
n
 x) (X P ⎟⎟
⎞
⎜⎜
⎛==
 inteiro de 0 a n. Desta ma
Definição 6: Deixe X ser uma variável aleatória. A distribuição discreta uniforme é a 
distribuição de probabilidade representada pela função de probabilidade. 
 (9) f(x) = 1/N para x = 1,2, ... , N 
 esta maneira, X pode assumir qualquer valor inteiro de 1 a N com igual 
plo 6:
D
probabilidade, se X tem a função de probabilidade discreta uniforme. 
 Exem Há em um saco N papeletas numeradas de 1 a N. O experimento consiste 
apeletas que podem ser tiradas. Deixe X ser igual 
o número da papeleta tirada. Então X tem a distribuição uniforme discreta. 
de tirar uma papeleta do saco, onde cada papeleta tem a mesma chance de ser tirada. O espaço 
amostral tem N pontos, representando as N p
a
 Definição 7: A função de probabilidade conjunta f (x1, x2, .. xn ) das variáveis 
 de X1 = x1, X2 = x2, ... , Xn = xn. 
 
(10) f(x1, x2, .. xn ) = P (X1 = x1, X2 = x2, ... , Xn = xn ) 
aleatórias x , x , .. x é a probabilidade da ocorrência conjunta1 2 n 
 
 
 
Definição 8: A função de distribuição conjunta F(x1, x2, .. xn ) das variáveis 
aleatórias x1, x2, .. xn é a probabilidade da ocorrência junta de X1 ≤ x1, X2 ≤ x2, ... , Xn ≤ xn . 
 
 xn ) 
 
Exemplo 7:
 (11) F(x1, x2, .. xn ) = P (X1 ≤ x1, X2 ≤ x2, ... , Xn ≤
 Considere as variáveis aleatórias X e Y como definidas no exemplo 2. 
onde 
 
 onde o somatório na equação (13) se estende a todos os valores de x e y tal que x ≤ 3 e y ≤ 
 ser avaliadas sem conhecer o valor de p. 
Considere f(x,y) e F(x,y) como as funções de probabilidade conjunta e de distribuição, 
respectivamente. 
77 p) - (1p 
4
8
 
3
6
 7) Y 3, (X P 7) f(3, )12( ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛====
 
e 
e
7, com a usual restrição de que x e y – x são inteiros não negativos. Note que as equações (12) 
e (13) não podem
 Definição 9: A função de probabilidade condicional de X dado Y, f(x | y) é 
 
(14) f(x | y) = P(X = x | Y = y) 
 
Da equação 1 vemos que 
ta de X e Y e f(y) é a função de probabilidade 
de Y e
 
∑
≤≤ ≤≤
=≤≤=
7yx
3x0
y) f(x, 7) Y 3, (X P 7) F(3, )13(
 x)-(y - 8x-y x- 6x p) - (1p 
 x-y 
8 
 p) - (1p 
x
6
 y) f(x, ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
 
onde f(x, y) é a função de probabilidade conjun
m si. 
 Exemplo 8: Como uma continuação do exemplo 7, considere f(x | y) como a função 
de probabilidade condicional de X dado Y. 
 
F(3 | 7) = P(X = 3 | Y = 7) = 0.408 da equação (4) 
f(y)
y) f(x, = 
y)
y) Y x, P(X y) Y | x P(X y) |f(x )15( ======
P(Y =
 
 
 Para encontrar a fórmula geral para f(x | y) (isto é, para qualquer valor de x e y), 
rimeiro deixe f(x, y) ser a função de probabilidade conjunta de X e Y. Isto é dado no 
xemplo 7 como 
 
que originalmente era uma forma geral da equação (2). Também, deixe f(y) ser a função de 
probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira 
 
Pela definição 9 podemos agora escrever a função de probabilidade condicional de X dado Y 
 y 
ente 
 Definição 10:
p
e
 
 x)-(y - 8x-y x- 6x p) - (1p 
 x-y 
8 
 p) - (1p 
x
6
 y) f(x, ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
y- 14y p) - (1p 
y
14
 y) P(Y f(y) ⎟⎟⎠
⎞
⎜⎜⎝
⎛===
=
 
onde todos os termos que envolvem o parâme
cancelados. 
tro desconhecido p foram convenientem
 Considere X1, X2, ... , Xn como variáveis aleatórias com as respectivas 
funções de probabilidade f1 (x1), f2 (x2), ... , fn (xn) e com a função de probabilidade conjunta f 
(x1, x2, ... , xn ). Então X1, X2, ... , Xn são mutuamente independentes 
 
 (17) se: f(x1, x2, ... , xn ) = f1 (x1) f2 (x2) ... fn (xn) 
 
para todas as combinações dos valores de x1, x2, ... , xn. 
 
 Exemplo 9: Considere o experimento descrito no exemplo 8. Então, a função de 
probabilidade de X é dada por 
 
e a função de probabilidade de Y é dada por 
 
∫ ≤≤ ≤≤
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
==
8 x -y 0
6 x 0
 para 
y
14
 x-y 
8 
 
x
6
 
f(y)
y) f(x, y)f(x )16(
y - 14y
2 p) - (1p y
14
 y) (Y P (y)f (19) ⎟⎟⎠
⎞
⎜⎜⎝
⎛===
 x- 6x
1 ) p - (1p x
6
 x) (X P (x) f (18) ⎟⎟⎠
⎞
⎜⎜⎝
⎛===
Desde que: 
 
 
 f(x, y) = P(X = x, Y = y) = y) 
 
 
 
 
vemo
 
 
 
e, por esta razão, X e Y não são independentes. 
 P(X = x | Y = y) P(y =
O uso das equações (16) e (19) resulta na função de probabilidade conjunta de X e Y, 
sendo dada por 
desde que: 
s que: 
f(x, y) é diferente de f1(x) f2(y) 
y - 14y p) - (1p 
 x-y 
8 
 
x
6
 ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
⎠⎝
y x - 20y x 
21 p) - (1p y
14
 
x
6
 (y)f (x)f ++⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
y - 14y p) - (1p 
y
14
 
y
14
 x-y 
8 
 
x
6
 y) f(x, ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟
⎞
⎜⎜
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
=
 
 
CAPÍTULO 5 
DISTRIBUIÇÃO NORMAL 
Uma função de distribuição mostra, para uma população, a freqüência relativa 
(números reais) de uma variável aleatória 
urais que são 
con r) ou distribuição com a forma 
de s
(probabilidade) com que diferentes valores 
ocorrem. Em geral, cada população tende a ter a sua própria distribuição. No entanto, a 
distribuição normal é a mais popular de todas por causa de sua grande aplicabilidade na 
aproximação do comportamento de um grande número de variáveis aleatórias nat
tínuas. Ela é conhecida como distribuição de Gauss (difuso
ino – V. Figura 5.1. abaixo. 
Função: 
( ) ( )( )σµπσσµ
2
5.0
2
1,;
−−=
x
exn 
 
Para: +∞<<∞− x 
 
µ
σ
-3 -2 -1 1 2 3
z
68,27%
95,45%
99,73%
- ∞ + ∞
 
Figura 5.1: Curva normal pad
 
rão 
Propriedades: 
 
 
9 A curva normal padrão (CNP) tem µ = 0 e σ = 1 
9 A CNP é simétrica em torno de zero 
ibuição normal. Se você usar os testes desenvolvidos com base na distribuição normal, 
sem atender a condicionante da normalidade, o teste perde a robustez e a consistência e os 
9 Área sob a CNP é igual a 1 
9 A CNP se estende indefinidamente em ambas direções 
9 A maior parte (99,73%) da CNP fica entre -3 σ e +3 σ 
 
Toda a estatística paramétrica foi desenvolvida com base nos pressupostos da 
distr
 
 
seus re o
da normalidade. 
ativa da média 
verdadeira da população, µ. Por exemplo, podemos estar interessados em saber: 
ter a idade m a tarefa muito fácil. Não há necessidade de fazer 
r por 18. Entretanto, em nossa área de 
 “muito grandes” com tendência ao 
infinito
sultad s podem perder toda a confiabilidade. Entretanto, nem sempre as variáveis 
aleatórias distribuem-se na forma perfeita de um sino (µ = 0 e σ = 1). Há várias maneiras 
de superar este tipo de obstáculo, como aumentar o número de amostras e fazer 
transformações. Só não pode ignorar o detalhe 
5.1. Estimando a média da população: 
 Na estatística de inferência tudo gira em torno da obtenção da estim
9 o volume médio, µ, de uma determinada área florestal9 a idade média, µ, dos estudantes da turma-2006 do CFT 
Se a população é pequena, µ é calculada sem problemas; no caso de populações 
maiores, a média tem que ser estimada usando amostragem de parte da população. No caso do 
CFT, 18 estudantes, ob édia é um
amostragem, basta somar a idade de cada um e dividi
conhecimento, a gente só trabalha com populações
. Neste caso, fica muito difícil e caro, senão impossível, obter a média verdadeira da 
população, µ. Levando em conta os princípios e as condicionantes da amostragem, é possível 
obter informação suficientemente precisa (e confiável) sobre µ tomando apenas parte da 
população para estimar a média amostral x
_
. 
Exemplo 1: queremos saber a idade média dos estudantes da pós-graduação do INPA, 
que tem uma população igual a 200. Para isso, selecionamos, aleatoriamente, 10 estudantes e 
anotamos a idade de cada um. Portanto, temos uma amostragem de 10 estudantes de uma 
população de 200 - hipoteticamente. 
Quadro 5.1. idades de 10 estudantes de pós-graduação do INPA 
 
estudante 1 2 3 4 5 6 7 8 9 10 
idade 23 25 26 28 26 24 25 27 30 26 
 
A idade média (amostral) será: 
x
_
 = ( ∑ xi ) / n 
para: n = 10 e i = 1, 2, ... n 
x
_
 = 26 anos 
Se você utilizou uma amostra representativa da população, você estará afirmando que 
a média s, µ, deve ser em torno de 26 anos. verdadeira da população dos 200 estudante
Diante disso, surgem algumas questões: 
(i) Qual é a justificativa para utilizar a média amostral x
_
para estimar a média da 
população µ ? 
(ii) Qual é a confiança sobre a precisão envolvida ao usar x
_
para estimar µ ? No 
exempl , ual é a probabilidade da idade o 1 se uma amostragem com 10 estudantes é utilizada, q
 
 
x
_
média a ostral, m , estar dentro de um intervalo (vamos dizer, 1 ano) da média da população, 
µ ? 
) amostragem para assegurar uma certa 
precisã o
(iii Qual é a necessária intensidade de
o c m grande confiança? No exemplo 1, quão grande deveria ser uma amostragem 
(10? 20 estudantes?) para assegurar que 95% de todos os possíveis x
_
 caíssem dentro de um 
interva
er todas estas questões nesta apostila. A primeira será respondida, 
parcialm
lo de 1 ano da média da população, µ ? 
Vamos respond
ente, neste capítulo e completada no capítulo 6. As outras duas (ii e iii) serão 
respondidas nos capítulos 6 e 7, respectivamente. 
Ao amostrar uma população, a média amostral, x
_
, é uma variável aleatória. No 
capítulo média da população. 
A ince ce sobre qual a amostra foi selecionada. 
Apesar disso, a incerteza dim
sentenç
 6, vamos ver, em detalhes, como este valor é “parecido” com a
rteza da estimativa depende de uma chan a 
inui com o aumento da intensidade de amostragem. Isto é uma 
a de um teorema matemático chamado “a lei dos grandes números” e é a nossa 
justificativa para usar x
_
para estimar µ. 
5.2. Curva normal padrão (CNP) ou curva-z: 
A “lei dos grandes números” é a nossa justificativa matemática para usar x
_
para 
sma forma, ela não é particularmente útil para 
isão de tais estimativas. Esta lei, por exemplo, 
estimar µ ...justifica, mas não explica. Da me
responder questões práticas envolvendo a prec
não informa sobre a probabilidade de x
_
estar dentro do intervalo de 1 ano de µ. As 
probabilidades para x
_
podem ser obtidas “aproximadamente” usando áreas sob certas curvas 
 forma de “sino”. 
H
em
á várias curvas normais, que variam de acordo com a média e desvio padrão, µ e σ. 
a, usar a CNP para obtenção 
em todas as probabilidades (áreas sob a CNP) calculadas com precisão de dois 
No entanto, a curva que norteia todas as outras curvas, é a curva normal padrão (Figura 5.1). 
Tanto a forma como as propriedades da CNP podem ser vistas nesta figura. Só existe uma 
única curva normal padrão, com µ = 0 e σ = 1. Quando você tem pela frente situações com 
médias e desvios diferentes de 0 e 1, respectivamente ... não entre em pânico! Tudo que tem 
que ser feito é “padronizar” a sua variável aleatória e, em seguid
das probabilidades (ou áreas). 
A curva apresentada na Figura 5.1. foi desenhada depois de integrar a função de 
distribuição, de z = 0 a z = 3,9 para a primeira metade da curva à direita de 0. Como a parte da 
curva à esquerda de 0 é espelho da parte à direita, as probabilidades da esquerda foram 
calculadas de z = -3,9 a z = 0. Portanto, o trabalho braçal já está feito. A Tabela 1 (anexo da 
apostila) t
dígitos. 
Vamos ver como funciona a Tabela 1 (anexo da apostila) usando alguns exemplos. As 
figuras que ilustram o uso da Tabela 1 estão no anexo deste capítulo. 
Exemplo 2: Achar a área sob a curva normal padrão (CNP) à esquerda de z = -0,97. 
9 A solução gráfica está na Figura 5.2-a. 
9 Você vai direto à tabela 1 e procure z = -0,9 (sentido vertical), depois o centésimo 
(7) (sentido horizontal) e no encontro dos dois números (0,97), você tem a área (que é a 
probabilidade) sob a CNP. 
 
 
9 Neste caso, a área é igual a 0,1660. Isto quer dizer que 16,6% da área está à 
esquerd
P é igual a 1. 
a de z = -0,97 ou que 83,4% está à direita de z = -0,97. 
9 Não esquecer que a área total sob a CN
 
Exemplo 3: Achar a área sob a CNP à direita de z = 2,5. 
9 Veja a solução gráfica na Figura 5.2-b. 
9 De novo, você vai à tabela 1 e procure z = 2,5, depois o centésimo 0 e no encontro 
dos dois números (2,50), você tem a área (que é a probabilidade) sob a CNP. 
9 Neste caso, você está calculando a área sob a CNP de - ∞ até 2,5, que dá 0,9938 ... 
à esque
ubtrair de 1 (área 
total da á 1 – 
0,9938 eita da CNP. 
rda de z = 2,5. 
9 Como você quer saber a área à direita de z = 2,5, você tem que s
 CNP) e aí sim você terá a área à direita de z = 2,5. Assim, a área à direita ser
 = 0,0062, ou seja, 0,62% da área está à dir
Exemplo 4: Achar a área sob a CNP entre z = -1,04 e z = 2,06. 
9 Veja a solução gráfica na Figura 5.2-c. 
9 Neste caso, são necessários os seguintes passos: (1) achar a área à esquerda de z = 
-1,04, que é igual a 0,1492; (2) achar a área à direita de z = 2,06, que é igual a 0,9803; (3) 
calcular a área entre z = -1,04 e z = 2,06, que é dada pela diferença (0,9803 – 0,1492), que é 
igual a 0,8311. 
 
5.3. Á
 ntrar as áreas sob a curva normal padrão 
(CNP). riações da média µ e 
do desvio padrão ostral 
9 Portanto, a resposta é: a área sob a CNP entre z = -1,04 e z = 2,06 é 0,8311, ou seja, 
83,11% da área da CNP está entre os dois pontos de “z”. 
reas sob outras curvas normais: 
Na seção anterior mostramos como enco
 No entanto, há várias curvas normais, que variam de acordo as va
σ. Para calcular as probabilidades (áreas sob a CNP) para a média am
x
_
(o princip
são usualmente representados por média µ e desvio padrão σ. O parâmetro µ 
nos diz
 No entanto, no mundo real esta condição de µ = 0 e σ = 1 é praticamente impossível 
Igual à CNP, a 
ou 
assimétrica. A assimétrica pode ser negativa (maior freqüência dos dados tendendo à direita 
al objetivo), precisamos ser capazes de encontrar as áreas sob qualquer curva 
normal. 
 Cada curva normal pode ser identificada por 2 números chamados parâmetros. Estes 
dois parâmetros 
 onde a curva está centrada e σ indica a dispersão da curva normal. Como vimos na 
Figura 5.1, quando µ = 0 e σ = 1, temos a curva normal padrão. 
de ser verificada. Os parâmetros µ e σ variam entre populações diferentes. 
curva normal (ou curvas normais) é centrada na µ e quanto maior for σ, mais dispersa 
(achatada ou esparramada) será a curva. A curva normal tem as mesmas propriedades da 
CNP. A única diferença é que o eixo horizontal da CNP é z e das outras curvas normais, o 
eixo é x. 
 As curvas normais podem assumir diferentes formas. As figuras 5.3-a, 5.3-b e 5.3-c 
ilustram as diferentes formas, as quais podem ser