Prévia do material em texto
INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA
COORDENAÇÃO DE PESQUISAS EM SILVICULTURA TROPICAL
LABORATÓRIO DE MANEJO FLORESTAL - LMF
BIOMETRIA
FLORESTAL
Niro Higuchi
Joaquim dos Santos
Adriano José Nogueira Lima
Manaus – AM
Março, 2008
PARTE 1
Capítulo 1
Introdução - Conceitos gerais
A estatística é uma ferramenta importante para o manejo florestal, seja pra quem está
interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar,
executar e acompanhar um projeto. Difícil é separar a estatística pra essas duas frentes. O
objetivo desta Parte da apostila é aprofundar em conceitos dos indicadores estatísticos mais
freqüentemente utilizados pelos florestais e ajudar na interpretação dos resultados.
Estatística é um ramo do conhecimento científico que consta de conjunto de processos
que têm por objeto a observação, a classificação formal e a análise dos fenômenos coletivos
ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferências
indutivas válidas a partir dos dados observados e buscar métodos capazes de permitir esta
inferência (finalidade indutiva). Durante uma defesa de tese no CENA-USP, surgiu um novo
conceito para estatística que, segundo Edgard, é "a arte de torturar os números até que eles
confessem aquilo que você quer ouvir."
Em inventário florestal, produto sem estatística não é produto. Em inventários, o
principal produto é o intervalo de confiança para a média estimada. Na pesquisa científica, a
estatística pode ser vista como um instrumento de comunicação e, embora o seu uso seja
absolutamente opcional, ela fornece os modelos que são necessários para estudar as situações
que envolvem incertezas, mas a palavra final é sua.
O exercício, a análise e a interpretação do pensamento científico normalmente são
feitos por meio da linguagem operacional dos conceitos e hipóteses científicas. Isso implica
na formulação de hipóteses estatísticas e estabelecimento dos procedimentos de observações
diretas ou de medições.
Linguagem teórica: “quanto mais grossa é a árvore, mais madeira será oferecida à
indústria de transformação.” Neste caso, dois conceitos são envolvidos: espessura e madeira.
Com definir esses dois conceitos? Espessura pode ser o diâmetro de uma árvore. Madeira
pode ser a quantidade de material lenhoso disponível para a indústria.
E daí? Que fazemos agora? Temos que operacionalizar as observações e medições de
espessura e madeira. Espessura pode ser traduzida operacionalmente, por exemplo, em
centímetros de diâmetro à altura do peito (DAP), medido a 1,3 m do solo. E a madeira, por
sua vez, pode ser traduzida como volume cúbico da árvore.
Agora, a hipótese científica pode ser enunciada, em termos de hipótese estatística, da
seguinte maneira: “Quanto maior o DAP, maior será o volume da árvore.” Dessa forma, o
“pica-pau” fica mais à vontade.
Depois de formulada a hipótese, o passo seguinte consiste em testá-la. Para se testar as
hipóteses serão precisos: planejar a coleta de dados, coletar os dados, tratar os dados,
processar os dados, analisar os resultados e, finalmente, tomar decisões para rejeitar ou não a
hipótese estatística formulada (Ver figura 1.1).
O papel da estatística na pesquisa científica é ajudar o pesquisador “pica-pau” a
formular as hipóteses e a fixar as regras de decisão.
Um pouco de filosofia.
- Aristóteles escreveu: “A verdade é um alvo tão grande que dificilmente alguém
deixará de tocá-lo, mas, ao mesmo tempo, ninguém será capaz de acertá-lo em cheio, num só
tiro.”
- A meta da ciência é a organização sistemática do conhecimento sobre o universo,
baseado nos princípios explanatórios que são genuinamente testáveis.
- O pesquisador tem os dons da instituição e criatividade para saber que o problema é
importante e quais questões devem ser levantadas; a estatística, por sua vez, o assistirá por
meio da maximização de output não ambíguos enquanto minimiza os inputs.
- O pesquisador tem que ter em mente que a pesquisa freqüentemente levanta mais
questões do que respostas. Os resultados quase sempre são meramente uma demonstração de
nossa ignorância e uma declaração mais clara do que não sabemos.
- O pesquisador tem que manter os olhos abertos, sua mente flexível e estar preparado
para surpresas.
- A pesquisa está na cabeça do pesquisador; o laboratório ou o campo meramente
confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as
questões certas para fazer e não nas certas respostas.
- A aplicação indiscriminada dos métodos quantitativos sobre inesgotáveis
quantidades de dados não significa que o entendimento científico vai emergir só por causa
disso.
1.1. A Natureza da Estatística:
Basicamente, são dois tipos de estatística: descritiva e de inferência.
A ciência da estatística inclui ambas, descritiva e de inferência. A estatística descritiva
apareceu primeiro, nos censos feitos na época do império romano. A de Inferência é mais
recente e é baseada na teoria da probabilidade que, por sua vez, não se estabeleceu antes da
metade do século XVII.
a) Estatística descritiva => consiste de métodos para organizar e sumarizar as
informações.
O propósito da organização e sumarização é te ajudar na interpretação de um monte de
informações. Os métodos descritivos incluem a construção de gráficos, figuras e tabelas,
como também, o cálculo de vários tipos de médias e índices. Exemplos: resultado final de
uma eleição apresentado pelo Tribunal Superior Eleitoral (TSE) – Quadro 1.1, desmatamento
na Amazônia – Figura 1.2., áreas desmatadas com autorização e sem autorização – Figura 1.3
e as origens da madeira amazônica – Figura 1.4.
b) Estatística de inferência => consiste de métodos para inferir sobre uma população
baseada na informação de uma amostra da população.
A estatística de inferência moderna praticamente surgiu após as publicações científicas
de Karl Pearson e Ronald Fisher, no início do século passado (XX). Depois disso, houve uma
evolução fantástica dessa ciência, tornando-se aplicável a várias áreas de conhecimento, tais
como: Eng. Florestal, Agronomia, Biologia, História, Física, Química, Psicologia etc.
Exemplo 1: Pesquisas de opinião realizadas pelas empresas (DATAFOLHA, IBOPE,
VOX POPULI etc), pouco antes de eleições. A Figura 1.5 mostra a dinâmica de opinião de
eleitores brasileiros na eleição para presidente de 2002 com base em pesquisas de opinião
realizadas pelo IBOPE. O resultado do 1º turno é apresentado na última coluna como TSE,
tirado do Quadro 1.1. Os resultados do IBOPE, do último dia de pesquisa (com margem de
erro igual a 1,8%), são praticamente iguais aos oficiais do TSE. A informação do TSE é sobre
votos válidos enquanto que os da pesquisa de opinião são de intenção de votos. Na pesquisa
de opinião do 1º turno é difícil identificar o voto “nulo”.
Exemplo 2: Pesquisas de opinião sobre o 2º turno da eleição presidencial 2002,
realizadas pelo Datafolha. Neste caso, foi possível estimar os percentuais sobre os votos
válidos. No último dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos válidos
para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinâmica de opinião de eleitores para
o2º turno da eleição de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7%
para o Serra – Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos),
as estimativas do último dia seriam 62% (para menos) para o Lula e 38% (para mais) para o
Serra.
Esta parte da estatística de inferência evoluiu muito no Brasil. A provadisso são os
resultados finais do primeiro e do segundo turno da eleição presidencial de 2002 que tem
muito a ver com as previsões feitas pelas pesquisas de opinião dos vários institutos. O sucesso
tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta de
dados e processamento & análise dos resultados A evolução da informática também
contribuiu muito para o sucesso das pesquisas; o rápido processamento e, conseqüente,
análise dos resultados, permitiu a repetição em intervalos de tempo menores – isso é
fundamental para a validação dos métodos utilizados que, por sua vez, dá a robustez
necessária para a pesquisa e a sociedade ganha com a maior precisão e confiabilidade das
pesquisas de opinião.
Exemplo 3: Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com
base no intervalo de confiança (95%) da série histórica de 1978 a 2005 – Figura 1.7. Apesar
da confusão das estatísticas e de sua interpretação, com boa vontade e profissionalismo, as
causas do desmatamento poderiam ser identificadas. O desafio é entender a direção que o
desmatamento pode tomar no futuro. Sem entender as causas, a direção só pode ser
estocástica. A Figura 1.7 ilustra o uso do intervalo de confiança – IC (nível de probabilidade
de 95%) para a média do período 1978-2005. De acordo com dinâmica do desmatamento até
2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) são: 29%
de ficar acima da estimativa máxima provável (maior do que 20.983 km2), 29% abaixo da
estimativa mínima provável (menor do que 16.296 km2) e 42 % de ficar dentro do intervalo de
confiança (entre 16.296 a 20.983 km2) – com 95% de chance de acertar.
Exemplo 4: Todos os trabalhos de equações de volume que utilizam os modelos
destrutivos (na maioria das vezes) para ajustar os dados de volume real observado em
modelos matemáticos que serão utilizados, posteriormente, para estimar o volume da árvore
em pé.
Para concluir a discussão, em torno da natureza da estatística, é importante não perder
de vista que a opção por uma das duas estatísticas pode ser pessoal. Entretanto, se a escolha
recair sobre a de inferência, o pesquisador deve se sujeitar as suas regras e condicionantes. A
estatística de inferência, por sua vez, deve ficar sob as condicionantes da teoria da
probabilidade, da normalidade e da independência; a violação de uma dessas condicionantes
implica em um comprometimento muito sério de todo o seu trabalho.
1.2. Conceitos Básicos:
Talvez, os conceitos mais importantes para os florestais são erros amostrais e não
amostrais. Se você conseguir distinguir esses dois conceitos, você sempre fará um trabalho
confiável e, por conseguinte, a estatística será uma ferramenta útil na execução de seus
trabalhos de pesquisa, encurtando caminhos para a produção de ciência e de resultados de
inventário florestal.
(i) Erro Amostral => é o erro que você comete por não medir toda a população. Este
parâmetro é mensurável e, dependendo da escolha dos métodos, você tem condições de
aumentar ou diminuir este erro. De qualquer modo, trata-se de um parâmetro que pode ser
controlado e avaliado por você. É o desvio padrão da média ou, simplesmente, erro padrão e
tem fórmula para o seu cálculo. É a única medida de precisão, por mais paradoxal que possa
parecer, em qualquer trabalho de pesquisa ou de inventário florestal.
(ii) Erro não-amostral => é o erro humano, que pode ser cometido acidental ou
deliberadamente. É o tipo de erro que você comete ao alocar uma amostra no lugar errado –
ex.: no escritório você faz a opção pela amostragem inteiramente aleatória e sorteia as
unidades amostrais e distribui em sua área estudo; no campo, entretanto, você não consegue
alocá-las de acordo com as coordenadas pré-estabelecidas e alocá-as em outro lugar. Você
também comete erro não-amostral quando utiliza um equipamento defeituoso ou, por
preguiça, você “chuta” as medidas de uma determinada variável. O problema desse erro é que
você não consegue dimensioná-lo e, neste caso, não há estatística que dê jeito para consertar o
mal-feito. A estatística e o computador só são úteis na interpretação de fenômenos observados
quando os dados são de absoluta confiança e sem erros não-amostrais.
Moral: Busque sempre a melhor metodologia para conseguir a maior precisão de seu
trabalho sem, contudo, aumentar a possibilidade de cometer erros não-amostrais. BOM
PESQUISADOR é aquele que não entrega sua coleta de dados para qualquer “PEÃO”.
(iii) Populações, Parâmetros e Estimativas
A noção central em qualquer problema de amostragem é a existência de uma
população. Pense em uma população como um agregado de valores unitários, onde a
“unidade” é a coisa sobre a qual a observação é feita e o “valor” é a propriedade observada
sobre aquela coisa. População é então o conjunto de todos os indivíduos ou itens sob
consideração. Ou ainda: população é o universo de seu interesse.
Ilustrando:
- se você está interessado em estudar o potencial quantitativo da floresta da Reserva
Ducke, a POPULAÇÃO é o conjunto de todas as árvores acima de um determinado DAP,
existentes naquela área de 10.000 hectares.
- se para você potencial quantitativo significa volume cúbico obtido de equações
simples (DAP como variável independente), o volume médio (por hectare, por ex.) de todas as
árvores da Reserva Ducke é o PARÂMETRO.
- se você, no entanto, decidir pela avaliação por amostragem e lançar naquela área
algumas amostras (ex.: 10 amostras de 1000 m2, aleatoriamente distribuídas), o volume médio
dessas amostras é a ESTIMATIVA.
AMOSTRA é aquela parte da população da qual a informação é coletada.
(iv) Tendência (bias), Exatidão e Precisão
TENDÊNCIA ou VIÉS (bias, em inglês) é uma distorção sistemática. Ela pode ser
devido a alguma falha na medição, ou no método de selecionar a amostra, ou na técnica de
estimar o parâmetro.
Se você medir o DAP com uma fita diamétrica faltando um pedaço na ponta (2 cm),
você medirá todas as árvores com 2 cm a mais, ou seja, você superestimará esta variável. Uma
maneira prática de minimizar as tendências em medições é por meio de checagens periódicas
dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidado
com eles.
Tendência devido o método de amostragem ocorre quando certas unidades ganham
maior ou menor representação na amostra do que na população. Ex.: se você excluir 20
metros de bordadura do lado oeste da Reserva Ducke por causa de um igarapé. Neste caso,
você está introduzindo tendência em sua avaliação simplesmente porque você não deu a
mesma oportunidade, para as árvores que ocorrem naquela faixa, em aparecer no seu trabalho.
Outro exemplo: quando a equipe econômica faz uma pesquisa nos supermercados do centro-
sul e extrapola o custo de vida para todo o Brasil; isso é uma medida tendenciosa que não
reflete o que se passa em Manaus.
Tendência na forma de estimar determinado parâmetro pode ser introduzida quando
você, por exemplo, toma o volume médio da Reserva Ducke e junta com o volume médio do
Distrito Agropecuário da SUFRAMA (600.000 hectares), para avaliar o potencial madeireiro
da região de Manaus. Um volume médio não tendencioso seria uma média ponderada
considerando os diferentes tamanhos de cada área, em vez de usar a média aritmética simples
(tendenciosa, neste caso).
Importante: A tendência é a mãe do erro não-amostral, por esta razão, evitá-la é sinal
de prudência e sensatez.
PRECISÃO E EXATIDÃO – uma estimativa tendenciosa pode ser PRECISA, mas
nunca EXATA. Ainda que o Aurélio (dicionário) pense diferente, para os estatísticos,
EXATIDÃO refere-se ao sucesso em estimar o valor verdadeiro de uma quantidade;
PRECISÃO refere-se à distribuição dos valores amostrais em torno de sua própria média que,
se for tendenciosa,não pode ser o valor verdadeiro – Ver figura 1.8. Exatidão ou estreiteza ao
valor verdadeiro pode estar ausente por causa da tendência, falta de precisão ou por causa de
ambas.
PENSAMENTO
rejeita ?
planejar tratarcoletar processar analisar
HIPOTETIZAR
OPERACIONALIZAR
não, concluir!
sim, concluir!
rejeit
PENSAMENTO
a ?
planejar tratarco processarletar analisar
HIPOTETIZAR
OPERACIONALIZAR
não, concluir!
sim, concluir!
Figura 1.1: Pesquisa científica – do pensamento à inferência.
Quadro 1.1: Resultados das eleições para presidente de 2002.
002
RESULTADOS DAS ELEIÇÕES DE 2
Total de eleitores = 115.254.113
Resultado do 1º turno: nº de votantes = 94.804.126
ordem Número Candidato total votos % válidos
1 13 Lula 39.454.692 46,44
2 45 José Serra 19.705.061 23,20
3 40 Garotinho 15.179.879 17,87
4 23 Ciro Gomes 10.170.666 11,97
5 16 Zé Maria 402.232 0,47
6 29 Rui Pimenta 38.619 0,05
Resultado do 2º turno: nº de votantes = 91.664.259
ordem Número Candidato total votos % válidos
1 13 Lula 52.793.364 61,27
2 45 José Serra 33.370.739 38,73
fonte: www.tse.gov.br => consultas: 1º turno em 21/10/02 e 2º turno em 29/10/02
21.050
17.770
13.730
11.030
13.786
14.896
29.059
18.161
13.227
17.383
17.269
18.226
18.165
23.266
24597
27.200
18.900
78/87
87-89
89/90
90/91
91/92
92/94
94/95
95/96
96/97
97/98
98/99
99/00
00/01
01/02
02/03
03/04
04/05
an
o
ou
p
er
ío
do
área desmatada em km2
fonte: www.inpe.br
Figura 1.2: Desmatamento anual (km2) na Amazônia.
0
500
1.000
1.500
2.000
2.500
3.000
m
2)
45
1997 1998 1999 2000 2001 2002 2003 2004
ano
ár
ea
d
es
m
at
ad
a
(k
0
5
10
15
20
25
30
35
40
re
la
çã
o
A
:D
(%
)
A D A:D (%)
Fonte: www.ibama.gov.br – sisprof. A = área desmatada com autorização; D = área
desmatada total e A:D relação entre autorizado e não autorizado.
Figura 1.3: Relação entre áreas (em km2) desmatadas com autorização e sem autorização na
mazônia. A
d autorizado
20%
PMFS
17%
sem origem
63%
Fonte: www.ibama.gov.br – sisprof
Figura 1.4: Origem da madeira da Amazônia – planos de manejo florestal sustentável
(PMFS), desmatamento autorizado e sem origem definida.
39
41
39
41
43
45 46
19 19 19 18 19
20
23,2
12 13
14 15
16 15
17,9
15
12
14
12 11
9
12
0
5
10
15
20
25
30
35
40
ot
o
(%
)
45
50
6 a 9/9 14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10 TSE
período da pesquisa
in
te
nç
ão
d
e
v
Lula Serra Garotinho Ciro
Figura 1.5: Pesquisas de opinião realizadas pelo IBOPE para o 1º turno da eleição
residencial de 2002.
p
58
61 59 58
32 32 31 32
6 4 6
7
4 3 4 3
0
10
20
30
40
50
60
70
11 out 18/out 23/out 26/out
data
in
te
nç
ão
d
e
vo
to
s
(%
)
Lula Serra indecisos nulos/brancos
Figura 1.6: Pesquisas de opinião realizadas pelo Datafolha para o 2º turno da eleição
presidencial de 2002.
26.000
28.000
30.000
)
10.000
12.000
78
/8
7 89
89
/9
0
90
/9
1
91
/9
2
92
/9
4
94
/9
5
95
/9
6
96
/9
7
97
/9
8
98
/9
9
99
/0
0
00
/0
1
01
/0
2
02
/0
3
03
/0
4
04
/0
5
05
/0
6
14.000
16.000
ár
18.000
20.000
22.000
24.000
m
at
ad
a
(k
87
-
ea
d
es
m
2
ano ou período
área média mínima máxima
IC(95%) = 18.689 ± 2.372
21.060
18.689
16.317
Acima = 29%
2005/06? Dentro = 42%
Abaixo = 29%
Figura 1.7: Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com base no
intervalo de confiança (95%) da série histórica de 1978 a 2005.
impreciso preciso
preciso
exatoimpreciso preciso
preciso
exato
Figura 1.8: Diferença entre precisã
o e exatidão.
Capítulo 2
Organização dos dados
2.1. Dados:
A informação coletada e analisada pelo estatístico é chamada de DADOS. Há vários
etodologia, pelo estatístico é, parcialmente, determinada pelo
m mãos.
tipos de dados e a escolha da m
tipo de dados que ele tem e
Exemplo 1: No exame de seleção para turma 90/91 do Manejo Florestal, tivemos 15
candidatos, 13 homens e 2 mulheres. Do total, apenas 7 fizeram o exame. Foram aprovados 6
candid
ankeados”. No exemplo, as classificações de João e Joaquim são dados
ordinai
se refere aos dados mensuráveis e não deve ser
confun
éricas ou atributos, tais
tal, cor de alguma coisa etc.
Dados ordinais: dados sobre classificação, ordem ou “rank”, tais como: classificação
de toras, orde heg
Dados métricos: dados obtidos de medições de c quanti com po,
altu DAP, v e, peso etc.
Um outro importante tipo de d é o cha o DADOS CONTÁVEIS. A contagem
do numero de indivíduos ou itens que caem em rias c ias, ta mo “h ” e
“mulher” fornece os dados contáveis. Por exemp a infor dada exemplo anterior
que foram apr s 5 ho s e 1 m são da contáv
DADO NTÁ S são dados sobre o número ivíduo itens aem
em certas categorias ou classes, que podem ser obtidos de quaisquer tipos de dados
(qualitativo, ordinal ou métrico).
Os dados QUALITATIVO e ORDINAL são referidos pelos estatísticos como dados
ISCRETOS
atos, 5 homens e 1 mulher. João da Silva tirou o primeiro lugar com nota 6,7 e Joaquim
Moreira tirou o último lugar com a nota 5,0.
No exemplo acima, nós podemos destacar os seguintes tipos de dados:
QUALITATIVO – o tipo mais simples de dados, é a informação que coloca cada
candidato em uma das duas categorias “homem ou mulher” ou “tipo florestal I ou tipo II” ou
“estocada ou não estocada” etc. Esses dados dão informações sobre um indivíduo ou um item.
ORDINAL – A informação sobre classificação, dados que colocam os indivíduos ou
objetos em ordem, “r
s.
MÉTRICO – O termo métrico
dido com os dados em unidades métricas. No exemplo, as notas dos candidatos (6,7 e
5,0 e outras notas) são dados métricos.
Resumindo:
Dados qualitativos: dados que se referem à qualidade não num
como: tipo florestal, gênero ou espécie flores
m de c ada etc.
ertas dades o: tem
ra, olum
ados mad
vá ategor is co omem
lo, mação no
ovado men ulher, dos eis.
S CO VEI de ind s ou que c
D porque eles classificam coisas em classes separadas e discretas. Na
lassificação dos candidatos ao mestrado não há como colocar ninguém entre o primeiro lugar
o segundo. Também não há como classificar ninguém entre “homem” e “mulher.” São
xemplos típicos de dados discretos, porque não há como dizer que alguém ficou em
primeiro lugar e meio” ou o que fulano é “homem e meio”. No caso de ordem de chegada ou
rank” há possibilidade de empate, mas isso é outra coisa e será discutido na estatística não-
aramétrica.
c
e
e
“
“
p
Por outro lado, a maioria dos dados métricos é considerada DADOS CONTÍNUOS
orque eles envolvem medições sobre uma escala contínua. A escala fica por conta da
recisão do aparel na fita á mo que podemos
hegar é décimo d AP demos ter DAP’s
om 20.1, 20.2, ... , 2 cronô rmula 1, no entanto, o nível de precisão é
pensável para os no ios d
.2. Dados grupado
A quantidade de dados que pode ser coletada do “mundo-real” é simplesmente
ntástica.
p
p ho de medição:
e cen , ou
suta ou na
ntre os D
diamétrica, o m
’s 20 e 21 cm nós
xi
c tímetros seja, e po
c 0.9; nos metros da Fó
o. im ssos relóg e puls
2 s:
faExemplo 1: O censo brasileiro. Você já imaginou a trabalheira que dá para cadastrar
aproximadamente 180 milhões de pessoas, anotando o nome, sexo, idade, ocupação,
escolaridade etc. Apenas para ilustrar, se você usar qualquer software (Excel ou Word) para
listar toda essa gente, você gastará mais de 600 quilômetros de papel apenas para imprimir as
informações básicas, é Manaus-Itacoatiara-Manaus. Com todo esse papel, dificilmente você
teria uma boa fotografia da população brasileira. Então, o que fazem os especialistas do
Eles nos proporcionamIBGE? variadas informações: quantidades de hom
(X1); X1 por classe idade (X2); X2 por estado e por região; X1 po
ens e de mulheres
r nível de escolaridade;
os dados.
Exemp
população ativa etc.
Isso é um exemplo típico da aplicação da estatística DESCRITIVA, por meio da
organização e simplificação d
lo 2: Dados sobre DAP das árvores da parcela-testemunha do bloco 2 (apenas
s” normalmente pensam no DAP em classes de 10, 20, 30, 40 cm etc.
as 40 primeiras árvores).
Os “pica-pau
Para ver quantos DAPs há em cada classe você faz o seguinte:
Quadro 2.1. Dados de DAPs de 40 árvores.
árv. nº DAP Árv. nº DAP árv. Nº DAP árv. nº DAP
1 25.0 11 33.0 21 32.0 31 37.0
2 27.0 12 38.5 22 63.0 32 41.0
3 45.0 13 31.8 23 34.0 33 40.0
4 36.0 14 52.0 24 30.0 34 32.0
5 39.0 15 37.0 25 29.0 35 58.0
6 36.0 16 27.7 26 32.0 36 28.0
7 33.0 17 35.0 27 27.0 37 77.0
8 47.0 18 33.0 28 28.0 38 58.0
9 34.0 19 47.0 29 27.0 39 43.0
10 53.0 20 33.0 30 40.0 40 30.0
Quadro 2.2. Cálculo de freqüência de cada classe de diâmetro.
árvores (f) classes de DAP Contagem nº de
20 < 30 IIIII III 8
30 < 40 IIIII IIIII IIIII IIII 19
40 < 50 IIIII II 7
50 < 60 IIII 4
60 < 70 I 1
70 < 80 I 1
total 40
O número de indivíduos (árvores) em cada categoria ou de DAP é ch
FREQUÊNCIA daquela classe. O quadro 2.2 é uma tabela de distribuição de freqüê
amada de
ncia. Não
alha com quantidade tão pequena de indivíduos (n = 40, neste
er distribuições de freqüência:
metro.” Outra forma é
e tem que ter a mesma dimensão. Do quadro 2.2, as dimensões são: 20 a
eria continuar, mas isso seria artificial. O propósito de grupar dados é
confundir distribuição de freqüência em estatística com o termo freqüência da Ecologia
Vegetal. Nem sempre você trab
caso). Com n maiores é mais seguro montar a distribuição de freqüência utilizando a “tabela
dinâmica” do Excel – aplicação no Capítulo 17 (Cadeia de Markov).
Algumas “dicas” para estabelec
- o número de classes não deve ser nem muito pequeno e nem muito grande, ao
contrário, no meio. Sugere-se um número entre 5 e 12 – regra do “olhô
através da seguinte fórmula:
n classes ≅ 1 + 3,33 log N (N = número de dados)
- cada class
29.9, 30 a 39.9 etc.
- cada pedaço de dados tem que pertencer a apenas a uma única classe.
Essa lista pod
distribuí-los em um número razoável de classes de igual tamanho para facilitar a interpretação
dos mesmos. Se possível, os intervalos que tem uma interpretação natural, devem ser
utilizados, como por exemplo: dados em DAP que são normalmente divididos em múltiplos
de 10.
0
2
4
6
8
10
12
14
16
18
20
Freq
fr
eq
üê
nc
ia
a
bs
ol
ut
a
Figura 2.1: Histograma de freqüência para os mesmos dados do quadro 2.1.
A freqüência pode ser também porcentagem ou decimal, conhecida
como FREQUÊNCIA RELATIV r a freqüência relativa de cada
classe, bastou dividir a freqüê (número total de indivíduos
contad
apresentada em
A. No quadro 2.3 para obte
ncia de cada classe por 40
os). Se multiplicarmos essas frações por 100, teremos a freqüência em %, caso
contrário, em decimais.
Quadro 2.3. - Distribuição de Freqüência relativa do quadro 2.1.
classes DAP pt médio Freq freq rel freq acum
20 < 30 25 8 0,200 8
30 < 40 35 19 0,475 27
40 < 50 45 7 0,175 34
50 < 60 55 4 0,100 38
60 < 70 65 1 0,025 39
70 < 80 75 1 0,025 40
Algumas terminologias:
Classe – uma categoria para o grupamento de dados.
Freqüência – o número de indivíduos ou objetos numa classe. Por exemplo, a
ite inferior é 20.
. No nosso exemplo, o intervalo é 10, ou seja, 30 – 20 =10.
os.
TIVA. Há muitas outras formas de representação gráfica de seus
ados. Hoje em dia, uma forma muito usada é a PIE (torta). De qualquer modo, fique a
ontade e use de sua imaginação para dar a representação mais conveniente dos seus dados.
freqüência da classe 30-39.9 é 19.
Freqüência relativa – a porcentagem, expressa como um decimal, do número total de
indivíduos de uma determinada classe. A freqüência relativa da classe 50-59.9 é 0.1 ou 10%.
Freqüência acumulada – é a soma das freqüências dos valores inferiores ou iguais a
valor dado.
Distribuição de Freqüência – a listagem das classes com suas freqüências.
Limite inferior da classe – o menor valor que pode ir dentro de uma classe. Na classe
20-29.9 o lim
Limite superior da classe – o maior valor que pode ir dentro de uma classe. Na classe
20-29.9 o limite superior é 29.9. Se a precisão fosse de duas casas decimais, o limite superior
poderia ser 29.99 e assim por diante.
Intervalo de classe – é a diferença entre o limite superior e o limite inferior de uma
dada classe
Ponto médio da classe – é a média aritmética entre o limite superior e limite inferior
da classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto médio é 35 e assim
por diante.
2.3. Gráficos e figuras:
Uma outra maneira de dar sentido a um conjunto de dados é por meio da representação
gráfica dos mesm
O gráfico mais simples dos dados é o HISTOGRAMA DE FREQUÊNCIA. A altura
de cada barra é igual a freqüência que ela representa. Tem também o HISTOGRAMA DE
FREQUÊNCIA RELA
d
v
Capítulo 3
çados, para a descrição sucinta dos fenômenos
sticas usadas na estatística, para descrever as
variáveis aleatórias, em populações particulares, caem em uma das três categorias: (1)
medidas da tendência central (alocação de um valor ordinário); (2) medidas de dispersão
(distância relativa de valores extremos de um valor central); (3) medidas de relacionamento
entre a variávei imilaridade ou dissimilaridade em magnitude).
de gráficos
grupamento de dados são úteis no manuseio de um grande conjunto de dados. Uma outra
rma de sumarizar os dados é por meio da computação de um número, tal como a média, a
qual su
3.1 Medidas de tendência central:
mediana.
Menos harmônica.
ente
usada de todas as medidas estatísticas.
idade) dividida
pelo nú de amostra para
amostr ais desejáveis em
onexão com as distribuições de probabilidade.
crescente ou
decresc m amostras com
número lores que estão
“rankeados” no meio. Estimativas da mediana de pequenas amostras não são muito
classe com a maior
imento pense na mediana como o 50-ésimo
til.
a raiz de um produto de n valores, ou antilog da média
ritmét a dos to de valores e é sempre tão pequeno ou menor que a média
o mes o con
Medidas descritivas
Há muitos critérios, por sinal, bem avan
naturais. Apesar disso, a maioria das caracterí
s s (grau de s
Em geral, o volume de dados de uma pesquisa é muito grande. Os métodos
e
fo
bstitui um grande volume de dados por um simples número.
As medidas de alocação mais comumente utilizadas são média aritmética e a
freqüentemente usadas são: moda, percentil, média geométrica e média
A média comum ou média aritmética ou simplesmente média, é a mais freqüentem
Média – é simplesmente a soma de todas observações (DAP, altura,
mero total de observações. É a medida que tem a menor variabilidade
a, é fácil de ser manuseada matematicamente e tem as propriedadesm
c
Mediana – é o valor de uma variável aleatória que, em ordem
ente, está “rankeado” no meio, entre os valores maiores e menores. E
par de observações, a mediana é a média aritmética dos 2 va
confiáveis.
Moda – é o valor mais freqüente, ou seja, é a categoria ou
freqüência. É uma medida fácil e rápida de ser obtida, mas, por outro lado, fica sempre sujeita
a variação extrema de uma amostra para outra, ao menos que a amostra seja bem grande.
Percentil – para um melhor entend
percen
Média geométrica – é a n-ésim
a ic logs de um conjun
d m junto de dados.
Média harmônica – é a recíproca da média de um conjunto de dados recíprocos e é
tão pequena ou menor que a média geométrica para um mesmo conjunto de dados.
Para dados ordinais, é preferível utilizar-se da mediana, apesar de que a média é, as
vezes, utilizada.
Para dados métricos pode ser usada a média ou a mediana. Como com dados ordinais,
a mediana é preferida para propósitos descritivos. A maioria das teorias estatísticas para dados
métricos usa a média.
Computação de Média, Mediana e Moda
Média – a estimativa da média, x
_
ou ӯ, do parâmetro µ, é obtida da seguinte maneira:
Dos dados do quadro 2.1, a média será:
40
) x .... x x( 4021 x
+++=
x
_
= 38,225
Mediana – do qua é preciso ordem crescente,
(1ª) (2) (3) (4) (5) (6) (7) (8) (9) (10)
25 27 27 27 27.7 28 28 29 30 30
(11) (12) (13) (14) (15) (16) (17) (18) (19) (20)
36 36 37 37 38.5 39 40 40 41
vações, n, é par, a mediana será a média aritmética
dos vigésimo e ig es, ou seja, (34 + 35)/2 = 34.5.
Moda édio da classe que tem a maior freqüência, que no
nosso caso, quadro 2.2, é 35, que tem a freqüência = 19.
= 35,0
Interpretação:
dro 2.1, primeiro ordenar em
31.8 32 32 32 33 33 33 33 34 34
(21) (22) (23) (24) (25) (26) (27) (28) (29) (30)
35
(31) (32) (33) (34) (35) (36) (37) (38) (39) (40ª)
43 45 47 47 52 53 58 58 63 77
Neste caso, o número total de obser
v ésimo-primeiro valor
– é simplesmente o ponto m
Resumo das estimativas das medidas:
Média = 38,225
Mediana = 34,5
Moda
um conjunto de dados pode ter mais de uma moda, mas sempre terá
somente uma média ou mediana. Como você pode ver, de um mesmo conjunto de dados, você
tem diferentes medidas de tendência central. Qual delas é a melhor? A decisão vai depender,
principalmente, do objetivo de sua informação. Quando a gente vende madeira em volume,
normalmente truncada a um determinado diâmetro mínimo, a média deve prevalecer tendo em
vista a maior facilidade para os cálculos posteriores. Se a árvore é vendida em pé, a moda
pode ser mais interessante, porque ela dá uma noção também da distribuição de freqüência. A
utilização da mediana é mais prática na tomada de decisões quanto a tratamentos
silviculturais, desbastes etc., quando você precisa priorizar o tamanho que precisa sofrer
intervenções.
3.2. M
nu
edidas de dispersão:
Uma medida de dispersão é um número usado para mostrar quanto de variação existe
m conjunto de dados.
Até agora discutimos somente as medidas de tendência central. Entretanto, 2 conjuntos
de dados podem ter a mesma média ou a mesma mediana e, mesmo assim, ser bastante
diferente.
Exemplo 1: Dois conjuntos de dados (turmas de Manejo e Ecologia), no quadro 3.1
Quadro 3.1. Idades de alunos dos cursos de manejo e ecologia do INPA
Manejo ) Ecologia (CFT
de aluno idade aluno ida
1 1 22 25
2 28 2 30
3 30 3 28
4 29 4 21
5 28 5 39
média 28 média 28
As médias dos dois grupos são iguais. No e
dois grupos diferentes em idade. Dá para pe
ntanto, é claro que estamos nos referindo a
ais uniforme
em term o que há dentro de cada conjunto de dados,
podemos usar a amplitude total ou o desvio padrão, as duas medidas de dispersão mais
comuns.
tre o
aior e o maior e
o men
Além d do uma medida que depende apenas dos valores
externos, é instável, não sendo afetada pela dispersão dos valores internos.
Do quadro 3.1, as amplitudes são:
ação é freqüentemente simbolizado pela letra grega minúscula (σ).
Dificilmente a gente trabalha com o parâmetro. Entretanto, dado uma amostra de valores
a população, podemos fazer uma estimativa de σ que é comumente
mbol
rceber que o grupo do Manejo é m
os de idade. Neste caso, para ver a variaçã
AMPLITUDE TOTAL – é a medida da variação olhando apenas a diferença en
m o menor valor. Esta medida é de fácil computação porque depende apenas d
d or valor, mas, em compensação ela não diz o que acontece entre esses dois valores.
isso, é considerada muito limita, sen
- Manejo: 30 – 25 = 5
- Ecologia: 39 – 21 = 18
DESVIO PADRÃO – nos dá a dispersão dos indivíduos em relação à média. Ele nos
dá uma idéia se os dados estão próximos da média ou muito longe. O desvio padrão dos
indivíduos de uma popul
individuais de um
si izada por s.
1 -n
)x - (x
s :Fórmula
n
1i
2
i∑
±= =
1 -n
s :simples ais 1 1i
n / )) x (( - x
n
2
i
2
i∑ ∑n
m , = =ou ±= i
x
_
Por que o denominador é (n-1) em vez (n)? Porque os n desvios, (xi – ), são
ente conectados pela relação linear ∑ ( xi – x_ ) = 0. Se você especifica o valor da necessariam
x
_
e os ( n-1 ) valores de xi, então o valor do último xi é fixo; isto é, é uma informação
édia amostral x
_
redundante. Por esta razão, ao usar a m em vez da média da população µ
s, você perde um grau de liberdade (gl) e a estimativa de
é dita ter ( n – 1 ) gl associados com ela. O uso de (n – 1) em vez de (n) no cálculo de s
bém fornece uma estimativa não-tendenciosa; isto é, em uma série infinita de amostras
édio do estimador é igual a σ.
como um ponto central no cálculo de
σ
tam
aleatórias, o valor m
Os desvios padrões dos dados do quadro 3.1 são:
Manejo: s = ± 1.87
Ecologia: s = ± 7.25
-
-
Resumindo: quanto maior a variação den o
os agora, que apesar dos dois terem
tr de um conjunto de dados, maior será o
desvio padrão. Do exemplo 1 nós constatam as mesmas
edida ana, as medidas de dispersão são totalmente
nejo é mais homogêneo em idade, comprovada
ela m
Cálculo da média e desvio dos dados grupados:
eguinte maneira:
m s de tendência central, média e medi
diferentes. Isto quer dizer que o grupo de Ma
p enor variação encontrada.
A média é calculada da s
x
_
= ( ∑ xi * fi ) / n
onde: xi = ponto médio da classe, fi = freqüência de cada classe e n = número de classes
E o desvio padrão segue o mesmo princípio da média em relação às classes.
Do quadro 2.2, essas medidas serão:
x
_
= 38,5 e s = ± 11,45
3.3. M
mais) variáveis aleatórias, independente das
s serão vistas, em detalhe,
um ca
s já vimos um exemplo de percentil. A mediana divide um conjunto de dados em
quarto da área total.
edidas de relacionamento:
As medidas mais comumente utilizadas para relacionamento são correlação e
regressão. Vários tipos de correlação podem ser usados para medir o grau de associação
(similaridade ou dissimilaridade) entre 2 (ou
unidades de medida e mudanças lineares em escala. Estas medida
n pítulo específico.
3.4 Percentil:
Nó
duas partes, 50% de um lado e 50% de outro, depois de colocá-los em ordem crescente. Por
esta razão ela se refere ao qüinquagésimopercentil de um conjunto de dados. Além dos
percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador
pode também querer encontrar o quartil e o decil.
Quartil é a separatriz que divide a área de uma distribuição de freqüência em
domínios de área igual a múltiplos inteiros de um
Decil é a separatriz correspondente ao valor do argumento que divide a distribuição
numa razão decimal.
Exemplo: dados do quadro 2.1 em ordem crescente.
Primeiro quarto
2 27 27 27
Segundo quarto
3 32 32 32 33 33
Terceiro quarto
Computações:
Primeiro quartil = (30 + 31.8) / 2 = 30.9
Segundo quartil = (34 + 35) / 2 = 34.5
Terceiro quartil = (41 + 43) / 2 = 42.0
3.5. Considerações finais:
Neste capítulo não poderíamos deixar de mencionar três outros conceitos muito
importantes na nossa área de conhecimento, coeficiente de variação, variância e covariância.
COEFICIENTE DE VARIAÇÃO – é a razão entre o desvio padrão e a média. Ele
nos dá uma idéia de variação relativa de nossa população, permitindo a comparação de 2
populações diferentes independentes das unidades de medida.
Do quadro 3.1, estimamos as médias (28 para manejo e 28 para Ecologia) e os desvios
padrões (1.87 e 7.25). Agora temos os coeficientes de variação (CV):
CV = 1.87/28 = 0.0668 ou 6.68 % - Manejo
CV = 7.25/28 = 0.2589 ou 25.89 % - Ecologia
Do nosso exemplo do quadro 2.1, temos uma população de árvores, com as seguintes
estimativas: média = 38,225 e desvio = 11,28
CV = 11,28/38,225 = 0.2951 ou 29,51 % - floresta ZF-2
Mesmo se tratando de populações diferentes podemos concluir com base nos CVs: A
população Manejo é mais homogênea e a mais heterogênea é a floresta da ZF-2. Isto é
possível porque o CV é uma medida relativa, que independente da unidade de medida
utilizada.
VARIÂNCIA - Variância é uma medida da dispersão dos valores unitários
individuais em torno de sua média. A variância não só parece com o desvio padrão, como é o
próprio, apenas “ao quadrado” . Se você tirar da fórmula do desvio, a raiz quadrada, você tem
a fórmula da variância. Por que “ao quadrado”? Simplesmente porque a soma de todos os
desvios tem que se anular, tendendo a zero e, daí, você não teria condições de ver a amplitude
de variação dos seus dados em relação à média.
5 27.7 28 28 29 30 30
1.8 33 33 34 34
39 40 40 41
3 45 47 47 52 53 58 58 63 77
35 36 36 37 37 38.5
Quarto quarto
4
COVARIÂNCIA - é um
relacionamento (covariabilid
a medida de como 2 variáveis variam juntas, em
ade). Suponha duas variáveis x e y. Se os maiores valores de x
nde a ser associados com os maiores valores y, nós dizemos que a covariância é positiva.
ando os maiores se associam com os menores, ou vice-versa, a covariância é negativa.
a zero.
Variância, s2 = SQCx /(n-1)
Covariância, s SPC / (n-1)
SPC = Soma dos Produtos Corrigidos
te
Qu
Quando não há uma associação particular de x e y, a covariância tende
As fórmulas são:
xy = xy
S
SQC = Soma dos Quadrados Corrigidos
endo:
Fórmulas úteis
Média Aritmética Variância
n
x
x i
i∑n
== 1
)(
1
12
−
−
=
∑ 2
=
n
n
xx
s i
i
Desvio padrão Erro padrão
2ss ±= nss /=x
2 2
∑ −= ix nx
∑ ⎟⎞⎜⎛n n x
2
=
= ⎠⎝
i
i
i
SQC
1
1
n
ySQC iiy
12 −=∑
y
n
⎟⎞⎜⎛∑ in
i 1
⎠⎝ =
=
( )( )
n
yxSPC
i
iixy
yx iin ∑∑−=∑
=1
Coeficiente de correlação
YX
xy
SQCSQC
SPC
r ×=
Capítulo 4
Probabilidade
a população baseada em uma
amostra da população.
Desde que a estatística de inferência envolve predições (educadas), é sempre possível
zer uma inferência incorreta. É preciso saber o quanto a nossa inferência está correta. Para
edir a chance de estar certo na nossa inferência estatística, precisamos entender a teoria de
clássicos de “cara & coroa”, dos dados e do jogo de baralho. A propósito, a teoria foi
desenvolvida por causa de jogos de azar. O objetivo deste capítulo é dar uma base geral para
facilitar o entendimento da aplicação de testes de hipóteses, paramétrica e não-paramétrica.
O processo de computação (cálculo) de probabilidades depende de sua capacidade de
contar, “1, 2, 3 e assim por diante.” A seguir vamos discutir alguns métodos de contagem.
4.1. Contagem:
testes (tentativas); se a moeda é jogada uma vez, ou
imento deve ser considerado um experimento.
teste, vários testes ou de todo o
exp im
RE
No capítulo 1 nós distinguimos dois tipos de estatísticas: descritiva e de inferência. A
estatística descritiva envolve a organização e a sumarização dos dados. A estatística de
inferência lida com inferências (predições educadas) sobre um
fa
m
probabilidade, que é a fundamentação matemática para a estatística de inferência.
Para entender os princípios da teoria de probabilidade não há como fugir dos exemplos
Primeiro vamos estabelecer as seguintes definições dentro da teoria de probabilidade.
Resultado - no caso de “cara ou coroa”, 2 resultados são possíveis e no caso do jogo de
dados, 6 resultados.
Teste - (ou tentativa) - é a ação de jogar a moeda e ver se ela cai com a cara ou
coroa.
Experimento - é o conjunto de
duas, ou n vezes, não interessa – o proced
Eventos - são os possíveis resultados de um
er ento. Exemplo de evento: “uma coroa em 4 jogadas” ou “pelo menos um é cara”.
GRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos
k p sí o.
os veis resultados, afirmamos que há k possíveis resultados de todo o experimentn
Exemplo 1: no jogo da moeda você tem dois resultados, cara (C) ou coroa (c), k=2.
Se você jogar apenas uma vez, n=1, você terá 21 = 2 possíveis resultados, C ou c. Se você
jogar duas vezes, n = 2, você terá 22 = 4 possíveis resultados, CC cc Cc cC.
REGRA 2: Há n! (fatorial) maneiras de arranjar n objetos distinguíveis em uma seqüência.
Exemplo 2: considere o número de maneiras de arranjar as letras A, B e C numa
seqüência. A primeira letra pode ser qualquer uma das três, a segunda pode ser escolhida de
duas maneiras diferentes uma vez que a primeira já foi escolhida, e a letra remanescente se
torna a última letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6
possíveis arranjos são: ABC ACB BAC BCA CAB e CBA.
Exemplo 3: suponha uma corrida de cavalos com 8 cavalos. Há 8 maneiras de
qualqu outro. Se
você q
er um deles chegar em primeiro lugar, tendo nas outras colocações qualquer
uiser saber quantos arranjos são possíveis tendo, no primeiro e segundo lugar, qualquer
um deles e, as demais colocações, de qualquer jeito, você fará (8) (7) = 56 arranjos. Se você,
no entanto, quiser saber todos os possíveis arranjos do primeiro ao oitavo lugar você fará 8! =
40320 arranjos.
REGRA 3: se um grupo de n objetos é composto de k objetos idênticos de um tipo e o
restante (n-k) são objetos idênticos de um segundo tipo, o número de arranjos distinguíveis
dos n objetos numa seqüência, denotado por meio de
Ou: se
k)! -(n k!
n!
k
n
por dado é
k
n =⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
um grupo de n objetos é composto de n1 objetos idênticos do tipo 1, n2 objetos
idênticos do tipo 2, ..., nr objetos idênticos do tipo r, o número de arranjos distintos numaseqüência será:
nr! ... n2! n1!
n!
ni
n
por dado é
ni
n =⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
3
(1) )1( )2(
(1) (2) (3)
1! 2!
3!
2
3 ===⎟⎟⎠
⎞
⎜⎜⎝
⎛
Exemplo 4: no exemplo 2 listamos as 6 maneiras de arranjar as letras A, B e C numa
üên
4.2. D
seq cia. Suponha agora que as letras A e B são idênticas e chame-as de X. Assim, os
arranjos ABC e BAC se tornam indistintos, XXC para os dois. Também ACB e BCA se
tornam XCX. O arranjo original é reduzido para arranjos distintos, que são XXC, XCX e
CXX.
efinições de probabilidade:
Primeiro vamos ver algumas definições:
(i) Espaço amostral - é a coleção de todos os possíveis resultados de um
experimento.
(ii) Ponto no espaço amostral - é um resultado possível de um experim ento.
ostral, que consiste essencialmente de
ento. O espaço é subdividido e
esultado é representado por um ponto e somente
m pon
Cada experimento tem o seu próprio espaço am
de um experimuma lista de diferentes resultados possíveis
cada subdivisão é um ponto. Cada possível r
u to.
Exemplo 1: se um experimento consiste em jogar duas vezes a moeda, o espaço
amostral consiste de 4 pontos CC cc Cc cC.
Exemplo 2: uma prova consistindo de 10 questões “falsa” ou “verdadeira” é passada
um aluno como um experimento. Há 210 = 1024 pontos no espaço amostral, onde cada ponto
consiste da seqüência das possíveis respostas para as 10 questões sucessivas, tais como:
FFFFVVFFVV.
gora, então, é possível definir evento, em termos dos pontos do espaço amostral.
tral.
caras”, estamos nos referindo a um
CC; o evento “uma cara” consiste de dois pontos Cc e cC; o evento “pelo
a” consiste de três pontos CC, Cc e cC.
a
A
(iii) Evento - um evento é qualquer conjunto de pontos no espaço amos
No exemplo 1 ao falarmos do evento “duas
simples ponto
menos uma car
Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos “pelo menos
uma cara” e “pelo menos uma coroa” tem os pontos Cc e cC em comum. Se dois eventos não
têm pontos em comuns eles são chamados de eventos mutuamente exclusivos porque a
ocorrência de um evento automaticamente exclui a possibilidade de ocorrer outro evento ao
mesmo tempo.
Para cada ponto no rrespondente chamado de
probabilidades podem ser
evento inclui a definição
associadas com um particular espaço
e acordo com as
espaço amostral há um número co
probabilidade do ponto ou probabilidade do resultado. Estas
quaisquer números entre 0 a 1. A definição da probabilidade de um
da probabilidade de um resultado como um caso especial, desde que o evento possa ser
considerado como que se consistisse de um resultado simples.
Na prática, o conjunto de probabilidades
amostral é raramente conhecido, mas as probabilidades são atribuídas d
noções pré-concebidas do pesquisador, isto é, o pesquisador formula um modelo como uma
versão ideal do experimento. Então, o espaço amostral do modelo experimental é examinado e
as probabilidades são atribuídas aos vários pontos do espaço amostral de alguma maneira que
o pesquisador sinta que pode ser justificada.
Exemplo 3: Num experimento consistindo de uma única jogada de uma moeda “não
viciada”, é razoável assumir que o resultado cara (C) tem metade da chance de ocorrer.
Assim, podemos atribuir a probabilidade de ½ para o resultado C e o mes
aneira: P (C) =1/2 e P (c) = 1/2 .
mo para c. Isso pode
ser escrito da seguinte m
Exemplo 4: Num experimento consistindo de 3 jogadas (testes), é razoável assumir
que cada um dos 23 = 8 resultados CCC CCc CcC Ccc cCC ccC cCc ccc tem a mesma
chance de ocorrer. Assim, a probabilidade de cada resultado é 1/8. Também P (3 caras) = 1/8,
P (pelo menos 1 cara) = 7/8, P (pelo menos 2 caras) = 4/8 = ½.
(iv) Função de Probabilidade: é uma função que atribui probabilidades aos vários
eventos no espaço amostral.
Várias propriedades dessas funções são aparentes. Considere S como espaço amostral
e A, B
onde P (B) > 0, caso contrário, é indefinido.
Exemplo 5:
ou C como qualquer evento em S. Então, se P é a função de probabilidade, P(S) = 1,
P(A) > 0 e P(a) = 1 – P(A), onde a é o evento “o evento não ocorre”.
(v) Probabilidade Condicional: é a probabilidade de ocorrer A dado B.
P (A | B) = [ P (AB) ] / [ P (B) ]
Considere o jogo de dados, tal que cada um dos 6 possíveis resultados
tem a probabilidade de 1/6 de ocorrer. Como antes, deixe A ser o evento “a ocorrência de 4, 5
ou 6” e B o evento “a ocorrência de um número par” . Então P (AB) = P (4 ou 6) = 2/6 = 1/3.
robabilidade condicional P (A|B) é dada por
) P (B)
Também, P (B) = 3/6 = ½. Então, a p
3 / 2
2/ 1
3 / 1 B) |(A P ==
(vi) Eventos independentes: Dois eventos A e B são independentes se
(1) P (AB) = P (A
Exemplo 6: Num experimento consistindo de 2 jogadas de moeda, os 4 pontos no espaço
amostral assumem ter a mesma probabilidade. Deixe A ser o evento “uma cara ocorre na
primeira jogad e corre segund tão A tem os
pontos CC e C o em o os CC ) = 2/4, P (B)
= 2/4 e P (AB) = 1/4.
P (AB) = (2/4) (2/4) = 4/16 = 1/4
satisfaz a condição (1 , por esta razão, A e B são independentes.
(vii) Experim tos Mutuamen ndepende ão mutu independentes se
dos os conjuntos de eventos formados tiverem a seguinte equação com verdadeira:
nde A
a” e B ser o ev
c. B tem os pont
nto “uma cara o
s CC e . AB t
na a jogada.” En
. Ta P (A cC s pont mbém
) e
en
n
te I ntes: s amente
oto
P ( A1, A2, ..An) = P (A1) P(A2) ...P (An)
o i representa um resultado do i-ésimo experimento para i = 1, 2, ....n.
Exemplo 7: Considere um experimento com 1 jogada da moeda, onde o evento C tem
a probabilidade p e o evento c tem a probabilidade q = 1 – p. Considere 3 repetições
c2 C3) = P (C1) P (c2) P (C3) = pqp
ade de obter “exatamente k caras” , então, é igual ao
rmo
independentes do experimento, onde o subscrito será usado para diferenciar o experimento
com o qual o resultado está associado. Dessa maneira, C1 c2 C3 significa que o primeiro
experimento resultou em C, o segundo em c e o terceiro em C. Por causa de nossa hipótese de
independência,
P (C1
Se considerarmos o evento “exatamente 2 caras” associado aos experimentos
combinados, o seguinte pode ocorrer
ementeconseqüent e maneiras 3
2
6
2
3 ==⎟⎟⎠
⎞
⎜⎜⎝
⎛
q3p caras) 2 exatamente ( P 2=
Obviamente o anterior pode ser descrito simplesmente como um experimento com 3
tentativas independentes. Por extensão, podemos considerar um experimento consistindo de n
jogadas independentes. A probabilid
te pkqn - k vezes o número de vezes que o termo pode aparecer. Por esta razão, em n
jogadas independentes de uma moeda
onde p = P(C) em qualquer jogada.
Outras considerações: Conceito de probabilidade usando distribuições de
freqüências relativas.
Exemplo 8: Um diretor de e
⎠⎝
k -n k qp
k
n
caras)k e(exatament P ⎟⎟
⎞
⎜⎜
⎛=
scola numa pequena cidade de 40 famílias classificou
cada família de acordo com o número de crianças (menores que 18 anos). As informações
obtidas são sumarizadas no quadro 4.1.
Quad
nº de famílias % freq. relativa
ro 4.1: Distribuição de número de crianças por família.
nº de crianças
0 18 45,0 0,450
1 8 20,0 0,200
2 7 17,5 0,175
3 4 10,0 0,100
4 3 7,5 0,075
40 100,0 1,000
O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famílias possuem 2 crianças.
e acordo com o número de crianças na família. Desde que “o número de crianças” varia de
mília de variável. Quando selecionamos uma família
uma variável aleatóriadesde que o seu valor (um
Definição 1:
Agora, suponha que uma das famílias tenha sido selecionada aleatoriamente, ou seja,
cada família teve igual chance de ser escolhida. Qual é a probabilidade que a família
selecionada tenha 3 crianças? A resposta é 4/40, que é a mesma frequência relativa.
Suponha que há N resultados possíveis num experimento. A probabilidade que um
evento ocorra é o número de vezes, f, que o evento pode ocorrer, dividido pelo número total,
N, de possíveis resultados.
4.3. Variáveis aleatórias:
No exemplo 8 nós vimos um levantamento que classificou cada uma das 40 famílias
d
fa para família, ela é chamada
ente o “núaleatoriam , mero de crianças” é
número real) depende de uma chance.
Uma variável aleatória é uma função que atribui números reais aos
pontos num espaço amostral.
As variáveis aleatórias são normalmente representadas pelas letras maiúsculas X, W,
úmeros reais atribuídos pelas variáveis aleatórias serão
represe
Exemplo 1:
Y ou Z com ou sem subscritos. Os n
ntados por letras minúsculas.
Num experimento onde ao consumidor é dada a chance de escolher 3
produtos, sabonete, detergente ou marca A, o espaço amostral consiste dos 3 pontos
representando as 3 possíveis escolhas. Deixe a variável aleatória atribuir o número 1 para a
scolha “marca A” e o número 0 (zero) para os outros 2 possíveis resultados. Então, P(X = 1)
or escolher a marca A.
Exemplo 2:
e
é igual a probabilidade do consumid
Para 6 meninas e 8 meninos é perguntado se eles se comunicam mais
facilmente com suas mães ou com seus pais. Deixe X ser o número de meninas que pensam
que se comunicam melhor com suas mães e deixe Y ser o número total de crianças que
pensam que se comunicam melhor com suas mães. Se X = 3, nós sabemos que ocorreu o
evento “3 meninas pensam que se comunicam melhor com suas mães.” Se, ao mesmo tempo,
Y = 7, nós sabemos que ocorreu o evento “3 meninas e 7 – 3 = 4 meninos pensam que se
comunicam melhor com suas mães.”
Se X é uma variável aleatória, “X = x” é uma notação simplificada que usamos para
corresponder ao mesmo evento no espaço amostral, especificamente o evento que consiste do
conjunto de todos os pontos para os quais à variável X foi atribuído o valor “x”.
Exemplo 3: Num experimento consistindo de 2 jogadas de moeda, deixe X ser o
número de caras. Então, X = 1 corresponde ao evento contendo os pontos Cc e cC.
Dessa maneira, “X = x” é, às vezes, referida como o “evento X = x,” quando, na
realidade, pretendeu-se dizer “o evento consistindo de todos os resultados atribuídos o número
x pela variável aleatória X.”
Por causa desta estreita correspondência entre variáveis aleatórias e eventos, as
definições de probabilidade condicional e independência se aplicam igualmente bem às
variáveis aleatórias.
Definição 2: A probabilidade condicional de X dado Y, P (X = x | Y = y), é a
probabilidade que a variável aleatória X assume o valor x, dado que a variável aleatória Y já
assumiu o valor y.
0 y) P(Y se
y)P(Y
y) Y x, (X P y) Y | x P(X (1) >==
=====
Exemplo 4: Deixe X ser o número de meninas que se comunicam bem com suas
mães, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y ser o número total de
crianças que se comunicam bem com suas mães. Por conveniência, deixe Z=Y-X, tal que Z é
igual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mães. Assuma que
as respostas dadas pelas crianças são independentes de cada outra e que cada criança tem a
mesma probabilidade p (desconhecida) de dizer que se comunica bem com a sua mãe.
Encontre a probabilidade condicional P ( X=3 | Y=7).
Primeiro, pelas suposições anteriores, X=3 e Z=4 são eventos independentes. Desde
que o evento (X=3, Y=7) é o mesmo que o evento (X=3, Z=4), temos a probabilidade
P(X=3, Y=7) = P(X=3, Z=4)
= P(X=3) P(Z=4)
or c
4433 p) - (1p
4
p) - (1p
3
(2) ⎟⎟⎠⎜
⎜
⎝⎟
⎟
⎠⎜
⎜
⎝=
86 ⎞⎛⎞⎛
p ausa do exemplo 7 do item 4.2.
Pelo mesmo exemplo, concluímos que
tal que a probabilidade condicional
77 p) - (1p
7
14
7) P(Y (3) ⎟⎟⎠
⎞
⎜⎜⎝
⎛==
v
Como os pontos no espaço amostral são mutuamente exclusivos, os valores que uma
ariável aleatória pode assumir são também mutuamente exclusivos. Para um simples
junto de valores que uma variável aleatória pode assumir tem as mesmas
res individuais assumidos pela variável aleatória
tral, um conjunto de valores corresponde a um
evento e a probabilidade da variável aleatória assumir qualquer valor dentro de um conjunto
de valores é igual a soma das probabilidades associadas com todos os valores dentro do
conjunto. Por exemplo:
eros a e b,
onde o som x que são pares. Por causa dessa similaridade
entre o conjunto de valores possíveis de X e um espaço amostral, a descrição do conjunto de
es associadas com os vários valores que X pode assumir, é freqüentemente
hamado de função de probabilidade da variável aleatória X, assim como um espaço amostral
a variável
espaço amostral, as
robab res de X são conhecidas e a função de
resultado de um experimento, a variável aleatória é definida por apenas um número. Assim,
todo o con
propriedades do espaço amostral. Os valo
correspondem aos pontos no espaço amos
onde o somatório se estende a todos os valores de x entre, não incluindo os núm
atório se aplica a todos os valores de
probabilidad
c
tem uma função de probabilidade. Entretanto, a função de probabilidade de um
aleatória não é uma atribuição arbitrária de probabilidades, como é a função de probabilidade
para um espaço amostral. Isto porque uma vez que as probabilidades são atribuídas aos pontos
num espaço amostral e uma vez que a variável aleatória X é definida no
p ilidades associadas com os vários valo
probabilidade de X é, dessa maneira, já determinada.
Definição 3: A função de probabilidade da variável aleatória X, usualmente
u
representada por f(x) ou de outra maneira qualquer, é a função que dá a probabilidade de X
assumir o valor x, para qualquer número real x, ou seja,
x) P(X f(x) (5)
Vimos até aqui que a distribuição de probabilidades associadas com uma variável
aleatória pode ser descrita por uma função de probabilidade. Uma outra maneira de dizer a
esma coisa é através de uma função de distribuição que descreve as probabilidades m
acum ladas.
==
0.408
14!
4)! - (8 4!
3)! - (6 3!
=⎞⎛
⎟⎟⎠⎜
⎜
⎝⎟
⎟
⎠⎜
⎜
⎝=
7)! - (14 7!
7
14
7)
⎟⎟⎠⎜
⎜
⎝
⎟⎟⎠
⎞
⎜⎜⎝
⎛
4
8
3
6
Y | 3 P(X )4(
⎟⎟⎠
⎞
⎜⎜⎝
⎛
==
⎟⎟⎠
⎞
⎜⎜⎝
⎛
=
8!6! ⎞⎛⎞⎛
x) P(X b) X (a P
bxa
∑ ==<<
<<
∑ ===
parx
x) (X P par) número (X P
Definição 4: A função de distribuição de uma variável aleatória, usualmente
representada por F(x), é a função que dá a probabilidade de X ser menor ou igual a qualquer
número real x, ou seja,
onde o somatório se estende a todos os valores de t que não forem superiores a x.
Definição 5: Deixe X ser uma variável aleatória. A distribuição binominal é a
distribuição de probabilidade representada pela função de probabilidade
A função de distribuição será então
onde: n é número inteiro positivo, 0 ≤ p ≤ 1 e q = 1 – p. Note que usaremos a convenção usual
que 0! = 1.
onde o somatório se estende a todos os possíveis valores de i menor ou igual a x. Há tabelas
prontas para alguns valores selecionados dos parâmetros n e p.
Exemplo 5: Um experimento com n testes independentes, onde cada teste pode
e P e q,
spect tão, comoostra e
para x neira, o experimento tem a distribuição binominal.
resultar em um dos dois resultados “sucesso” ou “insucesso,” com probabilidad
ivamente. Deixe X ser igual ao número total de “sucessos” nos n testes. Enre
m do na quação (7),
∑
≤xt
n .., 0,1, x para qp
x
n
x)P(X f(x) )7( x-nx =⎟⎟⎠
⎞
⎜⎜⎝
⎛===
i-ni
xi
qp
i
n
x) P(X F(x) )8( ∑
≤ ⎟
⎟
⎠
⎞
⎜⎜⎝
⎛=≤=
x ⎠⎝
=≤= f(t) x) (X P F(x) )6(
x-nxqp
n
x) (X P ⎟⎟
⎞
⎜⎜
⎛==
inteiro de 0 a n. Desta ma
Definição 6: Deixe X ser uma variável aleatória. A distribuição discreta uniforme é a
distribuição de probabilidade representada pela função de probabilidade.
(9) f(x) = 1/N para x = 1,2, ... , N
esta maneira, X pode assumir qualquer valor inteiro de 1 a N com igual
plo 6:
D
probabilidade, se X tem a função de probabilidade discreta uniforme.
Exem Há em um saco N papeletas numeradas de 1 a N. O experimento consiste
apeletas que podem ser tiradas. Deixe X ser igual
o número da papeleta tirada. Então X tem a distribuição uniforme discreta.
de tirar uma papeleta do saco, onde cada papeleta tem a mesma chance de ser tirada. O espaço
amostral tem N pontos, representando as N p
a
Definição 7: A função de probabilidade conjunta f (x1, x2, .. xn ) das variáveis
de X1 = x1, X2 = x2, ... , Xn = xn.
(10) f(x1, x2, .. xn ) = P (X1 = x1, X2 = x2, ... , Xn = xn )
aleatórias x , x , .. x é a probabilidade da ocorrência conjunta1 2 n
Definição 8: A função de distribuição conjunta F(x1, x2, .. xn ) das variáveis
aleatórias x1, x2, .. xn é a probabilidade da ocorrência junta de X1 ≤ x1, X2 ≤ x2, ... , Xn ≤ xn .
xn )
Exemplo 7:
(11) F(x1, x2, .. xn ) = P (X1 ≤ x1, X2 ≤ x2, ... , Xn ≤
Considere as variáveis aleatórias X e Y como definidas no exemplo 2.
onde
onde o somatório na equação (13) se estende a todos os valores de x e y tal que x ≤ 3 e y ≤
ser avaliadas sem conhecer o valor de p.
Considere f(x,y) e F(x,y) como as funções de probabilidade conjunta e de distribuição,
respectivamente.
77 p) - (1p
4
8
3
6
7) Y 3, (X P 7) f(3, )12( ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛====
e
e
7, com a usual restrição de que x e y – x são inteiros não negativos. Note que as equações (12)
e (13) não podem
Definição 9: A função de probabilidade condicional de X dado Y, f(x | y) é
(14) f(x | y) = P(X = x | Y = y)
Da equação 1 vemos que
ta de X e Y e f(y) é a função de probabilidade
de Y e
∑
≤≤ ≤≤
=≤≤=
7yx
3x0
y) f(x, 7) Y 3, (X P 7) F(3, )13(
x)-(y - 8x-y x- 6x p) - (1p
x-y
8
p) - (1p
x
6
y) f(x, ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
onde f(x, y) é a função de probabilidade conjun
m si.
Exemplo 8: Como uma continuação do exemplo 7, considere f(x | y) como a função
de probabilidade condicional de X dado Y.
F(3 | 7) = P(X = 3 | Y = 7) = 0.408 da equação (4)
f(y)
y) f(x, =
y)
y) Y x, P(X y) Y | x P(X y) |f(x )15( ======
P(Y =
Para encontrar a fórmula geral para f(x | y) (isto é, para qualquer valor de x e y),
rimeiro deixe f(x, y) ser a função de probabilidade conjunta de X e Y. Isto é dado no
xemplo 7 como
que originalmente era uma forma geral da equação (2). Também, deixe f(y) ser a função de
probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira
Pela definição 9 podemos agora escrever a função de probabilidade condicional de X dado Y
y
ente
Definição 10:
p
e
x)-(y - 8x-y x- 6x p) - (1p
x-y
8
p) - (1p
x
6
y) f(x, ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
y- 14y p) - (1p
y
14
y) P(Y f(y) ⎟⎟⎠
⎞
⎜⎜⎝
⎛===
=
onde todos os termos que envolvem o parâme
cancelados.
tro desconhecido p foram convenientem
Considere X1, X2, ... , Xn como variáveis aleatórias com as respectivas
funções de probabilidade f1 (x1), f2 (x2), ... , fn (xn) e com a função de probabilidade conjunta f
(x1, x2, ... , xn ). Então X1, X2, ... , Xn são mutuamente independentes
(17) se: f(x1, x2, ... , xn ) = f1 (x1) f2 (x2) ... fn (xn)
para todas as combinações dos valores de x1, x2, ... , xn.
Exemplo 9: Considere o experimento descrito no exemplo 8. Então, a função de
probabilidade de X é dada por
e a função de probabilidade de Y é dada por
∫ ≤≤ ≤≤
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
==
8 x -y 0
6 x 0
para
y
14
x-y
8
x
6
f(y)
y) f(x, y)f(x )16(
y - 14y
2 p) - (1p y
14
y) (Y P (y)f (19) ⎟⎟⎠
⎞
⎜⎜⎝
⎛===
x- 6x
1 ) p - (1p x
6
x) (X P (x) f (18) ⎟⎟⎠
⎞
⎜⎜⎝
⎛===
Desde que:
f(x, y) = P(X = x, Y = y) = y)
vemo
e, por esta razão, X e Y não são independentes.
P(X = x | Y = y) P(y =
O uso das equações (16) e (19) resulta na função de probabilidade conjunta de X e Y,
sendo dada por
desde que:
s que:
f(x, y) é diferente de f1(x) f2(y)
y - 14y p) - (1p
x-y
8
x
6
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
⎠⎝
y x - 20y x
21 p) - (1p y
14
x
6
(y)f (x)f ++⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
y - 14y p) - (1p
y
14
y
14
x-y
8
x
6
y) f(x, ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟
⎞
⎜⎜
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
=
CAPÍTULO 5
DISTRIBUIÇÃO NORMAL
Uma função de distribuição mostra, para uma população, a freqüência relativa
(números reais) de uma variável aleatória
urais que são
con r) ou distribuição com a forma
de s
(probabilidade) com que diferentes valores
ocorrem. Em geral, cada população tende a ter a sua própria distribuição. No entanto, a
distribuição normal é a mais popular de todas por causa de sua grande aplicabilidade na
aproximação do comportamento de um grande número de variáveis aleatórias nat
tínuas. Ela é conhecida como distribuição de Gauss (difuso
ino – V. Figura 5.1. abaixo.
Função:
( ) ( )( )σµπσσµ
2
5.0
2
1,;
−−=
x
exn
Para: +∞<<∞− x
µ
σ
-3 -2 -1 1 2 3
z
68,27%
95,45%
99,73%
- ∞ + ∞
Figura 5.1: Curva normal pad
rão
Propriedades:
9 A curva normal padrão (CNP) tem µ = 0 e σ = 1
9 A CNP é simétrica em torno de zero
ibuição normal. Se você usar os testes desenvolvidos com base na distribuição normal,
sem atender a condicionante da normalidade, o teste perde a robustez e a consistência e os
9 Área sob a CNP é igual a 1
9 A CNP se estende indefinidamente em ambas direções
9 A maior parte (99,73%) da CNP fica entre -3 σ e +3 σ
Toda a estatística paramétrica foi desenvolvida com base nos pressupostos da
distr
seus re o
da normalidade.
ativa da média
verdadeira da população, µ. Por exemplo, podemos estar interessados em saber:
ter a idade m a tarefa muito fácil. Não há necessidade de fazer
r por 18. Entretanto, em nossa área de
“muito grandes” com tendência ao
infinito
sultad s podem perder toda a confiabilidade. Entretanto, nem sempre as variáveis
aleatórias distribuem-se na forma perfeita de um sino (µ = 0 e σ = 1). Há várias maneiras
de superar este tipo de obstáculo, como aumentar o número de amostras e fazer
transformações. Só não pode ignorar o detalhe
5.1. Estimando a média da população:
Na estatística de inferência tudo gira em torno da obtenção da estim
9 o volume médio, µ, de uma determinada área florestal9 a idade média, µ, dos estudantes da turma-2006 do CFT
Se a população é pequena, µ é calculada sem problemas; no caso de populações
maiores, a média tem que ser estimada usando amostragem de parte da população. No caso do
CFT, 18 estudantes, ob édia é um
amostragem, basta somar a idade de cada um e dividi
conhecimento, a gente só trabalha com populações
. Neste caso, fica muito difícil e caro, senão impossível, obter a média verdadeira da
população, µ. Levando em conta os princípios e as condicionantes da amostragem, é possível
obter informação suficientemente precisa (e confiável) sobre µ tomando apenas parte da
população para estimar a média amostral x
_
.
Exemplo 1: queremos saber a idade média dos estudantes da pós-graduação do INPA,
que tem uma população igual a 200. Para isso, selecionamos, aleatoriamente, 10 estudantes e
anotamos a idade de cada um. Portanto, temos uma amostragem de 10 estudantes de uma
população de 200 - hipoteticamente.
Quadro 5.1. idades de 10 estudantes de pós-graduação do INPA
estudante 1 2 3 4 5 6 7 8 9 10
idade 23 25 26 28 26 24 25 27 30 26
A idade média (amostral) será:
x
_
= ( ∑ xi ) / n
para: n = 10 e i = 1, 2, ... n
x
_
= 26 anos
Se você utilizou uma amostra representativa da população, você estará afirmando que
a média s, µ, deve ser em torno de 26 anos. verdadeira da população dos 200 estudante
Diante disso, surgem algumas questões:
(i) Qual é a justificativa para utilizar a média amostral x
_
para estimar a média da
população µ ?
(ii) Qual é a confiança sobre a precisão envolvida ao usar x
_
para estimar µ ? No
exempl , ual é a probabilidade da idade o 1 se uma amostragem com 10 estudantes é utilizada, q
x
_
média a ostral, m , estar dentro de um intervalo (vamos dizer, 1 ano) da média da população,
µ ?
) amostragem para assegurar uma certa
precisã o
(iii Qual é a necessária intensidade de
o c m grande confiança? No exemplo 1, quão grande deveria ser uma amostragem
(10? 20 estudantes?) para assegurar que 95% de todos os possíveis x
_
caíssem dentro de um
interva
er todas estas questões nesta apostila. A primeira será respondida,
parcialm
lo de 1 ano da média da população, µ ?
Vamos respond
ente, neste capítulo e completada no capítulo 6. As outras duas (ii e iii) serão
respondidas nos capítulos 6 e 7, respectivamente.
Ao amostrar uma população, a média amostral, x
_
, é uma variável aleatória. No
capítulo média da população.
A ince ce sobre qual a amostra foi selecionada.
Apesar disso, a incerteza dim
sentenç
6, vamos ver, em detalhes, como este valor é “parecido” com a
rteza da estimativa depende de uma chan a
inui com o aumento da intensidade de amostragem. Isto é uma
a de um teorema matemático chamado “a lei dos grandes números” e é a nossa
justificativa para usar x
_
para estimar µ.
5.2. Curva normal padrão (CNP) ou curva-z:
A “lei dos grandes números” é a nossa justificativa matemática para usar x
_
para
sma forma, ela não é particularmente útil para
isão de tais estimativas. Esta lei, por exemplo,
estimar µ ...justifica, mas não explica. Da me
responder questões práticas envolvendo a prec
não informa sobre a probabilidade de x
_
estar dentro do intervalo de 1 ano de µ. As
probabilidades para x
_
podem ser obtidas “aproximadamente” usando áreas sob certas curvas
forma de “sino”.
H
em
á várias curvas normais, que variam de acordo com a média e desvio padrão, µ e σ.
a, usar a CNP para obtenção
em todas as probabilidades (áreas sob a CNP) calculadas com precisão de dois
No entanto, a curva que norteia todas as outras curvas, é a curva normal padrão (Figura 5.1).
Tanto a forma como as propriedades da CNP podem ser vistas nesta figura. Só existe uma
única curva normal padrão, com µ = 0 e σ = 1. Quando você tem pela frente situações com
médias e desvios diferentes de 0 e 1, respectivamente ... não entre em pânico! Tudo que tem
que ser feito é “padronizar” a sua variável aleatória e, em seguid
das probabilidades (ou áreas).
A curva apresentada na Figura 5.1. foi desenhada depois de integrar a função de
distribuição, de z = 0 a z = 3,9 para a primeira metade da curva à direita de 0. Como a parte da
curva à esquerda de 0 é espelho da parte à direita, as probabilidades da esquerda foram
calculadas de z = -3,9 a z = 0. Portanto, o trabalho braçal já está feito. A Tabela 1 (anexo da
apostila) t
dígitos.
Vamos ver como funciona a Tabela 1 (anexo da apostila) usando alguns exemplos. As
figuras que ilustram o uso da Tabela 1 estão no anexo deste capítulo.
Exemplo 2: Achar a área sob a curva normal padrão (CNP) à esquerda de z = -0,97.
9 A solução gráfica está na Figura 5.2-a.
9 Você vai direto à tabela 1 e procure z = -0,9 (sentido vertical), depois o centésimo
(7) (sentido horizontal) e no encontro dos dois números (0,97), você tem a área (que é a
probabilidade) sob a CNP.
9 Neste caso, a área é igual a 0,1660. Isto quer dizer que 16,6% da área está à
esquerd
P é igual a 1.
a de z = -0,97 ou que 83,4% está à direita de z = -0,97.
9 Não esquecer que a área total sob a CN
Exemplo 3: Achar a área sob a CNP à direita de z = 2,5.
9 Veja a solução gráfica na Figura 5.2-b.
9 De novo, você vai à tabela 1 e procure z = 2,5, depois o centésimo 0 e no encontro
dos dois números (2,50), você tem a área (que é a probabilidade) sob a CNP.
9 Neste caso, você está calculando a área sob a CNP de - ∞ até 2,5, que dá 0,9938 ...
à esque
ubtrair de 1 (área
total da á 1 –
0,9938 eita da CNP.
rda de z = 2,5.
9 Como você quer saber a área à direita de z = 2,5, você tem que s
CNP) e aí sim você terá a área à direita de z = 2,5. Assim, a área à direita ser
= 0,0062, ou seja, 0,62% da área está à dir
Exemplo 4: Achar a área sob a CNP entre z = -1,04 e z = 2,06.
9 Veja a solução gráfica na Figura 5.2-c.
9 Neste caso, são necessários os seguintes passos: (1) achar a área à esquerda de z =
-1,04, que é igual a 0,1492; (2) achar a área à direita de z = 2,06, que é igual a 0,9803; (3)
calcular a área entre z = -1,04 e z = 2,06, que é dada pela diferença (0,9803 – 0,1492), que é
igual a 0,8311.
5.3. Á
ntrar as áreas sob a curva normal padrão
(CNP). riações da média µ e
do desvio padrão ostral
9 Portanto, a resposta é: a área sob a CNP entre z = -1,04 e z = 2,06 é 0,8311, ou seja,
83,11% da área da CNP está entre os dois pontos de “z”.
reas sob outras curvas normais:
Na seção anterior mostramos como enco
No entanto, há várias curvas normais, que variam de acordo as va
σ. Para calcular as probabilidades (áreas sob a CNP) para a média am
x
_
(o princip
são usualmente representados por média µ e desvio padrão σ. O parâmetro µ
nos diz
No entanto, no mundo real esta condição de µ = 0 e σ = 1 é praticamente impossível
Igual à CNP, a
ou
assimétrica. A assimétrica pode ser negativa (maior freqüência dos dados tendendo à direita
al objetivo), precisamos ser capazes de encontrar as áreas sob qualquer curva
normal.
Cada curva normal pode ser identificada por 2 números chamados parâmetros. Estes
dois parâmetros
onde a curva está centrada e σ indica a dispersão da curva normal. Como vimos na
Figura 5.1, quando µ = 0 e σ = 1, temos a curva normal padrão.
de ser verificada. Os parâmetros µ e σ variam entre populações diferentes.
curva normal (ou curvas normais) é centrada na µ e quanto maior for σ, mais dispersa
(achatada ou esparramada) será a curva. A curva normal tem as mesmas propriedades da
CNP. A única diferença é que o eixo horizontal da CNP é z e das outras curvas normais, o
eixo é x.
As curvas normais podem assumir diferentes formas. As figuras 5.3-a, 5.3-b e 5.3-c
ilustram as diferentes formas, as quais podem serconsideradas, respectivamente, como
platicúrtica, mesocúrtica e leptocúrtica. É óbvio que existe um limite de achatamento para que
a curva seja considerada normal. Este limite pode ser determinado usando o teste de
achatamento ou curtose. Da mesma maneira, a curva normal pode ser simétrica
do eixo horizontal) e positiva (maior freqüência tendendo à esquerda do eixo) – V. Figura 5.4.
Também neste caso, há limite para a assimetria, que pode ser definido usando o teste de
assimetria.
Exemplo 5: Achar área sob a rv rm = σ ) x = 1 e x = -1.
ção gráfica na r -a
: z = 3,0 (para x = 1) e z = 1 (para x = -1).
tanto, a resposta é: a área sob a curva normal entre x = -1,0 e x = 1,0 é 0,1574,
cu a no al (µ -2 e = 1 entre
9 Veja a solu Figu a 5.5 .
9 Primeiro de tudo é preciso padronizar a variável aleatória “x”.
9 Os resultados da padronização são
9 Agora, você vai a Tabela 1 (anexo da apostila) para: (1) achar a área à direita de z =
3,0, que é igual a 0,9987; (2) achar a área à direita de z = 1, que é igual a 0,8413; (3) calcular
a área entre z = 3,0 e z = 1,0, que é dada pela diferença (0,9987 – 0,8413), que é igual a
0,1574.
9 Por
ou seja, 15,74% da área sob a curva normal está entre os dois pontos de “x”.
Exemplo 6: Achar a área sob a curva normal (µ = 3 e σ = 2) entre x = 2 e x = 7.
9 Veja a solução gráfica na Figura 5.5-b.
9 Primeiro de tudo é preciso padronizar a variável aleatória “x”.
2,0 e x = 7,0 é 0,6687, ou
9 Os resultados da padronização são: z = -0,5 (para x = 2) e z = 2,0 (para x = 7).
9 Agora, você vai a Tabela 1 (anexo da apostila) para: (1) achar a área à esquerda de z
= - 0,5, que é igual a 0,3085; (2) achar a área à direita de z = 2, que é igual a 0,9772; (3)
calcular a área entre z = -0,5 e z = 2,0, que é dada pela diferença (0,9772 – 0,3085), que é
igual a 0,6687.
9 Portanto, a resposta é: a área sob a curva normal entre x =
seja, 66,87 % da área sob a curva normal está entre os dois pontos de “x”.
Exemplo 7: Achar área sob a curva normal (µ = 6 e σ = 3) entre x = 0 e x = 12.
9 Veja a solução gráfica na Figura 5.5-c.
9 Primeiro de tudo é preciso padronizar a variável aleatória “x”.
9 Os resultados da padronização são: z = -2,0 (para x = 0) e z = 2 (para x = 12).
9 Agora, você vai à Tabela 1 (anexo da apostila) para: (1) achar a área à direita de z =
2,0, que é igual a 0,9772; (2) achar a área à esquerda de z = -2, que é igual a 0,0228; (3)
calcular a área entre z = 2,0 e z = -2,0, que é dada pela diferença (0,9772 – 0,0228), que é
ual aig 0,9544.
9 Portanto, a resposta é: a área sob a curva normal entre x = 0 e x = 12 é 0,9544, ou
seja, 95,44 % da área sob a curva normal está entre os dois pontos de “x”.
5.4. Populações normalmente distribuídas e variáveis aleatórias:
Agora chegou a vez de ver como se usa as áreas sob as curvas normais para encontrar
as probabilidades para x
_
(aproximadamente). Antes, porém, vamos fazer algumas
considerações sobre populações e variáveis aleatórias normalmente distribuídas.
A grande maioria (não todas) das populações e variáveis aleatórias que são
representadas por quantidades como peso, volume, área basal, DAP etc. tem distribuição de
probabilidade que pode ser representada, pelo menos aproximadamente, por meio de curvas
normais. Em outras palavras, as probabilidades para tais quantidades podem ser encontradas
s normais. Vamos ver isso com exemplos. por meio da interpretação das áreas sob as curva
Exemplo 8: Uma população consistindo do peso (em kg) de um grupo de 100
estudantes de mestrado. Os dados da população estão sumarizados no quadro abaixo.
Quadro 5.2: distribuição de pesos de uma população em intervalos de 1 kg.
Peso (x) 69 70 71 72 73 74 75 76 77 78 79
freqüência (f) 1 2 6 13 17 20 18 12 7 3 1
f relativa (prob) ,01 ,02 ,06 ,13 ,17 ,20 ,18 ,12 ,07 ,03 ,01
O histograma e o polígono de freqüências (absoluta e relativa) dos dados contidos no
.
Como em qualquer população, podemos associar a esta população de pesos, uma
plesmente as freqüências relativas. Exemplo: qual é probabilidade
de pegar um estudante com peso ig % ou 0,13 (freqüência relativa do
quadro 5.2).
rmos das
s parâmetros µ e σ, onde µ é a média da
Do quadro 5.2, a média (µ
padrão (σ) é igual a 1,95. Estes dois parâm
trabalhar com uma curva normal 1,95. Podemos querer saber, por
.2, temos a probabilidade exata disto acontecer, olhando apenas para a freqüência
iferente. Nem sempre você tem uma população tão
r µ e σ e as freqüências relativas. Vamos
quadro 5.2 são apresentados na Figura 5.6
variável aleatória x, como o peso de um estudante selecionado ao acaso. Neste caso, as
probabilidades de x são sim
ual a 72 kg? Resposta: 13
O ponto importante deste exemplo é que o histograma de freqüência (Figura 5.6) tem
uma quase perfeita forma de sino. Por causa disto, seremos capazes de aproxima
probabilidades para x usando as áreas sob uma curva normal. Como você pode notar, a curva
normal apropriada é simplesmente aquela com o
população (ou da variável aleatória x) e σ é o seu desvio padrão.
) da variável aleatória x é igual a 70,06 kg e o seu desvio
etros podem ser sobrepostos à Figura 5.6 para
com µ = 74,06 e σ =
exemplo, qual é a probabilidade (área) de pegar, aleatoriamente, um estudante com 72 kg. Do
quadro 5
relativa desta classe (72), que é 0,13 ou 13%. A propósito, a classe 72 vai de 71,5 a 72,5.
Desta forma, podemos escrever assim: P (71,5 < x < 72,5) = 0,13.
No entanto, o mundo real é d
pequena e tão bem organizada que permite te
trabalhar, agora, sem as freqüências relativas. Você tem uma população com µ = 74,06 e σ =
1,95 e quer saber qual é a probabilidade (área) de pegar, aleatoriamente, um estudante com 72
kg.
Passos necessários: (1) desenhar a curva normal com µ = 74,06 e σ = 1,95; (2) definir
o quê você está procurando, que é a probabilidade P (71,5 < x < 72,5); (3) padronizar as
variáveis aleatórias, x = 71,5 e x = 72,5; (4) achar as áreas para os respectivos “z” sob a CNP
exo da apostila).
Solução
(Tabela 1 do an
: a padronização das variáveis aleatórias x = 71,5 e x = 72,5 resulta em z = -
1,31 e vai à Tabela 1 para encontrar as áreas sob a
CNP para z = -1,31 e z = -0,80, obtendo as áreas 0,0951 e 0,2119, respectivamente. O
0,0951 = 0,1168, ou seja, a probabilidade de selecionar,
com peso igual a 72 kg (71,5 a 72,5) é de 11,68%.
z = -0,80, respectivamente. Agora, você
resultado é então: 0,2119 -
aleatoriamente, um estudante
Sumarizando: a probabilidade exata de selecionar, aleatoriamente, um estudante com peso
igual a 72 kg é de 13% e a estimada é de 11,68%.
Um importante ponto do exemplo 8 é que, para certas populações e certas variáveis
são aproximadamente
.5. P variável aleatória:
va normal com parâmetros diferentes de
µ = 0 e onverter os valores de x para valores de
z por m
aleatórias, podemos usar as áreas sob a curva normal para determinar as probabilidades. Neste
caso, podemos dizer que a população ou a variável aleatória é normalmente distribuída. Dizer
que uma população ou variável aleatória é normalmente distribuída (aproximadamente)
significa que as probabilidades para a população ou variável aleatória
iguais às áreas sob a curva normal.
5 adronizando a
Já vimos que para encontrar as áreas sob a cur
σ = 1 é preciso usar a padronização, ou seja, c
eio da seguinte fórmula:
σ
µ−= xz
antes mos ver o significado de z e seus
desdob
xemplo 9
de usar a curva normal padrão (CNP). Va
ramentos com exemplos.
E : Considere o DAP de uma árvore selecionada ao acaso. Então, DAP é uma
variáve édia µ = 100 cm e desvio padrão σ = 10. Por meio da padronizaçãoda variável
l aleatória x com m
os x terem
x 100−=z
10
ente, uma árvore qualquer da ZF-2, com 120 cm de DAP, por
exemplo, o que acontece?
e a árvore selecionada,
a população.
O processo pode ser também invertido, ou seja, temos o z e queremos encontrar o
valor da variável aleatória x. Vamos ao exemplo.
Exemplo 10
e se pegarmos, aleatoriam
z = (120 – 100) / 10 = 2
Qual é o significado deste número, z = 2? Isto significa qu
aleatoriamente, com DAP = 120 cm está a dois desvios (σ) da média d
: temos z = 1,5; isto é, a variável x está 1,5 vez σ da média. Qual é x?
1,5 = (x – 100) / 10 = ?
x = 100 + 10(1,5) = 115
ou seja, nesta população, uma árvore para estar 1,5 vez do desvio, tem que ter DAP igual a
115 cm.
Agora, vamos ao principal ponto desta seção. Considere x uma variável aleatória
normalmente distribuída com média µ e desvio padrão σ. Então, a variável aleatória, que pode
ser padronizada da seguinte maneira:
σ
µ−= xz
tem a distribuição normal padronizada. Desta maneira, nós calculamos as probabilidades para
a variável x por meio da interpretação das áreas sob a CNP. Daqui para frente, este fato será
usado como guia.
Exemplo 11: pense na floresta adulta (DAP ≥ 25 cm) do Distrito Agropecuário da
Suframa, onde todos os DAPs são normalmente distribuídos com µ = 35 cm e σ = 5.
Sabemos que a var
iável x padronizada
5
35−=−= xxz σ
µ
tem a distribuição normal pa m as propriedades da CNP
mos
drão. Isto quer dizer que, de acordo co
te
( )
( ) 9545,022 =<<−
( ) 6827,011
9973,03
=<<−
3 =<<−
zP
zP
Considerando que z é simplesmente o número de desvios padrões que x se afasta de
sua média, podemos dizer que as probabilidades para intervalos contendo ± 1 desvio, ± 2
desvios e ± 3 desvios são, respectivamente, 0,6827, 0,9545 e 0,9973.
No caso da floresta do Distrito, isto quer dizer, com base nos parâmetros de média µ =
35 cm e desvio σ = 5, temos o seguinte:
(i) P (-1 < z < 1)
35 – 1 (5) = 30
35 + 1 (5) = 40 => limite superior do intervalo
(ii) P (-2 < z < 2)
35 – 2 (5) = 25 => limite inferior do intervalo
35 + 2 (5) = 45 => limite superior do intervalo
(iii) P (-3 < z < 3)
35 – 3 (5) = 20 => limite inferior do intervalo
35 + 3 (5) = 50 => l
Sumarizando:
a) 68,26% das árvores do Distrito têm DAPs entre 30 e 40 cm
b) 95,44% das árvores do Distrito têm DAPs entre 25 e 45 cm
c) 99,74% das árvores do Distrito têm DAPs entre 20 e 50 cm
zP
=> limite inferior do intervalo
imite superior do intervalo
-3 -2 -1 1 2 30
σ
µ = 0
z
Z = -0,97
Área = 0,1660
Figura 5.2-a: área à esquerda de z = -0,97
-3 -2 -1 1 2 30
σ
µ = 0
z
Z = 2,5
Área = 0,9938
Figura 5.2-b: área à direita de z = 2,5
Passo 1: área para z = -1,04 Passo 2: área para z = 2,06
-3 -2 -1 1 2 30
σ
µ = 0
z
Z = -1,04
Área = 0,1492
-3 -2 -1 1 2 30
σ
µ = 0
z
Z = 2,06
Área = 0,9803
Final: Área entre z = - 1,04 e z = 2,06
-3 -2 -1 1 2 30
σ
µ = 0
z
Z = 2,06Z = -1,04
Área = 0,9803 – 0,1492 = 0,8311
Figura 5.2-c: entre z = - 1,04 e z = 2,06
µ = -2
σ = 1
Figura 5.3-a: curva normal com
µ = 3
σ = 2
Figura 5.3-b: curva normal com
µ = 6
σ = 3
Figura 5.3-c: curva normal
630-3 9 12 15
-2-3-4-5 -1 0 1
x
31-1-3 5 7 9
x
POSITIVA NEGATIVA
ASSIMETRIA
Figura 5 ormais
.4: Assimetria das curvas n
-2-3-4-5 -1 0 1
0-2-3 1 2 3-1
Padronizando “x”
x - µ
z = ------------
σ
1 – (-2)
z = ------------ = 3,0
1
-1 - (-2)
z = ------------ = 1,0
1
x
z
Área sob a curva normal (µ = -2 e σ = 1) entre x = 1 e x = -1)
z = 3z = 1
Figura 5.5-a: Exemplo 5
31-1-3 5 7 9
0-1-2-3 1 2 3
x
z
Padronizando “x”
x - µ
z = ------------
σ
Área sob a curva normal (µ = 3 e σ = 2) entre x = 2 e x = 7)
2 – (3)
z = ------------ = -0,5
2
7 - (3)
z = ------------ = 2,0
2
z = 2z = - 0,5
Figura 5.5-b: Exemplo 6
630-3 9 12 15
0-1-2-3 1 2 3
x
z
Padronizando “x”
x - µ
z = ------------
σ
Área sob a curva normal (µ = 6 e σ = 3) entre x = 0 e x = 12)
0 – (6)
z = ------------ = -2,0
3
12 - (6)
z = ------------ = 2,0
3
z = -2,0 z = 2,0
Figura 5.5-c: Exemplo 7
0
25
5
10
15
20
fr
eq
a
bs
ol
ut
a
0,05
0,1
0,15
0,2
fr
eq
re
la
tiv
a
(p
ro
b)
69 70 71 72 73 74 75 76 77 78 79
peso (kg)
0
0,25
Figura 5.6: Histograma e polígono de freqüência (absoluta e relativa).
x
_
Capítulo 6 – Distribuição amostral da média ( )
anejo
,
Por analogia, média (volume) de uma floresta é o mesmo que a “média” usada para
definir café-com-leite em muitos bares do sul e sudeste do Brasil. Em um copo de 100 ml,
uma média deveria ter 50 ml de café e 50 de leite. Certo? Errado ... porque se fosse assim, o
balconista não teria na ponta da língua aquela pergunta: “mais café ou mais leite?” Mais leite
ou mais café vai depender do gosto do freguês e da mão do balconista. Você tem que confiar
por causa dos custos de coletas de
em é o número total de amostras ( n ) dividido pelo número
500 m2 cada (¼ hectare) para realizar o inventário florestal; neste
aso n = 100 e N = 4.000 (nº total de possíveis amostras de, ¼ ha, ou seja, 20x125m).
Do ponto de vista teórico, vamos mostrar como calcular as probabilidades de
Todo eng florestal sabe que o inventário florestal é o primeiro passo para planejar o
m sentido lato de uma floresta, nativa ou artificial. O inventário, por sua vez, consiste
em obter uma média representativa da população de interesse seja em termos de volume, área
basal ou outra variável de interesse.
O que é uma média representativa?
ou parar de tomar aquela “média” naquele bar. De qualquer modo, o total do copo não passará
de 100 ml, ou seja, o excedente de café (+) será anulado pelo que falta de leite (-) ou vice-
versa.
Vamos mostrar neste capítulo que a estimativa de uma média tende sempre a ser
parecida com a média verdadeira da população. O que muda é o desvio padrão, que é base de
cálculo da incerteza. A tendência é diminuir a incerteza (que é bom) com o aumento da
intensidade de amostragem. Portanto, média representativa é aquela que proporciona
confiança (incerteza sob controle) e conforto ($) para quem vai usá-la.
6.1. Amostras aleatórias
Amostra pode ser um único indivíduo ou um conjunto deles. No caso de pesquisas de
opinião, cada eleitor é uma amostra. No caso de inventário florestal, um conjunto de árvores
corresponde a uma amostra. Na Amazônia, vários estudos apontam que parcela de 2.500 m2 é
suficiente para cobrir as variações (volume) de uma determinada área florestal com DAP ≥ 20
cm, ou seja, um conjunto com aproximadamente 50 árvores.
Em geral, as amostras têm que ser tomadas de forma aleatória, pois foi assim que a
estatística de inferência foi concebida. No entanto, a amostragem aleatória pode ser
desdobrada em: inteiramente aleatória e aleatória restrita. Tanto nos inventários, como em
pesquisas de opinião, a aleatória restrita é a mais utilizada
dados e tem produzidobons resultados. No caso de eleições presidenciais, a população de
eleitores brasileiros é estratificada por sexo, idade e, principalmente, por densidade eleitoral.
Em inventários na Amazônia, a maioria utiliza a amostragem em dois estágios, ou seja,
seleciona aleatoriamente a unidade primária e distribui as unidades secundárias de forma
sistemática.
Intensidade de amostrag
total de possíveis amostras em uma população ( N ). Por exemplo: os institutos de pesquisas
(Ibope, Datafolha etc.) ao realizar uma pesquisa de opinião sobre eleições presidenciais no
Brasil, têm utilizado em torno de 4.000 eleitores de um total de 115 milhões; neste caso, n =
4.000 e N = 115 milhões. No nosso caso, se você tem uma área de 1.000 hectares e quer
instalar 100 amostras de 2.
c
x
_
usando as áreas sob as curvas normais. Isso quer dizer que temos que determinar a
distribuição da probabilidade da variável aleatória x
_
. A distribuição de probabilidade de x
_
é
chamada de distribuição amostral da média.
6.2. A média da média ( x
_
) e o desvio padrão de ӯ (σ x_ )
O primeiro passo para descrever a distribuição amostral da média é saber como
encontrar a média e o desvio padrão da variável aleatória x
_
. Isto é necessário para usar os
métodos da curva normal para encontrar as probabilidades para x
_
.
As fórmulas para calcular essas duas variáveis são:
⎟⎠
⎞⎜⎝
⎛×⎟⎠
⎞⎜⎝
⎛= −− ∑ −
ix
i
x
pxµ
e ( ) ⎟⎞⎜⎛×−= ∑ ixi px 2µσ ⎠⎝− −− =
ostragem. No entanto, se você entender o significado da estimativa da média
erro padrão da média conforme se aumenta intensidade
ariáve
2 e 3. A situação 1 se refere a uma amostragem considerando n = 2, ou seja,
ixix n1 1
Vamos ver isso por meio de um exemplo meio irreal. Vamos considerar as idades
(congelada em 2003) de cada membro de minha família (eu, mulher e 3 filhos) como uma
população, ou seja, N = 5. Esta situação nunca será encontrada na vida real porque para saber
a idade média dessa família basta somar as 5 idades e dividir por 5 ... ninguém vai utilizar os
recursos da am
da população e o comportamento do
ostragemde am , para uma pequena população (N = 5), fica mais fácil entender essas duas
v is aleatórias quando for trabalhar com uma população grande ou infinita (número de
eleitores do Brasil, N = 115 milhões, floresta da ZF-2 etc.).
Temos 3 situações ilustrando a utilização de 3 intensidades diferentes de amostragem
– anexos 1,
escolha aleatória de 2 pessoas para estimar a média da população. Primeiro você tem que
saber quantas combinações são possíveis ao sortear 2 (n) de um conjunto de 5 (N) pessoas. Só
para lembrar: fatorial de zero (0!) é igual a 1 e fatorial de números negativos ou não inteiros
não existe. Isto é mostrado na página que ilustra a situação 1. Depois disso, você tem que
estimar a média de cada combinação possível. Aplicando a fórmula de µ x_ você vai encontrar
a média da média de todas as possíveis combinações. Você vai notar que a média da média é
exatamente igual à média verdadeira da população.
Repetindo as mesmas operações para as situações 2 e 3, respectivamente, amostragens
de n = 3 e n = 4, você vai notar que a média da média será sempre igual à média da
população, mudando apenas o desvio padrão da média. Resumindo: a média da amostra será
se muito parecida com a da população e conforme você aumenta o n, o desvio padrão da
média (ou erro ou incerteza) d inui. Você se convenceu desta afirmativa? Se não, é melhor
tentar a vida em outra praia.
Se sim, vamos pensar agora em termos de população de verdade. Vamos falar de
eleitores brasileiros. Em geral, os institutos utilizam aproximadamente 4.000 eleitores para
in erir
mpre
im
f sobre a população de 115 milhões de eleitores brasileiros. Quantas possíveis
mbinco ações são possíveis quando a gente utiliza n = 4000 de N = 115 milhões? É só fazer as
contas ... mas não as faça.
115.000.000 115.000.000 !
= ------------------------------------- possíveis combinações
4.000 4.000 ! (115.000.000-4.000) !
115.000.000 115.000.000 !
= ------------------------------------- possíveis combinações
4.000 4.000 ! (115.000.000-4.000) !
É óbvio que ninguém vai fazer todas as possíveis combinações. Se fizesse, a média da
média seria exatamente igual à média da população. Então, o que é feito? As empresas tomam
apenas uma única combinação de 4000 eleitores para in
ferir sobre a população de eleitores
pressupondo que a média estimada na pesquisa será igual à da população e que n = 4000
produzirá uma incerteza (erro) menor que n = 3.999.
Em uma floresta de porte médio como a da ZF-2, por exemplo, com 21.000 hectares,
temos N = 84.000 (21000 x 4) amostras possíveis de ¼ ha cada. Se a gente usar n = 50,
quantas possíveis combinações seriam possíveis? Várias. Quantas combinações a gente faria
no caso de um inventário florestal? Certamente, apenas uma. A nossa expectativa é ter uma
média (volume ou outra variável) representativa da população com uma margem de erro
aceitável.
A média é importante porque sem ela não há planejamento. No entanto, mais
importante mesmo é saber com que margem de erro (incerteza) a gente está trabalhando. É
importante também não perder de vista que a intensidade de amostragem está diretamente
relacionada com os custos. No caso de inventários, você tem duas alternativas: (1) fixa a
incerteza e libera os custos ou (2) fixa os custos e libera a incerteza. Em geral, a segunda
alternativa é a mais freqüente. Há meios para se prevenir de incertezas indesejadas.
Em inventários florestais, você pode se prevenir utilizando boas imagens, bons mapas,
bons equipamentos e métodos adequados de amostragem, em combinação com planejamento
de coleta e processamento dos dados. Estamos falando de erros de amostragem (o erro que
você comete por medir apenas parte da população). Não confundir com erros não-amostrais
(humanos, principalmente), que não são tratados aqui. Não esquecer também que n é
denominador.
6.3. Teorema do limite central
Vimos até aqui que a confiança na média passa pela confiança nas probabilidades que
a gente trabalha. No próximo capítulo vamos ver como calcula a incerteza de uma estimativa.
Aqui, vamos nos concentrar nas probabilidades obtidas usando as áreas sob as curvas
normais.
Temos a curva normal padrão com µ = 0 e σ = 1. Com a integração da função que
descreve esta curva, a gente obtém as probabilidades. Estas áreas já foram calculadas por
vários autores e estão disponíveis em apêndices de livros de estatística, tabela-z. No mundo
real, a curva normal com estas características não existe. Por esta razão, a gente tem que
padronizar as possíveis curvas normais para utilizar a tabela-z. As curvas normais podem ser,
dentro de limites bem definidos, assimétricas ou achatadas, diferentes da forma de sino. Para
isso, há testes para saber se as suas variáveis de interesse estão dentro desses limites.
Difícil mesmo é fazer a nossa variável ficar dentro dos limites da distribuição normal.
Não entre em pânico ainda! O remédio para essa situação é o “teorema do limite central”. O
que diz este teorema?
“Quando uma amostragem aleatória de tamanho n (onde n é pelo menos igual a 30) é
tomada de uma população, a x
_
é aproximadamente normalmente distribuída com µ x_ = µ e
desvio padrão da média σ x_ = σ/ n . Nestas condições, as probabilidades para x
_
podem ser
encontradas, aproximadamente, utilizando as áreas sob a curva normal com os parâmetros µ e
σ x_ .”
Isto q ua variável
aleatória assumir, você pode tabela-z, desde que n ≥ 30.
Significa também que para as amostras aleat ias de qualquer distribuição com média µ e
desviopadrão σ
uer dizer que: independentemente da forma que a distribuição de s
calcular as probabilidades usando a
ór
x
_
, a média amostral dessas unidades de tamanho n é aproximadamente
normal e esta aproximação melhora conforme aumenta o n. Para se chegar a este “número
mágico” igual a 30, foram feitas inúmeras sim lações até constatar que acima deste número
b a curva normal e de outras funções.
Tanto em t abalhos u ários orestais, o ide u ma
a agem m, enos 0 unid s amo is. S ê f ass inc que
con , é nsistente; caso contrário, você terá que compro no dad s de
p sit uma amostragem com n < 30 é considerada “pequena” e a curva- que
t se iza a para a obt ção da babi es.
se
u
não se percebe diferenças entre as áreas so
r de pesq isas ou de invent fl al é tilizar u
mostr co pelo m , 3 ade stra e voc izer im, a erteza
evocê en
in . A
trar co var a rmali ante
ferir ropó o, t é a
em que r util d en s pro lidad
Anexo 1
Situação 1
Tomando om N = 5 uma amostragem com n = 2 de uma população c
Quantas combinações são possíveis?
( ) ( ) 10
120
!2
!5
!!
! =−=⎟⎠
⎞⎜⎝
⎛
nNn
NN
n
combinações
12!25
==−
População Amostragem
nome idade comb. idade1 idade2 x
_
x
_
p * p Desvio
NH 51 1 51 46 4 4,85 38,5 0,1 3,49
MIGH 46 2 51 22 36,5 3,65 0,1 3,97
IGH 22 3 51 20 35,5 3,55 2,810,1
FGH 20 4 51 12 3 3,15 1,5 0,1 0,17
GGH 12 5 46 22 3 3,40 4,0 0,1 1,44
média 30,2 33,0 3,30 0,78 6 46 20 0,1
desvio 17,21 7 46 12 29,0 2,90 0,1 0,14
2 2 8 22 20 1,0 0,1 ,10 8,46
1 1 19 22 12 7,0 0,1 ,70 7,42
1 1 210 20 12 6,0 0,1 ,60 0,16
µ x_ 3 88,860,2
σ x_ 9,43
µ = 30,2
µ x_ = 30,2
Coincidência? Não!
Anexo 2
Situação 2
Amostragem de n = 3 da população com N = 5
Quantas combinações são possíveis?
( ) ( ) 10
120
3
!5
!!
! =−=⎟⎠
⎞⎜⎝
⎛
nNn
NN
n
combinações
idade3
12!35!
==−
População Amostragem
nome idade comb. idade1 idade2 x
_
x
_
* p Desvio
NH 51 31 51 46 22 9,67 3,97 8,96
MIGH 46 32 51 46 20 9,00 3,90 7,74
IGH 22 33 51 46 12 6,33 3 ,63 3,76
FGH 20 4 51 22 20 31,00 3,10 0,06
GGH 12 5 51 22 12 28,33 0,35 2,83
média 30,2 6 51 20 12 27,67 0,642,77
desvio 7,21 7 46 22 20 0,081 29,33 2,93
8 46 22 12 26,67 2,67 1,25
9 46 20 12 26,00 2,60 1,76
10 22 20 12 18,00 1,80 14,88
µ x_ 30,20 39,49
σ x_ 6,28
µ
µ
= 30,2
x
_ =
oincidência de novo? Não!
30,2
C
Anexo 3
Situação 3
Amostragem de n = 4 da população de N = 5
Quantas combinações são possíveis?
( ) ( ) 524
120
!45!4
!5
!!
! ==−=−=⎟⎠
⎞⎜⎝
⎛
nNn
NN
n
combinações
População Amostragem
x
_
p x
_
n idade idadome e1 idade2 idade3 idade4 * p desvio
NH 4,141 51 51 46 22 20 34,75 0,2 6,95
MIGH 46 51 46 22 12 32,75 0,2 6,55 1,301
IGH 22 51 46 20 12 32,25 0,2 6,45 0,841
FGH 20 51 22 20 12 26,25 0,2 5,25 3,121
GGH 12 46 22 20 12 25 0,2 5 5,408
média 30,2 µ x_ 14,81230,2
desvio 17,21 σ x_ 3,85
µ = 30,2
µ x_ = 30,2
Coincidência? Não! Por que não?
1) Se você usar todas as possíveis combinações, a média da média µ x_ será sempre igual
a média da população µ, independentem te do tamanho da amostragem.
é o desvio padrão da média ou erro padrão, ou seja, conforme aumenta a
intensidade de am e diminui a incerteza
en
2) O que muda
ostragem, diminui o erro, aumenta a precisão
da sua estimativa.
CAPÍTULO 7
Estim ndo a média da populaça ão
7.1. Intervalos de confiança:
Vimos no capítulo 5 que é razoável usar uma média amostral x
_
para estimar a média
da população ( µ ). A Lei dos Grandes Números diz que: se uma “grande” amostragem
aleatória é tomada de uma população, a x
_
“tende” a ser “parecida” com .
No capítulo 6 discutim que diz: se uma amostragem
µ
os o Teorema de Limite Central
aleatória de tamanho n (n ≥ 30) é tomada de uma população com média µ e desvio padrão σ,
então x
_
é (aproximadamente) normalmente distribuída e, por esta razão, podemos encontrar
as probabilidades para x
_
usando as áreas sob a curva normal com parâmetros µ e σ/ n .
E AGORA??
x
_
Qual é a confiança sobre a precisão envolvida ao usar para estimar µ ?
Estamos falando do Intervalo de Confiança (IC), que será definido com exemplos.
Exemplo 1: Um estatístico está interessado em obter informações sobre a média em
altura de uma população, µ , de todos os adultos masculinos de uma grande cidade.
e que o σ é igual a 2,5”. Se ele tomar uma
mostr
Com base em experiência anterior ele sab
a agem aleatória de 30 adultos, qual é a probabilidade da altura média x
_
estar dentro de
1” da altura média da população, µ ?
Solução: Queremos encontrar a probabilidade da x
_
estar dentro de 1” de µ; que é, P
( < µ - 1 x_ < µ + 1 ). Como n ≥ 30, recorremos ao Teorema de Limite Central para
encontrar as probabilidades para x
_
usando as áreas sob a curva normal com parâmetros µ
(que não conhecemos) e σ / n = 2,5 / 30 = 0,46.
Então, para encontrar - 1 < P ( µ x_ < µ + 1 ), precisamos encontrar a área sob a
arâmetros µ e ,46) entre µ - 1 e µ + 1. curva normal (com p 0
Desta vez não conhecemos µ - 1 e µ + 1, ao contrário de exemplos anteriores. Mas,
mesmo assim, podemos resolver o problema pela padronização de nossa variável aleatória, da
seguinte maneira:
46,0⎟⎠
⎞⎜⎝
⎛ −= µxz
O valor de z para x
_
= µ - 1 é
z = [ (µ - 1) - µ ] / 0,46 = -1 / 0,46 = -2,17
E o valor de z para x
_
= µ + 1 é
z = [ (µ + 1) - µ ] / 0,46 = 1 / 0,46 = 2,17
Da tabela 1, tiramos as áreas sob a curva para z = -2,17 e z = 2,17, que são
respectivamente 0,0150 e 0,9850. A área, então, compreendida entre -2,17 e 2,17 é:
rea = 0,9850 - 0,0150 = 0,97 á
Conseqüentemente,
P ( µ - 1 < x_ < µ + 1 ) = 0,97
Quer dizer: a probabilidade da x
_
estar entre 1” da µ é de 0,97.
x
_
Vamos colocar a expressão anterior de outra maneira: que a deve estar 1” da µ,
que é o mesmo que dizer que “µ está entre 1” de x_ .” Isto pode ser re-escrito da seguinte
maneira:
P ( x
_
x
_
- 1 < µ < + 1) = 0,97
Em outras palavras, sabemo s que se uma amostragem aleatória de 30 adultos masculinos é
tomada, então a probabilidade do intervalo de x
_
- 1 a x
_
+ 1 conter µ é de 0,97.
Suponha agora, por exemplo, que quando o pesquisador tomar uma amostragem
aleatória, ele consegue x
_
= 67”, então
x
_
- 1 = 66 e x
_
+ 1 = 68
Ele sabe que, 97% destes intervalos conterão µ e, por esta razão, ele pode estar 97% certo de
que a µ estará entre 66 e 68. Desta forma, o intervalo de 66 a 68 é chamado de IC 97% para
µ.
.2. Especificando o nível de confiança:
da população µ, com
7
Na seção anterior vimos como encontrar o IC para uma média
base na informação obtida de média amostral x
_
. No exemplo anterior especificamos o
tamanho da amostragem e a forma do IC e, com estas especificações, calculamos a confiança.
Entretanto, freqüentemente é desejável especificar a confiança a priori.
Exemplo 2: A companhia de telefone está interessada em obter informações sobre o
tempo médio, µ , de cada chamada. Um levantamento preliminar indicou que o desvio padrão
as chamadas é σ = 4,4 minutos. Ao monitorar (não grampear) aleatoriamente 100 chamadas,
= 100, chegou-se a um tempo médio
d
x
_
= 5,8 minutos.
Sabendo que
n
x
_
= 5,8, encontraro IC 95% para µ
as previamente) a confiança é
solução para este problema é o inverso do
roced que implica em usar a tabela 1 no sentido
verso z.
Solução
Nesta questão (ao contrário das questões considerad
especificada a priori: queremos um IC a 95%. A
imento usado para resolver o exemplo 1, op
in , ou seja, você tem a área sob a curva (área = 0,05) e precisa encontrar o valor de
: Encontrar o valor-z, para o qual a área sob a CNP (curva normal padrão) à
direita deste z, é 0,025 (área/2) e à esquerda de
o [1 0,025 ] = 0,975 e 0,025. Dessa maneira, para
z. Note que a área total sob a CNP é 1, então
estam s falando de uma área equivalente a -
resolver este problema precisamos encontrar o valor-z que tem uma área entre 0,975 e 0,025 à
sua esquerda.
Na tabela 1, o valor-z que tem uma área de 0,975 à sua esquerda é 1,96 - no encontro
ela. Se o valor exato não for encontrado, faça interpolações.
O valor-z que tem uma área de 0,025 à sua esquerda é -1,96.
da linha 1,9 com a coluna 6, você tem uma área de 0,9750. Neste caso, você tem o valor
exato de 0,9750 (1 - 0,025) na tab
Agora, voltando à companhia telefônica: sabemos que n = 100 e, em função podemos
recorrer ao TLC (teorema de limite central) para assumir que x
_
é aproximadamente
normalmente distribuída com µ x_ = µ (que não conhecemos) e o desvio padrão:
44,01004,4 ==n =−
x
σσ
Assim, a variável aleatória z terá a seguinte fórmula
( ) 44,0µ−= xz
e terá aproximadamente uma distribuição normal
P ( -1,96 < z < 1,96 ) = 0,95
padrão.
Como queremos o IC 95% para µ , podemos colocá-lo da seguinte maneira:
[ x
_
P ( -1,96 < - µ ] / 0,44 < 1,96 ) = 0,95
P ( x
_
- 1,96*0,44 < < µ x_ + 1,96*0,44 ) = 0 95,
P ( x
_
- 0,86 < µ < x_ + 0,86 ) = 0,95
substituindo o valor de x
_
= 5,8, teremos os seguintes intervalos:
x
_
- 0,86 = 5,8 - 0,86 = 4,94
e
x
_
+ 0,86 = 5,8 + 0,86 = 6,66
Concluindo que o intervalo entre 4,94 e 6,66 minutos é o IC 95% para µ. A companhia pode
ter 95% de confiança que a duração média de uma chamada, µ, da cidade está entre 4,94 e
6,66 minutos.
No exemplo anterior encontramos o IC 95%. O número 0,95 é conhecido como o nível
e confiança ou coeficiente de confiança. Em estatística, costuma-se escrever 0,95 como 1 -
,05. E
7.3. Intervalos de confiança para médias: grandes amostras
d
0 ste número é subtraído de 1 para obter o nível de confiança que é representado pela
letra grega α . Para IC 95%, α = 0,05; para IC 90%, o nível de confiança é α = 0,10 e assim
por diante.
Procedimento para encontrar o IC para µ, baseado em x_ :
Requisitos: (1) n ≥ 30 e (2) σ conhecido
Passo 1: Se o nível de confiança desejado é 1 - α, use a tabela 1 para encontrar
z α/2
Passo 2: O IC desejado para µ é:
x
_
- z α/2 * ( σ / n ) para x
_
+ z α/2 * ( σ / n )
x
_
onde z α/2 é obtido seguindo o passo 1, n é o tamanho da amostragem e é
obtida dos dados da amostragem.
Exemplo 3: Uma empresa florestal está interessada em obter informações sobre o
iâmetro médio, µ , de sua floresta. Um estudo preliminar indicou que σ = 10 cm. O
pres
d
em ário decidiu verificar esta informação com base em uma amostragem de 30 árvores.
Ele encontrou uma média amostral das 30 árvores, x
_
= 40 cm. Baseado nestas informações,
vamos encontrar o IC 90% para a µ .
Solução: Checando primeiro: n ≥ 30 - OK!; e σ é conhecido. Podemos, então,
aplicar os passos necessários:
1. O nível de confiança é 0,90 = 1 - 0,90; logo α = 0,10 e da tabela 1 tiramos
z α/2 = z 0,05 = 1,64
2. Desde que z α/2 = 1,64, n = 30, = 10 e σ x
_
= 40, o IC 90% para será: µ
x
_
- z α/2* σ/ n a x
_
+ z α/2* σ/ n
substituindo os valores conhecidos
30 a 40 + 1,64 * 10 / 30 40 - 1,64 * 10 /
37 a 43
nfiança que o diâmetro médio, µ , de sua
floresta está ent 7 a
Até agora ass na maioria dos casos, isto
não é possível. a stimar
o σ. Qu
Concluindo: o empresário pode ter 90% de co
re 3 43 cm.
umimos que o σ é conhecido. Entretanto,
Um maneira de lidar com isto é fazer um levantamento piloto para e
er dizer: podemos usar o desvio padrão amostral s no lugar do σ. Isto é aceitáve
, para grandes amostras ( n
l
orque ≥ 30 ), o valor de sp é extremamente parecido a ser uma
boa aproximação de σ. A conseqüência matemática disso é a seguinte (recorre
):
ndo também
oTLCa
ns
x µ−
em vez de n
x
σ
µ−
E os outros procedimentos são os mesmos apresentados no quadro anterior, substituindo
apenas σ por s .
lo 4
Exemp : No Quadro 7.1 são apresentadas informações sobre área basal por hectare
e 30 unidades amostrais (ua) selecionadas aleatoriamente de 2 transectos de 20 x 2.500 m,
e aixio. Os procedimentos são
s mesm
d
distribuídos nas seguintes classes topográficas: platô, encosta b
os utilizados anteriormente e os resultados são: o
platô => IC (95%) = x
_
± 2,5 = 31,2 ± 2,5 = 28,7 < µ < 33,6
encosta => IC (95%) = x
_
± 2,3 = 28,5 ± 2,5 = 26,2 < µ < 30,8
baixio => IC (95%) = x
_
± 2,1 = 2 5 ± 2,5 = 24,4 < µ < 28,6
O segundo termo após o sinal (±) pode ser considerado como “incerteza” ou “margem
de erro”. Assim, as in s a a i , spectivamente: 0,0799,
0,0808 e 0,0785, ou seja a m e ,85%.
o encontrar o IC para µ, quando
damos com grandes amostras ( n ≥ 30 ). Entretanto, em muitos casos, quando grandes
mostr
6,
certeza para pl tô, encost e ba xio são re
, s incertezas (e %) são d 7,99%, 8,08% e 7
7.4. A distribuição t (de student):
Nas seções anteriores deste capítulo vimos com
li
a as não estão disponíveis, extremamente caras ou, por alguma razão, simplesmente
indesejável, você tem que dar outro jeito porque a curva-z não se aplica nestas condições.
Neste caso, recorremos à curva-t em vez da curva-z.
Detalhe importante: para obter IC para a média da população, a partir de pequenas
amostras ( n < 30 ), a população, por si só, tem que ser aproximadamente normalmente
distribuída.
Se n < 30, não podemo CNP par ncontrar a ilidades para o IC.
Entretanto, um pesquisador cham .S. Gosset desenvolveu
podem ser usadas, em vez da CN curvas sã nhecidas c vas-t de student ou
simplesmente curvas-t. A form a curva- pende do da amostra. Se a
amostra é de tamanho n, nós ide os a curva-t em questão dizendo que é a curva-t com
(n-1) graus de liberdade.
Se tomamo uma amostra aleatória de tamanho n população que é
aproximadamente normalmente distribuída com mé µ, a variáv ria
s usar a a e s probab
ado W curvas de probabilidade que
P. Estas o co omo cur
a de um t de tamanho
ntificam
s de uma
dia el aleató
( ) ( )nsxt µ−=
tem a distribuição-t com (n - 1) graus de liberdade. As probabilidades para esta variável
aleatória po ntrada usando as áreas sob a curvde ser enco
tabela 2.
a-t com (n - 1) graus de liberdade -
as seguintes propriedades:
As curvas-t variam conforme os graus de liberdade, como ilustrado na figura 7.1.
E as curvas-t têm
9 A área total sob qualquer curva-t é igual a 1.
torno de zero.
ente em ambas as direções.
9 Conforme aumenta raus de liberdade, as curvas-t ficam
mais parecidas com a CNP.
A maneira de encontrar a área s a mesma usada na CNP.
confiança para médias - pequenas amostras:
Vam s s a em
9 As curvas-t são simétricas em
9 As curvas-t se estendem indefinidam
o número de g
ob a curva-t é
7.5. Intervalos de
x
_
, o ver agora o procedimentos para encontrar os IC para µ basead
quando o tama ento com
um exemplo.nho da amostra é menor que 30 ( n < 30 ). Vamos ilustrar o procedim
Procedimento para encontrar o IC para µ, baseado em x_ :
Requisitos: População normal
Passo 1: Se o nível de confiança desejado é 1 - α, use a tabela 2 para encontrar
t α/2
Passo 2: O IC desejado para µ é:
x
_
- t α/2 * ( s / n ) para x
_
+ t α/2 * ( s / n )
onde t α/2 é obtido seguindo o passo 1, n é o tamanho da amostragem e x
_
e s são obtidas dos dados da amostragem.
Exemplo 4: Um vendedor de pneus está interessado em obter informações a respeito
da durabilidade média ( µ ) de uma nova marca. O fabricante diz que a nova marca foi feita
para aguentar 40.000 milhas, ou seja, µ = 40.000. O vendedor quer testar, por sua conta, a
durabilidade dos pneus.
Para isto, ele decide tomar uma amostragem aleatória de 16 pneus e conferiu a
milhagem de cada um.Os resultados deste teste é o seguinte:
Pneu milhagem Pneu Milhagem
1 43.725 9 39.783
2 40.652 10 44.652
3 37.732 11 38.740
4 41.868 12 39.385
5 44.473 13 39.686
6 43.097 14 44.019
7 37.396 15 40.220
8 42.200 16 40.742
Usando estes dados, vamos encontrar o IC 95% para µ, considerando que a
durabilidade do pneu é normalmente distribuída.
Solução : Vamos usar o procediment inido rmente; neste caso com n = 16.
1. O nível de confiança desejado é 0.95, isto é, α ,05. Us a tabela 2 para (16-1)
= 15 graus de liberdade.
t α/2 = 25 = 2,1
2. O IC 95% é:
o def anterio
= 0 ando
t 0,0 3
x
_
n ) para x
_
+ 2,13*( s / n - 2,13*( s / )
Dos dados deste exempl dos pne ) temoo ( us s:
x
_
= 41.148,13
s = 2.360, 32
Conseqüentemente
e
x
_
- 2,13*( s / n ) = 41.148,13 - 2,13 * (2.360,32/ 16 ) = 39.891,26
x
_
+ 2,13*( s / n ) = 41.148,13 + 2,13 * (2.360,32/ 16 ) = 42.405,00
Isto quer dizer que o vendedor pode ter 95% de confiança que a µ (durabilidade média
da nova marca) está ent 39.891 42.405 as. Desta forma, o fabricante está correto em
afirmar que a nova marca tem µ = 40.000 m s.
re a milh
ilha
Q
to
uadro 7.1: Dados de área basal (m2/ha) em dois transectos na ZF-2 distribuídos em classes
pográficas (platô, encosta e baixio).
transecto ua platô encosta baixio
1 1 41,4 21,8 28,2
1 2 43,7 28,2 22,1
1 3 26,1 22,1 29,6
1 4 33,8 14,9 39,3
1 5 33,3 21,9 43,2
1 6 37,2 27,5 39,7
1 7 31,0 30,9 40,7
1 8 18,6 36,5 22,6
1 9 33,2 21,9 12,4
1 10 32,4 28,5 15,8
1 11 26,2 28,4 25,6
1 12 41,3 31,5 40,6
1 13 19,6 32,7 26,4
1 14 34,8 30,8 21,8
1 15 27,3 29,9 35,8
1 16 39,5 23,5 34,6
1 17 30,1 18,4 20,6
1 18 24,6 18,4 21,1
1 19 36,6 24,0 24,3
1 20 34,7 16,3 41,6
1 21 60,7 15,9 29,6
1 22 44,7 35,0 41,9
1 23 26,3 19,9 36,7
1 24 24,5 31,3 23,5
1 25 26,6 18,4 27,4
1 26 22,2 31,1 28,1
1 27 35,7 11,3 12,3
1 28 19,4 24,3 23,5
1 29 17,0 47,0 29,6
1 30 52,6 24,8 23,4
2 1 26,6 27,0 6,4
2 2 36,7 30,9 26,9
2 3 33,3 23,8 21,1
2 4 20,6 27,9 17,2
2 5 57,7 28,2 25,2
2 6 38,8 36,6 23,7
2 7 43,2 17,6 14,5
2 8 23,6 33,5 27,7
2 9 28,4 30,2 28,6
2 10 17,6 39,9 37,5
2 11 18,9 38,0 26,1
2 12 27,6 26,6 25,7
2 13 47,7 32,7 18,6
2 14 23,9 56,0 24,2
2 15 21,1 59,8 19,2
2 16 22,3 34,7 15,2
2 17 19,7 29,8 42,3
2 18 27,4 28,5 20,4
2 19 39,2 25,3 26,1
2 20 27,7 9,4 27,0
2 21 28,5 32,3 35,6
2 22 18,0 31,2 24,9
2 23 39,0 28,1 25,2
2 24 28,1 28,1 20,8
2 25 34,0 39,7 23,1
2 26 25,3 21,5 24,9
2 27 26,4 38,7 23,1
2 28 40,6 29,4 23,5
2 29 21,3 25,5 21,3
2 30 31,1 34,0 30,7
média 31,2 28,5 26,5
desvio 9,8 9,1 8,2
IC(95%) 2,5 2,3 2,1
Curva normal Curva-t com 12 gl Curva-t com 3 gl
-3 -2 -10 1 2 3 0 1 2 3-3 -2 -1 0 1 2 32 -1
Figura 7.1.: Diferentes curvas-t com diferentes graus de liberdade (gl).
-3 -
Capítulo 8
Testes de hipóteses para médias
8.1. Introdução:
No Capítulo 7 aprendemos como fazer uma “predição educada”1 (inferência) sobre
uma média da população µ olhando a média amostral x_ de uma amostra aleatória da
população. Neste capítulo, vamos fazer o inverso; vamos fazer uma “predição educada” ou
levantar uma hipótese sobre a µ e então vamos usar a x_ para fazer inferência concernente a
nossa hipótese. Em outras palavras, usaremos x
_
para decidir se a nossa hipótese concernente
à µ é correta.
Exemplo 1: O DAP médio da floresta do Distrito Agropecuário da SUFRAMA (área
de 600.0 cm. Vamos ver neste cap dio tomado de
uma amostragem aleatória (por ex., n = 30, correspondente a 30 hectares),
00 ha) é µ = 38 ítulo como usar o DAP mé
x
_
, para decidir se
aquilo que hipotetizamos (µ = 38 cm) está correto ou não.
Dizemos então que µ = 38 cm é a hi 0), que pode ser escrita da seguinte
maneira:
o agora é: como usar a
pótese nula (h
Hipótese nula: µ = 38
Que pode ser testada contra a hipótese de que a µ não é igual a 38 cm, conhecida como
hipótese alternativa (h1), que pode ser escrita da seguinte maneira:
Hipótese alternativa: µ ≠ 38
(que pode ser também µ < 38 ou µ > 38)
A questã x
_
para tomar a decisão? A idéia é simplesmente a
seguinte: sabemos que x
_
deverá ser aproximadamente igual a µ, ou seja, se µ = 38
(assumindo que h0 é verdadeira), podemos esperar que a x
_
(o DAP estimado) seja “m
menos” igual a 38 cm. E agora? O quão próximo de 38 precisa estar o DAP médio pa
considerado estatistica
ais ou
ra ser
mente igual a µ? Se a gente olhar para h1, precisamos responder: o
ara ser considerado diferente da µ? Ou então:
o quão maior – para testar as hipóteses alternativas (µ < 38 ou µ > 38)?
, precisamos encontrar um ponto para tomada de decisão, d,
quão distante de 38 precisa estar o DAP médio p
menor ou o quão
Matematicamente falando
tal que se x
_
≠ d ou se x_ < d ou se x_ > d, então rejeitamos h0 (µ = 38). Geralmente os
ites para d antes de rejeitar h0. Os números 0,01 (1%),
te e são geralmente
as hipóteses nula (h0) e alternativa (h1) é bastante subjetiva.
Como regra básica podemos dizer que h0 leva sempre o sinal de ( = ); exemplos: µ = 38, µ1 =
µ2 (média da população 1 é igual a média da população 2) e assim por diante.
estatísticos usam 1, 5 ou 10% como lim
0,05 (5%) e 0,10(10%) são chamados de níveis de significância do tes
denotados como α.
Como escolher as hipóteses para serem testadas??
Em geral a escolha d
1 “predição educada” pode ser traduzida como um “chute certeiro” de um Romário por exemplo.
A h1 pode ser quebrada em duas situações:
- teste uni-caudal: neste caso, ou olhamos à direita de d quando temos h1: µ > 38, ou à
esquerda de d quando temos h : µ < 38. Outra situação é µ1 < µ2 ou µ1 > µ2.
neamente à direita e à esquerda de d e o quê
contecer primeiro transforma-se no argumento principal para rejeitar h0 e, neste caso, em vez
de que o nível de significância seja a probabilidade de rejeitar uma h0
será rejeitada quando ela for verdadeira. Conseqüentemente,
e de hipótese, então podemos estar razoavelmente confiantes
e não podemos rejeitar h0, isto não prova que h0 seja
ais.
hipótese que é verdadeira
1
- teste bi-caudal: olhamos simulta
a
de α nós temos que usar α/2.
Observação: Des
verdadeira, é improvável que h0
se podemos rejeitar h0 num test
que h1 é verdadeira. Por outro lado, s
verdadeira, simplesmente quer dizer que ela é razoável, nada m
Há dois tipos de erros quando aceitamos a hipótese que não é verdadeira, Tipo I e Tipo
II, que ilustramos no quadro abaixo:
hipótese que é
Aceita H0 h1
h 0 OK! erro Tipo II
h1 erro Tipo I OK!
8.2. Montando um Teste de Hipótese: Grandes AmostrasVeremos agora o procedimento para montar um teste de hipótese referente à média de
tamanho da amostragem é considerado grande (n ≥ 30). Para
curva normal padrão (distribuição), vista
ando tomamos uma amostra aleatória de n ≥ 30 de uma
riável aleatória tem aproximadamente a distribuição
ormal
uma população, µ, quando o
executar este teste podemos recorrer a
anteriormente, que diz que qu
população com média µ, então a va
n padrão.
( )
ns
xz µ−=
8.2.1. Testes de Hipóteses para uma média simples: teste unicaudal para
grandes amostras.
(i) Olhando apenas o lado esquerdo da curva:
µ µ
Procedimentos:
1. Hipótese nula: = 0
2. Hipótese alternativa: µ < µ0
3. Condicionante: tamanho da amostragem n ≥ 30
4. Escolher o nível de significância2 α. Normalmente α = 0,01, 0,05 ou 0,10
5. O valor crítico é d = - zα. Usar Tabela 1 para encontrar o valor de z.
2 hoje em dia a maioria dos pacotes estatísticos já dão diretamente o valor exato de α.
6. Calcular o valor de
( )( )ns xz 0µ−=
7. Se z < d, rejeitar a hipótese nula.
(ii) Olhando apenas o lado direito da curva:
Procedimentos:
1. Hipótese nula: µ = µ0
2. Hipótese alternativa: µ > µ0
3. Condicionante: tamanho da amostragem n ≥ 30
4. Escolher o nível de significância α. Normalmente α = 0,01, 0,05 ou 0,10
5. O valor crítico é d = zα. Usar Tabela 1 para encontrar o valor de z.
6. Calcular o valor de
( )( )nsz = x 0µ
7. Se z > d, rejeitar a hipótese nula.
8.2.2. Testes de Hipóteses para uma média simples: teste bi-caudal para
grandes amostras.
os dois
nho da amostragem n ≥ 30
4. Escolher o nível de significância α. Normalmente α = 0,01, 0,05 ou 0,10
5. Os valores críticos são d = - zα/2 e d = zα/2. Usar Tabela I para encontrar os valores
de zα/2.
6. Calcular o valor de
−
Neste caso vamos olhar à esquerda e à direita da curva e, por esta razão, tem
níveis críticos ou pontos de decisão d.
Procedimentos:
1. Hipótese nula: µ = µ0
2. Hipótese alternativa: µ ≠ µ0
3. Condicionante: tama
( )( )nsxz = 0µ−
ferença entre Médias de Amostras
de de comparar dois sítios diferentes.
Queremos, por exemplo, comparar (querer saber) e o DAP médio da floresta do Distrito
7. Se z < - d ou z > d, rejeitar a hipótese nula.
8.2.3. Testes de Hipóteses para Di
Independentes – Grandes Amostras:
Neste caso estamos considerando a possibilida
Agropecuário da SUFRAMA (município de Manaus) é igual ao DAP médio da FLONA
(Floresta Nacional) do Tapajós (Santarém, Pará).
Estatisticamente podemos fazer isso da seguinte maneira:
Hipótese nula: µ1 = µ2
Hipótese alternativa: µ1 ≠ µ2 ou µ1 < µ2 ou µ1 > µ2
sendo: µ1 = média da população 1 (Manaus) e µ2 = média da população 2 (Santarém).
Agora, vamos usar a x
_
de cada população para fazer inferência concernente a nossa
hipótese. Considere x
_
1 a média amostral da população 1 tirada de uma amostra aleatória de
tamanho n1 de uma população com média µ1; e x
_
2 a média amostral da população 2 tirada de
uma amostra aleatória de tamanho n2 de uma população com média µ2. Assumindo também
que as duas amostras são independentes e, se n1 e n2 são ambas maiores que 30, então a
variável aleatória
( )
( ) ( )222121
2121 xx
z
−−⎟⎠⎜⎝ −=
µµ
nsns +
⎞⎛ −−
tem ap uição normal padrão. Aqui s1 e s2 são os desvios padrões
µ1 = µ2 ), então a fórmula de z fica assim
roximadamente a distrib
amostrais das respectivas populações.
Agora, se a hipótese nula é verdadeira (
( )
( ) ( )222z
⎠⎝=
2121 xx −−⎟⎞⎜⎛ −
−− µµ
211 nsns +
e tem aproximadamente a distribuição normal padrão.
1 2
encontrar o valor de z.
Procedimentos:
1. Hipótese nula: µ1 = µ2
2. Hipótese alternativa: µ < µ
3. Condicionante: n1 e n2 ≥ 30
4. Escolher o nível de significância α. Normalmente α = 0,01, 0,05 ou 0,10
5. O valor crítico é d = - zα. Usar Tabela I para
6. Calcular o valor de
( ) ( )222121
21
nsns
xx
z +
⎟⎠
⎞⎜⎝
⎛ −
=
−−
7. Se z < d, rejeitar a hipótese nula.
Para o teste uni-caudal com hipótese alternativa µ1 > µ2, o procedimento é o mesmo
que o anterior, mudando apenas o valor crítico d que é d = zα e, conseqüentemente, a área de
rejeição da h0 passa a ser z > d.
Para o teste bi-caudal com hipótese alternativa µ ≠ µ , o procedimento é o mesmo 1 2
ta , usando os dois valores críticos e, em vez de α, usamos α/2. A rejeição de h0 se dará mbém
em função do quê ocorrer primeiro, ou z < d ou z > d.
8.3. Montando um Teste de Hipótese para Pequenas Amostras:
Nem sempre é possível fazer um trabalho de pesquisa usando uma intensidade de
mostras, e o teste t é o contraparte para o teste z. A única e
as (n < 30), a variável
aleatória não tem a distribuição normal padrão. Mas, se assumirmos que a população que
estamos amostrando é aproximadamente normalmente distribuída, então a variável aleatória
tem a distribuição t de Student com (n-1) graus de liberdade. Conseqüentemente, quando
consideramos populações normalmente distribuídas, podemos fazer testes de hipóteses para
amostragem considerada grande (n ≥ 30), ou simplesmente não tem muitas amostras
disponíveis, ou são extremamente caras, ou, por qualquer outra razão, são indesejáveis. Para
isso, existe teste para pequenas a
principal diferença é que, neste caso, temos que comprovar a normalidade de nossos dados.
Vimos em capítulos anteriores que para pequenas amostr
médias usando pequenas amostras, da mesma maneira como foi feito para grandes amostras.
ns
xt µ−=
8.3.1. Teste de Hipótese para uma Média Simples de Pequenas Amostras:
nativa: µ > µ0
tα. Usar Tabela II para encontrar o valor de t com (n-1) gl.
6. Calcular o valor de
Procedimentos:
1. Hipótese nula: µ = µ0
2. Hipótese alter
3. Pressuposto: população normal
4. Escolher o nível de significância α. Normalmente α = 0,01, 0,05 ou 0,10
5. O valor crítico é d =
ns
xt 0µ−=
7. Se t > d, rejeitar a hipótese nula.
e alternativa µ1 < µ0, o procedimento é o mesmo Para o teste uni-caudal com hipótes
que o anterior, mudando apenas o valor crítico d que é d = - tα e, conseqüentemente, a área de
rejeição da h0 passa a ser t < d.
Para o teste bi-caudal com hipótese alternativa µ1 ≠ µ2, o procedimento é o mesmo
também, usando os dois valores críticos e, em vez de α, usamos α/2. A rejeição de h se dará 0
em função do quê ocorrer primeiro, ou t < d ou t > d.
.3.2.
ndo temos amostras independentes com
n1 e n2 ≥ 30. Agora, vamos ver como lidar com este teste quando n1 e n2 são menores que 30.
Assim como no caso de média simples, podemos usar a distribuição t de Student; a diferença
aqui é que, além de assumir que as duas populações são aproximadamente normalmente
distribuídas, temos também que (i) considerar quando as variâncias das populações ( σ12 e σ22
) são iguais e (ii) quando as variâncias não são iguais.
Neste capítulo vamos trabalhar apenas com a condição de variâncias iguais porque
vamos ver como aplicar teste para saber se duas variâncias são iguais ou não, no próximo
capítulo. As condicionantes serão as seguintes: (1) amostras aleatórias independentes tomadas
de duas populações; (2) as duas populações são aproximadamente normalmente distribuídas;
(3) as duas populações têm variâncias iguais.
Recapitulando: quando temos uma única população, usamos o desvio padrão amostral
s como a estimativa do desvio padrão da população σ. Quando trabalhamos com amostras
aleatórias independentes de duas populações com o mesmo desvio padrão da população (i.e.,
mesma variância), a melhor estimativa do desvio padrão comum (às duas populações) éConsiderando µ1 = µ2, então µ1 - µ2 = 0 e se a hipótese nula é verdadeira, então tem a
distribuição t de Studente com (n1 + n2 – 2) graus de liberdade.
( )
( ) ( )21
21
1 nns
xxt
p + 1
−=
Procedimentos:
1. Hipótese nula: µ1 = µ2
2, Hipótese alternativa: µ1 < µ2
3. Condicionantes: (i) amostras independentes; (ii) populações normais; (iii) variâncias
das populações iguais.
4. Escolher o nível de significância α. Normalmente α = 0,01, 0,05 ou 0,10
5. O valor crítico é d = - tα. Usar Tabela II para encontrar o valor de t com (n1 + n2 -2)
gl.
6. Calcular o valor de
( ) ( )
2
11
21
2
22
2
11
−+
−+−=
nn
snsn
s p
Onde s1 e s2 são desvios padrões amostrais obtidos de amostragem da população 1 e 2,
respectivamente. O subscrito p em sp é para indicar que estamos referindo a um desvio
combinado de duas populações.
Se as populações são normalmente distribuídas e σ12 = σ22, então a variável aleatória
tem a distribuição t de Student com (n1 + n2
8 Teste de Hipótese para Diferenças entre Médias de Amostras
Independentes (e Variância igual) de Pequenas Amostras:
Vimos anteriormente como fazer este teste qua
– 2) graus de liberdade.
( ) (
( )
)
( )2
2
n1
121
11 ns
xxt
p +
−−−= µµ
( )
( ) ( )21
21
11 nns
xxt
p +
−=
sendo:
( ) ( )
2
11
21n
s 222
−
−− sn
7. t < d itar a ótese .
Para o teste uni-caudal com hipótese alternativa µ1 > µ2, o procedimento é o mesmo
2
1
+
+
n
1n
nula
s
hipSe , reje
=p
que o anterior, mudando o valor crít ue é d = tα e, conseqüentemente, a área de ico d apenas q
rejeição p a da h0 assa ser t > d.
P bi-c pótese iva µ1 ≠ µ2, o procedimento é o mesmo ara o teste audal com hi alternat
também de α, usamos α/2. A rejeição de h0 se dará , usando os dois valores críticos e, em vez
em funç co t < d d. ão do quê o rrer primeiro, ou ou t >
Sumá
ndicio
umá
ndicio
rio dos Procedimentos p
ntes h0
rio dos Procedimentos p
ntes h0
ara Testar as
h1
ara Testar as
h1
Hip
Hip
ó C
na
ó C
na
teses Discutidas neste
teste estatístico
teses Discutidas neste
teste estatístico
apítulo
áre
apítulo
áreTipoTipo CoCo a de rejeiçãa de rejeição o
Média Si
randes am
mple
ostr
s
as) (g 0
n ≥ 3
µ = µ0
µ >
µ <
µ ≠
µ0
µ0
µ0
[ x
_
- µ0 ]
z = -------------
[s /
n ]
z > zα
z < -zα
zα/2 ou z < -zz > α/2
Duas Mé
(grandes amostras
dias
)
n2
dep
(1) n
(2) amos
1 ≥ 30,
tras in
≥ 30
endentes
µ1 = µ2
µ1 >
µ1 <
µ1 ≠
µ2
µ2
µ2
[ x
_
1 - x
_
2 ]
= ---------------------
√ [ s1
z ---
n2 zα/2 α/2
-
] z > 2 / n1 ] + [ s22 /
z > zα
z < -zα
ou z < -z
Média Si
(Peque
Amostr
mple
nas
as)
s ção
al
popula
norm
µ = µ0
µ >
µ <
µ ≠
µ0
µ0
µ0
[ x
_
- µ0]
t = ------------
[s /
n ]
t > tα
t < -tα
ou t < -zαt > tα/2 /2
Duas Mé
(Peque
Amostr
dias
nas
( dep
s n
as i
µ2
µ2 as)
1) amos
(2) po
(3) v
tras in
pulaçõe
ariânci
endentes
ormais
guais
µ1 = µ2
µ1 >
µ1 <
µ1 ≠
µ2 [ x_ 1 - x_ 2 ]
= ----------------------
sp √ (1
t ----
n2 ) tα/2 /2
t > tα
t < -tα
ou t < -tα
-
t > / n1) + (1 /
Capítulo 9
Inferências sobre as variâncias
9.1. I
mos ver os métodos usados para os testes de hipóteses e intervalos de
confiança para a variância. Não confundir com análise de variância (ANOVA), que é utilizada
para teste (comparação) de médias e será vista no capítulo 11. Vamos apresentar o teste qui-
quadrado (χ2) e o teste-F.
ê situação
odemos estar interessados em controlar a variação? Já vimos que a média é muito mais
popular qu erências é feita com base nesta
ariáve
mplo, temos um grande número de
diferen ter um
fornece de um fornecedor de parafuso. O encaixe da roda ao carro, não
é justo certa margem de segurança tanto no comprimento como na
espessura do parafuso. Aquele que fabrica o parafuso fornece para vários outros fabricantes e
nem sempre consegue fazer os parafusos exatamente iguais. Neste caso, o controle de
qualidade pode ser feito usando a inferência sobre a variância, seja do comprimento ou da
espessu
9.2. Teste estatístico χ e a curva χ :
ntrodução:
Neste capítulo va
Na área florestal, ainda não é comum fazer este tipo de inferência. Em qu
p
e a variância; por essa razão, a maioria das inf
v l.
No caso de uma indústria de carro, por exe
tes fornecedores (parafusos, porcas, rodas, espelhos etc.). Neste caso, podemos
dor de rodas diferente
e tem sempre uma
ra.
2 2
Exemplo 1: Um fabricante precisa produzir parafusos de aproximadamente 10 mm em
iâmetro para ajustar em buracos de 10,4 mm. Em princípio, sabe-se que as linhas de
produ nha 1 é
mais
O fabricante avisa que a margem de segurança é de 0,1 mm, ou seja, parafusos com
diâmetros variando de 9,9 e 10,1 mm passa pelo controle de qualidade. Chama-se uma
estatí que o
diâme fora da
espec de segurança). Sendo assim, é preciso testar as variâncias antes de
apresentar o relatório de controle de qualid
o
Aqui, duas questões precisam ser respondidas: (1) qual é a variância apropriada? (2) se
as duas linhas de produção têm a mesma variância, igualmente apropriada?
Margem de segurança igual a 0,1 mm é o mesm ± 0,1
mm e variância é de 0,01 mm. Então, para responder a questão 1, formulamos as seguintes
Para aplicar o teste, pr er
d
ção produzem parafusos com diâmetros que se distribuem normalmente, mas a li
barata do que a linha 2.
m
stica e ela faz uma amostragem aleatória nas duas linhas de produção concluindo
tro médio é em torno de 10 mm, mas alerta que um ou outro parafuso pode estar
ificação (da margem
ade das linhas de produção. Foram coletados 20
parafusos de cada linha de produção e tomadas as medidas de diâmetro de cada um (Quadr
9.1).
o que dizer que o desvio é de
hipóteses para a linha de produção 2:
Hipótese nula: σ2 = 0,01
Hipótese alternativa: σ2 > 0,01
imeiro é preciso estimar σ2 usando s2. Depois, é preciso escolh
o teste estatístico. Neste caso, vamos usar o χ2 (qui-dradrado). O χ2 é uma variável aleatória,
isto é, o seu valor depende de uma chance para ocorrer. Tomando diferentes amostras, temos
diferentes valores de χ2. A maneira de encontrar as probabilidades para χ2 é a mesma usada
para determinar as probabilidades para a variável aleatória z.
Se uma variável aleatória de tamanho n é tomada de uma população que é
normalmente distribuída com variância σ2, então as probabilidades para a
variável aleatória
( ) 2
2
1 snσ
2χ −=
podem ser encontradas usando as áreas sob curvas especiais conhecidas como curvas de χ2.
As princi aip s características das curvas χ2 são:
eça no ponto-zero sobre o eixo horizontal e se estende à direita;
m).
ente na Tabela III. A Figura 9.1 apresenta
três d aus de liberdade (GL).
9.3. Testes de hipóteses para uma única variância:
ável aleatória de tamanho n é tomada de uma população
9 diferentes para diferentes graus de liberdade;
9 a curva com
9 não são simétricas;
9 a área total sob a curva é igual a 1 (u
2Os valores de χ podem ser obtidos diretam
iferentes curvas para diferentes gr
Voltando ao exemplo 1, temos o seguinte:
Suponha que uma vari
que é normalmente distribuída com variância σ2, então a variável aleatória
( ) 2
2
2 1 snσχ
−=
tem a distribuição qui-quadrado com (n – 1) GL; ou seja, as probabilidades
para a variável aleatóriaχ2 podem ser determinadas usando áreas sob a curva
χ2 com (n – 1) GL.
p
O nosso exemplo consiste de 20 parafusos escolhidos aleatoriamente da linha de
rodução 2. A variância estimada é s2 = 0,058. Para testar as hipóteses, temos que calcular o
valor de χ2:
( ) 2
2
0
2 1 snσχ
−=
onde σ02 é o valor de σ2 hipotetizada (neste caso, σ02 = 0,01). Queremos saber se esta s2 está
muito longe da σ02 hipotetizada ou não, ou seja, se 0,058 é igual a 0,01, do ponto de vista
estatístico. Precisamos também escolher o nível de significância (α).
Para 19 (20 - 1) GL, χ20,05 = 30,14 (Tabela III)
Assim, se a hipótese nula é verdadeira, então a probabilidade que o nosso χ2 calculado
ue 30,14 é de 0,05. Em símbolos matemáticos, podemos escrever P(χ2tabelado >
30,14) = 0,05. Dessa m s valores χ2 podem ocorrer
apena omo “muito grandes” (Figura 9.2).
Como amar 30,14 como valor crítico do teste.
teste de hipótese:
Hipótese nula: σ2 = 0,01
Hipótese alternativa: σ2 >
Como a amostragem de 20 parafusos da linha de produção 2 produziu s2 = 0,058,
os
seja maior do q
aneira, se a hipótese nula é verdadeira, o
s em 5% das vezes. Classificaremos os χ2 > 30,14 c
em capítulos anteriores, vamos ch
Podemos agora executar o
0,01
tem
( ) ( ) 20,110058,0
01,0
1201 2
2
0
2 =×−=−= snσχ
Desde χ2 > 30,14, temos que rejeitar a hipótese nula e concluir que σ2 > 0,01 para a
pro en al tar o teste de hipótese para uma única variância é o
seguinte:
1. Definir as hipóteses:
linha de produção 2.
O cedim to ger para mon
- Hipótese nula: σ = σ02 2
- Hipótese alternativa: σ > σ02 2
2. Pressuposto: População normal
3. Definir o nível de significância (α)
4. O valor crítico é c = χ2α com (n-1) GL, obtido na Tabela III
5. Calcular o valor de
( ) 2
2
0
2 1 snσχ
−=
onde σ02 é o valor hipotetizado na hipótese nula, n é o número de amostras (ou
observações) e s2 é a variância amostral (estimada).
6. Decisão: Se χ2 > c, rejeitar a hipótese nula.
9.4. Intervalos de Confiança para Variâncias:
No capítulo 7 aprendemos como encontrar o intervalo de confiança (IC) para uma
média
da população, µ, baseado em uma média amostral, x_ . Neste seção vamos ver como
encontrar o IC para a variância da população, σ2, baseado em uma variância amostral, s2. Para
montar o IC, vamos usar o fato que, se uma amostra aleatória de tamanho n é tomada de uma
população que é normalmente distribuída com variância σ2, então a variável aleatória
( ) 2
2 sσχ
2 1n −
0
=
te istribuição qui-quadrado com (n-1) GL. m a d
O r o IC é o seguinte:
procedimento geral para monta
1. Pressuposto: População normal
2. Se o nível de confiança desejado é 1 - α, usar a Tabela III para encontrar
χ2 e χ21-α α/2 com (n-1) GL
3. O IC desejado para σ2 é
( )
2
2
21 sn −
αχ para
( )
21
2
21− sn
αχ −
Exercício 1: Voltando ao exemp
ação, σ
lo 1, vamos determinar o IC para a variância da
popul mada, s2. Vamos usar o nível de significância de 10%
(α = om IC, temos que
olhar 2 e, em vez de α, usamos α/2.
,14
5 = 10,12
90% :
30,14 10,12
0% de confiança, podemos afirmar que a variância da
popula ão 2 está entre 0,037 a 0,109 mm.
mos comparar duas variâncias desconhecidas. Neste caso,
melh
-F são:
9 as curvas são diferentes para diferentes GL;
e se estende à direita;
2, com base na variância esti
0,10) e podemos escrever como 90% IC. Como estamos trabalhando c
para os dois lados (caudas) da curva-χ
Primeiro, vamos à Tabela III para encontrar χ2α/2 e χ21-α/2
χ2α/2 = χ20,05 = 30
χ21-α/2 = χ21-0,05 = χ20,9
O IC será então
19 x (0,058) 19 x (0,058)
----------------- a -------------------
0,037 a 0,109 ou IC (0,037<σ2<0,109) = 90%
Em outras palavras: com 9
ção de parafusos da linha de produç
9.5. O teste-F e as curvas-F:
Nas seções anteriores discutimos as situações envolvendo somente uma variância
desconhecida. Há ocasiões que quere
o or recurso é usar o teste-F.
Os valores de F são encontrados usando as curvas-F. Essas curvas dependem dos graus
de liberdade (GL). As características das curvas
9 cada curva começa no ponto-zero no eixo horizontal
9 não são simétricas;
9 a área total sob a curva-F é igual a 1.
As áreas sob as curvas-F são apresentadas nas Tabelas IV (α = 0,01) e VI (α = 0,05).
Se for preciso usar outros α, é preciso recorrer aos livros especializados. Para cada α é
preciso uma tabela diferente porque são necessários valores críticos específicos para cada
ombinação de GL.
(i) Us
as independentes de duas populações que são
norm
tamanho da amostragem da população 1
iância da população 1
e n2, variável
aleató
s12 / s22
tem a ja, as probabilidades para a variável aleatória
F pod 2 - 1) GL.
O procedimento geral para montar um teste de hipótese usando o F é o seguinte:
1. Definir as hipóteses:
c
o do teste-F para comparação de duas variâncias:
Imagine duas amostras aleatóri
almente distribuídas. Vamos considerar:
n1 =
s12 = variância amostral da população 1
σ12 = var
s22 e σ22 são os valores correspondentes para a população 2. Se σ12 = σ22, então, a
ria
F =
distribuição-F com (n1-1, n2 - 1) GL; ou se
e ser determinada usando as áreas sob a curva-F com (n1-1, n
- Hipótese nula, H0: σ12 = σ22
- Hipótese alternativa, H1: σ12 > σ22
2. Pressupostos: (1) amostras independentes e (2) populações normais
3. Escolher o nível de significância α
4. O valor crítico é c = Fα com (n1 - 1, n2 - 1) GL, onde n1 e n2 são os tamanhos
das amostragens.
5. Calcular o valor de
F = s12 / s22;
onde s12 e s22 são as variâncias amostrais das populações 1 e 2.
6. Decisão: se F > c, rejeitar a hipótese nula.
Exercício 2: Vamos comparar as variâncias das linhas de produção 1 e 2.
Hipótese nula, H0: σ12 = σ22
Hipótese alternativa, H1: σ12 > σ22
A amostragem foi feita de forma independente e os dados são oriundos de uma
população normalmente distribuída. Dessa maneira, podemos usar o procedimento dado
anteriormente assumindo α = 0,05.
Para (19, 19) GL, o valor crítico F (ou c) é aproximadamente
ecomenda-se a inversão da fórmula de F-estatístico, mantendo os
2,16. Quando s12 > s22
mesmos GL. E o F-
statístico é
F = s = 0,058 / 7,25
Como F > c, podemos rejeitar H anto, σ22 >
Como sempre, o procedimento para o uso das d das da curva-F é basicamente o
esmo que para uma cauda, exceto que precisamos de dois valores críticos em vez de um só.
este caso, precisamos olhar os dois lados da curva [α/2 α/2)]. No primeiro lado, vamos
ncontrar nas tabelas IV VI, para α = 0,02 e α = 0,10, respectivamente, ou seja, não temos
enhum problema. No e anto, o outro a curva (1 ), não á como tirar das tabelas.
or exemplo, se vamos finir α = 0,10, um lado da curva (α/2) será 0,05 (Tabela VI) e o
utro será 1 - α/2 = 0,95. Neste caso, o cálculo do F0,95 pode ser feito da seguinte maneira:
1. Vamos considerar α = 0,1 seguinte s de iberdade (GL):
r
e
2
2 / s12 0,008 =
0, port σ 2. 1
uas cau
m
N e (1 -
e e
n nt lado d - α/2 h
P de
o
0 e os s grau l
numerador = 9 e minador = 8deno .
2. Calcular o lad reito da curv , F0,05, 9, 8 bela I, que é igual a o di a, α/2 na Ta V
3,39.
3. Calcular, então, o lado esquerdo da curva, 1 F0,95 8, da seguinte - α/2, , 9,
maneira:
- F0,95 para GL = (9,8) é a recípro valor F1-0, 05 com os GL trocados ca do 95 = F0,
(8,9).
- Na Tabela V igual aI, F0,95, 8, 9 é 3,23
- O F0,95, 9, 8 é, então igual a 1 / 3,23 = 0,31
4. Os valores de F paraas duas caudas são: 0,31 e 3,39
Quadro 9.1: Diâmetros (mm) de parafusos em duas linhas de produção.
Parafuso Produção 1 Produção 2
1 9,91 10,48
2 9,97 10,07
3 9,84 9,89
4 9,97 10,38
5 10,18 9,5
6 10,08 9,95
7 10,03 9,81
8 10,02 9,87
9 9,88 10,13
10 10,03 10,03
11 10,05 10,26
12 10,18 9,73
13 10,06 10,29
14 9,98 9,97
15 9,91 10,38
16 10,07 9,94
17 9,98 10,14
18 10,1 10,17
19 9,99 10,17
20 9,97 10,09
Média 10,01 10,06
Variância 0,008 0,058
F
0
Figura 9.1: Curva-F com (3,20) gl
χ2
0 5 10 15 20 25 30
Figura 9.2: Curva qui quadrado
Capítulo 10
Teste de Qui-quadrado ( χ 2 )
10.1. Introdução:
Neste capítulo vamos ver um teste estatístico baseado na distribuição de Qui-quadrado
χ 2 ), e qui-quadrado. Este teste pode ser usado tanto na estatística
aramé
lo anterior (Capítulo 9). Aqui, vamos enfatizar a aplicação deste teste para:
sua verdade de campo – distribuição observada - com a distribuição
erada.
etro: você usa a cadeia de transição probabilística
ica da floresta de seu interesse. Você usa, por
anto, em 2003, você tem condições de
Markov é confiável para este tipo de trabalho. Basta comparar a
a ou esperada) e confrontar com medições feitas em 2003
(observada). Se der não significante, significa que a projeção é, estatisticamente, igual à
3) e você pode confiar na Cadeia de Markov.
xemplos:
3) Ocorrência de cies nas difer s classes topo cas: im ine que você não
be nada disso, então, vo ai hipotetizar que a distribuição a seguin e: 1/3 das espécies
correm no platô; 1/3 na encosta e 1/3 baixio. Faça levanta ento em algumas
posseqüências e distrib s espécies de rdo com as classes topográficas. Compare os
alores observados – seu tamento – com os valores hipotetizados (1/3, 1/3 e 1/3). Se der
não significante”, isso izer a distri o de espécies na sua área de trabalho ocorre
dependentemente das classes topográficas.
(3): se você quiser comparar uma toposseqüência da ZF-2 com
ma da Reserva Ducke pra saber se essas toposseqüências são homogêneas em relação a
istribuição de número de espécies por classe topográfica. Imagine que na ZF-2, a
ja 30% o baixi ê faz
n sc tribu ô, 32 a e 3 xio.
( conhecido como teste d
p trica como na não paramétrica. O teste estatístico χ 2 e a curva χ 2 já foram descritos no
capítu
(i) Ajuste de curvas ou de distribuições:
Exemplos:
1) Distribuição de diâmetro: você desenvolve uma função para descrever a relação
entre classes de diâmetro e freqüência. Ao testar a confiabilidade dessa função em outra área,
você deve coletar novos dados e produzir a nova distribuição de freqüência. O passo seguinte
é confrontar a
hipotetizada (desenvolvida em outro local, por outro pesquisador) – distribuição esp
2) Projeção da distribuição de diâm
Markov para fazer a projeção da dinâm
exemplo, ano 2000 como hoje e 1997 como seu passado imediato – período de 3 anos – para
fazer a projeção para um futuro imediato, 2003. Port
avaliar se a Cadeia de
projeção feita (hipotetizad
verdade de campo (medições realizadas em 200
(ii) Independência:
E
espé ente gráfi ag
sa cê v seja t
o no um m
to ua a aco
v levan
“ quer d buiçã
in
(iii) Homogeneidade:
Exemplos:
4) Usando o exemplo
u
d
distribuição se
a Du e de
40% no platô,
obre a dis
na encosta e 30% n
iç lat
o. Aí, voc o levantamento
2% baicke que ão é 36% no p % na encost no
Aplica o teste qui-quadrado pra checa ção da Z a da Du Se der
“não ificante”, isso quer dizer as to são homo
10.2. Procedimentos para aplicar os testes em diferentes situações:
Valor esperado => E
cessários:
ação é grupada de acordo com uma determinada distribuição de probabilidade.
(i) E > 1 e (ii) máximo 20% de E < 5
r se a distribui F-2 é igual cke.
sign posseqüências gêneas.
Valor observado => O
O valor crítico c é tirado da Tabela III => c = χ 2 α => descritos no Capítulo 9 (item
9.2).
10.2.1. Qui-quadrado (χ 2 ) para teste de ajuste:
Passos ne
Passo 1: formular as hipóteses científicas:
H0 => A popul
H1 => A população não é grupada de acordo com uma determinada distribuição de
probabilidade.
Passo 2: lembrar das seguintes condições =>
Passo 3: Definir o α => 10%, 5% ou 1%.
Passo 4: Determinar o valor crítico c com (k – 1) graus de liberdade, na Tabela III => k =
número de grupos ou número de classes de diâmetro.
Passo 5: Calcular o χ 2
( )− EO 2∑=2χ E
H0
Imagine uma população de árvores com 120
ro.
Passo 6: Decisão => Se χ 2 > c => rejeitar
Agora, vamos exemplificar com números.
indivíduos tendo a seguinte distribuição de diâmet
classes DAP freqüência probabilidade
25 24 0,2
35 48 0,4
45 24 0,2
55 12 0,1
> 65 12 0,1
Total 120 1
usando apenas parte da população (neste caso
esentativa. A distribuição de diâmetro dessa
amostr
Em seguida, você faz um levantamento
40 árvores) e quer saber se a amostra é repr
agem é apresentada abaixo incluindo a freqüência de acordo com a distribuição da
população (n = 120) e o χ 2.
classes DAP bs. (O) Freq esperada (E) ( O – (O-E)2 / E Freq o E )
25 8 50 x 0,2 = 10 (8-10) = -2 0,4
35 20 50 x 0,4 = 20 (20-20 0,0 ) = 0
45 13 50 x 0,2 = 10 (13-10) = 3 0,9
55 5 50 x 0,1 = 5 (5-5) = 0 0,0
>65 4 50 x 0,1 = 5 (4-5) = -1 0,2
50 1,5
k = 5 => 5 classes de DAP
H0: A distribuição de probabilidades das classes DAP da amostragem
população (n=120).
(n=50) é igual a da
ostragem (n=50) não é igual a da
2 é igual 1,5
ecisão => c (9,49) é maior do que χ lculad ,5) rtan não reje ar H0. Concluir que a
istribuição d m é, estati m
mostragem é representativa da população.
0.2.2. Qui-q o ( χ 2 ) para teste de independência ou tabela de contingência.
Neste caso, vamos trabalhar com linhas (L) e colunas (C). O valor esperado de cada
E = ------------------------------------------
s:
H => As duas características são independentes.
de liberdade, na Tabela III.
H1: A distribuição de probabilidades das classes DAP da am
população (n=120).
α = 0,05
Valor crítico c (tabela III com GL = 4) é igual a 9,49
χ
D 2ca o (1 ; po to, it
d a amostrage stica ente, igual a da população e, por essa razão, a
a
1 uadrad
célula é calculado da seguinte maneira:
(total da linha) x (total da coluna)
total de observações
Passos necessários:
Passo 1: formular as hipóteses científica
0
H1 => As duas características não são independentes
Passo 2: lembrar das seguintes condições => (i) E > 1 e (ii) máximo 20% de E < 5
Passo 3: Definir o α => 10%, 5% ou 1%.
Passo 4: Determinar o valor crítico c com (L-1) x (C-1) graus
2Passo 5: Calcular o χ
( )∑=χ −EEO
2
2
Passo 6: Decisão => Se χ > c => rejeitar H0 2
Exemplificando com números: Pesquisa com acidentes em relação ao sexo das pessoas
envolvidas. Veja quadro abaixo com 2 colunas e 3 linhas.
local acidente homem mulher total
no trabalho 40 5 45
em casa 49 58 107
Outros 18 13 31
Total 107 76 183
H0: a circunstância de um acidente é independente do sexo da vítima.
H1: a circunstância de um acidente não é independente do sexo da vítima.
Calculando os valores esperados (E):
rimeira linh lu x 10 = 26
rimeira linha e segunda coluna => (45 x 76) / 183 = 18,7
gunda linh ra coluna 107 x 107 183 = 62,6
gunda linh unda coluna
rceira linha e primeira coluna => 31 x 107) / 183 = 18,1
o quadro c b esp o se
te homem mulh tot
p a e primeira co na => (45 7) / 183 ,3
p
se a e primei=> ( ) /
se a e seg => (107 x 76) / 183 = 44,4
terceira linha e segunda coluna => (31 x 76) / 183 = 12,9
te
E om os valores o servados e erados é guinte:
local aciden er al
O E O E
no trabalho 40 26,3 5 18,7 45
em casa 49 62,6 58 44,4 107
outros 18 18,1 13 12,9 31
total 107 76 183
O = valor observado e E = valor esperado
Checando: nenhum E é menor do que 1 e não tem E < 5 => OK
L = 2 => (L-1)(C-1) = (3-1)(2-1) = 2
mos a H0.
10.2.3. Qui-quadrado ( χ 2 ) para teste de homogeneidade
Como para o teste de independência, vamos trabalhar com linhas (L) e colunas (C). O
valor esperado de cada célula é calculado da seguinte maneira:
(total da linha) x (total da coluna)
E = ------------------------------------------
total de observações
Passos necessários:
Passo 1: formular as hipóteses científicas:
H0 => As duas características são homogêneas.
α = 0,01
Valor crítico c (tabela III com GL=2) é igual a 9,21. G
Calcular χ 2 = (40-26,3)2/26,3 + ...... + (13-12,9)2/12,9 = 24,30
Decisão: χ 2 > c; logo, rejeita
H1 => As duas características não são h
Passo 2: lembrar das seg % de E < 5
10%, 5% ou 1%.
valor crítico c com (L-1) x (C-1) graus de liberdade, na Tabela III.
omogêneas
uintes condições => (i) E > 1 e (ii) máximo 20
Passo 3: Definir o α =>
Passo 4: Determinar o
Passo 5: Calcular o χ 2
( )∑ −= EEO
2
2χ
Passo 6: Decisão => Se χ 2 > c => rejeitar H0
Exemplificando: Comparando duas cidades estratificadas por cor da pele. Duas amostragens
(n = 100 para as duas) são consideradas e o resultado é apresentado no quadro abaixo.
amostragem brancos negros Outros total
cidade 1 83 5 12 100
cidade 2 87 6 7 100
total 170 11 19 200
Calcula
ndo o valor esperado (E) para cada célula, o resultado é o seguinte:
amostragem brancos negros Outros total
cidade 1 85 5,5 9,5 100
cidade 2 85 5,5 9,5 100
total 170 11 19 200
Hipóteses:
H0: Cid
GL=2) é igual a 5,99. GL = 2 => (L-1)(C-1) = (2-1)(3-1) = 2
)2/85 + ...... + 5)2/9,5 =
2 logo, não jeita os a 0, ou seja, cidade 1 e cidade 2 têm a mesma
de pele.
ade 1 e cidade 2 têm a mesma % para cada cor de pele
H1: Cidade 1 e cidade 2 não têm a mesma % para cada cor de pele
Checando: nenhum E é menor do que 1 e não tem E < 5 => OK
α = 0,05
alor crítico c (tabela III comV
Calcular χ 2 = (83-85 (7-9, 1,52
Decisão: χ < c;
uição de cor
re m H
distrib
Capítulo 11
álise de Variância – ANOVA
r do nome, a a e de variância (ANOVA) é usada para comparação de
imos, anteriormente, que há vários testes usados na comparação de média (teste t,
, Bonferroni, Duncan e c). Por que usar a ANOVA? Usamos a ANOVA quando
ueremos compreender melhor a natureza da variação natural das diferentes fontes, além de
compar
ntes tipos de
ente casualizados.
imentos blocos
RESÍDUO (ou
ou múltiplas entradas => aplicação clássica em experimentos
o fontes de variação.
aninhada (nested): aplicação em experimentos com parcelas subdivididas
Plot (clássico) ou quando o adapta para análise de parcelas repetidas.
gressão: tanto para as regressões lineares (simples e múltiplas) e
e múltiplas) => para explicar o quanto da variação dos dados
ente.
riação estabelecidas,
s hipóteses é o teste-
m seguida, apresentamos os quadros auxiliares usados para
ples entrada:
GL SQ MQ F
An
11.1. Introdução:
Apesa nális
médias. V
Tukey t
q
ar as médias. No fundo, ANOVA é a partição (ou desdobramento) da variação total de
acordo com as fontes de variação.
A ANOVA é aplicada para testar hipóteses quando a pesquisa envolve mais de duas
médias. Trata-se de uma ferramenta estatística amplamente utilizada e com um grau de
sofisticação muito alto. Podemos, de forma muito simplista, definir os segui
ANOVA:
a) ANOVA de simples entrada => fontes de variação ou grupos classificados por um
simples critério como ENTRE os transectos e DENTRO (ou resíduo ou erro) dos
transectos => aplicado em experimentos inteiram
b) ANOVA de dupla entrada => aplicação clássica em exper
casualizados => fontes de variação: BLOCO, TRATAMENTO e
erro).
c) ANOVA de tripla
fatoriais incluindo as interações com
d) ANOVA
tipo Split
e) ANOVA para re
não lineares (simples
é explicado pelo modelo utilizado.
f) MANOVA => análise de variância de várias variáveis, simultaneam
Na verdade, você arma a ANOVA de acordo com as fontes de va
ou seja, desmembrando a variação total; o teste aplicado para testar as sua
F (Capítulo 9, item 9.5). E
ANOVA de simples entrada e para ANOVA de dupla entrada.
ANOVA de sim
Fontes de Variação
Entre
Dentro (Resíduo)
Total
GL = graus de liberdade
SQ = soma dos quadrados
MQ = média quadrática
F = calculado
ANOVA de dupla entrada:
Fontes de Variação GL SQ MQ F
Blocos
Tratamentos
Resíduos
Total
ina o valor de F dividindo MQentre
pela MQ esmo, você pegava o Fcalculado e comparava
com o NTRE e DENTRO e nível de significância α). Atualmente, os
ftwa r exato da probabilidade para inferência => então, em
vez do , o i te fornecer a probabilidade.
ente, os efeitos dos
blocos dos t s. Para isso, você aplica o teste-F para blocos e para os tratamentos,
separad blocos pela MQresíduos e
para os Qresíduos.
11.2. Procedimentos para aplicar a ANOVA de simples entrada:
= número total de observações (g * k)
ações por grupo
os:
são iguais ou, pelo menos, uma é diferente.
) dados que você vai utilizar => dados mé
lações sã ormais com a m a variância.
inir o nível crítico α
terminar o valor crítico c = c = Fα m (k-1) GL no numerador e (n-k) GL no
dor.
i) Calcular F
Qentre
o
F > c, rejeitar
Exemplo com aplicação s fórm cessárias para o preenchimento
) Fórmulas:
No primeiro caso (de simples entrada), você determ
. Antigamente, muito antigamente mdentro
Ftabela (função dos GLs E
so res estatísticos vão te dar o valo
valor de F no quadro auxiliar software va
No segundo caso (de dupla entrada), você quer ver, separadam
e ratamento
amente. O valor de F para blocos você consegue dividindo MQ
tratamentos dividindo MQtratamentos pela M
n
k = número de grupos
g = número de observ
Passos necessári
(i) Formular as hipóteses
H0 => µ1 = µ2 ...... = µn
H1 => nem todas as µ
(ii Definir os tipos de tricos
(iii) Condições => as k popu o n esm
(iv) Def
(v) De > co
denomina
(v
M
F = --------------
MQdentr
(vii) Decisão => Se H0
11.3. da ulas ne
do quadro de ANOVA:
a
Variação entre os grupos:
ados => SQentre ou SQE
∑
Soma dos Quadr
( )2 ( )
n
x
1=
−=
n
mediaxSQE ou
i
g
x
ij
k
i
g
i
ij 2
2
1 1 ∑∑∑ ∑ −⎟
⎟
⎠
⎞
⎜⎜⎝
⎛
= =
tro dos os
> GL para SQE => (k – 1)
Média Quadrática => MQentre ou MQE
MQE = (SQE) / (k – 1)
Variação den grup :
os Quadrados = Qdentro Soma d > S ou SQD
∑
=
= = ⎠⎝−=
n
i
i i
ij g
xSQD
1
1 12
> GL para SQD => (n - k)
Média Quadrática => MQ ou MQD
∑ ∑ ⎟⎟⎜⎜k ij
dentro
MQD = (SQD) / (n - k)
Teste Estatístico => teste-F
⎞⎛ g 2
x
F = (MQE)/(MQD)
b) Exemplo 1:
Estamos interessados em comparar a renda média anual de 4 companhias
diferentes.Vamos às companhias e, aleatoriamente, pegamos a declaração de renda para o
Imposto de Renda de 5 empregados de cada uma. O resultado é apresentado no quadro
seguinte (em R$ 1.000,00):H0: µ1 = µ2 = µ3 = µ4 empreg CIA1 CIA2 CIA3 CIA4 subtot
H1: nem todas µ são iguais 1 46 65 37 11 159
n = 20 2 53 59 13 35 160
g = 5 3 54 17 65 57 193
k = 4 4 29 18 42 56 145
α = 0,05 5 27 37 33 40 137
subtot 209 196 190 199 794
Quadro auxiliar
Fontes de Variação GL SQ MQ F
Entre 3 37,8 12,6 0,04
Dentro (Resíduo) 16 5486,6 342,9
Total 19 5524,4
SQE = [ (2092 + 1962 + 1902 + ...56 + 40)2 ] / 20 = 37,8
2 2 .. 562 + 402 ] - [ (2092 + 1962 + 1902 + 1992) / 5 ] = 5.486,6
1992) / 5 ] – [ (46 + 53 + 54 + ..
SQD = [ 46 + 53 + .
MQE = 37,8 / 3 = 12,6
MQD = 5.486,6 / 16 = 342,9
F = 12,6 / 342,9 = 0,04
Decisão => F0,05 = 3,24 para GL = 3, 16; logo, não rejeitar H0
c) Exemplo 2: Utilizando os dados do Quadro 7.1 vamos ver se há diferenças entre as
estimativas de área basal das diferentes classes topográficas. Neste caso, vamos direto à saída
(output) do Systat, que é a seguinte:
Fontes de Variação GL SQ MQ F p
Entre classes 2 659,83 329,92 4,005 0,02
Dentro (Resíduo) 177 14582,04 82,38
Total 179
O resultado da ANOVA mostra p = 0,02. Se usássemos os níveis críticos tradicionais
(α = 0,05 e α = 0,01), a conclusão poderia ser a seguinte: as diferenças em área basal entre as
classes topográficas são significantes a 0,05, mas não a 0,01. Com esta facilidade o valor
exato de α você deve concluir com aquilo que você está vendo, ou seja, 0,02.
Capítulo 12
Regressão e correlação
12.1 Introdução:
O objetivo da regressão é obter uma expressão da dependência de uma variável Y
sobre uma ou mais variáveis independentes X. Tal expressão é, matematicamente, conhecida
como função, logo, Y é uma função de X. Função é um relacionamento matemático que nos
capacita predizer quais valores de uma variável Y, para dados valores de uma variável X.
Resumindo: Y = f (X).
A regressão define o relacionamento estatístico entre as variáveis tomadas e, a
correlação, a estreiteza deste relacionamento. Na regressão estima-se o relacionamento de
termos de uma função linear (ou uma outra
lise de correlação, às vezes, confundida com regressão,
tima-
comportamento de uma espécie ou
ra alguns estudos da estrutura da floresta
(distribuição em diâmetro, por exemplo) etc.
a de
m mo
12.2. Equações básicas das curvas de ajuste:
Linear
uma variável com uma outra, expressando-se em
mais complexa), enquanto que na aná
es se o grau para o qual duas ou mais variáveis variam juntas.
Os métodos de regressão são de grande utilidade na derivação das relações empíricas
entre vários fenômenos, sendo aplicáveis para: (i) encontrar uma função estatística que possa
ser utilizada para descrever o relacionamento entre uma variável dependente e uma ou mais
variáveis independentes e (ii) testar hipóteses sobre a relação entre uma variável dependente e
uma ou mais variáveis independentes. No manejo florestal, o uso da regressão é fundamental
na derivação de modelos matemáticos: (i) para explicar o
povoamento submetido a um determinado tipo de intervenção; (ii) para desenvolver modelos
de crescimento; (iii) desenvolvimento de equações de volume e de biomassa; (iv)
desenvolvimento de relações hipsométricas; (v) pa
Ao olhar um povoamento florestal, você pode achar que quanto maiores forem o
diâmetro e altura, maior será o volume ou peso da árvore. Entretanto, você não poderá afirmar
nada além disso. Com o auxílio da regressão, você será capaz de expressar o relacionamento
entre as variáveis independentes diâmetro e altura e o volume (ou peso) da árvore na form
u delo estatístico. Desta maneira, você será capaz de predizer o volume (ou peso) de uma
árvore em pé tendo apenas as medições de diâmetro e altura.
Dependendo do número de variáveis independentes, a regressão pode ser simples (uma
variável) ou múltipla (mais de duas variáveis) e, dependendo da natureza da equação básica, a
regressão pode ser linear ou não linear.
=> bXaY += => linha reta
tica => Y = Quadrá ++ => parábola
Cúb
Genéri
Hipérb
2cXbXa
ica => Y = 32 dXcXbXaY +++= => curva do 3º grau
ca => Y = nxXcXbXaY ++++= ...2 => curva do n-ésimo grau
ole => ( )bXaY +=1
Exp
Geomé
onencial => Y = bXaeY =
trica => Y = baXY =
Todas
coeficientes de regressão podem ser obtidos usando procedimento tradicional de regressão
mento dos dados. Entretanto, quando
tem ar com processos iterativos para
oeficientes de regressão e
de correlação para a regressão linear simples. Sabendo como estimar os coeficientes de
nal e estimar os coeficientes de regressão e correlação utilizando um dos
o relacionamento entre os valores x e y, o primeiro passo é
marcar os valores num sistema de coordenadas feito para dar uma evidência visual do
relacionamento das duas variáveis. Se existir um relacionamento simples, os pontos marcados
o é fraco, os
as equações básicas podem ser linearizadas e, deste modo, as estimativas dos
linear. Este “truque” é utilizado para facilitar o processa
se recurso da informática que permite trabalh
convergência das estimativas dos coeficientes, o “truque” perde o sentido.
Neste capítulo, vamos demonstrar como são estimados os c
regressão e correlação da simples, você poderá, por analogia, estimar os coeficientes da
regressão múltipla. No caso de regressão não linear, há duas alternativas: (i) linearizar a
equação original e adotar os procedimentos das regressões simples ou múltipla e (ii) manter a
equação origi
seguintes métodos: Gauss-Newton, Quasi-Newton e Simplex – opções do software Systat.
12.3. Regressão linear simples:
Para se ter uma idéia de regressão linear simples é necessário considerar uma
população com n indivíduos, cada um com características xi e yi. Se a informação desejada é
uma expressão numérica para
. Isto é
tenderão a formar um modelo (uma linha reta ou uma curva). Se o relacionament
pontos serão mais dispersos e, o modelo, menos definido.
Uma linha reta representa a regressão linear simples, a qual é geralmente definida pela
equação
bXaY +=
sendo: a = coeficiente de interseção (onde o valor de X corta o valor de Y) e b = coeficiente
angular ou de inclinação (estimativa de Y para cada unidade de X acrescentada) – Ver figura
12.1. Em regressão, um relacionamento funcional não significa que, dado um valor de X, o
valor de Y tem que ser igual a a + b X, mas que o valor esperado de Y é igual a a + b X.
Em um exemplo real, as observações não permanecem perfeitamente ao longo da linha
de regressão. Isto é devido ao erro aleatório (ε) e outros fatores não quantificáveis. A forma
mais utilizada de ajuste dos dados à linha reta (regressão linear simples) é por meio do
método dos mínimos quadrados (MMQ), que requer uma soma mínima dos desvios ao
quadrado, entre os pontos observados e os estimados (sobre a reta).
(i) Condicionantes para o uso da regressão linear:
9 - Homogeneidade da variância => a variância de Y sobre a linha de regressão
é a mesma para todos os valores de X. Isto pode ser resolvido aplicando o teste
de Bartlett.
9 - Normalidade => o simples ajuste dos dados à regressão (ou a descrição do
relacionamento entre as variáveis Y e X) não requer a distribuição normal de
preciso
l
(Capítulo 6).
9 - Independência
Y, mas se a análise de variância for realizada (o que é óbvio), é
comprovar a normalidade ou utilizar o expediente do teorema de limite centra
=> independência dos erros (afastamento da linha de
regressão) das observações. A validade desta condicionante é melhor
eio de seleção das unidades de amostra de forma aleatória. No assegurada por m
caso de usar parcelas repetidas ou série temporal, o teste Durbin-Watson é a
solução.
i) Método dos Mínimos Quadrados (MMQ):
(i
Assume-se, tentativamente,que a linha de regressão de variável Y sobre a variável X
tem a forma a + b X, que assume a seguinte expressão matemática
iXY εββ ++= 10
o que quer dizer: para um dado X, um valor correspondente de Y consiste do valor β0 + β1 X
mais uma quantidade εi, o incremento pelo qual algum indivíduo Y pode desviar-se da linha
de regressão.
tes β0 e β1 são desconhecidos. O erro εi é muito difícil de ser encontrado
porque ele varia para cada observação Y β0 e β1 permanecem fixos e, apesar de
não poder encontrá-los exatamente sem das as possíveis ocorrências de Y e X,
utilizar as informações disponíveis para obter as estimativas a e b de β0 e β1,
respectivamente. Desta maneira, pode o modelo acima, como um modelo
tico da seguinte maneira
nde Ye é o valor estimado de Y para um dado X, quando a e b são conhecidos.
terminar os coeficientes a e b. Como falamos
anteriormente, será uti tes. Vamos fazer esta
nstração a partir da figura 12.1.:
Os coeficien
. Entretanto,
o exame de to
pode-se
mos escrever
estatís
bXaeY +=
∧
o
A questão, agora, é saber como de
lizado o MMQ para a determinação dos coeficien
demo
Figura 12.1: Valores ados pela regressão.
observados versus valores estim
Vamos considerar
Yei = valor estimado
Nesta figura temos 6 valores de X. A equação da reta ajustada passa exatamente entre
os pontos (X) observados. O desvio (ε) é a diferença entre o valor observado (Y) e o valor
estimado (Ye) pela equação da reta para o mesmo valor de X
Vamos começar a demonstração adiantando que vamos chamar a soma dos desvios ao
εi = Yi - Yei
sendo:
Yei = a + b Xi
logo
εi = Yi – (a + b Xi)
Continuando o desenvolvimento do MMQ.
(ε1) + (ε2) + (ε3)2 + ... (εn)2 tem que ser mínimo
go
S = ∑ (ε )2 = ∑ (Y – Ye )2 tem que ser mínimo
O passo se rivar esta expressão S para a e b, da seguinte maneira:
Como S tem ualados a zero, tal que as estimativas
sejam dadas da seguinte maneira:
-2 ∑ ( Yi – a – b Xi) = 0
∑ Yi – a ∑ – b ∑ Xi = 0
∑ Xi Yi – a ∑ Xi – b ∑ Xi2 = 0
e, finalmente, temos as seguintes equações norm is:
Yi = valor observado
.
quadrado de S e S tem que ser mínimo (zero), assim
∑ (εi)2 = S = 0 => i variando de 1 a n
sem esquecer que
2 2
lo
i i i
e
S = ∑ (Yi – (a + b Xi))2
guinte é de
δS/δa = 2 ∑ ( Yi – a – b Xi) (-1)
δS/δb = 2 ∑ ( Yi – a – b Xi) (-1Xi)
que ser mínimo, δS/δa e δS/δb podem ser ig
-2 ∑ Xi ( Yi – a – b Xi) = 0
e dividindo tudo por (-2) e completando as outras operações algébricas, as expressões ficam
assim
a
a ∑ Xi + b ∑ Xi = ∑ XiYi
serão:
a n + b ∑ Xi = ∑ Yi
2
Pelo método de substituição, os coeficientes
( ) nXbYa ii∑ ∑−= −
e
( ) ( )xxy SQCSPCb =
stimar os coeficientes de regressão a e b, você tem que saber os seguintes
facilitar os cálculos manuais, monte a seguinte
o encontradas no Capítulo 3.
obs Y X Y X XY (Y-Ye)
Então, para e
somatórios: ∑ Yi, ∑ Xi, ∑ XiYi e ∑ Xi2. Para
quadro auxiliar. As fórmulas de SPC e SQC sã
Quadro 12.1: Quadro auxiliar para estimar os coeficientes de regressão.
2 2 2
1
2
.
.
.
N ∑ XY ∑ (Y-Ye)2∑ Y ∑ X ∑ Y2 ∑ X2
Comentários:
i) Com os coefi ondições de descrever o
riável dependente Y e a independente X. Mais para
e estima o coeficiente de correlação e a precisão da
equação.
isto é, quando X = Xmédio tem-
iii) oeficiente angular ou de inclinação, fornece a
12.4. C
rificar o quão estreito
é o relacionamento linear entre as variáveis Y e X. De uma amostragem aleatória (X e Y) de
manh
cientes de regressão estimados temos c
relacionamento linear entre a va
a frente, vamos mostrar como s
ii) A reta dos MMQ passa pelo ponto (Xmédio, Ymédio),
se Ye = Y médio
O coeficiente de regressão b, c
variação que ocorre em Y, por unidade de X.
orrelação linear:
Depois da determinação dos coeficientes de regressão, vamos ve
ta o n de uma população normalmente distribuída, a estimativa do coeficiente de
correlação, r, é obtida da seguinte maneira:
YX
xy
SQSQC × C
SPC
r =
e de correlação tem o m nal do n dor e, conse ntemente, o
iciente de são s r independe das unidades de medida das
el ar
aior res de o relacionad com os maiores valores de X
enores de X.
linear. O passo
i i i i ӯ)]2
= ∑ [(Yi - ӯ)2 – (Yei - ӯ)2 – 2 (Yi - ӯ) i - ӯ)]
2
∑ ( Yi – Yei)2 = ∑ (Yi - ӯ)2 – ∑ (Yei - ӯ)2
tal que, o resultado final desta operação é
∑ (Yi - ӯ)2 = ∑ ( Yi – Yei)2 + ∑ (Yei - ӯ)2
SQCY = SQRES + SQREG
Qual é o significado de cada termo?
∑ (Yi - ӯ)2 => SQCY = soma dos quadrados corrigidos de Y
∑ ( Yi – Yei)2 => soma dos quadrados sobre a regressão = SQRES
∑ (Yei - ӯ)2 => soma dos quadrados devido a regressão = SQREG
O coeficient esmo si umera qüe
mesmo sinal do coef
variáveis Y e X.
regres b. E mai , o
O coeficiente de corr ação v ia de -1 a +1
r positivo => os m es valo Y estã os
ou os menores de Y estão relacionados com os m
r negativo => os maiores valores de Y estão relacionados com os menores valores de
X ou vice-versa.
r = 0 => Y não tem relacionamento linear com X.
r = 1 => perfeito relacionamento linear entre a variável dependente (Y) e a
independente (X).
12.5. Precisão da regressão estimada:
Depois de estimar os coeficientes de regressão e de correlação, podemos descrever o
relacionamento entre Y e X e sabemos o quão estreito é este relacionamento
seguinte é saber o quão precisa é a equação resultante. Primeiro, considere a seguinte
identidade
Yi - Yei = ( Yi - ӯ ) - ( Yei - ӯ )
elevando ao quadrado os dois lados e somando de i = 1 até n, tem-se
∑ (Y - Ye )2 = ∑ [(Y - ӯ) – (Ye -
– (Ye
= ∑ (Yi - ӯ)2 – ∑ (Yei - ӯ) – 2 ∑ (Yi - ӯ) – (Yei - ӯ)
e re-escrevendo o 3º termo de modo a ter
Portanto, em análise de variância (ANOVA), a grande vantagem é a possibilidade de
decompor a variação tota . Estes são os principais
elementos para montar o qu ara regressão:
l (SQCY) em outras fontes de variação
adro de análise de variância (ANOVA) p
Quadro 12.2: Quadro de análise de variância (ANOVA)
Fontes de variação GL SQ MQ F
Devido à regressão c – 1 b * (SPCxy) SQREG/(c-1)
Sobre a regressão (resíduo) n – c por subtração SQRES/(n-c)
Total (corrigido) n - 1 SQCY
sendo: c = número de coeficientes de regressão.
a-F). Portanto, hoje você pode tomar decisões baseadas na sua
dual, baseada em (n-2)
o com a qual qualquer valor
observado de Y poderia ser estimado de um dado valor de X, usando a equação ajustada.
r a variável que mede a precisão da equação ajustada que
O valor de F é dado pela razão entre MQREG e MQRES. Quanto maior for o numerador
MQREG, maior será o valor de F. Quanto maior for o F, mais significante será o modelo
testado. Antigamente, você pegava o F calculado e ia à tabela-F para comparar os dois
valores; se o valor calculado fosse maior do que o tabelado (para os 3 principais níveis
críticos de 10%, 5% e 1%), você concluía que o seu modelo era significante, caso contrário,
não significante. Hoje, os programas de estatística já dão os valores exatos da probabilidade
(ou a área sob a curv
capacidade de discernimento. Por exemplo: se p for igual a 0,03 (ou 3%), você pode dizer
que é significante a 5% mas não a 1% ou, então, dizer qualquer coisa sobre o 0,03 da sua
própria cabeça sem ficar no maniqueísmo do significante ou não significante.
A MQRES é igual a s2 e fornece uma estimativa da variância resi
graus de liberdade (GL). Se a equação de regressãofoi estimada de um número grande de
observações, a variância residual representa uma medida do err
Por último, vamos apresenta
é o erro padrão de estimativa (SY.X):
2
. ss xy =
13 será visto como se trabalha com equações múltiplas. Um exemplo No Capítulo
prático será visto no Capítulo 15 (biomassa florestal), que é o manuscrito de um artigo já
publicado na Acta Amazonica.
Capítulo 13
Estatística não Paramétrica
atística paramétrica. Basicamente, a
normal. No entanto, os
nôme rão (µ = 0 e σ2 = 1) e,
ão – uso da padronização da
do os seus dados teimam em não seguir a distribuição normal, temos
“teorema do limite central” para “driblar” a condição
aram os recursos estatísticos para analisar os seus resultados,
” violadas. Além disso, quando não dá para repetir a pesquisa de campo ou de
plicados às populações com qualquer distribuição.
preço é a
mitação de sua comunicação. Não dá pra você ir muito longe com as decisões tomadas com
base nos teste tanto, a
estatística não paramétrica requer poucos dados (portanto, a pesquisa é mais barata), os
cálculos são s nsformações) com dados
rdinais e qualitativos.
A estat e não trabalha com parâmetros
e σ2). Este
Hoje, quando v
ste similar na nã aração de médias.
Neste capítulo m paramétricos, principalmente aqueles que
têm contrapartidas (correspondentes) na estatística paramétrica.
13.2. Distribuição n
Este te
Sabem
n
−
Numa pesquisa incluindo n
13.1. Introdução:
Até o capítulo 12, vimos várias situações da est
estatística paramétrica foi desenvolvida sob a teoria da distribuição
fe nos naturais tendem a não seguir a distribuição normal pad
muitas vezes, não há nem como normalizar os dados da populaç
variável aleatória. Quan
ainda o recurso do uso do
norma“ lidade” da maioria dos testes estatísticos.
Se você achou que acab
restou o último e derradeiro recurso que é o uso da estatística não paramétrica. A estatística
não paramétrica é usada quando as condições impostas ao uso da estatística paramétrica são
“muito
laboratório e você tem que analisar o material que você em suas mãos. Para alívio de sua
consciência, existe a estatística não paramétrica que é a estatística de distribuição “livre” e os
seus testes podem ser a
Qual é o preço que você paga por usar a estatística não paramétrica? O
li
s não paramétricos, além do “significante” ou “não significante”. No en
imples e você pode trabalhar diretamente (sem tra
o
(µ
ística não paramétrica é assim conhecida porqu
conceito, no entanto, ganhou uma certa flexibilidade com o passar do tempo.
iola as condições impostas pela estatística paramétrica, você corre atrás de um
o paramétrica e usa até para compte
va os ver alguns testes não
Bi omial:
ste já foi visto no capítulo 4 (Probabilidade).
os, então, que:
( ) (k ppkxP −⎟⎟⎞⎜⎜⎛== 1 ) pn
k ⎠⎝
experimentos independentes do tipo “sucesso e
insucesso”, teremos:
p = pro
x = o núme
babilidade de sucesso
ro de sucessos
(1 - p) = probabilidade de insucesso
sala tem cartões numerados de 1 a 10. Ela pega
m outra sala) tenta “adivinhar” o número que foi
P (x = 2) = ? => probabilidade de acertar 2 vezes
0,027
ou seja, a probabilidade de outra pessoa acertar 2 vezes em 3 tentativas é 0,027 ou
2,7%.
bilidades, desde que haja coincidência em termos
de n
Exemplo 1 => Uma pessoa em uma
um cartão ao acaso e uma outra pessoa (e
pego. Este experimento é repetido 3 vezes. A pergunta é: qual é a probabilidade de acertar 2
vezes.
Resolvendo => sabemos que:
n = 3
p = probabilidade de sucesso = 1/10 = 0,1
q = (1 – p) = probabilidade de insucesso = 9/10 = 0,9
Portanto:
3
P (x = 2) = (1/10) 2 (9/10)3-2 = 3 * 0,01 * 0,9 =
2
A Tabela VIII dá direto essas proba
, k e p. Pra se garantir, é melhor saber como calcular a probabilidade exata da
distribu
Você obtém a probabilidade usando a Tabela VIII => n = 3, k = 2 e p = 0,1
Ö na primeira coluna tem o n
ição binomial.
(número de tentativas ou experimentos)
Ö na segunda coluna tem o k
(número de sucessos)
Ö para n = 3, temos k = 0, k = 1, k = 2 e k =3
Ö para cada k, temos uma probabilidade de acordo com a probabilidade de
sucesso, p, pré-estabelecida =>
o pra k = 2 => p = 0,0270
> p = 0,0010
babilidades de sucessos (não
incluindo k = 2), ou seja, 0,7290 + 0,2430 = 0,9720 => A
nenhuma vez é de 0,9720 ou
o pra k = 0 => p = 0,7290
o pra k = 1 => p = 0,2430
o pra k = 3 =
Respondendo, então, a pergunta: P (x = 2) = ?
P (x = 2) é igual a 0,0270
E se eu quisesse saber: P (x < 2) e P (x ≥ 2)
¾ P (x < 2) => fácil, basta somar as pro
probabilidade de acertar uma ou
97,2%.
¾ P (x ≥ 2) => tenho que somar a probabilidade de k = 2 e k = 3, ou
seja, 0,0270 + 0,0010 = 0,0280 => a probabilidade de acertar mais
13.3. Tes
“ranke
miliar. F não a
ipótes resultado
é o seg
de 2 vezes é de 2,8%.
te de sinal para medianas:
Mediana é valor da variável aleatória que, em ordem crescente ou decrescente, está
ado” no meio. Vamos ilustrar a aplicação desse teste com um exemplo sobre renda
ixo (arbitro) ou hipotetizo uma renda familiar e vou verificar se rejeito ou fa
h e. Pego, aleatoriamente, 12 famílias e registro a renda anual de cada uma e o
uinte (em R$ 1.000,00):
60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1 10,4 6,2
> 14.000 < 14.000
o estamos trabalhando com a mediana, sabemos que:
om
¾ probabilidade de insucesso => q = (1-p) = 0,5 (menor do que a mediana)
VIII para calcular a probabilidade, considerando que:
¾
¾ aiores do que 14.000) => de acordo com H0, sucesso
ignifica que a renda tem que ser menor que 14.000; renda > 14.000 significa
p = 0,5 e, conseqüentemente, q = 0,5
Neste caso, temos também que fixar (aproximadamente) o nível crítico α para
estabelecer a área de ossa hipó ula.
Então, vamos a tabela VIII
¾ temos que olhar na primeira coluna com n = 12 (temos 12 rendas familiares,
gina, o k está na segunda coluna e como p = 0,5 (sucesso) temos que ver
as probabilidades de cada k na oitava coluna.
¾ um processo inverso,
a nossa área de rejeição e seu correspondente k que seria, então, o
nosso valor crítico a ser usado na tomada de decisão.
C
¾ probabilidade de sucesso => p = 0,5 (acima da mediana)
Quais são as nossas hipóteses?
¾ H0: Mediana (MD) = 14.000
¾ H1: MD > 14.000
Podemos utilizar a Tabela
n = 12
k = 10 (são 10 rendas m
s
insucesso.
¾
rejeição de n tese n
terceira pá
como o nosso α = 0,05 (aproximadamente), temos que, n
determinar
pra k = 12 => p = 0,0002 e α = 0,0002
pra k = 11 => p = 0,0029 e α = 0,0002 + 0,0029 = 0,0031
ser k = 10 ou
k = 9, ou seja, se o número de famílias que têm renda maior ou igual a R$
00,00 igual a 1 ê rejeita H ,019 ou
0 para α = 0,0729.
oltando ao lo, n = 12 e v s atribuir o sinal (+) para as rendas superiores
(-) para as rendas inferiores a 14000.
25,7 22,4 17,3 16,1 14,8 14,3 ,1 10,4 6
+ + + + + + + -
Quantos sinais (+) temos? Temo
erando α = 0,0192, temos que rejeitar H0 porque k ≥ 10. Como o k só pode
o estaria entre 0,0192 e 0,0729.
3.4. T
ento” é feito a partir disso.¾ nho n
pra k = 10 => p = 0,0161 e α = 0,0031 + 0,0161 = 0,0192
pra k = 9 => p = 0,0537 e α = 0,0192 + 0,0537 = 0,0729
¾ Se a opção for α = 0,05 (aproximadamente), o seu valor crítico pode
14.0 for maior ou 0 voc 0 para α = 0 2 e se for maior
igual a 9, você rejeita H
¾ V exemp amo
ao valor hipotetizado (14.000) e o sinal
60,0 20,1 15,3 14 ,2
+ + + -
¾ s 10, ou seja, o nosso ponto de decisão é 10 =>
Consid
ser inteiro, o nosso valor crític
¾ Conclusão: Rejeitamos H0, a nossa mediana não é igual a R$ 14.000,00 com α =
0,0192.
1 este de sinal-rankeado Wilcoxon:
É um teste similar ao anterior, mas a operação é executada usando as diferenças entre
o valor observado e o valor hipotetizado. E mais: as diferenças são expressas em valores
absolutos e o “rankeam
Procedimentos:
¾ Formular as hipóteses
H0: MD = M
H1: MD < M (MD > M)
Em uma amostra de tama , usar a Tabela IX para encontrar α e o valor crítico
d.
ostra de tam n Tomar uma am anho ¾ e montar o seguinte quadro:
val o | D | rank de |D| rank c/ sinal R bs (x) dif (x – M)
x1
xn
¾ Calcular:
1
para H1: MD > M => R- = soma dos R com sinais negativos
para H : MD < M => R+ = soma dos R com sinais positivos
¾ Decisões:
para H : MD < M =>1
a H1: MD > M =>
R+ ≤ d => rejeitar H0
par R- ≤ d => rejeitar H0
Vam amos o DAP de 8 árvores (isso é uma coisa que
você nunca vai fazer – entrar na floresta e medir apenas 8 árvores é um desperdício
inaceitável a mediana é igual a 50 cm. O quadro seguinte apresenta os
dados o
val o M) | D | rank de |D| rank c/ sinal R
os a um exemplo prático. Tom
) e queremos saber se
bservados (x) e as demais colunas necessárias para a execução do teste.
bs (x) dif (x –
50,2 + 0,2 0,2 2 + 2
50,1 + 0 0,1 + 1 ,1 1
49,6 0,4 - 3 - 0,4 3
49,5 - 0,5 - 4 0,5 4
49,2 - 0,8 - 5 0,8 5
49,0 - 1,0 - 6 1,0 6
48,4 - 1,6 - 7 1,6 7
47,0 - 3,0 - 8 3,0 8
Solução:
¾ Da tabela IX, para n = 8, tiramos que o α
mais próximo de 0,05 é 0,055; portanto o
valor crítico d é igual a 6 para α = 0,055.
¾ Calculamos, então, o R+ somando os “ranks” com sinais positivos (+) => na última
s (+), que são 2 e 1, logo R+ = 2 + 1 = 3
¾ Decisão: Como d = 6 e R+ = 3, rejeitamos H0
3.5. Teste de Mann-Whitney: comparação de duas medianas (ou médias de
duas p
Procedimentos:
coluna tem apenas 2 rank
1
opulações):
¾ Formular as hipóteses:
H0: As duas populações têm a mesma mediana => MD1 = MD2
H1: As duas populações não têm a mesma mediana => MD1 > MD2 (ou menor)
¾ Considere n como o tamanho da amostra da população 1 e k como o tamanho da
o
¾ a alor crítico d
am stra da população 2.
Us r a Tabela 13.11 para encontrar o v para α = 0,05.
¾ é a soma dos ranks da população 1.
¾
¾
Exe tratamentos
diferenciados:
Pop 1: tempo de aprendizagem para todos os trabalhadores com experiência
omprovada.
Coletar os dados, rankear e calcular S1 que
Calcular T = S1 – [ n (n+1) ] / 2
Decisão: Rejeitar H0 se T ≤ d
mplificando: Considere duas populações de escolas com
c
Pop 2: tempo de aprendizagem para todos os trabalhadores sem experiência
comp vada
¾ Hipóteses:
H0: MD1 = MD2
H1: MD1 < MD2
¾ Tamanhos das amostras =>
n = 8 da população 1
k = 7 da população 2
¾ Da tabela 13.11, para α = 0,05, n = 8 e k = 7, o valor crítico d
ro
é igual a 13.
Vamos aos cálculos:
População 1 População 2
Tempo rank tempo rank
2,33 11 2,31 10
1,81 5 1,96 7
2,17 8 2,73 14
1,78 4 2,51 13
1,74 3 3,04 15
1,46 1 2,34 12
1,58 2 2,24 9
1,92 6
¾ Prim
¾ Calculamos, então, o T
T = 40 – [ 8 (8+1) ] / 2 = 4
Decisão
eiro, calculamos S1 = 11 + 5 + 8 + .....+ 6 = 40
: Como T < d; rejeitamos H0 e concluímos que MD1 < MD2
13.6. Considerações finais:
Evidentemente, a estatística não paramétrica não se resume nos testes apresentados
neste capítulo. Isso foi apenas um aperitivo acrescentado a sua disciplina de Biometria
Florestal. Estatística não paramétrica tem um vasto repertório de testes; por exemplo, do tipo
Kolmogorov-Smirnov:
o Teste Kolmogorov para ajuste da distribuição
o Teste Lilliefors para normalidade
o Teste Shapiro-Wilk para normalidade
o Teste Smirnov para teste de 2 amostras independentes
o Teste Cramér-von Mises para teste de 2 amostras independentes
o Teste Birnbaum-Hall para teste de várias amostras independentes
PARTE 2
Capítulo 14
Algumas variáveis aleatórias utilizadas em manejo florestal
14.1 Diâmetro à altura do peito (DAP)
14.1.1 Notas preliminares
Na engenharia florestal, o diâmetro da árvore é DAP e ponto final. DAP se mede a 1,3
m acima do nível do solo. O objetivo desta seção não é ensinar como medir o DAP porque
isto está muito bem explicado nos livros de Machado & Figueiredo Filho (2003)3 e Campos &
Leite (2002)4. Em plantios de eucalipto, o DAP tende a ser medido quase sempre a 1,3 m do
solo. Na Amazônia, a situação é um pouco diferente porque há sapopemas e outras
irregularidades no tronco que nem sempre a parte a 1,3 m do solo está disponível para medir.
ica ocasião, esta situação pode ser superada utilizando
u a projeção do diâmetro à altura do DAP. Por compensação de
contínuos, a subjetividade na
ediçã ão é bem-vinda. Neste caso, é
ura em relação ao solo) e aí o recurso é medir
ste ponto da medição. Dessa forma, será possível
stimar ou mais ocasiões.
rreta desta variável tão importante para a engenharia florestal;
Em inventários em uma ún
equipamentos especiais o
erros, o resultado final não será afetado. Em inventários
m o de um mesmo indivíduo em ocasiões sucessivas, n
necessário medir sempre no mesmo local (alt
aonde é possível e marcar (com tinta) e
e as mudanças ocorridas entre duas
Como é a pronúncia co
D-A-P ou Dape ou Dapi? Segundo o Manual de Estilos da Abril, temos os seguintes
conceitos:
Sigla é a reunião das iniciais de um nome próprio composto de várias palavras e deve
ir, quase sempre, em caixa alta: CNBB, CPI, CPMF, IBGE, BNDS, CBF etc. Certas siglas
silabáveis, mesmo estrangeira, são escritas em caixa alta e baixa: Vasp, Ibope, Inpa, Incra,
Aids etc.
Diante disso, o nosso diâmetro à altura do peito tem que ser pronunciado como Dape
ou Dapi. Certos estão os biólogos, ecólogos e outros não florestais e errados estão os
engenh nta d de seção àqueles que pronunciam
nem ) àqueles que falam Dape ou
api p s, mas continuem pronunciando D-A-P., que é uma tradição
floresta
eiros florestais. Por co isso, quero dicar esta
em (e tripudiemerrado esta variável, D-A-P. Não critiqu
D orque eles estão certo
l de mais de 40 anos no Brasil.
Acrônimo é a reunião de elementos (iniciais, primeiras letras e sílabas) dos
mpoco nentes de um nome, com a intenção de formar uma palavra silabável e, deve ir, sempre,
em caixa alta e baixa: Ibama, Cacex, Varig etc. Chichuá é um acrônimo.
14.1.2 DAP usado na estrutura da floresta
A curva do tipo J-invertido é a que melhor descreve a estrutura diamétrica das
florestas da região amazônica. Os valores observados de DAP podem ser ajustados por
funções matemáticas que produzem curvas que se assemelham ao tipo J-invertido. A mais
popular na Amazônia é a função de Weibull. No anexo 4 está disponível uma revisão sobre as
funções Weibull e exponencial.
3 Machado, S.A. e Figueiredo Filho, A. 2003. Dendrometria. 309p.
4 Campos, J.C.C. e Leite, H.G. 2002. Mensuração florestal. UFV. 407p.
Como o DAP é a principal variável independentepara o setor florestal da Amazônia,
uma função de distribuição bem ajustada pode facilitar o inventário florestal sem perder a
precisão. Com uma boa função, que apresenta a distribuição de probabilidade de cada classe
de DAP, o inventário usando a contagem de indivíduos por unidade de área é perfeitamente
possível. Dessa forma, o tempo de coleta seria muito mais rápido e, conseqüentemente, o
me e DAP e ou H e biomassa e DAP e ou HT:
1)
inventário ficaria mais barato.
14.1.3 DAP como variável independente de equações de volume e de biomassa
Tanto para volume e biomassa os seguintes modelos logarítmicos podem ser utilizados
para descrever a relação entre volu
( )DAPbaV lnln += ou ( )DAPbaPF lnln +=
2) ( ) ( )HcDAPbaV lnlnln ++= ou ( ) ( )HTcDAPbaPF lnlnln ++=
onde: V = volume do tronco em m3
D = DAP em cm
H = altura comercial ou comprimento do tronco em m
PF = peso fresco da parte aérea em kg
HT = altura total da árvore em m
natural
Todo o desenvolvimento desses modelos será detalhado na próxima seção. Aqui,
querem
ln = logaritmo
os apenas mostrar os indicadores usados na escolha do melhor modelo, como erro
padrão da estimativa syx, coeficiente de correlação (r) e coeficiente de determinação (r2), para
advogar em favor do uso do DAP apenas. Vamos considerar modelo 1 como aquele que tem
apenas o DAP como variável independente e modelo 2 o que tem DAP e altura (comercial ou
total), separadamente para volume e biomassa.
Volume (n = 959):
Modelo 1: syx
Modelo 2: syx = 1,04% r = 0,988 r
= 1,46% r = 0,971 r2 = 0,943
2 = 0,977
Biomassa (n = 498):
Modelo 1: syx = 6,54% r = 0,984 r2 = 0,967
Modelo 2: syx = 5,32% r = 0,989 r2 = 0,978
Você vê alguma diferença entre os modelos 1 e 2, para volume e biomassa? Neste
capítulo queremos enfatizar apenas essas diferenças, sem se preocupar com o significado de
cada indicador (será explicado na próxima seção). No caso do volume, acrescentar a variável
H significa um ganho muito pequeno na precisão. O mesmo acontece com a biomassa.
Entretanto, acrescentar a altura (H ou HT) ao modelo é uma outra coisa. Em um
hectare de floresta amazônica primária podemos ter: (i) 600-700 indivíduos arbóreos com
idindo o espaço com lianas, epífitas e palmeiras; (ii) alta diversidade em
uitetura de copa de múltiplas formas; (iv) dossel com vários estratos em
(comprimentos) com trena. Durante o inventário florestal, a situação é outra, ou seja, temos
DAP≥ 10 cm div
espécies; (iii) arq
altura; (v) espécies com idades diferentes, que podem variar de 1 a 100 anos.
Como medir a altura desses indivíduos? Para o desenvolvimento dos modelos, o
método destrutivo é empregado; portanto, temos as árvores no chão e medimos as alturas
que medir as alturas da árvore em pé. Mesmo com equipamentos sofisticados, é muito difícil,
senão impossível, medir precisamente a altura total. A altura comercial pode até ser medida
com equipamentos, mas diferentes medidores podem apresentar diferentes
a mesma árvore por causa da subjetividade em definir o que é "altura
merc
14.2. Á
aneira:
precisamente
medidas para
co ial". Nunca, mas nunca mesmo, "chutar" a altura para utilizar o modelo 2.
Nos exemplos com equações de volume e de biomassa, temos o seguinte: (i)
acrescentar a altura comercial (H) ao modelo 1, significa melhorar a precisão em 0,42% (1,46
– 1,04) e (ii) acrescentar altura total (HT) ao modelo, significa melhorar a precisão em 1,22%
(6,54 – 5,32). Vale a pena acrescentar a altura? Pense nisso, sobretudo, nos custos de coleta de
dados para o inventário florestal.
rea basal
É a projeção dos DAPs ao solo, que indica a densidade da floresta. Do ponto de vista
técnico, é a soma da área transversal de todos os indivíduos em um hectare. Área transversal é
a área do círculo à altura do DAP. Isto é conseguido fazendo (imaginário) um corte
transversal no DAP e medindo o raio ou o diâmetro do círculo. É a área de um plano sobre o
tronco, disposto em ângulo reto ao eixo longitudinal. Portanto, a área transversal
(classicamente representada pela letra "g") é obtida da seguinte m
( ) 42DAPgi π=
e a área basal, então:
( )∑ == nigAB i ,...2,1
Na área experimental de manejo florestal da ZF-2, a área basal média está em torno de
30 m2/
iva de área basal, de forma isolada, diz muito pouco sobre
uma determinada floresta. Com esses poucos exemplos, é difícil afirmar que a floresta da ZF-
2, por exemplo, é muito densa ou pouco ou médio, porque deve haver florestas mais densas
nventariada já
s anos 90), era comum ver inventários florestais com
olume
forma utilizado era igual a 0,7 proposto por peritos da FAO (Food and Agriculture
No setor florestal, as decisões são tomadas baseadas no volume de madeira. Isto é tão
forte que, muitas vezes, o engenheiro florestal até se esquece que numa floresta há muitas
outras coisas além da madeira. Aqui, o objetivo é mostrar como se estima o volume de
ha. Isso quer dizer que se projetarmos todos os DAPs ≥ 10 cm sobre uma área de
10.000 m2 (um hectare), as árvores ocuparão 30 m2. Algumas estimativas (m2/ha) para
diferentes sítios na Amazônia: UHE de Santa Izabel (região do Araguaia) = 15,2; Projeto Rio
Arinos (norte de MT) = 1,6; Floresta Estadual do Antimary (Acre) = 15,2, Trombetas (Pará) =
24,8; PIC Altamira (Pará) = 22, Sul de Roraima = 20,9 e Alto Solimões (Fonte Boa e Jutaí no
AM) = 27 m2/ha.
Com esses poucos exemplos, podemos dizer que a floresta da ZF-2 é mais densa do
que as outras florestas. A estimat
do que esta. De qualquer modo, não custa nada estimar a área basal da área i
que as medições de DAP são obrigatórias em inventários florestais.
Antigamente (até início do
v s estimados a partir da área basal, ou seja, AB x altura x fator de forma. O fator de
Organization) que realizaram os primeiros inventários na Amazônia nas décadas de 50 e 60. A
altura era, invariavelmente, "chutada". O engenheiro florestal deve utilizar-se de equações
próprias para estimar o volume de madeira.
14.3. Volume
madeir precisa ter equações confiáveis e usá-las
para es
strutivo. Antes de derrubar a árvore, o DAP é
medido
(2002).
metria
a nos inventários florestais. Para isto, você
timar o volume de árvores em pé medidas em parcelas fixas do inventário florestal.
Volume real
Para desenvolver equações de volume, você precisa ter o volume real de vários
indivíduos. Este volume pode ser obtido por meio do método destrutivo (aproveitando áreas
exploradas ou desmatadas, autorizadas pelo Ibama) ou utilizando o relascópio de Bitterlich
(por exemplo). O mais comum é o método de
. Com a árvore no chão, as alturas ou comprimentos (comercial e total) são
determinados e o tronco é dividido em pequenas toras, tentando se aproximar à forma do
cilindro.
Em geral, o tronco é dividido em 10 toras (ou seções) e duas medidas são tomadas em
cada tora, na base e no topo. Com estas duas medidas, você tem condições de calcular as áreas
transversais da base e do topo; aí, você estima a média (g da base + g do topo dividido por 2)
e multiplica pelo comprimento da tora [lembrando que m2 de g vezes m do comprimento,
você terá m3] para ter o volume da tora ou seção. A soma dos volumes das 10 toras é
considerada "volume real" da árvore. Melhores explicações você vai encontrar nos livros de
Machado & Figueiredo Filho (2003) e Campos & Leite
Quantas árvores são necessárias para desenvolver os modelos estatísticos para
volume ou equações de volume ou modelos alométricos?
Alo => (do grego: allos é outra e metron é medida) => é o estudo das variações
das for tem dois significados: (i) o crescimento de uma
ma amostra representativa
mas e dos processos dos organismos e
parte do organismo em relação ao crescimento do organismo inteiroou de parte dele e (ii) o
estudo das conseqüências do tamanho sobre as formas e os processos.
Você pode usar uma função conhecida de distribuição em diâmetro (Weibull, por
exemplo) e ver se os dados já coletados se ajustam a esta função. Teste simples como o qui-
quadrado (confrontação entre freqüência esperada e freqüência observada) dá conta disso. Se
o teste for significante, colete mais dados das classes que estão faltando e refaça o teste qui-
quadrado. Se o resultado for não significante, você tem, em mãos, u
de sua população de interesse. Há também a possibilidade de utilizar-se do recurso do
inventário florestal quanto à intensidade de amostragem; neste caso, cada indivíduo é uma
amostra. A fórmula é a seguinte: ( ) 222 εstn =
sendo: t = valor obtido na tabela-t ( p
2
= 0,05 ou outro e n-1 graus de liberdade)
2 al, o LE (limite de erro) é igual a
Observ
s = estimativa da variância
2ε = expectativa do erro = (LE x média) . Em ger
0,10 ou 10%.
ações: use z em vez de t. Como vimos anteriormente, os valores de z para os níveis
críticos , α = 0,05 e α = 0,01 são, respectivamente, 1,64, 1,96 e
2,57. O ara populações finitas, ou seja, neste caso
ao denom 1 – n/N ). A população é considerada
finita q gundo Freese (1962)5.
mais freqüentes, α = 0,10
utra coisa: há também o fator de correção p
inador da fórmula (ε2) deve ser acrescentado (
uando a fração n/N é menor do que 0,05, se
5 Freese, F. 1962. Elementary forest sampling. Agriculture Handbook nº 232. USDA-Forest Service.
91p.
Equações de volume ou modelo alométrico
O os 70), o
grande desafio era encontrar o melho descrever a função V = f (DAP, H).
Depois de várias dissertações e artigos ficou-se que qualquer modelo, seja de
simples entrada (apenas DAP como v ente) ou de dupla entrada (DAP e H
omo v
que apresenta r > 0,90, r2 > 0,90 e syx (%) < 10. Além disso, o modelo tem que ter
a b
tama
passo seguinte é testar modelos matemáticos. Antigamente (fim dos an
r modelo para
científicos, veri
ariável independ
c ariáveis independentes, combinadas ou não) produzem bons ajustes. A decisão para
escolher o melhor modelo ficou nos detalhes.
Hoje em dia, qualquer modelo que você venha a testar, utilizando DAP e H, você vai
conseguir uma alta e significativa correlação, um modelo que explica mais de 75% da
variação de seus dados (r2) e um erro padrão de estimativa aceitável. O padrão de hoje é o
modelo
um oa distribuição de resíduos, que é: as diferenças entre os valores estimados e
observados, positivos e negativos, têm que se distribuir uniformemente ao longo da curva (ou
reta) estimada, ou seja, estas diferenças não podem aumentar (ou diminuir) conforme aumenta
o nho da árvore. Por exemplo: se o seu modelo produzir uma diferença de 0,5 m3 para
uma árvore com DAP = 10 cm, esta mesma diferença (mais ou menos) tem que ser verificada
para outra árvore com DAP = 70 cm ou DAP = 150 m.
Os modelos que apresentam as melhores distribuições de resíduos são os modelos
logarítmicos. Os mais usados são os seguintes, do item 1.1.3:
1) ( )DAPbaV lnln +=
2) ( ) ( )HcDAPbaV lnlnln ++=
A abordagem para estimar os coeficientes de regressão é a do método dos mínimos
es de derivar a equação em relação a a e b, primeiro é preciso linearizar as
∑ X2 = ∑ X2 Y
quadráticos (MMQ) e depois da obtenção das equações normais, os coeficientes podem ser
estimados usando o método da substituição ou por meio do cálculo matricial. As explicações
sobre as operações necessárias para se chegar aos coeficientes podem ser encontradas em
qualquer livro de estatística básica. No computador, basta entrar com as variáveis ln V, ln D e
ln H e você terá, além dos coeficientes de regressão, erro padrão de estimativa, coeficiente de
correlação, coeficiente de determinação e distribuição de resíduos.
Regressão => descreve apenas o relacionamento linear entre uma variável dependente
(Y) e uma ou mais variáveis independentes (X1 = DAP, X2 = altura etc.).
Ant
variáveis aleatórias, da seguinte maneira: ln V = Y, ln D = X1 e ln H = X2. Para o modelo 1, as
equações normais são:
a n + b ∑ X1 = ∑ Y
a ∑ X1 + b ∑ X12 = ∑ X1Y
Pelo método de substituição, os coeficientes serão:
a = [ ∑ Y - b ∑ X1 ] / n
b = [ SPC ] / [ SQC ] X1Y X1
Para o modelo 2, as equações normais são
a n + b ∑ X1 + c ∑ X2 = ∑ Y
a ∑ X1 + b ∑ X12 + c ∑ X1 X2 = ∑ X1 Y
a ∑ X2 + b ∑ X1 X2 + b 2
Neste caso, é melhor estimar os coeficientes apelando para o cálculo matricial.
matriz de Y (nx1) = matriz de X (nxp) x matriz de coeficientes "b" (px1)
(X ) b = X'Y 'X
-1
ressão.
te de correlação => r => a regressão descreve o relacionamento e este
% é considerada
aceitáv
que , ou seja,
No caso de
equaçõ emporais. Portanto, não
precisa se preocupar com isto. Estes dois testes são usados para verificar se os termos dos
erros no modelo de regressão não são correlacionados e nem dependentes. Os termos dos
erros correlacionados com o passar do tempo são conhecidos como "autocorrelacionados" ou
"serialmente correlacionados".
b = (X'X) X'Y
Hoje, com o Excel ficou fácil inverter matrizes de qualquer tamanho e a multiplicação
é mais fácil ainda. Mesmo assim, não há necessidade de trabalhar com matrizes para a
obtenção dos coeficientes. Os programas de estatística, em geral, calculam automaticamente
os coeficientes. Sei que para regressões simples (com dois coeficientes), o Excel dá conta do
recado. Para regressões múltiplas e as não lineares, é melhor usar outro software (Systat, SAS
etc.).
Vamos aproveitar as saídas (outputs) do Systat, por exemplo, para explicar os
significados de alguns indicadores da reg
1) Coeficien
coeficiente mostra o grau de estreiteza que existe entre as variáveis Y e X1, X2 etc.. Este
coeficiente varia de -1 a +1. Igual a -1 ou +1, há uma correlação perfeita, ou seja, a cada
unidade acrescentada à X, haverá um aumento proporcional em Y (uma, duas, ou menos 2
unidades). Sinal (-) significa que os menores valores de Y tendem aos maiores valores de X
ou vice-versa. Sinal (+) significa que os menores Y tendem aos menores X e os maiores Y
tendem aos maiores X. O teste-t é geralmente utilizado para testar a significância de r.
2) Coeficiente de determinação => r2 => multiplicado por 100 mostra a percentagem
da variação dos dados que é explicada pelo modelo testado. No caso de regressão múltipla,
prefira sempre o coeficiente ajustado.
3) Erro padrão de estimativa => syx => é a raiz quadrada da média quadrática dos
resíduos (MQR), logo é o desvio padrão da relação. Ao comparar duas equações, o uso deste
indicador é direto, ou seja, aquela que apresentar o menor erro é a melhor. Isoladamente, é
preciso ainda alguns cálculos. Dividindo syx pela raiz quadrada de n você terá o erro padrão da
édia e dividindo o mm esmo pela média da variável dependente Y, você terá o seu erro em
percentagem. Melhor ainda é apresentar a incerteza de seu modelo. Neste caso, você tem
estimar o intervalo de confiança (IC) e aquela porção (z * erro padrão) dividida pela média
vai te fornecer a incerteza de seu modelo. Em geral, uma incerteza de 10
el.
4) Coeficientes de regressão => O Systat apresenta a constante ( a ) e os coeficientes
associados às outras variáveis independentes (b, c, d etc.) => o Systat apresenta também a
significância de cada coeficiente; se for não significante, você deve removê-lo do modelo.
5) Análise de variância (ANOVA) => a regressão descreve, a correlação mostra a
estreiteza entre as variáveis e a ANOVA mostra a significância do seu modelo de regressão. O
teste-F é o que determina se o modelo é significante ou não. No Systat, o valor p é o mesmoα é o valor crítico para a tomada de decisão. Os valores clássicos de p são 0,01,
0,05 e 0,10; portanto quando o p < 0,01, o modelo testado é significante para os três níveis.
6) Durbin-Watson D Statistics e First Order Autocorrelation =>
es de volume (e biomassa), não há envolvimento de séries t
7) Distribuição de resíduos => o gráfico pode ser interpretado diferentemente por
diferentes eng florestais, mas ele é fundamental para a decisão final do melhor modelo –
conforme foi explicado anteriormente.
Aplicação da equação de volume
Com o melhor modelo
inventário na Amazônia, para á
em mãos, você vai aplicá-lo em inventários florestais. Num
rvores com DAP ≥ 10 cm, você deve utilizar uma parcela de,
o mín 5 m). Numa parcela deste tamanho, você deve
re-se que, de acordo com o conceito de intervalo
0,05, por exemplo) a sua estimativa estará dentro
surpreenda e confie na
tatíst
e avaliar o potencial de uma floresta para produção de energia. No manejo
florestal sustentável na Amazônia, a biomassa é usada para estimar a quantidade de nutrientes
que é exportada do sistema via exploração de madeira e que é devolvida via inputs
atmosféricos. No entanto, depois da Rio-92, a biomassa ganhou uma nova dimensão. O
carbono da vegetação passou a ser um elemento importante nas mudanças climáticas globais.
O eng florestal sabe (ou deveria saber) que aproximadamente 50% da madeira secada (em
estufa) é carbono e que os compostos de carbono são: celulose (45%), hemicelulose (28%) e
lignina (25%).
De acordo com o IPCC (Painel Intergovernamental de Mudanças Climáticas), os
componentes de biomassa e carbono da vegetação são: (i) biomassa ou C na matéria viva
acima do nível do solo (tronco, galhos, folhas, frutos e flores); (ii) biomassa ou C na matéria
viva abaixo do nível do solo (raízes) e (iii) biomassa ou C na matéria morta em pé ou no chão.
Quem foi treinado para estimar o volume de madeira tem todas as condições para
estimar a biomassa também. O anexo 5 é um artigo (manuscrito) sobre biomassa que já foi
publicado na Acta Amazonica6. Este artigo cobre o componente 1 do IPCC.
O componente 2 envolve raízes e isto está sendo realizado pelo LMF (laboratório de
manejo florestal do INPA) e será incluído em uma tese de doutorado. O trabalho de campo
para obtenção do peso de raízes é muito trabalhoso, mas nada que assuste o verdadeiro eng
florestal. Como o solo da Amazônia é muito pobre em nutrientes, as árvores tendem a
desenvolver raízes superficiais – raramente ultrapassam 50 cm de profundidade. Mesmo na
Amazônia, em regiões que têm as estações do ano (chuvosa e seca) bem definidas, as árvores
tendem a desenvolver raízes mais profundas para procurar água, o que não é o caso da
Amazônia Central.
O componente 3 pode ser estimado com precisão combinando as taxas de mortalidade
com os modelos usados no componente 1.
Coleta de dados => verdade de campo => método destrutivo
n imo, 2.500 m2 (10 x 250 m ou 20 x 12
encontrar entre 100 e 150 indivíduos. Lemb
de confiança (IC), em 95 vezes (se o seu p =
do seu IC e em 5 vezes, a estimativa estará fora do IC. Portanto, não se
es ica (na incerteza que o seu modelo declarou). Não esquecer que os seus modelos são
logarítmicos e, por esta razão, ao estimar o volume de madeira você tem que usar o inverso do
logaritmo natural que é a exponencial.
14.4. Biomassa
Estimar a biomassa é importante para compreender a produção primária de um
ecossistema
6 Higuchi, N., Santos, J. dos, Ribeiro, R.J., Minette, L. e Biot, Y. 1998. Biomassa da parte aérea da
vegetação da floresta tropical úmida de terra-firme da Amazônia brasileira. Acta Amazonica,
28(2):152-166.
Os procedimentos para o com esentados no Anexo 2. Ao incluir o
compon separar
as raízes ões dos
de água e carbono é a mesma utilizada na parte aérea. Aqui também,
ção do que inspiração.
sa, cabem ainda as seguintes considerações: (i) você estima o
peso fr
ponentes definidos
pelo IP
ponente 1 são apr
ente 2 em coletas de biomassa, é preciso incluir as raízes. É preciso escavar,
do tronco e pesá-las. A metodologia de coleta de amostras para as determinaç
teores (concentrações)
exige-se mais transpira
Equações de biomassa
Procedimentos iguais aos de volume.
Aplicação da equação de biomassa
O parágrafo apresentado para o volume deve ser repetido aqui.
Para o caso de biomas
esco; portanto, você tem que transformá-lo em peso seco e depois em carbono – basta
multiplicar o peso pelas concentrações de água e carbono obtidas em laboratório; (ii) o
carbono como commodity (mercadoria) em bolsas de mercadorias significa estoque e
diferença de estoque; portanto, você precisa trabalhar com inventário florestal contínuo com,
pelo menos, duas ocasiões; (iii) você precisa separar o peso nos três com
CC.
Capítulo 15
iâmetro: Weibull versus Exponencial
ção:
er medida, com precisão, o diâmetro passa a ser a
a para estimar o volume e a biomassa de florestas
nia. Além disso, o diâmetro consagrou-se como uma
portan tura florestal, como também na comercialização de
es de diâmetro é fundamental para o
entend
uchi (1987) apresentam revisões
ompre
A introdução da função de distribuição Weibull aos problemas relacionados com
silvicultura e manejo florestal, é atribuída à Bailey e Dell em 1973 (Zarnoch et al., 1982;
lutter et al., 1983 e Zarnoch e Dell, 1985). Desde então, esta distribuição tem
mente utilizada para descrever a distribuição de diâmetro, tanto em
povoam especialmente nos Estados Unidos.
as segundo Barros et al. (1979) e Hosokawa (1981), a distribuição
mais popular é
ro:
a metodologia proposta por
Zarnoch e Dell (1985), Cohen (1965) e Einsensmith (1985), respectivamente técnica dos
percentis, da máxima verossimilhança e exponencial, para a obtenção estimadores
(coeficientes) das funções.
(i) Weibull – Máxima Verossimilhança (WMV)
A distribuição Weibull, que tem a seguinte função de densidade probabilística:
Distribuição de d
15.1. Introdu
Como a altura da árvore é difícil de s
variável mais importante e mais segur
tropicais de uma região como a Amazô
variável im escrição da estrute na d
madeira. Assim, a quantificação de distribuiçõ
imento da estrutura da floresta e do estoque da floresta, que são pré-requisitos nas
decisões do manejo florestal.
Bailey and Dell (1973), Clutter et al. (1983) e Hig
c ensivas sobre distribuições de diâmetro. De acordo com Clutter et al. (1983) e
Lawrence e Shier (1981), entre as várias distribuições estatísticas, a distribuição Weibull tem
sido a mais usada pelo setor florestal, depois da distribuição exponencial.
Little, 1983; C
sido extensiva
entos equianos como multianos,
No Brasil, especialmente na floresta amazônica, a Weibull foi utilizada por Higuchi
(1987), Umaña (1998), m
a exponencial.
15.2. As funções de distribuição de diâmet
Nesta comparação entre Weibull e exponencial, usaremos
( ) ( ) ( )( )bxxbcxf cc /exp1 −= − ; para x≥0, c>0 e b>0
mos
c/b) + Σ (c-1) ln xi – (1/b) Σ xic
or meio da diferenciação em relação a c e b e igualando a zero as derivadas, as
seguintes equações serão obtidas:
= 0, em outras circunstâncias
tem a seguinte função de verossimilhança para uma amostragem de n observações
L (x , ....., x ; c, b) = n (c/b) x c-1 exp (-xic/b) (1) i n i
Tirando o logaritmo de (1), tere
ln L = Σ ln [(c/b)xic-1 exp (-xic/b)]
ln L = Σ [ln (c/b) + ln xic-1 – (xic/b)]
ln L = n ln (
P
d ln L/d c = n/c + Σ ln xi – (1/b) Σ xic ln xi = 0 (2)
Tirando b de (3), temos
/c) – (Σ xic ln xi) / Σ xic] = - Σ ln xi
Σ ic] –
, eio de qualquer processo
uação (5). O coeficiente binada através da seguinte função de distribuição
ue, por sua vez, pode ser encontrada integrando a sua função de
ensidade probabilística, f(x), do DAP mínimo até o máximo (Zarnoch et al., 1982)
d ln L/d b = -(n/b) + (1/b2) Σ xic = 0 (3)
b = (Σ xic ) / n (4)
e substituindo em (2), temos
n/c + Σ ln xi – [1/(Σxic/n)] Σxic ln xi = 0
n [(1
[(Σ xic ln xi) / x (1/c) = (1/n) Σ ln xi (5)
Dessa forma o coeficiente c pode ser estimado por m
iterativo ou via tentativa-e-erro para igualar os dois lados da eq
pode ser estimado pela equação (4), depois de estimado o c.
A freqüência esperada pode ser determ
cumulativa de Weibul, F(x), q
d
( ) ( ) ][ }{ cbaxxF −−−= exp1
ii. Weibull Percentis (PERC):
A função de Weibull usando o método dos percentis, tem a seguinte função de
densidade probabilística
f (x) = (c/b) [(x-a)/b)c-1 exp {-[(x-a)/b]c; para x≥a≥0, b>0 e c>0
f (x) = 0, em outras circunstâncias
Os parâmetros a, b e c são estimados da seguinte maneira:
( ) ( )21221 2xxxxxxa nn −+−=
( )nxab 63,0+−=
( )[ ] ( )[ ]( ) ( )axax ppc npinpk ik −−
−−=
ln
1ln1lnln
onde:
x i ( i = 1, 2, ... n) = é o i-ésimo DAP em ordem crescente
x 1 = é o menor DAP e x n = é o último DAP, ou seja, o maior DAP.
x (0,63n) = é o DAP rankeado em ( 0,63 * número total de DAP observados). Exemplo: num
conjunto de dados de 100 DAPs, x (0,63n) é o 63° DAP.
p i = 0,16731 e p k = 0,97366
A freqüência esperada pode ser determinada por meio da seguinte função de
distribuição cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a
sua função de de
1982).
nsidade probabilística, f(x), do DAP mínimo até o máximo (Zarnoch et al.,
( ) ( ) ][ }{ cbaxxF −−−= exp1
(iii) Exponencial:
As estimativas dos parâmetros da primeira ordem da função exponencial
os c .
rada): caso Weibull percentis para DAP≥10
P (x
c
P ( 3
etc …
bxaeY =
podem ser obtidos pela linearização (série de Taylor) ou por meio do método iterativo
(Marquardt, por exemplo), segundo Draper e Smith (1981). O software Systat pode calcular
oeficientes pelos dois métodos
3. Cálculo das probabilidades (freqüência espe
cm
< 10) = 1 – {exp – [(10 – a)/b]c}
P ( 10 ≤ x < 20 ) = {exp – [(10 – a)/b]c} - {exp – [(20 – a)/b]c}
cP ( 20 ≤ x < 30 ) = {exp – [(20 – a)/b] } - {exp – [(30 – a)/b] }
0 ≤ x < 40 ) = {exp – [(30 – a)/b]c} - {exp – [(40 – a)/b]c}
até o último intervalo.
3. Bibliografia:
Bail ull
Functio
Barros, P.L.C., S.A. Machado, D. Burger e J.D.P. Siqueira. 1979. Comparação de Modelos
Descritivos da D (2):19-31.
Clutter, J.L., J.C. Fortson, L.V . Bailey. 1983. Timber
Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p.
Cohen, A.C. 1965. Maximum Likelihood Es in the Weibull Distribution Based on
Co
. 1998. Distribuições Diamétricas da Floresta Tropical Úmida
onica 28(2):167-190.
Zarnoch, S.J.
Estimators
S.J., C.W. Ramm, V.J. Rudolph e MW. Day. 1982. The effects of Red Pine
ey, R.L. e T.R. Dell. 1973. Quantifying Diameter Distributions with the Weib
n. Forest Science 19:97-104.
istribuição Diamétrica em uma Floresta Tropical. Floresta 10
. Pienaar, G.H Brister e R.L.
timation
mplete and on Censored Samples. Technometrics 7(4):579-588.
Draper, N.R. e H. Smith. 1981. Applied Regression Analysis. John Wiley and Sons, Inc. New
York. Segunda edição. 709p.
Einsesmith, S.P. 1985. PLOTIT: User’s Guide.
Higuchi, N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the
Brazilian Amazon. Tese de Doutor, Michigan State University. 129p.
Hosokawa, R.T. 1981. Manejo de Florestas Tropicais Úmidas em Regime de Rendimento
Sustentado. UFPr, Relatório Técnico.
Lawrence, K.D. e D.R. Shier. 1981. A Comparison of Least Squares and Least Absolute
Deviation Regression Models for Estimating Weibull Parameters. Commun. Statist. –
Simula Computa. B10(3):315-326.
Little, S.N. 1983. Weibull Diameter Distribution for Mixed Stands of Western Confiers.
Can.J.For.Res. 1:85-88.
Umana, C.L.A. e Alencar, J.C
em uma Área no Município de Itacoatiara – AM. Acta Amaz
e T.R. Dell. 1973. An Evaluation of Percentile and Maximum Likelihood
of Weibull Parameters.
Zarnoch,
Thinning Regimes on Diameter Distribution Fitterd to Weibull Function. MSU
Agricultural Experiment Station East Lansing. RI-423. 11p.
Capítulo 16
Bi
is logarítmicos - para estimar a biomassa de
árvores
P<20 cm e
omassa da Parte Aérea da Vegetação da Floresta Tropical
Úmida de Terra-Firme da Amazônia Brasileira.
Niro Higuchi1 , Joaquim dos Santos1 , Ralfh João Ribeiro1,
Luciano Minette1 e Yvan Biot2
Resumo
Usando um banco de dados com 315 árvores, com DAP≥5 cm, foram testados quatro
modelos estatísticos - linear, não linear e do
em pé. Os dados foram coletados, de forma destrutiva, na região de Manaus, Estado
do Amazonas, em um sítio coberto por floresta de terra-firme sobre platôs de latossolo
amarelo. Em diferentes simulações com diferentes intensidades de amostragem, os quatro
modelos estimam precisamente a biomassa, sendo que o afastamento entre a média observada
e a estimada, em nenhuma ocasião ultrapassou 5%. As equações para estimar a biomassa de
árvores individuais em uma parcela fixa, distintamente para árvores com 5≤DA
com DAP≥20 cm, são mais consistentes do que o uso de uma única equação para estimar,
genericamente, todas as árvores com DAP≥5 cm. O modelo logarítmico com apenas uma
variável independente, o DAP, apresenta resultados tão consistentes e precisos quanto os
modelos que se utilizam também da variável altura total da árvore. Além do modelo
estatístico para estimar o peso da massa fresca total de uma árvore, outras informações são
apresentadas, estratificadas nos diferentes compartimentos (tronco, galho grosso, galho fino,
folhas e, eventualmente, flores e frutos) de uma árvore, como: concentração de água para
estimar o peso da massa seca, concentração carbono e a contribuição do peso de cada
compartimento no peso total.
palavras-chaves: Carbono, manejo florestal, modelo estatístico.
between observed and estimated biomass was
Aboveground Biomass of the Brazilian Amazon Rainforest
Abstract
Data set with 315 trees with diameter at breast height (dbh) greater than 5 cm was used to
test four statistical models - linear, non-linear and two logarithmics - to estimate aboveground
biomass of standing trees. The data were collected destructively in Manaus region, Central
Amazonia, in a site covered by a typical dense “terra-firme” moist forest on plateaus
dominated by yellow latosols. The difference
always below 5%. The logarithmic model using a single independent variable (dbh) produced
results as consistent and precise as those with double-entry (dbh and total height). Besides
statistical models to estimate aboveground biomass, the following information are also
presented in this paper: the contribution of each tree compartment (stem, branch, twigs, leaves
and flowers or fruits) to the total weight of a standing tree, water concentration to estimate the
dry weight and carbon concentration of each tree compartment.
Key words: Carbon, forest management, statistical model
1 Instituto Nacional de Pesquisas da Amazônia - Cx. Postal, 478 - Manaus - Am.
2 U. K. Overseas Development Administration (ODA). Victoria Street, 94 - London. SW1E5JL -
England.
Introdução:
O objetivo deste trabalho é o desenvolvimento de modelos estatísticos para estimar a
biomassa individual, de árvores em pé, de espécies da floresta densa de terra-firme, região de
Manaus (AM), assim como a apresentação de informações necessárias para aconversão de
massa fresca para massa seca e de biomassa para estoque de carbono. São testados quatro
modelos, linear, não-linear e dois logarítmicos, tendo como variável dependente, o peso da
assa
osfera durante um processo de queimadas.
stal está associado ao uso sustentável dos recursos florestais existentes,
andas da sociedade, por produtos madeireiros e não-madeireiros.
“inputs” atmosféricos e, com isto,
inimi
m fresca (não seca) e, como variáveis independentes, diâmetro à altura do peito (DAP) e
altura total, de árvores individuais. O principal atributo dos modelos testados é o tamanho da
árvore e, por esta razão, têm que absorver a alta diversidade florística e as diferentes
associações botânicas, distribuições espaciais e densidades da madeira (intra e
interespecíficas), da vegetação de terra-firme.
As estimativas de biomassa florestal são informações imprescindíveis nas questões
ligadas, entre outras, às áreas de manejo florestal e de clima. No primeiro caso, a biomassa
está relacionada com os estoques de macro e micronutrientes da vegetação, que são obtidos
pelo produto da massa pelas concentrações de cada mineral. No caso do clima, a biomassa é
usada para estimar os estoques de Carbono, que, por sua vez, são utilizados para estimar a
quantidade de CO2 que é liberada à atm
O manejo flore
para atender às dem
Tratando-se de Amazônia, os cuidados têm que ser redobrados porque estes recursos estão em
ecossistemas heterogêneos, complexos e frágeis. Os solos da Amazônia são antigos e, em sua
maioria, pobres em nutrientes (especialmente para a agropecuária) e ácidos. A contrastante
exuberância de sua cobertura florestal está associada às estratégias de conservação e de
ciclagem de nutrientes dentro do próprio sistema. É importante conhecer a distribuição de
nutrientes nos diferentes compartimentos (tronco, galho, casca, folha), para controlar a
exportação dos mesmos pela colheita florestal e entrada via
m zar os impactos ambientais da produção madeireira.
Para as questões climáticas, há grande interesse em quantificar a biomassa que é
convertida, principalmente em dióxido de carbono, pelas diferentes formas de uso do solo
amazônico (Fearnside et al., 1993, Foster Brown et al., 1995, Higuchi & Carvalho Jr., 1994,
Skole et al., 1994, Schroeder & Winjum, 1995 e Fearnside, 1996). Esta informação é
necessária para uma correta avaliação da contribuição dos projetos de desenvolvimento da
região, no processo de mudanças climáticas globais, no âmbito da Convenção do Clima,
assinada pelo Governo Brasileiro durante a Conferência das Nações Unidas sobre
Desenvolvimento e Meio Ambiente, Rio-92.
As estimativas de biomassa, atualmente disponíveis na literatura, dos diversos tipos
florestais da Amazônia, vêm de estudos que se utilizam de métodos diretos e indiretos. O
método direto consiste na derrubada e pesagem de todas as árvores que ocorrem em parcelas
fixas, fornecendo estimativas, que segundo Brown et al. (1989), não são confiáveis porque
baseiam-se em poucas parcelas, pequenas e tendenciosamente escolhidas. No método indireto,
as estimativas têm sido produzidas a partir de dados de inventários florestais, que foram
executados com a finalidade de planejar a exploração e o manejo florestal, sendo o volume da
madeira, a principal variável. Neste método, a biomassa é estimada a partir do volume da
madeira, usando-se a densidade média da madeira e um fator de correção para árvores com
DAP < 25 cm.
Estes dois métodos ainda geram muita polêmica e controvérsias e produzem
estimativas desencontradas, mesmo quando se usa o mesmo banco de dados (Fearnside et al.,
1993, Brown et al., 1989 e Higuchi et al., 1994 e Foster Brown et al., 1995). A tabela 1 ilustra
o que foi posto anteriormente. Esta tabela foi parcialmente reproduzida de FEARNSIDE et al.
(1993), considerando apenas a biomassa viva acima do nível do solo. São produzidas
estimativas diferentes, com o passar do tempo, pelos mesmos autores e para o mesmo banco
de dados (montado nos anos 70). Além disso, Foster Brown et al. (1995) criticam estes
bancos
re, pelo método direto, ao
nia; um proposto por Sandra Brown e colaboradores e, outro,
er Uhl e colaboradores. O primeiro requer o conhecimento da
ente
rimental de Silvicultura Tropical (EEST)
te de Manaus, em áreas derrubadas para
dióxido de carbono, usando-se queimadas tradicionalmente
praticadas por pequenos produtores da região, e em áreas especialmente designadas para esta
pesquis escolhidas áreas de platôs sobre latossolo amarelo. Estes
e biomassa do INPA.
e pesadas 315 árvores-amostras com DAP≥5 cm. O peso
strados foi compartimentado em tronco e copa (incluindo
frutos). Além do peso da árvore, foram também medidos o
altura total, altura comercial, altura da copa e diâmetro da copa. A distribuição de
de dados, afirmando que as alturas das árvores foram obtidas sem aparelhos de
medição e que, estes erros não amostrais não são mencionados.
O consenso existente entre os pesquisadores que trabalham com biomassa é de que é
praticamente impossível determinar a biomassa de cada árvo
executar um inventário florestal. Por esta razão, os recursos da análise de regressão para o
desenvolvimento de modelos estatísticos, para estimar a biomassa de árvores em pé, devem
ser empregados para superar este problema. Salomão et al. (1996) citam apenas dois modelos
estatísticos utilizados na Amazô
proposto por Christoph
densidade da madeira de cada indivíduo, que é praticamente impossível obte-la durante o
inventário; e o segundo, é recomendado para florestas secundárias. Além destes, há o modelo
de Overman et al. (1994), para a floresta amazônica colombiana, desenvolvido principalm
para árvores de pequenos diâmetros.
Materiais e Métodos
(i) Coleta de Dados:
Os dados foram coletados na Estação Expe
do INPA, aproximadamente 90 km ao nor
experimentos com liberação de
a. Nos dois casos foram
dados constituem o banco de dados d
No total, foram derrubadas
total de todos os indivíduos amo
galhos e folhas e, eventualmente,
DAP,
freqüência e a estatística descritiva dos dados observados encontram-se nas tabelas 2a e 2b).
Na tabela 2c observam-se as estatísticas descritivas para as variáveis DAP, altura total e peso
total, quando os dados são divididos em algumas classes de diâmetro. Nesta tabela fica
evidente que a variável peso total tem uma variabilidade natural bem maior que as outras duas
variáveis, mesmo em mais classes de diâmetro.
e nutrientes de cada compartimento da
oram coletados diferentemente, baseando-se no
Jr. (1994) e Santos (1996). Foram retiradas
mostras (discos) a 0% (base), 25, 50, 75 e 100% (topo) do tronco e do galho grosso
iâme tronco foi retirado também um disco à altura do DAP. Todos
res foi compartimentado em tronco, casca,
galho grosso, galho fino (diâmetro<10 cm), folha e, eventualmente, flores e frutos. Além
Para obtenção das concentrações de água
árvores, 38 indivíduos (dos 315 amostrados) f
esquema apresentado por Higuchi & Carvalho
a
(d tro de base≥10 cm). Do
os discos retirados foram imediatamente pesados e enviados ao laboratório para secagem em
estufas calibradas a 105o C. O mesmo procedimento foi adotado para os galhos finos e folhas,
mas que em vez de discos, foram retiradas, de várias partes da copa, amostras de 5 e 3 kg,
respectivamente. A estimativa da concentração de carbono na vegetação das espécies mais
abundantes, no sítio estudado, foi feita tendo ainda as amostras coletadas por Higuchi &
Carvalho Jr. (1994).
O peso total de cada uma destas 38 árvo
destas concentrações, a coleta compartimentada permite ainda a determinação da contribuição
de cada um dos compartimentos no peso total da árvore. A estatística descritiva destes dados e
a contribuição de cada compartimento no pesototal e a porcentagem do Peso da massa fresca
que é transformado em Peso da massa seca, visualizam-se nas tabelas 3a e 3b.
Um desdobramento da pesquisa de Nutrientes é o estudo de densidade da madeira
(g/cm3), nos sentidos base-topo e casca-medula da árvore (utilizando-se das amostras
coletadas a 0, 25, 50, 75 e 100% da altura comercial e do DAP). Resultados preliminares
rvores analisadas.
foi dividido em dois, para árvores com 5≤DAP<20 cm e DAP≥20
m. Fo
et al., 1995,
alomã
vas variações intra e
s, Overman et al. (1994) descartam esta variável, apesar
.
deste estudo encontram-se na tabela 4, de 12 á
O banco de dados de biomassa do INPA vem sendo completado ao longo do tempo e
já foi utilizado preliminarmente por Higuchi et al. (1994), Higuchi & Carvalho Jr. (1994),
Araújo (1995) e Santos (1996).
(ii) Modelos Testados:
Os modelos estatísticos foram selecionados a partir do trabalho de SANTOS (1996),
que testou 34 diferentes modelos em diferentes combinações.
O banco de dados
c ram testados os seguintes modelos estatísticos, para todas as árvores com DAP≥5 cm,
equação única, e para as duas classes de tamanho, (a) 5≤DAP<20 cm e (b) DAP≥20 cm:
1. ln Pi = β0 + β1 ln Di + ln εi
2. ln Pi = β0 + β1 ln Di + β2 ln Hi + ln εi
3. Pi = β0 + β1 Di2Hi + εi
4. Pi = β0 D β1 H β2 + εi
para i = 1, 2, ... 315 - equação única
i = 1, 2, ... 244 - equação (a)
i = 1, 2, ... 71 - equação (b)
onde:
Pi = peso da massa fresca de cada árvore, em quilograma (para modelos 1, 2 e 4) e em
toneladas métricas (para o modelo 3).
Di= diâmetro à altura do peito de cada árvore, DAP, em centímetros (para modelos 1,
2 e 4) e em metros (para o modelo 3)
Hi = altura total de cada árvore, em metros
β0, β1 e β2 = coeficientes de regressão
εi = erro aleatório
ln = logarítimo natural
Os modelos estatísticos propostos por Brown e Lugo (Foster Brown
S o et al., 1996) e aqueles que apresentaram os melhores resultados no trabalho de
Saldarriaga et al. (1988), que incluem densidade da madeira, não foram testados porque esta
variável é de difícil obtenção para cada indivíduo em pé. Além disso, segundo Higuchi &
Carvalho Jr. (1994), a densidade da madeira (g/cm3) apresenta significati
inter-específicas. Pelas mesmas razõe
do bom desempenho dos modelos que a contém
Na tabela 4, onde visualizam-se as densidades de 12 árvores, observa-se que: a menor
sentido base-topo;
el é sempre menor
P é igual a 0,803,
a vez, é diferente de todas as estimativas fornecidas por Foster Brown et al. (1995)
ldarriaga et al. (1988). As variações no sentido casca-medula também são
em pé da
udo, foram adotados os procedimentos tradicionais da ciência florestal, que são:
iente de determinação, menor erro padrão de estimativa e melhor distribuição dos
de diferentes
da biomassa. Foram
co de dados original;
0 amo n = 300.
e Discussão:
es quantitativas
o sítio s e para
m ca distribui-se da seguinte
aneir
inação e os erros padrões de estimativa de
elos estatísticos testados (árvores com DAP≥5 cm), incluindo as
variaçõ
minação (r2), exceto para o modelo 3. Com relação ao (sy.x), o
mpenho é do modelo 3, seguido do modelo 4.
, apresenta
um claro padrão, aumentando os desvios conforme aumentam os DAP’s.
As equações resultantes são:
Modelo 1:
densidade é de 0,480 e a maior é de 1,031; a densidade tende a diminuir no
a densidade média, considerando base-topo, é de 0,756; e esta última variáv
que a densidade média obtida na altura do DAP. A densidade média do DA
que, por su
e a de Sa
significativas (Higuchi & Carvalho Jr., 1994).
(iii) Escolha do Melhor Modelo Estatístico:
Para a escolha do melhor modelo estatístico visando-se estimar a biomassa
área em est
maior coefic
resíduos (Santos, 1996). Além destes procedimentos, foram simuladas amostras
intensidades, para testar a consistência dos modelos na estimativa
tomadas 15 amostras com 50 árvores selecionadas aleatoriamente do ban
1 stras com n = 100; 5 amostras com n = 200; e 5 amostras com
Resultados
Do trabalho de Higuchi & Carvalho Jr. (1994), as seguintes informaçõ
d estudado são importantes para uma melhor interpretação destes resultado
futuras comparações com outros sítios:
- Em uma parcela fixa de 2.000 2, o peso da biomassa fres
m a, em relação ao peso total: a vegetação (exceto cipós) com DAP≥5 cm contribui com
86,9% do peso total; a vegetação com DAP<5 cm contribui com 2,4%; os cipós contribuem
com 1,3% e a liteira (toda a vegetação morta sobre a superfície do solo) contribui com 9,4%.
- Os teores médios de carbono são os seguintes: tronco (48%), galhos grossos (48%),
galhos finos (47%), folhas (39%), plântulas - até 50 cm de altura - (47%), mudas - altura>50
cm e DAP<5 cm - (49%), cipós (48%) e liteira (39%).
Os coeficientes de regressão e de determ
todos os quatro mod
es (a) para árvores com 5≤DAP<20 cm e (b) DAP≥20 cm, verificam-se na tabela 5. De
um modo geral, os quatro modelos (incluindo as variações a e b) estão aprovados nos quesitos
coeficiente de determinação (r2) e erro padrão de estimativa (sy.x) e, por esta razão, poderiam
ser utilizados para estimar a biomassa de árvores em pé da área em estudo.
Todos os modelos apresentam coeficientes de correlação (r) altamente significantes
(α<0,01). De um modo geral, os modelos únicos para árvores com DAP ≥ 5 cm apresentam
os maiores coeficientes de deter
modelo 4 é o que tem o melhor desempenho, apresentado os menores erros, seguido do
modelo 2. Combinando as equações a e b, no mesmo banco de dados, os erros (em
quilogramas) produzidos foram: 949, 693, 356 e 537, respectivamente para os modelos 1, 2, 3
e 4. Nesta situação, o melhor dese
O exame da distribuição dos resíduos mostra que os modelos 1, 2 e 3 não apresentam
nenhum padrão, distribuindo-se aleatoriamente ao longo do eixo da biomassa observada e
estimada, ordenada de forma crescente pela variável DAP. O modelo 4, no entanto
2,694 + 2,038 ln D + 0,902 ln H; para DAP≥5 cm
Modelo
a consistência de cada um dos modelos estatísticos para estimar a
assa em pé, sobre am
em um desvio médio de +2,8%, que
os de -1,9% (1,6 e 2,3, menor e maior
stimar rvores com 5≤DAP<20 cm e DAP≥20 cm, separadamente.
- Equações a & b: (a) ln P = -1,754 + 2,665 ln D; para 5≤DAP<20 cm
(b) ln P = -0,151 + 2,170 ln D; para DAP≥20 cm
- Equação única: ln P = -1,497 + 2,548 ln D; para para DAP≥5 cm
Modelo2:
- Equações a & b: (a) ln P = -2,668 + 2,081 ln D + 0,852 ln H; para 5≤DAP<20
(b) ln P = -2,088 + 1,837 ln D + 0,939 ln H; para DAP≥20 cm
- Equação única: ln P = -
3:
- Equações a & b: (a) P = 0,0056 + 0,621 D2H; para 0,05≤DAP<0,20 m
(b) P = 0,393 + 0,473 D2H; para DAP≥0,20 m
- Equação única: P = 0,077 + 0,492 D2H; para DAP≥0,05 m
Modelo 4:
- Equações a & b: (a) P = 0,0336 * D2,171*H1,038; para 5≤DAP<20 cm
(b) P = 0,0009 * D1,585*H2,651; para DAP≥20 cm
- Equação única: P = 0,001 * D1,579*H2,621; para DAP≥5 cm
A verificação d
biom ostras simuladas (tiradas aleatoriamente do banco de dados
original), encontram-se na tabela 6. Nesta tabela verificam-se as médias observadas e
estimadas em cada simulação. A análise é feita sobre o afastamento da média estimada em
relação à observada, em percentagem, utilizando-se equações distintas para estimar a
biomassa de árvores com 5≤DAP<20 cm e DAP≥20 cm e uma única equação para todas as
árvores contidas na amostra com DAP≥5 cm.
(i) Modelo 1:
- Usando as equações a e b, para estimar a biomassa do banco de dados original, a
média estimada afasta-se -1,9% da média observada, ou seja, o desvio7 é de -1,9%.Quando
utiliza-se uma só equação para estimar a biomassa das duas classes de diâmetro, o
desempenho anterior não é repetido, apresentando um desvio de +16%. Excepcionalmente, na
simulação com n = 50, o uso de uma só equação resulta
poderia ser considerado bom se não fosse a amplitude de variação entre o menor e o maior
desvio, que foi de 0,1 a 24,9%.
- Este modelo (equações a e b) demonstra a mesma consistência nas simulações com n
= 300, n = 200 e n = 100, respectivamente, com desvi
desvio, em valores absolutos), +0,5% (2,7 e 11,6) e +2,6% (3,7 e 22,1). A simulação com n =
50, o desvio médio é de -10,2%.
- A equação única para estimar a biomassa, usando este modelo estatístico, não é
alternativa para as duas equações, ou seja, o uso deste modelo requer as duas equações para
e a biomassa de á
7 Desvio
sempre o menor e, o segundo, o maior desvio.
é afastamento, em %, do peso médio estimado pelas diferentes equações, em relação ao
peso médio observado. Entre parêntesis, os desvios aparecem em valores absolutos e o primeiro é
- Trata-se de um modelo com apenas o DAP como variável independente, que é uma
variável fácil de ser medida no campo, sem erros não amostrais. O único problema deste
modelo
do que o
% (5,2 e 6,7) e -1,1% (0,9 e 12,7). A simulação com n =
–9,4%. O uso de uma só equação tem um desempenho razoável para
a.
rio do modelo 1.
(iii) Modelo 3
- Usando as e de dados original, a
média estimada afasta-se +1,2% da média observada. Quando se utiliza uma só equação para
estimar a biomassa das elhor do que o
anterior, com desvio e u lar o dos resíduos, este
modelo tem uma boa o o banco de dados,
as equações
00, n = 100 e n = 50, respectivamente, com desvios de +1,2% (0,4 e 1,6, menor e
aior desvio, em
nativa para estimar a biomassa,
s classes de diâmetro. Para grandes inventários
é que o peso será sempre o mesmo, para um determinado diâmetro,
independentemente da altura da árvore, da espécie e de outros atributos da árvore.
(ii) Modelo 2:
- Usando as equações a e b, para estimar a biomassa do banco de dados original, a
média estimada afasta-se -3,6% da média observada. Quando utiliza-se uma só equação para
estimar a biomassa das duas classes de diâmetro, o seu desempenho é melhor
anterior, com desvio de +2,9%.
- Este modelo (equações a e b) demonstra a mesma consistência nas simulações com n
= 300, n = 200 e n = 100, respectivamente, com desvios de -3,6% (3,2 e 4,3, menor e maior
desvio, em valores absolutos), -1,8
50, o desvio médio é de
todas as simulações, que exceto para n = 50, apresenta desvio menor do que quando se
utilizam as equações a e b.
- Apesar do bom desempenho da equação única, em relação aos desvios médios, onde
as diferenças são negligíveis, as amplitudes de variação dos mesmos nas equações a e b são
menores, sendo, por esta razão, mais apropriadas para a estimativa da biomass
- A incorporação da altura total neste modelo permite estimar diferentes pesos para
iguais DAP’s, ao contrá
:
quações a e b, para estimar a biomassa do banco
duas classes de diâmetro, o seu desempenho é m
de +0,1%. Apesar d m c o padrão na distribuiçã
capacidade de compensação quando se utiliza tod
tanto com a e b como com a equação única para as duas classes de diâmetro.
- Este modelo (equações a e b) demonstra a mesma consistência nas simulações com n
= 300, n = 2
m valores absolutos), +3,1% (1,1 e 1,7), +3,8% (0,8 e 20,3) e -4,8% (0,4 e
19,4). O uso de uma só equação tem um desempenho tão consistente quanto ao anterior, com
desvios de +0,1% (0,2 e 0,9), +2,2% (0,6 e 11,5), +2,4% (0,7 e 17,6) e -6,8% (0,4 e 16,2),
respectivamente para n = 300, n = 200, n = 100 e n = 50.
- A equação única para este modelo é a melhor alter
principalmente considerando apenas a estimativa da biomassa média de uma parcela fixa, sem
preocupar-se com as estimativas individuais. Em todos os tamanhos da amostragem, esta
equação demonstrou-se bastante consistente e precisa.
- Sem preocupar-se com as estimativas individuais, prestando atenção apenas no total
ou na média das parcelas fixas, este é o melhor modelo entre os testados. De um modo geral,
este modelo superestima o peso das menore
para estimativa de biomassa, este modelo é o mais preciso.
(iv) Modelo 4:
- Usando as equações a e b, para estimar a biomassa do banco de dados original, a
média estimada afasta-se -4,6% da média observada. Quando utiliza-se uma só equação para
estimar a biomassa das duas classes de diâmetro, o desempenho anterior não é repetido, com
esvio de -7,3%.
çõe on c n
= vamente, com de r e
maior desvio, em s absolu e 3,7), -4,0% (1,2 e 7,6) e -7,7% (4,2 e 16,1).
O uso ação tem enho i r a to os e,
uas equações. Neste cas
a á ≤DAP<20 cm e
odelos te mod o qu udes
de variação, demonstrando uma boa consistência na estim a biomassa. É um modelo
basta e que oucas esas das
diferentes classes de diâmetro.
Considerações finais:
m estimativas confiáveis de
iomassa de árvore em pé, todos com desvios inferiores a 5% em relação à média.
20 cm e com DAP≥20 cm são
AP≥5 cm.
odel dos, o elhores são os modelos 1 e 4, respectivamente com
as s:
(a) ln P = -1,754 + 2,665 ln D; para 5≤DAP<20 cm
(b) ln P = -0,151 + 2,170 ln D; para DAP≥20 cm
e
(a) P = 0336 * 1,038; para 5≤DAP<20 cm
(b) P ,0009 * 5*H2,651; para DAP≥20 cm
O modelo 1 tem a vantagem de ser dependente de apenas uma variável, o
DAP, que é uma variável f l de se ida no campo, com poucos riscos de erros não
amost
odelo 4 tem a vantagem de ser muito consistente e de poder estimar mais
realistica árvores ind is, com smos DAP’s e diferentes alturas. Além disso, este
odelo já foi preliminarmente utilizado por Araújo (1995), em Tomé-Açu (Pará), para
onfrontar com os resultados obtidos pelo método direto. Em Tomé-Açu, a biomassa estimada
bservada.
4. A eficiência das equações está associada à utilização de parcelas fixas para o
inv biomassa de um dete sítio, dimen imas adas
ntários fl s na Ama .
peso do seco co onde a 61% seu peso s da secag o da
de a 5 seu pes
peso to uma ár ,6% é tronco e 34,4% é copa. A contribuição de
timento da árvore em seu peso total é a seguinte: tronco (65,6%), galho grosso
alho fino (1 ), folhas (2,03%) e flores/f s (0,01%).
7. Os teores médios de carbono são os seguintes: tronco (48%), galhos grossos (48%),
alhos finos (47%) e folhas (39%).
d
- Este modelo (equa
= 300, n = 200, n = 100 e n
s a em
50, respecti
e b) d stra a mesma onsistência na lações com
svios de -4,3% (3,4 e 5,1, meno
s simu
valore
de uma só equ
tos), +0,3% (0,6
um desemp nferio dos os outros modelos testad
por esta razão, não é uma alternativa para as d
pelas duas equações, 4
o, a opção tem que ser
4b para DAP≥20 cm. a par rvores com 5
- De todos os m testados, es elo é e apresenta as menores amplit
ativa d
nte conservador apresenta p surpr na estimativa da biomassa
1. Os quatro modelos estatísticos testados produze
b
2. As equações distintas para árvores com 5≤DAP<
mais consistentes que a equação única para todas as árvores com D
3. Dentre os m
segui uaçõe
os testa s m
ntes eq
0, D *H2,171
= 0 D1,58
-
áci r med
rais;
- O m
mente ividua me
m
c
por este modelo ficou também a menos de 5% da o
entário de rminado com as sões mín recomend
para os inve orestai zônia
5. O tronco rresp de ante em; e
copa correspon 8% de o fresco.
6. Do tal de vore, 65
cada compar
(17,8%), g ,5% ruto
g
Tabela 1: Algumas estimativas de biomassa para a floresta densa da Amazônia brasileira*.
Tipo de florest loca biomassa foa l (t) nte
Den MBRA ia 26 Br ug a)
fonte
sa (RADASIL) Amazôn 8 own & L o (1992 ) – cf.
*
Densa (FAO) A nia 162 Brow Lug 2a) -
fonte
Densa (RADAMBRASIL) A nia 289 Brow Lug 2b) -
fonte
(FAO) A nia 227 Brow Lu b) -
fonte
Densa (presente) Amazônia 12.3 Fearnside (1992a) - cf. fonte*
nside (unpub. 1993) - cf.
fonte*
mazô n & o (199 cf.
*
mazô n & o (199 cf.
*
Densa mazô n &
*
go (1992 cf.
Densa (presente) Amazônia 319.9 Fear
(*) Fonte: parcialmente reproduzida de Fearnside et al. (1993)
anco de D e Bioma INPA (n 5).
ão de Fr cia dos Dados Observados (n = 315).
lasse req.
Tabela 2: B ados d ssa, do = 31
(a) Distribuiç eqüên
Limites de c F %
5 < 10 54 1 48,89
10 < 20 90 28,57
20< 30 28 89 8,
30< 40 18 5,71
40< 50 9 2,86
50< 60 8 2,54
60< 70 3 0,95
70< 80 3 950,
80< 90 - 0
90< 1 32 00 1 0,
100< 110 0 -
110< 120 0 -
≥120 1 0,32
tota 315 l 100
( stic escr Da rvad
v riável vio Mín má
b) Estatí a D itiva dos dos Obse os:
a média des CV(%) imo ximo
D ) ,3 96 5, 12AP (cm 16,0 15 0 0,0
H-total (m) 45 5,6 4117,0 7,7 ,4
H-com (m) 10,7 5,2 49 2,4 26,1
P-tronco (kg) 476,3 1299,3 273 4,5 12736,5
P-copa (kg) 306,4 1031,5 337 0,6 12897,9
P-total (kg) 782,7 2271,1 290 9,1 25634,4
copa (%) 31 1 45 2 70
(c) Estatística Descritiva dos Dados Observados, Divididos em Algumas Classes de Diâmetro:
s d nú AP T Total
Classe e mero D altura otal Peso
diâmetr casos m C C CV(%) o édia V(%) média V(%) média
5 < 10 68 154 7,0 20 11,4 27 35,7
10 < 1 42 5 62 12,0 12 16,4 20 15,0
15 < 2 34 0 28 17,5 9 20,8 18 407,5
20 < 3 43 0 28 23,6 11 23,7 1 852,0
30 < 5 2 35 0 27 37,2 1 29,3 11 449,2
>= 50 8205,4 72 16 65,9 29 34,1 10
Tabela 3: D tiliz ara s de nte 8).
(a) tísti riti Da serv
el m io CV mo máximo
ados U ados p estudo Nutrie s (n = 3
Esta ca Desc va dos dos Ob ados:
variáv édia desv (%) Míni
D ) 3 ,3 98,0 AP (cm 9,9 20 51 9,5
alt. total (m 2 0 4 41,4 ) 8,8 6, 56 11,
alt. com (m) 17,3 3,7 22 7,5 25,0
P-tronco (kg) 217,4 2449,1 11 48,7 12736,5
P-copa (kg) 1595,3 2429,5 152 15,2 12898,3
P-total (kg) 3742,6 3005,4 128 63,9 25634,4
copa (%) 34 1 22 9 63
(b) Contribuição de cada compartim tronco, galho grosso, galho fino, folhas e flor/frutos)
no pe otal de um e e % do cada um qu é transform m PS:
PESOS tronco g.grosso g.fino olhas frutos TOTAL
ento (
so t a árvor PF de e ado e
f flor/
m 6 11 434,2 50,30 1,07 2,61217,3 09,68 4 374
VERDE s ,1 19 432,6 48,87 5,41 ,772449 85,66 5 4793
n 38(34) 38 38 38(8) 38 38
m 17,83 1,52 2,03 01 65,60 0,
% total s 1 7,21 1,28 03 1,19 ,43 0,
n 38(34) 38 38 (8) 38 38
m 5 6 246,6 23,58 0,80 ,30101,6 65,63 4 2238
SECO s 1552,45 1243,55 253,6 23,01 4,60 3005,38
n 38 38(34) 38 38 38(8) 38
m 61,11 60,56 57,22 47,56 36,73 60,28
% PF s 8,27 7,98 5,75 7,21 20,62 7,41
n 38 34 38 38 8 38
m = média aritmética; s = desvio padrão amostral; n = número de observações.
ponde ao Peso Seco.
% total = contribuição do peso de cada compartimento da árvore em relação ao seu peso total.
% PF = é % do Peso Fresco da árvore ou do compartimento que corres
Tabela 4: Informações sobre Densidade da Madeira.
Espécie 0% 25% 50% 75% 100% média DAP
1 0,856 0,790 0,757 0,753 0,718 824 0,775 0,
2 83 0,650 82 0,696 0,697 0,6 0,684 0,6 0,706
3 0,879 0,903 0,866 0,741 0,724 0,823 0,91
4 0,536 0,521 0,499 507 0,509 0,471 0, 0,546
5 0,681 0,678 0,640 651 0,640 0,615 0, 0,700
6 8 0,807 0,653 758 0,81 0,806 0,704 0, 0,838
7 5 0,707 0,693 708 0,72 0,711 0,704 0, 0,717
8 1,027 0,990 0,946 0,929 0,961 0,971 1,015
9 0,891 0,870 0,862 0,862 0,846 0,866 0,896
10 0,571 0,533 0,445 480 0,485 0,36 ,7 0 0,528
11 1,033 0,987 031 1,077 1,000 1,056 1, 1,059
12 0,891 0,870 0,716 826 0,807 0,846 0, 0,896
média 0,804 0,783 0,756 0,71 756 0,725 0, 0,803
desvio 0,167 0,163 0,159 0,159 0,191 0,165 0,168
mín. 0,536 0,521 0,445 480 0,485 0,367 0, 0,528
máx. 1,077 1,033 0,987 031 1,000 1,056 1, 1,059
Tabela 5: Coeficientes de Regressão e de Determinação, Erro Padrão de Estimativa dos
ara Es massa (Pe ores em
b0 r2
Modelos Estatísticos p timar a Bio so total) de Árv pé.
Modelo b1 B2 sy.x
1 -1,497 0,97 2,548 1729
1 a -1,754 43 2,665 0,92
1 b -0,151 2,170 0,90 2035
2 -2,694 0,98 2,038 0,902 812
2 a -2,668 0,95 2,081 0,852 35
2 b -2,088 0,91 1,837 0,939 197
3 0,077 0,90 0,492 716
3 a 0,0056 0,621 0,94 34
3 b 0,393 0,473 0,86 1508
4 0,001 1,579 2,621 0,94 540
4 a 0,0336 2,171 1,038 0,94 31
4 b 0,0009 1,585 2,651 0,92 1159
b0, b1 e b2 = estimadores dos parâmetros β0, β1 e β2, respectivamente.
r 2 = coeficiente de determinação ajustado
ry.x = erro padrão de estimativa.
- modelo 1: ln Pi = b0 + b1 ln Di; sendo (1) para DAP≥5 cm e i = 1,..., 315; (1a) para
5≤DAP<20 cm e i = 1,..., 244; e (1b) para DAP≥20 cm e i = 1,..., 71.
- modelo 2: ln Pi = b0 + b1 ln Di + b2 ln Hi; sendo (2) para DAP≥5 cm e i = 1,..., 315; (2a) para
5≤DAP<20 cm e i = 1,..., 244; e (2b) para DAP≥20 cm e i = 1,..., 71.
- modelo 3: Pi = b0 + b1 Di2Hi; sendo (3) para DAP≥0,05 m e i = 1,..., 315; (3a) para
0,05≤DAP<0,20 m e i = 1,..., 244; e (3b) para DAP ≥ 0,20 m e i = 1,..., 71.
- modelo 4: Pi = b0 D b1 H b2; sendo (1) para DAP≥5 cm e i = 1,..., 315; (1a) para 5≤DAP<20
cm e i = 1,..., 244; e (1b) para DAP≥20 cm e i = 1,..., 71.
Tabela 6: Resumo das simulações utilizando diferentes intensidades de amostragem (tomadas
aleatoriamente do banco de dados).
Biomassa Observada
(observada e estimada) equações a & b equação única
observada 782,7
b anco de dados modelo 1 768,2 [ -1,9 ] 907,7 [+16,0 ]
modelo 2 754,6 [ -3,6 ] 805,2 [ +2,9 ]
(n = 315) modelo 3 792,1 [ +1,2 ] 783,3 [ +0,1 ]
modelo 4 746,9 [ -4,6 ] 725,3 [ -7,3 ]
observada 794,1
amostra com n = 300 modelo 1 779,1 [ -1,9 ] 924,1 [ +16,4 ]
modelo 2 765,5 [ -3,6 ] 817,0 [ +2,9 ]
(5 repetições) modelo 3 803,3 [ +1,2 ] 794,7 [ +0,1 ]
modelo 4 760,2 [ -4,3 ] 738,9 [ -7,0 ]
observada 784,2
amostra com n = 200 modelo 1 788,3 [ +0,5 ] 944,2 [ +20,4 ]
modelo 2 770,0 [ -1,8 ] 826,4 [ +5,4 ]
(5 repetições) modelo 3 808,1 [ +3,1 ] 801,3 [ +2,2 ]
modelo 4 786,3 [ +0,3 ] 740,2 [ -5,6 ]
observada 844,8
amostra com n = 100 modelo 1 866,9 [ +2,6 ] 1052,4 [ +24,6 ]
modelo 2 835,4 [ -1,1 ] 900,5 [ +6,6 ]
(10 repetições) modelo 3 876,6 [+3,8 ] 865,1 [ +2,4 ]
modelo 4 811,3 [ -4,0 ] 790,8 [ -6,4 ]
observada 836,2
amostra com n = 50 modelo 1 750,8 [ -10,2 ] 859,3 [ +2,8 ]
modelo 2 757,2 [ -9,4 ] 799,8 [ -4,4 ]
( 795,8 [ -4,8 ] 779,1 [ -6,8 ] 15 repetições) modelo 3
modelo 4 771,8 [ -7,7 ] 750,8 [ -10,2 ]
Bibliografia
Ar a
Região Amazônica. Tese de Doutorado, Universidade Estadual Paulista, Faculdade de
aratinguetá, 212 p..
n Deforestation and Global Warming: Carbon Stocks in
Ve
: an Example from
Ro
on of Regression Models for
etermination in Amazonia Rainforest. Forest Ecology and
Regressão para Estimar a Fitomassa da Floresta
Tr
aújo, T.M. 1995. Investigação das Taxas de Dióxido de Carbono Gerado em Queimadas n
Engenharia de Gu
Brown, S., A.J.R. Gillespie e A.E. Lugo. 1989. Biomass Estimation Methods for Tropical
Forests with Applications to Forest Inventory Data. Forest Science, 35(4):881-902.
Carvalho Jr., J.A., J.M. Santos, J.C. Santos, M.M. Leitão e N. Higuchi. 1995. A Tropical
Rainforest Clearing Experiment by Biomass Burning in the Manaus Region. Atmospheric
Environment 29(17):2301-2309.
Fearnside, P.M., N. Leal Filho e F.M Fernandes. 1993. Rainforest Burning and the Global
Budget: Biomass, Combustion Efficiency, and Charcoal Formation in the Brazilian
Amazon. J. of Geophysical Research,98(D9):16733-16743.
Fearnside, P.M. 1996. Amazonia
getation Replacing Brazil’s Amazon Forest. Forest Ecology and Management 80:21-
34.
Foster Brown, I., D.C. Nepstad, I.O. Pires, L.M. Luz e A.S. Alechandre. 1992. Carbon
Storage and Land-use in Extractive Reserves, Acre, Brazil. Environmental Conservation
19(4):307-315.
Foster Brown, I., L.A. Martinelli, W. Wayt Thomas, M.Z. Moreira, C.A. Cid Ferreira e R.A.
Victoria. 1995. Uncertainty in the Biomass of Amazonian Forests
ndônia, Brazil. Forest Ecology and Management, 75:175-189.
Higuchi, N. e J.A. Carvalho Jr. 1994. Fitomassa e Conteúdo de Carbono de Espécies Arbóreas
da Amazônia. Em: Anais do Seminário “Emissão x Seqüestro de CO2 - Uma Nova
Oportunidade de Negócios para o Brasil”:127-153.
Higuchi, N., J.M. dos Santos, M. Imanaga e S. Yoshida. 1994. Aboveground Biomass
Estimate for Amazonian Dense Tropical Moist Forests. Memoirs of the Faculty of
Agriculture, Kagoshima, 30(39):43-54.
Overman, J.P.M., H.J.L. Witte e J.G. Saldarriaga. 1994. Evaluati
Above-ground Biomass D
Management, 10:207-218.
Saldarriaga, J.G., D.C. West, M.L. Tharp e C. Uhl. 1988. Long-term Chronosequence of
Forest Sucession in the Upper Rio Negro of Colombia and Venezuela. Journal of Ecology
76:938-958.
Salomão, R.P., D.C. Nepstad e I.C.G. Vieira. 1996. Como a Biomassa de Florestas Tropicais
Influi no Efeito Estufa. Ciência Hoje, 21(122):38-47.
Santos, J. dos. 1996. Análise de Modelos de
opical Úmida de Terra-firme da Amazônia Brasileira. Tese de Doutorado,
Universidade Federal de Viçosa, 121 p..
Schroeder, P.E. e J.K. Winjum. 1995. Assessing Brazil’s Carbon Budget: II. Biotic Fluxes
and Net Carbon Balance. Forest Ecology and Management, 75(87-99).
Skole, D.L., W.H. Chomentowski, W.A. Salas e A.D. Nobre. 1994. Physical and Human
Dimensions of Deforestation in Amazonia. BioScience, 44(5):31-321.
Capítulo 17
Cadeia de Markov para predizer a dinâmica da floresta amazônica
r de inúmeras
s dificuldades, aproximadamente 1 milhão de hectares de floresta
azôn
sição durante o intervalo de tempo (t e t+1) dependem apenas no estado
tempo” de cada uma das probabilidades de
transição é uma i afinidade com o
atriz de transição é um modelo
classificado em tamanho ou uma forma da m lie. A única exigência deste modelo é
divisibilidade da população em grupo de existam probabilidades de movimento
rtância do entendimento dos ecossistemas
ples função matemática (linear, polinomial ou
17.1. Introdução:
Estudar a dinâmica da floresta tropical úmida amazônica, manejada ou não, é um
grande desafio para os florestais. Os modelos clássicos de produção florestal foram
desenvolvidos para florestas temperadas e têm como principais variáveis, o índice de sítio e
idade da árvore ou do povoamento (Sullivan e Clutter, 1972; Ferguson e Leech, 1978; Alder,
1980; Smith, 1983 e Clutter et al., 1983). Essas duas variáveis são limitantes para o
desenvolvimento de modelos de produção para as florestas da Amazônia porque são
praticamente indisponíveis para o setor florestal, num curto prazo. Apesa
tentativas, por meio da dendrocronologia ou da datação com 1C, a determinação das idades
das inúmeras espécies que ocorrem numa determinada área, continua sendo um grande
obstáculo para a ciência florestal.
Sem a idade da árvore ou do povoamento ou com muita dificuldade para obte-la, a
alternativa é prognosticar a dinâmica da floresta com o uso de parcelas permanentes. Na
Amazônia, entretanto, as parcelas instaladas e devidamente monitoradas são poucas, mal
distribuídas e recentes (as mais antigas estão na Flona de Tapajós, desde 1978). Considerando
que as idades de árvores com DAP > 50 cm, na região de Manaus, podem variar de 200 a 100
anos, segundo Chambers et al. (1998), 20-30 anos de observações podem parecer insuficientes
para descrever, com confiança, a dinâmica de uma floresta da Amazônia.
Apesar de todas essa
am ica são manejados, anualmente, para produção madeireira sob algum tipo de manejo
em regime de rendimento sustentável. É difícil imaginar como os empresários florestais vão
planejar os ciclos de corte subseqüentes, sem um modelo de produção. Se nada for feito, o
manejo florestal tomará a mesma forma da agricultura itinerante. A melhor saída para esta
situação é usar modelos de curto prazo que dependem exclusivamente da situação
imediatamente anterior ao atual, tendo como objetivo a projeção apenas para uma situação
imediatamente posterior. Dentre os vários modelos disponíveis, o que melhor se ajusta às
características das florestas da Amazônia, é a cadeia de Markov.
17.2. Cadeia de Markov:
A cadeia de Markov de primeira ordem é um processo estocástico no qual as
probabilidades de tran
do indivíduo no tempo t ou no conhecimento do passado imediato no tempo t+1 e não em
qualquer outro estado prévio (Horn, 1975; Chiang, 1980 e Bruner e Moser, 1973). Shugart
(1984) enfatiza que a natureza “invariável em
mportante característica da cadeia de Markov, tendo muita
comportamento dos ecossistemas florestais.
De acordo com Bierzychudek (1982), um modelo de m
atriz de Les
estados e que
de um estado para outro, com o passar do tempo (Enright e Ogden, 1979).
Shugart e West (1981) apontam que a impo
florestais não é baseada nas idades, mas sim nas mudanças conhecidas no presente. Os
modelos determinísticos consistindo de uma sim
exponencial) não demonstraram ainda que são comprovadamente adequados, quando séries de
s, o atributo tamanho pode ser
ais i o ue o tamanho pode ser mais
colog ament inform vo que dade uando esta é difícil de ser obtida com precisão.
iclos de vida em estágios de
futuro mais precisamente do
ue a divisão em puras classes de idade. Usher (1966) usou o atributo tamanho no lugar da
que está na i-ésima classe no tempo t, pode permanecer na mesma classe, mudar
lacionados com a dinâmica da floresta
it em Nova York (Bierzychudek, 1982); dinâmica
resta montana temperada da Nova Zelândia (Enright e Ogden, 1979);
sucessã r, 1979); sucessão florestal na Nova Jersey (Horn, 1975);
aplicação d estudos de dinâmica florestal em florestas tropicais
(Aceve
istas. Na região de Manaus, Higuchi (1987) usou Markov para estudar a dinâmica
das par de manejo florestal (Projeto Bionte) e Rocha (2001) nos
transec balhos citados anteriormente inclui revisões
m outras leituras úteis sobre o assunto,
hiang (1980) e Anderson e Goodman (1957).
depender ap ente (Chiang, 1980).
de indivíduos na classe j no tempo t+1, dada a classe i no tempo t e n j =
número
n
estados
tempo são envolvidas (Morrison, 1976).
Segundo Enright e Ogden (1979), nas florestas tropi i
portan e d a de. Uma razão pa sso q
ca
m m t que ida ra i é
e ic e ati do a i , q
deAlém disso, segundo ainda os mesmos autores, a divisão c
esenvolvimento pode permitir a predição do comportamentod
q
idade para desenvolver um modelo para o manejo de recursos renováveis. Ele afirma que um
organismo
para a classe seguinte (mais de uma classe também) ou morrer, no tempo t+1.
Os modelos que usam matriz de transição são apropriados para análise de muitos
problemas biológicos, principalmente em estudos re
(Enright e Ogden, 1979). Esses modelos têm sido usados intensivamente em estudos de
dinâmica de populações de plantas ou animais em várias regiões do mundo. Alguns exemplos
são: a demografia do jack-in-the-pulp
florestal de uma população de Araucaria numa floresta tropical úmida de Papua Nova Guinea
e Nothofagus em flo
o de térmitas em Gana (Ushe
Markov ema Cadeia de
do, 1981) e a aplicação de Markov para predizer o desenvolvimento de um
povoamento florestal (Usher, 1966; Usher, 1969, Bruner e Moser, 1973; Peden et al., 1973 e
Buogiorno e Michie, 1980).
Alder (1980) também descreve a matriz de transiçãocomo uma possível ferramenta
para análise de dados de crescimento e incremento de povoamentos multianos de florestas
tropicais m
celas testemunhas do projeto
tos do projeto Jacaranda. A maioria dos tra
tambérazoáveis da teoria do método de Markov. Há
como Grossman e Turner (1974), C
3. Aplicação de Markov aos dados das parcelas permanentes da ZF-2:
Primeiro vamos considerar: (i) estados i e j = 1, 2, ..., m; (ii) tempos de observação t =
0, 1, .., T; (iii) p ij (t+1) (i, j = 1, 2, ..., m) = probabilidade do estado j no tempo t+1, dado o
estado i no tempo t.
Um processo Markov é considerado homogêneo em relação ao tempo ou tempo
homogêneo, se a probabilidade de transição
p ij (t, t+1) = Pr [x(t+1) = j | x(t) = i], para i, j = 1, 2, ...., m.
enas da diferença entre t e t+1, mas não de t e t+1 separadam
A montagem da matriz começa com o cálculo de
p ij = n ij / n j
onde: n ij = número
total de indivíduos na classe i no tempo t.
A matriz de transição probabilística de uma cadeia de Markov para um processo de
pode ser montada da seguinte maneira:
sendo q pim deve ser
pulação vai de um estado i
de uma
Exemplo did
j=1 j=2 j=3 ...... j=m
i=1 p11 p12 p1 ...... p1m
i=2 p21 p22 p23 ...... p2m
P = (p ij) = i =3 p31 p32 p33 ...... p3m
. . . . . .
. . . . . .
i=m pm1 pm2 pm3 ...... pmm
ue as probabilidades p ij são não-negativos e a soma de pi1 + pi2 + ... +
igual a 1.
A probabilidade de transição p ij pode ser de n passos, tomando a forma de p ij (n) onde
n indica o número de tentativas, ou seja, a probabilidade que a po
tentativa para o estado j, n tentativas depois.
ático: Projeções da dinâmica de Parcelas Permanentes usando Markov
ctos Leste-Oeste e Norte-Sul)
No caso dos
(transe
dados da parcela permanente do exemplo, vamos considerar 17 estados (i,
j = 1, 2, ...17),
estado
estados cm e vão de 10,
passando pela classe truncada DAP
movime
com DA ou DAP
= 81), em 200 ,
Passos
1. Matr
dinâmi
nenhum ia nas instruções contidas no Box por achar completamente obsoleta.
Hoje, e pelos florestais, é um poderoso e
prático strum nto p rabalha com parcelas permanentes,
re-med as em várias ica serve também para conferir o
arquivo lunas e 19 linhas.
.1. => total 1ª ocasião = (total, freqüência da linha 19 e coluna 19 ou f19,19 =6251)
me 6) = 5623
51) menos mortas (M, f19,18 = 264) = 5987
2. Matr
A matr
Portanto B1 = B2.
e 3ª (20<25).
/396 e 4/396.
onde:
1 = recrutamento (R)
de 2 a 16 = classes de diâmetro. As classes de DAP são de 5-5
≥ 75 até à classe “próxima” depois de DAP ≥ 75. A
ntação de uma classe para outra, no caso da classe DAP ≥ 75, pode ser uma árvore
P = 78, em 2000, que passou para a classe seguinte (podendo ser DAP = 80
4 ou também uma com DAP = 119, em 2000, que passou para a classe seguinte
em 2004.
estado 17 = mortalidade (M)
são considerados: t = 2000 e t+1 = 2004.
para o cálculo matricial:
iz A (Quadro 1) => transição entre a 1ª ocasião (2000) e 2ª ocasião (2004) => tabelas
cas do Excel (V. Box). Daqui uns 10 anos, é bem provável que alguém não veja
a importânc
m 2007, apesar deste recurso ser pouco conhecido
in e ara organizar os dados. Quando se t
id ocasiões sucessivas, a tabela dinâm
de dados. A matriz A é simétrica; portanto, há 19 co
1
nos recrutas (R, linha 3 e coluna 19 ou f3,19 = 39
1.2. => total 2ª ocasião = (total, f19,19 = 62
iz B1 e B2 (Quadro 2) => probabilidades de mudanças de um estado (i) para outro (j).
iz de probabilidade é repetida pra facilitar a multiplicação de matrizes no Excel.
2.1. Recrutas (R) => das 396 árvores recrutadas em 2004 => 385, 7 e 4,
respectivamente, foram recrutadas para a 1ª classe (10<15), 2ª (15<20)
2.2. Probabilidades de 2.1. => 385/396, 7
2.3. 1ª classe (10<15) => das 2167 árvores que estavam na 1ª classe na 1ª ocasião
(2000) => na 2ª ocasião (2004), 1869 permaneceram na 1ª classe, 205 mudaram para a
2ª classe, 2 passaram para a 3ª classe e 91 morreram.
2.4. Probabilidades de 2.3. => 1869/2167, 205/2167, 2/2167 e 91/2167.
2.5. 2ª classe (15<20) => das 1319 árvores que estavam na 2ª classe na 1ª ocasião
3. Mat
(Matriz
adiante
espaço igual à matriz
de linhas e mesmo número
ente a matriz B e OK;
- truque pra ver o resultado (matriz C) => segurar juntos Ctrl, Shift e Enter
ção (fx) que fica acima da planilha.
atrizes (B1 e B2) não inclui a coluna TOTAL, portanto, é
95 * 396 = 332,05
D4*T4 = 0,7288 * 1319 = 961,24
e assim por diante para todas as classes.
4.3. O total da freqüência esperada por classe ou estado (que a projeção para 2008) é
calculado da seguinte forma (dados da Matriz D):
- classe 10<15 => C2 + C3 = 332,05 + 1612 = 1944.
- classe 15<20 => D2 + D3 + D4 = 42,39 + 351,81 + 961,24 = 1355,5
e assim por diante para todas as classes.
(2000) => na 2ª ocasião (2004), 1126 permaneceram na 2ª classe, 144 mudaram para a
3ª classe, 1 passou para a 4ª classe e 48 morreram.
2.6. Probabilidades de 2.5. => 1126/1319, 144/1319, 1/1319 e 48/1319.
riz de probabilidade 2 passos adiante (até 2004) => matriz de transição probabilística
B) elevada ao quadrado que resultará na Matriz C (Quadro 3). Se quiser 3 passos
, a matriz de transição probabilística será elevada ao cubo.
3.1. Multiplicação de matrizes (B1*B2) => No Excel:
- blocar (passando o cursor em toda a sua extensão) um
que será multiplicada (Matriz B), ou seja, mesmo número
de colunas;
- ir ao menu Inserir, selecionar a opção Função e escolher Matriz.Mult;
- definir matriz 1 (B1), blocando a matriz B;
- definir matriz 2 (B2), blocando novam
mantendo o cursor dentro da barra de fun
- Obs.: a matriz B não deve estar como fórmula e sim como Somente Valores.
4. Projeção para 2008 => Matriz D (Quadro 4) =>
4.1. A multiplicação de m
necessário copiá-la da Matriz A e colá-la na Matriz C para facilitar o cálculo da
freqüência esperada por classe (Matriz D);
4.2. A Matriz D é calculada multiplicando a probabilidade de ocorrência de árvores
em uma classe dois passos a diante (Matriz C) pelo número total de árvores daquela
classe. Ex.:
- classe 10<15 => C2*T2 = 0,83
C3*T3 = 0,7439 * 2167 = 1612
- classe 15 < 20 => D2*T2 = 0,1071 * 396 = 42,39
D3*T3 = 0,1624 * 2167 = 351,81
4.4. Cl
árvores
asse “PRÓX.” => esta classe é criada apenas para descrever a dinâmica das
truncadas ao DAP ≥ 75 cm. No quadro com as freqüências esperadas (E) (5b)
deve ser somada à da classe “PROX”:
possa ser incluída na projeção de 2008. Enquanto não tiver uma série histórica de
5a: (prob do nº de arv da 1ª classe –
– 47) + (396 * 0,0177) ≅ 1316
6. Se 3 ocasiões estão disponíve
7. Com ), para 2008, fornecida pela Cadeia de Markov
2
Usa o ponto de vista de estatística, pode-se
imed , para confirmar a eficiência de Markov. O exemplo foi usado para
ma floresta
a freqüência da classe “PRÓX” deve ser acrescentada à classe DAP ≥ 75 cm. Portanto,
a freqüência esperada da classe DAP ≥ 75 cm
- classe DAP ≥ 75 cm => Q19 + R19 = 11,56 + 4,407 = 15,963 (Quadro 5a)
5. Ajustes necessários => a cadeia de Markov não faz projeções do recrutamento. Portanto, há
necessidade de fazer ajustes para que a probabilidade de recrutamento das árvores em 2004
recrutamento, o único recurso é usar o nº de indivíduos recrutados de uma ocasião para outra.
5.1. O ajuste é feito com os dados do Quadro
prob da mortalidade da 1ª classe) + (Total de recrutas de 2004 * projeção da 1ª classe
para 2008). Ex.:
- classe 10<15 => (1944 – 86) + (396 * 0,9722) ≅ 2242,3
- classe 15<20 => (1355,5
- classe 20<25 => (865,8 – 33) + (396 * 0,0101) ≅ 837
5.2. Para as classes onde não houve recrutamentoem 2004, basta diminuir a prob do nº
de arv da classe sem recrutamento – prob da mortalidade dessa mesma classe. Ex.:
- classe 25<30 => 543,4 – 24 ≅ 519
...
- classe DAP ≥ 75 cm => 15,96 - 3 ≅ 13
is, o certo é usar a média [ R = (R1+R2)/2 ], sendo que R1 é o
nº indivíduos recrutados entre a 1ª e 2ª ocasião e R2 é o nº entre a 2ª e 3ª ocasião, ou seja,
seriam necessários 3 inventários.
paração entre freqüências esperadas (E
e as freqüências observadas de fato em 2004 (Quadro 6) => teste qui-quadrado ( χ2 ).
Neste exemplo, como o χ tabelado com 13 graus de liberdade e p = 0,05 é igual a
22,36, isso significa dizer que há fracas evidências para afirmar que E seja diferente de O.
ndo p = 0,01, o valor de χ2 é igual a 27,69 e, d
afirmar que o teste é não significante.
O certo seria usar um intervalo de tempo maior para fazer projeções para um período
iatamente posterior
comprovar que Markov é eficiente para fazer projeções da dinâmica de u
manejada. Essa comprovação já tinha sido realizada em florestas não perturbadas (Rocha,
2001).
Bibliografia:
Acevedo, M.F. 1981. On Horn’s Markovian Model of Forest Dynamics with Particular Reference to
Tropical Forests. Theoretical Population Biology 19:230-250.
er, D. 1980. Forest Volume EsAld timation and Yield Prediction. V.2 – Yield Prediction.
And ins. Annals
. Ecol. Monographs 52(4):333-351.
Bruner, H.D. e J.W. Moser Jr.. 1973. A Markov Chain Approach to the Prediction of
Diameter Distributions in Uneven-aged Forest Stands. Can.J.For.Res. 3:409-417.
Buogiorno, J. e B.C. Michie. 1980. A Matrix Model of Unever-aged Forest Management.
Forest Science 26:609-625.
Chambers, J.Q., N. Higuchi e J.P. Schimel. 1998. Ancient Trees in Amazonia. Nature,
391:15-16.
Chiang, C.L. 1980. An Introduction to Stochastic Processes and their Applications. Robert E.
Krieger Publ. Co., Huntington, New York.
Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber
Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p.
Enright, N. e J. Ogden. 1979. Applications of Transition Matrix Models in Forest Dynamics:
Araucaria in Papua New Guinea and Nothofagus in New Zealand. Australian J. of
Ecology 4:3-23.
Ferguson, I.S. e J.W. Leech. 1978. Generalized Least Squares Estimation of Yield Functions.
Forest Science 24:27-42.
Grossman, S.I. e J.E. Turner. 1974. Mathematics for the Biological Sciences. Macmillan Publ.
Co., Inc. New York. 512p.
Higuchi. N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the
Brazilian Amazon. Tese de Doutor. MSU. 129p.
Horn, H.S. 1975. Markovian Properties of Forest Succession. In: Ecology and Evolution of
Communities (M. Cody e J. Diamond, editores), pp.196-211. Harvard University Press.
Cambridge, Mass.
Morrison, D.F. 1976. Multivariate Statistical Methods. McGraw-Hill Inc.. 415p.
Peden, L.M., J.S. Williams e W.E. Frayer. 1973. A Markov Model for Stand Projection.
Forest Science 19:303-31.
Rocha, R.M. 2001. Taxas de recrutamento e mortalidade da floresta de terra-firme da bacia do
rio Cueiras na região de Manaus-AM. Dissertação de mestrado CFT-INPA. 49p.
Shugart, H.H. 1984. A Theory of Forest Dynamics: The Ecological Forest Succession
Models. Springer-Verlag Inc. New York. 278p.
Shugart, H.H. e D.C. West. 1981. Long-term Dynamics of Forest Ecosystems. Am. Scientist
69:647-652.
FAO Forestry Paper 22/2. 194 p.
erson, T.W. e L.A. Goodman. 1957. Statistical Inference about Markov Cha
of Mathematical Statistics 28:89-110.
Bierzychudek, P. 1982. The Demography of Jack-in-the-pulpit, a Forest Perennial that
Changes Sex
ith, V.G. 1983. Compatible Basal Area Growth and Yield Models Consistent with Forest
Growth Theory. Forest Science 29:279-288.
Sullivan, A.D. e J.L. Clutter. 1972. A Sim us Growth and Yield Model for Loblolly
Pine.
e Management of Renewable Resources, with
ccession. J. of Animal Ecology
Sm
ultaneo
Forest Science 18:76-86.
Usher, M.B. 1966. A Matrix Approach to th
Special Reference to Selection Forests. J. of Applied Ecology 3(2):355-367.
Usher, M.B. 1969. A Matrix Model for Forest Management. Biometrics, June:309-315.
Usher, M.B. 1979. Markovian Approaches to Ecological Su
48:41-426.
Box 1
Tabel âmica do Excel usando o mesmo arquivo de dados do T2-B2SB4. a din
Passos necessários:
1. Neste arquivo há as seguintes colunas: nome comum da espécie, DAP90, DAP97 e DAP04
2. Inserir três novas colunas entre DAP90 7 e DAP04 e depois de e DAP97, entre DAP9
DAP04 e nomear como CD1, CD2 e CD3, respectivamente.
3. Clicar e para a transição entre m DADOS => FILTRAR => AUTO-FILTRO => apenas
1990 e 1997. Para a transição entre 1997e 2004, o procedimento é o mesmo.
4. Identificar as recrutas ap “zero” na coluna do => são células que arecem em “branco” ou
DAP90 e luna DAP97 => clicar em DAP90▼ e procurar “branco” e m DAPs registrados na co
“zero” e nomear com R na própria coluna DAP90 e na coluna CD1 atribuir o código “1” =>
para todas as árvores nessas condições.
5. Calcu as freqüências das classes 10<15, 15<20 ... até ≥ 65 => continuar com o lar
FILTRAR nas colunas DAP90 e DAP97. Começar com 1990 clicando em DAP90▼ e ir para
PERSONALIZAR. Lembrar que a primeira classe (10<15) é o segundo estado. Em
PERSONALIZAR, a primeira condição é “maior ou igual a” “10” (digitando) e a segunda é
“menor d ue” “15” (digitando). Depois de OK, digitar em CD1 o número da classe (2, neste o q
caso). Repetir isso até a última classe (≥ 65), que será a classe número 1.
6. Identi r as mortas => são c u s que aparecem emfica él la “branco” ou “zero” na coluna do
DAP97 e tinham DAPs na coluna DAP90 => clicar em DAP97▼ e nomear com M na própria
coluna DAP97 e na coluna CD2 atribuir o código “15” => para todas as árvores nessas
condições.
7. Repetir passo 5 para DAP97. Em DAP97 tem que incluir a classe 1 (PRÓX). Neste caso, o
trabalho que ser feito manualmente (no olho), ou seja, tem que olhar para as colunas tem
DAP90 e AP97 e verificar quais árvores que estavam na classe 1 em 1990 e mudaram de D
classe em 1997.
8. Ir pra DADOS, clicar em FILTRAR e retirar o AUTO-FILTRO.
9. Em COS DINÂMICOS e DADOS, clicar em RELATÓRIOS DE TABELA E GRÁFI
seguir as instruções lógicas.
10. Pra ter a tabela dinâmica:
- arrastar CD1 até a coluna onde está escrito “solte campos de linha aqui”
- arrastar C escrito “solte camD2 até a linha onde está pos de coluna aqui”
- star D P97 em cima de “solte itens de dados a i” arra A qu
Quadro 1: Matriz (A) => transição do estado i para o estado j durante o período de 2000 a 2004.
A B C I D E F G H J L M N O P Q R S T
1 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 PROX M Total
2 0 6 R 385 7 4 0 0 0 0 0 0 0 0 0 0 0 0 0 39
3 0 1869 205 0 0 0 91 2167 10 < 15 2 0 0 0 0 0 0 0 0 0
4 0 0 0 0 1319 15 < 20 0 1126 144 1 0 0 0 0 0 0 0 0 48
5 0 0 3 20 < 25 0 711 104 4 0 1 0 0 0 0 0 0 0 0 33 85
6 0 2 25 < 30 0 0 0 419 59 0 0 0 0 0 0 0 0 0 0 24 50
7 0 1 30 < 35 0 0 0 0 276 59 0 0 0 0 0 0 0 0 0 26 36
8 0 8 35 < 40 0 0 0 0 0 195 23 0 0 0 0 0 0 0 0 10 22
9 0 0 5 40 < 45 0 0 0 0 0 119 27 1 0 0 0 0 0 0 8 15
10 45 < 50 0 0 0 0 0 0 0 0 0 72 14 0 0 0 0 0 7 93
11 50 < 55 0 0 0 0 0 0 0 0 0 0 0 36 7 0 0 0 3 46
12 55 < 60 0 41 0 0 0 0 0 0 0 0 0 28 6 1 0 0 0 6
13 60 < 65 0 0 0 0 0 0 0 0 0 0 0 19 8 0 0 0 1 28
14 65 < 70 0 0 0 0 0 0 0 0 0 0 0 0 12 4 0 0 1 17
15 70 < 75 0 0 0 0 0 0 0 0 00 0 0 0 15 2 0 1 18
16 0 >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 15 7 5 27
17 0 0 PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18 0 0 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
19 0 4 1 8 861 524 339 254 143 17 6251 Total 225 33 99 51 35 25 21 19 7 264
Quadro 2: Matriz B (B1 e B2) – transição probabilística do estado i para o estado j durante o período de 2000 a 2004.
B C D J L R S
A E F G H I M N O P Q T
1 estados R 15 20 5 40 < 45 4 50 55 60 5 < 0 < =75 OX al10 < 15 < 20 < 2 25 < 30 30 < 35 35 < 40 5 < 50 < 55 < 60 < 65 6 70 7 75 > PR M Tot
2 0 2 7 1 0 0 0 0 0 0 0 0 0R 0,972 0,017 0,010 0 0 0 0
3 10 0 5 6 9 0 0 0 0 0 0 0 0 < 15 0,862 0,094 0,000 0 0 0 0 0
4 15 20 0 7 2 0 0 0 0 0 0 0 0 0 < 0 0,853 0,109 0,0008 0 0 0
5 20 25 0 0 0,8335 0,0047 0,0012 0 0 0 0 0 0 < 0 0,1219 0 0 0 0
6 25 < 30 0 0 0 0 0 0 0 0 0 0 0 0 0 0,8347 0,1175 0 0
7 30 35 0 0 0 0 0 0,7645 0 0 0 0 0 0 0 0 < 0,1634 0 0,1
8 35 < 40 0 0 0 0 0 0,1009 0 0 0 0 0 0 0 0 0,8553 0 0
9 40 < 45 0 0 0 0 0 0 0 0,7677 0,1742 0,0065 0 0 0 0 0 0 0,1
10 45 50 0 0 0 0 0, 0 0 0 0 0 < 0 0 0 0 0,7742 1505 0 0,1
11 50 55 0 0 0 0 0 0, 0,1 0 0 0 0 1 < 0 0 0 0 7826 522 0 0,
12 55 60 0 0 0, 0,1 0, 0 0 0 < 0 0 0 0 0 0 0 0 6829 463 0244 0,1
13 60 65 0 0 0 0 0 0 0 0 0 0 0 0,6 0, 0 0 0 < 786 2857 0
14 65 70 0 0 0 0 0 0 0 0 0 0 0 0 0, 0 0 < 7059 0,2353 0,1
15 70 75 0 0 0 0 0 0 0 0 0 0 0 0 0 0 < 0,8333 0,11 0,1
16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 >=75 0,56 0,259 0,2
17 PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8
19 Total
e (até 2008)
F G J L S T
Quadro 3: Matriz C ou [B]2 - Matriz de transição probabilística dois passos adiant
A B C D E H I M N O P Q R
1 estados R 10<15 15<20 20<25 25<30 30<35 35<40 40<45 45<50 50 5 70 <75 >=75 PROX M Total <55 5<60 60<65 65< 70
2 0, 0, 5E 1E 0 0 0 0 0 0 0 0 0, 396 R 0,0000 8385 1071 0,0112 0,0012 -05 0 -05 042
3 0, 0, 0, 0, 0, 4E- 1E- 0 0 0 0 0 0 0 0, 0,04 2167 10<15 0000 7439 1624 0119 0002 06 0 06 0000
4 <2 0, 7 ,18 , , 0, 0 0 0 0 0 0 0 0, 0,035 1319 15 0 0 0000 0, 288 0 42 0 0146 0 0006 0 0001 0000
5 <2 0 0, 6 20 , 8E- 0 0 0 0, 0, 853 20 5 0 0000 0, 948 0, 34 0 0218 0,0008 0,0019 0,0002 06 0 0 0000 038
6 0, 0 0 0 0 0 0, 0,048 502 25<30 0 0 0 0000 0,6967 0,188 0,0192 0 0 0 0000
7 0 0 0 0 0, 0,0165 0 0 0 0 0 0 0 0, 0,062 361 30<35 0000 0,5845 0,2647 0000
8 <4 0 0 0 0 0,0 7 0,1 0,017 0,00 0 0 0 0 0 0, 0,043 228 35 0 0 000 0, 315 637 6 07 0000
9 <4 0 0 0 0 0 0 0,0 5 0,2 0, 0, 0 0 0 0,0 0,053 155 40 5 000 0, 894 686 0362 001 0 000
10 0 0 0 0 0, 0, 0, 0229 0 0 0 0 0, 0,068 93 45<50 0 0 0 0000 5994 2344 0, 0000
11 0 0 0 0 0 0 0 0 0, 0, 223 0,0223 0 0 0, 0,073 46 50<55 0000 6125 0, 0,0037 0000
12 6 0 0 0 0 0, 7 0057 0,0 0,107 41 55< 0 0 0 0 0 0 0000 0,4664 0,1992 0,075 0, 0 000
13 6 0 0 0 0 0 0 0 0 0 6 672 0,0 0,041 28 60< 5 0 0,0000 0,4605 0,395 0,0 0 000
14 0 0 0 0 0 0 0 0 0 0 0 0, 0, 0,055 17 65<70 0,0000 0,4983 0,3622 026 0000
15 0 0 0 0 0 0 0 0 0 0 0, 0,067 18 70<75 0 0 0,0000 0,6944 0,154 0288
16 7 0 0 0 0 0 0 0 0 0 0 0 30 0,1 0,103 27 >= 5 0 0 0 0,00 0 0, 86 440
17 OX 0 0 0 0 0 0 0 0 0 0 0 0 PR 0 0 0 0 0 0
18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 M
19 tal To
ncias esperadas de cada classe ou estado
A B C D E F G H I J L N O P Q R S T
Quadro 4: Matriz D - Cálculo das freqüê
M
1 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50
50 <
55
5 60 <
65
65 <
70
70 <
75 >=75 PROX M Total
5 <
60
2 R 0,000 332,056 42,397 4,454 0,493 0,019 0 0,005 0 0 0 0 0 0 0 16,577 0
3 10 < 15 0,000 1611,980 351,813 25,773 0,399 0,009 0 0,002 0 0 0 0 0 0 0,000 86,023 0
4 15 < 20 0 0,000 961,240 58 0 0 0 0 0,000 46,595 242,9 19,245 0,793 0 0,169 0 0 0
5 20 < 25 0 0 0,000 6 0 0 0 0 0,000 32,818 592,639 173,492 18,615 0,654 1,601 0,174 0,00 0
6 25 < 30 0 0 0 0 0 0 0 0,000 24,281 0,000 349,723 94,353 9,643 0 0 0 0
7 30 < 35 0 0 0 0 0,000 211,014 95,569 5,952 0 0 0 0 0 0 0,000 22,466 0
8 35 < 40 0 0 0 0 0 0,148 0 0,000 166,776 37,329 4,006 0 0 0 0 0,000 9,740
9 40 < 45 0 0 0 0 5,615 0, 0 0 0 0,000 91,361 41,632 152 0 0 0 0,000 8,239
10 45 < 50 0 0 0 0 0 0 0 0,000 55,7 21,795 2, 0 42 130 0 0 0 0,000 6,332
11 50 < 55 0 0 0 0 0 0 74 1 1,024 0,171 0 0 0,000 3, 0 0 0,000 28,1 0,259 372
12 55 < 60 0 0 0 0 1 8,160 0 0 0 0 0 0,00 9,122 9 3,103 0,235 0 0,000 4,371
13 60 < 65 0 0 0 0 0 0 0 0 0, 12,80 0 000 93 11,076 1,882 0 0,000 1,149
14 65 < 70 0 0 0 0 0 0 0 0 0 0,000 8,471 6,157 0 0 0,444 0,000 0,928
15 70 < 75 0 0 0 0 0 0 0,000 12,500 2,778 0 0 0 0 0 0 0 ,519 1,204
16 >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 0,000 8,333 3,889 2,778
17 PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
19 Total 1944,036 1355,450 65,823 543,352 324,803 272,641 136,419 101, 5,739 3 22,086 22,820 20,775 11,556 4,407 87 8 555 5 1,663 266, 4
Quadro 5a: Dados para calcular 2008 (E).
CD
Prob
Arv
Prob
Mort proj
10 < 15 1944,04 86,02 0,97
15 < 20 1355,45 46,60 0,02
20 < 25 865,82 32,82 0,01
25 < 30 543,35 24,28
30 < 35 324,80 22,47
35 < 40 272,64 9,74
40 < 45 136,42 8,24
45 < 50 101,55 6,33
50 < 55 55,74 3,37
55 < 60 31,66 4,37
60 < 65 22,09 1,15
65 < 70 22,82 0,93
70 < 75 20,77 1,20
>=75 15,96 2,78
Quadro 5b: Freqüências esperadas (E) para 2008 incluindo ajustes feitos para o recrutamento
(R)
Estado lidade Árvores Morta
CD 2000 2004 (O) 2008 (E)
2004
(O)
2008
(E)
10 < 15 2167 2254 2243,0 91 86,02
15 < 20 1319 1338 1315,9 48 46,60
20 < 25 853 861 837,0 33 32,82
25 < 30 502 524 519,1 24 24,28
30 < 35 361 339 302,3 26 22,47
35 < 40 228 254 262,9 10 9,74
40 < 45 155 143 128,2 8 8,24
45 < 50 93 99 95,2 7 6,33
50 < 55 46 51 52,4 3 3,37
55 < 60 41 35 27,3 6 4,37
60 < 65 28 25 20,9 1 1,15
65 < 70 17 21 21,9 1 0,93
70 < 75 18 19 19,6 1 1,20
>=75 27 17 13,2 5 2,78
Próxima 7
Total 5855 5987 5857,6 264 250
Quadro 6: Comparação entre freqüências observadas (O) e esperadas (E) em 2008.
estado O E χ P2P
10 < 15 2254 2243 0,05
15 < 20 1338 1316 0,37
20 < 25 861 837 0,69
25 < 30 524 519 0,05
30 < 35 339 302 4,45
35 < 40 254 263 0,30
40 < 45 143 128 1,71
45 < 50 99 95 0,15
50 < 55 51 52 0,04
55 < 60 35 27 2,18
60 < 65 25 21 0,79
65 < 70 21 22 0,04
70 < 75 19 20 0,02
>=75 24 13 2,08
Total 5987 5859 20,13
χ P2Ptab 0,05;13gl = 22,36
χ P2Ptab 0,01;13gl = 27,69