Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 DEPARTAMENTO DE CIÊNCIAS FLORESTAIS - DCF AMOSTRAGEM E INVENTÁRIO FLORESTAL – GEF 112 (NOTA DE AULA 02) PROF. José Marcio de Mello josemarcio@dcf.ufla.br LAVRAS – MG 2014 - 1 2 5. CONCEITOS BÁSICOS DE ESTATÍSTICA PARA INVENTÁRIO FLORESTAL 5.1 População – conjunto de unidades amostrais (parcelas) com características comuns (árvores) nas quais se faz observações. Área de 5,02 hectares. 1 126 QUAL É A POPULAÇÃO ALVO? QUAL É A POPULAÇÃO ESTATÍSTICA? (Tamanho das parcelas = 400m2) É necessário definir o SAMPLING FRAME. Na população acima, qual é o Sampling Frame? N=126. Portanto é definir quantas parcelas cabem na área. Parcela – é uma fração de área onde se mede todos os indivíduos. Através da área da parcela é possível efetuar extrapolações para toda a floresta. Por que não efetuamos o inventário pensando em árvores? - localização das árvores no campo; - variabilidade entre árvore é alta. COMO QUANTIFICAR O VOLUME DE MADEIRA NAS 126 PARCELAS? enumeração completa; amostragem 3 5.2 Enumeração Completa – medição de todos os indivíduos. Neste caso temos a determinação do PARÂMETRO. Estes parâmetros descrevem a distribuição de freqüência da característica avaliada. Estatítica Parâmetro Média Desvio padrão Variância 2 5.3 Amostra – é um conjunto de unidades amostrais ou parcelas, que são REPRESENTATIVA DA POPULAÇÃO. Estatítica Estimativa do parâmetro Média y Desvio padrão Sy Variância 2S y AMOSTRA CENSO DETERMINAÇÃO DO PARÂMETRO AMOSTRA ESTIMATIVA DO PARÂMETRO ESPERANÇA MATEMÁTICA 4 OBS.: toda amostra deve ser formada observando 2 pontos fundamentais: eliminar influências subjetivas como “desejo” e “preferência”; parcelas inconvenientes não podem ser substituídas. ATENÇÃO: toda vez que utilizamos uma amostra, nós estamos estimando a característica de interesse. Portanto, nós estamos efetuando a estimativa através de um estimador. 5.4 Exatidão e Precisão - Existem duas propriedades que todo estimador deveria possuir: “exatidão” e “precisão”. Portanto, são propriedades de um bom estimador. i. Exatidão: é a capacidade ou propriedade do estimador em gerar valores próximos ao parâmetro populacional. Ou seja, sem qualquer tendência em sub ou super estimar a característica avaliada. 1 2 3 40 P1 – contém um número x de árvores. “A medida estatística chamada de exatidão, só é conhecida quando se mede toda a floresta”. 5 70 covas (dap, ht) – estimar o volume V1...V40 = 40 1 30820mstVi Obs.: Este é o volume real de toda a área que foi trabalhada... EXATIDÃO: 30820 – 32997,5 = -2177,5 m3 “A amostra superestimou o volume de madeira”. Esta diferença existiu em função do processo de amostragem. ii. Precisão: é a propriedade que o estimador possui em estimar valores próximos entre si, oriundos de diferentes amostras retiradas da floresta. “Todas as vezes que efetuamos amostragem, a estatística obtida é a precisão ou erro de amostragem”. Fator de forma AMOSTRA DE 12 PARCELAS 32997,5 m3 Equação de volume Cada valor de X é uma estimativa de uma dada amostragem. 6 No inventário o erro de amostragem ou PRECISÃO, é obtido através do DESVIO PADRÃO DA MÉDIA, ou seja, é a variação entre diferentes estimativas da média. N = 40 n= 12 )!(! ! nNn N C N n - Número de combinações possíveis de diferentes amostras. 480.853.586.5 )!1240(!12 !4040 12 C - Número de amostras diferentes 12 a 12 retiradas da população. 5.5 Desvio padrão da média: é a variância das diferentes médias geradas para cada um dos inventários. É a medida de precisão do inventário florestal. N n n S VS 1 2 PRÁTICA 3 TEMA: Conceitos Estatísticos para Inventário Florestal – (parte 1) 1. Mostrar o mapa da matinha sem as parcelas demarcadas. Reafirmar o conceito de população alvo no inventário florestal. 2. A partir do tamanho da unidade amostral ou parcela, defini-se a população estatística. Através da população estatística é que trabalhamos a questão da amostragem. 3. Gerar o volume para uma parcela a partir da equação volumétrica. 4. Arquivo com volume de cada parcela. Chamar a atenção que os valores de volume são por parcela, portanto, trata-se da soma dos volumes individuais das árvores da floresta. (volume.xls). 7 5. Gerar os parâmetros (média e variância) da população. Verificar os comandos do Excel para estes dois parâmetros. 6. Gerar uma amostra de 10 parcelas de forma aleatória. Observe que os valores entre os alunos são diferentes em função da semente do randômico do computador. 7. Gerar para a amostra de 10 parcelas exatidão . 8. Gerar a precisão da sua amostra. 9. Demonstração do Teorema do Limite Central. 5.6 Teorema do Limite Central “Seja uma população qualquer, com média µ e variância 2 . Se infinitas amostras de tamanho n são retiradas dessa população, então a média x dessas amostras terão distribuição aproximadamente normal, com média µ e variância n 2 , à medida que aumenta o tamanho da amostra”. 8 Demonstração da fórmula da Variância da Média AMOSTRA {y1,y2,y3,y4,...,yn} n ynyyyy y ...4321 n i yi n y 1 1 PROPRIEDADE: “A variância de uma constante vezes uma variável é o quadrado da constante vezes a variância da variável”. n i yiV n yV 1 2 1 )( OBS.: admitindo que os valores observados de yi são independentes, tem-se: n i yiV n yV 1 2 )( 1 )( )(...)3()2()1(1)( 2 ynVyVyVyV n yV 22322212 ... 1 )( n n yV OBS.: admitindo que as variâncias são homogêneas, tem-se: 9 2232221 ... n 2 2 1 )( n n yV n yV 2 )( n S S Y 2 2 5.7 Variáveis contínuas e discretas Contínua: é aquela cujos valores pertencem ao eixo dos números reais. São variáveis resultantes de um processo de medição. Ex.: medição de altura, diâmetro, volume, peso, etc... Discreta: trata-se de variáveis com valores inteiros. Ex.: contagem de sementes germinadas, número de plantas atacadas por cancro, etc... 5.8 Medidas de posição i. Média aritmética n ynyyyy y ...4321 PARÂMETRO ESTIMATIVA 10 n i yi n y 1 1 Propriedades da média: A soma algébrica dos desvios em relação a média é nulo 0 1 n i i xX A soma das diferenças de cada valor observado em relação a média ao quadrado é mínima. mínimovalorxX n i i / 1 2 Opeso de cada observação é 1/n. Ou seja, todas as observações possuem pesos iguais. EXEMPLO Um estudo feito nos EUA focalizou o número de cesariana realizado por médicos em um ano. Os dados a seguir são de uma amostra de 15 médicos. [27, 50, 33, 25, 86, 25, 85, 31, 37, 44, 20, 36, 59, 34, 28] O número médio de operações que os médicos fizeram foi de 41,3. Observe nos dados que apenas 5 médicos dos 15 fizeram mais do que o número médio de operações. Isto porque 2 valores discrepantes (85 e 86) puxaram a média para cima. Se fosse feita a média das outras 13 observações, a média seria de 34,5. Este exemplo mostra que dados discrepantes puxa a média para cima ou para baixo. ii. Média aritmética ponderada Os pesos de cada observação referem a ponderação de cada observação. y fi 1y f1 2y f2 . . 11 . . . . yn fn 1 1 2 2 n n p 1 2 n y .f + y .f +...+ y .f y = f + f +...+ f n i i i=1 p n i i=1 f y y = f iii. Moda É a realização mais freqüente em um conjunto de dados. Considerando a série 5,10,15,15,15,17,25,32 a sua moda será 15. 12 iv. Mediana É o valor central de uma série ordenada de forma crescente. Considerando a série {5, 8, 10, 12, 14} sua mediana será 10. Caso o número de observações seja par, a mediana é a média aritmética das duas observações centrais. Para a série {5, 8, 10, 12, 14, 16} a sua mediana será: 10+12 Md= =11 2 . 5.9 Medidas de dispersão As medidas de dispersão são: desvio padrão, variância e coeficiente de variação. i. Variância É a variação de cada valor observado em relação a sua média. Ela quantifica a soma dos desvios de cada valor em relação à média. mínimovalorxX n i i / 1 2 n i ii xxxx 1 2 2 2 2 111 2 2 n i n i i n i i xxxx 13 2 1 1 1 2 2 xnx n x x n i i n i in i i 2 2 1 2 1 1 2 2 n x n n x x n i i n i in i i 2 1 1 2 n x x n i in i i O estimador da variância é dado pela seguinte expressão: 1 1 2 12 2 n n x x s n i n i i i x ii. Desvio padrão É a mesma definição de variância, porém, na unidade da característica avaliada. Ela é obtida pelo seguinte estimador: 2 xss 14 iii. Coeficiente de variação Expressa em termos relativos a dispersão média dos valores em relação a sua média. É útil para comparar a variabilidade entre conjunto de dados com características diferentes ou não. A seguir está apresentado o estimador do CV. 100*(%) 2 x s CV x Volumes (m3)/parcela para duas populações Nº PARCELA VOL. FLORESTA I (m3) VOL. FLORESTA II (m3) 1 93,75 234,00 2 187,50 214,50 3 225,00 225,00 4 375,00 234,00 5 206,25 225,00 6 150,00 225,00 7 262,50 220,50 8 300,00 222,00 y = 1800 y = 1800 x = 225 m3 x = 225 m3 CV(%) 39,10 2,92 AMPLITUDE 206,25 19,50 5.10. Fator de correção para população finita i. População finita É aquela que se conhece a área total da população e o tamanho de parcela a ser utilizada no levantamento. Assim, é possível conhecer o N cabível na floresta. 130 ha 15 2600 500 10000*130 N n = 4 0015.0 2600 4 N n (FRAÇÃO AMOSTRADA) Se nós efetuamos amostragem, certamente ficou uma parte sem amostrar. Esta parte é denominada de “FRAÇÃO NÃO AMOSTRADA”. É através dela é que surge o “erro do inventário”, ou “erro de amostragem”. 998,01 N n (FRAÇÃO NÃO AMOSTRADA) – FNA “Se FNA > 0,95 ela pode ser desprezível”. Assim, surge um novo conceito: POPULAÇÃO INFINITO CONTÁVEL: é quando o FNA > 0,95 e conhecemos o valor de N. POPULAÇÃO INFINITA CONTÁVEL: É quando não sabemos o valor de N. Ou o valor de N tende ao infinito. 5.11 Intervalo de confiança i. Distribuição Normal A distribuição normal é central na estatística em geral, mas principalmente na amostragem estatística. É ela quem permite gerar o intervalo de confiança e é a pressuposição para aplicação de outros testes. 16 ii. Propriedades da Distribuição Normal - Forma de “SINO”: unimodal e simétrica - Possui dois parâmetros: média e desvio padrão - Não possui limite inferior superior 17 - UNIDADES PADRÕES: o desvio padrão define “unidades padrões” na distribuição a partir da média, isto é, a dispersão dos dados é controlada pelas “unidades de desvio padrão”. A seguir tem-se a curva normal padronizada, mostrando o percentual de ocorrência m função da variabilidade. OBS.: A importância da curva normal para a teoria de amostragem, se fundamenta na Teoria do Limite Central. iii. Definição: é a determinação do limite inferior e superior, dentro do qual o valor do parâmetro deve variar, conforme um coeficiente de confiança (95%). 18 a. Intervalo de Confiança Empírico 2sx Esse é um intervalo empírico. A variância dá idéia de variação ao redor da média. Qual é a confiança na estimativa desta média? b. Intervalo de confiança estatístico Com base na normalidade e no Teorema do Limite Central, W.S. Gosset, cujo pseudonome “Student”, deduziu uma distribuição estatística para inserir o GRAU DE CONFIANÇA na estimativa. xs x t xxst. xstx . %95..: xstxxstxIC MÉDIA VARIÂNCIA AMOSTRA 19 “Existe 95% de chance da média verdadeira (Parâmetro) estar dentro do IC”. INTERPRETAÇÃO ESTATÍSTICA: “espera-se que em 100 inventários, 95 gera IC dentro dos quais a verdadeira média estará presente”. ANÁLISE DO IC a. O que é preciso para diminuir o IC? b. O que é melhor em termos prático: um IC maior ou um IC menor? c. Se considerar 90% de probabilidade de acerto para uma mesma intensidade amostral. O IC será maior ou menor? Aumentou para 10% a chance de erro, portanto sua margem de erro é maior. Logo, o IC pode ser menor. (O valor T para um mesmo grau de liberdade será menor). OBS.: quem controla a amplitude do IC é o erro padrão da média. Se desejar um IC menor, é preciso aumentar a amostra para aumentar a precisão. Tabela. Tabela da distribuição de t-Student para vários graus de liberdade e coeficientes de confiança. COEFICIENTE DE CONFIANÇA Graus de liberda de (n-1) 0,1 0,3 0,5 0,7 0,8 0,9 0,95 0,98 0,99 0,999 1 0,158 0,510 1,000 1,963 3,078 6,314 12,706 31,82 63,65 636,62 0,142 0,445 0,816 1,386 1,886 2,920 4,303 6,965 9,925 31,59 3 0,137 0,424 0,765 1,250 1,638 2,353 3,182 4,541 5,841 12,92 4 0,134 0,414 0,741 1,190 1,533 2,132 2,776 3,747 4,604 8,610 5 0,132 0,408 0,727 1,156 1,476 2,015 2,571 3,365 4,032 6,869 6 0,131 0,404 0,718 1,134 1,440 1,943 2,447 3,143 3,707 5,959 7 0,130 0,402 0,711 1,119 1,415 1,895 2,365 2,998 3,499 5,408 8 0,130 0,399 0,706 1,108 1,397 1,860 2,306 2,896 3,355 5,041 9 0,129 0,398 0,703 1,100 1,383 1,833 2,262 2,821 3,250 4,781 10 0,129 0,397 0,700 1,093 1,372 1,812 2,228 2,764 3,169 4,587 11 0,129 0,396 0,697 1,088 1,363 1,796 2,201 2,718 3,106 4,437 12 0,128 0,395 0,695 1,083 1,356 1,782 2,179 2,681 3,055 4,318 Continuação... 20 Continuação... COEFICIENTE DE CONFIANÇA Graus de liberda de (n-1) 0,1 0,3 0,5 0,7 0,8 0,9 0,95 0,98 0,99 0,999 13 0,128 0,394 0,694 1,079 1,350 1,771 2,160 2,650 3,012 4,221 14 0,128 0,393 0,692 1,076 1,345 1,761 2,145 2,624 2,977 3,140 15 0,128 0,393 0,691 1,074 1,341 1,753 2,131 2,602 2,947 4,073 16 0,128 0,392 0,690 1,071 1,337 1,746 2,120 2,583 2,921 4,015 17 0,128 0,392 0,689 1,069 1,333 1,740 2,110 2,567 2,898 3,965 18 0,127 0,392 0,688 1,067 1,330 1,734 2,101 2,552 2,878 3,922 19 0,127 0,391 0,688 1,066 1,328 1,729 2,093 2,539 2,861 3,883 20 0,127 0,391 0,687 1,064 1,325 1,725 2,086 2,528 2,845 3,850 21 0,127 0,391 0,686 1,063 1,323 1,721 2,080 2,518 2,831 3,819 22 0,127 0,390 0,686 1,061 1,321 1,717 2,074 2,508 2,819 3,792 23 0,127 0,390 0,685 1,060 1,319 1,714 2,069 2,500 2,807 3,767 24 0,127 0,390 0,685 1,059 1,318 1,711 2,064 2,492 2,797 3,745 25 0,127 0,390 0,684 1,058 1,316 1,708 2,060 2,485 2,787 3,725 26 0,127 0,390 0,684 1,058 1,315 1,706 2,056 2,479 2,779 3,707 27 0,127 0,389 0,684 1,057 1,314 1,703 2,052 2,473 2,771 3,690 28 0,127 0,389 0,683 1,056 1,313 1,701 2,048 2,467 2,763 3,674 29 0,127 0,389 0,683 1,055 1,311 1,699 2,045 2,462 2,756 3,659 30 0,127 0,389 0,683 1,055 1,310 1,697 2,042 2,457 2,750 3,646 40 0,126 0,388 0,681 1,050 1,303 1,684 2,021 2,423 2,704 3,551 60 0,126 0,387 0,679 1,046 1,296 1,671 2,000 2,390 2,660 3,460 120 0,126 0,386 0,677 1,041 1,289 1,658 1,980 2,358 2,617 3,373 0,126 0,385 0,674 1,036 1,282 1,645 1,960 2,326 2,576 3,291 5.12 Cálculo da Intensidade Amostral A definição do número de parcelas a ser lançada numa floresta, depende: Erro admissível; Variação da característica avaliada na floresta. vstE . 2 yS nt 1- =E n N 2 2 y y2 2 S S .n t - =E n nN 21 t2 2 2 y y 2 S N - S n =E nN t2 2 yS N-t2 2 yS n=nNE2 nt2 2 yS +nNE2=t2 2 yS N n(t2 2 yS +NE2)=t2 2 yS N 2 2 y 2 2 2 y t S N n = t S +NE Dividindo ambos os termos por N tem-se que: n= 2 2 y 2 2 y2 t S t S E + N E = erro máximo admissível para o inventário florestal (pré-estabelecido). É um valor percentual da média. 2 yS = variância da característica de interesse N = número de unidades cabíveis na população n = intensidade amostral Se o erro é estabelecido em percentagem, a medida que expressa variabilidade deverá ser o coeficiente de variação e o cálculo da intensidade amostral é obtido como: n= 22 22 2 t . CV% t . CV% E %+ N (POPULAÇÃO FINITA) Se a população é considerada infinita, então: n= 2 2 y 2 t S E ou 22 n = 22 2 t CV% E % (POPULAÇÃO INFINITA) Suponhamos que um florestal deseja saber quantas unidades amostrais (parcelas) são necessárias para se obter, com 95% de confiança, uma estimativa da produção florestal (st/ha) com um erro amostral de no máximo ± 10%. Ele acredita que a floresta tenha CV= 25% e estima que um bom número inicial seja de 25 parcelas. t(0.975;24) = 2,064 276.26 10 25.064.2 2 22 n t(0.975;26) = 2,056 274.26 10 25.056.2 2 22 n Se o chute inicial for alto, o processo de convergência é geralmente rápido. Porém, se o número inicial for pequeno, pode haver várias interações antes de convergir. USO DA INTENSIDADE AMOSTRAL PARA DEFINIÇÃO DE ÁRVORES DE CUBAGEM RIGOROSA ÁRVORE DAP(cm) HT(m) VTCC (m3/ha) 1 21.8 30.1 0.514764 2 20.3 30.6 0.387458 3 17.8 28.8 0.305286 4 23.5 30.4 0.546136 5 19.4 28.4 0.347813 6 18.6 28.3 0.321360 7 21.2 31.4 0.513952 8 26.5 32.6 0.745956 9 25.5 32.3 0.703315 MÉDIA= DESVIO= CV= 0.487338 0.161471 33.13 23 n= 22 2 t CV% E % t(0.975;8) = 2.306 5938,58 10 13.33.306.2 2 22 n t(0.975;58) = 2.0017 450046,44 10 13.33.0017.2 2 22 n t(0.975;44) = 2.015 4565,44 10 13.33.015.2 2 22 n 5.13 Efeito do tamanho de parcela na variabilidade Para uma mesma população e para uma mesma intensidade amostral, parcelas menores proporcionam maiores coeficientes de variação. Observe que este comportamento dependerá do fenômeno estudado. Quando mais próximo o Xi estiver da média, menor será a diferença no numerador da fórmula do cálculo da variância. Assim haverá redução da mesma. Quando aumentamos o número de parcela, estamos aumentado o valor do denominador e consequentemente diminuindo a razão no cálculo da variância. - 400 m2 = CV - 600 m2 = CV CV = V A R I A B I L I D A D E (CV ) ÁREA DA PARCELA 24 OBS 1.: Maior parcela mais área amostrada. Portanto, espero redução no valor do desvio padrão. OBS 2.: Se trabalharmos numa população clonal, tudo muito uniforme, mudanças no tamanho de parcela tem pouco efeito sobre o CV. EX.: Lançou-se parcelas de 600 m2 em uma população e obteve-se o CV% para volume de 25%. Caso fosse lançado a mesma intensidade amostral com parcelas de 400 m2, qual seria o coeficiente de variação? 2 12 1 2 2 .%% A A CVCV 400 600 .25% 222 CV 4655,765%22 CV 67,274655,765%2 CV 5.14 Covariância e Correlação É comum obtermos informações sobre duas ou mais característica dentro de uma floresta. Se for desejado conhecer a correlação simples entre duas quaisquer, pode-se utilizar da análise de correlação ou covariância. Existindo correlação, a pergunta é: qual a magnitude desta relação? 25 No primeiro gráfico forte correlação e no segundo uma fraca correlação. Se estivermos pensando na relação entre DAP e HT de floresta plantada, o gráfico 1 estaria representando bem esta situação. Nesta mesma relação para nativa o segundo gráfico seria mais interessante. x y x y (µ1,µ2) (µ1,µ2) 26 1 1 1 1 n n yx xy COV n i n i n i xy OBS.: a covariância é uma medida estatística cuja unidade é a mesma das variáveis envolvidas na correlação. Portanto, fica difícil de interpretar a magnitude desta covariância. Daí surgiu a medida de correlação, que nada mais é do que a padronização da covariância. Ela dá resultado de [-1 a +1]. 22 yx xy SS COV Exemplo: Calcule a covariância entre a altura (yi) e o dap (xi) de 9 árvores medidas em um povoamento clonal de Eucalyptus grandis conforme a tabela apresentada a seguir. Calcule também a correlação entre x e y. TABELA. Pares de altura – dap em povoamento clonal de Eucalyptus grandis. Nº da árvore DAP (xi) Altura (yi) x . y 1 25,8 22,3 575,34 2 24,5 18,5 453,25 3 33,4 23,0 768,20 4 31,8 22,3 709,14 5 33,7 20,5 690,85 6 33,4 24,5 818,30 7 32 26,0 852,8 8 28,3 21,0 594,30 9 29 23,0 673,90 10 30,2 22,0 664,4 11 32,56 25,3 882,25 TOTAL 335,7 248,4 7621,73 27 Média de xi = 30,52 cm Média de yi = 20,58 m Desvio padrão de xi = 3,201505 cm2 Desvio padrão de yi = 2,17017 m2 Covariância (Cov) Correlação (r) xy xy 2 2 Cov 4,101364 r 3,201505 . 2,17017S x S y xyr 0,59031 xy x y xy nCov 1 xy 335,7 248,4 7621,73 11Cov 11 1 xyCov 4,101364
Compartilhar