Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 1. NOÇÕES DE ESTATÍSTICA DESCRITIVA Mesmo em se tratando de um trabalho com finalidade de auxiliar os estudantes nas técnicas de Estatística Experimental, torna-se necessário que certos conceitos básicos de Estatística Descritiva fiquem bem posicionados, pois eles são, de certa forma, fundamentais na área de Estatística Experimental, Inventário Florestal e Manejo Florestais. A Estatística, sendo uma parte da Matemática Aplicada encarregada em fazer interferências a partir de dados observados, ajuda diretamente os processos empregados em Inventário Florestal, porque neste ramo da Ciência Florestal, também chegamos a conclusões a partir de dados observados em campo. Esses dados sobre os quais tiram-se conclusões, procedem de dois modos: enumeração e mensuração. MEYER (1976). a) ENUMERAÇÃO. Este se caso limita a coletar dados dos atributos estudados, na base da ausência ou presença. Por exemplo: se fizéssemos um levantamento de plantas de Pinus spp portadores de fox tail (rabo de raposa), simplesmente enumeraria-se o número de plantas com esse tal defeito nas unidades amostrais. b) MENSURAÇÃO Nesta segunda parte, diretamente ligada à mensuração florestal, pelo fato de que as observações referem a intensidades de uma grandeza contínua. Por exemplo: altura, volume, DAP, fator de forma, etc. Vale a pena salientar que em qualquer dos dois casos, a coleta de dados deve ser a mais compreensível e rigorosa possível, pois uma coleta malfeita de um ou mais dados, pode modificar completamente as conclusões de um levantamento, acarretando sempre desvantagens para o técnico responsável por tal levantamento. Dois conceitos básicos da Estatística Descritiva também devem ser comentados: população e amostra. Em termos de conceituação, população é um conjunto de indivíduos de mesma natureza, mas que diferem quanto ao atributo, isto é, pode-se ter uma população de arvores, mas dentro desta população os indivíduos diferem em suas características. Por exemplo, altura, volume, etc. MEMÓRIA (1973). Em termos de amostragem, pode-se concluir que população ou universo é o conjunto global dentro do qual lança-se um conjunto parcial (unidades amostrais ou parcelas), onde os dados são coletados para se chegar a conclusões globais. Como exemplo, poder-se-ia considerar um povoamento volumétrico. Assim sendo, a população seria os 3.000ha de Eucalyptus spp. e a amostra seria composta por exemplo, de 20 unidades amostrais de 0,5 ha cada, nas quais coletar-se iam os dados necessários, calcular-se ia qual o número mínimo 2 de unidades amostrais representativo daquele local, para assim chegar-se a conclusões sobre o volume da população a um determinado nível de probabilidades. Em termos gerais uma população pode ser considerada finita quando o numero de elementos da mesma é contável e infinita quando não se pode determinar o número de elementos que compõem a mesma. Mas, em termos de amostragem, uma população é considerada finita, quando os números de unidades amostrais (n) lançado dentro da população é igual ou superior a 5% do número total de unidades amostrais (n) cabíveis dentro da população. Ex: Considerada que em 100 ha uma determinada espécie florestal, fossem lançadas mais de 5 unidades amostrais da 1 ha cada, o numero total de unidades amostrais (N) cabíveis na população seria 100 e poderia-se ter lançado 8 unidades amostrais (n) dentro da população, tendo-se, pois, n >5%N, e se fossem lançadas a população seria finita. Já na população infinita o valor de n é inferior a 5% de N. Mesmo sendo um exemplo muito hipotético, poder-se-ia considerar cada árvore como uma unidade amostral na região amazônica, o que seria praticamente impossível calcular o N, ou no caso anterior fazer uma amostra de tamanho 4 (n<5%N). Sabe-se que as características de uma população são expressas através de certos valores, denominados de “parâmetros”.Como na prática, por motivos de tempo, custos, etc, se torna inviável medir característica desejada em todos os indivíduos componentes da população, no caso unidades amostrais, o que se faz é estimar tal característica em um certo número de amostras, sendo que as medidas que estimam tal característica são denominadas de “estatísticas”, que tanto podem ser medidas de posição ou de variação.Os parâmetros são representados por símbolos do alfabeto grego, enquanto que as estatísticas são representadas por símbolos do alfabeto latino. MEMÓRIA (1973). Os valores que forem coletados nas amostras sendo de população, são considerados como variáveis que podem ser “discretas” e “contínuas”. Uma variável é considerada discreta quando esta sempre é um número real absoluto. Ex: número de cones numa árvore de pinus, número de árvores numa parcela ou população, etc. Já a variável contínua pode assumir valores decimais. Ex: altura de uma árvore, DAP, volume, etc. Todos estes valores (dados) que foram coletados numa população ou amostra podem ser representados de três formas: tabelas, gráficos e forma aritmética (medidas de posição e dispersão) SPIEDEL (1968). As duas primeiras maneiras, apesar de suas importâncias, deixarão de ser consideradas no presente trabalho, pelo fato de em mensuração florestal, se trabalhar mais com medidas de dispersão, muito embora gráficos e tabelas ajudarem na representação dos dados. 3 I) MEDIDAS DE POSIÇÃO Neste tipo de medida, calcula-se um valor central em torno do qual se acumulam os dados observados. Entretanto, em muitos casos, esse valor central não está bem definido e pode ser considerado de várias maneiras, cada uma das quais descrevem uma propriedade dos dados que podem ser razoavelmente chamadas de tendência central SILVA (?). As medidas de tendência central mais comumente empregadas são: Moda, Mediana e Média Aritmética. 1) MODA: Em uma distribuição de dados, a moda representada por mod, é o valor da variável que corresponde à maior freqüência observada, isto é, o valor mais frequente, daí seu nome. Ex: O quadro a seguir se refere a diâmetros (cm) coletados em um determinado povoamento de Pinus spp na idade de 3 anos. Diâmetro (d) 6 7 8 9 10 11 12 13 Freqüência (f) 3 4 6 8 10 9 5 7 Neste caso o d mod seria igual a 10, porque apresentou maior freqüência. Mas, se, por exemplo, o d =11 também tivesse f =10, essa distribuição de diâmetros seria bimodal, e assim sucessivamente. Um caso contrário pode também ocorrer se, por exemplo, fosse medida ou estimada a altura de 20 árvores e nenhuma altura se repetisse, teria-se, então, um caso em que mesmo com 20 mensurações não se poderia definir uma moda. Segundo Burger (1976), a moda caracteriza uma maneira primitiva da distribuição normal dos diâmetros de plantios puros equiâneos; para florestas nativas ou florestas em regime de talhadia, a moda não é um valor característico, não servindo, pois para cálculos. 2) MEDIANA: A mediana (M) é uma medida de posição central em torno da qual o número de dados com valores inferiores a ela é igual ao número de dados com valores superiores a ela. É afetada pelo número de itens e não pela grandeza dos valores extremos, o que pode ser uma vantagem, quando a distribuição dos dados não for normal, mas sim assimétrica.SPIEDEL (1948). Podem-se considerar 4 casos de emprego de mediana: 4 a) A variável em estudo é discreta ou contínua, e o número de dados observados (n) é ímpar. Neste caso a mediana será o valor da variável que ocupe a posição n + 1/2. Ex: Altura média (m) de árvores em 9 amostras de 10 árvores cada. AMOSTRA 1 2 3 4 5 6 7 8 9 Alt. Média (m) (h) 18,5 16,0 20,3 22,0 15,8 14,0 23,2 17,1 19,0 Neste caso torna-se importante o agrupamento dos dados na ordem crescente. h (m) 14,0 15,8 16,0 17,1 18,5 19,0 20,3 22,0 23,2 Então, a mediana será o valor colocado na ordem 9+1=10=5, isto é, 18,5m.2 2 b) A variável em estudo é discreta ou continua e o número de dados (n) é par. Neste caso a mediana será o valor compreendido entre os valores que ocupam as posições n/2 e n + 2. 2 Ex: Adicionar ao caso 1, mais uma observação. h (m) 14,0 15,8 16,0 17,1 18,5 5 19,0 20,3 22,0 23,2 24,0 Assim sendo, tem-se: 2 n = 2 10 = 5 e 2 2n = 2 210 = 6 Será, pois, a mediana (hm), o valor médio das observações 5 e 6. hm = 2 0,195,18 = 2 5,37 = 18,75m c) Os valores dos dados estão agrupados por freqüência, podendo o número de observações (n) ser par ou ímpar (casos a e b). Ex: Considerar o mesmo exemplo com as freqüências que se seguem: h (m) F f ` 14,0 15,8 16,0 17,1 18,5 19,0 20,3 22,0 23,2 24,0 1 2 4 1 6 3 2 2 2 1 1 3 7 8 14 17 19 21 23 24 TOTAL 24 137 Neste caso como n é par, ter-se-á que encontrar os valores 2 n e 2 2n . Então: 2 n = 2 24 = 12 e 2 224 = 13 A mediana será o valor médio das observações 12 e 13. Como até 17,1 temos 8 observações e até 18,5 temos 14, as observações 12 e 13 estão contidas na h = 18,5 que será a mediana. 6 Aos valores dos dados estão agrupados por classes e por freqüências, podendo o número de observações (n) ser ímpar ou par. Ex: Os dados abaixo, referem-se à mensuração de diâmetros (cm), classificados em classes diamétricas com amplitude (a) de 2 cm. COCHAN (1977). di F f ´ 2 4 6 8 10 12 14 16 18 20 22 24 2 30 204 313 339 297 171 83 45 9 1 1 2 32 236 549 888 1185 1356 1439 1484 1493 1494 1495 1495 O dm será calculado da seguinte maneira: 2 1n = 2 11495 = 748 Então, o diâmetro mediano será considerado o da árvore na aposição 748, ocorrendo, pois, 747 árvores com diâmetros menores a 747 com diâmetros maiores que a mediana. Assim sendo, até o diâmetro 8,99 tem-se 549 árvores e até 10,99 tem-se 888 árvores. Então, por interpolação, calcula-se o diâmetro da posição 748. dm = 8,9 + x Se em 2 cm de amplitude (10,9 – 8,9) existem 339 árvores (888 – 549). x cm de diâmetro corresponde a 199 árvores (748 – 549). x = 2* 339 199 = 1,17 cm Então, dm = 8,9 + 1,17 = 10,07 cm. Falta mediana por classe 7 3) MÉDIA ARITMÉTICA: A média aritmética é igual a soma de todos os dados coletados, dividida pelo número total de dados coletados. É representada por x . Ex: Os dados abaixo referem-se a diâmetros (DAP) de 10 árvores coletadas ao acaso num povoamento de Eucalyptus spp. DAP (cm) 13 15 19 22 23 24 28 30 32 33 239 X = n ix n i 1 = 10 239 = 23,9 cm Muito comum também são os casos em que os dados se repetem, isto é, são agrupados por freqüências. Nestes, o cálculo de X é feito da seguinte maneira: Variável (x i _) Freqüência (f i ) f i x i X1 X2 | | | Xn f 1 f 2 | | | f n f 1 x 1 f2 x2 | | | fn xn TOTAIS n i 1 fi = n n i 1 fi xi 8 Onde, X = n i n i if xifi 1 1 * Ex: Supor que no exemplo anterior os dados se repetissem da seguinte maneira: xi fi Fi * xi 13 15 19 22 23 24 28 30 32 33 3 4 6 8 10 10 8 5 3 2 39 60 114 176 230 240 224 150 96 66 TOTAIS 59 1395 Então, X = 59 1395 = 23,6 cm. Podem ocorrer casos em que além de agrupados em freqüência, os dados podem estar agrupados em classes. Ex: Os dados abaixo se referem à mensuração de DAP (cm), agrupados em classes de amplitude de 3 cm. Classes F Xc d F*d 3 – 6 6 – 9 9 –12 12 –15 15 –18 18 – 21 21 –24 3 6 8 12 11 7 2 4,5 7,5 10,5 13,5 16,5 19,5 22,5 -3 -2 -1 0 +1 +2 +3 -9 -12 -8 0 11 14 6 TOTAIS 49 2 9 Onde: – = indica que a classe vai até um número inferior ao que vem depois do sinal; f = freqüência; Xc = valor central da classe; D = valores codificados, onde a classe mediana geralmente é considerada como sendo zero. No caso de número par de classes, a escolhida como zero será a de maior freqüência. Assim sendo X = a * X + X Onde: a = amplitude da classe (3 cm) X = f fd i Xo = valor central da classe considerada zero. Então: X c = 49 2 = 0,04 X = 3 * 0,04 + 13,5 = 13,62 cm. Duas propriedades da média aritmética devem ser consideradas, uma vez que elas ajudam no cálculo das medidas de variação. 1) A soma algébrica dos desvios entre os valores de variável X e a sua média X é nula, isto é : n i X 1 ( i - X ) = 0 n i 1 ( Xi - X ) = n i 1 Xi – n X = n i 1 Xi – n n X n i i 1 = n i 1 Xi - n i 1 Xi = 0 10 2) A soma dos quadrados dos desvios em relação a média da amostra é mínima. Então a melhor estimativa de tal média proveniente de uma amostra de população, é a própria média de amostra, pois sendo esta adotada como melhor estimativa do valor real, o número representativo desta é que torna a soma de quadrados dos desvios mínimo.PIMENTEL GOMES (1970). Então, n i 1 ( Xi - X ) 2 = mínima = n i 1 Xi2 – 2 X n i 1 Xi + n X 2 = n i 1 Xi2 – 2 * n Xi n i 1 * n i 1 Xi + n * n Xi in i 1 = n i 1 Xi2 – 2 * n Xi in i 1 + n Xi in i 1 = n i 1 Xi2 - n Xi in i 1 Isto quer dizer que se for calculada a soma dos quadrados dos desvios das variáveis em relação a outro valor qualquer diferente da média da distribuição, o resultado final será sempre um valor superior ao encontrado em relação à média. Pode-se também, provar tal afirmação se forem considerados os desvios em relação a um valor qualquer (a). n i 1 (Xi – a)2 = Z a z = 2 n i 1 (Xi – a) ( -1 ) = 0 -2 n i 1 (Xi – a) = 0 n i 1 (Xi – a) = 2 0 n i 1 (Xi – a) = 0 11 n i 1 Xi – na = 0 na = n i 1 Xi a = n Xi in i 1 a = X Provando, pois, que o número que torna a soma de quadrados dos desvios mínimo, será sempre a média. 4) OUTRAS MEDIDAS DE POSIÇÃO Mesmo sendo a média aritmética a medida de posição mais comum e mais usada, nem sempre a mesma satisfaz a representação dos dados. Em alguns casos ela pode ser substituída pelas médias geométrica e harmônica. a) MÉDIA GEOMÉTRICA A média geométrica de n itens é MG = n XnXX *...*2*1 , sendo que quando há apenas dois itens X1 e X2 , a média geométrica é a raiz quadrada do seu produto, MG = 21 * 1 XX . Ela pode ser calculada achando-se o anti-logaritmo da média aritmética dos logaritmos dos valores, log MG = n 1 j i 1 log Xi , não podendo, portanto, ser determinada quando há valores nulos ou negativos(29). Este tipo de média é mais apropriado quando se deseja promediar quantidades que seguem uma progressão geométrica ou lei exponencial. Na parte de mensuração florestal esta média é utilizada em estudos de tabelas volumétricas, precisamente na parte de comparação de modelos volumétricos de naturezas distintas, através do Índice de Furnival. LOETCH HALLER (1964). Pode também ser utilizada em levantamentos populacionais da fauna, principalmente, entre dois levantamentos, quando se deseja conhecera população intermediária, pois a média geométrica é uma melhor estimativa que a média aritmética pelo fato da população não aumentar anualmente na mesma quantidade. b) MÉDIA HARMÔNICA A média harmônica (MH) de uma série de dados é o recíproco da média aritmética dos recíprocos (inversos) desses valores. 12 M H = j i x n 1 1 ( Ex: Suponhamos que a produção de madeira em m3 de um povoamento de Eucalyptus spp no final de 3 rotações de 6 anos cada, sob regime de talhadia, tenha sido de 240 m3.Na primeira rotação a produção foi de 100 m3, na segunda 80 m3 e na terceira 60 m3. Qual seria a produção média deste hectare? Se tomássemos a média aritmética teríamos: X = 3 6080100 = 80 m3/ha/rotação, o que não é uma resposta correta. Entretanto, empregando a média harmônica, obteremos o seguinte resultado: MG = 60 1 80 1 100 1 3 92,76 039,0 3 m3/ha/rotação A média harmônica é melhor que a média aritmética neste caso, pelo fato de que mesmo sendo constante o período de rotação silvicultural, as produções foram viáveis. II) MEDIDAS DE DISPERSÃO Um conceito de importância básica na estatística é o termo variação, pois como se sabe, os métodos estatísticos podem ser denominados de estudo da variação. Se se considerarem que dois povoamentos florestais produziram em média, por exemplo, 120 m3/ha/ nos mesmos períodos de rotação, poder-se-ia concluir que eles seriam semelhantes, caso fosse tomada somente uma medida de posição, no caso a média aritmética, o que certamente seria uma conclusão errônea, pois um dos povoamentos poderia ter produzido tal quantidade média de madeira sem muita variação, enquanto que o outro poderia ter produzido a mesma quantidade média de madeira com grandes variações. Assim sendo, agregando-se uma medida de posição a uma da variação, logicamente estar- se-á dando uma maior exatidão às conclusões. As medidas de dispersão ou variação mais conhecidas são: amplitude, variância, desvio, erro padrão da média e coeficiente de variação e limite ou intervalo de confiança. a) AMPLITUDE A amplitude, representada por a, refere-se à diferença existente entre o maior e o menor valor dos dados coletados, sendo, pois, a mais simples medida de variação. 13 Se por exemplo, no caso anterior, onde os dois povoamentos produzirem uma média de 120 m3/ha no mesmo período de rotação e se a esta medida de posição estivesse associada à amplitude, pelo menos já se teria uma idéia da variação ocorrida nos dois povoamentos, o que daria uma maior oportunidade de conhecer a heterogeneidade dos povoamentos. Entretanto, a amplitude não é uma medida satisfatória de variação, pelas seguintes razões: 1a – No seu cálculo considera-se apenas os dois valores extremos, sem considerar a variação dos valores intermediários. 2a – Seu valor tende a crescer com o aumento de observações, viciando a comparação das variações de dois grupos de diferentes tamanhos. Mas, devido à facilidade de cálculos, o emprego da amplitude pode ser razoável para um pequeno número de observações. b) VARIÂNCIA A variância S2 é definida como sendo a média dos quadrados dos desvios, e não a média dos desvios, pois se sabe que a soma dos desvios é igual a zero. Então elevando-se os valores dos desvios ao quadrado pode-se calcular a variância, que é expressa por: S2 = 2 1 N XX n i i Como na prática, a média verdadeira não é conhecida, mas sim estimada pela estatística X , há necessidade de se substituir o N na fórmula por N – 1 tendo-se, pois o princípio de grau de liberdade, tornando a fórmula em: S2 = 2 1 1 N XX n i i O princípio do grau de liberdade, baseia-se no fato de que não se conhecendo a média verdadeira , e fazendo-se cálculo de S2 a partir de uma estimativa X , equivale exatamente à perda de uma observação. RAY (1978). Outra maneira de tentar explicar o principio do grau de liberdade é a seguinte: supondo-se que se vá sortear casualmente, sem reposição, 10 unidades amostrais em uma determinada área. No primeiro sorteio, a chance de qualquer unidade amostral ser sorteada é a mesma, pois tem-se 10 opções de escolha. Depois de sorteada a primeira, no segundo sorteio passa- se a ter 9 opções e assim sucessivamente. Quando só restarem duas parcelas e uma delas for sorteada, na última já não se tem mais opção de escolha, sendo, pois o número de opções igual a 9, isto é, N – 1. 14 Outra maneira de conceituar graus de liberdade é a seguinte; considerando-se um grupo “n” de observações e fixando-se uma média para este grupo, existe a liberdade de escolher os valores numéricos de n observações; o valor da última observação estará fixado, atendendo ao requisito de ser a soma dos desvios da média igual a zero. SILVA (?). Assim sendo, a fórmula de aplicação da variância é expressa da seguinte maneira: S2 = 2 1 1 2 2 1 11 N N X X N XX n i in i i n i i Ex: Supondo-se que nos dois povoamentos anteriores, onde as produções médias foram 120 m3/ha no período de rotação, obteve-se os seguintes dados em cinco unidades amostrais para cada povoamento, sendo que cada unidade amostral ou parcela, possuía a área de 1 hectare. No da Parcela m 3/ha no período de rotação Povoamento I Povoamento II 1 2 3 4 5 100 120 120 140 120 80 90 100 130 200 TOTAL 600 600 X 120 120 As variâncias dos povoamentos I e II seriam: S 21 = 4 5 600 120...120100 2 222 = 4 5 360000 72800 = 200 S 22 = 4 5 600 200...9080 2 222 = 4 5 360000 81400 = 2350 O que prova que o povoamento I é muito mais homogêneo em termos de produção que o povoamento II. Outra maneira que também pode ocorrer para cálculo de variância é quando o número de dados vem agrupado por freqüência, isto é, um ou mais dados podem ocorrer uma ou mais vezes. 15 Exemplo. Considerar que no povoamento II do exemplo anterior as produções ocorram nas seguintes freqüências: Observações (X) f f *X f * X2 80 90 100 130 200 3 4 6 5 1 240 360 600 650 200 19200 32400 60000 84500 40000 TOTAL 19 2050 236100 Neste caso, a formula de variância é dada por: S2 = 2 1 1 1 12 1* * n i n i n i n i f f fX Xf Então : S2 = 2 13 19 2050 236100 = 828,65 c) DESVIO PADRÃO É uma medida de variação muito utilizada pelo fato de que permite a interpretação direta da variação dos dados, pois o mesmo é expresso nas mesmas unidades de medição (kg,m, cm, etc) que na tomada dos dados, além de permitir estimar a variação não controlada, isto é, ocorrida ao acaso. O desvio padrão (S) é expresso como sendo a raiz quadrada da variância. S = 2S Para dados sem repetição: S = 2 1 12 1 1 N N X X n i n i i Para dados agrupados em freqüência: 16 S = 2 1 1 1 1 2 1 1 * * n i n i n i in i f f Xf Xf Nos dois exemplos de variância obter-se-iam os seguintes desvios: Ex 1= S1 = 200 = 14,14 m3/ha S2 = 2350 = 48,47 m3/ha Ex 2 = = 65,828 = 28,78 m3/ha. Como em mensuração florestal é muito comum o dado, além de serem agrupados por freqüência, ainda são agrupados por classes diamétricas ou de alturas, convém demonstrar como se calcula o desvio padrão (S) para este caso. S = a * Sc Onde: S = desvio padrão a = amplitude de classe Sc = desvio padrão codificado Ex: Os dados que seguem, referem-se a medidas de alturas de árvores, em classes de 2 m . Classes f d fd fd2 8 10 10 12 12 14 14 16 16 18 18 20 20 22 10 20 21 32 22 18 13 -3 -2 -1 0 +1 +2 +3 -30 -40 -21 0 22 36 39 90 80 21 0 22 72 117 TOTAL136 6 402 17 O desvio padrão codificado é dado por: Sc = n i n i n i n i f f df df 1 1 1 12 1 * * Então: Sc = 135 136 6 402 2 = 1,72 m. Onde: S = a * Sc = 2*1,72 = 3,44 m. Para o cálculo de variância de dados agrupados por freqüência e classes, basta elevar o desvio padrão ao quadrado. Em casos em que se vão mensurar grandes amostras (n > 30), o desvio padrão é um indicador dos prováveis limites dentro dos quais se situam certas proporções das observações.Verifica-se que cerca de 68% das observações do grupo estará entre os limites de X S; 95 % das observações entre X 2 S: e 99% das observações entre X 3 S. - DISTRIBUIÇÃO NORMAL DA VARIÁVEL X 5) ERRO PADRÃO DA MÉDIA Se por exemplo se coletassem n amostras de j produções de madeira em m3/ha ,ter-se-ia diversas estimativas para a média e com elas poder-se-ia calcular um novo desvio padrão que seria o erro padrão da média(S X ), que dá uma idéia da precisão de estimativa para a média obtida ( X ). Tal erro padrão da média é expresso por: S X = n S 2 = n S Em dados agrupados por freqüência: 18 S X = n i n i f S f S 11 2 Em dados agrupados por freqüência e classes: S X = n i n i f Sca f S 11 2 * 6) COEFICIENTE DE VARIAÇÃO. O coeficiente de variação significa o desvio padrão expresso em porcentagem da média, sendo estimado da seguinte maneira: Se para X ocorre um desvio S Em 100 ocorrerá um C.V. Donde: CV = 100* X S Como o coeficiente de variação é expresso por um número que independe das unidades usadas, pois o mesmo é adimensional, ele dá condições de se compararem variáveis de naturezas distintas.Por exemplo, desejando-se verificar se existe maior variação nos diâmetros ou alturas de um determinado povoamento, o coeficiente de variação seria a estatística que permite fazer tal comparação. O coeficiente de variação permite que se tenha idéia da distribuição dos dados, pois quanto mais baixo o coeficiente de variação, maior é a homogeneidade dos dados observados. Pimentel Gomes (1970), classifica os resultados de coeficientes de variação da seguinte maneira: <10 % baixo 10 a 20% médio 20 a 30% alto >30% muito alto. 7) Limite ou Intervalo de Confiança 19 O limite de confiança L.C ou I.C, é de fundamental importância, pois as estimativas geralmente são expressas através da média, com uma probabilidade associada.Então, o limite ou intervalo de confiança descreve os limites dentro do qual um parâmetro da população é esperado ocorrer a um determinado nível de probabilidade. MACIEL (1974). O limite de confiança é representado por: Tα X ±tα s X Onde: X = média aritmética das observações t = valor tabelado a um nível de probabilidades s X = erro padrão da média. O princípio do limite de confiança parte da distribuição de t. P 1t XS X t Onde é o nível de probabilidade escolhido, e t um valor tabelado. Assim, tem-se: t XS X t -t XS* X - XSt * - X - t XS* X + t XS* Multiplicando por (-1) X + XSt * X - t XS* Então: P 1*** XStXXStX O que indica que a média verdadeira da população deverá ocorrer no espaço X XSt * a um nível de probabilidade . Então, o limite de confiança é representado por: 20 X XSt * ou X t * N S Exemplo: Considerando-se que foram estimadas alturas de 30 árvores e achou-se uma média aritmética X =18,5 m com um desvio padrão S = 1,6 m. Qual seria o limite de confiança para a média verdadeira a nível de 1% de probabilidades? X = 18,5 m S = 1,6 m N = 30 t (1% , 29 G. L) = 2,76. Então: 18,5-2,76 * 30 6,1 *76,25,18 30 6,1 18,5 - 0,8 8,05,18 17,7m m3,19 Indicando que deve estar próximo de X = 18,5 , mas podendo variar de 17,7m a 19,3m a nível de 1% de probabilidades. Outros Conceitos Básicos. Quando se quer lançar resultados de um levantamento florestal, a parte final do trabalho é feita em termos de limite de confiança, X XSt * . Sabe-se que S X = n S 2 ; mas ,em termos de populações finitas , a relação entre o número de unidades amostrais lançadas e o número total de amostras cabíveis na população , no caso a fração de amostragens n/N, deve ser considerada (DRESS, 1959; FURNIVAL,1961; SILVA,1977). Assim sendo, o erro de amostragem se deve à parte que não foi incluída no inventário, ou seja, a fração N n 1 .Medindo-se todas as unidades amostrais, esta fração seria zero, porque n = N (CAMPOS, 1974).Então este termo N n 1 pode ser considerado como sendo um fator de correção(f) para populações finitas,sendo no caso n≥5% de N. 21 Quando se faz uma amostragem muito pequena, o valor de f tende para 1, sendo que quando multiplicado ao S X ,logicamente não altera os resultados,significantemente. Assim sendo, em populações finitas, o erro padrão da média deve ser multiplicado pelo fator de correção, resultando em: S X = N n n S f n S 1* 2 Se, por exemplo, se tomassem 10 unidades amostrais em 300, o valor de f seria: f = 97,0 300 10 1 ≈1 Que quando multiplicado a S X , praticamente,não alteraria nada. Mas, se nessa população cujo N = 300, fossem tomadas 30 unidades amostrais, o resultado já seria um pouco modificado. Considere que neste segundo caso o erro padrão da média fosse 2,6 sem considerar o fator de correção. Considerando-se o mesmo, ter-se-ia: f = 9,0 300 30 1 Então: S X c = 2,6 * 0,9 = 2,34 Onde: S X c = erro padrão da média corrigido. Podem ocorrer casos em que o número de unidades amostra passa a ser difícil de se determinar, principalmente, quando se trabalha com unidades amostrais sorteadas com reposição, isto é, uma unidade amostral pode ser sorteada mais de uma vez. Mas, em Inventário Florestal, se faz amostragem sem reposição, o que dá condições de caracterizar, quando é ou não finita. 2. TESTES DE HIPÓTESES E SIGNIFICÂNCIA. Tais testes são critérios objetivos que auxiliam o experimentador na tomada de decisões FREESE (16). 22 Na tomada de decisão, se faz necessário à formulação de hipóteses ou suposições sobre a população que esta sendo estudada. Tais hipóteses são formuladas com o objetivo de aceitá- las ou rejeitá-las em função da suposta distribuição de probabilidades da população e da margem de erro (nível de significância) que se julgue aceitável. Então, duas hipóteses podem ser consideradas: H0 = hipótese de nulidade H1 = hipótese alternativa A hipótese de nulidade, ou hipótese básica da estatística experimental, é aquela que, “à priori’, se admite que não deve existir diferença significativa entre os tratamentos estudados, isto é, são semelhantes. Já a hipótese alternativa é aquela que admite que existe diferença significativa entre os tratamentos estudados”. Muitas vezes, ao se lançar uma hipótese para uma determinada população, pode-se obter resultados diferentes da hipótese proposta, não pelo fato de que H1 ou H0 tenha ocorrido, mas sim por causa de uma interpretação incorreta dos resultados, provenientes de uma coleta de dados errada, ou mesmo de erros de cálculo. Quando isto ocorre, estão sendo cometidos erros que são classificados como do tipo I ou e tipo II ou . O quadro que se segue, mostra em quais condições pode ocorrer tais erros. Aceita H0 ou Rejeita H1 Rejeita H0 ou Aceita H1 H0verdade ou H1 falsa Decisão correta Erro I ou H0 falsa ou H1 verdade Erro II ou . Decisão Correta Tais erros ocorrem a não se pode eliminá-los, completamente; mas, uma maneira de se reduzi-los é aumentar otamanho da amostra. - Nível de significância. Corresponde à probabilidade máxima de ocorrer um erro do tipo I ou .Tal probabilidade( ) geralmente é menor que 0,1, sendo que quanto menor for , maior é a probabilidade de se tomar uma decisão correta. - Testes unilaterais e bilaterais. Quando se obtém valores que podem ocorrer em ambos os extremos da curva de Gauss, e se quer comparar estes valores, o teste empregado será bilateral. No caso de se considerar 23 só um dos lados da referida curva, utiliza-se um teste unilateral. O emprego destes testes está ligado á hipótese alternativa adotada, que por sua vez é função da questão especifica a ser julgada. Considere-se o seguinte exemplo: Num povoamento de Eucalyptus spp, o incremento médio anual num período de 8 anos, foi de 20 m3 . Com base numa amostra de tamanho n, como decidir se a amostra pertence ou não à espécie considerada,a um nível de significância? Considerando-se um nível de significância = 0,05 , a representação gráfica da regra de decisão para este teste bilateral seria: Onde a área de – A até A, corresponde à região de aceitação de H0 e a área hachuriada é denominada de região crítica ou de rejeição. A soma das duas áreas extremas corresponde a 0,05 que é o nível da significância do teste. Então, a H0 seria rejeitada se a estimativa da média (obtida a partir da amostra), fosse maior que A ou menor que –A. Supondo-se que tal espécie apresente um incremento médio anual superior a 20 m3, a hipótese ideal seria: H0 = 20 m3 versus H1 = m >20 m3 Considerando-se = 0,05 de significância, ter-se-ia: Onde, rejeitar-se-ia H0 se Am Poder-se-ia também supor que tal variedade possuísse um incremento médio anual menor que 20 m3. Considerando-se o mesmo nível de significância, ter-se-ia: Rejeitando-se H0 caso m < -A. - Teste de F e V Segundo PIMENTEL GOMES (1970), o teste básico para a análise da variância é o teste de Z, substituído atualmente pelos seus equivalentes F de Snadecor ou V de Brieger, sendo que ambos comparam variâncias ou desvios padrões. Se 221 SeS são as estimativas das variâncias a comparar,tem-se: F = FVonde S S V S S ,, 1 2 2 1 24 Como 221 eSS são maiores ou iguais a zero, ter-se-á sempre F≥ 0 . Na maioria dos casos, 22 1 SS obtendo-se pois, valores tabelares maiores que 1, muito embora ocorram caos em que a situação se inverta, isto é , S2 > 21S . Em termos de análise da variância os valores de F e V são calculados respectivamente por: F = resíduoMQ tratamentoMQ V resíduoMQ tratamentoMQ .. .. , .. .. Como geralmente os valores de F são maiores que 1, na maioria dos casos o emprego do teste é unilateral, porque somente se avalia a probabilidade de se ter valores maiores ou iguais ao F obtido. Mas, às vezes, podem ocorrer casos em que não se pode prever qual o maior valor estimado, 221 ouSS . Então, nestes casos, deve-se empregar os testes bilaterais, que considera ambas as possibilidades, isto é: 22 1 SS → 12 2 1 S S ou 221 SS → 12 2 1 S S Nos quadros de analise da variância, geralmente ocorre que os quadrados médios de tratamentos são maiores que quadrados médios de resíduos, justificando-se o uso de testes unilaterais. Considere-se o exemplo seguinte: FV GL SQ QM F V Tratamentos Resíduo 4 20 1980 622 495,0 31,1 15,91** 3,98** TOTAL 24 2602 Os valores calculados de F ou V no quadro da analise da variância devem ser comparados com os valores de f ou V tabelados, que são calculados em função dos graus de liberdade de tratamentos (n1) e resíduo (n2). Quando o valor de F calculado for menor ou igual ao valor de F tabelado, há uma indicação de que não ocorrem diferenças significativas entre os tratamentos no nível de significância considerado. Neste caso, coloca-se um n.s. como expoente do valor de F calculado no quadro de análise da variância. Quando o valor de F calculado for maior que o valor de F tabelado considerando = 0,05, em vez do n.s., coloca-se um asterisco (*) como expoente do valor de F calculado, indicando que pelo menos dois tratamentos devem diferir entre si. No caso de se considerar = 0,01, coloca-se dois asteriscos (**) ao lado de F calculado, indicando que existe diferença altamente significativa entre pelo menos dois tratamentos a nível de 1% de probabilidades. 25 Para o exemplo considerado, os valores de F e V tabelados a níveis = 0,05 e = 0,01,são respectivamente: F0,01 = 4,43 F0,0 5= 2,87 F0,0 1= 2,10 F0,05= 1,69 Indicando que ocorre diferença altamente significativa a nível de 1% de probabilidades, pelo menos entre dois tratamentos. Supondo-se que Q.M. tratamento = 31,1 e Q.M resíduo = 495, 0, ter-se-ia: F = 062,0 0,495 1,31 * Aconselhando-se o uso do teste bilateral para F < 1, onde os valores seriam: 5% ..............0,117 1% ..............0,050 No caso de valores de F < 1, a interpretação da significância é o inverso da anterior, isto é, quando o valor de F calculado for menor que o F tabelado, ocorrem diferenças significativas entre os tratamentos, e vice-versa. Daí poder-se-ia concluir que ocorreria diferença significativa ao nível de 5% de probabilidades, mas não ocorrendo ao nível de 1%, pois neste caso a área de aceitação de H0 aumentaria, isto é, seria maior que a nível de 5% de probabilidades. São raros os casos em que se obtêm valores de F calculado menores que 1. Quando isto ocorre, geralmente é devido a erros de cálculos, ou o resíduo inclui alguma fonte de variação que foi controlada, mas não foi isolada da análise da variância. Quando em um quadro da análise da variância, ocorre um F significativo, indica que há necessidade de um teste de separação de médias, pois pelo menos duas delas devem diferir. Os testes de F ou V poderão ser considerados como testes de separação de médias, no caso de o experimento conter somente dois tratamentos. - Teste de t Teste usado na comparação de médias, ou contrastes de médias. Para a aplicação do teste de t, dois requisitos básicos devem ser obedecidos: a) Os contrastes devem ser estabelecidos antes de serem examinados os dados (estabelecidos à priori). 26 b) Os contrastes devem ser ortogonais, e no máximo devem existir tantos contrastes quantos forem os graus de liberdade para os tratamentos. Ex: Num experimento com 5 tratamentos, pode-se ter no máximo 4 contrastes ortogonais, porque o número de graus de liberdade de tratamentos é 4. Diz-se que um contraste é ortogonal quando as médias que nele ocorrem são iguais, isto é, m1 = m2 = m3 = m4 = m5. Então, num contraste ortogonal, a soma dos coeficientes das médias deve ser nulo. Y1 = m1 + m2 + m3 – m4 – 2 m5 1 + 1+ 1 – 1 – 2 = 0 Dois ou mais contrastes são ortogonais, quando o produto escalar 21 * é nulo. Y1 = m1 – m2 Y2 = m1 + m2 - 2m3 Então os coeficientes são: 0011* 21;1 1;1 21 2 1 Neste caso, o contraste Y1 é ortogonal ao Y2. Generalizando: Y1 = a1 m1 + a2 m2 + ... + an mn Y2 = b1 m1 + b2 m2 + … + bn mn Então: 1 naaa ;...;; 21 2 nbbb ;;...; 21 1 *2 = n nn j ba j ba j ba ... 2 22 1 11 Quando o número de repetições for diferente por tratamentos deve-se ter: n nn j ba j ba j ba ...* 2 22 1 11 21 Ex: Verificar se os contrastes que se seguem são ortogonais: 27 Y1 = 3 m1 – 2 m2 – m3 Y2 = m2 – 2 m3 + m4 Sabendo-se que, m1 teve 3 repetições, m2 teve 4 repetições, m3 teve 4 repetições e m4 teve 5 repetições. Então: 00 4 2 4 2 0 5 1 : 4 2 : 4 1 :0 0: 4 1 : 4 2 : 3 3 21 2 1 O que indica que os contrastes são ortogonais. O termo ortogonalidade significa que a variação de um contraste é completamente independente de outro contraste que lhe seja ortogonal.Num experimento com 3 médias, pode-se obter dois contrastes ortogonais: Y1 = m1 – m2 Y2 = m1 + m2 – 2 m3. Contrastes com outros coeficientes para as médias, também podem ser considerados: Y1 = m1 – m3 Y2 = - m1 +2 m2 – m3. Os valores reais de m1, m2, m3, isto é, as médias verdadeiras não são conhecidas, mas sim estimadas por 321 ˆˆ,ˆ memm . O teste de t no estudo de contrastes é expresso por: t = 1 1 ˆ 0ˆ YS Y A fórmula do cálculo de S( 1Y ) é expresso por: S YVY ˆˆ1̂ 28 Onde: YV ˆˆ = 2 2 2 2 2 1 2 1 ... S j a j a j a n n Sendo: ai = coeficientes das médias no contraste ji = número de repetições por tratamento S2 = variância dos dados observados. Ex: Considerando que as estimativas das médias de 3 tratamentos com o mesmo número de repetições (3) foram: 0,24ˆ;1,22ˆ;0,28ˆ 321 mmm Admitindo-se que o desvio padrão foi 2,0, com 6 graus de liberdade, verificar se o contraste Ŷ 1 = 2 321 ˆˆˆ mmm é significativo a nível de 5% de probabilidades: Ŷ 1 = 2 321 ˆˆˆ mmm Ŷ 1 = 2,28 - 22,1 - 24 = 9,9 Então: t = 2 222 0,2 3 1 3 1 3 2 09,9 t = *5,3 9,2 9,9 Este valor calculado é superior ao valor tabelado a nível de 5% de probabilidades que é de 2,45. Então, diz-se que o contraste difere significantemente das médias do tratamento 2 e 3. No caso de só se querer comparar duas médias pelo teste de t, há duas situações a serem consideradas: a) Amostras não pareadas b) Amostras pareadas Diz-se que as amostras não são pareadas quando além da fonte e variação considerada, podem existir outras. Ex: Comparar duas espécies diferentes de Pinus spp, plantadas em locais distintos. Nota-se que além do parâmetro a ser estudado, que poderia ser volume, altura, etc. ainda pode existir outro tipo de variação proveniente da influencia do tipo de solo, uma vez que são distintos. 29 Já nas amostras pareadas, a única fonte de variação existente deve ser a estudada.No exemplo anterior, para que as amostras fossem pareadas, os dois tipos de solos deveriam ser semelhantes. Para amostras não pareadas, o teste de t é expresso por: t = YS YY ˆ ˆ Sabendo-se que se está comparando só duas médias, pode-se escrever tal expressão da seguinte maneira: t = YS mmmm ˆ ˆˆ 2121 Foi visto que, Y = m1 - m2 = 0, tornando a formula em: t = YS mm ˆ ˆˆ 21 Calculando-se S Ŷ , tem-se: S Ŷ = YV ˆˆ Onde: 21 21 ˆˆˆ ˆˆˆ mVmVYV mmVYV Por que para variáveis independentes, a variância de uma diferença é igual à variância a soma FREESE (1960). Se m1 for calculada com j1 repetições de distribuição normal, N ( 222 ,m ), tem-se: V 21 ˆˆˆ mmVY = 2 2 2 1 2 1 jj Como não se conhece a média verdadeira, os valores de 22 2 1 e são estimados por 2 2 2 1 SeS tornando a expressão em: YV ˆˆ = 2 2 2 1 2 1 j S j S 30 Como a variância deve ser homogênea para toda a distribuição, 222 2 1 SSS Assim sendo, tem-se: YV ˆˆ = 2 21 11 S jj Então: yVyS ˆˆˆ S ŷ = 2 21 11 S jj S ŷ =S 21 11 JJ Onde: t = 21 21 1 ˆˆ jj S mm O valor do desvio padrão associado (S) é calculado através da seguinte expressão: S = 2 ˆˆ 21 1 22 2 1 11 jj mXmX n i n i S = 221 2 2 1 2 1 2 2 1 2 1 1 1 2 1 jj j X X j X X n i n i n i n i O valor -2 no denominador corresponde aos graus de liberdade, onde se perde uma observação em X1 e outra em X2. Ex: Em dois povoamentos florestais de Pinus spp, deseja-se saber se duas espécies distintas de tal gênero, diferem significantemente em termos de produção volumétrica aos 8 anos de idade, sabendo-se que os tipos de solos são diferentes para cada espécie. 31 Considerar um nível de significância 05,0 Espécie A (m3) Espécie B (m3) 160 140 180 165 150 172 184 160 165 158 142 128 133 150 143 144 139 150 120 129 TOTAIS 1634 1383 4,163X 138,3 S = 21010 10 1383 129...126142 10 1534 158...140160 2 222 2 222 S = 18 1,9704,1553 S = 11,85 t = 21 21 1 ˆˆ jj S mm em que: 22 11 ˆ ˆ Xm Xm t = 10 1 10 1 85,11 3,1384,163 t = **7,4 3,5 0,25 O valor de t tabelado com 05,0 e 10 graus de liberdade é igual a 2,1 e para 01,0 é 2,55. Então, pode-se concluir que as duas espécies diferem entre si a nível de 1% de probabilidades. 32 Em casos em que m1 for menor que m2, para o resultado de t, considera-se o valor absoluto. No caso de amostras pareadas, o valor de t calculado provém da seguinte expressão: t = dS d Onde: d = diferença média entre os valores considerados dS = erro padrão das diferenças médias. Neste caso, como as amostras são comparadas duas a duas, o número de repetições para os dois tratamentos deve ser igual. Ex: Considerando uma situação semelhante a anterior, onde as duas espécies distintas estavam plantadas num mesmo tipo de solo. Espécie A (m3) Espécie B (m3) (A – B) 180 128 160 142 165 150 172 174 144 139 192 144 156 142 160 149 160 174 150 120 -12 -16 4 0 5 1 12 0 -6 19 7 7,0 10 71 n d d n i i Sd2 = 2 1 1 2 1 1 n n d d n i in i Sd2 = 110 10 7 19...1612 2 222 33 Sd2 = 678,108 9 9,4983 Sd2 = n Sd 2 S d = 10 678,108 S d = 3,3 t = 3,3 7,0 t = 0,21n.s Como o valor calculado é inferior ao valor tabelado nos diversos níveis de significância, se aceita a hipótese de nulidade H0, aceitando a idéia de que m1 não difere de m2. Isto não quer dizer que sejam iguais, apenas não podemos afirmar que elas sejam diferentes. Vale a pena salientar que nas fórmulas de aplicação do teste, a variância sempre está posicionada no denominador. Então, quanto maior for a variação entre tratamentos, menor será o resultado final do valor de t calculado, onde aumenta a probabilidade de aceitar H0, quando na realidade haveria maior probabilidade de aceitar H1, incorrendo em um erro do tipo ou II. A situação inversa também pode ocorrer FREESE (1970). Este fator constitui uma das limitações do uso do teste de t. - Teste de Tukey. Compara todo e qualquer contraste entre duas médias, sendo baseado na amplitude estudentizada (q). Tal teste é expresso por: ∆ = q yV ˆˆ 2 1 Em que: ∆ = valor máximo em torno do qual se aceita H0, conhecido também como DMS (diferença mínima significativa). q = amplitude total estudentizada, que é um valor tabelado, calculado em função do número de tratamento e graus de liberdade do resíduo: n1 = número de tratamentos a serem comparados e n2 = graus de liberdade do resíduo. yV ˆˆ = estimativa da variância de um contraste. 34 Foi visto que para um diferente número de repetições para os tratamentos de um contraste qualquer, a estimativa de sua variância será: yV ˆˆ = 2 21 11 S jj Numa análise da variância, o valor de S2 é igual ao quadrado médio dos resíduos, sendo, portanto: yV ˆˆ = 21 11 jj QMR Tornando a expressão de ∆ em: ∆ = q QMR JJ 22 11 2 1 No caso de o número de repetições ser o mesmo para todos os tratamentos, tem-se: yV ˆˆ = QMR jj 11 yV ˆˆ = QMRj * 2 Tornando ∆ em: ∆ = q QMR j * 2 * 2 1 ∆ = q j QMR Salienta-se que o teste de Tukey só deve ser aplicado quando o teste de F ou V for significativo, porque pelo menos deverá ocorrer diferença entre duas médias de tratamentos. Ocorrem casos, em que embora tenha ocorrido significância para F ou V, não ocorrem diferenças entre médias pelo teste de Tukey, ou vice-versa. Segundo PIMENTEL GOMES (1970), tais casos são de pouca importância prática, e se devem a diferentes hipóteses nas deduções teóricas. 35 Ex: Em um experimento de competição de 4 espécies de eucaliptos, em termos de crescimento até os 6 anos de idade, o quadro da análise da variância foi o seguinte: FV GL SQ QM F Tratamentos Resíduo 3 16 12,95 3,6 4,32 0,225 19,19** TOTAL 19 16,55 Considerando que cada tratamento teve 5 repetições e que as médias foram: mX mX mX mX D C B A 6,13 0,13 6,12 4,11 Aplicar o teste de Tukey a nível de 1% de probabilidades. Então: ∆ = q j QMR O valor de q com 4 tratamentos e 16 graus de liberdade para o resíduo é igual a 5,19. ∆ = 5,19 10,1 5 225,0 Assim sendo, qualquer diferença entre duas médias que seja superior ao valor 1,10, indica que os tratamentos diferem ao nível de 1% de probabilidades pelo teste de Tukey. A comparação entre as médias pode ser feita de três maneiras, sendo que em qualquer uma delas há necessidade de se organizar as médias na ordem crescente ou decrescente. a) Os tratamentos cujas diferenças entre médias forem inferiores ao valor de ∆, serão unidos por uma mesma letra. bX aX aX aX A B C D 4,11 6,12 0,13 6,13 b) Unir por barras os tratamentos que não diferem entre si. 36 4,11 6,12 0,13 6,13 A B C D X X X X c) Na linha horizontal coloca-se os valores das médias em ordem decrescente, excetuando-se a menor delas.Na coluna, coloca-se valores das médias em ordem crescente, eliminando-se também a média de maior valor, e calculam-se as diferenças. 6,13DX 0,13CX 6,12BX 0,13 6,12 4,11 C B A X X X 2,2** 1,0n*s 0,6n*s 1,6** 0,4n*s 1,2** - Interceptação. Nos casos 1 e 2, intercepta-se da seguinte maneira: médias unidas pela mesma letra ou barra não diferem entre si, pelo teste de Tukey a nível de 1% de probabilidades. No caso 3, as médias BCD XeXX , diferem significantemente da média AX ,sendo que não ocorre diferença significativa entre elas, pelo teste de Tukey a nível de 1% de probabilidades. Podem ocorrer casos em que o número de repetições não é o mesmo para todos os tratamentos. Considerando que no exemplo anterior o tratamento D tivesse apenas 4 repetições, o quadro da analise da variância seria o seguinte: FV GL SQ QM F Tratamentos Resíduo 3 15 12,95 3,60 4,32 0,24 18** TOTAL 18 16,55 Neste caso, o valor de q com 4 tratamentos e 15 graus de liberdade para o resíduo a nível de 1% de probabilidades é 5,25. Então, nesta situação há necessidade de se calcular dois valores de ∆, um para comparar tratamentos com 5 repetições e outro para comparar tratamentos com 5 repetições versus o tratamento de 4 repetições. 37 ∆1= 5,25 15,1 5 24,0 ∆2 = 5,25 22,124,0 5 1 4 1 2 1 A comparação pode ser feita por qualquer uma das três maneiras anteriores, sendo que para tratamentos com o mesmo número de repetições deve-se usar o valor de 1,15 e para tratamentos com diferentes números de repetições usa-se 1,22. Considerando-se a terceira maneira tem-se: 6,13DX 0,13CX 6,12BX 0,13 6,12 4,11 C B A X X X 2,2** 1,0n*s 0,6n*s 1,6** 0,4n*s 1,2** Nota-se que não houve modificações em termos de significância, o que não alterou a interpretação dos resultados; mas como se pode notar, os valores de ∆ foram diferentes do caso anterior o que poderia proporcionar modificações nas comparações das médias. Tal fato, provavelmente não ocorreu porque os valores das medias estão muito próximos uns dos outros. - Teste de Duncan. STEEL (1960), cita que este teste foi desenvolvido por Duncan em 1951, e permite comparar médias de cada tratamento, levando em consideração as médias dos outros tratamentos. É um teste de aplicação mais trabalhosa que o de Tukey, principalmente quando o número de tratamentos é elevado, mas pode identificar diferenças entre tratamentos com maior facilidade que o teste de Tukey, isto é, em casos em que o teste de Tukey indica que deve ser aceita H0, o teste de Duncan pode indicar que deve ser aceita H1. Tal diferença deste teste em ralação ao teste de Tukey, pode ser explicada pelo fato e que o teste de Duncan considera o numero de medias envolvidas no contraste, isto é, se no exemplo anterior quando se comparou BD XcomX , considerou-se unicamente estas duas médias, pelo teste de Duncan ter-se-ia que considerar três medias envolvidas no contraste, pois a media CX ocorre entre as duas consideradas. No exemplo em que se considerou o nível de 99% de probabilidades (0,99), pelo teste de Duncan, para as três medias,tal probabilidade seria(0,99)2 =0,98;e envolvendo quatro medias seria (0,99)3 = 0,97;e assim sucessivamente.Então para n medias, a probabilidade será (nível de significância = 1n . 38 Entretanto.o teste de Duncan por ser menos rigoroso que o de Tukey,leva mais facilmente o pesquisador à conclusões errôneas RAY (1978). A formula de aplicação de tal teste é expressa por: D = z yV ˆˆ 2 1 Em que: D = valor em torno do qual qualquer diferença superior a ele, deve ser aceito como significativa a um nível de probabilidades , também conhecido como DMS (diferença mínima significativa). z = valor tabelado em função do número de medias envolvidas no contraste e graus de liberdade do resíduo. Quando o número de repetições for o mesmo para todos os tratamentos, o teste de Duncan é expresso por: D = z j QMR Quando ocorre tratamentos com números de repetições diferentes, considera-se como: D = z QMR jj 21 11 2 1 A interpretação dos resultados é semelhante às consideradas no teste de Tukey. Considerando-se o mesmo exemplo, aplicado no teste de Tukey; ter-se-ia os seguintes resultados quando o número de repetições fosse igual em todos os tratamentos: FV GL SQ QM F Tratamento Resíduo 3 16 12,95 3,60 4,32 19,19** TOTAL 19 16,55 Para comparar contrastes a nível de 99% de probabilidades envolvendo duas médias, isto é, comparar X C - X B e X B - X A , tem-se o seguinte valor: D1 =4,13 88,0 5 25,0 Para contrastes envolvendo três médias, isto é, X D - X B e X C - X A , tem-se: 39 D2 = 4,34 92,0 5 225,0 Para o contrastes envolvendo quatro médias, X D - X A,tem-se: D3 = 4,45 94,0 5 225,0 Assim sendo, tem-se: X D = 13,6 X C = 13,0 X B = 12,6 X A = 11,4 X B = 12,6 X C = 13,0 2,2** 1,0** 0,6n.s. 1,6** 0,4n.s 1,2** Note-se que pelo teste de Duncan, as médias dos tratamentos X D e X B diferem significantemente, o que não ocorreu pelo teste de Tukey. A interpretação dos resultados é semelhante ao teste de Tukey. Considerando-se o exemplo em que o tratamento X D só possuía 4 repetições, tem-se: FV GL SQ QM F Tratamentos Resíduo 3 15 12,95 3,60 4,32 0,24 18** TOTAL 18 16,55 O valor de D ao nível de 01% de probabilidades para contrastes entre duas médias é: D1 = 4,14 91,0 5 24,0 Este valor serve para comparar X C - X B e X B - X A, porque os tratamentos possuem cinco repetições cada. Já para comparar X D - X C, onde X D provêm de quatro repetições, tem-se: D2 = 4,17 97,024,0 5 1 4 1 2 1 Para os contrastes envolvendo três médias, tem-se: 40 D3 = 4,37 5 24,0 = 0,96 Valor este que serve para compararX C - X A. Para comparar, X D - X B , tem-se: D4 = 4,37 02,124,0 5 1 4 1 2 1 Para contraste envolvendo quatro médias, X D - X A ,tem-se: D5 = 4,50 05,124,0 5 1 4 1 2 1 Então, X D = 13,6 X C = 13,0 6,12BX X A = 11,4 X B = 12,6 X C = 13,0 2,2** 1,0n.s. 0,6n.s. 1,6** 0,4n.s 1,2** Cuja interpretação é feita semelhantemente às maneiras anteriores - Teste de Scheffé. Teste mais rigoroso que os de Tukey e Duncan, e serve para comparar contrastes entre duas ou mais médios, sendo mais indicado para contrastes com mais de duas médias. Tal teste só deve ser aplicado quando o teste de F ou V for significativo. Às vezes, ocorrem casos em que mesmo sendo o F significativo, nem o teste de Tukey ou o de Duncan, identificam qualquer contraste significativo entre duas médias, o que não quer dizer que não ocorre nenhum contraste significativo, pois se aplicando o teste de Scheffé, provavelmente aparecerá um ou mais contrastes significativos, envolvendo mais de duas médias. O valor S obtido no teste de Scheffé é expresso por: S = yVFI ˆˆ**1 Em que: I = número de tratamentos. F valor tabelar a um nível de probabilidades. yV ˆˆ = estimativa da variância do contraste. 41 Considerando uma função linear: n n n nn nn j a j a j ayV maVmaVmaVyV mamamay 2 2 2 2 22 2 1 2 12 1 2211 2211 ...ˆ ˆ...ˆˆˆ .ˆ...ˆˆˆ Sendo: 2222 2 1 n Tem-se: 22221 ...ˆ naaaj QMR yV Onde: ai = coeficiente da média no contraste. Assim sendo, tem-se: S = j QMR aaaFI n 22 2 2 1 ...*1 Ou S = QMR j a j a j a FI n n 2 2 2 2 1 2 1 ...*1 No exemplo anterior, verificar se o contraste ABC mmmy ˆˆˆ2ˆ é significativo pelo teste de Scheffé a nível de 1% de probabilidades. Então: 4,116,1213*2ˆ y .. 0,22426ˆ sn y S = 5 225,0 *11229,5*14 222 S = 2,07 42 Como o valor de S = 2,07 foi superior ao valor do contraste ŷ , indica que não há razão para admitir H1 para tal contraste, que é não significativo; isto é, aceita-se H0. Considerando o contraste ABCD mmmmy ˆˆˆˆ3ˆ onde o tratamento D teve 4 repetições,tem-se: Ŷ= 3*13,6 - 13,0 - 12,6 -11,4 Ŷ= 3,8** O valor de S será: S = 24,0* 5 1 5 1 5 1 4 3 42,5*14 2222 S = 3,33 Como o valor de Ŷ=3,8 foi superior ao de S = 3,33, aceita-se H1, admitindo que no contraste a média do tratamento D difere das médias dos tratamentos C, B e A. - Teste de 2X (qui quadrado). Segundo OLIVEIRA (1970), a distribuição de 2X foi estabelecida pelo físico alemão F.R.Helmet em 1876, e reexaminada pelo estatístico inglês Karl Pearson. A partir desta distribuição surgiu o teste de 2X , que é um teste de ajustamento estatístico,que permite estudar o problema da compatibilidade entre dados observados e esperados (teoricamente). A fórmula que expressa o teste de 2X é a que se segue: 2X = n i i ii fe fefo 1 2 Em que: esperadafrequênciafe obtidafrequênciafo i ie O resultado do teste de 2X é sempre positivo, e será tanto menor quanto maior for o acordo entre as freqüências obtidas e as calculadas teoricamente (esperadas). O valor de 2X obtido é comparado com um valor de 2X tabelado a um determinado nível de probabilidades , sendo que quando 22 tO XX , aceita-se H0 ,e quando 22 to XX ,aceita- se H1. 43 Ao se aplicar o teste de 2X , deve-se ter pelo menos cinco observações esperadas, sendo que o ideal é que contenha pelo menos 10. Assim sendo, quando o número de observações é muito reduzido, torna-se difícil o emprego tabelar de tábuas de qui-quadrado, devendo-se então, não utiliza-las. O valor tabelado de qui-quadrado é obtido em função dos graus de liberdade de tratamentos com um nível de probabilidades . Ex: Em um hectare de eucaliptos plantados no espaçamento 2m x 3m, foi aplicado m fungicida X para verificar a resistência proporcionada às plantas por tal fungicida. Em outro hectare, no mesmo espaçamento, tal fungicida não foi aplicado. Depois do período de desenvolvimento da doença, foram contadas as plantas atacadas nos dois locais, e os resultados foram: Local tratado = 560 plantas atacadas Local não tratado = 1104 plantas atacadas Como nos dois hectares haviam 3332 plantas, ocorrendo um total de 1664 plantas atacadas, era de se esperar caso não houvesse usado o tratamento, que ocorressem 832 plantas atacadas em cada hectare. Desta forma, tem-se: 2X = **22 84,177 832 8321104 832 832560 O valor de qui-quadrado com 1 grau de liberdade para tratamento a nível de 1% de probabilidades é 6,635, indicando que o grau de ataque depende do fungicida aplicado. Ocorrem casos também, em que se estuda ao mesmo tempo mais de 2 fatores. Ex: Em 1500 estacas, foram aplicados 3 tipos de cupinicidas para verificar a eficiência dos mesmos no decorrer de 2 anos. Cada tipo de cupinicidas foi aplicado em 500 estacas, sendo que depois de 2 anos foi feita a contagem das estacas e não atacadas, obtendo-se os seguintes resultados: CUPINICIDAS/ OCORRÊNCIAS A B C TOTAL ATACADAS 193 148 210 551 NÃO ATACADAS 307 352 290 949 TOTAL 500 500 500 1500 Então, há necessidade de se calcular as frequências esperadas para os cupinicidas A, B e C. Tal cálculo é feito da seguinte maneira: Em 1500 estacas houve 500 tratadas com A Em 551 estacas atacadas haverá feA. 44 feA = 66,183 1500 551*500 Então,183,66 estacas atacadas são das tratadas com o cupinicida A. Prosseguindo: Em 1500 estacas houve 500 tratadas com A Em 949 estacas não atacadas haverá feA. feA = 33,316 1500 949*500 As frequências esperadas para os cupinicidas B e C iguais ao resultado de A porque todos os tratamentos foram aplicados em 500 estacas. O quadro anterior torna-se em: CUPINICIDAS/ OCORRÊNCIAS A B C TOTAL ATACADAS 193(183,66) 148(183,66) 210(183,66) 551 NÃO ATACADAS 307(316,33) 352(316,33) 290(316,33) 949 TOTAL 500 500 500 1500 Tem-se então: 2X = 33,316 33,316290 66,183 66,183210 33,316 33,316352 66,183 66,183148 33,316 33,316307 66,183 66,183193 22 2222 2X = 17,66** O valor tabelado de qui-quadrado com 2 graus de liberdade a nível de 1% de probabilidades é igual a 9,21, indicando que o grau de ataque depende da aplicação ou não de cupinicida. Quando ocorrem mais de 2 tratamentos o emprego do qui-quadrado é denominado de tabela de contingência. FREESE (1970), propôs uma modificação no teste de qui-quadrado, que permite verificar a aplicação de uma tabela volumétrica de um local em outro local. Tal procedimento consiste em se trabalha com a equação selecionada em um local e empregar em dados reais de outro local, sendo que, através das diferenças ocorridas, se 45 calcula um valor de qui-quadrado que se for maior que o tabelado, indicará que não será possível aplicar tal equação naquele local. Em caso contrário, aceita-se H0, isto é, a tabela de volume de um local pode ser aplicada no outro local ao nível de probabilidades adotado. Partindo-se de: 2X = 2 1 2 n i iiX Onde: Xi = valor da observação estimulada pela equação selecionada no outro local; i = valor real da observação do local em que se está testando a equação; 2 = variância hipotética. Tal variância hipotética 2 é expressa por: 2 2 2 2 2 2 575,296,1 E ou E Onde: E = número de unidades em que o valor verdadeiro deverá ocorrer a um determinado nível de probabilidades; 1,66 e 2,575 = valores dos desvios padrões correspondentes a 5% de probabilidades. Ovalor de E é calculado por: Ei = 100 iQ Em que: Q = erro adotado em percentagem. Assim sendo, a variância hipotética torna-se em: 2 22 2 2 2 96,196,1 iQE A fórmula de qui-quadrado torna-se em: X2 = N I i ii Q X 1 22 22196 Considerando-se os desvios di = iiX tem-se: n i i id Q X 1 2 2 2 2 * 196 46 Ou n i i id Q X 1 2 2 2 2 5,257 Também se pode estimar com que percentagem de erro uma equação de um local está estimando os valores de outro local, através de: n i n i i i i i d X Qou d X Q 1 1 2 2 2 2 2 2 2 2 5,257196 Ex: Em um estudo comparativo entre a fórmula de Smalian e a fórmula reduzida para cálculo do volume, foram cubados rigorosamente por ambos os métodos, 100 árvores de várias espécies de eucaliptos, sendo que o volume real foi considerado o proveniente da fórmula de Smalian e as estimativas foram provenientes da fórmula reduzida. (SILVA) Feita a cubagem das 100 árvores, os resultados foram os seguintes: Volume real das 100 árvores calculado por: 3 ... 24000 2 2 1 2 3 2 2 2 1 22 0 hDDDDD DD V nn n 100 1I iTOTAL VV TOTALV = 20,012704m 3 Volume total estimado por: hpDDAPV n2280000 n i iTOTAL VV 1 778048,19totalV Em que: V = volume da árvore Di = diâmetros medidos em cm 47 h = comprimento da última secção hp = distancia (m) entre o DAP e o Dn Desta forma, obteve-se todos os dados necessários para a aplicação do teste de qui- quadrado. 100 1 2 3982931,1 i r er V VV Q= 5% Então: 2X = ** 2 2 67,21483982931,1* 5 196 Este valor obtido foi comparado com o valor tabelado 124,3, o que indicou que a aceitação de H1 a nível de 5% de probabilidades, isto é, as duas fórmulas não são consideradas semelhantes no cálculo de volume pelo teste de 2X . Como houve diferença significativa entre os métodos, aplicou-se o teste de 2X com o valor tabelado, de maneira tal que se calculou a percentagem de erro que a nova fórmula difere do padrão, no caso a fórmula de Smalian. Então: %79,203982931,1* 3,124 19622 Q Significando que a nova fórmula está estimando os dados reais, no caso, calculados pela fórmula de Smalian, com uma diferença de 20,79%. Este teste é tido como muito rigoroso, pois no caso considerado aplicando o teste de t para amostras pareadas a nível de 15 de probabilidades, obtém-se: t = 0,663557n.s. indicando que as fórmulas são semelhantes. - Interpolações harmônica e linear. Nas tabelas de t F, v, q e z, muitas vezes se procura um determinado valor, mas o número de graus de liberdade que se tem não consta na tabela, sendo necessário interpolações para se encontrar o valor procurado. Na interpolação harmônica, que é a mais utilizada, se empregam as recíprocas dos números de graus de liberdade para armar a regra de três. Ex: Qual será o valor de F a nível de 1% de probabilidades, quando se tem 4 graus de liberdade para tratamento e 35 graus de liberdade para o resíduo? Para 30 graus de liberdade, tem-se 2,69. Para 40 graus de liberdade, tem-se 2,61. 48 Tendo-se então: 046,0 210 08,0*120 120 1 08,0*210 1 210 1 35 1 30 1 08,061,269,2 120 1 40 1 30 1 X X O valor procurado será: 2,69-0,046 = 2,644. Considerando-se tal valor por uma interpolação linear ter-se-ia: Para 30 graus de liberdade, tem-se 2,69. Para 40 graus de liberdade, tem-se 2,61. Tendo-se então: Se em 10 (40 – 30) tem-se um a diferença de0, 08. Em 5 ter-se-á X. 04,0 10 08,0*5 X O valor procurado será: 2,69 – 0,04 = 2,65 Nota-se que apesar de muito pequena a diferença entre as duas interpolações, a harmônica é a mais indicada por ser mais precisa. 3) PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO. Antes de se entrar em detalhes sobre problemas da experimentação, necessário se faz definir o que é um experimento propriamente dito. Segundo STEEL & TORRIE (1960), um experimento é uma inquisição planejada para obter novos fatos, confirmar ou refrutar os resultados de outros experimentos anteriores, de modo que esta inquisição possa ajudar na tomada de decisões administrativas, tais como: escolha de variedades, técnicas, inseticidas, etc. Ao se realizar um experimento, há necessidade de se padronizar uma unidade para experimentação, onde os dados serão coletados para posterior análise estatística.Esta 49 unidade experimental, denominada parcela, unidade amostral ou amostra, pode ser focalizada por diversos aspectos.Em experimentos florestais, a parcela poderá ser uma única árvore, um conjunto de árvores ou até mesmo um hectare. O número de parcelas a ser lançado por experimento deve ser função da possível variação a ser estudada, no caso, a premeditada, isto é, aquela introduzida pelo experimentador para fazer as comparações.Assim sendo, em locais onde ocorre grande variação nas parcelas, o numero de parcelas deverá ser maior, pois uma maneira de reduzir o erro experimental, isto é, variações que ocorrem ao acaso, é aumentar o número de repetições no experimento, o que acarreta num maior número de parcelas.Aumentando-se o tamanho da parcela, pode-se diminuir o número de parcelas, pos ocorre um balanceamento entre tamanho e número de parcelas; mas o aumento do tamanho da parcela só é eficiente até um determinado ponto, porque à medida que se aumenta o tamanho da parcela, aumenta-se a probabilidade de variações dentro da mesma. Outros fatores que influenciam também na escolha do número das parcelas são os custos e a precisão requerida no experimento. No caso de amostragem, estes dois fatores possuem grande importância no tamanho da amostra, pois existem fórmulas baseadas em tais fatores. Quando se usam parcelas perto uma das outras pode ocorrer competição entre elas, o que poderá implicar na influencia de um tratamento sobre outro. Então, para reduzir esta possível causa de variação, devido á proximidade de parcelas, o que, geralmente, se faz é considerar as duas fileiras externas da parcela como bordadura. Estas duas fileiras não devem ser computadas na análise da variância. Na organização de um experimento qualquer, onde o objetivo básico é a comparação de tratamentos, três princípios básicos devem ser considerados: a) Repetição b) Casualização c) Controle do local Se por exemplo, se considerar um experimento de competição entre duas espécies florestais A e B, e se estas forem lançadas numa parcela para cada tratamento, poderá ocorrer de uma delas apresentar maior produção que outra, em função de variações que possam ocorrer e que não sejam intrínsecas do tratamento considerado, pois, por exemplo, a espécie A poderia ter sido atacada por uma praga, ou ter sido lançada em um local menos favorável que a B, etc, ocasionando numa menor produção. Assim sendo, para diminuir tal tipo de erro, o ideal é repetir os tratamentos espalhadamente pela área de experimentação. Portanto, em vez de comparar os resultados de uma parcela versus o da outra, compara-se os resultados das médias das parcelas. Entretanto, o simples fato de se repetir não é suficiente na experimentação, pois no exemplo citado poderia ocorrer que se repetissem todas as parcelas de um tratamento perto uma das 50 outras e qualquer diferença de solo, ou ataque de pragas seria mais prejudicial que se elas estivessem espalhadas casualmente. Neste caso, a distribuição casual das parcelas na área experimental, corresponde ao principio da casualização ou aleatorização. Com a casualização, outras duas vantagens passam a ser considerada, pois as estimativas das médias dos tratamentos e do erro experimental não são tendenciosas. SILVA (48) Assimsendo definida a área de experimentação e o número de repetições, as parcelas devem ser sorteadas ao acaso dentro da área, por um sorteio simples ou por uma tabela de números aleatorizados. Mesmo empregando estes dois princípios básicos da experimentação, pode ser que no ato do sorteio das parcelas de um tratamento sejam todas sorteadas em um local, onde as condições de solo ou clima sejam melhores que em outro local, onde as outras parcelas do outro tratamento foram sorteadas e continuar com o mesmo problema da interferência do local sobre os tratamentos. Neste caso, deve-se antes lançar o experimento, delimetar as áreas em termos de homogeneidade, sendo que cada área homogênea é considerada como bloco, onde realmente ocorre uma redução do erro experimental. Então, em locais onde existem outras fontes de variação devido ao local, deve-se proceder da seguinte maneira, no estabelecimento de um experimento: a) Delimitar as áreas consideradas heterogêneas, isto é, deve-se separar a área total em blocos homogêneos, sendo que entre os blocos podem ocorrer variações, mas intrablocos não. b) Caracterizar o número de parcelas a ser lançado por tratamentos. c) Casualizar estas parcelas dentro dos blocos, sendo que cada bloco deve conter o mesmo número de parcelas para todos tratamentos, pois todo bloco deve conter todos os tratamentos na mesma igualdade de condições. Quando em uma experimentação, a área onde vai lançar as parcelas é considerada homogênea, basta considerar os princípios de repetição e casualização, tendo-se o delineamento inteiramente casualizado. Quando ocorre o controle do local, o delineamento apropriado para tal caso é denominado de blocos ao caso ou blocos casualizado. Ocorrem casos em que o controle do local pode ir mais além, pois considera-se as variações no sentido horizontal (linhas) e no sentido vertical (colunas). Neste caso, toda linha e coluna devem conter parcelas de todos tratamentos, sendo que cada tratamento só deve ocorrer uma vez por linha e por coluna. Desta forma, a distribuição das parcelas sempre conduz a uma forma quadrangular, o que caracteriza o delineamento como quadrado latino. 51 À medida que se aumenta o controle do local, ocorre uma diminuição dos graus de liberdade para resíduo, o que não é bom. Em compensação, a diminuição da variância residual, propicia um ganho de precisão. Entretanto, o controle excessivo do local, como em parcelas subdivididas, reticulados, blocos incompletos, etc., pode conduzir a uma diminuição demasiada dos graus de liberdade do resíduo, além de tornar bastante complicada a análise da variância; e caso o pesquisador não possua conhecimentos mais aprofundados em estatística, poderá ocasionar sérios erros, onde seria melhor para tal pesquisador ter usado um modelo mais simples. 4) REQUISITOS DA ANÁLISE DA VARIÂNCIA. Em todo estudo de análise da variância de qualquer experimento, há necessidade da existência de um modelo matemático, bem como da aceitação de algumas hipóteses básicas (Pimentel Gomes, 1970). Considerando-se o modelo matemático para um experimento em quadrado latino, tem-se: Yijk = μ + τi + δj + θk + εijk Onde: Yijk = valor observado na parcela que recebeu o tratamento i na coluna j na linha k; m é a média geral; τi é o efeito do tratamento i; δj é o efeito da coluna j; θk é o efeito da linha k; e εijk é a parte não controlada, isto é, devida ao acaso. Então, na análise da variância de tal experimento, as seguintes hipóteses devem ser consideradas: a) Os efeitos devem ser aditivos. b) Deve existir independência entre os diversos efeitos, isto é, não haja correlação entre eles. c) Deve haver normalidade na distribuição dos erros. d) Deve haver homogeneidade das variâncias, isto é, os tratamentos individuais devem possuir uma variância comum. Não é com muita facilidade que em um delineamento, estas quatro suposições ocorram conjuntamente, mas se elas ocorrem aproximadamente, principalmente com relação à normalidade da distribuição dos dados, a análise estatística pode ser realizada sem problemas, pois testes como o de f e t não se alteram muito se a distribuição dos dados não for muito homogênea. Uma das suposições que deve ser obedecida é a de aditividade dos diversos efeitos, sendo que quando isto não ocorre, há necessidade de se utilizar transformação de dados. Segundo Oliveira quando ocorrem associações entre as médias dos tratamentos e suas respectivas variâncias, não se deve analisar os dados originais, ma sim uma transformação 52 apropriada desses dados, que torne as variâncias dos tratamentos independentes de suas respectivas médias. Além de tais transformações permitirem solucionar o problema da não aditividade entre os efeitos, estas ainda propiciam que os dados passem a ter uma distribuição aproximadamente normal, de tal modo que os testes de comparações de médias e variâncias podem ser empregados normalmente. Outro problema também solucionado pela transformação dos dados originais é a não homogeneidade das variâncias, provocada pela não normalidade dos erros. As transformações de dados mais usadas são: a) Transformação angular. b) Transformação de raiz quadrada c) Transformação logarítmica - Transformação angular Este tipo de transformação é utilizado quando os dados obedecem uma distribuição binomial, onde a variância é altamente correlacionada com a média (Arruda, 1979). Tal transformação expressa por: 100 ** y senarc , deve ser utilizada quando: a) A contagem é expressa em percentagem (menos de 100 indivíduos). Por exemplo: percentagem de sementes germinadas, percentagem de plantas doentes, etc. b) A contagem é feita em 100 ou mais indivíduos, mas os valores podem decrescer de 30% ou subirem de 70 %(7). Tal tipo de transformação tornará homogênea as variâncias dos erros experimentais, tornando válida a aplicação de testes de significância e dos intervalos de confiança e dos intervalos de confiança para as médias dos tratamentos. Ex: Os dados que seguem, referem-se ao estudo da quebra de dormência em tamboril (Enterolobium contortisiliquum), quando submetido aos seguintes tratamentos (Santos, 1978): 1) Ácido sulfúrico concentrado; 2) Ácido / água em 3:1; 3) Ácido / água em 2:1; 4) Ácido / água em 1:1; 5) Ácido / água em 1:2; 6) Ácido / água em 1:3; 7) Água quente; 8) Testemunha. 53 Cada tratamento foi repetido 4 vezes a foram utilizadas 20 sementes para cada repetição, num total de 80 sementes por tratamento A contagem das sementes que germinaram após 21 dias, foi a que segue: TRAT./REP. 1 2 3 4 5 6 7 8 1 2 3 4 8 8 4 3 3 3 4 4 5 5 6 4 8 9 6 9 10 10 8 10 0 0 2 0 5 5 7 5 0 0 0 0 Então, para realizar a análise estatística, tais dados foram transformados da seguinte maneira: X11 = 8 X11 (transformado) = 43,16 100 8 ** senarc X13 = 4 X13 ( transformado) = 54,11 100 4 ** senarc E assim sucessivamente, resultando em: TRAT./REP. 1 2 3 4 5 6 7 8 1 2 3 4 16,43 16,43 11,54 9,98 9,98 9,98 11,54 11,54 12,92 12,92 14,18 11,54 16,43 17,46 14,18 17,46 18,44 18,44 16,43 18,44 0,00 0,00 8,13 0,00 12,92 12,92 15,34 12,92 0,00 0,00 0,00 0,00 A análise da variância e as comparações entre médias dos tratamentos são feitas com os dados transformados, mas na apresentação de resultados, utilizam-se os dados originais. Muitos livros de estatística já trazem tabelas prontas de dados transformados em função dos observados. - Transformação raiz quadrada Utilizada quando os dados seguem a distribuição de Poisson, onde a variância é igual a média. Esta proporcionalidade altera a uniformidade do erro experimental às vezes a aditividade dos efeitos considerados (PAULA NETO, 1977). Como exemplo, cita-se a contagem do número de árvores doentes ou sadias em uma área relativamente pequena, número
Compartilhar