Prévia do material em texto
<p>ECOLOGIA NUMÉRICA</p><p>Ministério da Educação - MEC</p><p>Universidade Aberta do Brasil - UAB</p><p>Universidade Federal do Piauí - UFPI</p><p>Centro de Educação Aberta e a Distância - CEAD</p><p>Eliesé Idalino Rodrigues</p><p>Elildo Idalino Rodrigues</p><p>Teresina (PI)</p><p>2018</p><p>Diretor do Centro de Educação Aberta e a</p><p>Distância - CEAD</p><p>Gildásio Guedes Fernandes</p><p>Vice-Diretora do Centro de Educação Aberta</p><p>e a Distância - CEAD</p><p>Lívia Fernanda Nery da Silva</p><p>Coordenador do Curso de Ciências</p><p>Biológicas - CEAD/UFPI</p><p>Prof. Dr. Eliesé Idalino Rodrigues</p><p>Coordenador da Especialização em Ecologia</p><p>Prof. Me. Cledinaldo Borges Leal</p><p>Editora da Universidade Federal do Piauí - EDUFPI</p><p>Campus Universitário Ministro Petrônio Portella</p><p>CEP: 64049-550 - Bairro Ininga - Teresina - PI - Brasil</p><p>Todos os Direitos Reservados</p><p>Dados internacionais de Catalogação na Publicação</p><p>EQUIPE TÉCNICA</p><p>Revisão de Originais</p><p>Fabiana dos Santos Sousa</p><p>Projeto Gráfico e Diagramação</p><p>Nalton Luiz Silva Parente de Pinho</p><p>De acordo com a Lei n. 9.9610, de 19 de fevereiro de 1998, nenhuma parte deste livro pode ser fotocopiada, gravada,</p><p>reproduzida ou armazenada num sistema de recuperação de informações ou transmitida sob qualquer forma ou por</p><p>qualquer meio eletrônico ou mecânico sem o prévio consentimento do detentor dos direitos autorais.</p><p>R696e Rodrigues, Eliesé Idalino.</p><p>Ecologia numérica / Eliesé Idalino Rodrigues, Elildo Idalino Rodrigues.</p><p>– Teresina : EDUFPI, 2018.</p><p>120 p.</p><p>ISBN: 978-85-509-0332-3</p><p>Universidade Federal do Piauí, Centro de Educação Aberta e a Distância,</p><p>Curso de Pós-Graduação Lato Sensu em Ecologia.</p><p>1. Ecologia. 2. Ecologia Numérica. I. Rodrigues, Elildo Idalino. II. Título.</p><p>CDD 574.5</p><p>Reitor</p><p>José Arimatéia Dantas Lopes</p><p>Vice-Reitora</p><p>Nadir do Nascimento Nogueira</p><p>Superintendente de Comunicação</p><p>Jacqueline Lima Dourado</p><p>Editor</p><p>Ricardo Alaggio Ribeiro</p><p>EDUFPI - Conselho Editorial</p><p>Ricardo Alaggio Ribeiro (presidente)</p><p>Antonio Fonseca dos Santos Neto</p><p>Francisca Maria Soares Mendes</p><p>José Machado Moita Neto</p><p>Solimar Oliveira Lima</p><p>Teresinha de Jesus Mesquita Queiroz</p><p>Viriato Campelo</p><p>Editora da Universidade Federal do Piauí - EDUFPI</p><p>Campus Universitário Ministro Petrônio Portella</p><p>CEP: 64049-550 - Bairro Ininga - Teresina (PI) - Brasil</p><p>Dedico este livro aos grandes mestres</p><p>de Estatística e Ecologia Numérica que tive ao</p><p>longo de minha vida acadêmica, a saber: Prof. Antônio</p><p>Carlos Leal de Castro (UFMA), Prof. Dr. Miguel Petrere</p><p>Jr. (UNESP), Profª Drª Sigrid Neumann Leitão (UFPE)</p><p>e Prof. Dr. Luiz Carlos Gomes (UEM).</p><p>(Eliesé Idalino Rodrigues)</p><p>ÍNDICE</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS 11</p><p>1.1 Conceito de Ecologia Numérica 11</p><p>1.2 Amostragem 12</p><p>1.3 Princípios da aleatoriedade e da independência dos dados 14</p><p>1.4 Dados e variáveis 15</p><p>1.5 Estatística Descritiva (medidas de tendência central e medidas</p><p>de dispersão) 17</p><p>1.5.1 Medidas de tendência central (de posição) 17</p><p>1.5.2 Medidas de variação (de dispersão) 18</p><p>1.6 Fatores 19</p><p>1.7 Distribuição de dados / Probabilidade 19</p><p>1.7.1 Distribuições adequadas à estatística não-paramétrica</p><p>(testes alternativos ou análise prévia para a estatística</p><p>paramétrica, com base na mediana) 20</p><p>1.7.2 Distribuições adequadas à estatística paramétrica (com</p><p>base na média) 22</p><p>1.8 Estatística 23</p><p>1.8.1 Os métodos científicos 24</p><p>1.8.1.1 Métodos que consideram o teste de hipóteses..........24</p><p>1.8.1.2 Outros métodos 28</p><p>1.8.2 Estatística paramétrica x não-paramétrica 28</p><p>1.8.3 Teste de homocedasticidade 29</p><p>1.8.4 Teste de normalidade 30</p><p>1.8.5 Transformação de dados 30</p><p>1.8.6 Estandardização (padronização) de dados 30</p><p>1.8.7 Teste unicaudal x bicaudal 31</p><p>Exercícios 31</p><p>CAPÍTULO 2 – REVISÃO DE ANÁLISE UNIVARIADA 35</p><p>2.1 Testes T e Z 35</p><p>2.2 Análise de Variância (ANOVA) 35</p><p>2.3 Correlação 40</p><p>2.4 Regressão 41</p><p>Exercícios 43</p><p>ECOLOGIA NUMÉRICA 13</p><p>CAPÍTULO 1</p><p>CONCEITOS INICIAIS</p><p>1.1 CONCEITO DE ECOLOGIA NUMÉRICA</p><p>Segundo Valentin (2000), a Ecologia Quantitativa divide-se em três</p><p>facetas: Ecologia Numérica (análise multivariada), Bioestatística (análise</p><p>univariada, testes inferenciais) e Modelagem Ecológica (fórmulas que explicam a</p><p>variação nos dados ecológicos). Para ele, “a própria natureza é de característica</p><p>multifatorial”, o que destaca a importância da Ecologia Numérica.</p><p>Aliada a essa necessidade de considerar a natureza como multifatorial, há</p><p>hoje em dia a disponibilização de programas de computador capazes de rodar</p><p>cálculos complexos com imensa rapidez (Figura 1). A grande diferença entre</p><p>análise multivariada e análise univariada é que nesta última há apenas duas</p><p>ou poucas variáveis, e quando há uma variável dependente (resposta) ela é</p><p>única, e geralmente envolve algum teste estatístico de hipótese; na Ecologia, no</p><p>entanto, as abordagens multivariadas têm sido consideradas mais adequadas.</p><p>Mais adiante, é apresentado um maior detalhamento dessa diferença.</p><p>Figura 1 – Logo de alguns dos principais programas de computador utilizados em</p><p>Ecologia Numérica.</p><p>As técnicas multivariadas são essencialmente descritivas e levam o</p><p>pesquisador à formulação de hipóteses, mas normalmente não as testam, o</p><p>que, por outro lado, é uma atribuição da estatística inferencial (VALENTIN, 2000).</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS14</p><p>É necessário ter cautela no que diz respeito ao uso de análises</p><p>matemáticas, uma vez que também devem ser consideradas as reflexões</p><p>ecológicas, o olhar do pesquisador. Nenhum dos dois extremos (Matemática</p><p>x Reflexão ecológica) deve ser utilizado sozinho. Além disso, muitas vezes</p><p>não se dispõe a quantidade de dados necessária para rodar uma análise</p><p>multivariada.</p><p>Lembre-se: se você não é capaz de compreender pelo menos</p><p>parcialmente seus dados por meio de uma observação direta, uma análise</p><p>explanatória visual, provavelmente não utilizará corretamente a estatística.</p><p>1.2 AMOSTRAGEM</p><p>Uma das primeiras preocupações ao se planejar uma pesquisa é</p><p>a metodologia que será adotada para se alcançar os objetivos. Muitas</p><p>dessas pesquisas envolvem amostragem, e esta deve ser feita com cautela.</p><p>Lança-se mão de amostragem quando não é possível ou não é eficiente</p><p>amostrar todo</p><p>um conjunto de dados (população), o que seria um censo.</p><p>O número de elementos de uma população inteira é representando por</p><p>“N”, enquanto que o número de elementos de uma amostra é o “n”.</p><p>As características estudadas da população são chamadas parâmetros,</p><p>em letras latinas maiúsculas, enquanto que as características da amostra</p><p>são chamadas de estimadores (variáveis), em letras gregas minúsculas.</p><p>Exemplo: A média da amostra (X�) é um estimador da média da</p><p>população (μ).</p><p>Sobre o número de repetições na amostragem (o “n” amostral),</p><p>falaremos mais adiante (na seção sobre análise multivariada), mas, desde</p><p>já, ressalta-se que o ponto essencial para a aplicação de análises estatísticas</p><p>(tanto univariada como multivariadas). Em uma ANOVA, por exemplo (teste</p><p>estatístico descrito mais à frente), deve haver pelo menos 10 repetições</p><p>para cada categoria a ser testada; essa é a famosa “regra do 10” citada</p><p>por Gotelli e Ellison (2011).</p><p>Outro ponto importante em uma amostragem é evitar o</p><p>desbalanceamento (Fig. 2). Uma amostragem balanceada é aquela que</p><p>representa o número de repetições é idêntico para todos os tratamentos,</p><p>ou blocos etc. Amostras desbalanceadas são estatisticamente mais difíceis</p><p>de serem utilizadas.</p><p>ECOLOGIA NUMÉRICA 15</p><p>Figura 2 – Exemplo de amostragem com repetições balanceadas e não-balanceadas:</p><p>amostras de água de uma lagoa foram coletadas em 3 pontos durante 3 meses,</p><p>para que fossem medidas as concentrações de fósforo e nitrogênio. O objetivo da</p><p>pesquisa é saber se há diferença nas concentrações desses dois elementos entre os</p><p>3 pontos ou entre os 3 meses.</p><p>Após coletados, os dados precisam ser tabulados (colocados em uma</p><p>tabela), para depois serem utilizados em um programa de estatística. Cada</p><p>programa exige um formato específico de tabela e antes de utilizar o programa</p><p>é preciso saber de que forma será a entrada de dados. Abaixo um exemplo</p><p>de tabela com os resultados da amostragem balanceada do exemplo da lagoa</p><p>(Tab. 1).</p><p>Tabela 1 – Exemplo de tabulação de dados.</p><p>Pontos Meses Fósforo Nitrogênio</p><p>1 1 34 128</p><p>1 2 38 150</p><p>1 3 70 130</p><p>2 1 56 103</p><p>2 2 28 180</p><p>2 3 37 164</p><p>3 1 35 146</p><p>3 2 64 128</p><p>3 3 23 104</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS16</p><p>No exemplo acima, há dois fatores que estão sendo pesquisados, o</p><p>fator PONTOS e o fator MESES. Ou seja, essa pesquisa envolve as dimensões</p><p>espacial e temporal. O fator “pontos” possui 3 níveis (1 = ponto 1; 2 = ponto</p><p>2; 3 = ponto 3), e o fator “meses” também possui 3 níveis (1 = janeiro; 2</p><p>= fevereiro; 3 = março). Para testar diferenças dentro dos fatores, estão</p><p>sendo analisadas duas variáveis da água (fósforo e nitrogênio).</p><p>1.3 PRINCÍPIOS DA ALEATORIEDADE E DA INDEPENDÊNCIA DOS</p><p>DADOS</p><p>A coleta de dados em uma pesquisa científica deve ser feita com o</p><p>máximo de critério e rigor possível. São vários princípios a serem seguidos,</p><p>os éticos, os de imparcialidade etc. Um dos mais importantes deles é o</p><p>princípio da aleatoriedade na obtenção dos dados. A amostra precisa</p><p>ser aleatória (probabilística), isto é, todos os indivíduos da população</p><p>precisam ter a mesma chance de pertencer à amostra.</p><p>Há vários métodos de amostragem, em cada um deles, pelo menos</p><p>parcialmente, deve haver aleatoriedade (dados randômicos), evitando-se</p><p>ao máximo a subjetividade da escolha humana. Para isso, são utilizadas</p><p>várias ferramentas, como as de sorteios de pontos de coleta. Essa</p><p>aleatoriedade pode ser obtida de várias formas, como moeda, lista,</p><p>urna, tabela de números aleatórios, e várias outras possibilidades com</p><p>o mínimo de subjetividade.</p><p>Os dados coletados precisam ser independentes, uma observação não</p><p>deve influenciar a outra. Para isso, é necessário evitar a pseudorreplicação</p><p>ou pseudorrepetição. É um conceito de difícil entendimento, pois muitas</p><p>vezes sofre influência da perspectiva e da escala.</p><p>O maior problema da pseudorreplicação dá-se nas pesquisas</p><p>experimentais, visto que nelas é possível eliminar esse problema, embora</p><p>seja necessário um planejamento rigoroso para controlar os fatores</p><p>interferentes no objeto de estudo e também para aleatorizar o experimento</p><p>de forma a evitar possíveis efeitos não imagináveis (VIEIRA, 1999). Nas</p><p>pesquisas observacionais (de campo), é quase impossível eliminar</p><p>completamente a dependência entre amostras, por isso devem ser tomados</p><p>alguns cuidados também. Hurlbert (1984) traz várias considerações a</p><p>respeito das pseudorreplicações (Fig. 3).</p><p>ECOLOGIA NUMÉRICA 17</p><p>Figura 3 – Esquemas que ilustram pseudorreplicação em pesquisa experimental e em</p><p>pesquisa observacional, respectivamente.</p><p>(Fonte: HURLBERT, 1984 – Adaptado)</p><p>Erros de delineamentos experimentais são tidos como “erros fatais”</p><p>(fatal error), e geralmente são irreversíveis, sendo necessário refazer todo o</p><p>experimento ou todas as coletas de campo. Somado ao erro de planejamento</p><p>(desenho amostral), surgem erros na escolha das análises estatísticas, muitas</p><p>delas não sendo adequadas para aquele delineamento falho. Em alguns casos,</p><p>a escolha correta da análise pode reduzir o erro do desenho amostral.</p><p>É importante lembrar que o grande problema da pseudorreplicação</p><p>é tratá-la como replicação real (amostras independentes) e utilizar testes</p><p>estatísticos paramétricos que precisam do pressuposto de independência</p><p>dos dados, como a ANOVA e a regressão (QUINN e KEOUGH, 2005); tais</p><p>testes acabariam rejeitando erroneamente a hipótese nula (erro tipo 1, erro</p><p>α), enquanto seus equivalentes não-paramétricos não levariam a tal erro. Os</p><p>tipos de erro serão discutidos mais adiante.</p><p>1.4 DADOS E VARIÁVEIS</p><p>As informações (dados) obtidas referem-se a variáveis. Tais variáveis,</p><p>como já foi dito, representam os parâmetros observados da natureza. A variável</p><p>pode ser numérica (quantitativa) ou nominal (qualitativa, categórica).</p><p>Na ocasião em que a variável é quantitativa, pode ser contínua (dados de</p><p>medição) ou discreta/merística (dados de contagem). Quando ela é qualitativa,</p><p>seus valores podem ser quantificados (quando, por exemplo, representam</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS18</p><p>dados binários, como sim/não, presente/ausente, ou de intensidade, como 1</p><p>= pouco, 2 = médio, 3 = muito) ou serem simplesmente categóricos (como a</p><p>denominação de pontos ou meses: ponto 1, ponto 2, mês 1, mês 2, mês 3 etc).</p><p>Exemplos: Temperatura (uma variável numérica, quantitativa e</p><p>contínua); ponto de coleta (uma variável categórica); presença (1) e ausência</p><p>(0) de uma espécie em cada ponto de coleta (qualitativa e binária).</p><p>Às vezes, a variação de uma variável é influenciada por outra variável.</p><p>A variável dependente também é chamada de explicada ou resposta; e a</p><p>independente, de explicativa ou explanatória. É possível também ocorrer</p><p>semelhanças entre as variações das variáveis independentes, nesse contexto,</p><p>elas são designadas covariáveis, pois variam juntas, geralmente havendo</p><p>uma relação de linearidade entre elas. A melhor ferramenta para verificar</p><p>de antemão tais comportamentos é o diagrama de dispersão (scatterplot),</p><p>a partir do qual as duas variáveis são plotadas, uma no eixo X e outra no</p><p>eixo Y (Fig. 4).</p><p>Figura 4 – Gráfico de dispersão entre duas variáveis. É possível observar que</p><p>não há uma relação aparente entre as variáveis nitrogênio e fósforo, pois seu</p><p>posicionamento está bem espalhado, não formando uma reta crescente ou</p><p>decrescente ou nenhum outro tipo de gráfico curvilíneo conhecido.</p><p>0</p><p>20</p><p>40</p><p>60</p><p>80</p><p>100</p><p>120</p><p>140</p><p>160</p><p>180</p><p>200</p><p>0 10 20 30 40 50 60 70 80</p><p>N</p><p>itr</p><p>og</p><p>ên</p><p>io</p><p>(m</p><p>g/</p><p>L)</p><p>Fósforo (mg/L)</p><p>Dispersão entre N e P</p><p>ECOLOGIA NUMÉRICA 19</p><p>1.5 Estatística Descritiva (medidas de tendência central e medidas</p><p>de dispersão)</p><p>É possível descrever um conjunto de dados por meio de alguns de</p><p>seus atributos, mas a escolha de quais atributos utilizar deve ser feita com</p><p>prudência.</p><p>1.5.1 Medidas de tendência central (de posição)</p><p>Representam um conjunto de dados por meio de um valor central</p><p>no meio da distribuição.</p><p>a) Média</p><p>Se os dados são distribuídos de forma normal, com muitos valores</p><p>intermediários e poucos valores extremos, ela é</p><p>o atributo de posição mais</p><p>indicado. A média pode ser aritmética (X�) , geométrica (GM) ou harmônica</p><p>(H). A média aritmética é divisão da soma dos elementos pela quantidade</p><p>desses elementos. A média geométrica é o antilog da média aritmética e</p><p>se aplica, por exemplo, a dados de crescimento populacional e o a média</p><p>harmônica é o inverso da média dos inversos dos elementos, e se aplica,</p><p>por exemplo, à conservação. Os valores da média geométrica são menores</p><p>que os da média aritmética, e os da média harmônica são menores ainda.</p><p>As médias são sensíveis a dados extremos, sobretudo as geométricas e</p><p>harmônicas; quando há muitos dados extremos, é preferível utilizar, por</p><p>exemplo, a mediana.</p><p>Quanto maior é a amostra, mais real é a média aritmética, ou seja, (X�)</p><p>amostral aproxima-se mais de μ populacional (Lei dos Grandes Números).</p><p>b) Mediana</p><p>É o valor central de uma sequência crescente ou decrescente de dados.</p><p>c) Moda</p><p>É o valor que mais ocorre em um conjunto de dados. Ela pode ser única</p><p>ounão,uma vez que pode haver mais de uma moda (bimodal, multimodal).</p><p>Conforme a simetria de uma distribuição de dados, as medidas de</p><p>posição aparecem em pontos diferentes (Fig. 5).</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS20</p><p>Figura 5 – Posição relativa das medidas de posição conforme a simetria da distribuição.</p><p>(Fonte: TRIOLA, 1999)</p><p>1.5.2 Medidas de variação (de dispersão)</p><p>Mostram a variação em um conjunto de dados. Sempre vêm associadas</p><p>a uma medida de posição.</p><p>a) Amplitude</p><p>Diferença entre o valor máximo e o valor mínimo.</p><p>b) Variância (Var., s2)</p><p>Soma dos quadrados (SQ) das diferenças entre cada dado e a média.</p><p>Usa-se o quadrado para eliminar o efeito das diferenças negativas, que fariam</p><p>a variância ser zero. A unidade da variância é a unidade da média elevada ao</p><p>quadrado.</p><p>c) Desvio-padrão amostral (s, DP, SD)</p><p>Para representar a variação de forma mais entendível, tira-se a raiz</p><p>quadrada da variância, voltando a unidade à mesma da média, esse valor é</p><p>chamado de desvio-padrão amostral. Uma forma rápida de ter uma previsão</p><p>do DP é dividindo a amplitude por 4.</p><p>d) Erro-padrão da média (s𝑋� , EP, SE)</p><p>É a distância estimada entre média amostral e populacional (real). É a</p><p>divisão do desvio-padrão amostral pela raiz quadrada do “n”.</p><p>Obs.: Pelo fato de o erro-padrão da média ser bem menor do que o</p><p>desvio-padrão amostral, muitos preferem utilizá-lo para esconder a variação</p><p>ECOLOGIA NUMÉRICA 21</p><p>dos dados, porém essa conduta é condenável. Somente deve ser utilizado o</p><p>erro-padrão da média quando se tem uma amostra muito grande e quando se</p><p>quer destacar não a variação dentro dessa amostra e sim o quanto sua média</p><p>se aproxima da média populacional.</p><p>1.6 FATORES</p><p>As variáveis categóricas são denominadas de fatores. Os principais fatores</p><p>na área de ecologia são o tempo (mês, dia), esto é, os momentos de coleta, e</p><p>os pontos de coleta (locais). É possível testar se ocorre variação temporal e/</p><p>ou variação espacial.</p><p>1.7 DISTRIBUIÇÃO DE DADOS / PROBABILIDADE</p><p>Quando se coloca um conjunto de dados de uma variável em um</p><p>gráfico (histograma) de distribuição de classes e suas frequências, tem-se</p><p>uma distribuição de dados. Alguns padrões foram evidenciados na natureza</p><p>e tais padrões dependem do número e do tipo dos dados.</p><p>Exemplo de dados: Medição da altura (cm) de 20 plantas em uma parcela,</p><p>150, 150, 151, 155, 160, 160, 162, 165, 165, 170, 170, 172, 174, 176, 178, 180,</p><p>180, 182, 189, 190 (Tab. 2 e Fig. 6).</p><p>Tabela 2 e Figura 6 – Distribuição de dados em classes.</p><p>Há vários tipos de distribuição de dados importantes para a Ecologia,</p><p>dentre eles: normal, t, qui-quadrado e F. Os testes estatísticos e suas tabelas</p><p>oficiais de comparação baseiam-se nelas; por isso, um teste só deve ser aplicado</p><p>i Classes fi</p><p>1 150 ˫ 160 4</p><p>2 160 ˫ 170 5</p><p>3 170 ˫ 180 6</p><p>4 180 ˫ 190 4</p><p>5 190 ˫ 200 1</p><p>Σ 20</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS22</p><p>a um conjunto de dados que segue a mesma distribuição que deu origem a ele,</p><p>e esse é o ponto chave na distinção entre estatística paramétrica, para dados</p><p>baseados na distribuição normal, e não-paramétrica, aplicável a praticamente</p><p>todos os tipos de distribuição.</p><p>Distribuição é uma organização em um gráfico de como os dados se</p><p>encontram. Ela é importante, dentre outras finalidades, para escolher o</p><p>tratamento ideal a ser conferido ao conjunto de dados.</p><p>Há quatro principais tipos de distribuição:</p><p>1.7.1 Distribuições adequadas à estatística não-paramétrica (testes</p><p>alternativos ou análise prévia para a estatística paramétrica, com</p><p>base na mediana)</p><p>a) Distribuição Binomial (com dados binomiais: sucesso/fracasso, sim/</p><p>não, presença/ausência)</p><p>Ex.: Probabilidade de um animal recolhido ao acaso em 1.000 locais</p><p>delimitados na caatinga apresentar uma mancha na cauda (Fig. 7).</p><p>Figura 7 – Exemplo de distribuição binomial.</p><p>(Fonte: PORTAL-ACTION, 2015)</p><p>b) Distribuição de Poisson (é uma distribuição relacionada ao tempo)</p><p>Ex.: Número diário de novos casos de câncer de mama ao longo de 365</p><p>dias (Fig. 8).</p><p>ECOLOGIA NUMÉRICA 23</p><p>Figura 8 – Exemplo de distribuição de Poisson.</p><p>(Fonte: SHIMAKURA, 2015)</p><p>As distribuições binomial e de Poisson são discretas.</p><p>c) Qui-quadrado (x2) – Quando se verifica se dados qualitativos estão</p><p>relacionados a algum fenômeno, ocorre geralmente com dados genéticos. É</p><p>uma distribuição contínua. Ela representa o quadrado da distribuição normal.</p><p>Ex.: 556 ervilhas foram analisadas com relação à textura e cor das</p><p>sementes, e obteve-se o seguinte: (A=amarela / V=verde; R=redonda /</p><p>E=enrugada) (Fig. 9).</p><p>Figura 9 – Exemplo de distribuição qui-quadrado.</p><p>(Fonte: DE-LACERDA, 2015)</p><p>Além da distribuição qui-quadrado, a distribuição log-normal e a</p><p>distribuição exponencial são igualmente contínuas.</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS24</p><p>1.7.2 Distribuições adequadas à estatística paramétrica (com base</p><p>na média)</p><p>Distribuição Normal (de Gauss, em sino, Z) – Da estatística paramétrica</p><p>(testes com base na média). Qualquer distribuição que tiver o número de</p><p>observações aumentado tende a ficar normal.</p><p>Ocorre com dados de grandes amostras e geralmente não relacionados</p><p>ao tempo.</p><p>Ex.: Estatura (em m) dos alunos do 7º ano de 20 escolas públicas de</p><p>Teresina (Fig. 10).</p><p>Figura 10 – Exemplo de distribuição normal.</p><p>(Fonte: TUTOR-TEDDY, 2015 - Adaptado)</p><p>Ao se obter um conjunto de dados em uma pesquisa, a primeira coisa</p><p>a ser feita é ver como eles estão distribuídos (em histogramas de classes de</p><p>frequência) e se eles se relacionam entre si (por meio de gráficos de dispersão,</p><p>nuvem de pontos, scatterplots). Somente depois de conhecer-se perfeitamente</p><p>o conjunto de dados de cada variável, é possível se pensar o que será feito com</p><p>eles. Deve-se seguir o projeto de pesquisa o máximo possível, o que foi planejado</p><p>de estatística, ou seja, desde que o conjunto de dados seja adequado para o</p><p>que foi planejado. Este é um motivo legítimo para se modificar a estatística</p><p>ECOLOGIA NUMÉRICA 25</p><p>usada nos dados, e não pelo fato de haver utilizado um teste que aceitou a</p><p>hipótese nula.</p><p>Em uma distribuição normal, há uma previsibilidade de onde se encontram</p><p>os dados (Fig. 11).</p><p>Figura 11 – Regra empírica em uma distribuição normal. Normalmente, 2 DP</p><p>negativos costuma ser o valor mínimo dos dados coletados e 2 DP positivos o valor</p><p>máximo. Por esta razão, falamos que uma forma de prever o DP (aproximado) é</p><p>dividir a amplitude dos dados por 4.</p><p>(Fonte: TRIOLA, 1999)</p><p>Além da distribuição normal, outras como a distribuição t (semelhante</p><p>à normal) e a distribuição F (razão entre duas qui-quadrado) da mesma forma</p><p>são contínuas.</p><p>1.8 ESTATÍSTICA</p><p>A Estatística é um método matemático utilizado o para analisar dados</p><p>de forma independente da subjetividade humana, evitando, assim, a mera</p><p>opinião pessoal do pesquisador. Envolve desde conhecimentos de coleta de</p><p>dados, processamento até a sua correta análise.</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS26</p><p>De uma forma mais restrita, alguns autores relacionam a estatística</p><p>apenas aos casos em que há um teste de probabilidade embutido,</p><p>um valor</p><p>de P; neste caso restritivo, é um cálculo de comparação entre os dados de</p><p>sua amostra com valores idealizados como naturais e expressos por meio das</p><p>distribuições (padrões) já abordadas.</p><p>No entanto, é necessário ter cautela no que se refere ao uso da estatística,</p><p>pois ela sozinha não é capaz de produzir um bom trabalho científico; a visão e</p><p>experiência do pesquisador fazem-se necessárias à interpretação dos resultados</p><p>obtidos por meio da estatística.</p><p>De acordo com a quantidade de variáveis dependentes (resposta), ela</p><p>pode ser univariada (apenas uma dependente) ou multivariada (mais de uma</p><p>dependente), o que será abordado mais adiante.</p><p>1.8.1 Os métodos científicos</p><p>A ciência trabalha com vários métodos científicos. Esses, segundo Gotelli</p><p>e Ellison (2011), podem ser:</p><p>1.8.1.1 Métodos que levam em conta o teste de hipóteses</p><p>a) Método indutivo (1 hipótese; executa-se a verificabilidade da hipótese;</p><p>também conhecido como bayesianismo, do estatístico inglês Thomas</p><p>Bayes, 1701-1761). É de mais fácil entendimento, pois se testa a chance</p><p>de estar correto, porém é muito criticada. Para Guttman (1985), citado</p><p>por Magnusson e Mourão (2005), é uma “cura pior que a doença”.</p><p>Ainda é usada, por exemplo, nos métodos de Monte Carlo, Boortstrap</p><p>e de reamostragem, uma espécie de probabilidade após as análises de</p><p>ordenação multivariada.</p><p>b) Método hipotético-dedutivo, frequentista (hipótese nula + 1 ou</p><p>várias hipóteses alternativas; executa-se a falseabilidade das hipóteses;</p><p>baseado no popperianismo, de Karl Popper, filósofo cientista austríaco,</p><p>1902-1994). Baseia-se na chance de estar errado (valor de P, ou seja, erro</p><p>alfa, que será explicado mais adiante). Esta é a estatística mais comum,</p><p>a empregada na maioria dos testes estatísticos de computador. Para</p><p>Popper, não se pode provar nada, apenas desprovar, ou seja, falsear a</p><p>hipótese mais simples, nula.</p><p>ECOLOGIA NUMÉRICA 27</p><p>Aceitar uma hipótese nula não significa que o trabalho está perdido, é</p><p>um resultado tão importante quanto a rejeição dessa hipótese.</p><p>No método hipotético-dedutivo (frequentista), tem-se uma hipótese,</p><p>que será testada. Essa hipótese é uma afirmação diante do que está sendo</p><p>estudado. A hipótese sugerida na pesquisa é a hipótese alternativa (H1), que</p><p>afirma acontecer determinado fenômeno; contra ela, é formulada uma hipótese</p><p>nula (H0), que diz que nega a afirmação da hipótese alternativa. A hipótese</p><p>nula é a representação da simplicidade (parcimônia), do que é mais provável,</p><p>é baseada no pensamento filosófico chamado de “navalha de Ockham” (do</p><p>franciscano inglês William de Ockham, 1290-1349).</p><p>As análises estatísticas servem para testar hipóteses. Para isso, há um</p><p>valor de P (probabilidade) que se relaciona ao nível de significância pretendido e</p><p>isso está diretamente ligado aos tipos de erro possíveis em um teste estatístico</p><p>(erro alfa ou I e erro beta ou II).</p><p>Suponhamos que dez cobaias foram submetidas ao tratamento de</p><p>engorda com certa ração (Tab. 3), os pesos em gramas, antes e depois do</p><p>teste, são dados a seguir (supõe-se que provenham de distribuições normais).</p><p>A 1% de significância, podemos concluir que o uso da ração contribuiu para o</p><p>aumento do peso médio dos animais?</p><p>Tabela 3 – Pesos (g) de cada cobaia antes e depois do tratamento de engorda.</p><p>Cobaia 1 2 3 4 5 6 7 8 9 10</p><p>Antes 635 704 662 560 603 745 698 575 633 669</p><p>Depois 640 712 681 558 610 740 707 585 635 682</p><p>Formulam-se, então, as hipóteses:</p><p>H0: µd = 0</p><p>H1: µd < 0</p><p>Onde: µd = µantes – µdepois</p><p>α = 0,01 1 – a = 0,99</p><p>Com a aplicação da fórmula do teste T pareado (usado para esse tipo</p><p>de exemplo), obteve-se um valor calculado de t = - 2,96.</p><p>O valor tabelado (baseado em uma distribuição padrão de dados, como</p><p>a distribuição normal) é obtido da tabela na qual se baseou o referido teste</p><p>(Fig. 12).</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS28</p><p>Figura 12 – Exemplo de tabela de teste estatístico (tabela t de Student).</p><p>O valor tabelado para 9 graus de liberdade e 0,01 (1%) de erro é 2,82.</p><p>Esse valor do grau de liberdade significa o número de elementos que são livres</p><p>para variar. No exemplo acima, são 10 cobaias, então retira-se “1” desse total,</p><p>ficando 10 – 1 = 9 graus de liberdade. Outro conceito de grau de liberdade é</p><p>“o número de observações menos o número de parâmetros já calculados”;</p><p>ou seja, para o cálculo de média, se divide por “n”, mas para o cálculo da</p><p>variância dessa média, divide-se por “n-1”, pois um parâmetro (a média) já</p><p>foi calculado previamente.</p><p>Confrontando os valores calculado e tabelado, é possível aceitar ou</p><p>rejeitar a hipótese nula (Fig. 13).</p><p>ECOLOGIA NUMÉRICA 29</p><p>Figura 13 – Distribuição t de dados e posicionamento dos valores obtidos.</p><p>Desta forma, quando se executa um teste estatístico à mão, confronta-se</p><p>um valor calculado, obtido por meio da aplicação das fórmulas do teste, com</p><p>um valor tabelado (esperado como limite para a aceitação da hipótese nula).</p><p>Não se consegue saber exatamente o valor de P, todavia é possível dizer se</p><p>há ou não uma significância; já por meio de um software (no computador), o</p><p>resultado exibido é mais exato, com o valor de P (Fig. 14).</p><p>Figura 14 – Resultado da análise acima por meio de um programa de computador.</p><p>Em uma publicação científica, é preciso observar a maneira correta</p><p>de expor os resultados dos testes, por meio de notação específica. No caso</p><p>anterior, seria dizer que o peso depois é significativamente maior (Teste t,</p><p>t=-2,96; gl=9; p=0,006).</p><p>Voltando a falar dos erros dos testes estatísticos, eles podem ser</p><p>classificados em: erro alfa (tipo I), quando se nega erroneamente uma hipótese</p><p>-2,96</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS30</p><p>nula correta ou beta (tipo II), quando se aceita erroneamente uma hipótese</p><p>nula incorreta (Quadro 1).</p><p>Quadro 1 – Tipos de erros nos testes estatísticos.</p><p>Manter H0 Rejeitar H0</p><p>H0 verdadeira Decisão correta Erro Tipo I (α)</p><p>H0 falsa Erro Tipo II (β) Decisão correta</p><p>(Fonte: GOTELLI e ELLISON, 2011)</p><p>O valor de P, desta forma, se relaciona ao erro alfa (tipo I), é aquele de</p><p>mais fácil controle, que o pesquisador consegue perceber mais facilmente.</p><p>Normalmente, não há como calcular o erro tipo II, por isso geralmente ele</p><p>é ignorado (o que se costuma fazer é optar sempre pelo melhor teste, para</p><p>reduzir as chances desse erro, é preciso sempre escolher o teste mais robusto</p><p>para aquele caso em estudo).</p><p>Erroneamente, há a prática de modificar a estatística para forjar um</p><p>resultado positivo, que comprove a hipótese, no entanto esse procedimento</p><p>não é científico. De fato, toda a estatística já deve estar planejada desde o</p><p>projeto de pesquisa.</p><p>1.8.1.2 Outros métodos</p><p>Dentre eles, podem-se citar os das Ciências Sociais e o de estimativa</p><p>de parâmetros (quantifica-se a contribuição de cada fator em vez de testar</p><p>hipótese).</p><p>1.8.2 Estatística paramétrica x não-paramétrica</p><p>Paramétrico (métrico, frequentista, assintótico) significa que é baseado</p><p>na média e no desvio-padrão da distribuição de frequência, seguindo a lei de</p><p>Gauss (normalidade), quer dizer, simétrica em relação à média, que é central.</p><p>Não-paramétrico = não-métrico, são medidas não-ordinais, em postos (rankings).</p><p>O biólogo estatístico inglês Ronald Fisher (1890-1962) é tido como o</p><p>pai da estatística paramétrica. A estatística paramétrica (mais robusta, mais</p><p>confiável do ponto de vista matemático) diz respeito aos testes que se baseiam</p><p>na média, tendo um valor científico mais eficiente. Entretanto, só pode ser</p><p>ECOLOGIA NUMÉRICA 31</p><p>aplicada em dados que têm distribuição normal (normalidade). Caso não seja</p><p>comprovada a normalidade da distribuição, apela-se para uma transformação</p><p>dos dados (normalmente utiliza-se a logarítmica, mas depende da natureza</p><p>dos dados – veja abaixo). Se essa transformação não normalizar os dados, é</p><p>necessário utilizar a estatística não-paramétrica (baseada na mediana, nos</p><p>rankings). Para cada análise paramétrica, há uma equivalente não-paramétrica.</p><p>Cientificamente, é melhor utilizar uma estatística não-paramétrica em dados</p><p>não-normais do que utilizar forçadamente uma estatística paramétrica.</p><p>Na realidade, o que se pretende com a escolha do teste a ser empregado é</p><p>que haja uma maior probabilidade de o resultado ser o correto, que faça sentido</p><p>e responda à pergunta que foi feita. Porém, nenhuma estatística será capaz de</p><p>substituir a mente do pesquisador, não devendo as discussões se basearem</p><p>somente em estatística, mas também no conhecimento do pesquisador.</p><p>Os gráficos dos resultados de uma análise paramétrica não são idênticos</p><p>aos de uma análise não-paramétrica (Fig. 15).</p><p>Figura 15 - Comparativo dos gráficos análises paramétricas x análises não-</p><p>paramétricas.</p><p>(Fonte: GOTELLI e ELLISON, 2011 - Modificado).</p><p>A estatística paramétrica, mais robusta do que a não-paramétrica, só pode</p><p>ser utilizada quando há homocedasticidade (homogeneidade de variâncias) e</p><p>normalidade da amostra. Esta é homocedástica e normal quando os valores</p><p>para cada teste ficam com P>0,05. Os testes mais comuns são citados a seguir.</p><p>CAPÍTULO 1 - CONCEITOS INICIAIS32</p><p>1.8.3 Teste de homocedasticidade</p><p>Pode-se usar o teste de Fmax para amostras balanceadas e Bartlett para</p><p>amostras desbalanceadas. Há outros testes possíveis, como qui-quadrado,</p><p>Hartley e Cochran. Outra opção é fazer o teste de Levene.</p><p>1.8.4 Teste de normalidade</p><p>Pode-se aplicar G1 (simetria) e G2 (curtose). Por enquanto o ideal é</p><p>usar o teste Kolmogorof-Smirnoff KS, ou o teste de Lilliefors (uma adaptação</p><p>estandardizada do KS). Outra opção para testar a normalidade é fazer o teste</p><p>de Shapiro-Wilk (Estatística W) nos resíduos.</p><p>1.8.5 Transformação de dados</p><p>A transformação de dados é a aplicação de uma fórmula matemática</p><p>para suavizar a discrepância entre os valores. Muitas vezes, essa transformação</p><p>é capaz de normalizar os dados e homogeneizar as variâncias.</p><p>Há vários tipos de transformação: logarítmica, raiz quadrada, etc.</p><p>Log (x) ou log (x+1), para dados contínuos (sem ou com zero,</p><p>respectivamente) é a mais usada. √𝑥 é usada para dados de contagem</p><p>(discretos). Arcoseno √𝑥 é usada para proporções em decimal (de 0 a 1;</p><p>é preciso converter se estiver em %). 1/x para taxas, que são em hipérbole.</p><p>Para planilhas de dados de contagem (discretos), onde costuma haver</p><p>muitos zeros, embora algumas dessas transformações resolvam esse problema,</p><p>tem sido utilizada a transformação de Hellinger.</p><p>Às vezes, é necessário eliminar valores extremos (aberrantes, atípicos),</p><p>chamados outliers. Mas é necessário justificar sua eliminação, sendo uma</p><p>justificativa um erro de procedimento ou um acontecimento momentâneo</p><p>que tenha gerado tal valor. Para isso, é fundamental sempre ter à mão uma</p><p>ficha para observações durante as coletas.</p><p>1.8.6 Estandardização (padronização) de dados</p><p>Muitas análises multivariadas exigem que os dados sejam antes</p><p>estandardizados, ou seja, deve ocorrer uma adimensionalidade dos dados</p><p>que, originalmente, pertenciam a variáveis bem diferentes, com diferentes</p><p>unidades e escalas. Isso é feito por meio de uma transformação dos dados de</p><p>ECOLOGIA NUMÉRICA 33</p><p>cada variável em unidades (z) de desvio-padrão, conforme a fórmula abaixo</p><p>(LEGENDRE e LEGENDRE, 1998):</p><p>Isso significa que o valor bruto de cada observação da variável é</p><p>transformado no número de desvios-padrão sendo que este se afasta da</p><p>média dessa variável.</p><p>1.8.7 Teste unicaudal x bicaudal</p><p>Alguns testes estatísticos têm duas opções de direcionamento na</p><p>distribuição de dados. Assim, em um teste t, por exemplo, quando a hipótese</p><p>alternativa é apenas de que há uma diferença entre as médias (uma média</p><p>é diferente da outra, sem importar quem é a maior), o teste é bicaudal; por</p><p>outro lado, se afirmarmos de antemão para que lado será essa diferença (uma</p><p>média ser maior ou menor que a outra), teremos um teste unicaudal (cuja</p><p>chance de rejeitar H0 é ainda menor).</p><p>ECOLOGIA NUMÉRICA 37</p><p>CAPÍTULO 2</p><p>REVISÃO DE ANÁLISE</p><p>UNIVARIADA</p><p>Como já foi adiantado, as análises estatísticas univariadas são aquelas em</p><p>que há apenas uma variável resposta (dependente, explicada), que é alterada</p><p>pelo efeito das variáveis exploratórias (independentes, explicativas).</p><p>2.1 TESTES T E Z</p><p>O teste T é utilizado para saber se duas médias (variáveis quantitativas)</p><p>são estatisticamente iguais ou diferentes. Sempre é usado para duas médias.</p><p>Ele pode ser de vários tipos: homocedástico / heterocedástico, pareado</p><p>(amostras relacionadas) / não-pareado (amostras independentes), balanceado</p><p>/ desbalanceado. O teste T é indicado principalmente para amostras menores</p><p>que 30, que teoricamente não seguem a distribuição normal. Caso seja uma</p><p>amostra acima de 30, pode-se utilizar o teste Z. Um exemplo de teste T foi</p><p>mostrado anteriormente. O equivalente ao teste T na estatística não-paramétrica</p><p>são os testes de Wilcoxon (pareado) e Mann-Whitney (não-pareado, teste-U).</p><p>2.2 ANÁLISE DE VARIÂNCIA (ANOVA)</p><p>Aplica-se uma ANOVA quando se tem duas variáveis, sendo uma</p><p>quantitativa (dependente) e outra independente categórica/fator (período,</p><p>local, por exemplo) e quando é preciso saber se há diferença significativa</p><p>entre tais categorias (Quadro 2). Ressaltamos que, para aplicar uma ANOVA</p><p>(uma estatística paramétrica, baseada na média), é preciso antes testar se</p><p>a distribuição dos dados é normal (normalidade) e se as variâncias entre as</p><p>categorias são homogêneas (homocedasticidade). Caso não sejam, tenta-se</p><p>aplicar uma transformação (como a logarítmica); repete-se então o teste de</p><p>normalidade e homocedasticidade. Caso persista o problema, será necessário</p><p>utilizar uma análise não-paramétrica. O Teste de Kruskal Wallis é um substituto</p><p>CAPÍTULO 2 - REVISÃO DE ANÁLISE UNIVARIADA38</p><p>não-aramétrico para a ANOVA. Se a ANOVA for em blocos, o equivalente não-</p><p>paramétrico é o teste de Friedman.</p><p>Quadro 2 – Características de uma ANOVA em relação a uma regressão e outros</p><p>testes semelhantes.</p><p>INDEPENDENTE</p><p>DEPENDETE Contínua Categórica</p><p>Contínua</p><p>Regressão</p><p>(Verifica se a variável</p><p>independente</p><p>é responsável</p><p>pela variação da</p><p>dependente)</p><p>ANOVA</p><p>(Verifica se há diferença entre</p><p>os níveis da variável categórica)</p><p>Categórica Regressão logística</p><p>1 variável independente</p><p>Tabelas de contingência de 2</p><p>fatores (LxC)</p><p>• Chi-quadrado</p><p>• Teste G</p><p>• Teste exato de Fisher</p><p>(Testam a dependência</p><p>entre os 2 fatores ou se há</p><p>aderência, se a proporção</p><p>observada é a esperada)</p><p>2 ou mais variáveis</p><p>independentes</p><p>Tabela de contingência</p><p>multifatorial</p><p>• Árvores de classificação</p><p>• Modelo log linear</p><p>• Análise bayesiana</p><p>A ANOVA apenas aponta se há pelo menos uma das categorias diferente</p><p>das demais. Caso isso seja comprovado pela ANOVA, será necessário executar</p><p>um pós-teste (teste a posteriori de comparação múltipla de médias, testes post</p><p>hoc). Em Ecologia, costuma-se utilizar o Teste de Tukey.</p><p>ECOLOGIA NUMÉRICA 39</p><p>A ANOVA ou análises equivalentes são aplicáveis quando se quer comparar</p><p>mais de duas médias. Até duas médias, utiliza-se o Teste T ou equivalente. É</p><p>importante salientar que a ANOVA também pode ser usada para duas médias.</p><p>É importante aplicar o tipo correto de ANOVA para os dados disponíveis,</p><p>de preferência já planejar a pesquisa de forma que depois possa aplicar a</p><p>ANOVA ideal. Isso evita um maior nível de erro no teste e valoriza ainda mais</p><p>os dados coletados.</p><p>Há vários tipos de ANOVA. Para delineamentos fatoriais, se ela tem</p><p>apenas um fator, é dita unifatorial (One Way ANOVA), se tem dois fatores,</p><p>bifatorial (Two Way ANOVA) e assim por diante. No caso de haver mais de</p><p>um fator, caso seja percebida interação entre os fatores, não se pode avaliar</p><p>o efeito individual de cada fator, somente o efeito conjunto.</p><p>A ANOVA também pode ser em blocos (grupos de tratamentos), caso</p><p>já se conheça uma relação entre tratamentos ou alguma diferença entre eles.</p><p>Quando os blocos são ao acaso, pode ser chamado também de split-plot. Pode</p><p>ser também aninhada (hierárquica, ramificada, nested); a ANOVA aninhada é</p><p>quando há uma diferenciação prévia entre os níveis de um fator em relação</p><p>aos níveis do outro fator (por exemplo, duas máquinas</p><p>sendo manipuladas</p><p>por um trio de funcionários diferentes cada uma). É preciso ter cuidado para</p><p>não confundir ANOVA em blocos com ANOVA aninhada. Na ANOVA em blocos,</p><p>há uma perfeita repetição dos tratamentos, já na aninhada é similar, mas não</p><p>exatamente igual (Fig. 16).</p><p>Figura 16 – Delineamento experimental: em blocos x aninhado.</p><p>Quando se tem pseudorréplicas (ou dados pareados com mais de duas</p><p>médias) e o pesquisador pretende diminuir seu efeito negativo, é possível</p><p>aplicar a ANOVA de medidas repetidas.</p><p>Há alguns outros delineamentos mais comuns à agronomia, como o de</p><p>parcelas subdivididas, no qual se sorteiam os tratamentos principais e depois</p><p>os tratamentos secundários são aplicados dentro dessas parcelas.</p><p>CAPÍTULO 2 - REVISÃO DE ANÁLISE UNIVARIADA40</p><p>Ela pode ser dividida também em modelo I (efeito fixo), quando os</p><p>tratamentos são o total dos possíveis planejados ou que existem, ou modelo II</p><p>(efeito aleatório), quando se sorteiam alguns tratamentos para representar</p><p>todos os possíveis de uma população (exemplo: sortear algumas escolas</p><p>para testar algo de forma que seja extrapolado para todas), geralmente</p><p>usado em Genética, ou misto (quando, por exemplo, os tratamentos são</p><p>fixos, mas os blocos são aleatórios, ou vice-versa). No modelo misto, pode</p><p>ocorrer, por exemplo, um fator com efeito fixo e outro com efeito aleatório.</p><p>Por não saber escolher o tipo correto de a ANOVA, muitos pesquisadores</p><p>acabam fazendo a ANOVA comum, o que gera um prejuízo na análise dos</p><p>dados, por não serem aproveitadas informações importantes nos cálculos.</p><p>Os delineamentos apresentados acima se aplicam principalmente</p><p>a pesquisas experimentais, mas também podem acontecer em pesquisas</p><p>observacionais, como é o caso da maioria dos trabalhos em Ecologia.</p><p>Se, em uma pesquisa experimental, há uma ANOVA cujo um dos</p><p>tratamentos é controle (branco), é aconselhável que esse grupo controle</p><p>tenha mais repetições que os demais, mesmo que isso acabe por acarretar</p><p>um desbalanceamento do experimento. Exemplo: Em um experimento no</p><p>qual há 5 grupos, um deles sendo controle e os demais tendo 10 repetições</p><p>(número mínimo admissível em uma ANOVA), o número mínimo de repetições</p><p>no grupo controle será dado pela fórmula abaixo:</p><p>Onde “a” é o número total de grupos.</p><p>Desta forma, deve haver 2x mais repetições no controle que nos</p><p>demais grupos. No exemplo anterior, deveriam ser 20 repetições no grupo</p><p>controle e 10 nos outros quatro grupos. Além disso, o teste de comparação</p><p>de médias não deve ser o Tukey. O ideal, para casos assim, é o teste de</p><p>Dunnett, que considera a diferença dos grupos em relação ao controle,</p><p>não importando diferenças dos grupos entre si.</p><p>Exemplo de uma ANOVA:</p><p>Desejando saber se o tamanho do bico (cm) de três espécies de aves</p><p>da mesma família era ou não estatisticamente diferente, um pesquisador</p><p>piauiense resolveu medir, ao acaso, 7 aves de cada espécie, sendo todos</p><p>os indivíduos notadamente já adultos (Tab. 4).</p><p>ECOLOGIA NUMÉRICA 41</p><p>Tabela 4 – Dados de tamanho do bico (cm) de 3 aves piauienses.</p><p>Tamanho do bico (cm)</p><p>Ave 1 Ave 2 Ave 3</p><p>10 25 7</p><p>20 27 5</p><p>15 29 8</p><p>16 33 9</p><p>22 40 9</p><p>17 38 4</p><p>12 34 6</p><p>Para tanto, após confirmar os pressupostos para aplicação de uma ANOVA,</p><p>ele executou esse teste e obteve o seguinte resultado (Fig. 17).</p><p>Figura 17 – Resultado da ANOVA e do pós-teste de Tukey.</p><p>O resultado da ANOVA mostrou que havia diferença entre as 3 médias</p><p>(P=0,0000) e que todas elas são diferentes entre si em um nível de significância</p><p>de 1% (P<0,01).</p><p>Quando, além do fator (independente categórico) que se está testando,</p><p>há o efeito também de uma outra variável (independente contínua), faz-se a</p><p>análise de covariância (ANCOVA). Ela pode ser paramétrica ou ANCOVA Quade,</p><p>que é não-paramétrica.</p><p>CAPÍTULO 2 - REVISÃO DE ANÁLISE UNIVARIADA42</p><p>Tanto a ANOVA como a regressão (que será vista mais adiante) podem</p><p>ter sua robustez averiguada com base na análise de resíduos (erros). Por meio</p><p>dessa análise, é possível verificar a normalidade, a homocedasticidade e a</p><p>existência de outliers.</p><p>2.3 CORRELAÇÃO</p><p>Um teste de correlação é a comparação entre duas variáveis quantitativas,</p><p>ponto a ponto. Nele, nenhuma das variáveis é tida como dependente (resposta).</p><p>Para se realizar a correção, é preciso antes ver se a dispersão dos dados aponta</p><p>alguma tendência (correlação linear, parabólica, hiperbólica). Caso haja uma</p><p>tendência linear ou não seja observada tendência, se aplica a correlação linear,</p><p>sendo o teste mais comum o de Pearson (se os dados forem paramétricos) ou</p><p>de Spearman (caso não sejam paramétricos e nem seja possível normalizá-</p><p>los). Se não for linear, é preciso transformar os dados para aplicar Pearson ou</p><p>Spearman.</p><p>A correlação é medida entre 0 (nenhuma correlação) e 1 (correlação</p><p>total), podendo ser positiva (as variáveis aumentam juntas) ou negativa (quando</p><p>uma variável aumenta a outra diminui).</p><p>Exemplo: Para testar se o comprimento das folhas de uma árvore tem</p><p>relação com a largura dessas folhas, um pesquisador coletou aleatoriamente</p><p>10 folhas e mediu suas dimensões (Tab. 5).</p><p>Tabela 5 – Dados das dimensões de 10 folhas.</p><p>Dimensões (cm)</p><p>Comp Larg</p><p>3,0 1,0</p><p>2,0 1,0</p><p>5,0 2,0</p><p>10,0 2,0</p><p>6,0 4,0</p><p>7,0 3,0</p><p>7,0 5,0</p><p>10,0 2,0</p><p>2,0 1,0</p><p>6,0 2,0</p><p>ECOLOGIA NUMÉRICA 43</p><p>Supõe-se que o pesquisador observou que os dados são normais, o</p><p>mesmo aplicou uma correlação de Pearson (Fig. 18).</p><p>Figura 18 – Resultado da correlação de Pearson.</p><p>É possível observar que não houve correlação entre a largura e o</p><p>comprimento das folhas (P=0,19) nem mesmo no nível de significância de</p><p>5%. Tanto pode ser que realmente não haja ou porque o “n” amostral esteja</p><p>baixo para constatar tal correlação.</p><p>2.4 REGRESSÃO</p><p>O teste de regressão é semelhante ao de correlação, porém nele temos</p><p>uma variável dependente (resposta), sempre uma, que é modificada pela(s)</p><p>variável(is) independente(s). Quando há apenas uma variável independente, a</p><p>regressão é dita simples; quando há mais de uma, ela é denominada múltipla.</p><p>Dessa forma é possível construir uma fórmula (equação) que represente o</p><p>gráfico de regressão. Mais uma vez, é preciso ver a dispersão dos dados para</p><p>saber se o melhor teste a ser empregado é o de regressão linear ou não.</p><p>Outra diferença é que a regressão é uma estatística paramétrica, portanto</p><p>exige que seja obedecido o requisito de independência dos dados (réplicas</p><p>e não pseudorréplicas), de normalidade e homocedasticidade. A verificação</p><p>de pseudorréplicas pode ser feita, por exemplo, através do teste de Mantel.</p><p>CAPÍTULO 2 - REVISÃO DE ANÁLISE UNIVARIADA44</p><p>Exemplo: testar se existe uma regressão entre a quantidade de ração</p><p>disponibilizada para os girinos e o tamanho final deles ao atingirem determinada</p><p>fase de desenvolvimento (Tab. 6); caso haja regressão, é possível determinar</p><p>a equação dessa regressão. Se for uma regressão linear, teremos a equação</p><p>de uma reta (Fig. 19).</p><p>Tabela 6 – Dados de tamanho dos girinos em relação à quantidade de ração.</p><p>Quantidade diária</p><p>de ração (mg)</p><p>Tamanho do girino</p><p>(cm)</p><p>100 2</p><p>120 5</p><p>140 7</p><p>160 8</p><p>180 9</p><p>200 10</p><p>100 3</p><p>120 6</p><p>140 6</p><p>160 7</p><p>180 9</p><p>200 9</p><p>Figura 19 – Resultado da regressão linear simples.</p><p>ECOLOGIA NUMÉRICA 45</p><p>Observa-se que há uma regressão linear (P=0,0000) e que é possível</p><p>fazer uma modelagem por meio da fórmula da reta (Y = 0,07 * X – 3,21). Desta</p><p>forma, colocando-se a quantidade de ração no valor de X é possível prever o</p><p>tamanho dos girinos nessa fase de desenvolvimento.</p><p>Alguns testes estatísticos são englobados no conceito de GLM (General</p><p>Linear Models, Modelos Lineares Gerais); são eles: ANOVA, ANCOVA, MANOVA,</p><p>MANCOVA, regressão, teste-t e teste-F. Alguns programas de estatística já</p><p>trazem tais testes em uma seção à parte (GRAFEN e HAILS, 2002).</p><p>EXERCÍCIOS</p><p>4) Considerando as informações em cada situação abaixo, defina qual seria o</p><p>melhor método estatstco (teste) para ser empregado na análise dos resultados:</p><p>a) Em uma pesquisa para saber se um determinado tipo de ração (A) era</p><p>mais eficiente que um outro tipo de ração (B), um cientista</p><p>resolveu marcar e</p><p>pesar (massa inicial), em kg, 20 araras. Em um primeiro momento, cada uma</p><p>das 20 araras foi alimentada somente com a ração A. Efetuou-se novamente</p><p>a pesagem. Após alguns dias, até que as araras voltassem ao peso inicial com</p><p>ração comum, todas começaram um novo período de alimentação especial, só</p><p>que desta vez com a ração B. Efetuou-se, então, uma nova medição nas araras.</p><p>Como saber se uma ração é ou não mais eficiente que a outra em termos de</p><p>ganho de massa corpórea?</p><p>b) Um pesquisador colega do anterior resolveu realizar a mesma pesquisa,</p><p>porém com uma metodologia diferente. Ele resolveu marcar e pesar (massa</p><p>inicial), em kg, 20 araras, que foram separadas em 2 grupos de 10 indivíduos</p><p>cada. Um grupo foi alimentado somente com a ração A e o outro somente com</p><p>a ração B. A quantidade de ração era sempre a mesma em cada refeição. Os</p><p>dados apresentaram distribuição normal. Como saber se uma ração é ou não</p><p>mais eficiente que a outra em termos de ganho de massa corpórea?</p><p>CAPÍTULO 2 - REVISÃO DE ANÁLISE UNIVARIADA46</p><p>c) Em uma pesquisa de campo, pretendeu-se saber se havia diferença na</p><p>quantidade de silício (em mg/L) entre 4 pontos de coleta em uma barragem. Esses</p><p>pontos foram identificados por meio de GPS e foram revisitados quinzenalmente</p><p>durante um ano. Os dados, considerados independentes, inicialmente não</p><p>apresentaram distribuição normal, porém, após transformados, a normalidade</p><p>foi conquistada, bem como a homocedasticidade. De que forma é possível</p><p>saber, estatisticamente, se há diferença entre os valores de concentração de</p><p>silício dos 4 pontos?</p><p>d) Um pesquisador dispunha de uma tabela de dados que apresentava 5</p><p>colunas, 4 delas com dados de variáveis explanatórias contínuas e a outra coluna</p><p>com dados biológicos (variável resposta), também quantitativos e contínuos.</p><p>Os dados apresentavam distribuição normal. De que forma é possível testar</p><p>se as variáveis explanatórias exercem influência sobre a variável resposta,</p><p>considerando que a relação entre elas é linear?</p><p>e) Uma ecóloga, com o intuito de testar se a temperatura (°C) de um lago se</p><p>relacionava com o pH, resolveu medir essas duas variáveis por 20 dias em um</p><p>rio que passava próximo a sua casa, realizando duas medições diárias, uma no</p><p>final da manhã e outra à noite. Após uma tentativa malsucedida de normalizar</p><p>os dados, ela resolveu utilizá-los como estavam (dados brutos). Qual seria a</p><p>análise mais indicada neste caso, considerando que não se soubesse se o pH</p><p>exerce influência na temperatura ou vice-versa?</p><p>f) Considerando os dados do caso anterior, porém se fossem normais e se</p><p>soubesse que a temperatura afeta de forma linear o pH, qual seria então a</p><p>análise mais apropriada?</p><p>ECOLOGIA NUMÉRICA 47</p><p>g) Jorge Maurício, mestrando em Ecologia, pretendia compreender o que</p><p>mais influencia os peixes em 3 barragens de sua região, se eram as diferenças</p><p>entre período de cheia e de seca ou a intensidade de pesca. Então, resolveu</p><p>realizar uma pesquisa de 12 meses, sendo que em cada mês ele coletava peixes</p><p>em cada uma das 3 barragens, com um mesmo esforço amostral, e fazia um</p><p>levantamento da intensidade de pesca realizada em cada uma naquele mês</p><p>(dados disponíveis em uma cooperativa de pescadores da região). Os dados</p><p>são independentes, homocedásticos e normais. De que maneira pode ser</p><p>feita essa análise?</p><p>h) Ruth e Raquel, duas irmãs, dispõem de 100 observações feitas em cada</p><p>uma de duas árvores de seu quintal (um pé de manga e um pé de caju). Elas</p><p>observavam, todo dia, com um mesmo esforço amostral, quantas formigas</p><p>passavam no começo da tarde (no período entre 14h:00min e 15h:00min) em</p><p>um dos galhos de cada uma dessas duas árvores. E elas revezavam entre elas</p><p>todos os dias: um dia era Ruth que ficava no pé de manga e no outro era Raquel.</p><p>Considerando que os dados apresentam uma distribuição normal (Lilliefors,</p><p>p>0,05) e possuem variâncias homogêneas, qual(is) é(são) o(s) teste(s) mais</p><p>indicados para se ter um melhor aproveitamento estatístico desses dados?</p><p>i) Considerando o caso do item “e”, se os dados fossem normais mas ainda</p><p>não se soubesse se é a temperatura que exerce influência no pH ou vice-versa,</p><p>qual seria então o teste mais indicado?</p><p>ECOLOGIA NUMÉRICA 119</p><p>REFERÊNCIAS</p><p>BAUMGÄRTNER, Stefan. Measuring the diversity of what? And for what purpose?</p><p>A conceptual comparison of ecological and economic measures of biodiversity.</p><p>Verhandlungen der Gesellschaft für Ökologie 33: 490. 2003.</p><p>BEISEL, Jean-Nicolas; USSEGLIO-POLATERA, Philippe; BACHMANN, Vincent;</p><p>MORETEAU, Jean-Claude. A comparative analysis of evenness index sensitivity.</p><p>International Review of Hydrobiology, 88(1): 3-15. 2003.</p><p>CAVALCANTI, Eliane Aparecida Holanda; LARRAZÁBAL, Maria Eduarda Lacerda.</p><p>Macrozooplâncton da zona econômica exclusiva do Nordeste do Brasil (segunda</p><p>expedição oceanográfica - REVIZEE/NE II) com ênfase em Copepoda (Crustacea).</p><p>Revista Brasileira de Zoologia, v.21, p.467-475, 2004.</p><p>DE-LACERDA, Anthony. Testes qui-quadrado: aderência e independência.</p><p>Disponível em: <http://slideplayer.com.br/slide/1574738/#>. Acesso em 15</p><p>nov 2015.</p><p>GOTELLI, Nicholas J.; CHAO, Anne. Measuring and estimating</p><p>species richness,</p><p>species diversity and biotic similarity from sampling data. In: LEVIN, S.A. (Ed.).</p><p>Encyclopedia of Biodiversity, 2.ed., Vol.5, Waltham: Elsevier, 2013.</p><p>GOTELLI, Nicholas J.; ELLISON, Aaron M. Princípios de Estatística em Ecologia.</p><p>Porto Alegre: Artmed, 2011. 528p.</p><p>GRAFEN, Alan; HAILS, Rosie. Modern statistics for the life sciences. Nova</p><p>Iorque: Oxford, 2002. 349p.</p><p>HURLBERT, Stuart H. Pseudoreplication and the design of ecological field</p><p>experiments. Ecological Monographs, 54(2), p.187-211, jun.1984.</p><p>JURASINSKI, Gerald; RETZER, Vroni; BEIERKUHNLEIN, Carl. Inventory,</p><p>differentiation, and proportional diversity: a consistent terminology for</p><p>quantifying species diversity. Oecologia 159: 15-26. 2009.</p><p>KREBS, Charles J. Ecological Methodology. 2.ed. Menlo Park: Benjamin/</p><p>Cummings, 1999. 620p.</p><p>REFERÊNCIAS120</p><p>KUMMER, Larissa; MELO, Vander; BARROS, Yara Jurema; AZEVEDO, Júlio César</p><p>Rodrigues. Extrações sequenciais de chumbo e zinco em solos de área de</p><p>mineração e metalurgia de metais pesados. Revista Brasileira de Ciência do</p><p>Solo, 35: 2005-2018, 2011.</p><p>LEGENDRE, Pierre; LEGENDRE, Louis. Numerical Ecology. 2.ed. Amsterdam:</p><p>Elsevier, 1998. 853p.</p><p>LEYSER, Gabriela; ZANIN, Elisabete Maria; BUDKE, Jean Carlos; MÉLO, Máida</p><p>Ariane; HENKE-OLIVEIRA, Carlos. Regeneração de espécies arbóreas e relações</p><p>com componente adulto em uma floresta estacional no vale do rio Uruguai,</p><p>Brasil. Acta Botanica Brasilica 26(1): 74-83. 2012.</p><p>MAGNOSSUN, Willian E.; MOURÃO, Guilherme de Miranda. Estatística sem</p><p>Matemática. Londrina: Planta, 2005. 138p.</p><p>MANLY, Bryan Frederick John. Multivariate Statistical Methods. 2.ed. London:</p><p>Chapman & Hall, 1994. 215p.</p><p>MARGALEF, Ramon. Temporal sucession and spatial heterogeneity in</p><p>phytoplankton. In: BUZZATI-TRAVERSO, A.A. (Ed.). Perspectives in Marine</p><p>Biology. Berkeley: University California Press, p.323-349. 1958.</p><p>MAY, Robert McCredie. Patterns of species abundance and diversity. In: CODY,</p><p>Martin L.; DIAMOND, Jared M. (Ed.). Ecology and Evolution of Communities.</p><p>Harvard: Harvard University Press. pp 81-120. 1975.</p><p>NONATO, Edmundo Ferraz. Delineamentos multivariados e métodos de</p><p>reamostragem e permutação. Universidade Federal do Rio de Janeiro /</p><p>Departamento de Zoologia / Laboratório de Polychaeta. Disponível em <http://</p><p>www.biologia.ufrj.br/labs/labpoly/delin6.pdf>. Acesso em 02 jul 2015.</p><p>OLUBUSOLA, Adeoye N.; ORJI, Edward C.; ADAMS, Abiodun Emmanuel.</p><p>Biodiversity conservation: course guide. Lagos: National Open University of</p><p>Nigeria, 2010. 69p.</p><p>PIELOU, Evelyn Chrystalla. The measure of diversity in different types of</p><p>biological collections. Journal of Theoretical Biology, 13: 133-144. 1966.</p><p>ECOLOGIA NUMÉRICA 121</p><p>PORTAL-ACTION. Distribuição aleatória de uma variável aleatória binomial.</p><p>Disponível em: <http://www.portalaction.com.br/inferencia/22-distribuicao-</p><p>amostral-de-uma-variavel-aleatoria-binomial>. Acesso em 15 nov 2015.</p><p>QUINN, Gerry P.; KEOUGH, Michael J. Experimental design and data analysis</p><p>for biologists. Cambridge: Cambridge University Press, 2005. 537p.</p><p>ROMESBURG, H. Charles. Cluster analysis for researchers. New York: Lifetime</p><p>Learning Publications, 1984.</p><p>SARTORIO, Simone Daniela. Aplicações de técnicas de análise multivariada em</p><p>experimentos agropecuários usando o software R. Dissertação (Mestrado),</p><p>Escola Superior de Agricultura Luiz de Queiroz, Piracicaba, 2008. 130p.</p><p>SCHWARDT, Ludwig; PREEZ, Johan. Linear Discriminant Analysis. PR414</p><p>/ PR813 Lecture 1. Disponível em: <http://courses.ee.sun.ac.za/Pattern_</p><p>Recognition_813/lectures/lecture01/node6.html>. Acesso em: 19 nov 2015.</p><p>SHANNON, Claude Elwood. A mathematical theory of communication. Bulletin</p><p>of System Technical Journal, v. 27, p.379-423, 1948.</p><p>SHIMAKURA, Sílvia. A distribuição Poisson. Disponível em: <http://leg.ufpr.</p><p>br/~silvia/CE701/node35.html>. Acesso em 15 nov 2015.</p><p>SIMPSON, Edward Hugh. Measurement of diversity. Nature 163: 688. 1949.</p><p>SOARES, Marcelo de Oliveira; LEMOS, Valesca Brasil; KIKUCHI, Ruy Kenji Papa.</p><p>Sedimentos carbonáticos bioclásticos do Atol das Rocas, Atlântico Sul Equatorial.</p><p>Revista Brasileira de Geociências, 39(4): 624-634, dezembro de 2009.</p><p>TRIOLA, Mário F. Introdução à Estatística. 7.ed. Rio de Janeiro: LTC, 1999. 410p.</p><p>TUTOR-TEDDY. Basic Statistics. Disponível em <http://tutorteddy.com/statistics/</p><p>basic-statistics.php>. Acesso em 15 nov 2015.</p><p>VALENTIN, Jean Louis. Ecologia Numérica: uma introdução à análise multivariada</p><p>de dados ecológicos. Rio de Janeiro: Interciência, 2000. 117p.</p><p>REFERÊNCIAS122</p><p>VALENTIN, Jean Louis; MACEDO-SAIDAH, F. E.; TENENBAUM, D. R.; SILVA, N.</p><p>M. L. A diversidade específica para a análise das sucessões fitoplanctônicas.</p><p>Aplicação ao ecossistema da ressurgência de Cabo Frio (RJ). Nerítica, Curitiba,</p><p>v.6, n.1/2, p. 7-26, 1989.</p><p>VASSILIOU, Miguel. 13º relatório de monitoramento: Rev. 01. Programa</p><p>de Monitoramento do Projeto de Recuperação Ambiental Lotes 42 e 44.</p><p>Siderópolis: UNESC, 2010.</p><p>VIEIRA, Sônia. Estatística Experimental. 2.ed. São Paulo: Atlas, 1999. 185p.</p>