Baixe o app para aproveitar ainda mais
Prévia do material em texto
PERÍODO -6º Luiz Alberto Dolabela Falcão Luiz Eduardo Macedo Reis Magnel Lima de Oliveira Rodrigo Oliveira Pessoa CIÊNCIAS BIOLÓGICAS Análise de Dados Biológicos Montes Claros/MG - 2011 Luiz Alberto Dolabela Falcão Luiz Eduardo Macedo Reis Magnel Lima de Oliveira Rodrigo Oliveira Pessoa Análise de Dados Biológicos 2011 Proibida a reprodução total ou parcial. Os infratores serão processados na forma da lei. EDITORA UNIMONTES Campus Universitário Professor Darcy Ribeiro s/n - Vila Mauricéia - Montes Claros (MG) Caixa Postal: 126 - CEP: 39.401-089 Correio eletrônico: editora@unimontes.br - Telefone: (38) 3229-8214 Catalogação: Biblioteca Central Professor Antônio Jorge - Unimontes Ficha Catalográfica: Copyright ©: Universidade Estadual de Montes Claros UNIVERSIDADE ESTADUAL DE MONTES CLAROS - UNIMONTES REITOR João dos Reis Canela VICE-REITORA Maria Ivete Soares de Almeida DIRETOR DE DOCUMENTAÇÃO E INFORMAÇÕES Huagner Cardoso da Silva CONSELHO EDITORIAL Maria Cleonice Souto de Freitas Rosivaldo Antônio Gonçalves Sílvio Fernando Guimarães de Carvalho Wanderlino Arruda REVISÃO DE LÍNGUA PORTUGUESA Ângela Heloiza Buxton Arlete Ribeiro Nepomuceno Aurinete Barbosa Tiago Carla Roselma Athayde Moraes Luci Kikuchi Veloso Maria Cristina Ruas de Abreu Maia Maria Lêda Clementino Marques Ubiratan da Silva Meireles REVISÃO TÉCNICA Admilson Eustáquio Prates Cláudia de Jesus Maia Josiane Santos Brant Karen Tôrres Corrêa Lafetá de Almeida Káthia Silva Gomes Marcos Henrique de Oliveira DESIGN EDITORIAL E CONTROLE DE PRODUÇÃO DE CONTEÚDO Andréia Santos Dias Camilla Maria Silva Rodrigues Clésio Robert Almeida Caldeira Fernando Guilherme Veloso Queiroz Francielly Sousa e Silva Hugo Daniel Duarte Silva Marcos Aurélio de Almeida e Maia Patrícia Fernanda Heliodoro dos Santos Sanzio Mendonça Henriques Tatiane Fernandes Pinheiro Tátylla Ap. Pimenta Faria Vinícius Antônio Alencar Batista Wendell Brito Mineiro Zilmar Santos Cardoso Chefe do Departamento de Ciências Biológicas Guilherme Victor Nippes Pereira Chefe do Departamento de Ciências Sociais Maria da Luz Alves Ferreira Chefe do Departamento de Geociências Guilherme Augusto Guimarães Oliveira Chefe do Departamento de História Donizette Lima do Nascimento Chefe do Departamento de Comunicação e Letras Ana Cristina Santos Peixoto Chefe do Departamento de Educação Andréa Lafetá de Melo Franco Coordenadora do Curso a Distância de Artes Visuais Maria Elvira Curty Romero Christoff Coordenador do Curso a Distância de Ciências Biológicas Afrânio Farias de Melo Junior Coordenadora do Curso a Distância de Ciências Sociais Cláudia Regina Santos de Almeida Coordenadora do Curso a Distância de Geografia Janete Aparecida Gomes Zuba Coordenadora do Curso a Distância de História Jonice dos Reis Procópio Coordenadora do Curso a Distância de Letras/Espanhol Orlanda Miranda Santos Coordenadora do Curso a Distância de Letras/Inglês Hejaine de Oliveira Fonseca Coordenadora do Curso a Distância de Letras/Português Ana Cristina Santos Peixoto Coordenadora do Curso a Distância de Pedagogia Maria Narduce da Silva Ministro da Educação Fernando Haddad Presidente Geral da CAPES Jorge Almeida Guimarães Diretor de Educação a Distância da CAPES João Carlos Teatini de Souza Clímaco Governador do Estado de Minas Gerais Antônio Augusto Junho Anastasia Vice-Governador do Estado de Minas Gerais Alberto Pinto Coelho Júnior Secretário de Estado de Ciência, Tecnologia e Ensino Superior Nárcio Rodrigues Reitor da Universidade Estadual de Montes Claros - Unimontes João dos Reis Canela Vice-Reitora da Unimontes Maria Ivete Soares de Almeida Pró-Reitora de Ensino Anete Marília Pereira Diretor do Centro de Educação a Distância Jânio Marques Dias Coordenadora da UAB/Unimontes Maria Ângela Lopes Dumont Macedo Coordenadora Adjunta da UAB/Unimontes Betânia Maria Araújo Passos Diretor do Centro de Ciências Humanas - CCH Antônio Wagner Veloso Rocha Diretora do Centro de Ciências Biológicas da Saúde - CCBS Maria das Mercês Borem Correa Machado Diretor do Centro de Ciências Sociais Aplicadas - CCSA Paulo Cesar Mendes Barbosa Chefe do Departamento de Artes Maristela Cardoso Freitas Autores Luiz Alberto Dolabela Falcão Bacharel em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes e mes- tre em Ciências Biológicas pela mesma instituição. Atualmente é professor pesquisador da Univer- sidade Aberta do Brasil – UAB Luiz Eduardo Macedo Reis Bacharel em Ciências Biológicas pelo Centro Universitário do Leste de Minas Gerais – UNILESTE-MG mestre em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes. Atual- mente coordena um subprojeto do PIBID/UNIMONTES Magnel Lima de Oliveira Licenciado em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes e mestre em Ciências Biológicas pela mesma instituição Rodrigo Oliveira Pessoa Doutor em Biologia Genética pela Universidade de São Paulo (USP), mestrado em Zoologia pela Universidade Federal da Paraíba, graduado em biologia – licenciatura e bacharelado com ênfase em Zoologia – pela Universidade Federal de Minas Gerais (UFMG). Atualmente é professor da Uni- versidade Estadual de Montes Claros (Unimontes). Sumário Apresentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .9 Unidade 1 Delineamento experimental 1.1 Por que delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11 1.2 Custos de um desenho mal elaborado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12 1.3 Como delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12 1.4 Pseudo-repetição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15 1.5 Como selecionar um número apropriado de réplicas. . . . . . . . . . . . . . . . . . . . . . . . . .17 Referências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19 Unidade 2 Probabilidade e variabilidade 2.1 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 2.2 Probabilidade e amostragens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 2.3 Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24 Unidade 3 Hipóteses Biológicas 3.1 Métodos científicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2 Dedução e indução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3 Método hipotético-dedutivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26 3.4 Testando hipóteses estatísticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 3.5 Hipótese nula x Hipótese alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 28 8 UAB/Unimontes - 6º Período Unidade 4 Regressão linear e ANOVA 4.1 Regressão linear simples: Um fator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2 Regressão múltipla: múltiplos fatores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33 4.3 Análise de variância (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35 Referências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Unidade 5 Modelos lineares generalizados 5.1 A análise dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39 5.2 Modelos paramétricos e não paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39 5.3 A construção dos modelos de análise de modo paramétrico . . . . . . . . . . . . . . . . . 40 5.4 A escolha e o uso de uma curva teórica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.5 As curvas teóricas encontradas na família GLM, de maior interesse para biólogos . .41 5.6 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41 5.7 Ajustamento no processo de padronização. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41 5.8 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42 5.9 Como construir modelos de regressão coerentes com as predições testadas . . .42 5.10 Método de construção e simplificação dos modelos construídos . . . . . . . . . . . . .43 5.11 Método Backward de construção e/ou simplificação de modelos de regressão . .43 5.12 Método Forward de construção e/ou simplificação de modelos de regressão. . . .45 5.13 Método Stepwise de construção e/ou simplificação de modelos de regressão . . 46 5.14 Métodos de crítica ao modelo construído . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .47 Referências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53 Atividades de Aprendizagem – AA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55 9 Ciências Biológicas - Análise de Dados Biológicos Apresentação Caro(a) acadêmico(a), Iniciamos agora a disciplina Análise de Dados Biológicos. De maneira geral, nós, biólogos, temos certa aversão a números e modelos matemáticos. Entretanto, a estatística nos fornece a possibilidade de resumir aspectos gerais da natureza em padrões científicos através da mensu- ração e análise de dados. Sem esta ferramenta, estaríamos todos desenvolvendo teorias e mais teorias sem nenhum sentido científico. A análise de dados biológicos engloba um número infinito de possibilidades. Podemos “analisar” os dados amostrados utilizando desde uma simples comparação entre médias até complexos modelos multivariados de exploração. Entretanto, nesta disciplina, focamos em as- pectos mais básicos da estatística que nos permitirão entender a linguagem científica de uma maneira geral. Sendo assim, começamos agora nossa disciplina. Recomendamos a utilização de outros li- vros-textos e outras fontes de informação parra compreensão mais aprofundada de alguns as- suntos. Então, vamos nessa?! Mãos à obra e bons estudos a todos! Os autores. 11 Ciências Biológicas - Análise de Dados Biológicos UNIDADE 1 Delineamento experimental O delineamento experimental é o pas- so crucial durante a elaboração de trabalhos científicos para alcançar o objetivo da ciência de responder as perguntas formuladas nor- malmente através das hipóteses. Portanto, um desenho amostral mal formulado terá conse- quências diretas nos resultados, culminando em respostas equivocadas que nenhum teste estatístico será capaz de corrigir. O delineamento experimental é definido por Magnunsson e Mourão (2003) como uma maneira de “coletar os dados de forma que você tenha uma boa chance de tomar uma boa decisão”. Todavia os passos para alcançar esta “boa decisão”, durante a escrita de seu projeto, seguem as premissas de um méto- do científico, em que primeiramente se deve pensar, formular perguntas e hipóteses que serão a base para tal delineamento, além de desenhar o experimento e realizar as análises estatísticas quando necessárias. Desta forma a estatística é apenas uma ferramenta de análi- se de dados que permite a comunicação entre pesquisadores. 1.1 Por que delinear? Delinear é a arte do pesquisador (Mag- nunsson e Mourão 2005) e é uma ótima ana- logia a ser utilizada. Vamos citar como exem- plo um bom compositor que, para deixar suas canções belas, agradáveis de ouvir, com os melhores arranjos nos instrumentos e vocal, dedica tempo e dinheiro, fazendo com que sua mensagem seja enviada de forma plena aos ouvidos de quem escuta. Este é o mesmo trabalho de um pesquisador ao elaborar uma pergunta e desenhar um experimento, gas- tando tempo, preocupando-se com as pecu- liaridades de cada pergunta para montar um esquema com o melhor aproveitamento do recurso, apresentando, assim, resultados claros e robustos ao escrever seus artigos científicos. Sendo capaz de repassar as descobertas para quem as vê. Pode parecer uma tarefa difícil ou qua- se uma missão impossível, mas não é! Basica- mente, conhecer o sistema a ser observado, que é o objeto do seu estudo, é o mais impor- tante. Pois, na biologia nada é tão exato quan- to parece ser, e normalmente diversos fatores influenciam no seu objeto de estudo. Comecem seu experimento com uma pergunta que seja “respondível”, pois ela dará origem a boas hipóteses, que são fatores im- portantíssimos no processo do delineamento experimental. Fujam de perguntas difíceis de serem respondidas como “Existe vida após a morte?”, com certeza a resposta seria interes- santíssima, mas desafia a mente humana a de- rivar hipóteses refutáveis (Magnunsson e Mou- rão 2005). Iniciar perguntas com “por que”, normal- mente constitui um bom início para o desen- rolar de um trabalho científico. Por exemplo, assistindo ao noticiário da sua cidade, você percebe que os casos de dengue aumentaram consideravelmente nos últimos meses, apenas nos bairros da zona leste da cidade. Você se in- teressa em saber “por que existem mais casos de dengue nesta região”. Como conhece bem sua cidade e, sabe das prin cipais diferenças entre as regiões (norte, sul, leste e oeste), você será capaz, com algum conhecimento prévio, de formular novas perguntas que darão ori- gens as suas hipóteses. Vamos citar algumas possibilidades: • Será que o rio situado ao leste da cidade, funciona como um reservatório para o mosquito transmissor? • O grande número de terrenos abandonados nesta região pode conter água e facilitar o pro- cesso de reprodução do mosquito? • Casas com grandes quintais, como é característica desta região, são reservatórios efetivos do mosquito transmissor? PARA REFLETIR Somos compositores de um bom conheci- mento científico. DICAS Turkey (1980) enfatizou que “Encontrar a per- gunta certa é frequen- temente mais impor- tante do que encontrar a resposta certa”.12 UAB/Unimontes - 6º Período Veja que todas as perguntas partiram do conhecimento prévio da região a ser estudada, en- tretanto muitas vezes o recurso financeiro que possui não permite que responda a todas elas. 1.2 Custos de um desenho mal elaborado Os trabalhos que não apresentam um de- senho experimental bem elaborado serão ca- pazes, na melhor das hipóteses, de apresentar resultados limitados e, na pior das hipóteses, de não apresentarem resultado algum (RUX- TON; COLEGRAVE, 2006). Pois, as análises serão feitas através de recursos estatísticos comple- xos a fim de corrigirem possíveis erros amos- trais, incapazes, na maioria dos casos, de res- ponderem alguma questão. É neste momento que se percebe a perda de tempo e/ou dinhei- ro. Ainda que o experimento consiga con- templar as questões propostas, existem outras formas de um experimento mal delineado ser menos eficiente. Um erro comum é assumir que todo experimento deve ser feito com o maior número possível de coletas. Mas, se você coleta mais dados do que sua pergunta realmente necessita você perdeu tempo e di- nheiro. Por outro lado, caso seu experimento trabalhe em uma escala maior e necessite de muitas coletas ou muitos materiais no labora- tório, há a tentação de torná-lo o menor pos- sível. Assim caso seu experimento seja muito pequeno, sem chance alguma de detectar os efeitos de interesse, haverá novamente perda de tempo e dinheiro, e provavelmente você terá que refazer suas coletas. Além disso, existem casos em que se cole- ta dados demasiadamente, sem que se pense no que está sendo feito, e no fim do processo vem a pergunta: Afinal, qual destes dados é realmente importante para minha pesquisa? Esta é uma ótima maneira de gastar seu pre- cioso tempo: Coletando coisas desnecessárias, e correr o risco de não coletar os dados que realmente tenham sentido para sua pesquisa. Para evitar tais problemas, basta usar mais do seu tempo planejando o delineamento de sua pesquisa. 1.3 Como delinear? Começaremos nossa discussão diferen- ciando estatisticamente os termos “popula- ção” e “amostra”. População é um conjunto de elementos que tem em comum determinada característica. Em uma população de peixes de um lago, os elementos seriam os peixes que a compõe. Assim uma amostra seria um subcon- junto dessa população. As populações podem ser finitas como um conjunto de alunos de uma escola em de- terminado ano ou infinitas como o número de vezes que se pode jogar um dado. Entretanto, a maioria das pesquisas biológicas apresenta populações com muitos elementos, inviabi- lizando o levantamento completo e efetivo de suas unidades, chamado recenseamento (Censo). Por esta razão os pesquisadores traba- lham com amostras (parte da população). Por exemplo, o número de tucanos existentes no mundo é matematicamente finito, mas as pes- quisas realizadas com essas aves só podem ser feitas com amostras, porque nenhum pesqui- sador dispõe de meios para coleta de todos os tucanos existentes no globo. Além disso, para alguns estudos espe- cíficos, o uso de amostras tem maior valor científico do que o estudo sumário de toda população. Por exemplo, para estudar o efei- to de uma toxina no controle de insetos-pra- ga de Eucalipto, é melhor submeter amos- tras destes insetos a exames minuciosos em laboratório, e determinar a viabilidade do uso para seu controle, do que utilizar esta toxina nas plantações, correndo o risco de causar danos ao ambiente sem comprova- ção científica de sua atuação eficaz. Então, como devemos delinear um ex- perimento? É a pergunta que não quer calar! Independentemente do campo de pesquisa, a melhor forma de delinear um experimen- to, será bem diferente da melhor maneira de delinear outro. Assim, o conhecimento biológico é parte crucial do delineamento experimental. PARA REFLETIR É somente através do conhecimento prévio do objeto de estudo que se chega a um desenho bem estru- turado, organizado e eficaz. DICAS Um delineamento ex- perimental mal formu- lado será penalizado com perda de tempo e recursos materiais. 13 Ciências Biológicas - Análise de Dados Biológicos Na Biologia, mais do que qualquer outra ciência, seja ela física ou matemática, a varia- ção é regra e as causas destas variações são complexas e diversas. Existe variação em qual- quer lugar ou estema de estudo, mesmo que sejam clones ou populações naturais. Assim, indivíduos de uma população de peixes va- riam em tamanho corporal ou bactérias em um tubo de ensaio variam em taxas de cresci- mento. Esta complexidade de variações faz com que os experimentos biológicos necessitem de amostragens que sejam capazes de revelar as situações reais daquele sistema. Vamos su- por que um Biólogo tenha sido contratado por um piscicultor para verificar que fatores cau- sam mortalidade em tilápias (peixes) criadas em sua piscicultura comercial. O dono do es- tabelecimento reclama de perdas na produção em um dos seus três tanques de criação. O proprietário revela que não existe dis- tinção de tratamento dos peixes entre os tan- ques. Sabendo-se que a mortalidade causada por parasitas é um dos principais fatores res- ponsáveis pela morte de peixes em piscicultu- ras, o Biólogo vai ao estabelecimento e coleta um peixe em cada tanque aleatoriamente e, em laboratório, determina a taxa de parasitis- mo de cada um deles. Encontrando o seguinte resultado (Fig. 1) Tanque 1 Tanque 2 Tanque 3 0 20 40 60 80 100 % de parasitism o Veja, parece que o peixe coletado no ter- ceiro tanque possui uma carga parasitária um pouco maior do que os peixes dos tanques um e dois. Entretanto, o Biólogo não ficou con- vencido desse resultado, pois um peixe com 10% de parasitas a mais do que outros não é o suficiente para concluir que o parasitismo é a causa das mortes de todos os peixes nesse tanque. Outros fatores podem influenciar com maior força nas taxas de mortalidade do que o parasitismo. Para solucionar este problema, o Biólogo retorna ao estabelecimento e realiza mais uma coleta aleatória e, desta vez, coleta 20 peixes por tanque, encontrando o seguinte resultado (Fig. 2). Tanque 1 Tanque 2 Tanque 3 0 20 40 60 80 100 % de parasitism o Figura 1: Modelo representando a porcentagem de parasitismo de um peixe por tanque de criação de tilápias. Fonte: Acervo autores ► PRA REFLETIR Na Biologia, VARIAÇÃO é regra! GLOSSáRIO: Aleatório: Adj. Que repousa sobre um acontecimento incerto, fortuito. Seriam dados sorteados. Figura 2: Modelo representando a porcentagem de parasitismo em 20 peixes por tanque de criação de tilápias. Fonte: Acervo autores ► 14 UAB/Unimontes - 6º Período Há um aumento na confiança do Biólogo ao dizer que o tanque 3 apresenta maiores ta- xas de mortalidade devido à presença de para- sitas. A razão desta maior confiança não é obs- cura. Através da amostra de um único peixe é bastante possível que as diferenças das taxas de parasitismo entre os tanques sejam mera obra do acaso, e é improvável que o mesmo acaso ocorra durante a seleção aleatória de 20 peixes por tanque. O que o Biólogo fez foi re- plicar sua observação. Se as diferenças foram casuais no primeiro momento, não é esperado que o mesmo ocorra em uma amostra maior da população. Todas as análises estatísticas são baseadas em réplicas, que são realmen- te uma maneira de formalizar a ideia de que quanto mais vezes observamos um fenômeno, menores serão as chances dos resultados se- rem casuais. Observem que o Biólogo possui 20 amos- tras de peixes por tanque, como são três tan- ques, logo o seu número amostral (N) é igual a 60. Estes 60 peixes foram coletadosde forma aleatória, que é uma das formas de se amos- trar uma população, entretanto este tipo de amostragem permite apenas uma visão geral da realidade daquele sistema. Onde todo o elemento da população tem igual probabilida- de de ser escolhido para a amostra. Assim, apesar de estar certo de que a ele- vada taxa de mortalidade dos peixes do tan- que três é causada por parasitas, nosso amigo Biólogo é incapaz de responder a seguinte pergunta através de seus resultados; por que os peixes do tanque três são mais parasitados? Para responder a esta questão o Biólogo, com conhecimento prévio do sistema de pa- rasitismo em peixes, sabe que peixes mais ve- lhos e pesados geralmente apresentam maio- res taxas de parasitismo, devido à depressão do seu sistema imune a partir de determinada idade. Com caráter investigativo, o pesquisador utiliza o mesmo desenho com os 20 peixes co- letados aleatoriamente em cada tanque para estabelecer uma comparação do peso entre os tanques. E revela o seguinte resultado (Fig. 3): Tanque 1 Tanque 2 Tanque 3 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 Peso (kg) Agora nosso Biólogo está convencido de que o tanque três possui peixes mais velhos e pesados quando comparado aos outros tan- ques. Será que a hipótese de que peixes mais velhos são mais susceptíveis ao ataque de pa- rasitas está correta? Para sanar esta dúvida, o pesquisador re- torna ao estabelecimento e realiza a coleta de outros 60 peixes apenas no tanque três, mas desta vez os separa em três categorias de ida- de durante a coleta: Peixes com idade entre oito a dez meses, peixes de 12 a 14 meses e peixes com mais de 16 meses. Repare que des- ta vez a coleta não é mais aleatória! Desta forma nosso pesquisador possui uma amostra estratificada, com 20 peixes por estrado, onde os estrados são representados pela idade dos peixes. Após a coleta o Biólo- go vai ao laboratório e determina as taxas de parasitismo em cada um deles, revelando o se- guinte resultado (Fig. 4). PARA REFLETIR Replicação é uma maneira de lidar com as variações entre indivíduos devido às variações aleatórias que estarão presentes em qualquer experi- ência de ciências da vida. Quanto maior o número de réplicas maior será a confian- ça que teremos em dizer que qualquer diferença encontrada entre os grupos de seu experimento é devida aos fatores em que estamos interessados e não ao acaso. ◄ Figura 3: Modelo representando o peso de 20 peixes por tanque de criação de tilápias. Fonte: Acervo autores 15 Ciências Biológicas - Análise de Dados Biológicos 8 a 10 meses 12 a 14 meses > 16 meses 0 10 20 30 40 50 60 70 80 90 % de parasitism o De fato o pesquisador através de sua es- tratificação por idade evidenciou que os pei- xes mais velhos são aqueles mais parasitados e, por conta da presença destes peixes com baixo sistema imune nesse tanque, há uma taxa de mortalidade maior no local. Assim, após sua pesquisa, o Biólogo é ca- paz de programar um sistema eficaz de ma- nejo da piscicultura de tilápias para o empre- endedor, retirando aqueles peixes com idade entre 12 a 14 meses de vida. Aprendemos, portanto, que uma amostra é parte de uma população de elementos, e as réplicas são repetições independentes feitas a fim de descrever as variações dos elementos contidos nessa população. Veremos, a seguir, um dos principais problemas da estatística atualmente, a chamada pseudo-repetição. 1.4 Pseudo-repetição Toda replicação deve conter amostras independentes entre si. Vejamos o exemplo anterior! Cada peixe é uma unidade amostral independente, devido à taxa de parasitismo depender das características fisiológicas de cada um. Assim, caso o pesquisador dividisse os peixes pela metade e determinasse o para- sitismo em cada parte, ele estaria aumentan- do sua amostra em 100%. Mas, seria um erro considerá-las independentes, pois o sistema fisiológico funciona no peixe inteiro e não de forma independente entre suas metades, isso não é o real. Portanto, o que chamamos de pseudo-réplicas nada mais é do que réplicas de um experimento sem que haja indepen- dência entre amostras, ou seja, há uma eleva- ção do número de amostras sem descrição da realidade. Espera-se que a quantidade de informa- ção disponível aumente o número de observa- ções, mas nem sempre é assim. Quando uma nova observação fornece apenas a mesma informação que tínhamos de observações an- teriores não aumentou a quantidade total de conhecimento disponível para nós, podendo confundir-nos, fazendo-nos acreditar que dis- pomos de mais informações do que as que realmente temos. Assim, por esta observação não ser uma real repetição, Hurlbert denomi- nou-a “pseudo-repetição”, que significa falsa repetição (MAGNUNSSON; MOURÃO, 2005). As pseudo-repetições podem ser espa- ciais, temporais, filogenéticas ou técnicas. As mais comuns em trabalhos científicos e mais difíceis de serem evitadas são as falsas repe- tições espaciais e temporais. As pseudo-repe- tições filogenéticas e técnicas normalmente ocorrem em estudos específicos ou que con- tenham problemas técnicos durante o experi- mento. A pseudo-repetição filogenética ocorre onde as espécies são as unidades amostrais e os organismos usados no experimento têm es- treito parentesco. Por exemplo, girinos de uma mesma desova podem apresentar respostas ecológicas muito similares, devido ao mate- Figura 4: Modelo representando uma amostra estratificada de peixes por idade, em relação à porcentagem de parasitismo, em um tanque de criação de tilápias. Fonte: Acervo autores ► DICAS Replicações devem ser independentes; caso contrário, será uma pseudo-replicação Em uma pseudo-réplica as unidades amostrais possuem dependência entre si. Ou seja, uma modificação em uma unidade amostral não pode afetar a outra. 16 UAB/Unimontes - 6º Período rial genético semelhante entre os elementos e normalmente não representam a situação real exibida por populações maiores. Na pseudo- -repetição técnica, a “falsa réplica” ocorre quando diferentes observações ou instrumen- tos são utilizados no experimento. Isso nor- malmente não ocorre em experimentos bem planejados, mas eventualmente existem falhas nos equipamentos utilizados ou mudança da pessoa que está coletando os dados, o que pode alterar os resultados em decorrência da particularidade de cada um ao realizar sua ta- refa. Para compreendermos o erro contido em uma pseudo-repetição espacial, vejamos o se- guinte exemplo: Nosso amigo Biólogo foi con- tratado novamente, mas desta vez, por uma empresa que cultiva eucaliptos, interessada em saber a influência das regiões de mata so- bre a densidade de mariposas que consome os plantios. Portanto, a questão biológica é determinar se a complexidade deste ambiente próximo ao plantio influencia na densidade de mariposas que devora os plantios. O que aconteceria se nosso Biólogo amostrasse cinco seções de um plantio com uma floresta nativa adjacente e outras cinco seções de outro plantio sem floresta adja- cente? Como demonstrado na Fig. 5, todas as seções do primeiro plantio poderiam ter me- nos mariposas porque a floresta adjacente foi queimada em um passado recente ou é pou- co produtiva ou qualquer um de um grande número de fatores possíveis que afetam as mariposas. Para esta questão, uma amostra da densidade de mariposas em um plantio obviamente não é independente de outras amostras do mesmo plantio. Portanto, as cinco amostragens não carregam mais informações do que uma única amostra. De fato este erro simples é muito compli- cado de ser observado e, por isso, nós pesqui- sadores devemos preocupar-noscom a inde- pendência entre amostras. Isto é uma tarefa difícil porque nenhuma observação é comple- tamente válida ou inválida. Uma pseudo-repe- tição espacial para uma questão pode ser uma repetição válida para outra. Por exemplo, se nosso amigo Biólogo estivesse interessado em diferenças nas densidades de mariposas entre plantios (sem levar em consideração a pre- sença de florestas adjacentes) as cinco obser- vações seriam réplicas perfeitamente válidas, cada uma trazendo mais informação a respeito das densidades de cada plantio. As pseudo-repetições temporais são ain- da mais difíceis de serem detectadas. Ocorrem por exemplo quando os pesquisadores têm o interesse de descrever os efeitos da sazonali- dade sobre os padrões de diversidade em um determinado sistema. Entretanto, o estado de um sistema natural não se altera instantanea- mente. Assim, coletas mensais em um mesmo ponto não são independentes, porque as con- dições climáticas da primeira coleta possuem influência nos padrões de diversidade encon- trados na segunda e, da mesma forma, as con- dições climáticas da segunda terão influência na terceira coleta, e assim sucessivamente nos próximos meses. Problemas similares ocorrerão em qual- quer experimento que contenha múltiplas ob- servações ao longo do tempo (RUXTON ;COLE- GRAVE, 2006). Saber se estas observações são ou não independentes variará de acordo com as particularidades biológicas de cada sistema. Muitas vezes, como é o caso da sazona- lidade citada acima, não é possível fugir da pseudo-repetição temporal, o jeito é conviver com isso, analisando seus dados, incluindo o ◄ Figura 5: Esquema demonstrando as seções de coleta do pesquisador contratado pela empresa de eucalipto. Os pontos amarelos representam a disposição da amostra em um plantio coberto por área de mata em “A” e sem a presença de mata em “B”. Fonte: Acervo autores 17 Ciências Biológicas - Análise de Dados Biológicos erro contido na amostragem (existem alguns pacotes estatísticos especializados neste tipo de erro) ou realizar coletas em um longo pe- ríodo de tempo, talvez décadas. Mas se qui- ser um bom conselho, fuja, como a caça foge do caçador, de experimentos que contenham qualquer tipo de pseudo-repetição. Isto com- plicará seus estudos. 1.5 Como selecionar um número apropriado de réplicas Como vimos até aqui, um delineamento adequado com réplicas verdadeiras é a base para realização de análises estatísticas corre- tas e robustas. Assim, durante a elaboração do delineamento experimental normalmente surge a pergunta: Quantas replicações são ne- cessárias? Como foi discutido anteriormente, quanto maior é o número de repetições, maior será a confiança ao dizer que as diferenças en- tre grupos são reais e não simplesmente obra do acaso. Entretanto, o aumento no número de repetições significa aumento de custo para a realização do estudo. Este custo pode ser fi- nanceiro; se o experimento envolve a compra de reagentes caros, multiplicar o número de réplicas implica no aumento considerável des- ses custos ou, como normalmente é o caso, ex- perimentos custam muito TEMPO. Portanto, temos que tentar equilibrar o ideal ao real, fazendo a pergunta: Quan- tas replicações meu experimento deve ter? A melhor resposta seria, “O suficiente para ter CONFIANÇA ao dizer que qualquer efeito bio- lógico encontrado existe sem a coleta de ob- servações desnecessárias”. Vamos com calma, decidir qual o tamanho adequado de amostras não é tão complicado assim! Existem várias formas de auxílio nesta questão. Uma delas seria utilizar o material existente na literatura, buscando experimen- tos que contenham características similares ao seu. Uma questão relativamente simples, mas este método somado à experiência que seu professor orientador possui é uma técni- ca muito útil para determinar o tamanho da amostra. Outra maneira seria fazer exatamente o que está descrito no item “Como deline- ar” descrito pelas figuras 1 e 2. Vá aumentan- do o número de pontos no gráfico até que o padrão pareça convincente. Este processo é descrito por Dytham (1999) como “collecting dummy data” ou em português “coleta de da- dos substitutivos” (MAGNUNSSON; MOURÃO, 2005). Em um experimento simples como, por exemplo, saber quanto tempo de coleta é ne- cessário para determinar a riqueza de lagartos de um determinado local basta fazer uma cur- va de acumulação de espécies, apesar de não se adequar a todos os casos ( SCHILLING; BA- TISTA, 2008). Este método pode ser bastante útil se o objetivo for determinar o tempo ade- quado e o número de armadilhas no local a ser estudado. Basta realizar um estudo piloto, colocando suas armadilhas e coletar seus da- dos diariamente ou de hora em hora, mas isso vai depender da escala. Com seus resultados, vá acumulando o número de espécies encon- trado na primeira coleta, com o encontrado na segunda e assim, sucessivamente, até que a li- nha do seu gráfico estabilize-se. Por exemplo, na primeira coleta encontra- mos as espécies A, B e C, portanto temos uma riqueza igual a três, na segunda coletamos as espécies D, E e F, portanto minha riqueza na segunda coleta é igualmente três. Logo, ao acumularmos as riquezas das duas coletas, partiremos de três espécies novas na primeira para seis espécies novas na segunda coleta. Continuando o experimento encontramos na terceira coleta as espécies A e G, portanto, a riqueza é igual a dois, mas nesta coleta pos- suímos apenas uma nova espécie, a espécie “G”, assim, ao acumularmos a riqueza, teremos sete espécies coletadas no terceiro dia ou hora de coleta (vejam a Fig. 6 a seguir para maiores detalhes). PARA REFLETIR Nunca se convença de que não existem, na literatura mundial, ex- perimentos que sejam similares ao seu. Sem- pre existem estudos capazes de auxiliar na construção do seu! 18 UAB/Unimontes - 6º Período Analisando visualmente o gráfico acima, somos levados a crer que a partir de oito coletas não iremos acrescentar uma nova espécie em meus dados, portanto oito coletas é o número ide- al para realização deste trabalho. Entretanto, na biologia, as coisas não são tão simples assim. Vejamos o exemplo prático a seguir. A curva do coletor deste artigo demons- tra que seus dados apontam para um crescen- te número de espécies encontrado ao longo das visitas. Demonstrando insuficiência amos- tral para a realização de um inventário com- pleto de anfíbios (Toledo et al., 2003). Os au- tores realizam análises contendo índices como jackknife e bootstrapping por serem técnicas de reamostragem que fornecem um valor de riqueza de espécies e uma estimativa do inter- valo de confiança, permitindo comparações estatísticas entre dois ou mais tratamentos. Não iremos ater-nos aos detalhes desta análi- se, mas é preciso que compreendam suas fun- ções válidas e para tanto recomendamos a lei- tura de Trust (1974) para maiores detalhes. Além destas técnicas, que são “boas di- cas”, existem inúmeros cálculos matemáticos elegantes para decidir quantas observações são necessárias para se detectar um efeito de boa magnitude (KREBS 1989), entretanto todos eles requerem amostras preliminares (KRAMER; THIEMAN, 1987) e a maioria é limi- tada por situações triviais e simples (MAG- NUNSSON; MOURÃO 2005). Na prática nós não precisamos recorrer a longos processos de simulações em computador para calcular o poder do teste, você precisa saber que eles existem. Decidir qual o tamanho ideal das amostras é uma tarefa que requer conheci- mento e, mais importante, paciência. ◄ Figura 6: Demonstração do acumulo de espécies de lagartos em relação ao número de coletas. Vejam que apenas as espécies “novas” são levadas em consideração para a construção de umacurva do coletor. Fonte: Acervo autores ◄ Figura 7: Curva do coletor calculada com o número de espécies de anfíbios entre visitas ao campo. Cada ponto expressa a média de 50 pontos gerados pelo simulador EstimateS versão 6.0b1 e as barras indicam o desvio padrão calculado para cada ponto. FONTE: Toledo et al., (2003), disponível em: http://www.ib.unicamp. br/museu_zoologia/files/ lab_museu_zoologia/To- ledo_et_al_2003_Comuni- dade_FEENA.pdf GLOSSáRIO Poder do teste: É a probabilidade que um experimento possui para detectar alguma diferença entre os tratamentos, assumin- do que esta diferença existe para ser detec- tada. Ou em outras palavras, “Se repetir o experimento várias vezes, quanto maior o número de vezes para que o seu teste descubra diferenças, mais adequado será o tamanho da amostra”. 19 Ciências Biológicas - Análise de Dados Biológicos Referências Kraemer, H. C.; Thiemann, S. How Many subjects? Statistical power analysis in reseach. The international Professional publishers, London, 1987. Krebs, C. J. Ecological Methodology. New York: Harper & Row,1989. Magnusson, W.E. & Mourão, G. Estatística sem matemática. Londrina: Editora Planta, 2005. Ruxton, G.D. & Colegrave, N. Experimental design for the life sciences. 2ªed. Oxford, 2006. Schilling, A. N., & Ferreira, L. Curva de acumulação de espécies e suficiência amostral em florestas tropicais. Acta Amazonica, 179-187, 2008. Toledo, L. F., Zina, J. & Haddad, C. F. Distribuição Espacial e Temporal de uma Comunidade de Anfíbios Anuros do Município de Rio Claro, São Paulo, Brasil. Holos Environment, 136-149, 2003. 21 Ciências Biológicas - Análise de Dados Biológicos UNIDADE 2 Probabilidade e variabilidade Nesta unidade estudaremos dois concei- tos básicos para o entendimento da estatística: Probabilidade e variabilidade. O primeiro, de uma maneira geral, é mais claramente utiliza- do no nosso cotidiano, ao passo que o segun- do é a base da maioria dos testes estatísticos de comparação de médias. 2.1 Probabilidade Um exemplo clássico de probabilidade é a previsão do tempo. Quando lemos no jornal que existe 90% de chance de chover intuitiva- mente sabemos o que isto significa, ou seja, que a chance de chover é extremamente alta. Sendo assim, é prudente sair com um guarda- -chuva. Mas por que não podemos afirmar com certeza se irá ou não chover? Isto acon- tece porque existe variação nas condições, e esta nem sempre é possível de ser previs- ta. Entretanto, entraremos nesta questão um pouco adiante. Vamos tomar um exemplo bem simples para entender como calculamos a probabi- lidade de um evento real. Imaginemos um grupo de leões que se alimenta de antílopes. Para calcularmos a probabilidade de um leão capturar um antílope, basta que observemos criteriosamente o número de ataques de leões a antílopes e quantos destes são bem sucedi- dos. O ataque é, então, o evento que estamos observando com dois resultados possíveis: Captura ou fuga. Um evento, estatisticamente falando, deve ser um processo simples com início e fim bem definidos. Suponhamos que observamos, em um dia, 100 ataques de leões a antílopes. Destes, 98 resultaram em captura, ao passo que nos outros dois ataques, os antílopes consegui- ram escapar. Para calcularmos a probabilidade de que nosso evento ocorra (neste caso nosso evento é a captura) basta dividirmos o núme- ro de capturas pelo número de observações. Neste caso temos: Onde P: probabilidade; C quantidade de capturas observadas; O número total de ob- servações. Analisando a fórmula, podemos chegar a uma conclusão óbvia: Nunca pode haver mais resultados do que observação. Sendo assim, nossa probabilidade sempre estará entre 0 e 1. Uma probabilidade (P), próxima a 1, indi- ca que nosso evento tem grandes chances de acontecer. Por outro lado, um valor de P baixo indica que as chances de que nosso evento ocorra são raras. Entretanto, mesmo o cálculo simples, como o de leões e antílopes, pode ser proble- mático. Poderíamos ter observado nosso even- to, por exemplo, em um dia muito quente, o que poderia ser uma vantagem para os leões, causando uma maior probabilidade de cap- tura do que o habitual. Então, como definir o quanto de observações é necessário para esti- marmos a probabilidade? 2.2 Probabilidade e amostragens Em nosso exemplo, observamos os leões e antílopes durante um dia e calculamos nossa probabilidade de captura P=0,98. Se to- marmos este valor como real, observamos que é quase certa (98% de chance) a captura de um antílope pelos leões. Entretanto, conforme já dito, vários outros fatores poderiam estar atuando neste nosso dia de estudo em parti- 22 UAB/Unimontes - 6º Período cular. Uma maneira de resolver isso seria rea- lizar o experimento em todos os dias durante um ano. Entretanto, esta seria uma maneira extremamente custosa de solucionar o proble- ma. Então como resolver esta questão? Uma maneira eficaz de se estimar a pro- babilidade é através do uso de amostras (GOT- TELI; ELLISON, 2011). Uma amostra, nada mais é, do que uma parcela considerável do nosso objeto de estudo. No caso poderíamos obser- var durante cinco dias por mês nosso evento (captura de antílopes por leões), em diferentes partes da área de estudo. Assim, assumiríamos que a maior parte das condições ambientais em que nosso evento está inserido foi englo- bada. Após a realização desta nova metodolo- gia, o pesquisador chegou aos seguintes nú- meros: Capturas Fugas Total 65 35 100 Note que, neste caso, nosso resultado foi bastante diferente do encontrado no primeiro momento. Esta probabilidade de P=0,65 prova- velmente aproxima-se mais da realidade, uma vez que o experimento foi conduzido sob dife- rentes condições ambientais. Sendo assim, em nosso exemplo, a chance de um leão capturar um antílope em condições naturais é de 65%. Estimativas de probabilidades também são possíveis com experimentos em laboratório. Um pesquisador interessado em estudar a germina- ção de sementes de uma dada espécie vegetal pode, por exemplo, controlar algumas variáveis e realizar testes de germinação com estas semen- tes para estimar a probabilidade de que as se- mentes germinem sobre determinada condição. Imaginemos um pesquisador interessado em estudar os efeitos da seca sobre a germi- nação de pequizeiro (Caryocar brasiliense) uma árvore típica do cerrado. O pesquisador coleta sementes desta planta e, em laboratório, acom- panha sua germinação durante um período de 30 dias com umidade controlada de 20% (estes números ficam a critério do pesquisador, depen- dem de seu objetivo). Ao fim do experimento, ele pode calcular a probabilidade de germinação das sementes de pequizeiro em um ambiente de baixa umidade. Notem que experimentos labo- ratoriais permitem o controle de outras variáveis. Se o mesmo experimento fosse conduzido no campo, além de ser quase impossível o contro- le da variável principal (umidade) outros fatores como luminosidade, temperatura, etc., poderiam atuar em conjunto, mascarando os resultados. A utilização de amostras em biologia é algo natural. Na maioria dos casos, é impossível, ou pelo menos inviável, a realização de um experimento ou observação de um evento com todos os indivíduos de uma população. Sendo assim, a utilização de amostras é importante ferramenta no desenvolvimento de trabalhos científicos. 2.3 Variabilidade A variabilidade é algo comum na biolo- gia. (Magnusson; Mourão, 2003) Aliás, a va- riação entre indivíduos é a base de uma das teorias mais revolucionárias na biologia: A teoria da seleção natural. A variabilidade se refere a diferenças encontradas em um pa- drão específico. Por exemplo, em indivíduos de uma mesmaespécie, encontramos dife- renças genotípicas, o que chamamos de va- riabilidade genética. De fato, biologicamen- te falando, não existem amostras retiradas de uma população (neste caso designando a totalidade) que não apresente variações, mesmo que diminutas. Vamos a mais um exemplo simples. Um pesquisador está interessado em associar o ganho de peso ao tipo de dieta oferecida a uma espécie de peixes comer- cial, a tilápia. Em dois tanques, ele coloca dez tilápias em cada e oferece dois tipos de ração: Uma rica em gordura e a outra em proteína. Após dois meses de experi- mento, os peixes foram pesados e encon- trados os seguintes resultados: 23 Ciências Biológicas - Análise de Dados Biológicos Tabela 1: Peso de peixes em dois tanques de criação alimentados com diferentes rações (tratamentos) Indivíduo Tanque I – Gordura (peso em kg) Tanque II – Proteína (peso em kg) 1 3 1,5 2 2,7 2,0 3 4,5 2,1 4 1,9 1,7 5 2,0 1,8 6 2,4 2,0 7 2,8 2,,3 8 2,3 1,6 9 2,0 2,0 10 2,1 1,8 Note nos resultados que, mesmo em peixes com a mesma dieta, foi observada diferença no ganho de peso. Ou seja, existe uma variabilidade no seu parâmetro obser- vado. Isto possivelmente pode estar relacio- nado a características fisiológicas de cada indivíduo. Sendo assim, indivíduos com a mesma dieta, submetido às mesmas condi- ções, apresentam diferenças no peso. Qual a importância desta variabilidade para o ex- perimento do pesquisador? O interesse inicial do pesquisador é rela- cionar o tipo de dieta ao ganho de peso. De acordo com nossos dados, observamos uma tendência no aumento de peso nos peixes submetidos a uma dieta rica em gordura, en- tretanto diferenças foram observadas mesmo em peixes com a mesma dieta. Se fizermos a média, observaremos que peixes com dieta gordurosa, pesam, em média, 2,57 kg. Enquan- to peixes com dieta protéica pesam, em média 1,88 kg. Uma simples análise destes dois nú- meros não nos permite chegar a uma conclu- são. Na verdade, o pesquisador deverá utilizar testes estatísticos que comparam a variabili- dade entre indivíduos do mesmo grupo e a variabilidade entre grupos. Esta diferença será válida desde que a variabilidade entre grupos seja maior do que a variabilidade entre indiví- duos do mesmo grupo. Caso isto seja verdade, o pesquisador poderá concluir que uma die- ta rica em gordura causa um ganho de peso maior em tilápias do que uma dieta protéica. Vamos novamente a um exemplo de ex- perimento laboratorial. Um pesquisador está interessado em determinar a eficácia de dife- rentes concentrações de inseticidas no contro- le de besouros. Ele monta um experimento de acordo com o esquema a seguir: Concentração 100gr/L Concentração 500gr/L O pesquisador criou seis grupos com dez besouros da mesma espécie e aplicou, em cada um dos grupos, concentrações dife- rentes de um determinado inseticida. Após 30 dias, o pesquisador contou e comparou a quantidade de besouros mortos entre as diferentes amostras. Provavelmente ele te- nha observado uma variação na quantidade de indivíduos entre os grupos devido a uma maior susceptibilidade à morte de alguns in- divíduos. A intenção do pesquisador é verificar se existe diferença entre os tratamentos (con- centração de inseticida). Para isto ele utilizará um teste estatístico novamente baseado na média e variabilidade de indivíduos mortos entre suas amostras. Caso seja observada uma diferença significativa, ele poderá atribuir uma Figura 8: Esquema demonstrando o desenho experimental criado por um pesquisador a fim de testar o efeito da concentração de inseticidas sobre a mortalidade de besouros. Fonte: Acervo autores ► 24 UAB/Unimontes - 6º Período maior eficácia a uma concentração específica de inseticida. Caso não verifique esta diferen- ça, ele assumirá que as duas concentrações testadas têm a mesma eficácia no controle desta espécie de besouro. Não entraremos, neste momento, nos tes- tes estatísticos citados. A ideia desta unidade é apresentar os conceitos de probabilidade e variabilidade. Entendendo-os plenamente poderemos então partir para as próximas uni- dades. Caso ainda tenha dúvida, reveja estes conceitos, pois são conceitos-chave no desen- volvimento de toda a disciplina. Referências Magnusson, W.: Mourão, G. Estatística sem Matemática: A Ligação Entre as Questões e a Análise. Editora Planta, 2003. Gotelli, N. J. & Ellison, A. M. Princípios de Estatística em Ecologia, Editora Artmed, 2011. 25 Ciências Biológicas - Análise de Dados Biológicos UNIDADE 3 Hipóteses Biológicas Inicialmente podemos dizer que hipóte- ses são explicações potenciais sobre um even- to que estamos observando. No experimento da unidade anterior o evento é o ganho de peso das tilápias. Uma hipótese para explicar este evento é o tipo de dieta dos peixes. Outro exemplo é a quantidade de frutas produzidas por plantas cultivadas em solos sem adubação e com adubação. Meu evento é a produção di- ferencial de frutos. Minha hipótese é a quanti- dade de nutrientes disponíveis no solo. Sendo assim, a relação evento/hipótese pode ser de- finida como uma relação de causa (hipótese) e efeito (observação). Observações são os nossos dados, ou seja, os eventos que observamos no mundo real conhecidos como fatos. Se as observa- ções são o “quê” da ciência, as hipóteses são o “como”. Portanto, as observações são cole- tadas do nosso cotidiano, de eventos naturais, enfim, do mundo real. Já as hipóteses não ne- cessariamente o são. As hipóteses podem vir da literatura já existente, de modelos teóricos e muitas vezes da intuição e conhecimento prévio do pesquisador. Entretanto, uma pre- missa básica deve ser obedecida no desenvol- vimento de hipóteses científicas: Ela deve ser testável. Assim, deve haver a possibilidade de desenvolvermos experimentos que nos permi- tam aceitar, modificar ou rejeitar nossa hipóte- se desenvolvida. “Por que o céu é azul? Porque Deus quis assim.” Este é um exemplo de uma hipótese não científica. Não há meios de testarmos esta explicação para nosso evento. Hipóteses base- adas na fé, em deuses onipresentes ou qual- quer outra explicação não testável não devem fazer parte do arsenal de um cientista. Vale aqui relembrar o antagonismo entre ciência e religião já discutido na disciplina evolução. 3.1 Métodos científicos O método científico é a maneira que utilizamos para escolher entre hipóteses com base em nossas observações. Os cientistas utilizam vários métodos em seus trabalhos e, alguns destes, serão abordados daqui para frente. 3.2 Dedução e indução Dedução e indução são dois importantes modos de raciocínio científico e ambos pro- põem inferências baseadas nos dados co- letados. A diferença básica é que enquanto a dedução vai do geral para o específico, a indu- ção faz exatamente o contrário. Vamos utilizar exemplos simples para entender esta questão. 1. Todos os homens têm coração; 2. Fernando é homem; 3. Fernando tem coração. Este exemplo, embora bastante simples, demonstra um caso de dedução clássica. Parti- mos do geral para o mais específico. Vamos ago- ra a um exemplo um pouco mais elaborado: 1. Todos os morcegos do Parque Estadual da Mata Seca (PEMS) pertencem à família Phyllostomidae; 2. Eu coletei este morcego no Parque Esta- dual da Mata Seca; 3. Este morcego é da família Phyllostomi- dae. Notem que novamente partimos de um caso geral (todos os morcegos) para um caso específico (o morcego em particular que foi coletado). A última afirmação é uma con- clusão: Se todos os morcegos do PEMS são filostomídeos (1) e eu coletei este morcego no PEMS (2), logo este morcego é um filosto- mídeo (3). Esta sequência de pensamentos é tambémchamada de silogismo. GLOSSáRIO: Inferência é uma conclusão tirada pelo pesquisador com base nos seus dados. 26 UAB/Unimontes - 6º Período Em contraste com o pensamento deduti- vo, temos o indutivo: 1. Fernando tem coração; 2. Fernando é homem; 3. Todos os homens têm coração. O modelo indutivo é então o oposto do dedutivo: Parte do específico para o geral. Va- mos utilizar novamente um exemplo biológico para uma explicação mais detalhada: 1. Todos estes 20 morcegos são da família Phyllostomidae; 2. Todos estes 20 morcegos foram coletados no Parque Estadual da Mata Seca; 3. Todos os morcegos do Parque Estadu- al da Mata Seca pertencem à família Phyllostomidae. Os cientistas definem o modelo dedutivo como uma inferência certa e o indutivo como uma inferência provável. (GOTELLI; ELLISON, 2011). De fato é isto o que ocorre. Se as duas premissas estão certas no primeiro exemplo (dedutivo) a conclusão obrigatoriamente tam- bém será verdadeira. Já no modelo indutivo, embora a conclusão provavelmente seja ver- dadeira, ela também pode ser falsa mesmo sendo as duas primeiras premissas verdadei- ras. Como? Pense em um trabalho com duas coletas no PEMS. Em cada uma foram capturados dez morcegos. Do total, todos eram filostomídeos, o que fez o pesquisador tirar a conclusão de que todos os morcegos do PEMS são filosto- mídeos. Entretanto, nada impede que em uma terceira coleta indivíduos de outras famílias sejam amostrados no Parque. Caso isto ocorra, nossa conclusão deixa de ser verdadeira. A ciência, de uma maneira geral, é indu- tiva. Isto é verdade principalmente porque a estatística é, por natureza, indutiva. Frequen- temente tentamos tirar conclusões gerais com base em amostras específicas e limitadas. Isto é comum na ciência, pois muitas vezes, como no exemplo citado, torna-se impossível a co- leta de todo nosso campo de estudos. É im- provável, e praticamente impossível, que eu amostre todos os morcegos do PEMS. Sendo assim, sempre haverá margem para que minha conclusão seja rejeitada. Quanto mais próximo da totalidade de morcegos eu amostrar (maior conjunto de dados coletados) mais forte tor- na-se minha conclusão. Podemos citar duas vantagens principais do método indutivo: Enfatiza a ligação entre dados e teoria; constrói e modifica hipóteses com base em conhecimento prévio. Sendo as- sim, o método indutivo baseia-se na coleta de dados que suportem ou que modifiquem a hi- pótese inicial. Seguindo este raciocínio, podemos apon- tar uma desvantagem no método indutivo clássico: Ele considera somente uma hipótese inicial. Sendo assim, outras hipóteses somente serão desenvolvidas em resposta a observa- ções adicionais. Caso o pesquisador comece seu trabalho com uma hipótese equivocada, o caminho para chegar a uma resposta cor- reta poderá tornar-se bastante longo. Além do mais, este método encoraja o pesquisador a confirmar sua hipótese inicial, mesmo que seus dados não a confirmem claramente. Observação Inicial Novas Observações As novas observações comprovam a hipótese? Sim Hipótese confirmada Hipótese Predição 3.3 Método hipotético-dedutivo Outro método utilizado na ciência é o hipotético-dedutivo. Ele se inicia através de uma observação que tentamos explicar, como no método indutivo. A diferença é que, neste caso, o pesquisador propõe múltiplas hipóte- ses explicativas. Assim, o objetivo do pesqui- sador não é confirmar, e sim falsear (rejeitar) hipóteses. A rejeição elimina algumas explica- Figura 9: Esquema ilustrando o método indutivo. Fonte: Adaptado de Gotte- li e Elisson, 2011. ► DICAS: A internet está cheia de silogismos interes- santes como alguns do site http://interessante. Rangesite.Com/index. Php?Option=com_con tent&view=article&id= 143:silogismo&catid=3 8:geral&itemid=54 pro- cure mais a respeito. 27 Ciências Biológicas - Análise de Dados Biológicos ções e a lista é reduzida a um número menor de hipóteses competidoras. Sendo assim, uma explicação permanece válida até que novas observações sejam feitas e rejeitem aquela hipótese estabelecida anteriormente e uma nova seja aceita. Nenhum método científico é mais correto que outro. Entretanto os métodos hipotético- -dedutivo e indutivo caracterizam muito a ci- ência no mundo real. Entender estes métodos é importante para nosso próximo passo, que é testar hipóteses. 3.4 Testando hipóteses estatísticas A utilização da estatística para testar hi- póteses é uma parte do método científico, e muitas vezes nos toma bastante tempo. De fato uma das explicações é a nossa aversão inicial a números. Entretanto, superando este “trauma inicial”, a estatística se torna uma fer- ramenta simples e bastante útil no desenvolvi- mento da ciência. Entender o conceito por trás da matemática é a melhor forma de entender a estatística. 3.5 Hipótese nula x Hipótese alternativa Conforme já discutido, uma hipótese é desenvolvida para explicar uma observação. Estatisticamente falando, devemos testar esta hipótese a fim de descobrir se o resultado ob- servado não está relacionado meramente ao acaso. Entra aí o nosso conceito de hipótese nula (também chamada de H0). A hipótese nula, nada mais é do que uma explicação mais simplificada possível do padrão observado. Na maioria das vezes atribui-se o resultado a uma aleatoriedade da variação ou ao erro de medi- das. Vamos simplificar com exemplos. Voltemos aos nossos exemplos da uni- dade I. O objetivo do pesquisador é avaliar se dietas diferentes afetam o ganho de peso en- tre as tilápias. Para tanto, o pesquisador sele- cionou 20 peixes e os dividiu em dois grupos com dez indivíduos cada. Cada grupo foi sub- metido às mesmas condições, com exceção da dieta. Sua hipótese nula (H0), neste caso, é a de que o aumento de peso é devido ao acaso. Ou seja, a dieta (que é o foco de seu estudo) não tem influencia sobre o ganho de peso dos peixes. Sua hipótese alternativa é que o au- mento de peso é maior no grupo que recebe ração rica em gordura (a dieta tem influência no ganho de peso). Caso o pesquisador en- contre diferença estatística no peso dos pei- xes entre os grupos, ele aceitará sua hipótese alternativa e prosseguirá com seu estudo para explicar o porquê desta variação. Por outro lado, a ausência de diferença entre os grupos indicaria que sua hipótese nula é verdadeira, ou seja, a diferença de peso observada entre os grupos é devida, meramente, ao acaso. Vamos utilizar agora o exemplo das ba- ratas. A hipótese alternativa do pesquisador poderia ser a de que uma maior concentração de inseticida tem uma maior eficiência no con- trole de besouros. Já sua hipótese nula (H0) é a de que não existe relação entre concentração do inseticida e a mortalidade dos insetos. O pesquisador aceitaria sua hipótese alternativa, caso o grupo dos besouros submetidos ao tra- tamento de 500mg/L apresentasse uma mor- talidade significativamente maior do que a do outro grupo. Sua hipótese nula seria aceita caso isto não fosse observado. A nossa hipótese nula é aceita geralmen- te quando existe uma maior variabilidade en- tre indivíduos do mesmo grupo do que entre grupos. Existem diversas formas de calcular a variabilidade, todas baseadas na distância dos pontos em relação à média, também chamada de desvio. Quanto maior o desvio, maior será a variabilidade dos dados. Vamos novamente utilizar o exemplo dos peixes para entender este conceito. 28 UAB/Unimontes - 6º Período 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 2 3 4 5 6 7 8 9 10 Pe so (k g) Indivíduos Tanque I +1,93 -0.67 O gráfico acima é relativo ao tanque I, no eixo X temos os indivíduos e em Y seu respectivo peso.Cada ponto azul no gráfico representa um indivíduo e a linha tracejada vermelha é a média de peso para o tanque I. Assumiremos aqui que você já sabe como cal- cular um valor de média. Caso ainda tenha dú- vidas nesta questão, recorra a sua apostila de matemática. A distância entre cada ponto para média (representada no gráfico pelos colchetes) é o desvio, como já dito, uma medida de varia- bilidade. Note que caso o desvio esteja acima da média ele terá um valor positivo. Por outro lado, pontos abaixo da média apresentarão um desvio negativo. Um dos meios mais sim- ples para calcular a variabilidade é utilizar o desvio médio absoluto, ou seja, a média das distâncias de cada ponto até a média. Para calcular este parâmetro, somamos os desvios médios absolutos (ou seja, o módulo dos desvios) e dividimos pela quantidade total de pontos. Utiliza-se o módulo do desvio, pois o somatório dos desvios é sempre zero quando o sinal é conservado. O desvio médio nos permite dizer que no tanque um, os peixes pesam 2,57 ± 0,54 kg. Note que, neste caso, adicionamos a margem de erro relacionada à variabilidade. Isto signi- fica dizer que a maioria dos dados se encontra neste intervalo. O desvio absoluto médio é apenas uma das várias medidas da variabilidade existen- tes. Embora bastante simples e intuitiva esta não é a medida mais utilizada em trabalhos científicos. (MAGNUSSON; MOURÃO, 2003). Na maioria das vezes, utiliza-se o desvio padrão ou alguma derivação dele, que em alguns ca- sos, torna-se um parâmetro mais refinado. En- tretanto, não abordaremos as fórmulas para calcular o desvio padrão, já que a ideia por trás dos números é a mesma do desvio absoluto médio: Medir a variabilidade. Após o entendimento destes cálculos simples, podemos passar para o estudo de al- guns testes estatísticos. Observem a tabela a seguir com os cálcu- los dos parâmetros discutidos: Tabela 2: Peso de peixes em um tanques de criação bem como os valores de desvio e o módulo de desvio para o peso de cada indivíduo. Indivíduo Tanque I (kg) Desvio Módulo do desvio 1 3 0.43 0.43 2 2.7 0.13 0.13 3 4.5 1.93 1.93 4 1.9 -0.67 0.67 5 2 -0.57 0.57 6 2.4 -0.17 0.17 7 2.8 0.23 0.23 8 2.3 -0.27 0.27 9 2 -0.57 0.57 10 2.1 -0.47 0.47 Média 2.57 ∑ |Desvios| 5.44 Desvio médio 0.544 Referências Magnusson, W.: Mourão, G. Estatística sem Matemática: A Ligação Entre as Questões e a Análise. Editora Planta, 2003. Gotelli, N. J. & Ellison, A. M. Princípios de Estatística em Ecologia, Editora Artmed, 2011. ◄ Figura 10: Gráfico demonstrando o peso de cada indivíduo do Tanque I. Fonte: Adaptado de Gotte- li e Elisson, 2011. DICAS: Faça uma tabela seme- lhante para os peixes do tanque dois. isso ajudará a fixar o que foi explicado. 29 Ciências Biológicas - Análise de Dados Biológicos UNIDADE 4 Regressão linear e ANOVA Antes de começarmos a estudar as aná- lises estatísticas, vale lembrar que, conforme visto na Unidade I, p é a probabilidade de que meu evento de estudo aconteça. Na estatísti- ca, o valor de p indica a significância do meu teste. Ou seja, na estatística, meu valor de p mede a probabilidade de que a diferença ob- servada poderia ser encontrada caso minha hipótese nula H0 seja verdadeira. Vamos recorrer ao nosso exemplo base (ganho de peso em tilápias). Suponha que após utilizar um teste estatístico adequado, o pesquisador tenha encontrado um p=0,54. Isto quer dizer que existem 54% de chances de que a diferença de peso encontrada entre peixes submetidos a diferentes dietas este- ja relacionada meramente ao acaso, e não à diferença da dieta. Sendo assim, quanto mais próximo o valor de p for de zero, menor será a probabilidade de que a variação seja explicada pelo acaso. Neste caso, o pesquisador aceitaria sua hipótese alternativa. Entretanto, quando considerar que um valor de p seja suficiente- mente baixo para que se rejeite a H0? Em biologia, rejeitamos nossa hipótese nula quando p<0,05. Ou seja, existem menos de 5% de chances de meus dados estarem re- lacionados ao acaso. Podemos considerar este número bastante rigoroso. Em uma compara- ção simples, isto significa dizer que somente sairíamos de casa com guarda chuva quando a previsão do tempo apostasse 95% de chances de chover. Caso adotássemos este costume, com certeza seríamos pegos de surpresa di- versas vezes. Entretanto, em biologia, a observação dos padrões científicos deve ser forte. Diversos autores trabalham baseados em teorias e hi- póteses formuladas em outros trabalhos. Sen- do assim, um ponto de corte mais alto (valor de p alto) significaria que muitos trabalhos se- riam inferências fracas sobre a realidade. Estu- dos realizados na área da saúde, como testes de fármacos, desenvolvimento de vacinas, etc., geralmente consideram significativos valores de p<0,01. Ou seja, estes trabalhos são ainda mais rigorosos quanto a aceitar sua hipótese testada, o que é bastante recomendável. Aceitar ou rejeitar hipóteses está intima- mente relacionado a dois erros em testes de hipóteses: Erro do tipo I e erro do tipo II. Erros do tipo I consistem em rejeitar uma hipótese nula quando esta é verdadeira. Ou seja, tere- mos uma explicação falsa para nosso evento. Já no erro do tipo II, o contrário é observado, aceitamos nossa hipótese nula, mesmo esta sendo falsa. Ou seja, o pesquisador falha em detectar a diferença entre os grupos. Vamos a um exemplo: Um pesquisador encontra-se interessado em verificar se o rendimento escolar de um aluno está relacionado à indisciplina. Neste caso, ele utiliza um teste comparando alunos indisciplinados com alunos sem problemas neste quesito. Caso o pesquisador tenha falha- do no delineamento de seu experimento (veja Unidade I) ele poderá erroneamente atribuir um baixo rendimento à indisciplina (erro do tipo I) ou assumir que a indisciplina não tem relação com o rendimento do aluno (erro do tipo II). Notem então que a análise, ou mesmo a interpretação errada dos seus dados, pode gerar tanto erros do tipo I quanto do tipo II em um mesmo desenho experimental. De maneira geral o erro do tipo I pode ser considerado mais grave, já que atribui a um mecanismo mais complexo uma explicação que é simplesmente obra do acaso. Outros pesquisadores podem se basear na sua pes- quisa e desenvolver trabalhos naquela ale- gação falsa. Já o erro do tipo II possivelmente será rapidamente visualizado, já que outros pesquisadores com dados mais completos ou experimentos mais organizados poderão rejei- tar aquela hipótese nula e a ciência prossegui- rá daquele ponto. Sabendo-se então o significado de p em um teste estatístico, vamos enfim aos nossos testes. 30 UAB/Unimontes - 6º Período 4.1 Regressão linear simples: Um fator As regressões são usadas na comparação de dados numéricos onde uma variável é colo- cada em função da outra. Dizemos, portanto, que a variável “Y” é dependente da variável “X”. Em outras palavras, X explica as variações de Y. Por este motivo é comum encontrar nos livros de estatística a variável “Y” chamada de “variável resposta” e a variável “X” de “variável explicativa”. Podemos traduzir a influência desta vari- ável na variável resposta (Y) em uma equação matemática como: Nesta equação “a” é a elevação ou o valor da variável resposta (Y) quando a variável ex- plicativa é zero, este parâmetro é chamado de intercepto. O parâmetro “b” é a inclinação ou a quantidade que a resposta aumenta para cada unidade de aumento da variável explicativa. Viu?! Por isso que, em uma regressão, dis- semos que uma variável “varia” em função da outra. Até o momento vimos dados categóri- cos, em que os níveis são comparados entre si. Agora iremos relacionarduas variáveis quanti- tativas e verificar se existe relação entre elas. Veja a figura 11. Neste gráfico parece existir uma rela- ção positiva entre o número de participações em sala de aula (Eixo y, variável resposta), em função do aumento da frequência de alunos presentes em sala de aula (Eixo X, variável ex- plicativa). Ou seja, à medida que existam mais alunos em sala de aula, as aulas obterão um maior número de participação a respeito da matéria. Este gráfico nada mais é do que a repre- sentação de uma tabela. Veja que se cruzar- mos os dados da tabela no gráfico, como o jogo “batalha naval”, encontraremos cada um daqueles pontos no gráfico. Tabela 3. Dados quantitativos demonstrando os valores da relação entre o número de participações e a quantidade de alunos em sala de aula. Eixo x Eixo y 27 15 31 10 20 11 26 11 26 21 23 9 13 1 22 8 18 6 18 3 17 2 16 1 15 1 DICAS A regressão é uma análise que visa basi- camente estimar estes parâmetros e verificar se são estatisticamente significativos. ◄ Figura 11: Relação entre o número de participações dos alunos em aula, e o número de alunos presentes em sala. Fonte: Acervo autores PARA REFLETIR A habilidade para in- terpretar as estatísticas não é tão importante quanto à habilidade de interpretar gráficos 31 Ciências Biológicas - Análise de Dados Biológicos Sabendo-se o conceito de inferência, agora podemos montar as hipóteses: • H0: As participações não aumentam com o aumento no número de alunos na sala de aula. • H1: As participações aumentam com o número de alunos na sala de aula. Nossa equação, colocando * para representar a multiplicação, fica: • y (Participação em sala de aula) = a + b * x (Frequência de alunos) Para sabermos se existe uma relação entre estas duas variáveis é necessário esti- mar os parâmetros a e b. Mas antes iremos verificar se o modelo construído é válido es- tatisticamente. Para isso devemos calcular a Soma dos quadrados totais, criando o mo- delo de análise de variância geral. Se a rela- ção for linear, a probabilidade de se detec- tar uma relação aumenta com o aumento da amplitude do intervalo (valores do eixo X). Observe as figuras abaixo contendo as varia- ções em torno das Hipóteses. A figura três representa a soma dos quadrados dos erros (SQE) em relação aos valores estimados pelo modelo. Basica- mente quando fazemos linhas retas em gráficos, buscamos minimizar a distância média da linha aos pontos. É exatamente isso que o modelo prediz, ou seja, quanto mais próximo minha reta está dos pontos amostrados, mais chances de acertar ao dizer que minhas variáveis se relacionam. Menor é o erro! Isso ocorre porque com o SQE obtemos a soma de quadrados da regressão (SQR), que é dada pela seguinte fórmula: Isso significa que quanto menor o erro DICAS Quando nós, outras pessoas, ou programas de estatística colo- cam linhas retas em gráficos, fazem isto minimizando a distân- cia média da linha aos pontos (Magnusson e Mourão, 2005). Figura 12: Representação da variância em torno da H0. Fonte: Acervo autores ► Figura 13: Representação da variância em torno da H1. Fonte: Acervo autores ► 32 UAB/Unimontes - 6º Período (SQE), maior será a SQR. Entretanto, para verifi- car se esta relação é significativa devemos cal- cular o valor de “F” obtido através da fórmula: Como podemos observar o valor de “F” leva em consideração os graus de liberdade utilizados no modelo (glregressão), agora é des- cobrir qual a probabilidade associada a este F com os respectivos graus de liberdade. Não se preocupem, não precisamos fazer estes cálculos com uma calculadora, existe uma série de programas estatísticos que fazem isso com apenas um coman- do. Aqui, no meu caso, estou utilizando o software R (disponível: http://cran.r-project. org/), um programa gratuito, fácil de ser instalado em seu computador, mas de ope- ração um pouco mais complicada, quando comparado a programas pagos, disponí- veis no mercado. Portanto para verificar a probabilidade associada ao F e aos graus de liberdade, através de uma análise de variância, basta digitar: Anova (modelo). Tabela 4: Tabela de análise de variância. Os graus de liberdade estão representados em “Df” (degrees of freedom), soma dos quadrados por “Sum Sq” e a média da soma dos quadrados por “Mean Sq”. Tabela de variância Variável resposta (Y): Número de participações em sala Df Sum Sq Mean Sq F valor P valor N. alunos 1 289.282 289.282 19.668 0.001** Residuals 11 161.795 14.709 ** Indica a significância do teste Vejam que a probabilidade da relação entre as variáveis ser casual foi igual a 0,001 (Tabela 2), ou seja, existe 1 chance em 1000 de mentir quando afirmamos que o número de alunos dentro da sala de aula afeta a participa- ção durante as aulas. De fato ter muitos alunos em sala de aula é importante para o número de participações. Para completarmos nossa análise e nossa equação, devemos obter os valores dos parâ- metros a e b. Para ambos as formulas são sim- ples, veja: Onde “n” é o número de amostras, Ȳ e Ẋ são as médias dos valores dos eixos y e x res- pectivamente. O único problema de refazer dados biológicos à mão, utilizando apenas uma calculadora, é de que normalmente nos- sos dados giram em torno de dezenas de nú- meros, que somados, utilizam várias casas decimais. Portanto, atualmente estes valores, para nossa sorte e prazer, podem ser adquiri- dos em qualquer programa de estatística que existe, apenas devemos pedir o resumo (sum- mary) da análise. Summary (modelo) Tabela 5. Resumo da análise de variância. Demonstrando os coeficientes da análise de variância. O “Estimate” representa as estimativas dos valores utilizados na regressão, “a” o intercepto e “b” o coeficiente angular. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -11.3814 4.4137 -2.579 0.02565 * Nalunos 0.9079 0.2047 4.435 0.00100 ** Std. error (Erro padrão) T value (Valor do teste T, “Valor crítico” é a diferença entre as médias, divididas pelo desvio padrão, usadas no calculo da probabilidade da hipótese nula ser verdadeira. 33 Ciências Biológicas - Análise de Dados Biológicos Nossa equação era: “Participação em sala de aula = a + b * Frequência de alunos”. Agora iremos substituir os valores para definirmos o gráfico. Na seção “Estimate” estão os valores estimados do intercepto “a” (-11.3814) e do co- eficiente angular “b” (0.9079), substituindo a formula fica: Participação em sala de aula = -11.3814+ 0.9079*x Resumindo a matemática dos nossos cál- culos, na ausência de alunos na sala de aula, o número de participações é -11.3814 (a ou inter- cepto) e o incremento de um aluno na sala de aula provoca o aumento de 0.9079 participa- ções na aula (b ou inclinação da reta). 4.2 Regressão múltipla: múltiplos fatores A regressão múltipla segue as mesmas premissas da regressão simples. Entretanto a regressão múltipla envolve mais de um fator influenciando na sua variável resposta, ou seja, ainda que exista apenas uma variável respos- ta, devem existir duas ou mais variáveis expli- cativas. A proposta deste tipo de análise é reduzir o coeficiente do intercepto, o qual, em regres- são, significa a parte da variável dependente explicada por outras variáveis, que não a con- siderada no modelo. Em outras palavras, ao inserir mais de uma variável explicativa, a vari- ância residual (ERRO PADRÃO DA ESTIMATIVA) diminui, e aumenta a força dos testes de signi- ficância. Além disso, podemos eliminar a ten- denciosidade que poderia resultar se simples- mente ignorássemos uma variável
Compartilhar