Baixe o app para aproveitar ainda mais
Prévia do material em texto
29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2 www.ufpe.br/biolmol/aula12.htm 1/7 Home Aulas Exercícios Notícias Downloads Bibliografia Animações Programa Links ProGeNE Pós-graduação Medicina Construindo um dendrograma com sequências de aminoácidos Resumo da aula: na aula anterior (que não está disponível on-line) estudamos um conjunto de sequências de nucleotídeos (cDNA), todas representando um gene de primata (correspondente à sub-unidade 8 da citocromo oxidase, forma hepática) para alinhá-las entre si (empregando o programa clustalX) e criar um dendrograma entre as espécies em estudo (empregando o programa njPlot). Nesta aula vamos repetir o estudo empregando sequências de aminoácidos. Inicialmente vamos mostrar como encontrar a sequência de aminoácidos correspondente à proteína codificada por um determinado cDNA. O processo deveria ser repetido para cada uma das sequências de nucleotídeos. Para abreviar o processo uma solução alternativa é apresentada: através de uma busca de palavras é possível encontrar um conjunto de sequências de proteínas que incluam as que nos interessam. A partir deste conjunto podemos selecionar as que pretendemos estudar, e diretamente obter as sequências de aminoácidos, sem maiores trabalhos. Ao final da aula, empregando os arquivos de nt (cDNA) e aa (proteínas) correspondentes aos genes das 9 espécies em estudo, vamos criar dois dendrogramas e comparar os grupamentos das espécies de primatas. A coerência dos agrupamentos entre os dois dendrogramas será avaliada, assim como a coerência dos agrupamentos com as relações filogenéticas reais entre as espécies. Para a turma de GenMol 2007 - 1o semestre Empregamos, pela urgência de tempo, uma alternativa para visualização de dendrogramas: ao invés de criarmos dendrogramas a partir de uma lista de sequências gênicas ou de aminoácidos, blastamos uma sequência e observamos o dendrograma construído pelo próprio NCBI. Para ver esta aula, clique aqui. Para a turma de GenMol 2007 - 2o. semestre Além de empregar o clustal, que é o tema desta aula, mostramos como usar o Blast do NCBI para obter dendrogramas. Veja aqui. 1. Encontrando, a partir de uma sequência de cDNA, a sequência de aminoácidos correspondente à ORF. Vamos começar com o cDNA correspondente à sub-unidade VIII da forma hepática da citocromo c oxidase de Papio anubis (AY254817), que deverá corresponder, ao final, à proteína AAP32248, no banco de proteínas do NCBI. Esta sequência está em nosso "banco de sequências de nucleotídeos", um arquivo txt que construímos na aula anterior e que está disponível para download. Nossa sequência é a última na lista de sequências de nucleotídeos. Copiemos esta sequência para o "clipboard" (memória ativa do Windows). Em seguida vamos colar a sequência do Papio anubis na caixa de diálogo do ORFfinder. Ele vai permitir que se encontre as possíveis ORFs na sequência de cDNA e, ainda, que possamos escolher qual a ORF que é a "verdadeira", isto é, que gera uma sequência de aminoácidos correspondente a uma citocromo oxidase. Isso será feito empregando o blastp disponibilizado pelo ORFfinder. Quando a ORF correta é encontrada, podemos resgatar a sequência de aminoácidos pedindo para visualizar a sequência no formato fasta. Copiamos então a sequência e colamos no arquivo txt que vamos gerar para guardar nosso "banco de sequências de aminoácidos". O programa ORFfinder está na página de abertura do NCBI, como mostra a figura 1, a seguir. Figura 1 Na caixa de diálogo podemos inserir agora a sequência de nucleotídeos do cDNA da citocromo oxidase (cox) do P. anubis, como mostrado na figura 2 a seguir. Figura 2 Quando se acionar o botão ORFfind, vai aparecer a tela de resposta com todas as ORFs possíveis (Figura 3 abaixo). Vamos escolher a maior, que geralmente corresponde à ORF correta. Lembre-se que, fora do quadro correto de leitura, a Natureza é pródiga em códons de parada de tradução (stop codons), o que cria uma ou mais pequenas ORFs a partir de uma sequência de nucleotídeo qualquer. 29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2 www.ufpe.br/biolmol/aula12.htm 2/7 Figura 3: Já está selecionada, através de um clique do mouse, a ORF que aparece em rosa, e habilitada a opção de blastp acima do quadro que representa as várias ORFs. Se pressionarmos a tecla Blast, aparecem as telas já conhecidas do Blast, que ao final apresentam os melhores "hits", com a descrição deles (Figuras 4a, b e c). Pode-se ver que o primeiro é justamente a APP32248, que corresponde à proteína cox do P. anubis. Pelo menos 11 outras são de primatas diversos. Isso significa que a ORF correta foi escolhida. Figura 4a Figura 4b Figura 4c Uma vez feito o blastp, deveremos voltar à tela onde a ORF foi selecionada (estará em rosa, ou magenta) e clicar sobre o botão Accept. Na que aparece, podemos escolher agora o formato e o tipo de sequência que queremos ver (Figura 5, parte) e, pressionado VIEW teremos a sequência desejada (no caso, a de aminoácidos)(Figura 5, parte). Podemos copiá-la e colá-la no nosso bloco de notas para ir criando o arquivo txt correspondente às sequências de aminoácidos das cox de primatas. Figura 5: chegando à sequência de aminoácidos correspondente à ORF "verdadeira" de uma sequência de cDNA 2. Encontrando sequências de proteínas com o uso de busca por palavra chave Podemos repetir cada uma destas etapas para descobrir a sequência de aminoácidos correspondente à ORF "verdadeira" de uma sequência de cDNA dada, mas é sem dúvida muito trabalho. Uma alternativa possível no nosso caso é buscar no banco de proteínas do NCBI por palavras chaves adequadas, como já fizemos na aula 9. Para tal escolheremos o "string" (conjunto de letras e sinais) cytochrome c oxidase AND mammalia AND liver form numa busca no NCBI, por proteína, como mostrado na figura 6 abaixo. Figura 6: Resultado da busca por um conjunto de palavras chave dirigidas à proteina cox de mamíferos, O resultado mostrado acima indica 48 sequências que se encaixam na busca. As 14 últimas são todas de cox de primatas, especificamente da sub-unidade. Posso em seguida selecionar (clicando no pequeno quadrado que está à esquerda de cada proteína) os 14 desejados, voltar ao alto da página e escolher na caixa "drop-down" (com a flecha para baixo) a opção FASTA. Ao clicar em Display as 14 sequências vão ser apresentadas no formato FASTA, uma após a outra, como mostrado na figura 7 abaixo. Podemos copiar e colar cada uma delas no nosso arquivo txt que comporá o "banco de sequências de aminoácidos das várias cox de primatas". Como facilidade adicional, os nomes de cada sequência já estão "quase" prontos, após o sinal >. Dizemos "quase" porque o formato de nome de sequência que o clustal aceita é um pouco restrito: não deve ter mais que 30 letras, não admite espaços em banco ou caracteres incomuns (acentos, etc). Se escolhermos um nome com espaço (por exemplo, Homo sapiens), ele só vai levar em conta o primeiro nome. Além disso, duas sequências não podem ter o mesmo nome, evidentemente. Figura 7: sequências de aminoácidos no formato FASTA correspondentes às 14 últimas proteínas da busca por palavra chave da figura 6. 3. Criando a árvore (dendrograma) a partir do txt com as sequências FASTA de aminoácidos. Quando tivermos feito as colagens de cada um dos arquivos FASTA no nosso arquivo txt do programa Bloco de Notas (ou mesmo no Word), ele deve ficar semelhante ao disponibilizado aqui. Uma alternativa para a colagem é a opção Send to (text), do lado direito da linha do botão Display, que vai converter todas as sequências FASTA selecionadas num único arquivo txt. Pode-se então copiar tudo e colar num arquivo txt no Nloco de Notas. Agora deveremos abrir o programa ClustalX (Figura 8a) e carregar (load) as 14 sequências, que formam o arquivo txt que construímos (ou que pegamos daqui) (Figura 8b). 29/09/13 Aula11 - Dendrogramascom ClustalX e njPlot - parte 2 www.ufpe.br/biolmol/aula12.htm 3/7 Figura 8a Figura 8b Assim que o arquivo txt for adicionado, as sequências aparecerão, com aminoácidos de cores diferentes, representados pelo código de letra única para cada aminoácido. Quando selecionarmos no botão Alignment a opção Do complete aligment, as sequências serão alinhadas umas às outras (alinhamento múltiplo) . O resultado do alinhamento (tanto a árvore como o alinhamento, propriamente dito) serão salvos em geral na pasta de onde veio o arquivo das sequências. Isto está mostrado na figura 9 a seguir. Figura 9: Alinhamento múltiplo realizado para 14 sequências de primatas, com as opções de gravação (salvar) dos arquivos de saída. Observe que, sempre em que uma posição todas as sequências têm o mesmo aminoácido, aparece um asterisco no parte de cima do quadro. No botão File podemos escolher agora Save sequence as e selecionar o formato Clustal (Figura 10). De fato o que estamos fazendo é criar um arquivo que possa ser lido pelo programa njPlot, que vai nos desenhar a árvore (dendrograma) de correlação das várias sequências em estudo. Figura 10 Agora resta obter o dendrograma (ou árvore). 4. Obtendo um dendrograma com o njPlotWIN95 O programa njPlot está disponível para download aqui. Baixe para sua máquina e clique sobre o ícone, que é um zip que se auto- extrai. Escolha a pasta onde você quer extrair os arquivos, proceda a extração e depois clique sobre o ícone njplot (o programa roda na interface DOS) Quando o programa njPlot abre, ele habilita a adição de um arquivo com extensão dnd, através do botão File e da opção Open. Devemos então procurar nosso arquivo gerado pelo Clustal no lugar onde nós o deixamos salvo. No exemplo da figura ele se chama sequencias_A_A.dnd e está salvo numa pasta Sequencias em algum lugar do computador. Assim que abrirmos o arquivo dnd a árvore (dendrograma) aparece. As distâncias "genéticas" entre os organismos vão estar mostradas apenas se clicarmos na opção Branch lenght (Figura 11). Figura 11: dendrograma de 14 sequências de cox de primatas Observe na figura que Pan, Pongo e Hylobates aparecem juntos, sem qualquer separação entre eles. As sequências deles também aparecem juntas no resultado do blastp feito via ORFfinder, mostrado na figura 4c desta aula. Se desejarmos ver os valores de "bootstrap" (Bootstrap values, que pode ser habilitado numa caixa de seleção no box display), veremos que isto não é possível. Entretanto, o valor de bootstrap nos indica o grau de confinaça que temos na estrutura da árvore: se optarmos por fazer 1000 bootstaps (que equivale mais ou menos a reconstruir a árvore 1000 vezes a partir de pontos distintos de seus ramos) e verifiarmos que nos nós das ramificações os valores de bootstrap indicados são altos (maiores que 600, por exemplo), saberemos que uma grande maioria das árvores formadas terá de fato o aspecto mostrado na nossa figura. Valores baixos de bootstrap nas ramificações indicam incerteza nestes pontos da árvore. Então como conseguir visualizar o bootstrap value? É preciso voltar no programa Clustal e pedir que ele crie uma árvore (no botão Trees), optando por Bootstrap NJ-Tree, que é uma árvore feita pelo algorítmo de neighbor joining, com 1000 bootstraps (valor padrão). Uma caixa de diálogo vai se abrir e poderemos aceitar os valor padrão, Ao clicar em OK o programa cria um arquivo com o mesmo nome do nosso arquivo txt e na mesma pasta onde ele estiver, só que com a extensão phb. O programa njTree lê este arquvo phb e agora ele habilita a caixa de opção bootstrap values. A árvore vai mostra os valores de bootstrap que, como dito acima. correspondem aproximadamente ao número de vezes em que aquela forma de organizar as sequências naquele nó da árvore foi observada. 5. Comparando os dendrogramas para sequências de nt e aa dos mesmos genes 29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2 www.ufpe.br/biolmol/aula12.htm 4/7 Para finalizar esta aula procuremos comparar as árvores obtidas com as sequências de nucleotídeos (baixe aqui) e aminoácidos (baixe aqui) dos mesmos 9 genes de cox que começamos a discutir na aula anterior. Quando carregamos as sequências no ClustalX, salvamos o arquivo dnd (guide tree) e visualizamos os resultados no njplot, teremos as telas que estão mostradas abaixo (Figuras 12 a-f). Figura 12 a: As 9 sequências de nucleotídeos adicionadas ao ClustalX Figura 12 b: As 9 sequências de nucleotídeos alinhadas no ClustalX Figura 12 c: As 9 sequências de aminoácidos adicionadas ao ClustalX Figura 12 d: As 9 sequências de aminoácidos alinhadas no ClustalX Figura 12 e: O dendrograma gerado pelo njPlot para as sequências de nucleotídeos Figura 12 f: O dendrograma gerado pelo njPlot para as sequências de aminoácidos Finalmente, vamos comparar os dois dedrogramas, como mostrado na figura 13, uma montagem feita no Powerpoint das duas figuras dos dendrogramas isolados. É evidente que os organismos estão agrupados de forma muito semelhante nos dois casos, apesar das diferenças em comprimento nas sequencias de cDNA entre eles, quando comparados com os comprimentos essencialmente iguais das suas sequências de aminoácidos. Em geral, as sequências de nucleotídeos são mais divergentes que as de aminoácidos e, por vezes, as árvores podem ser diferentes quando empregamos nt ou aa, mas não foi o caso aqui. Figura 13: A comparação entre os dois dendrogramas (com nt e aa) para as 9 sequências de primata em estudo Resta saber se os agrupamentos fazem sentido do ponto de vista taxonômico. Observe que Ateles e Saimiri estão juntos na árvore filogenética. Embora eles sejam primatas bem diferentes à primeira vista (figuras abaixo), são os dois da América, enquanto os demais são do Velho Mundo. 29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2 www.ufpe.br/biolmol/aula12.htm 5/7 http://fotos.naturspot.de/bilder/11-78.html http://www.impact-malaria.com [Photograph: Cécile LeScanf, Institut Pasteur] Uma análise rápida da Figura 14 abaixo permite concluir que as árvores geradas são coerentes com os atuais conhecimentos taxonômicos. Figura 14: Chaves taxonômicas simplificadas para as espécies em estudo Painel das espécies do Velho Mundo, citadas neste trabalho. Eulemur fulvus ("Zooboomafoo") http://vesmir.msu.cas.cz/Madagaskar/images/vystava1999/14.jpg Nycticebus coucang http://wadict.soas.ac.uk/wadict/images/nycticebus_coucang.jpg Otolemur (ou Galago) crassicaudatus http://etologia1.psi.ub.es/etopri/impri/GALAGO.JPG 29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2 www.ufpe.br/biolmol/aula12.htm 6/7 Tarsius syrichta http://upload.wikimedia.org/wikipedia/commons/2/2b/Philippine_sarangani_tarsier.jpg Trachypithecus cristatus www.wildsidephotography.ca/primates.html Macaca sylenus http://www.unipv.it/webbio/cismu/prim/macasyle.jpg Papio anubis http://photos1.blogger.com/img/26/2207/400/olivebaboon-papio%20anubis.jpg Theropithecus gelada http://www.missouri.edu/~anthmark/courses/mah/images/gelada.jpg Hylobates agilis www.gibboncenter.org/hylobates.htm 29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2 www.ufpe.br/biolmol/aula12.htm 7/7 Pongo pygmaeus (orangotango) www.50birds.com/gendwildlife1.htm Gorilla gorilla (gorila) http://www.knoxville-zoo.org/img/gorilla.jpg Pan paniscus (chimpanzé) http://www.floranimal.ru/pages/animal/b/4568.jpg Como exercício suplementar, anexamos aqui o arquivo txt de uma série de sequências de aminoácidos da proteína citocromo B, que faz parte de uma enzima multimérica de 11 unidades, mitocondrial, da cadeia respiratória. Todas as sequências são de morcegos (Chiroptera). Também disponível está um arquivo com sequências da proteína citocromo B de camelídeos. ************************************************
Compartilhar