Buscar

Aula11 - Dendrogramas com ClustalX e njPlot - parte 2

Prévia do material em texto

29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2
www.ufpe.br/biolmol/aula12.htm 1/7
Home Aulas Exercícios Notícias Downloads Bibliografia Animações
 Programa Links ProGeNE Pós-graduação Medicina 
 
Construindo um dendrograma com sequências de aminoácidos
Resumo da aula: na aula anterior (que não está disponível on-line) estudamos um conjunto de sequências de nucleotídeos (cDNA),
todas representando um gene de primata (correspondente à sub-unidade 8 da citocromo oxidase, forma hepática) para alinhá-las
entre si (empregando o programa clustalX) e criar um dendrograma entre as espécies em estudo (empregando o programa njPlot).
Nesta aula vamos repetir o estudo empregando sequências de aminoácidos. Inicialmente vamos mostrar como encontrar a sequência de
aminoácidos correspondente à proteína codificada por um determinado cDNA. O processo deveria ser repetido para cada uma das
sequências de nucleotídeos. Para abreviar o processo uma solução alternativa é apresentada: através de uma busca de palavras é
possível encontrar um conjunto de sequências de proteínas que incluam as que nos interessam. A partir deste conjunto podemos
selecionar as que pretendemos estudar, e diretamente obter as sequências de aminoácidos, sem maiores trabalhos. Ao final da aula,
empregando os arquivos de nt (cDNA) e aa (proteínas) correspondentes aos genes das 9 espécies em estudo, vamos criar dois
dendrogramas e comparar os grupamentos das espécies de primatas. A coerência dos agrupamentos entre os dois dendrogramas será
avaliada, assim como a coerência dos agrupamentos com as relações filogenéticas reais entre as espécies.
Para a turma de GenMol 2007 - 1o semestre
Empregamos, pela urgência de tempo, uma alternativa para visualização de dendrogramas: ao invés de criarmos dendrogramas a
partir de uma lista de sequências gênicas ou de aminoácidos, blastamos uma sequência e observamos o dendrograma construído pelo
próprio NCBI. Para ver esta aula, clique aqui.
Para a turma de GenMol 2007 - 2o. semestre
Além de empregar o clustal, que é o tema desta aula, mostramos como usar o Blast do NCBI para obter dendrogramas. Veja aqui.
 
 
1. Encontrando, a partir de uma sequência de cDNA, a sequência de aminoácidos correspondente à ORF.
Vamos começar com o cDNA correspondente à sub-unidade VIII da forma hepática da citocromo c oxidase de Papio anubis
(AY254817), que deverá corresponder, ao final, à proteína AAP32248, no banco de proteínas do NCBI. Esta sequência está em
nosso "banco de sequências de nucleotídeos", um arquivo txt que construímos na aula anterior e que está disponível para download.
Nossa sequência é a última na lista de sequências de nucleotídeos. Copiemos esta sequência para o "clipboard" (memória ativa do
Windows).
Em seguida vamos colar a sequência do Papio anubis na caixa de diálogo do ORFfinder. Ele vai permitir que se encontre as possíveis
ORFs na sequência de cDNA e, ainda, que possamos escolher qual a ORF que é a "verdadeira", isto é, que gera uma sequência de
aminoácidos correspondente a uma citocromo oxidase. Isso será feito empregando o blastp disponibilizado pelo ORFfinder. Quando
a ORF correta é encontrada, podemos resgatar a sequência de aminoácidos pedindo para visualizar a sequência no formato fasta.
Copiamos então a sequência e colamos no arquivo txt que vamos gerar para guardar nosso "banco de sequências de aminoácidos". 
O programa ORFfinder está na página de abertura do NCBI, como mostra a figura 1, a seguir.
Figura 1
 
 
Na caixa de diálogo podemos inserir agora a sequência de nucleotídeos do cDNA da citocromo oxidase (cox) do P. anubis, como
mostrado na figura 2 a seguir.
Figura 2
 
 
Quando se acionar o botão ORFfind, vai aparecer a tela de resposta com todas as ORFs possíveis (Figura 3 abaixo). Vamos escolher
a maior, que geralmente corresponde à ORF correta. Lembre-se que, fora do quadro correto de leitura, a Natureza é pródiga em
códons de parada de tradução (stop codons), o que cria uma ou mais pequenas ORFs a partir de uma sequência de nucleotídeo
qualquer.
29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2
www.ufpe.br/biolmol/aula12.htm 2/7
Figura 3: Já está selecionada, através de um clique do mouse, a ORF que aparece em rosa, e habilitada a opção de
blastp acima do quadro que representa as várias ORFs.
 
Se pressionarmos a tecla Blast, aparecem as telas já conhecidas do Blast, que ao final apresentam os melhores "hits", com a
descrição deles (Figuras 4a, b e c). Pode-se ver que o primeiro é justamente a APP32248, que corresponde à proteína cox do P.
anubis. Pelo menos 11 outras são de primatas diversos. Isso significa que a ORF correta foi escolhida.
 Figura 4a Figura 4b Figura 4c
 
Uma vez feito o blastp, deveremos voltar à tela onde a ORF foi selecionada (estará em rosa, ou magenta) e clicar sobre o botão
Accept. Na que aparece, podemos escolher agora o formato e o tipo de sequência que queremos ver (Figura 5, parte) e, pressionado
VIEW teremos a sequência desejada (no caso, a de aminoácidos)(Figura 5, parte). Podemos copiá-la e colá-la no nosso bloco de notas
para ir criando o arquivo txt correspondente às sequências de aminoácidos das cox de primatas.
 Figura 5: chegando à sequência de aminoácidos correspondente à ORF "verdadeira" de uma sequência de cDNA
 
 
2. Encontrando sequências de proteínas com o uso de busca por palavra chave
Podemos repetir cada uma destas etapas para descobrir a sequência de aminoácidos correspondente à ORF "verdadeira" de uma
sequência de cDNA dada, mas é sem dúvida muito trabalho. Uma alternativa possível no nosso caso é buscar no banco de proteínas
do NCBI por palavras chaves adequadas, como já fizemos na aula 9. Para tal escolheremos o "string" (conjunto de letras e sinais)
cytochrome c oxidase AND mammalia AND liver form numa busca no NCBI, por proteína, como mostrado na figura 6 abaixo.
Figura 6: Resultado da busca por um conjunto de palavras chave dirigidas à proteina cox de mamíferos, 
 
O resultado mostrado acima indica 48 sequências que se encaixam na busca. As 14 últimas são todas de cox de
primatas, especificamente da sub-unidade. Posso em seguida selecionar (clicando no pequeno quadrado que está à esquerda de cada
proteína) os 14 desejados, voltar ao alto da página e escolher na caixa "drop-down" (com a flecha para baixo) a opção FASTA. Ao
clicar em Display as 14 sequências vão ser apresentadas no formato FASTA, uma após a outra, como mostrado na figura 7 abaixo. 
Podemos copiar e colar cada uma delas no nosso arquivo txt que comporá o "banco de sequências de aminoácidos das várias cox de
primatas". Como facilidade adicional, os nomes de cada sequência já estão "quase" prontos, após o sinal >. Dizemos "quase" porque o
formato de nome de sequência que o clustal aceita é um pouco restrito: não deve ter mais que 30 letras, não admite espaços em banco
ou caracteres incomuns (acentos, etc). Se escolhermos um nome com espaço (por exemplo, Homo sapiens), ele só vai levar em conta o
primeiro nome. Além disso, duas sequências não podem ter o mesmo nome, evidentemente.
 
Figura 7: sequências de aminoácidos no formato FASTA correspondentes às 14 últimas proteínas da busca por
palavra chave da figura 6.
 
 
 
3. Criando a árvore (dendrograma) a partir do txt com as sequências FASTA de aminoácidos.
Quando tivermos feito as colagens de cada um dos arquivos FASTA no nosso arquivo txt do programa Bloco de Notas (ou mesmo no
Word), ele deve ficar semelhante ao disponibilizado aqui. Uma alternativa para a colagem é a opção Send to (text), do lado direito
da linha do botão Display, que vai converter todas as sequências FASTA selecionadas num único arquivo txt. Pode-se então copiar
tudo e colar num arquivo txt no Nloco de Notas. Agora deveremos abrir o programa ClustalX (Figura 8a) e carregar (load) as 14
sequências, que formam o arquivo txt que construímos (ou que pegamos daqui) (Figura 8b).
29/09/13 Aula11 - Dendrogramascom ClustalX e njPlot - parte 2
www.ufpe.br/biolmol/aula12.htm 3/7
 Figura 8a Figura 8b
Assim que o arquivo txt for adicionado, as sequências aparecerão, com aminoácidos de cores diferentes, representados pelo código
de letra única para cada aminoácido. Quando selecionarmos no botão Alignment a opção Do complete aligment, as sequências serão
alinhadas umas às outras (alinhamento múltiplo) . O resultado do alinhamento (tanto a árvore como o alinhamento, propriamente dito)
serão salvos em geral na pasta de onde veio o arquivo das sequências. Isto está mostrado na figura 9 a seguir.
 Figura 9: Alinhamento múltiplo realizado para 14 sequências de primatas, com as opções de gravação (salvar) dos
arquivos de saída.
Observe que, sempre em que uma posição todas as sequências têm o mesmo aminoácido, aparece um asterisco no parte de cima do
quadro. No botão File podemos escolher agora Save sequence as e selecionar o formato Clustal (Figura 10). De fato o que estamos
fazendo é criar um arquivo que possa ser lido pelo programa njPlot, que vai nos desenhar a árvore (dendrograma) de correlação das
várias sequências em estudo.
 Figura 10
Agora resta obter o dendrograma (ou árvore).
 
4. Obtendo um dendrograma com o njPlotWIN95
O programa njPlot está disponível para download aqui. Baixe para sua máquina e clique sobre o ícone, que é um zip que se auto-
extrai. Escolha a pasta onde você quer extrair os arquivos, proceda a extração e depois clique sobre o ícone njplot (o programa roda
na interface DOS)
Quando o programa njPlot abre, ele habilita a adição de um arquivo com extensão dnd, através do botão File e da opção Open.
Devemos então procurar nosso arquivo gerado pelo Clustal no lugar onde nós o deixamos salvo. No exemplo da figura ele se chama
sequencias_A_A.dnd e está salvo numa pasta Sequencias em algum lugar do computador. Assim que abrirmos o arquivo dnd a árvore
(dendrograma) aparece. As distâncias "genéticas" entre os organismos vão estar mostradas apenas se clicarmos na opção Branch
lenght (Figura 11).
 Figura 11: dendrograma de 14 sequências de cox de primatas
Observe na figura que Pan, Pongo e Hylobates aparecem juntos, sem qualquer separação entre eles. As sequências deles também
aparecem juntas no resultado do blastp feito via ORFfinder, mostrado na figura 4c desta aula.
Se desejarmos ver os valores de "bootstrap" (Bootstrap values, que pode ser habilitado numa caixa de seleção no box display),
veremos que isto não é possível. Entretanto, o valor de bootstrap nos indica o grau de confinaça que temos na estrutura da árvore: se
optarmos por fazer 1000 bootstaps (que equivale mais ou menos a reconstruir a árvore 1000 vezes a partir de pontos distintos de
seus ramos) e verifiarmos que nos nós das ramificações os valores de bootstrap indicados são altos (maiores que 600, por exemplo),
saberemos que uma grande maioria das árvores formadas terá de fato o aspecto mostrado na nossa figura. Valores baixos de
bootstrap nas ramificações indicam incerteza nestes pontos da árvore. Então como conseguir visualizar o bootstrap value? É preciso
voltar no programa Clustal e pedir que ele crie uma árvore (no botão Trees), optando por Bootstrap NJ-Tree, que é uma árvore
feita pelo algorítmo de neighbor joining, com 1000 bootstraps (valor padrão). Uma caixa de diálogo vai se abrir e poderemos aceitar
os valor padrão, Ao clicar em OK o programa cria um arquivo com o mesmo nome do nosso arquivo txt e na mesma pasta onde ele
estiver, só que com a extensão phb. O programa njTree lê este arquvo phb e agora ele habilita a caixa de opção bootstrap values. A
árvore vai mostra os valores de bootstrap que, como dito acima. correspondem aproximadamente ao número de vezes em que aquela
forma de organizar as sequências naquele nó da árvore foi observada.
 
 
5. Comparando os dendrogramas para sequências de nt e aa dos mesmos genes
29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2
www.ufpe.br/biolmol/aula12.htm 4/7
Para finalizar esta aula procuremos comparar as árvores obtidas com as sequências de nucleotídeos (baixe aqui) e aminoácidos
(baixe aqui) dos mesmos 9 genes de cox que começamos a discutir na aula anterior.
Quando carregamos as sequências no ClustalX, salvamos o arquivo dnd (guide tree) e visualizamos os resultados no njplot, teremos as
telas que estão mostradas abaixo (Figuras 12 a-f).
Figura 12 a: As 9 sequências de nucleotídeos adicionadas ao ClustalX
Figura 12 b: As 9 sequências de nucleotídeos alinhadas no ClustalX
Figura 12 c: As 9 sequências de aminoácidos adicionadas ao ClustalX
Figura 12 d: As 9 sequências de aminoácidos alinhadas no ClustalX
Figura 12 e: O dendrograma gerado pelo njPlot para as sequências de nucleotídeos
Figura 12 f: O dendrograma gerado pelo njPlot para as sequências de aminoácidos
 
Finalmente, vamos comparar os dois dedrogramas, como mostrado na figura 13, uma montagem feita no Powerpoint das duas figuras
dos dendrogramas isolados. É evidente que os organismos estão agrupados de forma muito semelhante nos dois casos, apesar das
diferenças em comprimento nas sequencias de cDNA entre eles, quando comparados com os comprimentos essencialmente iguais das
suas sequências de aminoácidos. Em geral, as sequências de nucleotídeos são mais divergentes que as de aminoácidos e, por vezes, as
árvores podem ser diferentes quando empregamos nt ou aa, mas não foi o caso aqui.
 Figura 13: A comparação entre os dois dendrogramas (com nt e aa) para as 9 sequências de primata em estudo
 
 
Resta saber se os agrupamentos fazem sentido do ponto de vista taxonômico. Observe que Ateles e Saimiri estão juntos na árvore
filogenética. Embora eles sejam primatas bem diferentes à primeira vista (figuras abaixo), são os dois da América, enquanto os
demais são do Velho Mundo.
29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2
www.ufpe.br/biolmol/aula12.htm 5/7
http://fotos.naturspot.de/bilder/11-78.html
http://www.impact-malaria.com [Photograph: Cécile
LeScanf, Institut Pasteur]
Uma análise rápida da Figura 14 abaixo permite concluir que as árvores geradas são coerentes com os atuais conhecimentos
taxonômicos.
 Figura 14: Chaves taxonômicas simplificadas para as espécies em estudo
Painel das espécies do Velho Mundo, citadas neste trabalho.
Eulemur fulvus ("Zooboomafoo")
http://vesmir.msu.cas.cz/Madagaskar/images/vystava1999/14.jpg
Nycticebus coucang
http://wadict.soas.ac.uk/wadict/images/nycticebus_coucang.jpg
Otolemur (ou Galago) crassicaudatus
http://etologia1.psi.ub.es/etopri/impri/GALAGO.JPG
29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2
www.ufpe.br/biolmol/aula12.htm 6/7
 
Tarsius syrichta
http://upload.wikimedia.org/wikipedia/commons/2/2b/Philippine_sarangani_tarsier.jpg
Trachypithecus cristatus
www.wildsidephotography.ca/primates.html
Macaca sylenus
http://www.unipv.it/webbio/cismu/prim/macasyle.jpg
 
Papio anubis
http://photos1.blogger.com/img/26/2207/400/olivebaboon-papio%20anubis.jpg
Theropithecus gelada
http://www.missouri.edu/~anthmark/courses/mah/images/gelada.jpg
Hylobates agilis
www.gibboncenter.org/hylobates.htm
 
29/09/13 Aula11 - Dendrogramas com ClustalX e njPlot - parte 2
www.ufpe.br/biolmol/aula12.htm 7/7
Pongo pygmaeus (orangotango)
www.50birds.com/gendwildlife1.htm
Gorilla gorilla (gorila)
http://www.knoxville-zoo.org/img/gorilla.jpg
Pan paniscus (chimpanzé)
http://www.floranimal.ru/pages/animal/b/4568.jpg
 
Como exercício suplementar, anexamos aqui o arquivo txt de uma série de sequências de aminoácidos da proteína citocromo B, que faz
parte de uma enzima multimérica de 11 unidades, mitocondrial, da cadeia respiratória. Todas as sequências são de morcegos
(Chiroptera). Também disponível está um arquivo com sequências da proteína citocromo B de camelídeos.
 
************************************************

Outros materiais