Buscar

Análise filogenética #2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 1
Árvores Filogenéticas
1 Introdução
• todos os fundamentos da biologia moderna estão associados à teoria da evolução
de Darwin.
• de aspectos de anatomia, passando por comportamento e chegando à genética,
toda a metodologia de análise requer uma apreciação das mudanças nos
organismos com o tempo.
• é impossível analisar as relações entre seqüências de genes sem considerar, direta
ou indiretamente, o modo como estas seqüências sofreram modificações ao longo
do tempo.
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 2
2 Taxonomia
• a disponibilidade de seqüências de atributos, que descrevem parte das (não
confunda com todas as!) características de organismos, nos remetem às seguintes
questões:
� os atributos correspondentes estão devidamente alinhados (sequence
alignment)?
� uma vez alinhadas, como estas seqüências estão relacionadas?
� e de um modo geral, uma vez alinhadas, como os organismos dos quais estas
seqüências foram obtidas estão relacionados?
• o estudo dos relacionamentos entre grupos de organismos é chamada taxonomia
(ou taxinomia), a qual representa um dos ramos mais antigos da biologia clássica.
• em outras palavras, a taxonomia envolve a classificação de objetos em grupos, é
uma atividade que sempre foi exercida pelos homens de todos os tempos e foi
estabelecida como um ramo científico por Carolus Linnaeus (1707-1778).
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 3
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 4
• a filogenia ou história evolutiva das espécies está fundamentada em um conceito
da teoria da evolução que afirma que grupos com organismos que apresentam
atributos similares descendem de um ancestral comum.
• a sistemática filogenética é, portanto, um método de classificação taxonômica
baseado na história evolutiva, tendo sido desenvolvida em 1950 por um
entomologista alemão chamado Willi Hennig.
• as relações evolutivas são representadas na forma de árvores filogenéticas, que
descrevem os relacionamentos entre as seqüências.
2.1 Metodologias para reconstrução de árvores filogenéticas
• há duas metodologias distintas para se obter uma árvore filogenética:
� métodos fenéticos ou não-baseados em modelo evolutivo: são aqueles que
consideram o estado corrente das seqüências de atributos, não importando a
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 5
história evolutiva, ou seja, a dinâmica dos passos intermediários. A árvore que
melhor explica os relacionamentos entre as seqüências de atributos é
denominada fenograma.
� métodos cladísticos ou baseados em modelo evolutivo: são aqueles que
consideram as possibilidades de resultado de um processo evolutivo,
importando a dinâmica dos passos intermediários, e adotam a árvore que melhor
explica os relacionamentos entre as seqüências de atributos resultantes, sempre
com base em uma hipótese evolutiva. Esta hipótese evolutiva pode estar
baseada em algum modelo evolutivo ou em algum critério de otimalidade. A
árvore que melhor explica os relacionamentos entre as seqüências de atributos é
denominada cladograma. Na árvore adotada, o comprimento dos ramos pode ser
informativo (quando a hipótese está baseada em um modelo evolutivo),
resultando em um filograma.
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 6
procarioto 1
procarioto 2
procarioto 3
eucarioto 1
eucarioto 2
eucarioto 3
CLADOGRAMA
procarioto 1
procarioto 2
procarioto 3
eucarioto 2
eucarioto 3
eucarioto 1
FILOGRAMA
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 7
• algoritmos computacionais baseados na metodologia fenética empregam cálculo
de distância para reconstruir as árvores a partir de uma seqüência de atributos.
São, portanto, enormementente influenciados pelo papel de cada atributo da
seqüência.
• adotar o mesmo papel para cada atributo é um procedimento altamente
questionável, mas muito utilizado. Ele se justifica na ausência de informação para
se tomar outras atitudes.
• os algoritmos baseados na metodologia fenética conduzem a técnicas computacio-
nais extremamente eficientes e com propriedades estatísticas desejáveis.
• a metodologia fenética supera a metodologia cladística quando os atributos
presentes das seqüências são extremamente objetivos.
• no entanto, na presença de atributos menos objetivos, como aqueles que envolvem
aspectos de morfologia, e na existência de múltiplos objetivos a serem satisfeitos,
a metodologia cladística é seguramente superior.
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 8
• a que corresponde cada atributo da seqüência?
� tamanho e forma de estruturas visíveis;
� presença ou ausência de alguns fatores;
� tipos de comportamento frente a diversas situações;
� seqüências de DNA;
� dados de expressão gênica;
� alguma combinação dos atributos acima;
� etc.
• estes atributos podem, portanto, assumir valores discretos ou contínuos, havendo
medidas de similaridade específicas para cada caso.
• por exemplo, em uma seqüência de DNA, existem 4 valores possíveis para cada
atributo, cada um correspondendo a um nucleotídeo.
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 9
2.2 DNA como unidade básica da taxonomia
• vantagens associadas ao uso de DNA como unidade taxonômica:
� o estado de cada atributo pode ser definido de forma não-ambígua;
� um número elevado de atributos pode ser obtido;
� é possível caracterizar a divergência entre seqüências não apenas em termos
de distância, mas também levando-se em conta a natureza da divergência:
substituição de nucleotídeos, inserções/deleções ou rearranjo de genoma.
• desvantagens associadas ao uso de DNA como unidade taxonômica:
� necessidade de aplicação de técnicas de alinhamento de seqüências;
� dificuldade de atribuir funcionalidade (grau de importância) a cada atributo.
A aat tcg ctt cta gga atc tgc cta atc ctg
B ... ..a ..g ..c .t. ... ... t.. ... ..a
C ... ..a ..c ..c ... ..t ... ... ... t.a
D ... ..a ..a ..g ..g ..t ... t.t ..t t..
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 10
• supondo a capacidade de atribuir funcionalidade às seqüências, por exemplo,
delimitando genes, há um entendimento intuitivo de que organismos
evolutivamente mais próximos devem apresentar seqüências mais similares,
enquanto que indivíduos evolutivamente mais distantes devem apresentar
seqüências mais dissimilares.
• dado um conjunto de seqüências de bases, ou melhor ainda, um conjunto de
seqüências de genes, é possível reconstruir um relacionamento evolutivo entre
estas seqüências, ou genes.
• é possível estender esta hipótese aos organismos de onde os atributos foram
extraídos?
• nem sempre, pois os genes não necessariamente tiveram a mesma história
evolutiva que aquela apresentada pela espécie em que ele está contido.
• a probabilidade de se estimar uma topologia equivocada para a árvore é
diretamente proporcional à correlação entre as seqüências de atributos.
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 11
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 12
2.3 A validade científica e a correção de uma árvore
• a aplicação de pacotes de software distintos a um conjunto de seqüência de
atributos é muito provável que produza respostas distintas.
• alterações mínimas nos dados podem também conduzir a mudanças significativas
nos resultados.
• supondo que os dadossão confiáveis, que um algoritmo adequado foi escolhido e
nenhuma outra hipótese foi violada, é possível determinar a árvore correta e
demonstrar sua validade científica?
• a resposta é negativa, pois nenhuma resposta será suficientemente conclusiva.
• a taxonomia está constantemente em revisão, conforme novos dados são obtidos e
ferramentas de análise mais poderosas são empregadas.
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 13
3 A explosão combinatória de possibilidades
• quantidade de árvores distintas para o caso de 3 seqüências de atributos:
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 14
• quantidade de árvores distintas para o caso de 4 seqüências de atributos:
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 15
• 5 seqüências: 105 árvores candidatas
• 15 seqüências: 213.458.046.676.875 árvores candidatas
• 20 seqüências: 8.200.794.532.637.891.559.375 árvores candidatas
• n seqüências: ( )( )!22
!32
2 −
−
− n
n
n
• a situação “melhora” quando se toma árvores sem raiz: ( )( )!32
!52
3 −
−
− n
n
n
• encontrar a melhor árvore é um problema NP-hard (DAY, 1987)
3.1 Demonstração
• para duas folhas (n = 2) existe apenas uma topologia possível:
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 16
• a 3a folha, ao ser inserida, pode se combinar com os outros nós de três formas
diferentes:
• a 4a folha, ao ser inserida, pode se combinar com os outros nós de cinco formas
diferentes, e assim sucessivamente, até a enésima folha, que poderá se combinar
com os demais nós de 2n−3 maneiras diferentes. Assim, a fórmula para n folhas
fica:
( ) ( )∏
=
−=−⋅⋅⋅⋅
n
i
in
2
3232...531
• multiplicando o numerador e o denominador da última expressão por:
( ) ( ) ( )2)1(22)2(2...864222
1
2
−−⋅−−⋅⋅⋅⋅⋅=−∏
−
=
nni
n
i
resulta
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 17
( ) ( ) ( ) ( )
( ) ( )4262...642
32425262...654321
−⋅−⋅⋅⋅⋅
−⋅−⋅−⋅−⋅⋅⋅⋅⋅⋅⋅
nn
nnnn
• dividindo todos os n−2 fatores no denominador por 2, o número de árvores pode
finalmente ser apresentado na forma:
( )
( )!22
!32
2 −
−
− n
n
n
4 Formalização do conceito de árvore
4.1 Representação de uma árvore com raiz
• uma árvore com raiz T pode ser representada por um par ordenado T = (N, f),
onde:
¾ N é um conjunto de nós da árvore, sendo um deles o nó-raiz;
¾ f é uma função que associa a cada nó i ∈ N, com exceção do nó raiz, um único nó
f(i), denominado antecessor imediato ou pai de i. Cada associação de
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 18
antecedência imediata entre dois nós, realizada pela função f, representa um arco
da árvore;
¾ dado que um caminho (percurso pela árvore) é uma seqüência sem repetição de
arcos em que o segundo nó de cada arco coincide com o primeiro nó do arco
seguinte, então, para quaisquer pares de nós, existe um caminho único que leva de
um destes nós ao outro.
• dada a árvore da figura 1, então temos:
¾ N = {A, B, C, D, E, F, G}, sendo D o nó raiz;
¾ f(A) = B; f(C) = B; f(B) = D; f(F) = E; f(G) = E; f(E) = D.
• f(D) não está definido, pois o nó-raiz não apresenta antecessor imediato;
• não é possível afirmar que f(A) = D, pois embora D seja antecessor de A, D não é
antecessor imediato de A, papel que cabe ao nó B. No entanto, f(f(A)) = D;
• dado que um antecessor imediato é também denominado de nó-pai, todos os nós
que são antecedidos por ele são denominados nós-filhos.
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 19
D
B
CA
E
GF
Figura 1: Exemplo que árvore, sendo D o nó raiz
• nós-filhos que têm o mesmo nó-pai são denominados de nós-irmãos, sendo que o
número de nós-irmãos associados a um dado nó-pai é denominado grau do nó-pai.
• os nós ligados à raiz por arcos formam sub-árvores, que têm estes nós (no caso da
figura 1, são B e E) como sub-raízes. Tomando cada sub-árvore como uma nova
árvore, esta também pode ser sub-dividida adotando-se o mesmo procedimento.
• um nó de grau zero é chamado folha ou nó terminal;
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 20
• o nível de um nó é dado pela sua distância até a raiz, ou seja, pelo número de
arcos que devem ser percorridos. O nível pode ser dado também pelo número de
aplicações recursivas da função f. Tomando o exemplo da figura 1, dado que
f(f(A)) = D, então o nó A é dito ter nível 2;
• a altura de uma árvore é dada pelo nível máximo das folhas daquela árvore;
• quando o grau de qualquer nó que não seja nó terminal é definido como sendo
igual a k, então a árvore é chamada de árvore k-ária.
• dentre as árvores ordenadas de grau limitado destaca-se a árvore binária, onde
cada nó não-terminal tem dois nós-filhos. Neste caso, dizemos que um filho
corresponde à sub-árvore da direita e o outro à sub-árvore da esquerda;
• a caminhada por uma árvore binária é a principal operação básica. Através dela
pode-se percorrer todos os nós seqüencialmente e ter acesso a um nó específico.
Três formas de caminhada freqüentemente utilizadas são:
Análise de Dados em Bioinformática – Prof. Von Zuben
DCA/FEEC/Unicamp
Tópico 6: Árvores Filogenéticas 21
� caminho pré-fixado: raiz → sub-árvore da esquerda → sub-árvore da direita. O
caminho pré-fixado na árvore da figura 1 produz a seqüência D, B, A, C, E, F, G;
� caminho central: sub-árvore da esquerda → raiz → sub-árvore da direita. O
caminho central na árvore da figura 1 produz a seqüência A, B, C, D, F, E, G;
� caminho pós-fixado: sub-árvore da esquerda → sub-árvore da direita → raiz. O
caminho pós-fixado na árvore da figura 1 produz a seqüência A, C, B, F, G, E, D.
5 Referências bibliográficas
BROWN, S.M. “Molecular Phylogenetics: Computing Evolution”, New York University, School
of Medicine, Notas de Aula.
DAY, W.H.E. “Computational complexity of inferring phylogenies from dissimilarity
matrices”, Bull. Math. Biol, 49:461-467, 1987.
PRADO, O.G. “Computação Evolutiva Empregada na Reconstrução de Árvores Filogenéticas”,
Dissertação de Mestrado, Faculdade de Engenharia Elétrica e de Computação
(FEEC/Unicamp), Dezembro de 2001.

Continue navegando