Buscar

Bioinfo

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 77 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 77 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 77 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

CURSO ON LINE 
 
 
INTRODUÇÃO À 
BIOINFORMÁTICA 
 
 
 
 
 
 
 
Prof. Dr. Francisco Prosdocimi 
 
 
2007 
 
 
ÍNDICE 
 Pág. 
CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3 
 1.1. O que é a bioinformática? 3 
 1.2. O surgimento da bioinformática 3 
 1.3. O que preciso saber para ser um bom bioinformata? 5 
 1.4. Cursos de pós-graduação em bioinformática no Brasil 6 
 1.5. Conversando sobre bioinformática – BIOCHAT 6 
 1.6. Referências Bibliográficas e textos complementares 12 
 1.7. bRAINsTORM 12 
CAPÍTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO 13 
 2.1. Introdução 13 
 2.2. Sequenciamento do DNA 13 
 2.3. Genômica 14 
 2.4. As ômicas: integrando a bioinformação 15 
 2.5. O PERL e outras linguagens de programação 15 
 2.6. Referências Bibliográficas e textos complementares 17 
 2.7. bRAINsTORM 17 
CAPÍTULO 3 ALINHAMENTO DE SEQÜÊNCIAS 18 
 3.1. Introdução 18 
 3.2. Alinhamento Global 18 
 3.3. Alinhamento Local 19 
 3.4. Alinhamentos ótimos e heurísticos 20 
 3.5. Alinhamentos simples e múltiplos 21 
 3.6. Matrizes de comparação 22 
 3.7. Exemplos reais de alinhamentos 23 
 3.8. Referências Bibliográficas 28 
 3.9. bRAINsTORM 28 
CAPÍTULO 4 MONTANDO UM GENOMA 29 
 4.1. Sobre genomas eucarióticos e procarióticos 29 
 4.2. Base-calling 30 
 4.3. Cross-match 31 
 4.4. Agrupamento de seqüências 32 
 4.5. Sobre a cobertura dos genomas 34 
 4.6. Referências Bibliográficas 35 
 4.7. bRAINsTORM 35 
CAPÍTULO 5 ANÁLISE DE TRANSCRIPTOMAS 36 
 5.1. As ESTs 36 
 5.2. Histórico das ESTs 37 
 5.3. Agrupamento de ESTs 38 
 5.4. O genoma e o transcriptoma 39 
 5.5. SAGE – Serial Analysis of Gene Expression 40 
 5.6. Microarrays 40 
 5.7. Referências Bibliográficas 41 
 5.8. bRAINsTORM 41 
CAPÍTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42 
 6.1. Histórico 42 
 6.2. Bancos primários e secundários 43 
 6.3. GenBank e GenPept 43 
 6.4. RefSeq – O banco de dados de seqüências de referência 44 
 6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas 45 
 6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características 46 
 6.7. Referências Bibliográficas 46 
 6.8. bRAINsTORM 47 
CAPÍTULO 7 ANOTAÇÃO DE GENOMAS 49 
 7.1. Introdução 49 
 7.2. Anotação de Nucleotídeos 49 
 7.3. Anotação de Proteínas 50 
 7.4. Anotação de Processos 50 
 7.5. A realização da Anotação Genômica (Sociologia da Anotação) 51 
 7.6. Referências Bibliográficas 52 
 7.7. bRAINsTORM 53 
CAPÍTULO 8 BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS 54 
 8.1. Homologia, Ortologia e Paralogia 54 
 8.2. COG 56 
 8.3. Trabalhando com genomas completos 56 
 8.4. Referências Bibliográficas 57 
 8.5. bRAINsTORM 58 
CAPÍTULO 9 BIOINFORMÁTICA ESTRUTURAL 59 
 9.1. Sobre a estrutura das proteínas 59 
 9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 60 
 9.3. Modelagem molecular por homologia 61 
 9.4. Alguns programas de modelagem molecular 63 
 9.5. Threading 63 
 9.6. CASP – Critical Assessment of Structure Prediction 63 
 9.7. Estrutura de um arquivo no formato PDB 64 
 9.8. Referências Bibliográficas 67 
 9.9. bRAINsTORM 68 
CAPÍTULO 10 CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA 69 
 10.1. Sobre bioinformática, genoma e ciência 69 
 10.2. Introdução 69 
 10.3. Genoma e o método científico 70 
 10.4. Um conceito de bioinformática 71 
 10.5. Princípios paradigmáticos em bioinformática 72 
 10.6. Conclusão 74 
 10.7. bRAINsTORM 74 
PREFÁCIO 
 
Quando em 2002 realizei, concomitantemente ao meu mestrado em genética pela 
UFMG, o excelente curso de especialização em Bioinformática do LNCC, ministrado por 
muitos dos maiores especialistas em genômica e bioinformática de nosso país, tive o 
privilégio de ser um dos organizadores (e o primeiro autor) de um trabalho entitulado 
“Bioinformática: manual do usuário” em que todos os cerca de 20 alunos do curso 
se organizaram com o objetivo de gerar uma publicação básica sobre a área de 
pesquisa à qual nos estamos aprofundando e formando. Esta publicação foi finalmente 
publicada na revista Biotecnologia Ciência e Desenvolvimento alguns meses depois. 
 
Tendo mantido meu contato com a editora da revista Biotecnologia, enquanto 
terminava meus estudos de doutoramento em bioinformática, recebi um convite para 
elaborar um curso on line a ser ministrado através do portal biotecnologia da 
Internet (http://www.biotecnologia.com.br). Este documento que agora vos apresento 
gratuitamente pela Internet (http://biotec.icb.ufmg.br/chicopros/Prosdocimi07_Curso 
Bioinfo.pdf) consiste exatamente neste curso, produzido em 2006 e ministrado em 
2007 para uma turma de 40 alunos. Ainda que navegando por problemas técnicos, 
acredito que o curso foi bastante proveitoso e produtivo, sendo que a grande maioria 
dos alunos saiu do mesmo tendo adquirido conteúdo e aprendido a compreender muito 
sobre a lógica e o pensamento em bioinformática. 
 
Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo este 
documento arquivado entre meus arquivos do período jurássico e tenho pena de deixar 
este conhecimento perdido nos meandros digitais do meu disco rígido. Assim, contatei 
recentemente a editora da revista que lendo o contrato que fizemos à época e dizendo 
serem meus os direitos autorais desta apostila ou “esboço de livro”, informou-me que 
tenho o direito de publicar o presente documento na Internet para que se torne 
acessível a qualquer indivíduo interessado em aprender a arte e a ciência da 
bioinformática. Recomendou-me ainda que eu atualizasse as informações aqui 
presentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho sim 
planos de fazê-lo, mas sei que precisaria reestruturar boa parte do que está aqui 
contido e, por falta de tempo para tanto, decido publicar esta versão gratuitamente 
pela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estarei 
disposto a atualizar estas informações e produzir uma segunda edição mais completa e 
atualizada sobre presentes assuntos. 
 
Brasília, numa quarta-feira de cinzas. 
17/02/2010 
 
Chico Prosdocimi 
http://biotec.icb.ufmg.br/chicopros 
http://chicopros.blogspot.com 
 
 
 
 
 
Aos meus pais 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
3 
CAPÍTULO 1 
Uma visão global da bioinformática 
 
Iniciando nossa Interação 
 
Nesta primeiro capítulo apresentaremos uma visão geral da bioinformática, 
vamos conversar sobre as necessidades e oportunidades de capacitação para quem 
deseja atuar nessa área. 
 
 
1.1. O que é a bioinformática? 
 
Podemos considerar a bioinformática como uma linha de pesquisa que envolve 
aspectos multidisciplinares e que surgiu a partir do momento em que se iniciou a 
utilização de ferramentas computacionais para a análise de dados genéticos, 
bioquímicos e de biologia molecular. A bioinformática envolve a união de diversas 
linhas de conhecimento – a ciência da computação, a engenharia de softwares, a 
matemática, a estatística e a biologia molecular – e tem como finalidade principal 
desvendar a grande quantidade de dados que vem sendo obtida através de seqüências 
de DNA e proteínas. Para o desenvolvimento de genomas completos, a informática é 
imprescindível e a biologia molecular moderna não estaria tão avançada hoje, não 
fossem os recursos computacionais existentes. 
 
 
1.2. O surgimento da bioinformática 
 
A bioinformática, apesar de ser uma ciência nova e em desenvolvimento, já 
apresenta uma figura clássica que freqüentemente é mostrada em qualquer palestra 
ou curso que se vá sobre a área. Essa figura, mostrando o crescimento exponencial do 
GenBank nos últimos anos, tenta mostrar que, mais do que uma abstração possível, a 
bioinformáticaé hoje uma necessidade para a análise de dados em biologia molecular. 
Desde que os seqüenciadores capilares de DNA em larga escala surgiram, no 
fim da década de 90, a quantidade de dados biológicos produzidas simplesmente 
alcançou níveis que fizeram com que análises manuais de seqüências de DNA se 
tornassem simplesmente alternativas absurdas para o estudo de dados de genoma e 
transcriptoma. 
 Dois desenvolvimentos foram importantes para permitir tanto o surgimento da 
bionformática quanto o rápido desenvolvimento da produção de seqüências de DNA. O 
primeiro deles foi o sequenciamento capilar. Enquanto no passado as seqüências eram 
produzidas em placas enormes que deveriam ser corridas de forma uniforme e com um 
grande cuidado, com o desenvolvimento da tecnologia de sequenciamento capilar, a 
eletroforese ocorria dentro de tubos com a espessura de um cabelo humano, contendo 
uma solução polimérica por onde o DNA deveria passar guiado por uma corrente 
elétrica, como uma eletroforese normal. O outro grande desenvolvimento foi a 
marcação dos didesoxinucleotídeos necessários para o sequenciamento do DNA com 
moléculas fluorescentes. Enquanto as reações tradicionais eram realizadas com 
marcadores radioativos, que tornavam a metodologia um tanto quanto trabalhosa e 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
4 
até mesmo perigosa, os marcadores fluorescentes permitiam maior segurança e ainda 
um novo avanço. Enquanto era preciso correr diferentes reações para cada nucleotídeo 
na marcação radioativa, a técnica de marcação fluorescente permitia que cada base 
fosse marcada com um diferente fluorocromo que era capaz de emitir luz em um 
diferente comprimento de onda se excitado por um laser. Essa luz, lida por um 
detector, informava ao sistema qual nucleotídeo passava em diferentes momentos da 
eletroforese. E foi exatamente a reunião desses dois desenvolvimentos num só 
aparelho que produziu o equipamento que posteriormente ficaria conhecido como “o 
seqüenciador que criou a bioinformática”. O primeiro desses aparelhos foi produzido 
pela empresa Applied Biosystems e foi chamado de ABI Prism 3700. Apresentava 96 
colunas (ou capilares para a eletroforese) e permitia o sequenciamento de cerca de 
550 bases em cada coluna, sendo oito vezes mais rápida do que a melhor concorrente 
da época e possibilitando o sequenciamento de até 1 milhão de pares de bases por dia. 
Além de permitir o rápido desenvolvimento da bioinformática, esse seqüenciador ainda 
geraria brigas políticas sobre quem é que deveria sequenciar todo o genoma humano, 
uma empresa particular ou o consórcio público, mas isso é outra história. 
 
 
Figura 1.1. Crescimento do Genbank. Crescimento exponencial do número de 
seqüências contidas no GenBank ao longo das duas últimas décadas. Obtido em 
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html. 
 
 O que importa é que, desde 1998, quando o ABI Prism foi lançado, outras 
empresas desenvolveram também seus seqüenciadores capilares de larga escala e o 
custo dessas máquinas – que antes chegava a trezentos mil dólares – foi aos poucos 
caindo e permitindo que mais e mais laboratórios pudessem ter seus próprios 
seqüenciadores. Cada vez mais dessas máquinas são vendidas ainda hoje e o número 
de seqüências de DNA produzidas vem aumentando exponencialmente até o presente 
momento. 
 
Leitura complementar: 
http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
5 
1.3. O que preciso saber para ser um bom bioinformata? 
 
O profissional em bioinformática é raro no mercado, já que ele necessita saber 
e ser familiar a, pelo menos, três áreas distintas do conhecimento: a biologia 
molecular, a ciência da computação e a bioinformática per se. Além disso, 
conhecimentos em estatística e matemática são altamente recomendáveis. Imagine 
um biólogo que não tenha conhecimento de computação: ele será capaz de bolar uma 
infinidade de possíveis experimentos em bioinformática que gostaria que fossem 
gerados, mas será incapaz de colocá-los em prática. Do outro lado, um cientista da 
computação sem conhecimento em biologia e com sua característica ânsia de analisar 
dados, será capaz de pegar uma infinidade de dados biológicos e fazer uma grande 
quantidade de análises computacionais sem qualquer propósito, gerando resultados de 
difícil interpretação, por vezes ininterpretáveis ou sem qualquer sentido biológico. O 
trabalho em equipe, para a produção de projetos em bioinformática, pode ser 
interessante, desde que os profissionais trabalhem juntos todo o tempo. Reuniões 
apenas esporádicas normalmente fazem com que as idéias do trabalho do biólogo e do 
cientista da computação se afastem dos ideais iniciais da pesquisa. Isso no caso 
médio. É claro que é possível conseguir bons resultados em casos isolados. 
 Considerando isso, torna-se necessário o desenvolvimento de um novo 
profissional, o bioinformata. Um biólogo que tenha tido uma formação parcial como 
cientista da computação ou vice-versa. Além disso, é preciso que tal profissional tenha 
ainda uma formação em bioinformática e que conheça profundamente as diferenças e 
as boas e más qualidades dos principais bancos de dados públicos sobre seqüências e 
estruturas de biomoléculas. Como não temos a intenção de ensinar biologia molecular 
ou ciência da computação, no presente curso daremos ênfase exatamente a esta 
última parte, que consiste na formação do bioinformata per si, que deve conhecer pelo 
menos o básico com relação à análise de genomas e as ferramentas e bancos de dados 
disponíveis na internet para o estudo dessa nova ciência. 
 Com relação aos requisitos computacionais que serão apresentados apenas de 
passagem no presente curso, um profissional em bioinformática deve ter um bom 
conhecimento algum sistema operacional baseado em UNIX, sem qualquer sombra de 
dúvida. Quase todos os algoritmos utilizados para a pesquisa em bioinformática 
apresentam código aberto e são, freqüentemente, disponíveis apenas para sistema 
operacionais como o LINUX e o Solaris. Os programas de código aberto são aqueles 
nos quais os programadores disponibilizam todo o código fonte do programa para o 
usuário, que pode alterá-lo de acordo com a sua aplicação de interesse. E esse é 
também um dos motivos pelos quais os bioinformatas devem ser familiarizados com 
linguagens de programação. Um bioinformata que não sabe programar em uma 
linguagem qualquer tem dificuldades para se desenvolver e, portanto, o profissional 
deve estar ao menos apto a aprender alguma linguagem de programação. 
 Outro conhecimento que gera um salto qualitativo na atividade do bioinformata 
é o conhecimento de bancos de dados e linguagem SQL. A linguagem SQL é a mais 
comumente utilizada em uma diversidade de bancos de dados e muitos sites 
disponibilizam informações armazenas em tabelas e bancos de dados inteiros. Devido à 
sua gratuidade e eficiência, o banco de dados mais utilizado em bioinformática é o 
MySQL, mas quaisquer outros podem ser utilizados sem demais inconvenientes. Mas 
mais importante ainda do que ser capaz de obter os bancos de dados públicos é o 
bioinformata ser capaz de criar seus próprios bancos de dados, organizando as 
informações de seu projeto e permitindo tanto um bom armazenamento quanto 
organização e fácil acesso aos dados. Além disso, o conhecimento de plataformas para 
disponibilizar dados para os pesquisadores é interessante e o bioinformata deve ter 
algum conhecimento de linguagem HTML e, de preferência alguma linguagem de 
 
 
© Francisco Prosdocimi, 2007. Todos os direitosreservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
6 
programação para a internet, como o CGI ou o PHP, sendo que esse último ainda 
apresenta a vantagem de permitir fácil conexão com bancos de dados. 
 É claro que a gama de conhecimento necessária para exercer bem uma 
profissão qualquer tende a ser infinita, mas é indispensável ao menos que o 
bioinformata seja proficiente em uma linguagem de programação e tenha bons 
conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem 
utilizadas em cada caso. Aqui, iremos passar apenas de leve em programação e 
biologia molecular na próxima aula e depois passaremos direto para a parte que 
explica e mostra quais são as principais ferramentas utilizadas em análises genômicas 
e os principais bancos de dados que devem ser consultados em diferentes aplicações. 
 
 
1.4. Cursos de pós-graduação em bioinformática no Brasil 
 
Até o presente momento parecem existir apenas três cursos de pós-graduação 
em bioinformática no Brasil. O primeiro e mais tradicional deles é o curso de pós-
graduação Lato Sensu em Bioinformática do LNCC, cuja página oficial pode ser vista 
em http://www.lncc.br/~biologia/. Três turmas de alunos já graduados de todo o país 
já foram formadas por esta pós-graduação, inclusive o presente autor desse curso on-
line, quem vos escreve. Consiste num ótimo curso de especialização, no qual os 
maiores expoentes do país na área são chamados para ministrar diferentes aulas nos 
campos da genômica, transcriptômica e proteômica. Além desse curso de pós-
graduação, que dura cerca de três meses e meio, o LNCC também oferece cursos 
esporádicos com duração entre duas semanas e um mês e recomenda-se visitar a 
página do LNCC para mais informações (http://www.lncc.br). 
Logo a CAPES percebeu a importância de se abrirem cursos nessa área 
estratégica e propôs um edital para a formação de cursos de doutorado em 
bioinformática. A partir daí dois novos cursos de doutorado em bioinformática foram 
criados, um na USP (setembro de 2002) e outro na UFMG (abril de 2003). Para mais 
informações, visite o site dos programas http://www.ime.usp.br/posbioinfo/ e 
http://www.bioinfo.dout.ufmg.br/. 
 
 
1.5. Conversando sobre bioinformática – BIOCHAT 
 
A revista biotecnologia promove esporadicamente o chamado biochat, que 
consiste em uma conversa com um pesquisador experimente de uma determinada 
área do conhecimento. Abaixo transcrevo um dos biochats realizado com o autor do 
presente curso, onde várias dúvidas básicas sobre o assunto podem ser sanadas. 
 
Assunto do Biochat: Conceitos e Paradigmas em Bioinformática 
Pesquisador entrevistado: Francisco Prosdocimi 
Há uma grande confusão com relação ao que seja a bioinformática, sendo que 
muitos ainda acreditam que qualquer aplicação da computação à biologia possa ser 
referenciada como "bioinformática". Ao observarmos os trabalhos recentemente 
publicados na área, podemos dividí-los em três correntes básicas ou princípios 
paradigmáticos, chamados metaforicamente de "o tijolo", "a peneira" e "a lupa". Tais 
princípios serão apresentados e discutidos durante o BIOCHAT. Além disso, é 
interessante discutirmos quais seriam os pré-requisitos básicos para formar um 
bioinformata, tanto na área computacional quanto na área biológica. Do que, afinal, é 
feito um bioinformata e o que ele precisa conhecer é tema recorrente entre os curiosos 
sobre a área.O conceito da bioinformática, seus princípios paradigmáticos e a formação 
do bioinformata serão, portanto, os temas a serem discutidos neste BIOCHAT. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
7 
 
Dr. Francisco 
Prosdocimi 
Boa noite a todos! Está aberto nosso biochat sobre bioinformática. Por 
favor, enviem suas dúvidas para que possamos discutir e trocar idéias 
a respeito do assunto. 
Vanderson: Grande Francisco... Afinal, qual o conceito mais aceito para Bioinformática? 
Dr. Francisco 
Prosdocimi 
Olá Vanderson. Fico agradecido pela sua presença. Na verdade existem 
vários conceitos para bioinformática e muita confusão é feita sobre o 
tema. Na minha opinião a bioinformática surgiu com o boom dos 
sequenciadores automáticos de DNA e ainda hoje está ligada a análises 
de seqüências de biomoléculas. 
Adonis: Biologia computadorizada? Ouvi este termo e queria saber qual é a 
diferença disso para Bioinformática? 
Dr. Francisco 
Prosdocimi 
Pois é, meu prezado Adonis. A biologia computacional diz respeito a 
qualquer aplicação da computação na área biológica, enquanto a 
bioinformática está freqüentemente associada a analise de seqüências 
de genoma, transcriptoma e proteoma. Esses conceitos entretanto são 
bastante maleáveis e modificam-se todos os anos. 
Pedro: 
Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em 
Bioquímica, na Universidade Federal de Viçosa e tenho direcionado a 
minha formação acadêmica para me tornar... 
Dr. Francisco 
Prosdocimi 
Com relação aos cursos específicos para bioinformática, eles existem 
no Brasil apenas em nível de pós-graduação. Sendo que um deles é o 
curso de especialização lato sensu do LNCC, no qual acontece a 
formação de especialistas em bioinformática. Na USP e na UFMG 
existem cursos de doutorado em bioinformática, onde tais profissionais 
são formados. Eu, a propósito, fui aluno do LNCC e fui também o 
primeiro aluno a defender o doutorado em bioinformática na UFMG. 
Francisco: Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma dúvida... 
Dr. Francisco 
Prosdocimi 
Com relação a cursos de graduação, meu prezado xará, ainda não 
existem na área e recomendo que vc faça um curso de biologia ou de 
computação, se pretende seguir carreira em bioinfo. 
Adonis: então bioinfo está dentro da biologia computacional? 
Dr. Francisco 
Prosdocimi 
Concordo, Adonis. Na minha opinião a bioinformática é, sim, uma parte 
da biologia computacional, sendo essa última uma área bastante ampla 
e não necessariamente relacionada com biologia molecular. Embora, 
repito, esses conceitos são maleáveis e modificam-se com o 
desenvolver das ciências. 
Pedro: 
Qual a sua experiência com a Bioinformática? O senhor trabalha mais 
no meio acadêmico ou se relaciona diretamente com o mercado de 
trabalho? 
Dr. Francisco 
Prosdocimi 
Trabalho com bioinformática desde 2000, tendo tido anteriormente 
uma formação como biólogo molecular em bancada. Fiz minha 
monografia de bacharelado, minha dissertação de mestrado (em 
genética) com análises de transcriptomas do verme Schistosoma 
mansoni e fui o primeiro aluno a defender o doutorado em 
bioinformática na UFMG trabalhando com análises de qualidade de 
seqüências de DNA e genômica comparativa. Sempre trabalhei mais 
voltado para o meio acadêmico, mas já fiz também alguns trabalhos 
em parceria com uma empresa de Belo Horizonte na área de 
bioinformática. A empresa se chama vetta technologies. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
8 
Vanderson: Pegando a deixa do Pedro, você acha que há mercado de trabalho para 
bioinformatas no Brasil... além das instituições públicas e da Alellyx? 
Dr. Francisco 
Prosdocimi 
Infelizmente, meu amigo Vanderson, não acredito que haja ainda 
mercado de trabalho para bioinformática fora das universidades, 
embora o campo na área de biotecnologia tenha crescido e venha 
crescendo. A existência de algumas empresas trabalhando em 
biotecnologia é muito pequena ainda no Brasil e apenas a Alellyx e a 
Scylla têm alguma representatividade no mercado. Ou seja, a 
bioinformáticaainda é matéria para cientistas financiados pelo 
governo. 
Adonis: Qual seria a dica para trabalhar com bioinfo em um lugar onde não se faça molecular? 
Dr. Francisco 
Prosdocimi 
A dica é estar em parceria com pesquisadores que tenham perguntas 
que só possam ser respondidas através de análise computacional. Eu 
mesmo tenho várias colaborações com diferentes laboratórios e produzi 
um software recentemente, o TGFinder, que surgiu como uma 
necessidade de um pesquisador de encontrar genes controlados por 
fatores de transcrição. Além disso, o GenBank possui tantas seqüências 
depositadas e tanta informação a ser mineirada que nem todos os 
cientistas do mundo seriam capazes de tudo analisar. É claro que a 
pesquisa de ponta é normalmente aquele onde se produz e se analisa 
um novo dado em biologia molecular, mas há muito ouro a ser 
peneirado nos bancos de dados públicos. 
Paulo: Olá Dr. mas como é aplicada a computação ou informática, na 
biologia,neste sequenciadores automáticos de DNA? 
Dr. Francisco 
Prosdocimi 
A computação é aplicada, principalmente, na análise e identificação das 
seqüências de DNA que saem dos sequenciadores automáticos. A 
seqüência sai de lá como um monte de A, C, T e G... que não querem 
dizer nada. O que significa para você isso aqui: 
ACATAGGGACATTACAGAGCATTCAGA? Somente com a bioinformática 
conseguimos atrelar a informação codificada em informação biológica, 
associando A, C, T e G a algum nome de gene com alguma função 
especifica... 
Pedro: Aprofundando mais a discussão, a iniciativa privada na bioinformática está... 
Dr. Francisco 
Prosdocimi 
O grande problema, Pedro, é que acredito que dificilmente a 
bioinformática per se pode dar algum lucro. Por exemplo, a empresa 
Alellyx tem, além de um grande know how em bioinfo, um grande 
know how em biologia molecular e em genômica. A descoberta de 
novos genes 'apenas' por bioinfo é muito difícil e é preciso estar 
sempre sequenciando novos organismos. E um sequenciador de DNA é 
muito caro para que pequenos empresários possam comprar, o capital 
inicial de uma empresa de biotecnologia apresentando bioinformática é 
muito alto. 
Marx: E fora do Brasil, como estão as perspectivas? 
Dr. Francisco 
Prosdocimi 
Fora do Brasil eu acredito que haja bastante espaço, sim, para 
bioinformatas. Assino uma lista de jobs em bioinformática e 
freqüentemente vejo pedidos para profissionais da área... o único 
problema é que normalmente exige-se grande experiência prévia, o 
que não temos ainda no Brasil -- profissionais qualificados. 
Adonis: Dr. Francisco Prosdocimi, fale um pouco sobre mineração de dados já 
que esta é o etapa seguinte depois da geração das seqs. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
9 
Dr. Francisco 
Prosdocimi 
Bem, caro Adonis, isso me remete aos princípios paradigmáticos da 
bioinformática que apresentei no texto introdutório. Acredito que os 
trabalhos atuais em bioinformática podem ser divididos em três 
correntes principais, os trabalhos de tijolo -- onde ferramentas de 
bioinformática são produzidas para construir os edifícios genômicos, os 
trabalhos de peneira -- onde a mineração da grande massa de dados 
em genômica são analisados mais especificamente em vários contextos 
-- e os trabalhos de lupa, onde a genômica encontra a ciência e o 
método científico de observação, hipótese, experimentação e 
resultados são novamente retomados. Escrevi um trabalho sobre isso 
para a revista ciência hoje que foi publicado em 2004. 
Pedro: 
Trabalho atualmente no BIOAGRO-UFV (Instituto de Biotecnologia 
Aplicada à Agropecuária) no Laboratório de Bioinformática, 
desenvolvendo softwares de análise populacionais (genética de 
populações). Você considera válido esse tipo de iniciativa ou seria 
melhor eu estar trabalhando mais especificamente com a biologia 
molecular? 
Dr. Francisco 
Prosdocimi 
Considero muito válido seu trabalho. Mas também já tentei produzir 
algo relacionado a genética de populações e acho muito difícil produzir 
algo melhor do que os já conhecidos programas PAUP, PHYLIP, MEGA, 
dentre outros. Boa sorte! 
Paulo: 
Poderíamos ou podemos, descobrir qual a seqüência para uma 
determinada proteína ou característica. Ou para identificar estes pares, 
para saber qual proteína ela vai produzir, seria isto? 
Dr. Francisco 
Prosdocimi 
Podemos sim, saber qual a seqüência de DNA é relativa a uma 
determinada proteína e, muitas vezes, uma característica. Existe até 
mesmo um projeto conhecido como FENOMA, que tenta identificar os 
genes responsáveis por algum fenótipo (característica). O que 
acontece, entretanto, é que grande parte das características são 
geradas através de um grande número de genes que interagem entre 
si e fazem da análise algo complicadíssimo! 
Vanderson: 
Tenho uma opinião a expressar... Um grande problema que eu percebo 
na maioria dessas ferramentas de bioinformática é o total descaso com 
usuários 
Dr. Francisco 
Prosdocimi 
Concordo plenamente, Vanderson. Biólogos não estão interessados em 
utilizar sistemas linux, linhas de comando e outros artifícios 
computacionais de start-up razoavelmente complexo. Interfaces 
gráficas e fáceis, de preferência via web e bastante user-friendly são 
altamente recomendáveis. Mas é preciso dizer que há também 
programas com manuais completos e simples, mas o usuário parece ter 
preguiça de lê-los, o que definitivamente é preciso fazer. 
Carla: Por acaso já se pode analisar um gene pelo computador? 
Dr. Francisco 
Prosdocimi 
É claro, Carla, os genes são formados por seqüências de nucleotídeos 
que são representadas por A, C, G e T, transformando as seqüências 
dos genes em letrinhas que são analisadas e comparadas entre 
diferentes espécies animais. 
Adonis: 
É real a migração de perl para java? ou isso só tá ocorrendo no meio 
privado? Essa migração seria um preocupação com uma interface mais 
amigável? 
Dr. Francisco 
Prosdocimi 
Caro Adonis, acredito que a migração de PERL para JAVA está 
relacionada ao fato de que a linguagem JAVA é multiplataforma, além 
de ser nativamente orientada a objetos, o que facilita a criação de 
programas mais complexos e de grande porte. Acredito que os scripts 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
10 
freqüentemente utilizados em trabalhos de bioinformática devem 
continuar sendo produzidos em PERL, que é uma linguagem onde a 
expressão regular é nativa e rápida, sendo mais apropriada para tais 
trabalhos. Sim, a migração também pode estar relaciona com uma 
interface mais amigável, já pronta em vários objetos JAVA. 
Carla: Como o Brasil está em relação a outros paises, nesse desenvolvimento? 
O nosso país valoriza a bioinformática? 
Dr. Francisco 
Prosdocimi 
O Brasil anda atrás dos países desenvolvidos quando o assunto é 
bioinformática e, apesar de que recentes iniciativas da CAPES e do 
CNPq vêm tentando buscar equiparação internacional, a bioinformática 
brasileira ainda está em seu berço (esplêndido). 
Macedo: 
Boa noite Dr. Gostaria de saber sobre o cenário de Software Livre x 
Software Proprietário em bioinformática. O Sr. acredita que a adoção 
do software livre pode ajudar na redução de gastos em pesquisa e 
desenvolvimento e que isso possibilitará o estudo de doenças 
negligenciadas? Ou o segmento acadêmico enxerga o software livre 
apenas como ª... 
Dr. Francisco 
Prosdocimi 
No caso da bioinformática posso assegurar que mais de 95% dos 
softwares são livres ou de livre acesso (pelo menos para o meio 
acadêmico) e cerca de 50% são de livre acesso para todos. Porisso, a 
bioinformática exige um custo inicial para pesquisa bem baixo e esse é 
mais um dos motivos pelos quais essa ciência deveria ser mais 
incentivada em nosso país. Com um computador razoável e boas idéias 
é possível fazer boa bioinformática!!! 
Pedro: 
Uma empresa privada que prestasse suporte em bioinformática 
(desenvolvendo softwares sequenciadores para organismos específicos 
ou que atendessem alguma demanda de determinada pesquisa, com 
uma interface mais amigável com o usuário final) poderia dar certo? 
Dr. Francisco 
Prosdocimi 
Não estou bem certo, Pedro. O problema é que a idéia para elaboração 
de softwares teria de vir da academia e não sei o pessoal das 
universidades estaria disposto a dar a idéia para que vc fizesse o 
software para eles comprarem, entende? Eles prefeririam pedir no 
departamento de computação para ver se algum outro aluno faria o 
mesmo software de graça, gerando um trabalho publicável em 
conjunto. A menos que vcs produzissem um pacote grande, para uma 
ampla gama de aplicações... aí vc poderia dar certo com sua 
empresa... 
Dani: 
Um profissional em bioinformática deve saber tanto trabalhar com os 
softwares de análises de seqüências quanto desenvolver novos 
programas? Quais são as linguagens de programação mais utilizadas 
para este fim? 
Dr. Francisco 
Prosdocimi 
Ótima pergunta, Dani. É imprescindível para o profissional de 
bioinformática, na minha opinião, ter quatro conhecimentos básicos: 
(1) Ele deve entender bem biologia molecular, (2) saber trabalhar com 
os bancos de dados disponíveis na internet, (3) saber BEM uma 
linguagem de programação e (4) saber manipular bancos de dados. 
Estes, na minha opinião, são os principais requisitos para formar um 
bioinformata. 
Pedro: 
Você contrataria uma empresa dessa natureza para dar suporte às suas 
pesquisas ou prefere, você mesmo, desenvolver os aplicativos com que 
trabalha? 
Dr. Francisco 
Prosdocimi 
Depende do quanto de trabalho fosse necessário. Se fosse pouco 
trabalho, eu mesmo desenvolveria. Se necessitasse de um software 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
11 
amplo, talvez preferisse pagar... mas dependeria de financiamento 
governamental para isso... e o governo não gosta muito do assunto 
'comprar softwares de empresas privadas para trabalhos científicos'. No 
último edital do CNPq para bioinfo, enviamos um projeto tentando 
comprar um software e o projeto não foi aprovado... possivelmente por 
este único motivo. 
Fabio: 
Boa Noite Dr. Francisco, participei da primeira turma de especialização 
em bioinformática do LNCC, atualmente estou fazendo doutorado em 
microbiologia na UFRJ. Gostaria de saber na sua opinião quais são as 
principais diferenças dos cursos de doutorado em Bioinformatica da 
USP e da UFMG? 
Dr. Francisco 
Prosdocimi 
Fala, Fábio. É com receber companheiros por aqui... fui seu sucessor no 
LNCC, participando da segunda turma. Não posso dizer muito do curso 
de doutorado na USP, o qual conheço pouco. Mas ao que me parece o 
curso da USP é muito voltado para as ciências exatas, tendo uma alta 
carga de disciplinas de matemática e estatística. Aqui na UFMG a carga 
de disciplinas é bem balanceada e leve, de forma que o aluno possa se 
preocupar mais com seu projeto de tese. 
Pedro: A quantas anda o desenvolvimento das pesquisas em bioinformática 
aqui no estado de Minas Gerais? 
Dr. Francisco 
Prosdocimi 
Aqui em Minas temos alguns grupos de bioinformática montados. Não 
posso dizer que conheço todos eles, mas aqui na UFMG temos ao 
menos uns três grupos de bioinformática, trabalhando com genoma de 
'Schistosoma mansoni', genômica comparativa e genômica evolutiva, 
mas as coisas ainda são um pouco precárias e a infra-estrutura não é 
das melhores. 
Dani: 
Sou bióloga, especialista em biotecnologia - trabalho com saneamento 
- área ambiental - - mas tenho grande interesse em bioinformática. 
Quais são os conhecimentos básicos de informática que um biólogo 
deve ter para iniciar um mestrado em bioinformática? 
Dr. Francisco 
Prosdocimi 
Bem, não conheço nenhum mestrado em bioinformática e acho que -- 
se houvesse algum -- o aluno deveria conhecer o básico de sistemas 
linux e linguagens de programação. Mas dependendo, se o mestrado 
for para biólogos ou para “computólogos”, os conhecimentos a serem 
exigidos são diferentes. Se for um mestrado para biólogos é possível 
que não seja necessário nenhum conhecimento de informática e todo o 
conhecimento pode ser adquirido quando da realização do curso. 
Dani: 
Qual é campo de trabalho para um pós-graduado em bioinformática, 
além do desenvolvimento de pesquisas em universidades, fundações de 
pesquisa Federais,Estaduais e a Licenciatura? 
Dr. Francisco 
Prosdocimi 
Bem, essa pergunta é um tanto quanto capciosa. Se uma pessoa 
formou em bioinformática, imagino que ela queira fazer pesquisa ou 
dar aulas. É claro que ela pode também trabalhar em alguma empresa 
de biotecnologia ou de bioinformática per si... mas acredito que aí ela 
teria que ir pra fora do Brasil... 
Ricardo: Quais são os trabalhos que vc está fazendo ultimamente na área? 
Dr. Francisco 
Prosdocimi 
Olá, Ricardo. Ultimamente tenho trabalhado com análises do software 
PHRED, com a montagem de um programa para simular a evolução em 
locos de microsatélites, trabalho também com a diferença na utilização 
de aminoácidos por proteínas de diferentes organismos, com a origem 
do código genético, com famílias de proteínas dedos de zinco, dentre 
diversas outras coisas. 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
12 
Pedro: 
Então, estarei entrando em contato com o senhor (pois estou na 
organização do evento). Mais uma pergunta, ainda é muito cedo para 
pensarmos em cursos de graduação em bioinformática no Brasil? 
Dr. Francisco 
Prosdocimi 
Ok. Acho que um curso de graduação em bioinformática poderia ser 
bastante interessante sim, mas acho que é cedo para isso. Ainda não 
há, só pra vc ter uma idéia, um conceito amplo do que seja 
bioinformática e é preciso que esta disciplina fique mais madura ao 
longo dos anos para que esse conceito brote claramente. Acho que os 
biólogos moleculares atualmente são os principais candidatos a se 
tornarem bioinformatas e não há nem cursos de graduação em biologia 
molecular... pelo menos desconheço... 
Pedro: 
A título de informação: foi criada na grade curricular do Bacharelado 
em Bioquímica-UFV a BQI460 (Bioinformática), onde serão abordados 
os principais aspectos dessa nova área do conhecimento. 
Dr. Francisco 
Prosdocimi 
Bem, aqui na UFMG o prof. Miguel Ortega já ministra à mais de dois 
anos uma matéria de tópicos em bioquímica e biologia molecular cujo 
assunto é a bionformática. É bastante interessante que a universidade 
de Viçosa tenha proposto uma disciplina específica sobre o assunto e 
mostra como está atualizada com relação aos novos avanços da 
biologia molecular. 
Pedro: O que você considera como maior desafio para a consolidação da 
Bioinformática no Brasil? 
Dr. Francisco 
Prosdocimi 
Considero o maior desafio a formação dos profissionais e a montagem 
de infra-estrutura adequada e de computadores de alto-desempenho 
para as análises mais elaboradas na área. 
 
 
1.6. Referências Bibliográficas e textos complementares 
 
1 Davies, K. (2001). Decifrando o genoma. Companhia das letras. 
2. NCBI: A Science Primer - http://www.ncbi.nlm.nih.gov/About/primer/index.html 
3. NCBI: A Science Primer – Bioinformatics - 
http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html4. Chico On Line – Bioinformática - http://www.icb.ufmg.br/~franc/cool 
5. GenBank Stats - http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html 
 
 
1.7 Brainstorm 
 
1. Dê sua opinião sobre o que entende por bioinformática e qual a importância da 
área. 
2. Vá ao site do NCBI (National Center for Biotechnology Information, o centro 
americano para informação biotecnológica, http://www.ncbi.nlm.nih.gov), leia e 
navegue um pouco. Encontre algum serviço interessante e reporte sua experiência. 
 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
13 
CAPÍTULO 2 
Genoma, biologia molecular e computação 
 
 
 
2.1. Introdução 
 
Como já foi dito, o presente curso não tem como função explicar genômica, 
biologia molecular ou computação. Ainda assim, alguns conceitos se tornam 
importantes para que possamos seguir o curso e neste capítulo estaremos nos 
dedicando a eles. 
 
 
2.2. Sequenciamento do DNA 
 
 
Figura 2.1. O dogma central da biologia molecular. Da análise de DNA temos os 
projetos genoma, da análise do conteúdo de RNAs mensageiros de uma célula 
produzimos estudos de transcriptoma e a partir da análise de conteúdo protéico 
geramos os projetos proteoma. 
 
A bioinformática surgiu a partir da biologia molecular e dela ainda é inseparável 
(figura 2.1). No capítulo anterior, aprendemos que a bioinformática se desenvolveu 
principalmente depois do surgimento dos seqüenciadores de DNA em larga escala, 
como o ABI Prism 3700. A reação de sequenciamento de DNA consiste basicamente 
em um processo de amplificação da molécula de DNA de interesse. Entretanto, durante 
essa amplificação, são utilizados tanto os nucleotídeos normais de DNA, conhecidos 
como desoxiribonucleotídeos quanto alguns nucleotídeos especiais, conhecidos como 
di-desoxiribonucleotídeos. A diferença entre eles é que os didesoxinucleotídeos 
apresentam, como o nome diz, uma molécula de oxigênio a menos, eles não contém 
uma extremidade 3’OH livre. Assim, se lembrarmos como é formado o esqueleto de 
uma cadeia de DNA, veremos que os nucleotídeos adjacentes são ligados entre si 
através de uma ligação com um grupamento fosfato exatamente na posição do 
carbono 3’. Isso significa que, um nucleotídeo que não apresente um grupamento OH 
nesta posição (chamado di-desoxiribonucleotídeo ou simplesmente di-
desoxinucleotídeo) impede a ligação de um nucleotídeo em seguida, o que interrompe 
a cadeia de DNA naquela posição. Assim, durante a amplificação em que consiste a 
reação de sequenciamento do DNA, são produzidas moléculas de diferentes tamanhos, 
sendo que cada uma delas possui, na sua extremidade, um didesoxinucleotídeo que 
impede a ligação de outros nucleotídeos a seguir. Além disso, dependendo de qual 
base ele carrega, cada um desses nucleotídeos sem a extremidade 3’OH livre 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
14 
apresenta um pigmento fluorescente diferente adicionado. Após a reação de 
sequenciamento – que é realizada num termociclador, assim como um PCR --, as 
moléculas resultantes são submetidas a uma eletroforese. Nesse procedimento, o DNA 
resultante da amplificação é submetido a um gradiente elétrico dentro de uma matriz 
de gel, que permite uma mobilidade diferencial das moléculas. As moléculas pequenas 
de DNA movem mais rapidamente para o pólo positivo durante essa eletroforese. 
Essas moléculas pequenas foram aquelas que incorporaram didesoxinucleotídeos mais 
precocemente do que as outras. E assim, elas vão se movendo na matriz gelatinosa 
mais rapidamente, indo em direção ao pólo positivo. Quando chegam próximo ao pólo, 
um laser incide sobre essa molécula e, dependendo de qual didesoxinucleotídeo foi 
incorporado em sua extremidade final, o laser promove a incidência da fluorescência 
num receptor que capta, afinal, qual foi o comprimento de onda daquele fluoróforo 
excitado. Assim, conseguimos descobrir qual foi a última base daquela molécula já que 
diferentes didesoxinucleotídeos -- com diferentes bases nitrogenadas (A, C, G ou T) --, 
produzem fluorescência diferente a ser captada pelo laser e, dessa forma, sabemos se 
a última base daquela molécula é uma adenina, uma guanina, uma citosina ou uma 
timina. E à medida que as moléculas vão passando pelo gel, cada uma contendo a 
diferença de um único nucleotídeo marcado de acordo com sua base, o computador vai 
gerando um perfil de fluorescências que posteriormente serão transformadas nas letras 
que representam a seqüência de bases da molécula original por algoritmos específicos, 
que trataremos posteriormente neste curso. 
Não é tarefa fácil explicar na forma de texto como é realizado o 
sequenciamento do DNA e, por isso, recomendo aos alunos acessarem o seguinte site 
para entenderem melhor como o seqüenciamento do DNA é realizado, passo a passo: 
http://www.dnalc.org/shockwave/cycseq.html. Outras animações interessantes em 
biologia molecular (como a da técnica de PCR de amplificação do DNA ou técnicas 
forenses baseadas em DNA) podem ser obtidas no mesmo site. É preciso, entretanto, 
fazer o download gratuito do programa macromedia shockwave. 
 
 
2.3. Genômica 
 
Um genoma consiste no conjunto haplóide de informações presentes no DNA de 
um determinado organismo. O conjunto é haplóide porque, na verdade, um organismo 
diplóide apresenta uma dupla cópia de um mesmo segmento de DNA, presente nos 
cromossomos homólogos. Assim, não faz sentido ter essa redundância de informação 
e, por isso, considera-se o genoma como sendo o conjunto haplóide de informação 
genética. Para obter uma seqüência genômica devemos pegar as células de um 
determinado organismo, purificarmos seu DNA e realizarmos a construção da chamada 
biblioteca de DNA genômico. Para tal, o DNA do organismo deve ser picotado em 
pequenos pedacinhos e ligado nos chamados vetores de clonagem -- que podem ser 
plasmídeos, cosmídeos ou vetores que permitem a inserção de segmentos grandes de 
DNA, como os BACs ou YACs que são, respectivamente, os cromossomos artificiais de 
bactérias e leveduras. A partir desses vetores é que são, freqüentemente, 
seqüenciados os segmentos de DNA e cada reação de sequenciamento produz 
moléculas apresentando algo entre trezentos e mil pares de bases. Como os genomas 
são muito maiores do que esse tamanho, mostra-se necessária a montagem do 
genoma utilizando algoritmos de sobreposição de seqüências, que serão apresentados 
em aula posterior. 
 E se o genoma consiste no sequenciamento da molécula de DNA de uma 
determinada célula, o transcriptoma consiste no sequenciamento do conteúdo de RNA 
mensageiro (mRNA) produzido em uma determinada célula sujeita a determinada 
condição. Enquanto uma célula apresenta apenas um genoma estático e imutável, a 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
15 
mesma pode apresentar milhares de diferentes conteúdos de transcriptoma, já que a 
expressão de genes depende de diversos fatores, como o grau de maturação da célula, 
a temperatura à qual ela está sujeita, os nutrientes presentes no meio, a presença de 
algum agente mutagênico específico e mais milhares de outros fatores. Assim, os 
estudos de transcriptoma podem mostrar a adaptação da célula a determinada 
condição e podemos estudar os genes que ficam ativos quando dessa condição. Na 
produção de um projeto transcriptoma (ou de genômica funcional, como também é 
freqüentemente chamado) deve-se purificar o conteúdo de mRNA da célula da 
condição desejada. Como o RNA é uma molécula muito instável, realiza-se sua 
transcriçãoreversa, transformando este RNA numa molécula conhecida como cDNA, 
que representa o DNA complementar à seqüência daquele mRNA. Esse cDNA é então 
clonado em vetores de clonagem para a produção da biblioteca de cDNA que contém 
uma amostra fiel dos mRNAs que foram produzidos pela célula naquela condição. Vale 
notar que, enquanto no genoma observa-se normalmente apenas uma cópia de cada 
gene, nas análises de transcriptoma, cada um dos genes pode estar amostrado 
dezenas de vezes, pois a célula pode estar precisando do mesmo para realizar algum 
tipo de processo e ele pode ter sido transcrito centenas de vezes em moléculas de 
mRNA. 
 
 
2.4. As ômicas: integrando a bioinformação 
 
Veja o artigo publicado na edição 32 da revista biotecnologia: 
http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf. 
 
O pesquisador da Embrapa Soja, Eliseu Binneck, apresenta o status atual da 
genômica no mundo e ainda vários conceitos importantes de biologia molecular e 
genômica. 
 
Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-
37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf 
 
 
2.5. O PERL e outras linguagens de programação 
 
No capítulo anterior discutimos sobre os conhecimentos relevantes para um 
profissional na área de bioinformática. Nesse momento, portanto, gostaria de falar 
mais um pouco sobre a informática utilizada para a análise de seqüências. É 
extremamente importante que qualquer pessoa trabalhando na área de bioinformática 
conheça alguma linguagem de programação. E a principal linguagem utilizada por 
profissionais da bioinformática é o PERL. O PERL é uma linguagem de script que foi 
criada em 1987 por um cientista da computação chamado Larry Wall e é uma sigla 
para Practical Extraction and Report Language ou, em português, Linguagem Prática 
de Extração e Relatório. Segundo a wikipedia (http://pt.wikipedia.org/), a origem do 
PERL remonta ao shell scripting, que é a programação em linhas de comando, ao awk, 
uma outra linguagem bem simples de programação shell e à linguagem C, uma das 
mais utilizadas pelos programadores. Essa linguagem é disponível para praticamente 
todos os sistemas operacionais, mas é utilizada mais freqüentemente em sistemas 
Unix e compatíveis. E o PERL é freqüentemente utilizado pelos bioinformatas porque é 
uma linguagem montada para trabalhar facilmente com o processamento de cadeias 
de caracteres (chamadas de strings pelos informatas), permitindo ainda uma fácil 
manipulação de arquivos texto e a utilização das chamadas expressões regulares, 
muito úteis para se realizar busca em seqüências de caracteres. Como tanto o DNA 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
16 
quanto o RNA e as proteínas podem ser facilmente representados por seqüências de 
caracteres – nucleotídeos ou aminoácidos, representados por seqüências de uma letra 
--, o PERL acabou por permitir, intrinsecamente, uma fácil manipulação dos dados de 
biologia molecular. 
Um exemplo simples de programa em PERL é apresentado abaixo para 
transformar uma seqüência de DNA de entrada em uma nova seqüência de RNA. O 
programa considera que a fita de DNA de entrada é a fita codificadora e, portanto, o 
programa apenas transforma as letras T, de timina, do DNA em letras U, de uracila, 
representando as bases do RNA. 
 
Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA. 
 
#!/usr/bin/perl 
 
# Seqüência que se deseja utilizar 
$meuDNA= “TTCCGAGCCAATTGTATCAGTTGCCAATAG”; 
 
# Faz com que a seqüência de RNA receba a mesma seqüência do DNA 
$meuRNA = $meuDNA; 
 
# Troca as bases produzindo a fita complementar 
$meuRNA =~ tr/T/U/; 
print “Minha seqüência de RNA é: \n $meuRNA”; 
 
A primeira linha é obrigatória e diz ao programa o caminho onde se encontra o 
interpretador PERL para que o programa possa encontrá-lo na hora de sua execução. 
Normalmente o PERL está disponível no diretório /usr/bin das distribuições Unix. Vale 
notar que, ao contrário da grande maioria das outras linguagens de programação 
normalmente utilizadas, um programa PERL não é compilado de forma a gerar um 
executável em linguagem de máquina. O script PERL necessita, portanto, de que exista 
um interpretador PERL instalado em alguma pasta de trabalho dentro do computador e 
é exatamente a pasta onde esse interpretador está localizado que deve aparecer nesta 
primeira linha de código. As linhas do script que se começam com o sinal “#” 
representam linhas de comentário e servem apenas para facilitar o entendimento do 
código, não sendo realmente lidas pelo interpretador. Todas as variáveis em 
programação PERL são precedidas do sinal de dólar “$”, elas não têm um tipo pré-
definido (como inteiro, booleano, real, etc.) e não precisam ser declaradas 
anteriormente, cabe ao programador saber como e em que contexto devem ser 
utilizadas. Há também as variáveis do tipo array, que são precedidas do sinal de “@” e 
as variáveis do tipo hash, que devem ser precedidas do sinal de “%”. Todos os 
comandos terminam sempre com um sinal de ponto-e-vírgula. Neste exemplo, a linha 
que realmente faz a tradução de uma seqüência de DNA para uma seqüência de RNA é 
a que apresenta o sinal “=~”. Esse sinal está relacionado à utilização de uma 
expressão regular que, no caso, faz a tradução de todos as letras T de uma seqüência 
de caracteres, transformando-as em letras U. 
 No fundo, a bioinformática – e, num sentido mais amplo, todo software -- pode 
ser desenvolvido utilizando-se qualquer linguagem de programação e há os que ainda 
preferem utilizar a linguagem C ou Java para produzir qualquer tipo de programa. No 
fundo, essa é uma opção pessoal e por mais que uma ou outra linguagem seja mais 
adaptada ou mais rápida para determinado problema, é possível fazer quase qualquer 
coisa com quase qualquer linguagem. Entretanto, mesmo essa simples tradução que 
fizemos de DNA para RNA com apenas uma linha de código, pode se tornar mais árdua 
quando realizada em diferentes linguagens e é exatamente por isso que o PERL é mais 
utilizado na área; por facilitar a programação. Para sistemas mais complexos, no 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
17 
entanto, parece ser consenso que a utilização de uma linguagem de programação 
multi-plataforma, como é o caso do Java, seja mais adequada. 
 
2.6. Referências Bibliográficas e textos complementares 
 
1. Dolan DNA Learning Center - Biology Animation Library - 
http://www.dnalc.org/resources/BiologyAnimationLibrary.htm 
2. Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-37. 
http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf 
3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl 
 
 
2.7. Brainstorm 
 
1. Você viu a animação sobre como é feito o sequenciamento do DNA, descreva agora 
as etapas através das quais é realizada esta técnica. 
2. Descreva como são feitos projetos genoma e transcriptoma. 
3. Perguntas sobre o texto escrito por Binneck. 
a. Apesar de apresentarem um número de genes bastante similar a outros 
organismos, diz-se que os seres humanos apresentam uma diversidade de 
proteínas muito maior do que eles. A que se deve tal diversidade? 
b. Qual a porcentagem do genoma humano que é responsável pela produção 
de genes/proteínas? E o resto, qual seria o motivo – se é que há algum – para 
haver tanto DNA não codificante no genoma? 
c. Você acredita que genes que alteram seus padrões de expressão em 
conjunto possam ter funções parecidas? Por quê? 
d. Escolha duas das ciências “ômicas” e descreva-as 
e. Discorra sobre o papel da bioinformática na agregaçãode dados em biologia 
4. Com relação a linguagens de programação, por que o PERL é conhecido como a 
linguagem dos bioinformatas? Os dados em bioinformática podem ser tratados com 
outras linguagens de programação? Cite outra linguagem possível. 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
18 
CAPÍTULO 3 
Alinhamento de Seqüências 
 
 
3.1. Introdução 
 
O alinhamento de seqüências consiste no processo de comparar duas 
seqüências (de nucleotídeos ou proteínas) de forma a se observar seu nível de 
identidade. Essa técnica de comparação de seqüências é implementada segundo um 
conceito de desenvolvimento de programas conhecido como um algoritmo guloso e é 
um dos pilares de toda a bioinformática. Existem centenas de aplicações do 
alinhamento de seqüências, tanto na identificação de genes e proteínas desconhecidas, 
quanto na comparação da ordem de genes em genomas de organismos proximamente 
relacionados (sintenia), no mapeamento de seqüências expressas dentro de um 
genoma para identificação de genes, na montagem de genomas e em diversas outras 
aplicações. 
Por exemplo, podemos alinhar duas seqüências para descobrirmos o grau de 
similaridade entre as seqüências de forma que possamos inferir (ou não) a uma delas, 
alguma propriedade já conhecida da outra (Prosdocimi et al., 2003). O alinhamento 
entre duas seqüências pode ser feito de forma global ou local (Figura 3.1.). 
 
Figura 3.1. Alinhamento global e local. À esquerda vemos um exemplo de como é 
feito um alinhamento global das seqüências e à direita vemos um exemplo da 
realização de um alinhamento local. Retirado de Prosdocimi et al., 2003. 
 
 
3.2. Alinhamento Global 
 
O alinhamento global é feito quando comparamos uma seqüência de 
aminoácidos ou nucleotídeos com outra, ao longo de toda sua extensão 
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O algoritmo 
Needleman-Wunsch é o mais conhecido para realizar esse tipo de alinhamento, 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
19 
embora outros programas, como o MULTALIN 
(http://prodes.toulouse.inra.fr/multalin/multalin.html) também o façam (Corpet, 
1988). Nesse caso são dados valores em uma matriz de comparação para as 
similaridades (matches), diferenças (mismatches) e falhas (gaps) encontrados durante 
o alinhamento das seqüências. As somas dos valores do alinhamento, de acordo com 
essa matriz de comparação, resulta num valor, que é um escore de similaridade entre 
as seqüências (Figura 3.2.). No MULTALIN não é dado escore de similaridade (já que ele 
permite o alinhamento de várias seqüências ao mesmo tempo), e a semelhança entre 
as seqüências deve ser medida através de inspeção visual. 
 
 
3.3. Alinhamento Local 
 
O alinhamento local acontece quando a comparação entre duas seqüências não 
é feita ao longo de toda sua extensão, mas sim através de pequenas regiões destas 
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). 
O principal programa utilizado para o alinhamento local de seqüências é o 
BLAST (Basic Local Alignment Search Tool ou Ferramenta Básica de Procura por 
Alinhamento Local), encontrado em http://www.ncbi.nlm.nih.gov/BLAST/. Esse 
software compreende um conjunto de algoritmos de comparação de seqüências 
montado de forma a explorar toda a informação contida em bases de dados de DNA e 
proteínas (http://www.ncbi.nlm. nih.gov/BLAST/blast_overview.html). Os programas 
BLAST foram desenvolvidos de modo a aumentar ao máximo a velocidade da busca 
por similaridade -- já que as bases de dados são grandes e vêm crescendo 
exponencialmente --, mesmo correndo o risco de perder um pouco na sensibilidade do 
resultado (Altschul et al., 1997). A rapidez da busca deve-se ao fato de que o 
programa utiliza uma heurística que quebra as seqüências de entrada e das bases de 
dados em fragmentos – as palavras (words) – e procura, inicialmente, similaridades 
entre elas. A busca é então feita com palavras de tamanho W que devem apresentar 
pelo menos um escore T de alinhamento entre si, dado de acordo com uma matriz de 
valores. Assim, as palavras que apresentam esse escore T (maior responsável pela 
velocidade e sensibilidade da busca) (Altschul et al., 1997) são estendidas em ambas 
as direções para ver se geram um alinhamento com um escore maior do que S. Uma 
outra vantagem de se utilizar o alinhamento local feito pelo BLAST é que, dessa forma, 
é possível identificar relações entre seqüências que apresentam apenas regiões 
isoladas de similaridade 
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html). 
 
 
Figura 3.2. Alinhamento de seqüências. O alinhamento de seqüências de DNA é feito 
através da procura de uma região de similaridade entre duas seqüências utilizando um 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
20 
algoritmo guloso. Quando essa região é encontrada são dados pontos para 
similaridades (match), diferenças (mismatches), abertura de falhas (gap opening) e 
extensão de falhas (gap extension) que possam ser encontradas no seu alinhamento. 
A somatória dos pontos desse alinhamento é chamado de escore do alinhamento e, no 
exemplo mostrado, o escore do alinhamento é 3. Tais escores são contabilizados tanto 
nos alinhamentos globais quanto locais. 
 
 
Os resultados do BLAST são então apresentados de acordo com dois 
parâmetros: o valor do escore (Score bits) e o valor E (e-value). O valor de escore 
depende do tamanho do alinhamento, do número de matches/mismatches/gaps e da 
matriz de comparação de seqüências utilizada e é normalizado através de variáveis 
estatísticas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html). Já 
o valor E representa o número de alinhamentos com escores iguais ou melhores que 
“S” que seria de se esperar que ocorressem ao acaso numa base de dados do tamanho 
da utilizada. Assim, quanto menor o valor E, melhor o alinhamento, de forma que 
(num banco de dados de grandes proporções) um valor de E igual a zero significa que 
não há chance de que um alinhamento entre as duas seqüências tenha ocorrido por 
mero acaso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). 
O BLAST apresenta diferentes subprogramas que devem ser utilizados de 
acordo com o tipo de seqüência de entrada e os bancos de dados que se deseja 
pesquisar. A TABELA 3.1 apresenta as possibilidades de entrada, bancos de dados e 
programa a ser utilizado. 
 
Formato da 
Seqüência de 
Entrada 
Banco de dados 
Formato da 
seqüência que é 
comparado 
Programa 
BLAST 
adequado 
Nucleotídeos Nucleotídeos Nucleotídeos BLASTn 
Proteínas Proteínas Proteínas BLASTp 
Nucleotídeos Proteínas Proteínas BLASTx 
Proteínas Nucleotídeos Proteínas TBLASTn 
Nucleotídeos Nucleotídeos Proteínas TBLASTtx 
Tabela 3.1: Programas BLAST utilizados de acordo com o formato de entrada de 
seqüência e banco de dados desejados. Adaptada de 
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html. 
 
 
3.4. Alinhamentos ótimos e heurísticos 
 
 Algo que deve ser levado em consideração sempre que se deseja fazer 
alinhamentos de seqüências é o fato de que o alinhamento desejado seja o melhor 
possível de ser obtido através de ferramentas computacionais ou se desejamos apenas 
uma aproximação válida desse melhor resultado. É evidente que, em condições 
normais, desejaríamos sempre obter o melhor resultado de alinhamento possível e, 
portanto, utilizaríamos os algoritmos que produzem resultados ótimos. Entretanto, 
algumas vezesprecisamos obter uma maior rapidez de busca e, portanto, aceitamos 
que o resultado obtido não seja “o melhor possível” e, assim, utilizamos algoritmos 
que apresentam algum tipo de heurística. E essa heurística, no caso, normalmente 
consiste em uma forma qualquer que o programador utiliza para acelerar a produção 
dos resultados, em detrimento da obtenção do melhor resultado possível. Assim 
obtém-se um resultado aproximado, mas rápido. A tabela 3.2 apresenta os principais 
algoritmos utilizados em bioinformática para o alinhamento de seqüências. 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
21 
 
 
Programa Tipo de 
Alinhamento 
Precisão do 
Alinhamento 
Número de seqüências 
a serem alinhadas 
BLAST2Sequences Local Heurístico 2 
SWAT (Smith-Waterman) Local Ótimo 2 
ClustalW Global Heurístico N 
Multalin Global Heurístico N 
Needleman-Wunsch Global Ótimo 2 
Tabela 3.2:Principais programas de alinhamento de seqüências e suas características. 
 
 As ferramentas de alinhamento ótimo são aquelas que nos dão como resultado 
o melhor alinhamento possível de acordo com a metodologia algorítmica de 
comparação de seqüências. Via de regra, a execução desses algoritmos é mais lenta 
do que a daqueles algoritmos que não geram o resultado perfeito e, como vimos na 
tabela 4.2., existem ferramentas de alinhamento ótimo locais e globais. O maior 
problema em utilizar os programas de alinhamento ótimo consiste nos casos onde são 
alinhadas múltiplas seqüências entre si. Nesses casos, o alinhamento ótimo pode se 
tornar simplesmente impossível de ser feito, pois gastaria uma quantidade de tempo 
quase infinita para alinhar otimamente uma quantidade seqüências não muito grande. 
Nos outros casos, entretanto, deve-se preferir a utilização de algoritmos que produzam 
o alinhamento ótimo em detrimento dos algoritmos de pesquisa heurística. 
 Algoritmos heurísticos são aqueles que não realizam o alinhamento ótimo entre 
seqüências. Esses algoritmos freqüentemente utilizam alguma técnica alternativa para 
acelerar o resultado da busca por seqüências similares, no caso. O BLAST, por 
exemplo, como vimos no item anterior, parte a seqüência em pedaços para acelerar a 
busca e outros algoritmos realizam diferentes maneiras de gerar um resultado que 
seja o mais próximo possível do resultado ótimo. Como já comentado, são 
principalmente utilizados em alinhamentos múltiplos, onde os algoritmos ótimos 
demoram um tempo muito grande para gerar os resultados. São freqüentemente 
utilizados também quando da comparação de seqüências contra grandes bancos de 
dados, exatamente como faz o BLAST, que procura a similaridade de uma seqüência 
de entrada contra milhões de outras presentes em seu banco de dados. 
 Muitas vezes, os resultados obtidos com programas heurísticos devem ser 
confirmados por programas de alinhamento ótimo antes de serem publicados em 
revistas especializadas. Entretanto algumas vezes tal procedimento não é necessário e 
tudo vai depender do tipo de trabalho que está sendo realizado. 
 
 
3.5. Alinhamentos simples e múltiplos 
 
 Como também já foi comentado na seção anterior, existem dois tipos principais 
de alinhamentos de seqüências no que concerne ao número de seqüências que são 
comparadas durante o alinhamento. Quando apenas duas seqüências são comparadas 
entre si, diz-se que o alinhamento é simples. E, nesses casos, normalmente prefere-se 
utilizar alinhamentos ótimos para gerarem os resultados, exceto nos casos onde 
milhares de alinhamentos simples devem ser realizados. 
 De forma contrária, considera-se um alinhamento múltiplo quando três ou mais 
seqüências devem ser alinhadas entre si. No fundo, o alinhamento múltiplo é montado 
a partir do alinhamento par a par de cada uma das seqüências com todas as outras, 
seguido por um outro procedimento que irá gerar o resultado final do alinhamento de 
todas contra todas. Assim, se 10 seqüências são comparadas entre si, serão 
necessárias 10! (fatorial de 10) comparações de seqüências, o que representam 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
22 
3.628.800 comparações. E é exatamente por isso que os programas heurísticos são 
preferidos para gerar esse tipo de resultado. 
 
 
3.6. Matrizes de comparação 
 
 Outra coisa de suma importância quando da realização de qualquer alinhamento 
de seqüências é a matriz de substituição que é utilizada. Na figura 3.2. é mostrado um 
alinhamento e o número de “pontos” dados para coincidências (matches), divergências 
(mismatches), abertura de gaps (gap opening) e extensão de gaps (gap extension). 
Entretanto, ao utilizarmos matrizes de substituição podemos dar valores diferentes 
para coincidências de diferentes nucleotídeos ou aminoácidos. Vale notar que o 
resultado de um alinhamento de seqüências pode ser completamente diferente 
dependendo da matriz de substituição utilizada. 
 As matrizes de comparação são principalmente utilizadas durante o alinhamento 
de seqüências de proteínas e isso se deve ao fato de que existem aminoácidos que são 
mais (ou menos) parecidos entre si do que outros. Há aminoácidos com cargas 
polares, apolares ou sem carga e a mudança, em uma proteína, de um aminoácido 
apresentando uma determinada característica para outro da mesma característica é 
menos drástica do que uma mudança para um aminoácido apresentando característica 
diferente. Portanto, as matrizes de substituição são extremamente utilizadas no 
alinhamento de seqüências protéicas. 
Mesmo no caso de seqüências de nucleotídeos são mais comuns as mutações 
conhecidas como transições do que as transversões. Nas transições, a mutação ocorre 
entre bases do mesmo tipo, purina para purina (A para G ou G para A) ou pirimidina 
para pirimidina (C para T ou T para C), enquanto nas transversões ocorre a mudança 
de uma purina para uma pirimidina ou o contrário. Dessa forma, ao utilizarmos 
matrizes de substituição, podemos dar mais pesos para as transversões do que para as 
transições, o que faria com que o resultado fosse mais relevante e pudesse estar mais 
relacionado com a evolução, por exemplo. 
As matrizes de substituição mais comuns para seqüências nucleotídicas são a 
mat50 e a mat70, enquanto para seqüências protéicas as mais conhecidas são as 
matrizes PAM e BLOSUM. As matrizes BLOSUM (Blocks Substitution Matrix), por 
exemplo, são baseadas na observação das freqüências de substituição em blocos de 
alinhamentos locais de proteínas relacionadas. Existem várias matrizes BLOSUM e elas 
devem ser utilizadas para comparar proteínas contendo um determinado valor de 
identidade, por exemplo, a matriz mais utilizada pelos programas é a BLOSUM62, que 
foi montada para comparar proteínas que apresentem 62% de aminoácidos idênticos. 
 Abaixo vemos as matrizes de substituição de nucleotídeos mat50 e mat70. 
Podemos perceber que a matriz mat70 apresenta valores menores para algumas 
substituições. Isso faz com que o valor final do alinhamento entre duas seqüências de 
DNA seja menor e, portanto, a matriz mat70 gera um resultado de alinhamento local 
de um menor número de bases do que a matriz mat50, que estende o alinhamento um 
pouco mais. 
 
Bases A C G T Y R N 
A 2 -2 0 -2 -2 1 0 
C -2 2 -2 0 1 -2 0 
G 0 -2 2 -2 -2 1 0 
T -2 0 -2 2 1 -2 0 
Y -2 1 -2 1 1 -2 0 
R 1 -2 1 -2 -2 1 0 
N 0 0 0 0 0 0 0 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
23 
Tabela 3.3: Matriz de substituição de nucleotídeos mat50. O valor dado para cada 
troca pode ser visto nas interseções. O Y representapirimidinas, o R representa 
purinas e o N representa qualquer nucleotídeo. 
 
Bases A C G T Y R N 
A 2 -2 -1 -2 -2 0 0 
C -2 2 -2 -1 0 -2 0 
G -1 -2 2 -2 -2 0 0 
T -2 -1 -2 2 0 -2 0 
Y -2 0 -2 0 0 -2 0 
R 0 -2 0 -2 -2 0 0 
N 0 0 0 0 0 0 0 
Tabela 3.4: Matriz de substituição de nucleotídeos mat70. O valor dado para cada 
troca pode ser visto nas interseções. O Y representa pirimidinas, o R representa 
purinas e o N representa qualquer nucleotídeo. 
 
 
3.7. Exemplos reais de alinhamentos 
 
a) Alinhamento global simples entre seqüências de DNA, usando o algoritmo 
Needleman-Wunsch. 
######################################## 
# Program: needle 
# Rundate: Fri Nov 19 15:57:40 2004 
# Align_format: srspair 
# Report_file: 1x2.needle 
######################################## 
#======================================= 
# 
# Aligned_sequences: 2 
# 1: Seq1 
# 2: Seq2 
# Matrix: EDNAFULL 
# Gap_penalty: 10.0 
# Extend_penalty: 0.5 
# 
# Length: 736 
# Identity: 464/736 (63.0%) 
# Similarity: 464/736 (63.0%) 
# Gaps: 272/736 (37.0%) 
# Score: 2261.0 
# 
# 
#======================================= 
 
Seq1 1 0 
 
Seq2 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 50 
 
Seq1 1 0 
 
Seq2 51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC 100 
 
Seq1 1 CTTTCAAGATGAACG 15 
 ||||||||||||||| 
Seq2 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 150 
 
Seq1 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 65 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
24 
Seq2 151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 200 
 
Seq1 66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 115 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 250 
 
Seq1 116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 165 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 300 
 
Seq1 166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 215 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 350 
 
Seq1 216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 265 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 400 
 
Seq1 266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 315 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 450 
 
Seq1 316 CAGTCCATAA---------------------------------------- 325 
 |||||||||| 
Seq2 451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA 500 
 
Seq1 326 -------------------------------------------------- 325 
 
Seq2 501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT 550 
 
Seq1 326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 366 
 ||||||||||||||||||||||||||||||||||||||||| 
Seq2 551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 600 
 
Seq1 367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 416 
 |||||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 650 
 
Seq1 417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA 464 
 |||||||||||||||||||||||||||||||||||||||||||||||| 
Seq2 651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC 700 
 
Seq1 465 464 
 
Seq2 701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG 736 
 
 
#--------------------------------------- 
#--------------------------------------- 
 
b) Alinhamento local simples entre as mesmas seqüências de DNA, usando o 
algoritmo BLAST. 
BLASTN 2.2.8 [Jan-05-2004] 
 
 
Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, 
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), 
"Gapped BLAST and PSI-BLAST: a new generation of protein database search 
programs", Nucleic Acids Res. 25:3389-3402. 
 
Query= Seq1 
 (464 letters) 
 
 
 
© Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. 
Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br 
25 
Database: seq2 
 1 sequences; 736 total letters 
 
Searching.done 
 
 Score E 
Sequences producing significant alignments: (bits) Value 
 
Seq2 652 0.0 
 
>Seq2 
 Length = 736 
 
 Score = 652 bits (329), Expect = 0.0 
 Identities = 329/329 (100%) 
 Strand = Plus / Plus 
 
 
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 
 
 
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 
 
 
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 
 
 
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375 
 
 
Query: 241 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 300 
 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 376 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 435 
 
 
Query: 301 acacacatatcaaagcagtccataaaggt 329 
 ||||||||||||||||||||||||||||| 
Sbjct: 436 acacacatatcaaagcagtccataaaggt 464 
 
 
 
 Score = 276 bits (139), Expect = 3e-78 
 Identities = 139/139 (100%) 
 Strand = Plus / Plus

Outros materiais