Buscar

Aula 9- datamining I

Prévia do material em texto

29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 1/16
Home Aulas Exercícios Notícias Downloads Bibliografia Animações
 Programa Links ProGeNE Pós-graduação Medicina 
8. Uma primeira visão da mineração (garimpo) de genes
 A possibilidade criada pela Internet de se submeter dados on-line a um banco remoto e, de forma oposta,
consultar on-line bancos de dados, incentivou a comunidade científica a centralizar em um serviço de acesso público os
dados referentes a sequências de DNA e proteínas e, progressivamente, boa parte da informação gerada pelo
conhecimento destas sequências. O National Center for Biotechnology Information- é uma das principais fontes de
informação sobre genes e proteínas da atualidade. Há outras fontes importantes, como o Kegg
(http://www.genome.ad.jp/kegg/) e o SwissProt (http://www.expasy.ch/sprot/), além das páginas específicas de cada um
dos programas genoma espalhados pelo mundo (para links veja a página do Programa Genoma Nordeste -
http://www.progene.ufpe.br). Nesta pequena introdução ao garimpo (ou mineração) de genes vamos mostrar com
exemplos simples como ter acesso ao banco de dados do NCBI, encontrar genes e compará-los com outros do banco.
Para tal a aula está dividida em vários temas, que podem ser acessados clicando diretamente sobre eles:
a) entrando na página do NCBI
b) fazendo uma busca
c) afunilando num gene
d) encontrando a ORF pelo uso de um programa
e) blastando uma sequência e interpretando o resultado
.........................................................................................................................
Entrando na página do NCBI
 Inicialmente, empregando um navegador qualquer (Internet Explorer, Netscape, Opera, etc.), vamos acessar a
página principal do NCBI (http://www.ncbi.nlm.nih.gov). A tela irá mostrar a figura abaixo:
Parte inicial da página principal do NCBI, acessada pelo endereço www.ncbi.nlm.nih.gov
 Observe que, à esquerda ao alto, há um ícone do NCBI. Em todas as páginas que forem abertas no NCBI este
ícone estará presente e, clicando sobre ele, voltamos a esta página de abertura. Logo abaixo do nome do NCBI há uma
caixa de diálogo horizontal com uma janela de opções de escolha indicada por uma pequena flecha (a chamada lista
drop-down). Se clicarmos sobre a flecha, várias opções de escolhe aparecem, além de All Databases: Pubmed (para
artigos científicos), Protein (para sequências de aminoácidos depositadas no banco) e muitas outras fontes de dados.
 Neste exercício deixaremos esta opção em Nucleotide, pois queremos procurar no NCBI que sequências de DNA
foram arquivadas para um determinado gene e para um certo organismo. A caixa de diálogo de texto (branca, logo após a
palavra for) permite que digitemos palavras para uma busca, unidas entre si com os conectores que usamos nas buscas
em outras páginas, Estes conectores devem ser escritos em maiúsculas e estão em inglês: AND, OR e NOT. Podemos
também usar parênteses para agrupar palavras antes e depois dos conectores. O exemplo que daremos em seguida vai
esclarecer um pouco esta forma de busca, para aqueles que não estão habituados a fazer buscas na internet com os
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 2/16
navegadores convencionais.
 Por fim, observe que à direita há uma coluna com vários hiperlinks, chamada Hot Spots. Esta coluna permite o
acesso de um grande número de ferramentas e páginas específicas do NCBI, muito usadas por todos os que mineram
genes. Nesta coluna, mais em baixo (não aparece na primeira página, mas na página abaixo) está a ferramenta ORF
Finder, que encontra as ORFS de uma sequência de DNA qualquer que queiramos submeter. Mais tarde, neste exercício,
vamos usá-la.
Parte da página principal do NCBI, após deslizar a barra de rolagem da direita para mostrar outras opções da coluna Hot Spots. inclusive a entrada
para a ferramenta Orf Finder.
 
Fazendo uma busca
 Nosso próximo passo neste exercício será averiguar quantas sequências de DNA existem para um determinado
organismo ou gênero de organismos no banco de dados do NCBI. Poderíamos fazer a busca com qualquer nome de
espécie ou com apenas o nome do gênero, ou ainda com o nome da família, Por exemplo, podíamos procurar a espécie
Trypanosoma cruzi, ou apenas o gênero Trypanosoma (o que incluiria outras espécies do mesmo gênero) ou ainda o
nome da família Trypanosomatidae (o que incluiria todas as espécies de todos os 9 gêneros da família, incluindo
Trypanosoma e Leishmania) . Vamos optar por investigar quantas sequências de nucleotídeos existem no banco que
estão associadas com a palavra Leishmania. Para tal basta digitarmos a palavra leishmania (não importa se usarmos
maiúsculas aqui) na caixa de diálogo em branco e clicarmos sobre go. Isto ativa a busca (search) do banco de
nucleotídeos (nossa opção na lista drop down). A figura abaixo mostra o procedimento.
Parte da página principal do NCBI, após digitarmos a palavra Leishmania (que pode também estar em minúsculas) na caixa de texto. Se clicarmos
sobre o botão Go ativaremos a busca sobre o banco de dados de nucleotídeos do NCBI.
 A figura abaixo mostra o resultado da busca. Cada busca é feita on line no computador central do NCBI ou em
algum espelho do Instituto espalhado pelo mundo. A conexão com a Internet é importante para não atrasar os resultados
e conexões lentas ou horários muito frequentados dificultam muito o trabalho de garimpo de dados.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 3/16
Parte da página principal do NCBI, após digitarmos a palavra Leishmania (que pode também estar em minúsculas) na caixa de texto. Se clicarmos
sobre o botão Go ativaremos a busca sobre o banco de dados de nucleotídeos do NCBI.
 A figura acima tem uma novidade no cabeçalho: uma chamada indicando que se está trabalhando com
nucleotídeos. A coluna da esquerda também modificou e oferece ferramentas de busca e outras informações sobre o
banco de nucleotídeos. Há três caixas de listas drop down logo abaixo da barra de busca. Na primeira, Display, podemos
escolher muitos formatos de saída de nossa busca, isto é, a forma como os resultados da busca vão ser apresentados. O
padrão (default) é o Summary, e é este que está mostrado na figura, mas podemos optar por vários outros tipos de saída.
Mais tarde empregaremos uma delas, a opção de apresentação Fasta, que mostra uma linha de informação sobre a
sequência e em seguida a sequência de bases daquele gene ou registro no NCBI. Podemos escolher também quantas
sequências encontradas queremos que sejam mostradas por vez, selecionando um número na caixa de diálogo Show,
com o sistema drop down. Na caixa Send to podemos escolher outra apresentação da saída (como texto simples) ou
ainda salvar, imprimir ou mandar para o clipboard.
 Aparecem agora 4 abas de pastas.
 A primeira aba, denominada All, contém todos os resultados da busca. Neste caso, foram 48.895 sequências. 
Eles estão agrupados em 2.445 páginas iguais à primeira, com 20 sequências cada. É, evidentemente, um número muito
grande de sequências submetidas ao NCBI. A razão deste grande número de sequências é que há um programa de
sequenciamento da Leishmania major, o parasita que causa uma forma de leishmaniose cutânea no Oriente Médio, e
que já sequenciou boa parte dos cromossomas do parasita, gerando um enorme número de sequências. 
 A segunda aba tem o nome bactéria e contém as sequências encontradas na busca, mas que pertencem a
bactérias (a Leishmania é um protozoário...). São relativamente poucas, e devem ser aquelas que têm na anotação do
gene alguma referência à palavra Leishmania. 
 A terceira aba contém 14598 sequências e se refere às sequências de mRNAs depositadas. São muitas, e a
razão disso é que 10.000 delas foram fruto do projeto de sequenciamento do transcriptoma da Leishmaniachagasi, feita
no Nordeste do Brasil. 
 A quarta aba contém 1495 sequências, todas eles descritas em algum trabalho publicado em revista de
circulação internacional. è interessante visitar o link da aba e ver que a primeira referência com o nome Leishmania é a
de número 145 (e muitas das seguintes também). Todas as anteriores são de outros organismos, e muitas de Homo
sapiens, provavelmente de genes que têm na anotação sobre suas características alguma menção à palavra leishmania.
A figura abaixo mostra o primeiro registro referenciado de Leishmania.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 4/16
Parte da aba Refseq, resultado da busca do banco Nucleotide com a palavra chave Leishmania. Observe que a maior parte das sequências (todas as da
figura e muitas das que seguem na aba) são provenientes do projeto de sequenciamento do genoma de Leishmania major (linhagem Friedlin).
 Vamos analisar com mais atenção cada um dos itens encontrados.
a) O primeiro registro não é de Leishmania, mas de Homo sapiens, e se refere a "Homo sapiens centrosomal protein
164kDa (CEP164), mRNA". Como é que este registro foi pescado na busca? Se clicarmos sobre o número identificador
do registro (ou do gene, neste caso), e que é NM_014956, veremos que há um artigo científico que fala de um gene de
Leishmania major. É provável que o gene humano em questão tenha uma sequência semelhante ao descrito na
Leishmania, mas deixamos esta investigação ao leitor curioso.
b) o segundo registro é de ...camundongo! "Mus musculus lysosomal membrane glycoprotein 1 (Lamp1), mRNA" . Mais
uma vez, se visitarmos a página do gene, através do link do identificador da sequência, veremos que há uma 4a.
referência citada na página do gene, e mostrada abaixo:
 
REFERENCE 4 (bases 1 to 2265)
AUTHORS Korner,U., Fuss,V., Steigerwald,J. and Moll,H.
TITLE Biogenesis of Leishmania major-harboring vacuoles in murine dendritic cells
JOURNAL Infect. Immun. 74 (2), 1305-1312 (2006)
PUBMED 16428780
que fala de Leishmania. Podemos até visitar o artigo, pelo link Pubmed, e ver de que forma o gene de camundongo em
questão se relaciona com a Leishmania, mas deixamos isto também à curiosidade do leitor.
c) Por fim aparece finalmente um gene de Leishmania, o terceiro registro:
 
DQ449830 Reports Links
Leishmania tropica strain MHOM/SD/1974/K27 fumarate hydratase (fh) gene, complete cds
gi|94469896|gb|DQ449830.1|[94469896]
 
 É a sequência de toda a região codificante (coding sequence, ou cds, em inglês) do gene para a fumarato
hidratase da Leishmania tropica, linhagem MHOM/SD/1974/K27. Deste registro em diante a maior parte dos registros vai
mostrar sequências de Leishmania, sejam elas obtidas diretamente do genoma, ou de cDNA ou por outra técnica
qualquer.
 Se quisermos evitar que se tenha as palavras Homo e Mus na nossa busca, podemos usar o conector NOT,
como mostrado na figura abaixo.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 5/16
Parte da página do NCBI, resultado de uma busca após digitarmos a palavra leishmania (que pode também estar em minúsculas) seguida de NOT
(sempre em maiúsculas) e depois Homo e repetindo o mesmo para Mus, na caixa de texto. Na figura aparecem 4 genes para a mesma enzima, de
espécies ou linhagens distintas de Leishmania.
 Observe que tivemos uma pequena redução dos itens encontrados: de 48.895 itens para 48.506. O grande
número de itens encontrados se deve essencialmente ao programa genoma da Leishmania major e ao programa
transcriptoma de L. chagasi.
 
 
 
Afunilando num gene
 Suponhamos agora que você queira saber que sequências de nucleotídeos estão disponíveis para um certo
gene, suponhamos, o gene da amilase. Podemos procurar na caixa de busca a palavra amylase e ver o que sai. A figura
abaixo mostra o resultado.
Parte da página do NCBI, resultado de uma busca após digitarmos a palavra amylase (que pode também estar em minúsculas). Os primeiros genes são
todos de Tritrichomonas vaginalis, um parasita recém-sequenciado.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 6/16
 Você poderia se perguntar: e os demais organismos que têm projeto genoma, por que não aparecem também?
Em parte porque procuramos um gene que é mais comum em organismos inferiores, fungos e, em parte, plantas, mas
outra razão é que certos genomas mantêm uma página própria e nem todos os genes daquele organismo estão
disponíveis no banco não redundante do NCBI (que é o banco que consultamos quando estamos fazendo buscas por
este sistema mostrado aqui). É o caso do genoma humano, por exemplo, que mantém uma página, cujo acesso é feito
também pela página principal do NCBI.
 Encontramos agora 16772 itens, um número muito grande de citações de amilase. Mais uma vez, se formos olhar
atentamente para os itens, verificaremos que nem todos são descrições do gene da amilase, mas algumas vezes podem
ser inibidores de amilase, co-fatores e muitos outros genes, até mesmo não relacionados bioquimicamente, mas que, ao
receberem a anotação, levaram a palavra chave amilase por alguma razão indireta.
 Vamos agora empregar um conector AND para afunilar mais nossa busca, procurando o gene da amilase de uma
certa espécie, no caso a Lutzomyia, vetor das leishmanioses nas Américas. A figura abaixo mostra o resultado da
busca. 
Parte da página do NCBI, resultado de uma busca após digitarmos a palavra amylase (que pode também estar em minúsculas), o conector AND (sempre
com maiúsculas) e a palavra Lutzomyia (o vetor das leishmanioses nas Américas). Só um item foi encontrado.
 Encontramos agora apenas um item!!! Vamos analisar com detalhe o que nos diz o texto associado ao item.
a) o identificador único do gene é AF132512, que é um hiperlink. Ele nos leva à página com detalhes sobre o item.
b) o que encontramos foi uma cds (ou coding sequence - sequência codificante, que para o NCBI costuma ser um pouco
mais do que uma ORF, como discutimos acima). Esta cds está completa, ou seja, contém o códon de iniciação da síntese
protéica (ATG ou um dos dois outros alternativos raros) e o códon de terminação (um dos três que a Natureza usa).
c) vemos também que esta cds se originou de um mRNA. Portanto, foi um pedaço de DNA obtido pelo processo descrito
na aula de clonagem, parte II, em que a transcriptase reversa faz uma fita simples de DNA a partir do mRNA e uma DNA
polimerase faz a segunda fita de DNA. Provavelmente este cDNA foi encontrado na triagem de uma biblioteca de cDNA
de Lutzomyia longipalpis (o vetor do calazar) com anticorpos contra amilase de um outro organismo. Para tirarmos nossa
dúvida poderemos consultar a referência bibliográfica que virá citada mais adiante na página de detalhamento do item.
d) está dito também que esta é uma alfa-amilase putativa, isto é, cuja função deduzimos indiretamente, mas não
provamos. De fato, o que se faz é comparar a sequência da cds com o banco de dados (faremos isto mais adiante) e
descobrir que função previamente descrita aquela sequência tem, provavelmente em outro organismo.
 Quando clicamos sobre o hiperlink do identificador, abrimos a página de detalhamento do item encontrado. Esta
página é muito rica em detalhes. Olhemos, portanto, com calma e atenção, a figura abaixo, que mostra parte desta
página.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 7/16
Parte da página do NCBI, detalhando um item encontrado. A página continua na figura seguinte e é muito rica em informações sobre a sequência em
estudo, com vários hiperlinks associados.
 Iniciemos nossa análise pelo alto da página. Uma barra horizontal de botões nos explica que podemos alterar a
forma com que os dados nos são mostrados (em Display, mas vamos usar aqui a forma convencional do NCBI, ou
default). Podemos gravar nossa informação em Save e ainda fazer outras coisasque veremos numa segunda aula.
 Logo abaixo aparece de novo o indicador único, no caso AF132512, e o nome do gene (ou item) que
encontramos. Em seguida temos Locus, que repete o indicador, e nos diz que a sequência encontrada tem 1699 pares
de base (1699 bp), é proveniente de um mRNA, é um DNA linear e foi enviada (submetida) ao NCBI em 25 de agosto de
2000. Em Definition temos de novo o que é o item: a cds completa de um mRNA do gene presumido da alfa amilase de
L. longipalpis. Accession é, de novo, nosso indicador, e Version permite ver as versões preliminares da sequência
enviadas pelos autores. Keywords deveria conter palavras-chave para ajudar na busca por palavras do gene em
questão. Os autores nem sempre preenchem este campo da folha, por pura preguiça ou relaxamento. Source mostra de
que bicho, planta, fungo, protozoário ou bactéria veio o gene em questão, no caso, veio do inseto Lutzomyia longipalpis,
cuja classificação taxonômica está detalhada logo a seguir, em Organism.
 Os autores, muitas vezes, publicam os resultados do experimento que conduziu à sequência em estudo num ou
mais artigos científicos. Isto está esclarecido em Reference, que pode ter vários artigos listados. Para nosso caso há
duas publicações, as duas fazendo menção à sequência completa (da base 1 à base 1699), e se por ter os detalhes da
publicação e um hiperlink para o artigo em Medline e em Pubmed (que é o mais usado),
 A parte seguinte da folha de detalhamento do nosso item está mostrada abaixo.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 8/16
 
Segunda parte da página do NCBI, detalhando um item encontrado. esta parte mostra a sequência de aminoácidos deduzida a partir da sequência de
nucleotídeos que está abaixo, correspondente à cds.
 Nesta segunda parte da folha de detalhamento do nosso item, a primeira coisa que nos chama atenção é a palavra
Features, que significa, neste contexto, Propriedades ou Características do meu gene de interesse. Em source (fonte)
está dito o tamanho da sequência e o organismo de onde veio a sequência (L. longipalpis), a linhagem (strain) do
organismo (no caso, Jacobina, que foi a localidade na Bahia de onde vieram os flebótomos que deram origem à colônia
de flebotomíneos que os autores usaram para o estudo). Há ainda outras informações que não são muito importantes
agora. Em gene (que é um hiperlink) está dito de novo o tamanho da sequ6encia e o nome do gene, no caso amy. É
interessante notar que, neste caso, os autores consideraram como sendo o gene o tamanho completo da sequência, que
inclui partes 5' e 3' não traduzidas.
 Em seguida vem um item muito importante, onde os autores detalham a cds (ou ORF). Ela vai da base 36 à base
1529 e corresponde à proteína AAD32192.1, que é a alfa amilase da L. longipalpis. Logo em seguida em translation
está a sequência de aminoácidos presumida a partir da sequência de bases que os autores encontraram. O sistema usa
o código de uma letra só para cada aminoácido. Repare que as bases 36, 37 e 38 formam o códon ATG de iniciação. Já
o códon de terminação, na posição 1529, é TAA. A sequência completa de nucleotídeos está mostrada na figura abaixo,
assim como a quantidade de cada uma das bases A,T,G e C (no campo base count). No fim da tabela está a data da
última revisão dos autores sobre os dados da página.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 9/16
Final da página do NCBI, detalhando um item encontrado. Esta parte mostra a contagem de bases e a sequência completa de nucleotídeos do item,
fechando com a data da última revisão dos dados pelos autores.
 Das informações acima podemos deduzir que, da base 1 à base 35 temos parte da região 5' não traduzida (não
necessariamente a região completa). Da mesma forma, da base 1530 em diante temos a região 3' não traduzida
completa. sabemos que a 3' UTR está completa porque termina numa sequência de As, que representa a cauda poli-A
adicionada depois da transcrição do precursor de mRNA no núcleo da célula. Rigorosamente, a 3' UTR termina na base
1671, que é onde começa a cauda poliA. A figura abaixo mostra esquemáticamente como se distribuem estas bases no
mRNA da alfa-amilase.
Representação esquemática do mRNA da alfa-amilase de Lutzomyia longipalpis, com a presença de uma 5' UTR talvez parcial, a 3' UTR completa o a
ORF ou cds, além da cauda poliA.
Sugerimos que o leitor procure refazer os passos descritos acima para mais alguns genes, para o que criamos uma
tabela com bons exemplos (link refeito).
 
Encontrando a ORF pelo uso de um programa
 Quando, numa sequência de 1700 b, tentamos encontrar uma ORF, a tarefa pode nos parecer muito difícil se não
tivermos uma ferramenta que nos busque onde ela pode estar. Não sabemos se ela começa à esquerda e se estende
para a direita, ou ao contrário (e, neste caso, na fita complementar à que estamos olhando). Pela simples observação e
trabalhando manualmente isto pode parecer um trabalho enorme. Se pensarmos agora em encontrar ORFs (ou genes
não interrompidos) em um longo trecho de, digamos, 250.000 bases, a tarefa se torna humanamente impossível sem o
auxílio de uma ferramenta de busca de ORF. Esta ferramenta, contudo, está disponível, e vamos usá-la neste exercício,
empregando a sequência descrita acima.
 Para tal, ainda na página de acesso aos dados da sequência, podemos marcar com o mouse toda a sequência
(inclusive os números), mantendo pressionado o botão direito e arrastando a seta sobre a sequência. Em seguida
copiamos a seleção para o clipboard (a memória do computador) e vamos abrir de novo a página principal do NCBI
(clicando no ícone do Instituto, no alto da página à esquerda ou digitando de novo o endereço do NCBI), para encontrar a
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 10/16
ferramenta ORF Finder, que está na coluna da direita mais em baixo. Quando abrimos a ferramenta ORF Finder, uma
janela de diálogo aparece após um texto explicativo sobre o programa. Aqui você pode colar sua sequência, mas ela
deve estar num formato especial chamado FASTA (ou compatível com ele). É o caso da sequência que copiamos da
página anterior. Observe na figura abaixo a sequência de nucleotídeos do mRNA da amilase de L. longipalpis colada na
caixa de diálogo da ferramenta de encontro de ORFs. Pressionando o botão de ação OrfFind você aciona a ferramenta
de busca de ORFs. Alternativamente, poderíamos ter digitado o identificador da nossa sequência (AF132512) na caixa
denominada GI or ACCESSION.
Caixa de diálogo da ferramenta ORF Finder, com a sequência de nucleotídeos da alfa-amilase colada. A barra de rolagem permite que se olhe toda a
sequência. Pode-se digitar em Acccession o número de acesso de nosso gene de interesse (por exemplo, AF132512), a ainda limitar o trecho onde a
ferramenta deve procurar uma ou mais ORFs, usandoos restritores FROM e TO. Posso ainda escolher que tabela de códons eu quero empregar,
selecionando na lista o código genético de um organismo próximo ao de seu interesse. Uma vez feitas as escolhas, basta pressionar o botão OrfFind.
Após alguns segundos aparecerá um quadro resposta semelhante ao mostrado abaixo.
Resultado apresentado pela ferramenta ORF Finder para a sequência do mRNA de amilase da Lutzomyia longipalpis.
 Esta é uma figura densa em informações e temos que observá-la com muito cuidado para extrair dela o máximo de
informações. Nesta aula não vamos empregar a barra de opções acima das faixas verde-e-brancas. Elas nos dão outras
opções de visualização (experimente clicar em SixFrames - seis quadros de leitura) ou nos remetem ao banco de dados,
na folha principal do item em estudo (experimente clicar em View). Vamos nos concentrar por enquanto no quadro e na
tabela ao seu lado direito.
 Observe que há seis faixas horizontais, grupadas 3 a 3. As três primeiras representam os quadros de leitura +1. +2
e +3, quando começamos pela primeira,segunda ou terceira bases à esquerda da sequência submetida. Como analogia,
imagine que tenhamos a seguinte sequência de letras:
XHTHEFATCATATETHERATTACCCT
Se tomarmos as letras de três em três, para formar códons de aminoácidos, e inciarmos na primeira, estamos
criando o primeiro quadro de leitura. O resultado será
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 11/16
XHT HEF ATC ATA TET HER ATT ACC CT* , que não faz sentido.
No segundo quadro teremos
**X HTH EFA TCA TAT ETH ERA TTA CCT T** , que também não tem nenhum trecho com significado.
Se iniciarmos na terceira letra (e, portanto, optarmos pelo terceiro quadro de leitura), o resultado será
*XH THE FAT CAT ATE THE RAT TAC CCT, que agora faz parcialmente sentido: o gato gordo comeu o rato. É uma
ORF! Diremos, então que a ORF está no quadro +3, inicia na base 3 e termina na base 20.
 É exatamente o que acontece com a sequência que submetemos: uma grande ORF aparece marcada no quadro +3
(a terceira faixa de cima para baixo). Há, contudo, várias ORFS menores na faixas de cima e de baixo. Por que? Porque a
ferramenta é limitada e procura todos os trechos que começam com ATG (ou códon alternativo de iniciação) e terminam
num stop codon, e podem aparecer muitos ao longo de uma sequência longa, nos quadros de leitura "errados". A
ferramenta não tem como saber qual é a ORF correta.
 Ela procura também de trás para frente, isto é, tomando as bases complementares às que colamos na caixa de
diálogo, e vindo de trás para frente, como se tivéssemos traduzindo a sequência na fita complementar, no sentido oposto
ao original. É por isso que aparecem três outros quadros de leitura, denominados -1, -2 e -3, visíveis mas não claramente
identificados na parte de baixo do lado esquerdo da figura acima. Como estamos lidando com um mRNA, no nosso caso
em estudo estas três possibilidades são todas falsas, pois sabemos que o gene tem fatalmente que ser lido da esquerda
para a direita, num dos 3 quadros de leitura positivos.
 E a tabela do lado direito da figura? Ela simplesmente enumera a discrimina as várias ORFs encontradas, por ordem
decrescente de tamanho. A figura abaixo mostra isto claramente. A primeira ORF da tabela é justamente a maior, e
aquela descrita na página do gene. O círculo vermelho destaca a ORF na tabela e a flecha mostra onde ela está na
figura. Repare que ela está justamente na terceira faixa (portanto, quadro de leitura +3) do nosso conjunto de faixas.
Apenas como exercício, veja onde se localiza, no conjunto de faixas, a terceira maior ORF. A tabela diz que ela está no
quadro de leitura -2, portanto a quinta faixa de cima para baixo. Além disso, ela começa na base 1 e vai até a base 192.
Logo, ela é o primeiro quadro verde do lado esquerdo da quinta faixa.
Resultado apresentado pela ferramenta ORF Finder para a sequência do mRNA de amilase da Lutzomyia longipalpis, no qual está destacada a maior
ORF, indicada com a seta vermelha, que corresponde à primeira linha da tabela, circundada em vermelho. A tabela discrimina as ORFs em contradas
por ordem decrescente de tamanho, indicando o quadro de leitura da ORF, a base onde ela inicia, a base final e o comprimento total, em nucleotídeos.
 
 Quando clicamos com o mouse sobre uma ORF qualquer nas faixas da figura (no caso escolhemos a maior delas),
ela muda de cor (fica violeta) e a página muda um pouco. Na tabela, um quadrado pequeno verde muda para violeta,
indicando qual a ORF escolhida. Abaixo da figura surge a sequência de aminoácidos presumida a partir dos nucleotídeos
da sequência, no quadro da ORF (neste caso, o +3), iniciando e terminando onde está indicado na tabela. Acima da
figura surge uma caixa de diálogo complexa, que discutiremos a seguir. Esta imagem está capturada na figura abaixo.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 12/16
Quadro apresentado pela ferramenta ORF Finder ao se clicar sobre uma das ORFs apresentada na figura inicial da ferramenta. A sequência presumida
de aminoácidos é apresentada abaixo das faixas representativas dos 6 quadros de leitura, o comprimento da sequência calculada de aminoácidos é
indicado (Lenght: 497 aa). Todas as metioninas da sequência estão indicadas em azul claro, inclusive a primeira, que é precedida pelo número da base
que corresponde ao início da ORF. Cada linha contém 15 aminoácidos ou 45 bases. O códon de parada está indicado em violeta, seguido da indicação
de que base é a última da sequência. A caixa de diálogo acima permite blastar a sequência de aminoácidos contra o banco de dados nr do NCBI,
empregando o programa blastp, além de viabilizar várias outras opções.
 A nova barra de ferramenta em rosa claro permite que empreguemos a ferramenta de comparação de sequências
chamada Blast, assunto do item a seguir.
 
Blastando uma sequência e interpretando o resultado
 Quando, na barra de ferramentas, ativamos o botão de ação blast, estamos submetendo ao NCBI um pedido de
comparação de nossa sequência com todas as sequências depositadas on-line no site e guardadas no banco de dados
da instituição. No caso exemplo, porque estamos optando pelo programa blastp, vamos fazer uma comparação entre:
a) nossa sequência de aminoácidos, obtida a partir da sequência de nucleotídeos que tínhamos colado na caixa do ORF
Finder, e chamada aqui de query (com 497 letras, representando cada aminoácido) e
b) cada sequência de aminoácido possível, calculada a partir de cada sequência de nucleotídeos depositada no banco,
nos 6 quadros de leitura, além das sequências depositadas diretamente como string (sequência) de aminoácidos. Assim,
podemos encontrar homologias entre nossa sequência e uma ou mais sequências pré-existentes. O banco que estamos
consultando é o nr, ou banco não redundante, que é uma conjunção de informações submetidas ao NCBI por vias e
formas distintas, e que em princípio, não contém repetições da mesma sequência. Há várias outras opções, que veremos
num capítulo sobre garimpo avançado de genes.
 Aqui é importante lembrar que o Blast é um conjunto grande de aplicativos, que podem ser visualizados numa
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 13/16
página específica, que é acessada quando se clica sobre a palavra Blast no alto da barra de ferramentas do menu
principal do NCBI. Sugerimos que o leitor visite esta página (http://www.ncbi.nlm.nih.gov/BLAST/) e navegue por várias
das opções oferecidas, lendo com cuidado as explicações sobre as várias ferramentas de alinhamento disponíveis.
 A figura abaixo mostra a primeira folha de resposta do Blast.
Quadro inicial de resposta do programa de busca de homologias BLAST.apresentado pela ferramenta ORF Finder ao se clicar sobre uma das ORFs
apresentada na figura inicial da ferramenta. A primeira parte do quadro dá informações sobre a sequência submetida e o número de busca no NCBI. A
segunda parte permite que formatemos a resposta que virá ao clicarmos o botão de ação format.
 A primeira parte da folha nos diz que nossa sequência submetida, ou query, tem 497 aminoácidos, dá um número de
identificação para a nossa requisição de busca ou request ID e nos fornece um botão de ação para formatar e apresentar
os resultados de nossa busca, chamado format. Podemos guardar a request ID e voltar ao Blast para ver o resultado até
10 dias depois, bastando para isto digitar na caixa de request a identificação que nos foi fornecida anteriormente.
 A segunda parte do quadro permite alterar o formato de apresentação do resultado do blast. Há muitas opções, mas
não vamos discuti-las aqui. Elas serão motivo de uma aula avançada sobre garimpo de genes. Vamos, portanto, aceitar o
formato padrão (ou default), que está mostrado na figura abaixo.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 14/16
|
 Primeira parte da resposta do Blast a uma busca.
 A figura acima mostra a primeira parte da respostado Blast à nossa busca, formatada no sistema padrão do NCBI.
Ela nos indica, ao alto, a data da busca, seguida de uma referência bibliográfica dos autores do sistema de buscas Blast.
Em seguida nos dá o número que identifica nossa busca e diz que tinha 497 letras (neste caso, aminoácidos). Diz
também que o banco de dados consultado foi o conjunto de CDSs (coding sequencies - sequencias codificantes ou
ORFS) não redundantes (isto é, não parcial ou totalmente repetidas), junto com as sequências de proteínas de três
outros bancos públicos, Swissprot, PIR e PRF. Em seguida está dito que um pouco mais de um milhão de sequências
foram pesquisadas, contendo ao todo perto de 300 milhões de aminoácidos. Após estas informações mais gerais há uma
longa tabela com a descrição e os hiperlinks para as sequências que tiveram os melhores alinhamentos com a sequência
que submetemos. O início desta tabela está no quadro acima e a maior parte dela mostrada no quadro abaixo.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 15/16
Quadro que mostra as sequências (parte delas, apenas) que tiveram maior homologia (melhor alinhamento) com a sequência de aminoácido submetida
como exercício. A primeira coluna é o identificador da sequência encontrada, a segunda coluna uma breve descrição do gene, a terceira o valor de
score e a quarta o e-value. Para maiores detalhes, veja texto abaixo.
 Antes de entrar na discussão de algumas das sequências encontradas, vejamos o que significam o score e o e-
value. O cálculo de score é uma medida da perfeição do alinhamento encontrado. Se uma letra de uma sequência
coincide com a da outra, acrescenta-se ao score o valor +2. Se a letra é outra, o valor será -2. Se for preciso adicionar na
sequência encontrada ou na submetida um espaço entre letras para melhorar o alinhamento do restante, dá-se um
atributo -5, que será somado ao score. Se observarmos com cuidado, veremos que a primeira sequência encontrada é
justamente a sequência do gene da alfa-amilase da Lutzomyia longipalpis. Era de se esperar que encontrássemos de
volta o gene, quando submetêssemos sua sequência ao Blast! Neste caso, 100% das letras coincidem. Então, o valor de
score seria 497 x 2= 994. Na verdade, o valor é ainda um pouco maior por detalhes do cálculo de score que não
interessam no momento. Este alinhamento perfeito está mostrado na figura abaixo. O e-value nos dá a probabilidade de
um alinhamento ter sido obtido ao acaso. Neste caso, a probabilidade é nula (e-value=0).
 Vejamos em seguida os demais alinhamentos, listados na figura acima: todos eles correspondem a genes de alfa-
amilase, e todos os genes são de Drosophila (a mosca de frutas), embora de espécies distintas. É natural que um gene
de amilase de um inseto tenha homologia com genes de amilase de outros insetos, mas é um pouco surpreendente que
este gene na Lutzomyia seja mais semelhante ao de uma Drosophila do que ao de um mosquito (Anopheles ou Culex).
Pense nisto...
 As duas figuras consecutivas abaixo mostram o alinhamento da sequência submetida com ela mesma e com o gene
de Drosophila que lhe foi mais homólogo, AB077426, de Drosophila kikkawai.
Alinhamento da sequência submetida (query) com ela mesma, encontrada no banco de dados.
29/09/13 Aula 9- datamining I
www.ufpe.br/biolmol/aula9-datamining.htm 16/16
Alinhamento da sequência submetida (query) com a sequência de aminoácidos de D. kikkawai. Observe que há conjuntos de 60 aminoácidos, dispostos
em três linhas de letras. A primeira é a sequência submetida (query), a terceira a sequência encontrada (subject) e a do meio mostra apenas onde
houve coincidência (a mesma letra é apresentada) ou onde apenas a propriedade do aminoácido é igual (hidrofílico/ hidrofóbico, polar/ apolar, etc),
quando é apresentado o sinal +. Quando o espaço está em branco significa que não houve nenhuma semelhança entre os aminoácidos na mesma
posição nas duas sequências.
 Observe com cuidado o valor de score e e-value, que aparecem aqui como na tabela longa resumida 3 figuras
acima: o score é de 601 e o e-value de e-171. Isto significa que o alinhamento não é perfeito, mas ainda assim a
probalidade de ter se dado ao acaso é muito baixa, pois o valor calculado para e -171 é muito próximo de zero.
Geralmente consideramos que alinhamentos entre proteínas não são ao acaso (ou seja, são biologicamente relevantes)
se - e-value for menor que e-20. Por fim, observe que os dois primeiros aminoácidos de nossa sequência query não
aparecem (começa de 3 o alinhamento). Isto significa dizer que a sequência descrita para esta Drosophila não continha
os primeiros aminoácidos e não foi possível calcular um alinhamento. Observe também que espaços foram adicionados
ou na sequência que enviamos, ou na sequência encontrada, para melhorar o alinhamento entre elas.
 As sequências encontradas podem ser usadas por uma infinidade de diferentes programas para os mais diversos
usos, entre os quais estão analisar a filogenia e a evolução molecular de genes e espécies.
 Sugerimos que o leitor procure explorar todas as opções de apresentação e de ação nas várias páginas
consultadas, pois isto lhe dará uma idéia da complexidade do sistema oferecido pelo NCBI.
 Para a sedimentação do conhecimento adquirido aqui, sugerimos como tarefa estudar os genes constantes da tabela
de loci na página de exercícios (a tabela de genes é a mesma oferecida anteriormente nesta página).
 
Fim da primeira parte de mineração (garimpo) de genes
volta ao topo volta à página de distribuição de aulas

Outros materiais