Buscar

5 NCBI e alinhamento de sequências

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

5 NCBI e alinhamento de sequências
Descrição
Portal do NCBI (Centro Nacional de Informação Biotecnológica), alinhamentos de sequências biológicas e desenho de primers.
Propósito
O conhecimento das plataformas e ferramentas mais utilizadas na bioinformática é essencial para acompanhar a constante evolução da ciência, que reflete em diferentes formas de obtenção e análises de dados biológicos para o desenvolvimento de novos testes diagnósticos e metodologias científicas.
Objetivos Módulo 1 A importância do NCBI Reconhecer a importância do NCBI para as ciências biomédicas.
Módulo 2Alinhamentos de sequências Distinguir os tipos de alinhamentos de sequências biológicas disponíveis.
Módulo 3 Os Primers Aplicar o conhecimento sobre primers no desenho dessas sequências utilizando programas de computador.
Introdução
A tecnologia está presente o tempo inteiro na nossa vida pessoal, como, por exemplo, os smartphones ou aparelhos de televisão cada vez mais modernos. A sua vida profissional também não pode negar todas as vantagens, facilidades e desafios que as novas tecnologias trazem.
Ao longo deste conteúdo, discutiremos como são armazenados dados biológicos que são produzidos a partir de equipamentos modernos, como os sequenciadores de DNA. Além disso, você vai aprender a usar ferramentas computacionais que permitem gerar informações e trazer conhecimento a partir dessas sequências. Ao final deste conteúdo, termos como NCBI, alinhamento de sequência e desenho de primers serão agregados ao seu repertório acadêmico e estarão bem claros para você.
NCBI (National Center for Biotechnology Information)
Um dos marcos históricos mais importantes da bioinformática foi a realização do Projeto Genoma Humano, com o objetivo de identificar a sequência de nucleotídeos que compõe os 46 cromossomos humanos.
Ao final desse projeto, que durou de 1990 a 2001, a bioinformática ganhou um grande impulso. Logo surgiram tecnologias para o sequenciamento de DNA capazes de determinar a ordem de nucleotídeos de genomas inteiros, de forma mais rápida e barata.
Ilustração de sequenciamento genético.
Até o final da década de 1990, os arquivos de sequência de ácidos nucleicos continham cerca de 4 bilhões de nucleotídeos, que correspondem a pouco mais de um único genoma humano. No final dos anos 2000, esse número já era maior que 100 bilhões.
Mas onde está guardada toda essa quantidade de sequências de nucleotídeos?
Funções e aplicações do NCBI
Sequências de nucleotídeos e aminoácidos, estruturas tridimensionais de proteínas e vias metabólicas são exemplos de dados biológicos. A bioinformática utiliza bancos de dados para armazenar e organizar o grande volume de dados gerados a partir da prática biomédica.
Isso permite que quando alguém precise de um determinado dado biológico, ele possa ser recuperado facilmente. Muitos desses bancos de dados podem ser acessados por qualquer pessoa, de qualquer lugar do mundo, utilizando a rede mundial de computadores (World Wide Web).
O NCBI (National Center for Biotechnology Information), Centro Nacional para Informação Biotecnológica, é uma organização sediada nos Estados Unidos da América que controla o portal mais famoso da bioinformática, cujo acesso é feito pelo endereço ncbi.nlm.nih.gov. Dentro desse portal estão disponíveis diferentes bancos de dados biológicos e ferramentas para analisá-los.
O NCBI se propõe a reunir o resultado do trabalho de pesquisadores ao redor do mundo em um só lugar, facilitando o acesso e manipulação desses registros. Essa iniciativa impulsiona o avanço do conhecimento na área biotecnológica.
Sede do NCBI em Bethesda, Maryland, EUA.
Mas como funciona esse processo?
Imagine que você está estudando uma cepa de bactéria resistente a todos os antibióticos disponíveis e decidiu sequenciar o genoma desse organismo para descobrir quais genes são responsáveis por essa característica. Com a sequência em mãos, você pode enviá-la para os responsáveis pelo NCBI e, então, seu trabalho se juntará a milhões de outras sequências em um banco de dados de sequências nucleotídicas.
Se um pesquisador, em qualquer lugar do mundo, quiser saber a ordem dos nucleotídeos no cromossomo da “sua” bactéria, é só ele usar ferramentas de busca disponíveis no portal do NCBI, fazer o download dessa sequência para o seu computador e estudá-la.
Agora, vamos aprender sobre exemplos reais de bancos e ferramentas disponíveis pelo portal do NCBI.
PubMed
É um banco de dados de informações sobre literatura biomédica com acesso parcialmente livre. Nesse banco, encontramos artigos científicos publicados em milhares de revistas científicas diferentes, principalmente aquelas que publicam em inglês, o “idioma universal da ciência”.
Atenção
É importante ressaltar que, para algumas revistas, é possível acessar livremente apenas o resumo dos artigos. Nesses casos, é necessário pagar uma “assinatura” para conseguir o acesso completo, o que é normalmente feito por instituições de pesquisa. Existe também a possibilidade de pagamento apenas do artigo de interesse, caso você realmente precise ler o conteúdo e sua instituição não tenha a assinatura de determinada revista científica.
Quando estiver desenvolvendo seu trabalho de conclusão de curso (TCC), após a escolha do tema, você vai começar a buscar artigos científicos sobre ele. Uma forma de encontrar essa literatura é acessar o PubMed pelo portal do NCBI e buscar por palavras-chave. Imagine que sua busca resulte em 100 artigos.
Nesse número estão incluídos os artigos de acesso livre e os de acesso restrito. É possível, então, “filtrar” a busca apenas por artigos que você consiga ler inteiros. Nesse caso, é muito provável que o número de artigos disponíveis seja bem menor que 100. Além de direcionar a busca para artigos de acesso livre, também é possível utilizar os filtros para determinar o período de publicação desejado, o tipo de artigo (ensaio clínico ou revisão, por exemplo), dentre outras formas de busca mais específicas que falaremos adiante.
GenBank
Outro banco de dados biológico mantido pelo NCBI. O tipo de dado armazenado nesse caso são sequências primárias de nucleotídeos de quase todos os organismos, com acesso liberado. Trata-se principalmente de sequências de DNA, que podem corresponder a um gene, partes do cromossomo, o cromossomo inteiro ou plasmídeos. Essas sequências são resultado do trabalho de pesquisadores da comunidade científica mundial, que as enviam ao GenBank. O acesso a esses dados é totalmente livre, e qualquer pessoa pode fazer o download das sequências de nucleotídeos para seu computador.
Você se lembra do exemplo da bactéria resistente a todos os antibióticos que discutimos agora mesmo?
Podemos aplicar esse exemplo ao contexto do GenBank, conforme os seguintes passos:
1. Extrair o DNA da célula bacteriana;
2. Sequenciá-lo utilizando tecnologias de sequenciamento total de genoma;
3. Entrar no portal do NCBI para enviar o arquivo com as sequências de nucleotídeos ao GenBank.
Feito isso, após um processo de triagem automatizada, em alguns dias sua sequência estará disponível mundialmente!
Diante dessas informações, você pode estar se perguntando:
E por que devo disponibilizar esses dados ao mundo?
Resposta
Para que você possa provar que fez, é preciso “mostrar”. Além disso, ciência é feita em conjunto, o avanço de um é o avanço de todos.
RefSeq
Existem vários outros exemplos de bancos de dados disponíveis no portal do NCBI, mas o último que veremos será um banco de dados referência (RefSeq). O RefSeq possui um conjunto de sequências primárias de DNA genômico, transcritos e proteínas. O que faz desse banco uma referência é o fato de seus dados serem não redundantes, bem anotados e de livre acesso.
As sequências genômicas disponíveis no RefSeq são cópias de sequências selecionadas a partir do GenBank. Essa seleção é feita continuamente pela equipe que trabalha no NCBI e por colaboradores, que verificam se não existem sequências repetidas (não redundantes) e se a localização e função dos genes foram corretamente atribuídos (bem anotados).Os dados contidos no RefSeq fornecem uma referência confiável para identificação e caracterização de genes, análise de mutações e polimorfismos, estudos de expressão gênica e anotação de genomas (tema que iremos estudar em outro momento).
Curiosidade
As sequências dos transcritos e das proteínas contidas no RefSeq são geradas por várias etapas, que incluem o processamento computacional e curadoria manual (realizada por especialistas), de maneira que podemos dizer, então, que o RefSeq é um banco de dados curado.
No contexto da pandemia da covid-19, uma das grandes preocupações é o surgimento de novas variantes do vírus SARS-CoV-2.
Variantes do SARS-CoV-2 conhecidas e suas regiões de origem.
Variantes são amostras da mesma espécie, mas que apresentam pequenas mudanças na ordem de bases nitrogenadas (A, T, G e C) do material genético em relação às primeiras cepas sequenciadas desse vírus.
Mudanças no material genético podem conferir ao vírus maior capacidade de disseminação, aumentar a chance de provocar doença ou até provocar sintomas mais graves no doente.
Por isso é tão importante que laboratórios que realizem o sequenciamento genômico do vírus SARS-CoV-2 sejam também capazes de identificar se a amostra analisada se trata de uma variante. Isso é possível se o profissional comparar a sequência de bases obtidas pelo sequenciamento com uma sequência referência.
Já pensou onde podemos encontrar essa sequência referência? No RefSeq.
Exemplo
No RefSeq está disponível a sequência de nucleotídeos de uma amostra de SARS-CoV-2 isolada em Wuhan, na China, local onde a pandemia teve início. Os dados dessa amostra são confiáveis e foram usados em um artigo publicado na revista Nature, que relata a emergência da covid-19 (Wu et al., 2020).
Blast
Agora que já falamos sobre bancos de dados, vamos conhecer uma ferramenta muito útil que está disponível no portal do NCBI, o BLAST (Basic Local Alignment Search Tool), um software (programa de computador) que encontra regiões de similaridade entre sequências biológicas. Ele é capaz de comparar tanto sequências de nucleotídeos quanto sequências de aminoácidos. No final da comparação, o programa mostra a porcentagem de semelhança entre as sequências e um valor de significância estatística sobre aquela comparação.
Em bioinformática, essa comparação entre sequências é chamada de alinhamento. Vamos estudar com detalhes os vários tipos de alinhamento de sequências possíveis nos próximos tópicos, mas, por agora, vamos nos deter a à aplicação do BLAST no portal do NCBI.
Agora que você já sabe o que o BLAST é capaz de fazer, o próximo passo é entender como ele pode ser aplicado no portal do NCBI. Esse programa foi criado por Stephen Altschul e colaboradores, em 1990, e hoje é usado em vários bancos de dados que armazenam sequências biológicas.
Ao acessar o BLAST pelo portal do NCBI, você pode comparar uma sequência de nucleotídeos ou aminoácidos de seu interesse com todas as milhões de sequências armazenadas nos bancos de dados do NCBI. Como resultado, você vai obter uma lista com as sequências do banco mais similares à sua. Essa informação pode ser usada para descobrir sequências evolutivamente próximas, que tenham funções relacionadas ou que pertençam a uma mesma “família” de genes.
Vamos fazer uma analogia à função do BLAST no NCBI.
Imagine que você esteja voltando do trabalho no ônibus exclusivo da empresa. De repente, começa uma chuva muito forte, mas você não trouxe guarda-chuva. Uma pessoa do seu lado tem um reserva e lhe empresta, mas, na correria, você saltou do ônibus e esqueceu de perguntar o nome da pessoa, e precisará devolver o guarda-chuva.
Uma forma de encontrar essa pessoa é descrevendo suas características físicas ao motorista do ônibus naquele dia. Pode ser que ele não saiba exatamente quem é, afinal, o fluxo de pessoas na empresa é muito grande, mas ele poderia lhe dar uma “lista” com nomes de prováveis donos.
Grosso modo, podemos comparar todas as pessoas que usam o transporte da empresa às sequências nos bancos de dados do NCBI. As características físicas que você descreveu ao motorista seriam as regiões de similaridade que o BLAST encontra entre a sua sequência e as sequências dos bancos de dados. Enfim, a lista de nomes do motorista pode ser comparada à lista com as sequências que resultam da busca feita usando o BLAST.
Pesquisa e recuperação de dados
Como já sabemos, a ferramenta BLAST é uma das formas de acessar os dados armazenados em alguns bancos do NCBI, e vamos agora explorar essa e outras alternativas. Convido você a me acompanhar nas etapas que vou descrever, e você poderá vivenciar daí onde está uma parte prática da bioinformática. Contextualizando nossas buscas, vamos supor que você esteja iniciando em um novo laboratório de pesquisa sobre bactérias resistentes aos antibióticos. Para se inteirar do assunto, você precisa ler artigos sobre esse tema. Uma das alternativas é usar o banco de dados PubMed.
Para isso, você deve seguir os seguintes passos:
Primeiro, acesse o PubMed pelo portal do NCBI (pubmed.ncbi.nlm.nih.gov/).
Em seguida, digite palavras-chave em inglês que envolvam o tema de interesse.
E, por último, selecione search (procurar) para buscar os resultados da pesquisa.
Após a busca, poderemos observar o número total de artigos recuperados sobre o tema e o período em anos dessas publicações:
Uma busca feita no dia 23 de julho de 2021 usando como palavras-chave “bacteria”, “resistance” e “antimicrobial” resultou em 201.011 artigos, publicados entre 1945 e 2021.
Ao observarmos a quantidade de resultados encontrados, vemos que esse número é muito grande e muito tempo seria gasto para ler toda essa bibliografia. Uma solução para diminuir o número de resultados de uma busca inicial no PubMed é restringindo-a. Na mesma página que mostra o resultado da busca, é possível observar, do lado esquerdo, os filtros de pesquisa no PubMed; dentre eles, está disponibilidade do texto, tipo de artigo e ano de publicação.
No caso do exemplo que estamos seguindo, ao filtrar a busca por textos completos e gratuitos (free full text), o número de resultados diminui para 77.903. Isso acontece porque alguns artigos do PubMed são liberados para leitura integral apenas mediante pagamento.
Uma busca ainda mais específica pode ser realizada ao clicarmos em Advanced (avançado), na página inicial do PubMed. Dessa forma, é possível especificar as palavras-chave por campo de pesquisa.
Para isso, você precisa:
1. Escolher o campo de pesquisa em “Adicione termos à caixa de consulta” (Add terms to the query box), como, por exemplo, “Título” (Title);
2. Na caixa à frente, digitar as palavras-chave;
3. Clique em “Adicionar” (Add).
4. É permitido adicionar várias especificações diferentes de uma só vez. Ao terminar de adicionar quais deseja usar, é só clicar em “Procurar” (Search).
Alguns dos outros campos de pesquisa disponíveis são autor, data e nome da revista. Em um teste especificando que as três palavras-chave do exemplo que estamos usando deveriam aparecer no título artigo ao mesmo tempo. O resultado dessa busca avançada foram 9.413 artigos (na data pesquisada), número bem menor do que o que estávamos vendo nos resultados das buscas anteriores.
Atenção
É importante que as palavras-chave sejam traduzidas para o inglês porque a maioria dos textos científicos são publicados nesse idioma.
Após cada busca, uma lista de títulos de artigos é disponibilizada. Esses títulos aparecem na cor azul e são hiperlinks para a página em que você vai encontrar mais informações sobre o artigo. Se o texto estiver disponível de forma integral, nessa segunda página haverá um novo hiperlink para a revista na qual o artigo foi publicado (full text link).
Os próximos bancos que vamos explorar serão GenBank e RefSeq. Como ambos armazenam sequências, a forma de busca é semelhante. Podemos utilizar como ferramentas a busca textual ou a busca através do BLAST.
Busca textual
A primeira delas é a busca textual usando palavras-chave. A ferramenta textual implementada vai buscar por essaspalavras nos descritores das sequências depositadas nos bancos de dados.
Suponha que, após ler a bibliografia relacionada às bactérias resistentes aos antibióticos, você tenha percebido que uma das principais causas da resistência sejam bactérias produtoras de enzimas que destroem essas moléculas. Uma dessas enzimas é chamada de KPC (Klebsiella pneumoniae carbapenemase) e você pode encontrar a sequência de nucleotídeos do gene que codifica para essa enzima.
Para consultar nesses dois bancos, devemos:
· Acessar o GenBank ou RefSeq pelo portal do NCBI: ncbi.nlm.nih.gov/genbank/;
· Em seguida, digitar a palavra-chave relacionada à sua sequência de interesse;
· E, por último, clicar no botão “Search”.
A palavra-chave de interesse pode ser o nome do gene ou a espécie, por exemplo. Como resultado da busca, você vai encontrar uma lista de descritores de sequências depositadas no banco que contenham sua palavra-chave.
Quem define o descritor da sequência é a pessoa que submeteu os dados ao NCBI.
Exemplo
Um exemplo de descritor que aparece para a pesquisa usando “KPC” como palavra-chave é “Escherichia coli strain E02162 plasmid pE02162_KPC, complete sequence” (plasmídeo pE02162_KPC da cepa E02162 de Escherichia coli, sequência completa).
Esses descritores aparecem na cor azul e são hiperlinks, ou seja, ligam aquela página em que você está à página em que estão mais informações sobre aquela determinada sequência. Nessa nova página, é possível saber o tamanho da sequência em pares de bases, quem foi o autor da submissão, se ela foi publicada em algum artigo, dentre outras informações.
O dado mais importante é a sequência em si, que possui download liberado, tanto para GenBank quanto para RefSeq. A partir deste ponto, devemos realizar três etapas:
1. 1 - Clicar em Send to.
2. 2 - Selecionar File (arquivo) e escolher o formato do arquivo.
3. 3 - Clicar em Create File (criar arquivo).
A maioria dos programas desenvolvidos por bioinformatas para trabalhar com dados de sequências de nucleotídeos ou sequências de aminoácidos consegue “ler” o formato FASTA, um formato baseado em texto para representar tanto sequências de nucleotídeos quanto sequências de aminoácidos usando códigos de uma única letra.
As regras desse formato são que uma única linha, que comece com um colchete angular (>), contenha a definição das sequências, e as próximas linhas sejam letras que correspondem a bases nitrogenadas (A, T, C e G) ou aminoácidos (G, A, L, V, I, P, F, S, T, C, Y, N, Q, D, E, R, K, H, W e M). Portanto, se você for fazer o download de uma sequência do GenBank ou RefSeq e deseja um arquivo de fácil utilização, escolha o formato FASTA.
Busca a partir do BLAST
Outra forma de buscar por sequências dentro dos bancos GenBank e RefSeq é usando a ferramenta BLAST. Esse programa precisa de uma sequência pergunta, chamada de query, que será fornecida pelo usuário. A partir dela, o BLAST realiza alinhamentos com todas as sequências do banco de dados com o objetivo de encontrar sequências com regiões altamente similares e de alta confiança (subject). Veremos com detalhes como isso é feito quando estudarmos alinhamento de sequências.
Como utilizar o PubMed, GenBank e RefSeq
Neste vídeo, a especialista apresenta um passo a passo sobre como buscar por artigos no PubMed usando palavras-chave e sequências no GenBank e RefSeq, utilizando os filtros de resultados e a busca avançada.
Questão 1 Vimos que o NCBI controla o portal mais famoso da bioinformática que se propõe a reunir o resultado do trabalho de pesquisadores ao redor do mundo em um só lugar. A partir disso, analise a frase a seguir: "O NCBI mantém o PubMed, que é um (1) que serve para (2)." Qual opção completa corretamente os números "1" e "2"?
A (1) banco de dados, (2) armazenar artigos científicos X O PubMed é um banco de dados de bibliografia da área biomédica, administrado e disponível no portal do NCBI, que armazena artigos científicos publicados em milhares de revistas científicas.
B (1) programa para alinhamento, (2) comparar sequências biológicas
C (1) banco de dados, (2) armazenar sequências de nucleotídeos
D (1) programa para alinhamento, (2) armazenar artigos científicos
E (1) banco de dados, (2) armazenar estrutura tridimensional de proteínas
Questão 2 Bancos de dados biológicos podem armazenar diferentes tipos de dados. O GenBank é um banco de dados disponível no portal do NCBI, no qual podemos obter sequências de nucleotídeos. Qual das opções abaixo é um formato disponível para armazenamento de sequências no GenBank?
A JPEG
B Docx
C PDF
D FASTA X O formato FASTA é o mais usado pelos programas de computador que manipulam sequências biológicas primárias. É possível fazer o download da sequência nesse formato pelo GenBank.
E Texto
2 Alinhamento de sequências
Todas as milhões de sequências de nucleotídeos e aminoácidos que já estão depositadas em bancos de dados são superimportantes. É possível usar essas sequências para, por exemplo, descobrir variações dentro de uma espécie, identificar relações evolutivas entre espécies ou sugerir o papel de uma nova proteína.
Essas inferências são feitas a partir de comparações, realizadas fundamentalmente pelo processo de alinhamento de sequências.
O objetivo de um alinhamento é encontrar o maior número de resíduos similares ou idênticos entre sequências biológicas primárias.
ilustração de sequenciamento de nucleotídeos.
No alinhamento, os resíduos iguais ficam um embaixo do outro, e em casos de divergências observamos resíduos diferentes na mesma posição ou “buracos”. Em se tratando de sequências de DNA, os resíduos são nucleotídeos, enquanto para proteínas os resíduos são os aminoácidos.
Considerando as sequências “ATGGC” e “AAGGC”, ambas possuem cinco nucleotídeos, e um alinhamento entre elas iria mostrar uma porcentagem de identidade de 80% (4 em 5 bases nitrogenadas são idênticas e uma é diferente, marcada em vermelho).
Em bioinformática, nos referimos às letras que representam os nucleotídeos na sequência de DNA como bases. Isso acontece porque o que difere um nucleotídeo do outro na molécula de DNA é sua base nitrogenada.
Agora, se vamos nos referir ao comprimento de uma sequência de DNA, a “medida” usada são pares de bases (pb). Falamos em pares, pois o DNA é uma molécula de fita dupla.
Curiosidade
Podemos dizer que o genoma humano (todo o conteúdo de DNA de uma célula humana) é formado por mais de 3,2 bilhões de pares de bases.
Tipos de aplicações do alinhamento
Muitos programas de computador já foram e vêm sendo desenvolvidos com a função de realizar o alinhamento de sequências. O objetivo geral é o mesmo, mas existem diferenças entre eles que precisamos saber, pois isso ajuda na escolha da melhor opção para cada análise. Essas diferenças estão relacionadas à exigência ao encontrar o melhor pareamento possível, à extensão que será alinhada e ao número de sequências alinhadas.
Precisão do alinhamento
Como já mencionado, o objetivo dos programas de alinhamento de sequências é encontrar o melhor pareamento possível, aquele que reflita o maior número de similaridade entre as sequências comparadas. No entanto, o alinhamento “perfeito” leva tempo e poder computacional para ser alcançado. Por isso, algumas ferramentas optam por acelerar o processo e buscam por uma aproximação do alinhamento ideal. Usando esse critério, o programa de alinhamento pode ser do tipo ótimo ou do tipo heurístico. Vamos conhecê-los?
Um software que execute o alinhamento ótimo fornece como resultado o melhor alinhamento possível entre as sequências, de acordo com os seus critérios. Isso significa que usando essa mesma ferramenta você não vai conseguir um resultado melhor, mesmo que você refaça milhares de vezes a comparação entre as mesmas sequências. No entanto, encontrar o alinhamento perfeito pode se tornar inviável devido ao número de comparações ou de sequências alinhadas. Esses casos exigiriam computadores com memória e processadores poderosíssimos e levariam um tempo gigantesco para serem concluídos.
A opção para acelerar a comparaçãode sequências é adotar programas de alinhamento heurístico. Esse tipo de estratégia pega atalhos e não analisa todos os alinhamentos possíveis, contanto que isso não prejudique significativamente a qualidade do resultado. Dessa forma, você vai encontrar uma comparação adequada, mesmo que imperfeita. A ferramenta para alinhamento heurístico busca pela aproximação ao alinhamento ideal e por isso é mais rápida. Fica mais fácil escolher pelo alinhamento ótimo ou heurístico quando compreendermos as próximas características relevantes sobre o alinhamento de sequências.
Extensão alinhada
Existem duas formas de alinharmos sequências biológicas considerando sua extensão: alinhamentos globais ou locais.
Alinhamento global
Um programa para alinhamento global vai parear os resíduos em toda a extensão das sequências, de ponta a ponta. Essa abordagem é indicada quando pressupomos que as sequências são similares ao longo de todo seu comprimento.
Se desejamos comparar a sequência de um mesmo gene em organismos diferentes dentro da mesma espécie, é bem provável que as sequências se diferenciem em poucas posições devido a mutações pontuais. Nesse caso, o alinhamento global é indicado.
Alinhamento local
Não considera o comprimento total da sequência, e vai alinhar as regiões mais similares. Esse tipo de alinhamento é indicado quando as sequências são divergentes ou possuem comprimento diferente. Imagine uma sequência de proteína recém-obtida. Por ser nova, ela pode não apresentar semelhança significativa em todo o seu comprimento com sequências de um banco de dados de funções conhecidas. A estratégia, então, é realizar o alinhamento local com as sequências desse banco e encontrar similaridade com regiões curtas que sejam padrões relacionados às funções conhecidas, como se fossem “blocos”.
As sequências curtas conservadas entre diferentes proteínas são chamadas de domínios.
Comparação entre os alinhamentos global e local.
Vejamos, então, um exemplo com a aplicabilidade prática em conseguirmos diferenciar os alinhamentos global e local e sabermos em quais situações usar cada um deles:
Exemplo
O domínio contendo repetições ricas em leucina (um aminoácido) é evolutivamente conservado em muitas proteínas associadas à imunidade inata em plantas, invertebrados e vertebrados. Imagine que você esteja estudando uma nova espécie de planta que foi encontrada na Floresta Amazônica. Nos seus estudos, você obteve uma proteína que é muito produzida por essa espécie, mas, comparando a sequência completa de aminoácidos dessa proteína (alinhamento global), você não encontra nenhuma outra sequência conhecida similar. A opção é comparar blocos dessa sequência com outras pequenas partes de proteínas conhecidas (alinhamento local). Se você encontrar uma região muito similar e essa região estiver relacionada a uma função conhecida (domínio), você já pode sugerir um papel biológico para a sua proteína de estudo.
Número de sequências
Quanto ao número de sequências alinhadas, temos dois tipos de alinhamentos: simples e múltiplos. Vamos conhecer agora cada um deles.
Alinhamento simples
Primeiro, vamos falar sobre o alinhamento simples, também chamado de par a par ou pairwise, quando apenas duas sequências são comparadas.
Essa é a estratégia de alinhamento usada em bancos de dados de sequências biológicas, por exemplo. O programa de busca por alinhamento implementado em um banco de dados vai realizar o pareamento entre a “sequência-pergunta” de interesse do usuário com as sequências que estão no banco. O número de alinhamentos simples que será feito é proporcional ao número de sequências armazenadas no banco de dados, sempre par a par: sequência-pergunta + sequência do banco.
Quando fazemos o alinhamento de uma sequência contra um banco de dados, é esperado encontrarmos várias sequências similares. No final podemos obter um grupo de sequências bem parecidas e é possível converter os vários alinhamentos simples em um único alinhamento com todas elas.
Alinhamento múltiplo
É a comparação de três ou mais sequências relacionadas para obter a correspondência ideal entre elas. O resultado desse alinhamento permite a identificação de regiões que sejam conservadas entre todas as sequências. Também é possível visualizarmos quais as diferenças na ordem dos resíduos, que correspondem a mudanças evolutivas ocorridas ao longo dos anos.
É a partir desse tipo de alinhamento que a relação evolutiva entre os organismos pode ser sugerida, e assim são geradas as árvores filogenéticas (parecidas com uma árvore genealógica).
Árvore filogenética do Micoplasma (bactérias da classe dos Mollicutes).
Na árvore filogenética, os galhos são as distâncias entre os organismos, as ramificações são os ancestrais e as pontas os descendentes comparados.
Programas para alinhamento de sequência
Antes de darmos exemplos reais de programas de computador que são usados para o alinhamento de sequências, precisamos definir alguns termos usados para explicar o funcionamento dessas ferramentas.
Observe a imagem seguir que mostra um alinhamento simples entre duas sequências de nucleotídeos e acompanhe as definições.
Alinhamento simples de sequências de nucleotídeos.
Na figura, observamos algumas nomenclaturas. São elas: Match, Mismatch, Gap e uma pontuação. Vamos entender o que cada uma delas significa?
1. Match
Posição no alinhamento em que o resíduo é o mesmo entre as sequências comparadas. Podemos dizer que essas são posições conservadas.
2. Mismatch
Posição no alinhamento em que o resíduo é diferente entre as sequências comparadas. Nesses casos, ocorreu uma mutação por substituição de nucleotídeo em uma das sequências.
3. Gap
É um “espaço” em uma das sequências comparadas, causado pelo deslocamento de resíduos dela em relação à outra sequência. É inserido pelo programa para melhorar o alinhamento e encontrar mais similaridades. Esses espaços representam deleções ou inserções que as sequências comparadas possam ter sofrido.
4. Pontuação (score)
É o total do somatório de matches subtraídos do número de mismatches e gaps ao longo do alinhamento. Cada alinhamento possui uma pontuação.
Basic Local Alignment Search Tool – BLAST
O programa BLAST é o programa para alinhamento de sequências mais popular. Ele se caracteriza por realizar alinhamento simples, local e heurístico. Isso quer dizer que o BLAST sempre vai comparar as sequências duas a duas, buscando por regiões similares entre elas, e o resultado vai ser próximo ao ideal. Nós já falamos dele antes, pois ele está disponível no portal no NCBI como uma forma de buscar por sequências dentro de seus bancos de dados. Agora, vamos ver com mais detalhes as funcionalidades do BLAST.
Imagine que você possui a seguinte sequência de proteína “MRDPYNKLI” e deseja encontrar sequências similares a ela dentro de um banco de dados de sequência. Essa sequência é chamada de “pergunta”, do inglês query.
O BLAST irá dividir a sequência query em “palavras”, como, por exemplo, “MRD”, “PYN” e “KLI”. O próximo passo é identificar todas as sequências do banco de dados que possuam uma dessas “palavras”.
Quando a região com a “palavra” é encontrada, ela é considerada uma semente (seed). A partir dela, o alinhamento vai “brotando” (seeding), estendendo-se nas duas direções.
Procedimento do alinhamento pelo programa BLAST.
Saiba mais
O BLAST é considerado heurístico, porque ele não compara cada resíduo das sequências entre si. Ao invés disso, cria uma lista de “palavras” curtas e a partir delas realiza o alinhamento, o que diminui o número de comparações e acelera a obtenção do resultado. A velocidade do resultado do BLAST permite que seja viável usá-lo para buscar por sequências similares em bancos enormes, com milhões de sequências.
Já que o BLAST não fornece o resultado perfeito, como saber se o seu resultado é confiável?
Além de informações como a porcentagem de identidade, o programa também fornece um valor de significância estatística para cada alinhamento, chamado de e-value (valor esperado, valor e).
O valor de e-value representa a probabilidade do alinhamentoobtido a partir da busca no banco de dados ter ocorrido ao acaso.
Se o e-value for alto, você pode entender que as sequências alinhadas não são próximas, que aquele mesmo alinhamento poderia ter ocorrido com várias outras sequências no banco de dados aleatoriamente.
Quanto mais baixo for o e-value, mais significativa e confiável é aquela correspondência entre sequências que você está analisando.
Agora você pode estar se perguntando: e qual é esse valor ideal?
O valor ideal é o mais próximo possível de zero. De forma geral, se o valor de e-value é menor que 1 x 10-50, esse é um alinhamento extremamente confiável. Quando o valor está entre 1 x 10-2 e 1 x 10-50, esse alinhamento pode ser confiável.
Agora, se for algo entre 1 x 10-2 e 10, então você está olhando para um alinhamento sem significância.
O melhor valor de e-value, mais significativo estatisticamente, que você pode obter para um alinhamento com o BLAST, é 0,0.
Relembrando
O número negativo ao qual o 10 está elevado representa o número de casas decimais depois da vírgula, por exemplo, 1 x 10-2 é igual a 0,01.
Existem algumas variações do programa, e por isso você pode ouvir falar de “família de programas BLAST”. A diferença entre as variantes é qual o tipo de sequência biológica usada como query (nucleotídeos ou aminoácidos), e qual tipo de sequência está no banco de dados, conforme demonstrado abaixo:
BLASTn Faz buscas em um banco de dados de sequência de nucleotídeos usando como query uma sequência também de nucleotídeos.
BLASTp Usa sequências de aminoácidos (proteínas) para buscar correspondências dentro de um banco de dados de proteínas.
BLASTx Faz buscas em um banco de dados de proteínas usando como query uma sequência de nucleotídeos. Para conseguir isso, antes da busca em si, a query é traduzida.
tBLASTn Usa sequências de aminoácidos (proteínas) para buscar correspondências dentro de um banco de dados de nucleotídeos. Para isso, as sequências do banco estão traduzidas.
tBLASTx Essa variante traduz tanto a sequência query quanto as sequências no banco de dados. Faz buscas em um banco de dados traduzido, usando como query uma sequência de nucleotídeos também traduzida.
Essas variações que realizam a tradução são úteis quando, por exemplo, você tem uma sequência de proteína e gostaria de saber a sequência do gene (DNA) que deu origem a ela (tBLASTn). Outra possibilidade é quando a intenção é saber qual proteína será sintetizada a partir de determinada sequência de DNA (BLASTx). Quando utilizar o BLAST, o usuário (você) vai escolher a forma de busca que mais atende ao seu interesse de pesquisa. Vejamos um exemplo real de uso do BLAST.
Após um pesquisador sequenciar o genoma de uma bactéria, ele observou que um dos genes possuía a sequência a seguir.
O interesse dele era descobrir qual a proteína que seria produzida a partir desse gene e qual a sua sequência de aminoácidos. Para isso, ele optou pela opção BLASTx no portal do NCBI, como você observa na imagem ao lado.
Após a inclusão dos dados, ele pesquisou no banco e o resultado mostrou que a sequência corresponde à proteína chamada de BasR, cuja função é regular um sistema de dois componentes na espécie de bactéria Escherichia coli.
A descrição dos resultados está ordenada pelo valor de e-value, onde os alinhamentos mais confiáveis aparecem primeiro. Clicando no hiperlink para a descrição do alinhamento, você poderá visualizá-lo em detalhes.
Nesse alinhamento, você pode observar que o valor de e-value foi igual a 2 x 10-145, um alinhamento extremamente confiável. A identidade entre a proteína traduzida a partir de seu gene em relação à proteína no banco de dados foi igual a 99%, assim como a positividade.
Captura de tela demonstrando alinhamento local pela ferramenta BLAST®.
Quando alinhamos aminoácidos, o valor de positividade pode ser superior à identidade em situações em que os aminoácidos diferentes na mesma posição possuem características químicas parecidas, ou seja, não são idênticos, mas são similares. Mas esse não foi o caso do exemplo mostrado. Conseguimos ver também que nenhum gap foi introduzido pelo BLAST, pois não foi necessário.
Alinhamento de sequências com a ferramenta BLAST
Assista a este vídeo, no qual a especialista demonstra o processo de alinhamento de sequências a partir do banco de dados do NCBI e do uso da ferramente BLAST.
Clustal
O Clustal é um programa que realiza alinhamento múltiplo e global de sequências biológicas de forma heurística. Sendo assim, usamos esse programa quando queremos comparar três ou mais sequências ao longo de toda sua extensão. Como não é viável garantir o resultado perfeito para esse tipo de comparação, ele utiliza uma estratégia aproximada, igualmente heurística. Por ser global, as sequências alinhadas devem ter cumprimentos semelhantes e ser evolutivamente relacionadas.
Mas, então, de que forma podemos usar o Clustal?
O alinhamento múltiplo realizado pelo Clustal começa a ser feito a partir de vários alinhamentos simples, para todos os pares possíveis entre as sequências comparadas. Observe a seguir para entender como funciona este processo:
Procedimento do alinhamento feito pelo programa Clustal.
Clustal e outras ferramentas de alinhamento múltiplo são aplicadas quando queremos responder perguntas do tipo: qual a região conservada entre as proteínas que são receptores celulares? Quem é mais próximo evolutivamente quando eu comparo homem, chimpanzé e orangotango? Qual seria o alvo ideal de um primer de PCR (Reação em Cadeia da Polimerase) para detectar o mesmo gene em diferentes espécies?
Como resposta, você poderia encontrar que uma região rica em aminoácidos hidrofóbicos está presente em todas as sequências de proteínas receptoras que você alinhou, o que faz sentido, já que elas precisam atravessar a membrana plasmática para se “firmar”. Comparando a sequência de nucleotídeos do RNA ribossômico de homem, chimpanzé e orangotango, você poderia verificar que a sequência do chimpanzé é mais similar à humana, e, portanto, o orangotango seria o mais “antigo” evolutivamente. Agora, a resposta da última pergunta será respondida quando estudarmos os primers, em breve!
A seguir, vemos um quadro comparativo dos principais programas de alinhamento por nós estudados.
	Programa
	Precisão
	Extensão alinhada
	Número de sequências
	BLAST
	Heurístico
	Local
	Simples
	Clustal
	Heurístico
	Global
	Múltiplo
Quadro: Principais programas de alinhamento de sequência e suas características.
Elaborado por: Melise Silveira.
Questão 1 Imagine que você precise comparar, a partir do alinhamento de sequências, 1000 sequências de proteínas com 580 aminoácidos cada uma. Qual tipo de programa de alinhamento seria recomendado neste caso?
A Simples e local
B Múltiplo e heurístico
C Simples e heurístico X 
D Simples e ótimo
E Múltiplo e ótimo
Questão 2 A comparação de sequências biológicas por meio de alinhamento utilizando o programa BLAST é feita de que maneira?
A Alinhamento simples e global
B Alinhamento múltiplo e global
C Alinhamento simples e local
D Alinhamento múltiplo e local
E Alinhamento simples e múltiplo X
3 Primers: definições e aplicações
Uma das aplicações do alinhamento múltiplo é a identificação de uma região comum a diferentes sequências. Essas sequências podem, por exemplo, corresponder a um mesmo gene em espécies distintas.
Vamos pensar no caso do gene RNAr 16S, que codifica para uma pequena subunidade do RNA ribossômico de bactérias. Todos os organismos que pertencem ao domínio Bacteria possuem esse gene. No entanto, ao longo de milhões de anos, as diferentes espécies evoluíram sob variadas condições, e o RNAr 16S sofreu algumas mutações.
Se a minha pergunta for “qual região permanece conservada no gene RNAr 16S de diferentes espécies bacterianas?”, posso respondê-la a partir de um alinhamento múltiplo desses genes, a partir do programa Clustal.
Além disso, após definir uma região de interesse específica no DNA, podemos detectá-la a partir da Reação em Cadeia da Polimerase (PCR). A PCR é uma técnica desenvolvida para amplificaruma determinada região do DNA, fazendo várias cópias desse local. Dentre os reagentes necessários para que a reação aconteça, destacam-se a enzima DNA polimerase (que sintetiza os novos fragmentos de DNA), moléculas de DNA extraídas da amostra (DNA molde) e os primers.
Os primers são pequenas sequências de nucleotídeos utilizados na PCR para indicar a região do DNA que será copiada. Essas sequências irão se ligar, de forma complementar, às extremidades da região de interesse, demarcando onde a DNA polimerase deve começar seus trabalhos.
Em uma PCR convencional, dois primers são utilizados, ligando-se em posições diferentes, que “cercam” a região alvo.
Pareamento de um par de primers a uma região alvo no DNA molde.
Suponha que a região de interesse seja aquela conservada no gene RNAr 16S de diferentes espécies bacterianas. Essa parte do DNA pode ser utilizada para desenvolver primers capazes de detectar bactérias presentes em diferentes tipos de amostras, como solo, água e fezes.
Já sabemos que a sequência de nucleotídeos dos primers deve ser complementar ao local que queremos que eles se liguem. Se na região alvo existe a sequência CCGCC, para que um primer se ligue a ela, sua sequência deve ser GGCGG.
Na imagem abaixo, vemos que entre as posições 890 e 1000 (indicadas pelas setas vermelhas), aproximadamente, temos uma região parcialmente conservada (o asterisco é usado para indicar que a base é a mesma entre as sequências comparadas naquela posição).
Captura de tela com parte do alinhamento múltiplo de sequências do gene RNAr 16S de diferentes espécies bacterianas.
Parâmetros
Além de ser complementar ao DNA alvo, existem outros parâmetros importantes dos primers para que eles possam cumprir sua função de forma eficiente: tamanho do produto, comprimento, conteúdo de bases guanina e citosina, temperatura de melting e temperatura de anelamento. Vamos conhecê-los?
Tamanho do produto
O tamanho da região amplificada a partir da PCR, também chamado de tamanho do produto, é uma informação muito importante. Esse valor pode ser calculado subtraindo a primeira posição à qual o primer 1 se liga da primeira posição à qual o primer 2 se liga. O primer 1, chamado de senso ou forward, se liga no início da região a ser amplificada, enquanto o primer 2, chamado de antissenso ou reverse, se liga ao final.
Exemplo
Se o primer senso começa na base 50 do gene e o primer antissenso começa na base 300, então o tamanho do produto amplificado será 250 pares de bases (300-50 =250).
Podemos conferir esse tamanho após a eletroforese, técnica usada para separar fragmentos de DNA de acordo com seu peso molecular.
Para isso, o produto que sai da máquina da PCR é aplicado em um gel de agarose e sofre ação de uma corrente elétrica, que empurra os fragmentos de DNA do polo negativo para o polo positivo. Quanto menos pares de bases possui um fragmento, mais leve ele é, e mais rápido ele migra pelo gel. Ao contrário, fragmentos com muitos pares de bases são mais pesados e migram de forma mais lenta.
Fragmentos de DNA separados por eletroforese.
Estimamos o tamanho do fragmento amplificado usando como referência o marcador de peso molecular (solução adquirida pelo laboratório que contém diferentes fragmentos de DNA com tamanhos já definidos).
O tamanho ideal do produto da PCR está entre 150 e 1.000 pares de bases (pb). Fragmentos muito pequenos podem ser confundidos com restos de primers que não se ligaram ao alvo e aparecem no final do gel da eletroforese. Por outro lado, se a região amplificada for muito grande, a DNA polimerase pode não conseguir adicionar todos os nucleotídeos necessários, e nesses casos a PCR não vai funcionar.
Comprimento
O primer pode também ser chamado de oligonucleotídeo, ou seja, um fragmento curto de uma cadeia simples de ácido nucleico.
Mas o quão curta deve ser a sequência de um primer?
Resposta
O comprimento deve variar entre 18 e 24 bases. Um primer muito curto, com menos de 18 bases, é considerado inespecífico, podendo se ligar em diferentes posições no DNA molde.
Você pode imaginar que a chance de encontrar a sequência CCGCC aleatoriamente ao longo de um DNA é maior, quando comparada à chance de encontrar a sequência CCGCCTGGGGA. Portanto, existe um tamanho mínimo para “garantir” que o primer vai se ligar somente na região que você deseja.
Existe um limite superior para o tamanho dos primers, de cerca de 24 bases. Esse limite é estabelecido, pois primers muito longos tendem a se combinar com si mesmos, em estruturas secundárias. Uma estrutura secundária conhecida que um primer longo pode assumir é chamada de “grampo”, do inglês hairpin.
O comprimento muito longo também aumenta a chance de um primer se combinar com outro, o que chamamos de dímeros de primers. Os dois casos diminuem a chance de ligação do primer à região alvo do DNA molde, e, portanto, também torna a PCR menos produtiva.
Primers formando estrutura secundária (hairpin) e dímeros.
Na imagem ao lado, vemos as estruturas secundárias ocasionadas pelo alinhamento errado dos primers.
Conteúdo de bases guanina e citosina (GC)
O conteúdo GC é a porcentagem das bases nitrogenadas guanina (G) e citosina (C) ao longo da sequência de DNA. Se a soma de G mais C ao longo de um primer com 20 bases de comprimento é igual a 10, então o conteúdo GC dele é igual a 50%.
As bases guanina e citosina ligam-se por meio de três pontes de hidrogênio, diferente de adenina (A) e timina (T), que se ligam por duas. Por isso, uma quantidade maior de energia está envolvida na ligação G+C, ela é mais “forte”.
Pontes de hidrogênio entre as bases nitrogenadas que compõem os nucleotídeos.
Atenção
A porcentagem ideal de GC para um primer deve estar entre 40% e 60%. Estabelecer um limite mínimo (40%) permite que o primer se ligue ao alvo com mais força, trazendo estabilidade para o pareamento. O limite máximo (60%) é necessário, pois altas porcentagens de GC demandam muita energia para a ligação, e ela pode não acontecer.
A energia envolvida na ligação entre as bases influencia diretamente no cálculo da temperatura de anelamento.
A temperatura de anelamento da PCR é a segunda etapa de cada ciclo dessa reação.
Desnaturação
Esta é a primeira etapa da PCR, ocorre entre 90°C e 96°C, quando a dupla fita do DNA se desfaz.
Anelamento
Depois disso, ocorre o anelamento dos primers, quando a temperatura cai entre 50°C e 60°C.
Extensão (DNA Polimerase)
A última etapa do ciclo é a síntese do fragmento de DNA pela ação da DNA polimerase. A polimerase especial usada na PCR (Taq DNA polimerase), que resiste a altas temperaturas sem perder sua função, trabalha de forma ideal a 72°C.
O valor da temperatura de anelamento é calculado dependendo da sequência de bases dos primers usados. Tanto o conteúdo GC quanto o comprimento é importante nessa conta.
Reações de PCR diferentes, com alvos diferentes e, portanto, com sequência dos primers diferente, terão cada uma sua temperatura de anelamento própria.
O nosso próximo passo é entender como é calculada essa temperatura. Uma vez definida, o profissional deve usá-la para programar a máquina usada para PCR, chamada termociclador.
Temperatura de melting (Tm)
Temperatura de melting (Tm) é aquela em que metade dos primers estão ligados ao seu alvo na fita de DNA molde e a outra metade está livre na solução. A Tm é importante, pois a temperatura de anelamento dos primers é calculada com base nesse valor. O anelamento também pode ser chamado de hibridização, pois é nessa etapa que os primers vão se ligar à região complementar no DNA alvo.
O cálculo da Tm depende da sequência de bases do primer, portanto, cada primer do par vai ter a sua Tm. A maneira mais simples de calcular esse valor é a partir da seguinte fórmula:
Tm = 4(G+C) + 2(A+T)
Nesse cálculo, os dois parâmetros que mais influenciam são o conteúdo GC do primer e seu comprimento.
Conteúdo – quanto maior a porcentagem de GC, maior será a Tm, pois mais energia está envolvida na ligação entre essas duas bases.
Comprimento – quanto mais bases, mais energia de ligação é demandada para quetodas elas se liguem ao DNA alvo e, assim, mais elevada será a Tm.
Temperatura de anelamento (Ta)
Por fim, chegamos na temperatura de anelamento (Ta), aquela que permite que os primers se liguem à sua sequência complementar no DNA alvo. A Ta é calculada subtraindo 5°C, a partir da fórmula:
Ta = Tm-5
O valor da Ta deve estar entre 50°C e 60°C.
Baixas temperaturas de anelamento correspondem a primers com ligações mais fracas e menos específicas. Por outro lado, Ta muito elevadas tornam a PCR pouco eficiente, pois o primer pode não se ligar.
Outro ponto muito importante é que a Ta dos dois primers do par (senso e antissenso) devem ser próximas, diferindo no máximo em 5°C. Quando você for programar o aparelho termociclador para realizar a PCR, você só informa uma Ta e, portanto, ela deve servir para os dois primers usados naquela reação.
Agora que aprendemos todos os parâmetros, vamos a um exemplo.
Supondo as sequências de primers a seguir, avalie-as com base nos parâmetros vistos até agora: comprimento, conteúdo GC, Tm e Ta.
Primer 1 -> 5’-TAGCGCGTAGCGATGCGATG-3’
Primer 2 -> 5’-ATGTTCGATCGAGCTGACGC-3’
1. Ambos possuem 20 bases, sendo:
· Primer 1: oito bases G, quatro bases C, quatro bases T e quatro bases A.
· Primer 2: seis bases G, cinco bases C, cinco bases T e quatro bases A.
2. Conteúdo GC do primer 1 é 60% e do primer 2 é 55%.
Vamos entender como ?
expand_more
3. Ao calcular a Tm pela fórmula, temos:
Primer 1:
Tm= 4(8+4) + 2(4+4)
Tm= 4(12) + 2(8)
Tm = 64°C
Primer 2:
Tm= 4(6+5) + 2(5+4)
Tm= 4(11) + 2(9)
Tm = 62°C
4. Ao calcular a Ta de cada primer, pela fórmula, temos:
Primer 1 (Tm: 64ºC):
Ta = 64 - 5
Ta = 59°C
Primer 2 (Tm: 62ºC):
Ta = 62 - 5
Ta = 57°C
Por esses critérios, os primers estão adequados para que a PCR seja eficiente e específica.
A eficiência está relacionada ao número de “cópias” da região alvo do DNA que será feito por ciclo de PCR, enquanto a especificidade garante que a região copiada seja realmente a que você deseja, e não outra qualquer.
Exemplo
Se você espera copiar uma região conservada do gene RNAr 16S, a intenção é que apenas essa região seja amplificada. Se você espera conseguir 1 milhão de cópias dessa região, quanto mais próximo a sua PCR chegar desse número, mais eficiente ela será.
Um trabalho minucioso deve ser feito para escolher qual será a sequência dos primers e garantir que ambas atendam aos parâmetros necessários. A boa notícia é que podemos contar com programas de computador para realizar esse trabalho!
Softwares usados para desenho de primers
Programas de computador foram desenvolvidos para testar muitas combinações de primers e fornecer como resultado apenas os mais adequados.
A qualidade dos primers é melhor quando usamos esses programas, comparada à qualidade daqueles escolhidos e testados manualmente pelo profissional. É importante que você saiba como utilizar essas ferramentas, pois isso irá poupar seu tempo e garantir resultados melhores para suas análises.
A primeira coisa que todo programa para desenho de primers precisa é a sequência de bases no DNA molde. Como os primers são complementares à sequência molde, essa informação se torna indispensável. Se você espera que uma carta chegue exatamente ao remetente esperado, então você precisa dizer o endereço completo. O endereço para os primers é a sequência no DNA molde onde eles devem se ligar. Essas sequências moldes podem ser obtidas em bancos de dados biológicos de sequências de nucleotídeos, como GenBank e RefSeq, disponíveis no portal do NCBI.
Depois de fornecer a sequência molde, você irá definir os parâmetros que acabamos de discutir.
Saiba mais
Existem diferentes programas usados para o desenho de primers, e eles diferem em relação a quais parâmetros são usados como critério de seleção, facilidade de uso e o fato de ser gratuito ou pago, por exemplo.
Vamos usar como exemplo o software Primer3, disponível gratuitamente na Internet.
Na página inicial do programa, você deve colar a sequência do DNA molde (1). Depois, você seleciona as opções para desenho de primers senso e antissenso (2). Na figura a seguir, conseguimos observar onde entramos com esses parâmetros. Observe a seta verde (local para colocarmos o DNA molde) e as setas amarelas (local de desenhos de primers senso e antissenso).
Você pode (mas não precisa) customizar os parâmetros considerados pelo Primer3. Dentre eles, estão:
· Tamanho do produto (Product Size Ranges);
· Comprimento dos primers (Primer Size);
· Temperatura de melting (Primer Tm);
· Conteúdo GC (Primer GC%).
Também é possível especificar qual região deseja incluir no fragmento que será amplificado (Targets) ou definir qual região não deve estar incluída nele (Excluded Regions). Outros parâmetros menos usados também estão disponíveis. Para saber o que significa cada um deles, é só clicar em cima do hiperlink no portal do programa.
Captura de tela com parte do alinhamento múltiplo de sequências do gene RNAr 16S de diferentes espécies bacterianas.
Vamos usar como exemplo a sequência do gene RNAr 16S de bactérias, que vimos anteriormente. Com base no resultado do alinhamento múltiplo de sequências desse gene em quatro espécies bacterianas diferentes (Escherichia coli, Klebsiella pneumoniae, Staphylococcus aureus e Neisseria gonorrhoeae), escolhi a região conservada entre as posições 890 e 1000 como alvo.
A sequência abaixo é uma das quatro presentes no alinhamento múltiplo da imagem que acabamos de ver. Todas foram copiadas do GenBank. Vamos usar a sequência da espécie S. aureus como molde para desenhar os primers.
Sequência do S. aureus.
Primeiro, a sequência molde é copiada para o retângulo em branco. Dentre os parâmetros do Primer3, vamos especificar a região que desejamos incluir no fragmento amplificado: posição 970 mais 60 bases à frente (Targets: 970,60). Essa região foi escolhida por ser conservada, sem muitas diferenças entre as espécies comparadas. Vamos especificar também o tamanho do produto (150-180pb), para que os primers pareiem perto da parte conservada, evitando, assim, as regiões muito variáveis (Product Size Range: 150-180). Feito isso, é só selecionar a opção “Escolher Primers” (Pick Primers).
Como resultado obtido ao final desse processo, o Primer3 mostra o par de primers mais adequado e, no final da página, existe a sugestão de outros pares.
Sobre os parâmetros que os primers devem seguir, verificamos que todos eles estão dentro dos valores recomendados.
1. Comprimento (len): 20pb;
2. Tm: 60°C para ambos os primers;
3. Conteúdo GC: 50% para ambos os primers;
4. Tamanho do produto (product size): 169pb.
Além dos parâmetros que discutimos, o Primer3 também prioriza outros dois: any e 3’, que se referem à tendência dos primers se ligarem com eles mesmos ou formar estruturas secundárias. Valores positivos são considerados aceitáveis, pois indicam baixa tendência dos primers manterem essas combinações que prejudicam a eficiência da reação de PCR.
Desenho de primers usando o Primer3
Neste vídeo, demonstramos como você pode utilizar o Primer3, usando como ponto de partida a sequência de um gene obtido em banco de dados.
Questão 1 A Reação em Cadeira da Polimerase (PCR) utiliza etapas com variação de temperatura que são repetidas várias vezes, em ciclos. As características dos primers usados na PCR influenciam mais diretamente na temperatura de qual etapa do ciclo?
A Desnaturação
B Extensão
C Anelamento X
D Melting
E Fusão
Questão 2 Primers ou iniciadores são sequências de nucleotídeos que se ligam de forma complementar a um DNA molde e permitem que a replicação aconteça. Na PCR, eles indicam a região do DNA molde que será amplificada, pois cada um dos primers se liga a uma das extremidades do molde. Um dos fatores que contam para que a PCR seja eficiente são as características dos primers. Qual das opções abaixo é um parâmetro importante dos primers, que contribui para que a PCR aconteça de forma adequada?
A Os primers devem ter conteúdo de GC de cerca de 90%.
B Os primers devem apresentar temperatura de melting inferior a 50°C.
C O comprimento dos primersdeve variar entre 30 e 90 pares de bases.
D Os primers devem apresentar temperatura de anelamento superior a 72°C.
E A temperatura de anelamento de cada primer do par deve ser bem próxima. X
image5.jpeg
image6.jpeg
image7.jpeg
image8.jpeg
image9.jpeg
image10.jpeg
image11.jpeg
image12.jpeg
image13.png
image14.png
image15.png
image16.jpeg
image17.jpeg
image18.jpeg
image19.jpeg
image20.jpeg
image21.jpeg
image22.jpeg
image23.jpeg
image24.jpeg
image25.jpeg
image26.jpeg
image27.jpeg
image28.jpeg
image29.jpeg
image30.jpeg
image31.jpeg
image32.jpeg
image33.jpeg
image34.png
image35.jpeg
image36.jpeg
image37.jpeg
image38.jpeg
image39.jpeg
image40.jpeg
image41.jpeg
image42.jpeg
image43.jpeg
image44.jpeg
image45.jpeg
image46.jpeg
image47.jpeg
image48.jpeg
image49.jpeg
image50.jpeg
image51.jpeg
image52.jpeg
image53.jpeg
image1.jpeg
image2.jpeg
image3.jpeg
image4.jpeg

Mais conteúdos dessa disciplina