Prévia do material em texto
NCBI e alinhamento de sequências O domínio de plataformas como o NCBI (Centro Nacional de Informação Biotecnológica), com ferramentas para alinhamento de sequências biológicas e desenho de primers, é fundamental para acompanhar os avanços da bioinformática. Esse conhecimento permite explorar dados biológicos de forma inovadora, contribuindo para o desenvolvimento de novos testes diagnósticos e aprimorando metodologias científicas. Profa. Melise Chaves Silveira 1. Itens iniciais Objetivos Reconhecer a importância do NCBI para as ciências biomédicas. Distinguir os tipos de alinhamentos de sequências biológicas disponíveis. Aplicar o conhecimento sobre primers no desenho dessas sequências utilizando programas de computador. Introdução A tecnologia está cada vez mais presente em nossas vidas, desde smartphones até televisores modernos, e tem se tornado indispensável na vida profissional, especialmente na ciência. A bioinformática exerce um papel essencial nas ciências biomédicas, permitindo a análise e interpretação de grandes volumes de dados biológicos. Dentro desse campo, o NCBI (National Center for Biotechnology Information) se destaca como uma das principais plataformas para o armazenamento e análise de informações genômicas e proteicas, sendo um recurso fundamental para pesquisadores de diversas áreas. Neste conteúdo, vamos explorar a importância do NCBI e como ele facilita a pesquisa biomédica. Também abordaremos os diferentes tipos de alinhamentos de sequências biológicas, compreendendo suas aplicações e diferenças. Por fim, aplicaremos esse conhecimento no desenho de primers, utilizando programas computacionais para criar sequências específicas que auxiliam em técnicas como PCR e sequenciamento genético. Ao final, você será capaz de utilizar essas ferramentas de forma prática, fortalecendo suas habilidades em bioinformática para análises mais eficientes e precisas. Vamos lá! • • • 1. A importância do NCBI NCBI (National Center for Biotechnology Information) Aprenda neste vídeo o papel do NCBI na organização de dados biológicos, desde sua origem pós-Projeto Genoma Humano até seu impacto na ciência. Veja suas funções, ferramentas e aplicações, como o estudo de bactérias resistentes. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Um dos marcos históricos mais importantes da bioinformática foi a realização do Projeto Genoma Humano, com o objetivo de identificar a sequência de nucleotídeos que compõe os 46 cromossomos humanos. Ao final desse projeto, que durou de 1990 a 2001, a bioinformática ganhou um grande impulso. Logo surgiram tecnologias para o sequenciamento de DNA capazes de determinar a ordem de nucleotídeos de genomas inteiros, de forma mais rápida e barata. Representação de sequenciamento genético. Até o final da década de 1990, os arquivos de sequência de ácidos nucleicos continham cerca de 4 bilhões de nucleotídeos, que correspondem a pouco mais de um único genoma humano. No final da década de 2000, esse número já era maior que 100 bilhões. Mas onde está guardada toda essa quantidade de sequências de nucleotídeos? Vamos entender melhor! Funções e aplicações do NCBI Sequências de nucleotídeos e aminoácidos, estruturas tridimensionais de proteínas e vias metabólicas são exemplos de dados biológicos. A bioinformática utiliza bancos de dados para armazenar e organizar o grande volume de dados gerados a partir da prática biomédica. Desse modo, quando alguém precisa de determinado dado biológico, ele pode ser recuperado facilmente. Muitos desses bancos de dados podem ser acessados por qualquer pessoa, de qualquer lugar do mundo, utilizando a rede mundial de computadores (World Wide Web). O NCBI (National Center for Biotechnology Information), Centro Nacional para Informação Biotecnológica, é uma organização sediada nos Estados Unidos da América que controla o portal mais famoso da bioinformática, cujo acesso é feito pelo ncbi.nlm.nih.gov. Dentro desse portal estão disponíveis diferentes bancos de dados biológicos e ferramentas para analisá-los. O NCBI se propõe a reunir o resultado do trabalho de pesquisadores ao redor do mundo em um só lugar, facilitando o acesso e manipulação desses registros. Essa iniciativa impulsiona o avanço do conhecimento na área biotecnológica. Pessoa utilizando software para análise de DNA. Como funciona esse processo? Imagine encontrar uma bactéria super-resistente, que não pode ser eliminada por nenhum antibiótico conhecido. Isso é um problema grave na medicina, porque essas bactérias podem causar infecções difíceis de tratar. Para entender o que torna essa bactéria tão resistente, você decide estudar seu DNA, ou seja, o conjunto de instruções genéticas que controla tudo o que acontece dentro dela. O primeiro passo é sequenciar o genoma dessa bactéria, o que significa descobrir a ordem exata dos nucleotídeos ― as letras químicas que compõem o DNA: A, T, C e G. Esse sequenciamento é feito com equipamentos especiais de laboratório que leem e registram a sequência completa do DNA da bactéria. Após obter essa sequência, você pode enviá-la para o banco de dados científico, como o NCBI, uma plataforma internacional na qual cientistas do mundo inteiro compartilham informações genéticas. Esse banco de dados funciona como uma grande biblioteca de DNA em que qualquer pesquisador pode buscar informações sobre diferentes organismos. Isso é muito importante porque permite que outros cientistas: Descubram os genes responsáveis pela resistência aos antibióticos, ajudando no desenvolvimento de novos medicamentos. Comparem a sua bactéria com outras já estudadas, para entender sua origem e evolução. Desenvolvam testes mais rápidos para identificar bactérias resistentes em hospitais e laboratórios. Ao sequenciar e compartilhar o genoma da bactéria, você não apenas aprende mais sobre ela, mas também ajuda a comunidade científica a encontrar formas de combater infecções resistentes e proteger a saúde pública. Atividade 1 A bioinformática organiza e acessa grandes volumes de dados biológicos produzidos por tecnologias modernas, contribuindo para avanços no conhecimento científico e no desenvolvimento de novas metodologias. Qual a principal função de plataformas como o NCBI no campo da bioinformática? • • • A Armazenar dados biológicos e possibilitar sua análise e seu compartilhamento. B Criar novos genes sintéticos para aplicação em biotecnologia. C Desenvolver ferramentas exclusivamente para o sequenciamento genético. D Patrocinar pesquisas científicas em biotecnologia ao redor do mundo. E Monitorar e controlar o uso de dados biológicos para fins comerciais. A alternativa A está correta. Plataformas como o NCBI têm como principal função reunir, organizar e disponibilizar dados biológicos gerados por pesquisadores de diversas áreas, facilitando sua análise e seu compartilhamento global. Essa centralização de informações impulsiona o avanço da ciência possibilitando acesso a um grande volume de dados relevantes para pesquisas. Bancos e ferramentas: PubMed e GenBank Confira neste vídeo como funciona o PubMed, com filtros para buscas biomédicas, e o GenBank, repositório de sequências nucleotídicas para colaboração global. Veja também um exemplo sobre bactérias resistentes a antibióticos. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Agora, vamos aprender sobre exemplos reais de bancos e ferramentas disponíveis pelo portal do NCBI. PubMed Funciona como uma grande biblioteca digital de artigos científicos na área da saúde. No seu site, você encontra pesquisas sobre doenças, tratamentos, medicamentos, genética e muitos outros temas científicos da saúde. Os artigos disponíveis no PubMed vêm de revistas científicas do mundo todo, mas a maioria está publicada em inglês, considerado o principal idioma da ciência. Embora nem todos os artigos sejam gratuitos, muitos podem ser lidos sem custo. O PubMed é uma ferramenta para estudantesA Selecionando primers em regiões não conservadas para garantir amplificação específica. B Utilizando primers em regiões conservadas para amplificar DNA de diferentes organismos. C Desenvolvendo primers que se ligam aleatoriamente para maior abrangência na amplificação. D Escolhendo primers em regiões exclusivas para evitar a amplificação do DNA-alvo. E Criando primers sem especificidade para maximizar a amplificação de diferentes genes. A alternativa B está correta. Em análises como a PCR, quando se busca amplificar uma região comum presente em diferentes organismos, como o gene RNAr 16S em bactérias, precisamos de primers complementares a regiões conservadas. Dessa forma, é possível detectar organismos diversos em amostras variadas, fazendo com que haja especificidade e eficiência no experimento. Escolher regiões não conservadas ou sem especificidade pode comprometer o resultado, pois isso aumenta a chance de amplificar sequências não relacionadas. Além disso, utilizar regiões exclusivas não atende ao objetivo de identificar múltiplos organismos. Portanto, primers devem ser desenhados estrategicamente para garantir resultados confiáveis e abrangentes. Parâmetros Parâmetros para primers eficientes na PCR Conheça, neste vídeo, como os parâmetros essenciais para primers em PCR eficiente, como tamanho do produto (150-1.000 pb) e comprimento ideal dos primers (18-24 bases). Entenda a importância de controlar estruturas secundárias e como esses fatores afetam a amplificação. Veja também a relevância da eletroforese para confirmar o tamanho do fragmento amplificado. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Para que os primers funcionem bem na PCR, não basta que apenas se liguem ao DNA-alvo. Existem outros fatores que influenciam o sucesso da reação. Tamanho do produto É a medida do fragmento de DNA amplificado na PCR. Ele é determinado pela posição em que os primers se ligam ao DNA. Os primers podem ser de dois tipos: Primer forward (senso) Se liga no início da região a ser amplificada. Primer reverse (antissenso) Se liga no final dessa região. Cálculo Para determinar o tamanho do produto, basta subtrair a posição inicial do primer forward da posição inicial do primer reverse. Exemplo Se o primer forward inicia na base 50 e o primer reverse na base 300, então 300 – 50 = 250 pares de bases (pb). Esse valor assegura que a PCR amplifique exatamente o fragmento desejado. Podemos conferir esse tamanho após a eletroforese, técnica usada para separar fragmentos de DNA de acordo com seu peso molecular. Para isso, o produto que sai da máquina da PCR é aplicado em um gel de agarose e sofre ação de uma corrente elétrica, que empurra os fragmentos de DNA do polo negativo para o polo positivo. Quanto menos pares de bases possui um fragmento, mais leve ele é, e mais rápido ele migra pelo gel. Ao contrário, fragmentos com muitos pares de bases são mais pesados e migram de forma mais lenta. Estimamos o tamanho do fragmento amplificado usando como referência o marcador de peso molecular (solução adquirida pelo laboratório que contém diferentes fragmentos de DNA com tamanhos já definidos). O tamanho ideal do produto da PCR está entre 150 e 1.000 pares de bases (pb). Fragmentos muito pequenos podem ser confundidos com restos de primers que não se ligaram ao alvo e aparecem no final do gel da eletroforese. Por outro lado, se a região amplificada for muito grande, a DNA polimerase pode não conseguir adicionar todos os nucleotídeos necessários e, nesses casos, a PCR não vai funcionar. Representação dos fragmentos de DNA separados por eletroforese. Comprimento O primer pode também ser chamado de oligonucleotídeo, ou seja, um fragmento curto de uma cadeia simples de ácido nucleico. Mas o quão curta deve ser a sequência de um primer? Comentário O comprimento deve variar entre 18 e 24 bases. Um primer muito curto, com menos de 18 bases, é considerado inespecífico, podendo se ligar em diferentes posições no DNA molde. Você pode imaginar que a chance de encontrar a sequência CCGCC aleatoriamente ao longo de um DNA é maior, quando comparada à chance de encontrar a sequência CCGCCTGGGGA. Portanto, existe um tamanho mínimo para garantir que o primer vai se ligar somente na região que você deseja. O tamanho dos primers geralmente não ultrapassa 24 bases, pois sequências muito longas podem formar estruturas secundárias, prejudicando a PCR. Um exemplo disso é a formação de um grampo (hairpin): o primer se dobra sobre si e se emparelha internamente, dificultando sua ligação ao DNA-alvo. Esse limite garante que os primers sejam longos o suficiente para especificidade, mas curtos o bastante para evitar problemas estruturais. O comprimento muito longo também aumenta a chance de um primer se combinar com outro, o que chamamos de dímeros de primers. Os dois casos diminuem a chance de ligação do primer à região alvo do DNA molde e, portanto, também torna a PCR menos produtiva. Na sequência, observe as estruturas secundárias ocasionadas pelo alinhamento errado dos primers. Representação da formação da estrutura secundária (hairpin) e dímeros. Atividade 2 Os primers, ou oligonucleotídeos, são importantes na reação em cadeia da polimerase (PCR). Diversos parâmetros são necessários para garantir sua eficiência no processo. Quais fatores podem comprometer a eficiência de um primer na PCR? A Apenas a sequência-alvo do DNA. B Apenas a concentração dos primers no processo. C Somente o tipo de polimerase utilizada. D Tamanho, conteúdo de bases e estrutura secundária. E O tamanho do DNA total no experimento. A alternativa D está correta. A eficiência dos primers na PCR depende de parâmetros como o tamanho ideal da sequência, o conteúdo de guanina e citosina, e a ausência de estruturas secundárias como dímeros ou hairpins, que podem prejudicar sua ligação à região alvo do DNA. Parâmetros essenciais dos primers na PCR Confira no vídeo o conteúdo GC e sua importância na estabilidade de primers e no cálculo da Tm e Ta em PCR. Veja exemplos práticos de como avaliar comprimento, porcentagem GC, Tm e Ta. Garanta eficiência e especificidade na amplificação de DNA. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Conteúdo de bases guanina e citosina (GC) O conteúdo GC é a porcentagem das bases nitrogenadas guanina (G) e citosina (C) ao longo da sequência de DNA. Exemplo Se a soma de G mais C ao longo de um primer com 20 bases de comprimento é igual a 10, então o conteúdo GC dele é igual a 50%. As bases guanina e citosina ligam-se por meio de três pontes de hidrogênio, diferente de adenina (A) e timina (T), que se ligam por duas. Por isso, uma quantidade maior de energia está envolvida na ligação G+C, ela é mais forte. Representação das pontes de hidrogênio entre as bases nitrogenadas que compõem os nucleotídeos. A porcentagem ideal de GC para um primer deve estar entre 40% e 60%. Estabelecer um limite mínimo (40%) permite que o primer se ligue ao alvo com mais força, trazendo estabilidade para o pareamento. O limite máximo (60%) é necessário, pois altas porcentagens de GC demandam muita energia para a ligação, e ela pode não acontecer. A energia envolvida na ligação entre as bases influencia diretamente no cálculo da temperatura de anelamento. A temperatura de anelamento da PCR é a segunda etapa de cada ciclo dessa reação. Entenda melhor todas as etapas. Desnaturação É a primeira fase da PCR e ocorre entre 90 °C e 96 °C, quando a dupla fita do DNA se desfaz. Anelamento Etapa em que ocorre o anelamento dos primers, quando a temperatura cai entre 50 °C e 60 °C. Extensão (DNA Polimerase) A última etapa do ciclo é a síntese do fragmento de DNA pela ação da DNA polimerase. A polimerase especial usada na PCR (Taq DNA polimerase), que resiste a altas temperaturas sem perder sua função, trabalha de forma ideal a 72 °C. O valor da temperatura de anelamento é calculado dependendo da sequência de bases dos primers usados.Tanto o conteúdo GC quanto o comprimento é importante nessa conta. Atenção Reações de PCR distintas, com alvos diferentes e, portanto, sequências de primers diferentes, terão cada uma sua própria temperatura de anelamento. O nosso próximo passo é entender como é calculada a temperatura de anelamento. Uma vez definida, o profissional deve usá-la para programar a máquina usada para PCR, chamada termociclador. Temperatura de melting (Tm) A Tm é importante, pois a temperatura de anelamento dos primers é calculada com base nesse valor. O anelamento também pode ser chamado de hibridização, pois é nessa etapa que os primers vão se ligar à região complementar no DNA alvo. O cálculo da Tm depende da sequência de bases do primer, portanto, cada primer do par vai ter a sua Tm. A maneira mais simples de calcular esse valor é a partir da seguinte fórmula: Nesse cálculo, a Tm é influenciada principalmente por dois fatores: Conteúdo Quanto maior a porcentagem de GC, maior será a Tm, pois mais energia está envolvida na ligação entre essas duas bases. Comprimento Quanto mais bases, mais energia de ligação é demandada para que todas elas se liguem ao DNA alvo e, assim, mais elevada será a Tm. Temperatura de anelamento (Ta) É aquela que permite que os primers se liguem à sua sequência complementar no DNA alvo. A Ta é calculada subtraindo 5 °C, a partir da seguinte fórmula: O valor da Ta deve estar entre 50 °C e 60 °C. Dica Temperaturas baixas de anelamento correspondem a primers com ligações mais fracas e menos específicas. Por outro lado, Ta excessivamente elevada pode comprometer a eficiência da PCR, dificultando a ligação dos primers ao DNA molde. Outro ponto muito importante é que a Ta dos dois primers do par (senso e antissenso) devem ser próximas, diferindo no máximo em 5 °C. Quando você for programar o aparelho termociclador para realizar a PCR, você só informa uma Ta e, portanto, ela deve servir para os dois primers usados naquela reação. Agora que compreendemos todos os parâmetros, vamos analisar um exemplo. Supondo as seguintes sequências de primers, vamos avaliá-las com base nos critérios discutidos: comprimento, conteúdo GC, Tm e Ta. Primer 1 → 5’-TAGCGCGTAGCGATGCGATG-3’ Primer 2 → 5’-ATGTTCGATCGAGCTGACGC-3’ A partir disso, notamos que ambos possuem 20 bases, distribuídas da seguinte forma: Primer 1 Oito bases G, quatro bases C, quatro bases T e quatro bases A. Primer 2 Seis bases G, cinco bases C, cinco bases T e quatro bases A. Visto isso, o conteúdo GC do primer 1 é 60% e do primer 2 é 55%. Agora, vamos entender melhor como tudo ocorre! Considere que as 20 bases no primer são iguais a 100%. Em seguida, devemos contar as bases G e C do primer 1. Assim, vemos que oito bases são do tipo G e quatro são do tipo C, totalizando 12 bases. Ao aplicar uma simples regra de 3, achamos 60% de conteúdo GC. • • Assim, ao contar as bases do primer 2, vemos que seis bases são do tipo G e cinco do tipo C, totalizando 11 bases. Aplicando a regra de três, agora temos que o conteúdo GC no primer 2 é 55%. Logo, ao calcular a Tm para o primer 1, teremos: Da mesma forma, para o primer 2, aplicamos a mesma equação: Agora, para determinar a Ta do primer 1, aplicamos a seguinte fórmula: Do mesmo modo, calculamos a Ta do primer 2 utilizando a mesma equação: Por esses critérios, os primers estão adequados para que a PCR seja eficiente e específica. A eficiência determina quantas cópias da região alvo do DNA são geradas a cada ciclo de PCR, enquanto a especificidade assegura que apenas a sequência desejada seja amplificada, evitando a cópia de regiões indesejadas. Exemplo Se você espera copiar uma região conservada do gene RNAr 16S, a intenção é que apenas essa região seja amplificada. Se você espera conseguir 1 milhão de cópias dessa região, quanto mais próximo a sua PCR chegar desse número, mais eficiente ela será. Um trabalho minucioso deve ser feito para escolher qual será a sequência dos primers e garantir que ambas atendam aos parâmetros necessários. A boa notícia é que podemos contar com programas de computador para realizar esse trabalho! Atividade 3 O sucesso da reação em cadeia da polimerase (PCR) depende de parâmetros de eficiência e especificidade. Qual fator pode afetar tanto a eficiência quanto a especificidade dos primers em uma reação de PCR? A A concentração do tampão utilizado. B O comprimento e o conteúdo GC dos primers. C O tipo de DNA polimerase empregado. D A duração da etapa de extensão. E O número de ciclos da PCR. A alternativa B está correta. Tanto a eficiência quanto a especificidade dos primers na PCR dependem de características como o comprimento, que deve estar entre 18 e 24 bases, e o conteúdo de guanina e citosina (GC), idealmente entre 40% e 60%. Esses fatores garantem estabilidade no pareamento e evitam estruturas secundárias indesejadas, como dímeros ou hairpins, que podem comprometer o sucesso da reação. Softwares usados para desenho de primers Confira, neste vídeo, como usar o Primer3 para desenhar primers, definindo parâmetros como tamanho do produto, Tm e GC%. Aprenda a evitar estruturas secundárias e selecionar primers eficientes para PCR. A partir disso, entenda como interpretar os resultados para garantir precisão. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Programas de computador foram desenvolvidos para testar muitas combinações de primers e fornecer como resultado apenas os mais adequados. A qualidade dos primers é melhor quando usamos esses programas, comparada à qualidade daqueles escolhidos e testados manualmente pelo profissional. É importante que você saiba como utilizar essas ferramentas, pois isso irá poupar seu tempo e garantir resultados melhores para suas análises. A primeira coisa que todo programa para desenho de primers precisa é a sequência de bases no DNA molde. Como os primers são complementares à sequência molde, essa informação se torna indispensável. Se você espera que uma carta chegue exatamente ao remetente esperado, então você precisa dizer o endereço completo. O endereço para os primers é a sequência no DNA molde onde eles devem se ligar. Essas sequências moldes podem ser obtidas em bancos de dados biológicos de sequências de nucleotídeos, como GenBank e RefSeq, disponíveis no portal do NCBI. Após fornecer a sequência molde, você irá definir os parâmetros que acabamos de discutir. Cientistas analisando dados de DNA em software especializado. Curiosidade Existem diversos programas disponíveis para o desenho de primers, e eles variam em relação aos parâmetros utilizados para seleção, facilidade de uso e se são gratuitos ou pagos. Vamos usar como exemplo o software Primer3, disponível gratuitamente na internet. Na página inicial do programa, você deve colar a sequência do DNA molde (1). Após isso, você seleciona as opções para desenho de primers senso e antissenso (2). Na imagem a seguir, veja onde inserimos esses parâmetros: a seta verde indica o local para o DNA molde, e as setas amarelas, o local para os primers senso e antissenso. Tela de configuração do software Primer3. Você pode (mas não precisa) customizar os parâmetros considerados pelo Primer3. Dentre eles, estão: Tamanho do produto (Product size ranges). Comprimento dos primers (Primer size). Temperatura de melting (Primer Tm). Conteúdo GC (Primer GC%). Também é possível especificar qual região deseja incluir no fragmento que será amplificado (Targets) ou definir qual região não deve estar incluída nele (Excluded regions). Outros parâmetros menos usados também estão disponíveis. Para saber o que significa cada um deles, é só visitar o portal do programa. Considerando isso, vamos utilizar como exemplo a sequência do gene RNAr 16S de bactérias. Com base no resultado do alinhamento múltiplo de sequências desse gene em quatro espécies bacterianas diferentes (Escherichia coli, Klebsiella pneumoniae, Staphylococcus aureus e Neisseria gonorrhoeae), escolhemosa região conservada entre as posições 890 e 1000 como alvo. • • • • Representação da parte do alinhamento múltiplo de sequências do gene RNAr 16S de diferentes espécies bacterianas. A sequência adiante é uma das quatro presentes no alinhamento múltiplo da imagem que acabamos de ver. Todas foram copiadas do GenBank. A partir disso, vamos utilizar a sequência da espécie S. aureus como molde para desenhar os primers. Representação da sequência do S. aureus. Primeiro, a sequência molde é copiada para o retângulo em branco. Em seguida, no Primer3, especificamos a região a ser incluída no fragmento amplificado: posição 970 e 60 bases à frente (Targets: 970,60). Essa região foi escolhida por ser conservada, com poucas diferenças entre as espécies comparadas. Também definimos o tamanho do produto (150-180pb), para que os primers se pareiem perto da parte conservada e evitem as regiões altamente variáveis (Product Size Range: 150-180). Feito isso, basta selecionar a opção Escolher Primers (Pick Primers). Como resultado obtido ao final desse processo, o Primer3 mostra o par de primers mais adequado e, no final da página, existe a sugestão de outros pares. Tela de configuração com o principal resultado obtido pela ferramenta Primer3. Quanto aos parâmetros que os primers devem seguir, podemos observar que todos estão dentro dos valores recomendados: Comprimento (Ien) 20pb. Tm 60°C para ambos os primers. Conteúdo GC 50% para ambos os primers. Tamanho do produto 169pb. Além desses parâmetros, o Primer3 também leva em consideração outros dois: any e 3’, que avaliam a tendência dos primers se ligarem a si mesmos ou formarem estruturas secundárias. Valores positivos para esses parâmetros são considerados aceitáveis, pois indicam baixa tendência para essas combinações, que poderiam prejudicar a eficiência da reação de PCR. Desenho de primers usando o Primer3 Confira, neste vídeo, como você pode utilizar o Primer3, usando como ponto de partida a sequência de um gene obtido em banco de dados. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 4 Softwares especializados, como o Primer3, são bastante utilizados para otimizar o desenho de primers em reações de PCR. Qual das alternativas a seguir reflete um benefício significativo ao utilizar programas como o Primer3 para o desenho de primers? A Aumentar a precisão no alinhamento e escolha dos primers. B Eliminar a necessidade de definir parâmetros específicos. C Permitir a execução de PCR sem sequência molde. D Garantir a exclusão de etapas manuais na análise de dados. E Evitar o uso de sequências conservadas como alvo. A alternativa A está correta. Programas como o Primer3 analisam e selecionam primers com maior precisão ao integrar parâmetros como comprimento, Tm, conteúdo GC e tamanho do produto. Esses softwares garantem maior eficiência e especificidade na reação de PCR ao evitar erros manuais e permitir a definição de regiões conservadas e variáveis, otimizando o desenho de primers. Aplicando o conhecimento Você é estagiário em um laboratório de microbiologia ambiental e recebeu uma tarefa importante: desenvolver primers para detectar a presença de bactérias em amostras de água coletadas de diferentes reservatórios. Para isso, você usará como alvo o gene RNAr 16S, altamente conservado entre espécies bacterianas. Pessoa analisando amostra. O primeiro passo é acessar o banco de dados GenBank para buscar a sequência do gene RNAr 16S de diferentes espécies bacterianas. Após o alinhamento múltiplo, utilizando o programa Clustal, você identificou uma região conservada entre as posições 890 e 1.000. Essa região será o alvo para o desenho dos primers. Em seguida, você acessa o software Primer3, insere a sequência molde correspondente à espécie Staphylococcus aureus e define os parâmetros necessários: Tamanho do produto: De 150 pb a 180 pb, garantindo que o fragmento amplificado seja de tamanho ideal para eletroforese. • Comprimento do primer: Entre 18 e 24 bases, evitando problemas de inespecificidade ou formação de estruturas secundárias. Conteúdo GC: Entre 40%-60%, garantindo estabilidade e eficiência na ligação ao DNA alvo. Temperatura de melting (Tm): Próxima de 60 °C para os dois primers, para assegurar compatibilidade na PCR. Após clicar em Pick Primers, o software retorna um par de primers com as seguintes características: Primer Forward (senso): 5’-TAGCGCGTAGCGATGCGATG-3’, Tm = 60 °C, GC = 60%. Primer Reverse (antissenso): 5’-ATGTTCGATCGAGCTGACGC-3’, Tm = 59 °C, GC = 55%. Com os primers selecionados, você realiza a PCR com o termociclador configurado para uma temperatura de anelamento de 55 °C. Após a amplificação, os produtos são separados por eletroforese em gel de agarose. Você identifica uma banda correspondente ao tamanho esperado, confirmando a presença de bactérias nas amostras. Após a leitura do caso, é hora de aplicar seus conhecimentos! Questão 1 Qual parâmetro, entre os listados a seguir, seria mais crítico para garantir a especificidade dos primers desenhados no experimento descrito? A O tamanho do produto amplificado. B O comprimento dos primers. C A temperatura de anelamento (Ta). D O tipo de DNA polimerase utilizado na PCR. E A concentração de nucleotídeos na mistura de reação. A alternativa C está correta. A Ta controla a força de ligação entre os primers e o DNA-alvo, garantindo especificidade ao evitar ligações inespecíficas ou ausência de ligação. O tamanho do produto e o comprimento dos primers são importantes, mas afetam principalmente a eficiência. O tipo de polimerase e a concentração de nucleotídeos influenciam a reação geral, mas não determinam a especificidade. • • • • • Questão 2 Por que o gene RNAr 16S é frequentemente utilizado como alvo em estudos de detecção bacteriana? Chave de resposta O gene RNAr 16S é altamente conservado entre as espécies bacterianas, sendo importante para a função ribossômica. Ele possui regiões constantes, ideais para desenhar primers que detectem uma profusão de bactérias, e regiões variáveis, úteis para distinguir diferentes espécies. Sua universalidade no domínio Bacteria e o extenso banco de dados disponível no GenBank tornam esse gene uma escolha confiável para estudos de detecção bacteriana em diversas amostras, como solo, água e fezes. Assim, o RNAr 16S combina especificidade e abrangência, sendo muito relevante em estudos de microbiologia ambiental e diagnóstico molecular. Questão 3 Quais são os benefícios da utilização de softwares como o Primer3 para o desenho de primers e como otimizam o processo experimental? Chave de resposta O uso de softwares como o Primer3 permite automatizar e otimizar o desenho de primers, reduzindo erros e poupando tempo. Esses programas avaliam parâmetros como comprimento, conteúdo GC, temperatura de melting (Tm) e tendência à formação de estruturas secundárias. Além disso, é possível customizar regiões-alvo e evitar áreas indesejadas no DNA molde. O Primer3 também sugere pares de primers com compatibilidade ideal, aumentando a eficiência e a especificidade da PCR. No experimento descrito, o software assegurou que os primers atendessem aos critérios estabelecidos, maximizando a probabilidade de amplificar apenas a região conservada do gene RNAr 16S. Para complementar, confira este vídeo e aprenda a desenvolver primers para detectar bactérias em amostras de água: desde a busca pela sequência do gene RNAr 16S no GenBank, passando pelo alinhamento no Clustal, o desenho de primers no Primer3 até a validação final por PCR e eletroforese. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. 4. Conclusão Considerações finais O que você aprendeu neste conteúdo? NCBI é fundamental para centralizar dados biológicos e facilitar o acesso a ferramentas como GenBank e RefSeq. Plataformas bioinformáticas permitem avanços significativos no diagnóstico molecular e na pesquisa científica. Alinhamentos biológicos ajudam a identificarregiões conservadas e variáveis, essenciais em estudos comparativos. Softwares como Primer3 tornam o desenho de primers mais eficiente e específico para amplificação de sequências. O domínio dessas ferramentas é útil para capacitar profissionais no uso de dados biológicos modernos. O armazenamento de dados no NCBI organiza informações genômicas fundamentais para pesquisas globais. Alinhamentos e primers são bases importantes para criar testes diagnósticos sensíveis e precisos. Podcast Ouça sobre o crescimento do NCBI e de seus bancos de dados nos últimos anos. Entenda as aplicações do alinhamento de sequências e o que são primers degenerados. Conteúdo interativo Acesse a versão digital para ouvir o áudio. Explore + Para saber mais sobre os assuntos tratados neste conteúdo: Explore a playlist “Alinhamento de sequências”, no canal do YouTube OnlineBioinfo Bioinformática. Leia o artigo “Desenho e Validação de Primers In Silico para Detecção do Vírus Sincicial Respiratório Humano”, de Jackson Alves da Silva Queiroz e colaboradores, e acompanhe um exemplo real de desenho de primers. Referências DIEFFENBACH, C. W.; LOWE, T. M. J.; DVEKSLER, G. S. General Concepts for PCR Primer Design. Genome Res. 1993 Dec;3(3):S30-7. • • • • • • • • • NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Consultado na Internet em: 16 jul. 2021. PROSDOCIMI, F. Introdução à bioinformática. Biotecnologia – Ciência e Desenvolvimento. Curso On-line. São Paulo: USP, 2007. Consultado na internet em: 16 jul. 2021. SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. Bioinformática: contexto computacional e aplicações. 1. ed. Caxias do Sul: Educs. 2020. WATUGULY, T. W.; SAMSURIA, I. K.; ASTUTI, P.; NURINGTYAS, T. R.; WIJAYANTI, N.; WAEL, S. The Analysis of Primer Gene of Phosphodiesterase Type 5 (PDE5) on Erectile Dysfunction. Open Journal of Applied Sciences, n. 8, p. 398-410, 2018. WU, F. et al. A new coronavirus associated with human respiratory disease in China. Nature. Publicado em: 3 fev. 2020. Consultado na internet em: 16 jul. 2021. XIONG, J. Essential Bioinformatics. 1. ed. Cambridge, England: Cambridge University Press, 2006. NCBI e alinhamento de sequências 1. Itens iniciais Objetivos Introdução 1. A importância do NCBI NCBI (National Center for Biotechnology Information) Conteúdo interativo Funções e aplicações do NCBI Como funciona esse processo? Atividade 1 Bancos e ferramentas: PubMed e GenBank Conteúdo interativo PubMed Atenção GenBank Dica Extração de DNA Sequenciamento genômico Submissão ao GenBank Atividade 2 Bancos e ferramentas: RefSeq e Blast RefSeq e BLAST: sequências de referência e comparação Conteúdo interativo RefSeq Exemplo Blast Porcentagem de similaridade Valor estatístico (e-value) Resumindo Atividade 3 Pesquisa e recuperação de dados Conteúdo interativo Acessando o PubMed Insira as palavras-chave Inicie a pesquisa Selecionar o campo de pesquisa Inserir palavras-chave Adicionar termos Realizar busca Atenção Busca textual Exemplo Conteúdo interativo Exemplo Enviar o arquivo Selecionar e definir o formato Criar o arquivo Primeira linha Linhas seguintes Busca de sequências com o BLAST Como funciona? Como utilizar o PubMed, GenBank e RefSeq Conteúdo interativo Atividade 4 Fala, mestre! Conteúdo interativo Conteúdo interativo Aplicando o conhecimento Conteúdo interativo 2. Alinhamentos de sequências Análise e alinhamento de sequências biológicas Conteúdo interativo Descobrir variações dentro de uma mesma espécie Entender relações evolutivas entre espécies Prever a função de novas proteínas DNA Proteínas Alinhamento das sequências Análise de identidade Cálculo da identidade Curiosidade Atividade 1 Tipos de aplicações do alinhamento Conteúdo interativo Precisão do alinhamento Alinhamento ótimo Alinhamento heurístico Extensão alinhada Exemplo de alinhamento local para descobrir a função de uma proteína Comparação com sequências conhecidas Identificação de regiões conservadas Conclusão Número de sequências Alinhamento simples Alinhamento múltiplo Atividade 2 Programas para alinhamento de sequência Conteúdo interativo Match Mismatch Gap Pontuação (score) Basic Local Alignment Search Tool – BLAST Como funciona a busca no BLAST? Inserção da sequência Divisão em palavras Busca no banco de dados Semente (Seed) Expansão do alinhamento Como saber se o resultado do BLAST é confiável? Porcentagem de identidade E-value (valor de expectativa) E-value (valor de expectativa) Relembrando Variantes do BLAST e exemplo de uso BLASTn BLASTp BLASTx tBLASTn tBLASTx Identidade E-value Gaps Curiosidade Alinhamento de sequências com a ferramenta BLAST Conteúdo interativo Atividade 3 Clustal Clustal: alinhamento múltiplo e global de sequências Conteúdo interativo Alinhamento múltiplo Alinhamento global Método heurístico Como podemos utilizar o Clustal? Por que a histona? Por que utilizar o Clustal? Alinhamento global Alinhamento múltiplo O que podemos descobrir? Atividade 4 Aplicando o conhecimento Conteúdo interativo 3. Os primers Primers: definições e aplicações Primers e alinhamento múltiplo: identificando regiões conservadas Conteúdo interativo Exemplo DNA molde Primers DNA polimerase Atividade 1 Parâmetros Parâmetros para primers eficientes na PCR Conteúdo interativo Tamanho do produto Primer forward (senso) Primer reverse (antissenso) Cálculo Exemplo Comprimento Comentário Atividade 2 Parâmetros essenciais dos primers na PCR Conteúdo interativo Conteúdo de bases guanina e citosina (GC) Exemplo Desnaturação Anelamento Extensão (DNA Polimerase) Atenção Temperatura de melting (Tm) Conteúdo Comprimento Temperatura de anelamento (Ta) Dica Primer 1 Primer 2 Exemplo Atividade 3 Softwares usados para desenho de primers Conteúdo interativo Curiosidade Comprimento (Ien) Tm Conteúdo GC Tamanho do produto Desenho de primers usando o Primer3 Conteúdo interativo Atividade 4 Aplicando o conhecimento Conteúdo interativo 4. Conclusão Considerações finais O que você aprendeu neste conteúdo? Podcast Conteúdo interativo Explore + Referênciase profissionais da saúde, pois permite acessar informações atualizadas e baseadas em evidências científicas para estudos, pesquisas e tomada de decisões na prática clínica. Atenção Para algumas revistas, é possível acessar livremente apenas o resumo dos artigos. Nesses casos, é necessário pagar uma assinatura para conseguir o acesso completo, o que é normalmente feito por instituições de pesquisa. Existe também a possibilidade de pagamento apenas do artigo de interesse, caso você realmente precise ler o conteúdo e sua instituição não tenha a assinatura de determinada revista científica. Quando estiver desenvolvendo seu trabalho de conclusão de curso (TCC), após a escolha do tema, você vai começar a buscar artigos científicos sobre ele. Uma forma de encontrar essa literatura é acessar o PubMed pelo portal do NCBI e buscar por palavras-chave. Imagine que sua busca resulte em 100 artigos. Veja! Nesse número estão incluídos os artigos de acesso livre e os de acesso restrito. É possível, então, filtrar a busca apenas por artigos que você consiga ler inteiros. Nesse caso, é muito provável que o número de artigos disponíveis seja bem menor que 100. Além de direcionar a busca para artigos de acesso livre, também é possível utilizar os filtros para determinar o período de publicação desejado, o tipo de artigo (ensaio clínico ou revisão, por exemplo), dentre outras formas de busca mais específicas que falaremos adiante. GenBank É um banco de dados on-line que armazena sequências de DNA de diversos organismos, desde bactérias até seres humanos. Mantido pelo NCBI, contém informações enviadas por cientistas do mundo inteiro. Nesse banco, é possível encontrar sequências de genes individuais, partes de cromossomos, cromossomos inteiros e até plasmídeos ― pequenos pedaços de DNA que algumas bactérias usam para trocar genes entre si, incluindo genes de resistência a antibióticos. Dica O acesso ao GenBank é totalmente gratuito. Qualquer pessoa pode pesquisar e baixar sequências para estudos ou comparações com outras sequências. Essa ferramenta é essencial para quem trabalha com genética, evolução, biotecnologia e até no desenvolvimento de novos medicamentos. Você se lembra do exemplo da bactéria resistente a todos os antibióticos que discutimos agora mesmo? Podemos aplicar esse exemplo ao contexto do GenBank, conforme os seguintes passos: Extração de DNA Removendo o material genético da célula bacteriana. Sequenciamento genômico Obtendo a sequência completa do DNA com tecnologias específicas. Submissão ao GenBank Enviando as sequências de nucleotídeos pelo portal do NCBI. Feito isso, após um processo de triagem automatizada, em alguns dias sua sequência estará disponível mundialmente! Diante dessas informações, você pode estar se perguntando: E por que devo disponibilizar esses dados ao mundo? Para que você possa provar que fez, é preciso “mostrar”. Além disso, ciência é feita em conjunto, o avanço de um é o avanço de todos. Atividade 2 O acesso a bancos de dados biológicos e literários contribui significativamente para o desenvolvimento da ciência. Por que o compartilhamento de sequências biológicas em bancos de dados como o GenBank é importante para a ciência? A Porque o GenBank armazena informações apenas sobre organismos humanos, facilitando estudos específicos sobre a espécie humana. BPorque o GenBank oferece acesso gratuito a sequências de DNA de diversos organismos, permitindo que cientistas de todo o mundo colaborem e comparem dados para avanços na pesquisa científica. C Porque o GenBank só armazena sequências de DNA de bactérias, limitando o estudo de organismos mais complexos. D Porque as sequências de DNA no GenBank são acessíveis apenas para cientistas do NCBI, restringindo a troca de informações. E Porque o GenBank armazena apenas informações sobre genes de resistência a antibióticos, determinantes para o desenvolvimento de novos medicamentos. A alternativa B está correta. O GenBank oferece acesso gratuito a sequências de DNA de diversos organismos, permitindo que cientistas de todo o mundo colaborem, compartilhem informações e avancem em pesquisas científicas nas áreas de genética, evolução, biotecnologia e desenvolvimento de medicamentos. Bancos e ferramentas: RefSeq e Blast RefSeq e BLAST: sequências de referência e comparação Confira neste vídeo o RefSeq, banco de dados curado para identificar variantes do SARS-CoV-2, e o BLAST, ferramenta do NCBI para comparar sequências. Além disso, veja exemplos práticos de sua aplicação científica. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. RefSeq Banco de dados do NCBI reúne sequências de DNA, RNA (transcritos) e proteínas de diferentes organismos. É chamado de banco de dados referência porque contém informações mais organizadas, revisadas e sem repetições desnecessárias (não redundantes). Isso significa que, em vez de armazenar várias versões de uma mesma sequência enviadas por diferentes cientistas, o RefSeq mantém apenas uma versão bem anotada e confiável. O acesso é livre, permitindo que pesquisadores do mundo inteiro utilizem essas informações para estudar genes, comparar organismos e desenvolver novos tratamentos e tecnologias. É muito utilizado em genética, biotecnologia e bioinformática. O RefSeq utiliza sequências genômicas previamente depositadas no GenBank, mas com um diferencial: a equipe do NCBI e seus colaboradores realizam uma curadoria contínua para garantir que essas sequências sejam não redundantes (sem cópias repetidas) e bem anotadas (com informações corretas sobre a localização e a função dos genes). Considerando isso, veja a seguir um registro no RefSeq, destacando a organização das informações sobre uma proteína específica e a curadoria realizada para garantir a qualidade dos dados. Exemplo de registro no RefSeq, mostrando a anotação de uma proteína associada à família Rhizobiaceae. Isso significa que, enquanto o GenBank aceita qualquer sequência enviada por cientistas, o RefSeq seleciona e organiza os dados, oferecendo versões mais confiáveis para pesquisas. Dessa forma, torna-se referência para quem precisa de informações genéticas precisas e padronizadas. Os dados contidos no RefSeq fornecem uma referência confiável para identificação e caracterização de genes, análise de mutações e polimorfismos, estudos de expressão gênica e anotação de genomas. Na pandemia da covid-19, uma das grandes preocupações era o surgimento de novas variantes do vírus SARS- CoV-2. Variantes são amostras da mesma espécie, mas que apresentam pequenas mudanças na ordem de bases nitrogenadas (A, T, G e C) do material genético em relação às primeiras cepas sequenciadas desse vírus. Mudanças no material genético podem conferir ao vírus maior capacidade de disseminação, aumentar a chance de provocar doença ou até provocar sintomas mais graves no doente. Por isso, laboratórios que sequenciam o genoma do vírus SARS-CoV-2 devem também identificar se a amostra analisada corresponde a uma variante. Isso ocorre quando o profissional compara a sequência de bases obtida com uma sequência de referência. Já pensou onde podemos encontrar essa sequência referência? No RefSeq. Principais variantes do vírus SARS-CoV-2 e suas regiões de origem. Exemplo O RefSeq disponibiliza a sequência de nucleotídeos de uma amostra de SARS-CoV-2 isolada em Wuhan, China, onde a pandemia começou. Os dados dessa amostra são confiáveis e foram utilizados em um artigo publicado na revista Nature, que relata a emergência da covid-19 (Wu et al., 2020). Blast Ferramenta disponível no portal do NCBI, permite comparar sequências biológicas, como DNA, RNA ou proteínas, com outras armazenadas em bancos de dados. Funciona como um buscador genético, ajudando os cientistas a encontrar semelhanças entre sequências. Por exemplo, se você tem uma sequência de um gene desconhecido e quer saber se já foi estudado antes, basta usar o BLAST para compará-lo com sequências conhecidas no GenBank ou RefSeq.O programa analisa os dados e fornece dois resultados principais: Porcentagem de similaridade Indica o quanto sua sequência se parece com outras já registradas. Valor estatístico (e-value) Mostra a confiabilidade da comparação, ou seja, se a similaridade encontrada pode ter ocorrido por acaso ou se é realmente significativa. O BLAST é muito usado em estudos de genética, evolução, biotecnologia e até no diagnóstico de doenças, ajudando pesquisadores a identificar genes, proteínas e até novas espécies. Em bioinformática, essa comparação entre sequências é chamada de alinhamento. Vamos estudar com detalhes os vários tipos de alinhamento de sequências possíveis nos próximos tópicos, mas, por agora, focaremos a aplicação do BLAST no portal do NCBI. Agora que você já sabe o que o BLAST é capaz de fazer, o próximo passo é entender como ele pode ser aplicado no portal do NCBI. Esse programa foi criado por Stephen Altschul e colaboradores, em 1990, e hoje é usado em vários bancos de dados que armazenam sequências biológicas. Tela de configuração do BLAST. Ao acessar o BLAST pelo portal do NCBI, você pode comparar uma sequência de nucleotídeos ou aminoácidos de seu interesse com todas as milhões de sequências armazenadas nos bancos de dados do NCBI. Como resultado, você vai obter uma lista com as sequências do banco mais similares à sua. Essa informação pode ser usada para descobrir sequências evolutivamente próximas, que tenham funções relacionadas ou que pertençam a uma mesma família de genes. Agora, vamos fazer uma analogia à função do BLAST no NCBI. Imagine que você esteja voltando do trabalho no ônibus exclusivo da empresa. De repente, começa uma chuva muito forte, mas você não trouxe guarda-chuva. Uma pessoa do seu lado tem um reserva e lhe empresta, mas, na correria, você saltou do ônibus e esqueceu de perguntar o nome da pessoa, e precisará devolver o guarda-chuva. Uma forma de encontrar essa pessoa é descrevendo suas características físicas ao motorista do ônibus naquele dia. Pode ser que ele não saiba exatamente quem é, afinal, o fluxo de pessoas na empresa é muito grande, mas o motorista poderia lhe dar uma lista com nomes de prováveis donos. Resumindo As pessoas que usam o transporte da empresa representam as sequências nos bancos de dados do NCBI, enquanto as características físicas descritas ao motorista correspondem às regiões de similaridade identificadas pelo BLAST. Assim, a lista de nomes fornecida pelo motorista equivale ao conjunto de sequências resultante da busca, ajudando a identificar quais delas mais se assemelham à sequência consultada. Atividade 3 Ferramentas e bancos de dados em bioinformática são importantes elementos da análise de informações biológicas. Qual é a principal vantagem de utilizar o BLAST para a comparação de sequências biológicas? A Geração de novas sequências evolutivamente distintas. B Identificação de sequências com maior taxa de mutação. C Organização de sequências biológicas em bancos de dados exclusivos. D Criação de novas variantes genéticas em laboratório. E Descoberta de sequências similares e suas possíveis funções. A alternativa E está correta. O BLAST permite comparar sequências biológicas com milhões de outras armazenadas em bancos de dados. Identifica sequências similares e fornece informações relevantes sobre funções relacionadas ou conexões evolutivas, facilitando a pesquisa e o avanço do conhecimento. Pesquisa e recuperação de dados Entenda neste vídeo as ferramentas do NCBI para pesquisa biomédica e genética. Aprenda a buscar no PubMed, aplicar filtros e explorar o GenBank e RefSeq. Veja também como usar o BLAST para comparar sequências biológicas. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. A ferramenta BLAST é uma das formas de acessar os dados armazenados em alguns bancos do NCBI. Agora, serão exploradas essa e outras alternativas, com foco na aplicação prática da bioinformática. Imagine um pesquisador que acaba de ingressar em um laboratório de pesquisa sobre bactérias resistentes a antibióticos. Para se aprofundar no tema, ele precisa ler artigos científicos, e uma das melhores fontes disponíveis é o banco de dados PubMed. Acessando o PubMed Entre no pubmed.ncbi.nlm.nih.gov/ e confira esta imagem: Insira as palavras-chave Digite termos em inglês relacionados ao tema. Inicie a pesquisa Clique em Search para buscar os dados da pesquisa. Após a busca, será possível observar o número total de artigos recuperados sobre o tema, bem como o período de publicação desses artigos em anos. Uma busca realizada em 20 de fevereiro de 2025, utilizando as palavras-chave bacteria, resistance e antimicrobial, resultou em 256.068 artigos publicados entre 1945 e 2025. A quantidade de resultados encontrados costuma ser alta, tornando inviável a leitura de toda a bibliografia. Uma solução para reduzir esse número na busca inicial do PubMed é aplicar filtros para restringir os resultados. Na mesma página que mostra o resultado da busca, é possível observar, do lado esquerdo, os filtros de pesquisa no PubMed; dentre eles, está disponibilidade do texto, tipo de artigo e ano de publicação. No caso do exemplo que estamos seguindo, ao filtrar a busca por textos completos e gratuitos (free full text), o número de resultados diminui para 114,927. Isso acontece porque alguns artigos do PubMed são liberados para leitura integral apenas mediante pagamento. Uma busca ainda mais específica pode ser realizada ao clicarmos em Advanced (avançado), na página inicial do PubMed. Dessa forma, é possível especificar as palavras-chave por campo de pesquisa. Para compreender melhor, veja o passo a passo a seguir. Selecionar o campo de pesquisa Escolha o campo de pesquisa em Add terms to the query box (Adicione termos à caixa de consulta), por exemplo, Title (Título). Inserir palavras-chave Na caixa à frente, digite as palavras-chave. Adicionar termos Clique em Add. Neste campo, é possível adicionar várias especificações de uma vez. Realizar busca Após adicionar os termos desejados, clique em Search. Outros campos de pesquisa disponíveis incluem autor, data e nome da revista. Em um teste no qual especificamos que as três palavras-chave do exemplo deveriam aparecer no título do artigo simultaneamente, o resultado da busca avançada foi de 31.004 artigos (na data da pesquisa), um número bem menor em comparação aos resultados das buscas anteriores. Atenção As palavras-chave devem ser traduzidas para o inglês porque a maioria dos textos científicos são publicados nesse idioma. Após cada busca, uma lista de títulos de artigos é disponibilizada. Esses títulos aparecem na cor azul e são hiperlinks. Se o texto estiver disponível de forma integral, nessa segunda página haverá um novo hiperlink para a revista na qual o artigo foi publicado (full text link). Os próximos bancos que vamos explorar serão GenBank e RefSeq. Como ambos armazenam sequências, a forma de busca é semelhante. Podemos utilizar como ferramentas a busca textual ou a busca através do BLAST. Hiperlinks Links que conectam a página atual a outra com mais informações sobre o artigo. Busca textual É uma forma simples de encontrar informações em bancos de dados usando palavras-chave. Quando você digita um termo na ferramenta de busca, o sistema o procura nas descrições das sequências armazenadas. Exemplo Se você está estudando bactérias resistentes a antibióticos e descobre que algumas produzem uma enzima chamada KPC (Klebsiella pneumoniae carbapenemase), pode pesquisar essa palavra no banco de dados para encontrar a sequência do gene responsável por produzir essa enzima. Essa ferramenta localiza rapidamente genes ou proteínas relacionadas a um tema específico, ajudando na pesquisa e no desenvolvimento de novos tratamentos contra bactérias resistentes. Para realizar a consulta nesses dois bancos, siga estes passos: Acesse o GenBank ou RefSeq pelo ncbi.nlm.nih.gov/genban. Digite a palavra-chaverelacionada à sequência de interesse. 1. 2. Clique no botão Search para iniciar a pesquisa. Considerando isso, acompanhe o exemplo a seguir. Conteúdo interativo Acesse a versão digital para ver mais detalhes da imagem abaixo. A palavra-chave de interesse pode ser o nome do gene ou a espécie, por exemplo. Como resultado da busca, você vai encontrar uma lista de descritores de sequências depositadas no banco que contenham sua palavra- chave. Quem define o descritor da sequência é a pessoa que submeteu os dados ao NCBI. Exemplo Se você pesquisar KPC no banco de dados, um dos resultados pode ser: “Escherichia coli strain E02162 plasmid pE02162_KPC, complete sequence”. Isso significa que foi encontrada uma sequência completa de um plasmídeo (pequeno pedaço de DNA que carrega genes de resistência) presente na bactéria Escherichia coli, e que contém o gene KPC, responsável pela produção da enzima que torna essa bactéria resistente a antibióticos. Esses descritores aparecem na cor azul e são hiperlinks, ou seja, ligam aquela página em que você está à página em que estão mais informações sobre aquela determinada sequência. Nessa nova página, é possível saber o tamanho da sequência em pares de bases, quem foi o autor da submissão, se ela foi publicada em algum artigo, entre outras informações. 3. O dado mais importante é a sequência em si, que possui download liberado, tanto para GenBank quanto para RefSeq. A partir deste ponto, devemos realizar três etapas. Confira! Enviar o arquivo Para fazer o envio do arquivo clique em Send to. Selecionar e definir o formato Aqui, selecione File e defina o formato desejado. Criar o arquivo Agora, clique em Create File para criar arquivo. A maioria dos programas desenvolvidos por bioinformatas para trabalhar com dados de sequências de nucleotídeos ou sequências de aminoácidos consegue ler o formato FASTA. Esse formato é baseado em texto para representar tanto sequências de nucleotídeos quanto sequências de aminoácidos usando códigos de uma única letra. É um dos formatos mais utilizados para armazenar e compartilhar sequências de DNA, RNA ou proteínas. Por ser baseado em texto, pode ser aberto em qualquer editor de texto simples. A estrutura de um arquivo FASTA segue duas regras principais: Primeira linha Começa com o símbolo > e contém uma descrição da sequência. Linhas seguintes Trazem a sequência propriamente dita, representada por letras: Para DNA/RNA: A, T, C e G (as bases nitrogenadas). Para proteínas: Um código de uma letra para cada aminoácido (como G para glicina, A para alanina etc.). A seguir, apresentamos um exemplo de como é um arquivo no formato FASTA: >GeneX Escherichia coli ATGCGTACGTAGCTAGT Esse formato é aceito por programas de bioinformática, tornando a análise de sequências mais fácil. Se você precisar baixar uma sequência do GenBank ou RefSeq, o formato FASTA é uma escolha prática e compatível com a maioria dos softwares. • • Representação do formato FASTA. Busca de sequências com o BLAST Outra forma de procurar sequências no GenBank e no RefSeq é usando a ferramenta BLAST. Em vez de pesquisar com palavras-chave, como na busca textual, o BLAST permite buscas usando uma sequência de DNA, RNA ou proteína como referência. Essa sequência inicial é chamada de query (consulta). Como funciona? Para encontrar uma sequência utilizando o BLAST, seguimos este passo a passo: Você fornece a query (uma sequência que deseja comparar). O BLAST pesquisa no banco de dados e encontra sequências similares, chamadas de subject. O programa alinha sua sequência com as do banco e indica quais apresentam regiões altamente parecidas e alta confiabilidade. Isso é útil para descobrir se um gene já foi identificado antes, encontrar organismos com sequências semelhantes e até entender a função de uma sequência desconhecida. Como utilizar o PubMed, GenBank e RefSeq Aprenda neste vídeo a buscar artigos no PubMed utilizando palavras-chave e sequências do GenBank e RefSeq, além de explorar os filtros de resultados e a busca avançada. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 4 Ferramentas como o PubMed, GenBank e RefSeq permitem acesso e análise de dados biológicos e literários, utilizando estratégias de busca específicas que facilitam a recuperação de informações úteis. Qual é a principal vantagem de usar filtros ou busca avançada em bancos de dados como PubMed ou GenBank? 1. 2. 3. A Reduzir o número de resultados irrelevantes e refinar a pesquisa. B Permitir o armazenamento automático de dados no formato FASTA. C Estabelecer conexões diretas com autores das sequências. D Garantir acesso gratuito a todos os artigos ou sequências disponíveis. E Facilitar o compartilhamento imediato de dados com outras plataformas. A alternativa A está correta. O uso de filtros e busca avançada em bancos de dados delimita a pesquisa, tornando-a mais específica e eficiente. Ao restringir a partir de critérios como palavras-chave, tipo de documento ou disponibilidade de texto completo, é possível reduzir a quantidade de resultados irrelevantes e concentrar-se nos dados mais úteis para o objetivo do pesquisador. Fala, mestre! Neste vídeo, Lice Ornelas aborda a construção de primers e o alinhamento de sequências, focando o SARS- CoV-2 e a covid-19. Ele explica a estrutura do vírus, a importância da RT-PCR para diagnósticos e como desenhar primers específicos para o gene S do vírus usando o Primer-BLAST do NCBI, destacando critérios como tamanho e conteúdo de GC. Assista! Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Neste vídeo, Lícia Ornelas fala sobre anotação gênica e o uso do BLAST. A atividade utiliza ferramentas como Dinmark S e BLAST do NCBI para predizer genes e funções de proteínas. A metodologia envolve acessar o GenBank, baixar a sequência do SARS-CoV-2 e comparar proteínas semelhantes. O objetivo é entender a diferença entre predição gênica e anotação funcional, algo essencial para o estudo de vírus, vacinas e terapias. Confira! Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Aplicando o conhecimento Maria é estudante de biomedicina e está iniciando seu trabalho de conclusão de curso (TCC) sobre bactérias resistentes a antibióticos. Durante sua pesquisa inicial, ela descobre que uma das principais causas de resistência está associada a enzimas que degradam os antibióticos, como a KPC (Klebsiella pneumoniae carbapenemase). Para entender melhor essa relação, Maria decide buscar artigos científicos e sequências genéticas relacionadas à KPC. Estudante fazendo pesquisa no computador. Maria acessa o PubMed pelo portal do NCBI e insere as palavras-chave bacteria, resistance, e KPC na busca. Ela encontra 25.000 mil artigos, um número muito alto para revisar. Para refinar os resultados, Maria aplica filtros, selecionando apenas textos completos gratuitos e restringindo o período de publicação para os últimos cinco anos. Com isso, o número de resultados reduziu para 5.000 mil artigos. Após explorar os títulos e resumos, ela encontra um artigo relevante que descreve os mecanismos de resistência associados à KPC. Agora que Maria entende melhor os aspectos gerais da resistência, ela decide investigar a sequência genética da KPC. Para isso, acessa o GenBank pelo portal do NCBI, insere KPC como palavra-chave na busca e encontra a sequência completa do gene em uma cepa de Escherichia coli. Maria opta por baixar a sequência no formato FASTA, ideal para análises computacionais. Por fim, ela utiliza a ferramenta BLAST para comparar a sequência da KPC com outras disponíveis no banco de dados. O BLAST retorna uma lista de genes similares em diferentes espécies bacterianas, ajudando Maria a entender a distribuição evolutiva da resistência. Com esses passos, Maria organiza dados relevantes para seu TCC, compreendendo o impacto das ferramentas do NCBI no avanço da bioinformática. Após a leitura do caso, é horade aplicar seus conhecimentos! Questão 1 Qual a principal razão para Maria utilizar filtros no PubMed durante sua busca de literatura? A Garantir que todos os artigos sejam de autores reconhecidos. B Reduzir a quantidade de artigos irrelevantes para o seu tema de pesquisa. C Restringir a busca apenas a artigos publicados em revistas específicas. D Evitar artigos que contenham erros científicos. E Garantir que apenas artigos revisados por pares sejam exibidos. A alternativa B está correta. Maria utilizou filtros no PubMed para tornar a busca mais eficiente, restringindo os resultados a artigos gratuitos e publicados nos últimos cinco anos, o que reduziu bastante o número de artigos irrelevantes. Isso facilita a revisão bibliográfica e o foco na literatura mais atual e específica para o tema. Alternativas como A e C não correspondem ao uso funcional de filtros no PubMed, enquanto D e E não refletem o papel principal dos filtros, pois o PubMed já é uma base confiável e com revisão por pares. Questão 2 Explique como o uso do GenBank e do formato FASTA pode ajudar Maria a organizar e analisar a sequência genética da KPC. Chave de resposta O GenBank permite a Maria acessar sequências genéticas confiáveis enviadas por outros pesquisadores, como a do gene KPC, o que facilita o estudo da resistência bacteriana. Ao baixar a sequência no formato FASTA, Maria utiliza um padrão amplamente aceito para análises computacionais, simplificando a integração com programas bioinformáticos que processam e analisam essas sequências. Isso agiliza o alinhamento e a identificação de similaridades com outras sequências, contribuindo para o entendimento da evolução e dispersão da resistência bacteriana. Questão 3 Como o BLAST pode complementar a análise de Maria e quais são as implicações práticas de encontrar genes similares em outras espécies bacterianas? Chave de resposta O BLAST complementa a análise de Maria ao comparar a sequência KPC com um vasto banco de dados, identificando genes similares em outras espécies bacterianas. Isso auxilia a entender como a resistência pode ser compartilhada entre diferentes organismos, bem como a identificar padrões de evolução e transferência gênica. As implicações práticas incluem o desenvolvimento de estratégias para conter a disseminação da resistência, como a criação de novos antibióticos ou métodos de diagnóstico mais precisos para variantes bacterianas resistentes. Agora, vamos conferir este caso prático que envolve a utilização do PubMed para pesquisa científica, a consulta de sequências no GenBank e a aplicação do BLAST na análise de resistência bacteriana. Assista ao vídeo! Conteúdo interativo Acesse a versão digital para assistir ao vídeo. 2. Alinhamentos de sequências Análise e alinhamento de sequências biológicas Entenda neste vídeo como o alinhamento de sequências auxilia na identificação de variações, estudos evolutivos e previsão de funções proteicas. Aprenda sobre identidade entre nucleotídeos e aminoácidos na comparação de DNA. Veja também a importância dos pares de bases e a escala do genoma humano. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Os bancos de dados de DNA, RNA e proteínas armazenam milhões de sequências já estudadas por cientistas. Essas sequências são extremamente valiosas porque permitem: Descobrir variações dentro de uma mesma espécie Por exemplo, identificar mutações em bactérias que as tornam mais resistentes a antibióticos. Entender relações evolutivas entre espécies Ao comparar o DNA de diferentes organismos, podemos saber quais estão mais próximos na árvore da vida. Prever a função de novas proteínas Se uma proteína recém-descoberta for parecida com outra já conhecida, podemos sugerir qual pode ser sua função no organismo. Para fazer essas descobertas, os cientistas utilizam um processo chamado alinhamento de sequências, que compara diferentes sequências de DNA, RNA ou proteínas para encontrar semelhanças e padrões importantes. Ferramentas como o BLAST possibilitam esse processo, tornando a análise mais rápida e eficiente. O objetivo de um alinhamento é encontrar o maior número de resíduos similares ou idênticos entre sequências biológicas primárias. No alinhamento de sequências, os elementos que compõem o DNA ou as proteínas são comparados posição por posição. Veja! DNA Aqui os resíduos são os nucleotídeos (A, T, C, G). Proteínas Aqui os resíduos são os aminoácidos, representados por letras como A, R, G, L, entre outros. Dessa forma, quando duas sequências são alinhadas, diferentes situações podem ocorrer: Se houver igualdade, os resíduos aparecem um embaixo do outro. Se houver diferença, vemos nucleotídeos ou aminoácidos distintos na mesma posição. Se houver um buraco (gap), significa que um resíduo foi perdido ou inserido em uma das sequências ao longo da evolução. Quando comparamos as sequências ATGGC e AAGGC, estamos analisando quantas posições têm nucleotídeos iguais e quantas são diferentes. Acompanhe! 1 Alinhamento das sequências ATGGC AAGGC 2 Análise de identidade As letras alinhadas A-T-G-G-C e A-A-G-G-C têm 4 nucleotídeos iguais (A, G, G, C) e apenas 1 nucleotídeo diferente (T ≠ A). 3 Cálculo da identidade A identidade da sequência é (4 iguais / 5 totais) × 100 = 80%. Esse tipo de análise é importante para entender o grau de semelhança entre sequências, o que pode indicar relações evolutivas ou mutações que alteram a função de um gene. Em bioinformática, nos referimos às letras que representam os nucleotídeos na sequência de DNA como bases. Isso acontece porque o que difere um nucleotídeo do outro na molécula de DNA é sua base nitrogenada. Agora, se vamos nos referir ao comprimento de uma sequência de DNA, a medida usada são pares de bases (pb). Falamos em pares, pois o DNA é uma molécula de fita dupla. Curiosidade Podemos dizer que o genoma humano (todo o conteúdo de DNA de uma célula humana) é formado por mais de 3,2 bilhões de pares de bases. • • • • • Atividade 1 O alinhamento de sequências biológicas é uma ferramenta significativa na genética, especialmente na análise de sequências de DNA, RNA e proteínas. Qual é o principal objetivo do alinhamento de sequências biológicas? A Determinar a estrutura tridimensional de proteínas. B Substituir nucleotídeos divergentes em uma sequência. C Estimar o comprimento total de um genoma. D Identificar o maior número de resíduos similares ou idênticos entre sequências. E Medir a taxa de mutação de uma sequência ao longo do tempo. A alternativa D está correta. O alinhamento de sequências biológicas tem como principal objetivo encontrar resíduos semelhantes ou idênticos entre duas ou mais sequências. Esse processo identifica relações evolutivas, variações genéticas e funções biológicas de moléculas. Outros aspectos, como a determinação de estruturas tridimensionais, medições de comprimento genômico ou taxas de mutação, não são o foco direto do alinhamento de sequências. Da mesma forma, o alinhamento não está relacionado à modificação ou substituição de nucleotídeos, mas sim à análise comparativa das sequências. Tipos de aplicações do alinhamento Aprenda, neste vídeo, os tipos de alinhamento de sequências e suas aplicações. Entenda as diferenças entre alinhamentos globais, locais, ótimos e heurísticos. Veja também como alinhamentos simples e múltiplos auxiliam na identificação de domínios proteicos e na construção de árvores filogenéticas. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Muitos programas de computador já foram e vêm sendo desenvolvidos com a função de realizar o alinhamento de sequências. O objetivo geral é o mesmo, mas existem diferenças entre eles que precisamos saber, pois isso ajuda na escolha da melhor opção para cada análise. Essas diferenças estão relacionadas à exigência ao encontrar o melhor pareamento possível, à extensão que será alinhada e ao número de sequências alinhadas. Precisão do alinhamento O objetivo dos programasde alinhamento de sequências é encontrar o melhor pareamento possível, aquele que reflita o maior número de similaridade entre as sequências comparadas. No entanto, o alinhamento perfeito leva tempo e poder computacional para ser alcançado. Por isso, algumas ferramentas optam por acelerar o processo e buscam por uma aproximação do alinhamento ideal. Usando esse critério, o programa de alinhamento pode ser do tipo ótimo ou do tipo heurístico. Um software de alinhamento ótimo encontra a melhor correspondência possível entre duas ou mais sequências, seguindo critérios específicos. Isso significa que, se você repetir a análise, o resultado sempre será o mesmo, pois já foi encontrada a melhor solução disponível. No entanto, o alinhamento perfeito pode ser inviável em alguns casos, especialmente quando lidamos com muitas sequências ou sequências muito longas. Isso acontece porque o número de comparações cresce de forma exponencial, exigindo computadores muito potentes e muito tempo de processamento. Para contornar essa limitação, muitos programas utilizam métodos aproximados que reduzem o tempo de análise, mantendo uma boa precisão nos resultados. Ferramentas como o BLAST são um exemplo, pois encontram alinhamentos rápidos e confiáveis, mesmo que nem sempre sejam os ótimos. Para acelerar a comparação de sequências, utilizamos programas de alinhamento heurístico. Esses programas funcionam como atalhos inteligentes, pois não testam todas as combinações possíveis, embora consigam encontrar um resultado muito próximo do ideal. A principal vantagem do alinhamento heurístico é a velocidade: ele reduz drasticamente o tempo necessário para a análise, possibilitando comparar grandes quantidades de sequências sem precisar de supercomputadores. Compare os seguintes métodos: Representação do processo de alinhamento de sequências genéticas. Alinhamento ótimo Proporciona o melhor resultado possível, mas pode ser muito demorado e pesado computacionalmente. Alinhamento heurístico Faz uma aproximação rápida do melhor resultado, garantindo eficiência sem perder muita qualidade. Ferramentas como o BLAST usam esse método heurístico para comparar sequências de forma prática e eficiente. A escolha entre ótimo ou heurístico depende do equilíbrio entre precisão e tempo disponível para a análise. Extensão alinhada Existem duas formas de alinhar sequências biológicas com base em sua extensão: alinhamentos globais e locais. Entenda a diferença a seguir. As sequências curtas conservadas entre diferentes proteínas são chamadas de domínios. Veja! Representação da comparação entre o alinhamento global e local. A partir disso, observe uma ilustração com a aplicabilidade prática que demonstra a diferença entre os alinhamentos global e local, destacando em quais situações cada um deve ser utilizado. Exemplo de alinhamento local para descobrir a função de uma proteína Imagine descobrir uma nova espécie de planta na Floresta Amazônica, que produz determinada proteína em grande quantidade. Para entender sua possível função, você decide compará-la com proteínas cujas funções já são conhecidas. Acompanhe os passos a seguir. Comparação com sequências conhecidas Você tem um alinhamento global, comparando a proteína inteira com outras, mas não encontra uma sequência semelhante. Então, utiliza um alinhamento local, que analisa pequenos trechos da proteína em comparação com partes de outras proteínas já estudadas. Alinhamento global Compara resíduos ao longo de toda a sequência, de ponta a ponta. É indicado quando as sequências são similares em todo o seu comprimento. Se a comparação for entre o mesmo gene em organismos da mesma espécie, pequenas diferenças podem surgir por mutações pontuais. Nesse caso, o alinhamento global é recomendado. Alinhamento local Prioriza as regiões mais similares, sem considerar o comprimento total da sequência. É útil quando as sequências são diferentes ou têm tamanhos distintos. Imagine uma sequência de proteína recém- obtida. Por ser nova, ela pode não ser semelhante em toda a sua extensão a sequências de um banco de dados. Por isso, o alinhamento local é usado para encontrar pequenas regiões parecidas, que correspondem a padrões de funções conhecidas como blocos. Identificação de regiões conservadas Você descobre que um trecho da sua proteína é muito parecido com uma região rica em leucina, conhecida por estar presente em proteínas envolvidas na imunidade inata. Conclusão Mesmo sem encontrar uma proteína idêntica, essa semelhança parcial já sugere que sua proteína pode ter um papel na defesa da planta contra patógenos. Esse tipo de análise é muito usado na bioinformática para prever a função de proteínas desconhecidas, ajudando na descoberta de novos mecanismos biológicos. Número de sequências Quanto ao número de sequências alinhadas, os alinhamentos podem ser simples ou múltiplos. Vamos conhecê-los! Alinhamento simples Também conhecido como par a par ou pairwise, é quando apenas duas sequências são comparadas. Essa é a estratégia de alinhamento usada em bancos de dados de sequências biológicas, por exemplo. O programa de busca por alinhamento implementado em um banco de dados vai realizar o pareamento entre a sequência-pergunta de interesse do usuário com as sequências que estão no banco. O número de alinhamentos simples que será feito é proporcional ao número de sequências armazenadas no banco de dados, sempre par a par: sequência-pergunta + sequência do banco. Ao alinhar uma sequência contra um banco de dados, geralmente encontramos várias sequências similares. No final, podemos obter um grupo de sequências bem parecidas e é possível converter os vários alinhamentos simples em um único alinhamento com todas elas. Alinhamento múltiplo É a comparação de três ou mais sequências relacionadas para obter a correspondência ideal entre elas. O resultado desse alinhamento permite a identificação de regiões que sejam conservadas entre todas as sequências. Também é possível visualizarmos quais as diferenças na ordem dos resíduos, que correspondem a mudanças evolutivas ocorridas ao longo dos anos. É a partir desse tipo de alinhamento que a relação evolutiva entre os organismos pode ser sugerida, e assim são geradas as árvores filogenéticas (parecidas com uma árvore genealógica). Representação da árvore filogenética do micoplasma (bactérias da classe dos Mollicutes). Na árvore filogenética, os galhos são as distâncias entre os organismos, as ramificações são os ancestrais e as pontas os descendentes comparados. Atividade 2 Alinhamentos de sequências biológicas comparam e interpretam dados genéticos, permitindo análises detalhadas de similaridades, diferenças e relações evolutivas entre moléculas e organismos. Qual fator deve ser considerado ao escolher entre alinhamento global e local para análise de sequências biológicas? A O comprimento total do genoma das espécies analisadas. B A similaridade esperada ao longo de toda a extensão das sequências. C A presença de domínios evolutivamente conservados em proteínas. D O número de sequências disponíveis no banco de dados. E A complexidade do algoritmo usado pelo programa de alinhamento. A alternativa B está correta. A escolha entre alinhamento global e local depende da expectativa de similaridade ao longo das sequências comparadas. O alinhamento global é utilizado quando há alta similaridade em toda a extensão das sequências, enquanto o alinhamento local é ideal para identificar regiões específicas similares em sequências que podem ser divergentes ou de tamanhos diferentes. Fatores como a presença de domínios, o número de sequências no banco de dados ou a complexidade do algoritmo não são determinantes diretos para essa escolha. Programas para alinhamento de sequência Conheça no vídeo os fundamentos do alinhamento de sequências e o funcionamento do BLAST. Entenda suas variações, aplicações e a importância do e-value na confiabilidade dos resultados. Veja também um exemplo prático do BLASTx na identificaçãode proteínas. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Antes de darmos exemplos reais de softwares usados para o alinhamento de sequências, precisamos definir alguns termos usados para explicar o funcionamento dessas ferramentas. Observe um alinhamento simples entre duas sequências de nucleotídeos e acompanhe as definições. Representação do alinhamento simples de sequências de nucleotídeos. A imagem destaca algumas nomenclaturas, vamos entender o que cada uma delas representa. 1 Match É a posição no alinhamento em que o resíduo é o mesmo entre as sequências comparadas. Podemos dizer que essas são posições conservadas. 2 Mismatch É a posição no alinhamento em que o resíduo é diferente entre as sequências comparadas. Nesses casos, ocorreu uma mutação por substituição de nucleotídeo em uma das sequências. 3 Gap É um espaço em uma das sequências comparadas, causado pelo deslocamento de resíduos dela em relação à outra sequência. É inserido pelo programa para melhorar o alinhamento e encontrar mais similaridades. Esses espaços representam deleções ou inserções que as sequências comparadas possam ter sofrido. 4 Pontuação (score) É o total do somatório de matches subtraídos do número de mismatches e gaps ao longo do alinhamento. Cada alinhamento possui uma pontuação. Basic Local Alignment Search Tool – BLAST O BLAST é o programa de alinhamento de sequências mais amplamente utilizado. Ele se caracteriza por realizar alinhamento simples, local e heurístico. Isso quer dizer que ele sempre vai comparar as sequências duas a duas, buscando por regiões similares entre elas, e o resultado vai ser próximo ao ideal. Como funciona a busca no BLAST? Veja como as pesquisas são realizadas nessa ferramenta. Inserção da sequência É necessário inserir uma sequência, chamada de query (pergunta), para iniciar o processo. Exemplo: MRDPYNKLI. Divisão em palavras O BLAST dividirá essa sequência em pequenos trechos, chamados de palavras, como MRD, PYN e KLI. Busca no banco de dados O programa vai procurar no banco de dados sequências que contenham pelo menos uma dessas palavras. Semente (Seed) Quando encontrar uma correspondência, essa parte da sequência será chamada de semente (seed). Expansão do alinhamento O BLAST então expandirá o alinhamento a partir da semente, tentando encontrar uma região maior de semelhança. Visto isso, o BLAST não compara sequência por sequência de forma exata, mas encontra pequenos trechos iguais e expande o alinhamento, acelerando a busca. Assim, é possível encontrar sequências parecidas e biologicamente relevantes de maneira muito mais fácil. Veja este exemplo: Representação do procedimento de alinhamento pelo programa BLAST. O BLAST é considerado heurístico, porque ele não compara cada resíduo das sequências entre si. Em vez disso, cria uma lista de palavras curtas e a partir delas realiza o alinhamento, o que diminui o número de comparações e acelera a obtenção do resultado. A velocidade do resultado do BLAST permite que seja viável usá-lo para buscar por sequências similares em bancos enormes, com milhões de sequências. Como saber se o resultado do BLAST é confiável? O BLAST não oferece um alinhamento perfeito, mas sim métricas importantes que ajudam a avaliar a relevância e a qualidade dos resultados. Para que os resultados sejam significativos, é preciso considerar os principais indicadores de qualidade do alinhamento, que fornecem informações sobre a confiabilidade das comparações realizadas. São eles: Porcentagem de identidade Mostra quantos nucleotídeos ou aminoácidos são iguais entre as sequências comparadas. Quanto maior, melhor. E-value (valor de expectativa) Indica a chance de o alinhamento ter ocorrido por acaso. E-value (valor de expectativa) É uma métrica usada em programas de alinhamento de sequências, como o BLAST, para avaliar a significância dos resultados de uma busca. Ele oferece uma estimativa de quantas vezes um resultado semelhante ao que foi encontrado pode ocorrer por acaso em um banco de dados de tamanho determinado. Quanto menor o e-value, mais confiável é o alinhamento. Se for muito alto, significa que a semelhança pode ter sido apenas coincidência. Um e-value próximo de zero indica que a correspondência entre as sequências é estatisticamente significativa. Portanto, o e-value ajuda a diferenciar resultados reais de coincidências aleatórias. Quando analisamos os resultados do BLAST, devemos procurar alta identidade + baixo e-value para assegurar que a sequência realmente tenha uma relação biológica relevante. Mas qual é o valor ideal? 0 valor ideal é o mais próximo possível de zero. De forma geral, se o valor de e-value é menor que 1 x , esse é um alinhamento extremamente confiável. Quando o valor está entre , esse alinhamento pode ser confiável. Porém, se o valor estiver entre e 10, então você está olhando para um alinhamento sem significância. O melhor valor de e-value, o mais significativo estatisticamente, que você pode obter em um alinhamento BLAST é 0,0. Relembrando Quando um número está escrito na forma 10 elevado a um número negativo, isso significa que devemos mover a vírgula para a esquerda. Podemos visualizar de forma mais clara no exemplo a seguir: 1 × 10⁻² → Mova a vírgula duas casas para a esquerda → 0,015 × 10⁻³ → Mova a vírgula três casas para a esquerda → 0,0052,3 × 10⁻⁴ → Mova a vírgula quatro casas para a esquerda → 0,00023 Essa notação é muito usada em ciência, especialmente para representar valores muito pequenos, como o e-value no BLAST. Quanto menor o número (mais negativo o expoente), mais significativo é o resultado. Variantes do BLAST e exemplo de uso O BLAST não é um único programa, mas sim uma família de ferramentas, cada uma projetada para comparar diferentes tipos de sequências biológicas. A escolha da versão correta depende do que você deseja pesquisar. Vamos lá! BLASTn Compara DNA com DNA. • • • BLASTp Compara proteína com proteína. BLASTx Utiliza DNA como entrada, mas primeiro o traduz para proteína e depois compara no banco de proteínas. tBLASTn Utiliza proteína como entrada e compara com um banco de DNA traduzido. tBLASTx Traduz tanto a query (DNA) quanto o banco (DNA) e compara proteínas teóricas. Exemplo prático Um pesquisador sequenciou o DNA de uma bactéria e encontrou um gene novo. Ele queria saber qual proteína esse gene produz e sua sequência de aminoácidos. Solução O pesquisador utilizou o BLASTx, que traduz a sequência de DNA para proteína antes de compará-la com um banco de proteínas conhecidas. Tela de configuração do software BLAST. O BLAST encontrou uma proteína chamada BasR, presente na Escherichia coli. A análise revelou um alto grau de similaridade entre a sequência teórica e a encontrada no banco de dados. Acompanhe! Identidade A correspondência entre a proteína traduzida e a do banco foi de 99%, indicando que elas são praticamente idênticas. Tela de configuração do BLAST: Resultados organizados por e-value, destacando os alinhamentos mais confiáveis. E-value O valor obtido foi 2 × 10⁻¹⁴⁵, extremamente baixo, confirmando que o alinhamento não ocorreu por acaso e é altamente confiável. Tela de configuração do BLAST: Exibição do alinhamento local. Gaps Nenhum gap foi identificado, pois não houve necessidade de inserir espaços para melhorar o alinhamento. Curiosidade Quando alinhamos proteínas, pode haver diferenças na sequência, mas os aminoácidos podem ter funções químicas parecidas, tornando o alinhamento ainda válido. Esse é o conceito de positividade, que às vezes é maior que a identidade. No caso do exemplo, identidade e positividade foram iguais (99%), mostrando um alinhamento perfeito. Alinhamento de sequências com a ferramenta BLAST Confira neste vídeo o processo de alinhamento de sequências a partir do banco de dados do NCBI e do uso da ferramente BLAST. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Atividade 3 O BLAST é uma ferramenta de alinhamentode sequências biológicas que fornece resultados próximos ao ideal, com base em critérios como identidade, positividade e valor estatístico (e-value). Qual fator determina a confiabilidade estatística de um alinhamento gerado pelo BLAST? A O número de gaps presentes no alinhamento. B A positividade entre as sequências comparadas. C A similaridade química dos resíduos alinhados. D O valor de e-value obtido no alinhamento. E A quantidade de palavras analisadas na sequência query. A alternativa D está correta. O e-value é o principal indicador de confiabilidade estatística em alinhamentos realizados pelo BLAST. Representa a probabilidade de o alinhamento ocorrer ao acaso. Quanto menor o e-value, mais confiável é o alinhamento, sendo valores próximos de zero os ideais. Outros fatores, como a positividade e os gaps, fornecem dados complementares, mas não determinam diretamente a significância estatística. A quantidade de palavras analisadas está relacionada à eficiência computacional, mas não à confiabilidade dos resultados. Clustal Clustal: alinhamento múltiplo e global de sequências Aprenda no vídeo como o Clustal realiza alinhamentos múltiplos e globais de sequências biológicas. Veja sua aplicação na identificação de regiões conservadas e relações evolutivas. Além disso, entenda as diferenças entre Clustal e BLAST em precisão, extensão e número de sequências alinhadas. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. É um programa utilizado para alinhar simultaneamente três ou mais sequências biológicas (DNA, RNA ou proteínas). Suas principais características são: Alinhamento múltiplo Compara três ou mais sequências ao mesmo tempo. Alinhamento global As sequências são comparadas ao longo de toda a sua extensão. Método heurístico Usa uma abordagem aproximada para acelerar o processo, já que um alinhamento perfeito seria muito demorado. O Clustal é ideal quando queremos comparar sequências relacionadas evolutivamente e de tamanhos semelhantes, como: Identificar padrões de conservação genética entre espécies. Construir árvores filogenéticas para entender relações evolutivas. Comparar proteínas similares para prever funções biológicas. Se você precisa alinhar múltiplas sequências ao mesmo tempo, o Clustal é uma ferramenta eficiente para analisar semelhanças evolutivas e padrões conservados dentro de grupos de genes ou proteínas. Como podemos utilizar o Clustal? O Clustal é uma ferramenta ideal para comparar a sequência de aminoácidos da proteína histona entre diferentes espécies, como homem, chimpanzé, camundongo, rato e vaca. Por que a histona? A histona é a principal proteína que compõe o nucleossomo, estrutura que organiza o DNA dentro das células eucarióticas. Como sua função é a mesma em todas essas espécies, sua sequência de aminoácidos deve ser muito parecida, com apenas pequenas diferenças ao longo da evolução. Por que utilizar o Clustal? Existem diversas versões do Clustal, com destaque para o ClustalW e o Clustal Omega, que são as mais conhecidas. Essas versões têm como característica a capacidade de alinhar múltiplas sequências ao mesmo tempo, gerando resultados que podem ser usados para construir árvores filogenéticas e explorar a evolução molecular. Alinhamento global Compara toda a extensão da proteína, pois esperamos uma sequência altamente conservada. Alinhamento múltiplo Permite comparar cinco espécies ao mesmo tempo, facilitando a visualização de semelhanças e pequenas variações. O que podemos descobrir? Com o Clustal, podemos descobrir informações sobre a evolução, as funções biológicas, as mutações genéticas e as interações proteicas, assim como: Regiões altamente conservadas, ou seja, aminoácidos que não mudaram ao longo da evolução. Pequenas variações que ocorreram devido a diferentes trajetórias evolutivas de cada espécie . • • • • • Padrões evolutivos, ajudando a entender como as proteínas se adaptam e mantêm sua função ao longo do tempo. O alinhamento múltiplo realizado pelo Clustal começa a ser feito a partir de vários alinhamentos simples, para todos os pares possíveis entre as sequências comparadas. Entenda melhor como funciona esse processo. Representação do procedimento do alinhamento feito pelo programa Clustal. O Clustal e outras ferramentas de alinhamento múltiplo são aplicadas quando queremos responder a perguntas do tipo: Qual a região conservada entre as proteínas que são receptores celulares? Quem é mais próximo evolutivamente quando eu comparo homem, chimpanzé e orangotango? Qual seria o alvo ideal de um primer de PCR (Reação em cadeia da polimerase) para detectar o mesmo gene em diferentes espécies? Como resposta, você poderia encontrar que uma região rica em aminoácidos hidrofóbicos está presente em todas as sequências de proteínas receptoras que você alinhou, o que faz sentido, já que elas precisam atravessar a membrana plasmática para se firmar. Comparando a sequência de nucleotídeos do RNA ribossômico de homem, chimpanzé e orangotango, você poderia verificar que a sequência do chimpanzé é mais similar à humana, e, portanto, o orangotango seria o mais antigo evolutivamente. Agora, a última pergunta será respondida quando estudarmos os primers. A seguir, apresentamos uma tabela comparativa dos principais programas de alinhamento que estudamos. • • • • Programa Precisão Extensão alinhada Número de sequências BLAST Heurístico Local Simples Clustal Heurístico Global Múltiplo Tabela: Principais programas de alinhamento de sequência e suas características. Melise Chaves Silveira Atividade 4 O Clustal e o BLAST são ambos programas amplamente usados na bioinformática para realizar alinhamentos de sequências biológicas, mas eles têm propósitos e abordagens diferentes. Qual cenário é mais adequado para o uso do programa Clustal em comparação ao BLAST? A Analisar rapidamente regiões específicas de similaridade entre sequências curtas. B Comparar a sequência de um gene com um banco de dados para identificar funções. C Determinar relações evolutivas entre espécies utilizando múltiplas sequências globais. D Realizar buscas rápidas por correspondências em grandes bancos de dados. E Identificar mutações pontuais em um gene específico de uma única espécie. A alternativa C está correta. O Clustal é ideal para alinhamentos globais e múltiplos, sendo usado para comparar várias sequências ao longo de toda a sua extensão, como na determinação de relações evolutivas ou na identificação de regiões conservadas. Já o BLAST, por ser heurístico e local, é mais indicado para buscas rápidas em bancos de dados e alinhamentos simples. Situações que envolvem análises pontuais ou comparações simples são mais apropriadas para ferramentas como o BLAST, enquanto o Clustal é projetado para explorar semelhanças globais entre várias sequências evolutivamente relacionadas. Aplicando o conhecimento João está desenvolvendo um projeto de iniciação científica sobre proteínas relacionadas à imunidade inata em diferentes espécies. Ele quer entender como a sequência de aminoácidos de uma proteína específica, rica em leucina, está conservada entre seres humanos, chimpanzés, orangotangos e camundongos. Seu objetivo é verificar se essa proteína desempenha funções semelhantes nessas espécies e identificar diferenças evolutivas. Jovem em laboratório analisando dados no computador. João decide usar o Clustal, programa que permite realizar alinhamentos múltiplos e globais. Essa abordagem é ideal para comparar a sequência completa da proteína entre várias espécies e observar similaridades e diferenças ao longo de toda a extensão. Ele busca no GenBank as sequências de aminoácidos correspondentes à proteína de interesse em humanos, chimpanzés, orangotangos e camundongos. Após reunir as sequências no formato FASTA, ele as insere no Clustal para realizar o alinhamento. O alinhamento revela que a sequência da proteína é altamente conservada entre humanos e chimpanzés, apresentando 98% deidentidade. Em orangotangos, a identidade é de 95%, enquanto em camundongos cai para 80%. João observa que as diferenças estão concentradas em regiões específicas, enquanto outras permanecem completamente conservadas. Essas regiões conservadas provavelmente correspondem a domínios funcionais essenciais, como a interação com receptores celulares. Com base no alinhamento, João conclui que humanos e chimpanzés têm maior proximidade evolutiva, enquanto camundongos, pertencentes a outra ordem de mamíferos, apresentam maior divergência. Ele sugere que as regiões conservadas podem ser usadas para desenvolver primers a fim de detectar o gene dessa proteína em outras espécies (um ponto a ser explorado em estudos futuros). Esse exercício permitiu a João compreender a importância de ferramentas de alinhamento múltiplo como o Clustal na análise de relações evolutivas e conservação de sequências biológicas. Após a leitura do caso, é hora de aplicar seus conhecimentos! Questão 1 No estudo de João, a ferramenta Clustal foi escolhida para realizar o alinhamento das sequências de aminoácidos. Com base nas características do Clustal, qual seria o maior benefício do uso dessa ferramenta no contexto do projeto de João? A Alcançar resultados perfeitos e alinhamentos ideais mesmo com grande quantidade de sequências. B Permitir o alinhamento de sequências com diferentes comprimentos, independentemente de relação evolutiva. C Identificar exclusivamente mutações pontuais em proteínas divergentes. D Realizar alinhamento local e detectar apenas domínios de proteínas curtas. E Comparar múltiplas sequências de proteínas ao longo de toda a sua extensão de forma aproximada. A alternativa E está correta. A escolha pelo Clustal foi baseada na sua capacidade de realizar alinhamentos múltiplos e globais, permitindo a análise completa das sequências de proteínas em diferentes espécies, uma característica necessária para estudar similaridades ao longo de toda a extensão da proteína. A alternativa A está incorreta porque o Clustal utiliza um método heurístico, não garantindo resultados perfeitos. A alternativa C é imprecisa, pois o foco do Clustal não são exclusivamente mutações pontuais. Já a alternativa D descreve alinhamentos locais, o que não se aplica ao Clustal. A alternativa B também está incorreta, pois o Clustal é mais eficiente para sequências com comprimento semelhante. Questão 2 Por que João escolheu realizar um alinhamento global em vez de local para analisar a sequência da proteína rica em leucina entre diferentes espécies? Explique a diferença entre esses dois tipos de alinhamento e sua relação com os objetivos do estudo. Chave de resposta João escolheu o alinhamento global porque pretendia analisar a sequência completa da proteína em diferentes espécies para observar similaridades e diferenças ao longo de toda a extensão. O alinhamento global é adequado quando as sequências têm comprimentos semelhantes e são evolutivamente relacionadas, pois ele compara as sequências de ponta a ponta. Já o alinhamento local é indicado quando se deseja encontrar regiões específicas de maior similaridade em sequências divergentes ou de diferentes tamanhos. No caso de João, o alinhamento global permitiu identificar regiões conservadas importantes para a função da proteína, atendendo ao objetivo do estudo de avaliar relações evolutivas. Questão 3 Quais conclusões João pode tirar sobre a evolução das espécies analisadas a partir dos resultados do alinhamento e como isso contribui para a biologia evolutiva? Chave de resposta A partir do alinhamento, João concluiu que humanos e chimpanzés têm maior proximidade evolutiva, com 98% de identidade na sequência da proteína, enquanto camundongos apresentam maior divergência (80%). Esses dados indicam que humanos e chimpanzés compartilham um ancestral comum mais recente em comparação aos camundongos. As regiões conservadas da proteína sugerem importantes funções mantidas ao longo da evolução, enquanto as diferenças refletem adaptações específicas de cada espécie. Essa análise revela padrões de conservação e diversificação molecular, ajudando a compreender como processos da biologia evolutiva moldaram características funcionais nas espécies. Veja agora como o Clustal foi usado para analisar a conservação de uma proteína entre espécies, obtendo sequências no GenBank, realizando alinhamentos múltiplos e destacando regiões conservadas para desenvolver primers em pesquisas futuras. Assista ao vídeo! Conteúdo interativo Acesse a versão digital para assistir ao vídeo. 3. Os primers Primers: definições e aplicações Primers e alinhamento múltiplo: identificando regiões conservadas Entenda no vídeo como o Clustal auxilia na identificação de regiões conservadas no gene RNAr 16S em bactérias. Veja seu uso no design de primers para PCR e amplificação de sequências específicas. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Uma das utilidades do alinhamento múltiplo de sequências é encontrar trechos que são iguais ou muito parecidos em diferentes organismos. Isso permite identificar regiões conservadas em genes, ou seja, partes que permaneceram quase inalteradas ao longo da evolução. Exemplo Todas as bactérias contam com um gene chamado RNAr 16S, que faz parte do RNA ribossômico e atua na produção de proteínas. Com o tempo, esse gene sofreu algumas mudanças em diferentes espécies bacterianas, embora certas partes tenham continuado iguais ou muito semelhantes. Se quisermos descobrir quais partes desse gene não mudaram entre várias espécies de bactérias, podemos usar o programa Clustal, que compara as sequências e alinha os trechos semelhantes. Esse tipo de análise é muito útil para desenvolver primers, pequenos pedaços de DNA usados em técnicas como a PCR (reação em cadeia da polimerase), para identificar e amplificar genes específicos. Representação de parte do alinhamento múltiplo e global do gene RNAr 16S de bactérias. Depois de escolher uma parte do DNA que queremos estudar, podemos detectá-la e copiá-la usando a PCR. Essa reação funciona como uma fotocopiadora molecular, fazendo várias cópias de uma região específica do DNA. Isso é muito relevante em pesquisas, testes genéticos e até em exames para identificar vírus e bactérias. Para que a PCR aconteça, precisamos de alguns ingredientes: DNA molde É o DNA extraído da amostra, que contém a sequência que queremos amplificar. Primers São pequenos pedaços de DNA que se ligam à região-alvo e mostram à enzima onde começar a cópia. DNA polimerase É a enzima que lê o DNA molde e constrói novas cópias da sequência desejada. Os primers atuam como marcadores, ligando-se às extremidades da região do DNA que será copiada. Assim, o DNA polimerase sabe exatamente onde começar e terminar a amplificação. Em uma PCR convencional, dois primers são utilizados, ligando-se em posições diferentes, que cercam a região alvo. Representação do pareamento de um par de a uma região alvo no DNA molde. Suponha que a região de interesse seja aquela conservada no gene RNAr 16S de diferentes espécies bacterianas. Essa parte do DNA pode ser utilizada para desenvolver primers capazes de detectar bactérias presentes em diferentes tipos de amostras, como solo, água e fezes. Já sabemos que a sequência de nucleotídeos dos primers deve ser complementar ao local que queremos que eles se liguem. Se na região alvo existe a sequência CCGCC, para que um primer se ligue a ela, sua sequência deve ser GGCGG. Na imagem a seguir, observa-se uma região parcialmente conservada entre as posições 890 e 1000 (indicadas pelas setas vermelhas). Nessa região, o asterisco indica que a base é a mesma em todas as sequências comparadas nessa posição. Representação do alinhamento múltiplo das sequências do gene RNAr 16S de diversas espécies bacterianas. Atividade 1 Para obter sucesso na amplificação de DNA, é preciso escolher primers complementares em uma PCR. Como essa escolha influencia os resultados de uma análise genética?