Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioinformática Aula 5: Métodos de sequenciamento de DNA Apresentação Nesta aula, abordaremos o sequenciamento de DNA e identi�caremos suas principais características. Enfatizaremos a determinação da ordem exata em que os nucleotídeos se encontram ao longo da dupla �ta e conheceremos as estratégias desenvolvidas, além da importância dessa técnica para o avanço da Bioinformática. Objetivos Esclarecer o princípio de sequenciamento de Sanger; Examinar a relação entre as novas técnicas e o avanço da Bioinformática; Discutir sobre os sequenciadores de 1ª a 4ª geração. A estrutura do DNA A partir da descoberta da estrutura do DNA, importantes avanços levaram à compreensão da complexidade e diversidade dos genomas. Os primeiros métodos de sequenciamento direto do DNA só foram criados na década de 1970. Os conhecimentos existentes sobre a organização do gene e genoma eram baseados principalmente em estudos de genética reversa, na qual a sequência de aminoácidos do produto do gene de interesse é retro-traduzida em uma sequência de nucleotídeos com base nos códons apropriados. Considerando a característica degenerada do código genético, este processo pode ser complicado e os resultados não corresponderem à realidade. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Os dois primeiros métodos de sequenciamento de DNA foram os de Maxam- Gilbert, conhecido como método de clivagem química e o método de terminação de cadeia de Sanger, tendo este último dominado os trabalhos até meados dos anos 2000. Projetos de sequenciamento, incluindo principalmente o Projeto Genoma Humano, propiciaram o desenvolvimento de soluções tecnológicas mais avançadas tanto para a geração dos dados quanto para a análise destes. qimono (Fonte: Pixabay). Estes avanços ajudaram a responder aos novos questionamentos que surgiram, mas as principais barreiras, que eram a produção limitada e os altos custos de sequenciamento, permaneciam. O lançamento da primeira plataforma de sequenciamento de alto rendimento (eg. high throughput), o Roche 454, em meados da década de 2000, propiciou uma redução de 50.000 vezes no custo do sequenciamento. A nova geração de sequenciadores de DNA (NGS) continuou a evoluir e aumentou a capacidade por um fator de 100-1.000. Embora seja um grande avanço na forma de se analisar genomas, essas novas abordagens têm suas limitações. À medida que novas tecnologias surgiram, os problemas existentes foram exacerbados ou apareceram novos. As novas plataformas, apesar de fornecer grandes quantidades de dados, possuem taxas de erro associadas mais elevadas. Além disso, as leituras são geralmente mais curtas do que o do tradicional sequenciamento de Sanger, exigindo exame mais cuidadoso dos resultados. Cabe salientar que, devido ao grande número de sequências gerado, a tecnologia de processamento dos dados também teve que evoluir, incluindo a capacidade computacional associada e software. Em princípio, o conceito subjacente a essa tecnologia se assemelha ao mecanismo de eletroforese através de capilares, onde as bases de um pequeno fragmento de DNA podem ser identi�cadas sequencialmente a partir de sinais emitidos. No entanto, os métodos mais modernos ao invés de se limitarem a analisar pequenos fragmentos de DNA, passaram a avaliar milhões deles em uma única corrida. Com isso, esse avanço tecnológico permitiu que fosse realizado um sequenciamento mais e�ciente, com uma maior cobertura incluindo genomas inteiros através de uma única reação. É importante destacar que o método de terminação em cadeia não deixou de ser utilizado, mas está caindo em desuso com o passar dos anos. O sequenciamento genômico é uma técnica que permite identi�car, na ordem correta, a sequência de nucleotídeos de uma molécula de DNA ou RNA, visando conhecer a informação genética contida nesta estrutura. As metodologias responsáveis por tal façanha fornecem, para cada uma das bases determinadas, uma informação referente a sua qualidade (con�abilidade). Desde o desenvolvimento das primeiras metodologias de sequenciamento (no �nal da década de 1970) até as tecnologias atuais, denominadas de Sequenciamento de Nova Geração (New Generation Sequencing— NGS), passamos da escala de sequenciamento manual de poucos kilobases para o sequenciamento maciço e paralelo de genomas inteiros e em curto período de tempo. Nesta aula, discutiremos algumas das metodologias de sequenciamento mais utilizadas, focando em seus princípios, peculiaridades, aplicações, vantagens e desvantagens. Além disto, serão apresentadas, sucintamente, tecnologias ainda em desenvolvimento, classi�cadas como de terceira geração. De forma geral, o sequenciamento é feito a partir de moléculas de DNA advindas diretamente do DNA genômico (aquele que contém a maior parte da informação genética dos organismos) ou de outras moléculas de DNA celular como: DNA mitocondrial, DNA cloroplastídico, DNA plasmidial, dentre outros. PublicDomainPictures (Fonte: Unsplash). Metodologias de sequenciamento em pequena escala Entre 1800 e 1900, as proteínas foram consideradas as moléculas mais importantes dentre os constituintes celulares. No entanto, a primeira sequência proteica só foi sequenciada em 1953. Neste mesmo ano, Watson e Crick propuseram o modelo de dupla hélice do DNA, iniciando uma nova era no estudo do DNA. Apesar dos avanços, era muito difícil até o começo da década de 1970, obter a sequência de nucleotídeos de um fragmento de DNA, por menor que fosse. Este problema foi resolvido com o surgimento em 1977 de duas tecnologias: Uma, desenvolvida por Allan Maxam e Walter Gilbert (baseada em hidrólise química), e outra por Frederick Sanger e cols. (baseada em reações enzimáticas), que permitiram determinar a sequência de nucleotídeos de fragmentos maiores de DNA. Segundo Sanger et al. (1977), metodologias revolucionaram as pesquisas cientí�cas e se difundiram rapidamente pelo mundo, sendo a base da Genômica. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Sequenciamento químico de Maxam-Gilbert Após divulgada, esta metodologia foi amplamente utilizada por proporcionar a obtenção da sequência de nucleotídeos de fragmentos maiores de DNA. geralt (Fonte: Unsplash). Após divulgada, esta metodologia foi amplamente utilizada por proporcionar a obtenção da sequência de nucleotídeos de fragmentos maiores de DNA. Sequenciando genomas 29 A técnica desenvolvida por eles utiliza marcação do DNA alvo a ser sequenciado com fósforo radioativo (P32). O P32 é inicialmente ligado ao dATP formando P32-dATP, que é incorporado pela enzima polinucleotídeo quinase ao DNA a ser sequenciado. Tal incorporação pode ser tanto na extremidade 5’ quanto na extremidade 3’, �cando a critério do executor da técnica. Neste método, o rompimento das pontes de hidrogênio da �ta dupla de DNA ocorre pela adição de dimetilsulfato e aquecimento a 90ºC. O princípio básico desta técnica consiste na clivagem do DNA alvo marcado, através da utilização de compostos químicos, em posições especí�cas (antes dos “G”s, antes de “A” ou “G”, antes de “C” ou “T” e antes dos “C”s). A posição a ser quebrada depende do composto químico que é adicionado, num só tipo, a um dos quatro tubos contendo o DNA molde a ser sequenciado. Como resultado, tem-se após a fragmentação um conjunto de fragmentos de diferentes tamanhos em cada um dos quatro tubos. As bandas geradas após a corrida destes fragmentos em gel de poliacrilamida podem ser visualizadas após a impressão de uma chapa radiográ�ca. A determinação da sequência de nucleotídeos é obtida lendo-se de baixo para cima, um a um, os nucleotídeos representados pelas bandas do gel. Por gopixa (Fonte: Shutterstock). Método de Sanger A técnica de sequenciamento desenvolvida por Sanger utiliza marcação radioativa, marcando os fragmentos de DNA sintetizados a partir da �ta molde. A síntese de novos fragmentos de DNA a partir da �ta molde só foi possível graças ao desenvolvimento da técnica de PCR (reação em cadeia da polimerase),que consiste na síntese in vitro de uma �ta de DNA complementar a um DNA molde, utilizando os seguintes componentes básicos da replicação celular: Cópias do DNA molde que deverá ser sequenciado,apresentando relativo grau de pureza. Enzima DNA polimerase capaz de produzir cópiasrelativamente �éis do DNA molde. Um DNA iniciador (primer) que propicia o início da extensãopela DNA polimerase. Os desoxinucleotídeos que são as unidades básicas para a construção da �ta complementar ao DNA molde. São eles: dATP, dCTP, dGTP e dTTP. Solução tampão, contendo o cofator magnésio (Mg), necessário para que a enzima DNA polimerase desempenhe sua atividade. Por �m, é necessária ainda a presença de didesoxinucleotídeos (ddATP, ddCTP, ddGTP e ddTTP), que atuam como terminadores da síntese de DNA. A chance dos desoxi ou didesoxinucleotídeos serem incorporados numa determinada posição da cadeia de DNA nascente é a mesma, uma vez que a DNA polimerase não consegue distinguir estes dois nucleotídeos pelo fato da diferença entre eles ser apenas a ausência do grupo OH na posição 3´. No entanto, esta diferença é su�ciente para bloquear a síntese da cadeia de DNA nascente. A explicação é simples: Se um desoxinucleotídeo (que é o substrato normal da DNA polimerase) é adicionado, a síntese da cadeia de DNA continua, pois haverá, após sua incorporação na molécula de DNA nascente, a presença de uma hidroxila livre na posição 3´, onde deverá ser ligado o próximo desoxinucleotídeo. Por outro lado, se um didesoxinucleotídeo for adicionado à cadeia nascente de DNA, a síntese da mesma será interrompida neste ponto, pois a ausência do grupo OH na posição 3’ impede a entrada de um novo nucleotídeo (por isso este método é também conhecido como terminador de cadeia ou didesoxi). geralt (Fonte: Shutterstock). O princípio da técnica consiste em marcar radioativamente alguns dos desoxinucleotídeos livres em solução ou o primeiro desoxinucleotídeo do primer com P32 ou S35. Após incorporação na cadeia de DNA nascente, estes átomos marcados emitem radiação que é utilizada para impressão de uma chapa radiográ�ca, permitindo, dessa forma, visualizar os fragmentos resultantes da ampli�cação. A técnica se desenvolve da seguinte maneira: Primeiro, o DNA �ta dupla é desnaturado e utilizado para montar quatro reações independentes contendo os mesmos reagentes, com exceção dos didesoxinucleotídeos, que são adicionados separadamente (um determinado tipo em cada reação). Após um determinado tempo de reação, considerando que nada dirige a entrada de desoxi ou didesoxinucleotídeos na cadeia de DNA nascente e que os mesmos são colocados em excesso na reação, será produzido um conjunto de fragmentos complementar ao DNA molde com tamanhos variados, sendo o tamanho de cada fragmento dependente da posição onde o didesoxinucleotídeo terminador foi adicionado. Se pensarmos que existem na mistura muitas moléculas do mesmo DNA molde, compreenderemos que todas as posições do DNA molde, em algum momento, terão um dNTP, ora um ddNTP complementar. Assim, teremos amplicons (produto da PCR) terminando em diferentes posições do DNA molde. O produto heterogêneo de cada uma das quatro reações é aplicado em canaletas diferentes do gel que, frequentemente, têm a poliacrilamida como matriz. Devido ao alto poder de resolução (separação dos fragmentos) deste gel, é possível separar e visualizar fragmentos que diferem entre si por apenas um nucleotídeo. As bandas produzidas são visualizadas numa chapa radiográ�ca após sua impressão. Assim, como no método anterior, a análise da ordem das bandas na chapa radiográ�ca começa pelo �nal do gel, permitindo determinar a sequência de nucleotídeos da �ta de DNA recém-sintetizada. Esta técnica permitiu inicialmente separar de 200 a 300 nucleotídeos por corrida, sendo considerada uma revolução na época em que foi descoberta. Aprimoramento do método de Sanger Método semiautomatizado A ciência não para e está sempre buscando novas descobertas, que na maioria das vezes surgem para melhorar a vida de todos nós. Não foi diferente com a metodologia de sequenciamento proposta por Sanger. Classi�cada como manual por não utilizar o computador em nenhuma de suas etapas, esta metodologia foi aperfeiçoada originando o método semiautomatizado, que é a base de muitas metodologias de sequenciamento atuais. A ideia de automatizar o sequenciamento foi proposta por Lloyd M.Smith, Mike Hunkapiller e Tim Hunkapiller na universidade privada do estado da Califórnia. O princípio do método proposto por Sanger permaneceu o mesmo. No entanto, a técnica foi aprimorada �cando mais simples, rápida e segura por não utilizar compostos radioativos prejudiciais à saúde humana. Mas, que mudança foi esta que trouxe tantas melhorias à técnica, fazendo com que dominasse as três décadas seguintes? A principal modi�cação foi a adição aos didesoxinucleotídeos, de corantes capazes de emitir �uorescência quando excitados em comprimento de onda especí�co. No início, Smith mostrou-se pessimista quanto à exequibilidade do método, temendo que a quantidade de corantes adicionados aos didesoxinucleotídeos fosse insu�ciente para ser detectada pelo computador. No entanto, este problema foi rapidamente resolvido pela utilização de corantes especiais, que emitem luz ao serem atravessados por um feixe de raios laser. O método aprimorado utiliza �uoróforos diferentes para cada um dos quatro tipos de didesoxinucleotídeos que, ao serem excitados, emitem luz característica do didesoxinucleotídeo incorporado. Utilizaremos aqui o mesmo raciocínio apresentado no método inicial de Sanger: Se pensarmos que existem na reação muitas moléculas do mesmo DNA molde, compreenderemos que todas as posições deste DNA terão, em algum momento, ora um dNTP, ora um ddNTP incorporado pela DNA polimerase durante a PCR. Assim, teremos amplicons terminando em diferentes posições do DNA molde. Como consequência da incorporação dos didesoxinucleotídeos marcados com �uorescência, as quatro reações passaram a ocorrer num tubo único e seu conteúdo podia agora ser aplicado numa única canaleta do gel. Este fato fez com que o número de amostras analisadas por corrida fosse quatro vezes maior, considerando que no método radioativo eram necessárias quatro canaletas do gel para obter o mesmo resultado que o novo método conseguia em uma canaleta. Por ktsdesign (Fonte: Shutterstock). Método automatizado Nos anos 1990, os géis (de difícil manuseio) foram substituídos por �níssimos capilares preenchidos com gel onde os fragmentos de DNA são separados em altíssima velocidade. Os sequenciadores baseados neste sistema são, aproximadamente, duas vezes mais rápidos do que os semiautomatizados. As amostras são aplicadas através de um sistema de eletroinjeção diretamente nos capilares diminuindo consideravelmente o trabalho do analista. Para termos uma ideia do nível de automação dos sequenciadores de capilares atuais, 15 minutos de intervenção humana a cada 24 horas é su�ciente para produzir aproximadamente meio milhão de pares de bases. Após a eletroinjeção, os fragmentos começam a migrar e encontram, num determinado ponto, um feixe de raios laser que excita os �uoróforos presentes na extremidade 3´ de cada fragmento fazendo com que estes emitam �uorescência característica de um dos quatro tipos de �uoróforos. geralt (Fonte: Shutterstock). Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Um detector registra esta �uorescência e a transmite para um computador que possui um software capaz de converter �uorescência em picos coloridos, sendo utilizada uma única cor para cada um dos quatro tipos de nucleotídeos (verde para adenina, preto para guanina, azul para citosina e vermelho para timina). Este procedimento é efetuado para cada fragmento no gel. No �nal do processo, o software gera um cromatograma que corresponde a sequência de DNA complementar ao DNA molde utilizado. O sequenciador MegaBace® é capaz de sequenciar 96 fragmentos de DNA num intervalode 1 a 3 horas. O sistema continuou sendo aperfeiçoado, sendo possível hoje sequenciar até 384 amostras em uma única corrida. TheDigitalArtist (Fonte: Pixabay). Estratégias de sequenciamento de DNA A técnica de sequenciamento automatizada, descrita anteriormente, permite sequenciar com qualidade aproximadamente 700 nucleotídeos consecutivos de um fragmento. Assim, quando o objetivo é o sequenciamento de genomas, seja de organismos simples como bactérias ou organismos complexos como o homem, torna-se necessário: Picotar o DNA em fragmentos menores, sequenciar os pedacinhos obtidos e depois sobrepô-los em busca do genoma completo. As técnicas de fragmentação são várias, dentre as quais destacamos: Uso de enzimas de restrição de corte frequente, como Alu1, e quebra aleatória por fragmentação mecânica do genoma a ser sequenciado (shotgun). Atividade 1. A Bioinformática é considerada uma extensão da Biologia Computacional e consiste na utilização de métodos voltados ao estudo do genoma e, atualmente, pode ser dividida em três subáreas, que são: Escolha uma: a) Desenvolvimento de novos algoritmos, análise e interpretação de vários tipos de dados e desenvolvimento e implementação de ferramentas. b) Desenvolvimento de genes, análise e interpretação de caracteres e desenvolvimento e implementação de dados estatísticos. c) Desenvolvimento de softwares, máquinas e sistemas operacionais. d) Desenvolvimento de novos anagramas, análise e interpretação de um dado apenas e desenvolvimento e implementação de caracteres. e) Manipulação genética, desenvolvimento de bioprodutos e cultura de tecidos. 2. Faça uma breve de�nição da Bioinformática destacando sua importância para as diversas áreas da ciência. 3. Várias ferramentas desenvolvidas pela Bioinformática permitem o acesso e análise dos dados no GenBank. A ferramenta mais popular de comparação de sequências de DNA com os bancos de dados genômicos é o BLAST ou Basic Local Alignment Search Tool. Caracterize a ferramenta BLAST. Notas Referências FAKRUDDIN, M. D.; CHOWDHURY, A.; HOSSAIN, M. D. N.; MANNAN, K. S. B.; MUZAMDAR, R. M. Pyrosequencing— Principles and Applications. In: International Journal of Life Science and Pharma Research, v. 2, p. L.65-75, 2012. Disponível em: http://www.ijlpr.com/admin/php/uploads/67_pdf.pdf . PEIXOTO, B. M. Classi�cação de sequência e análise de diversidade em Metagenômica. 2013 Tese (mestrado em Ciência da Computação) — Instituto de Computação, Universidade Estadual de Campinas/UNICAMP, Campinas, 2013. Disponível em: http://repositorio.unicamp.br/bitstream/REPOSIP/275639/1/Peixoto_BrunoMalveira_M.pdf javascript:void(0); javascript:void(0); PROSDOCIMI, F. et al. Bioinformática: Manual do usuário. In: Biotecnologia Ciência e Desenvolvimento, Brasília, v. 29, p. 12- 25, 2003. Próxima aula As ômicas. Explore mais Leia o texto: Sequenciamento do DNA e suas aplicações javascript:void(0); Bioinformática Aula 6: As ômicas Apresentação As tecnologias denominadas ômicas vêm ganhando força e são relativamente recentes. A genômica estuda o genoma completo dos organismos, ou seja, estabelece toda a sequência de nucleotídeos presentes no DNA, além de analisar e comparar com outros organismos com o objetivo de compreender seu funcionamento e regulação. Embora a genômica tenha sido revolucionária e disruptiva, não conseguia responder todos os questionamentos dos pesquisadores. Diante disso, logo nasceram outras ciências ômicas, como transcriptômica, proteômica, metabolômica e a lipidômica. Os nomes e signi�cados são bem parecidos, mas cada uma delas estuda um nível de componentes moleculares. As ciências ômicas possibilitam analisar uma enorme quantidade de alterações genéticas, proteínas e metabólitos ao mesmo tempo, sendo, portanto, instrumentos poderosos na compreensão do organismo de forma ampla. As análises derivadas das técnicas ômicas podem ser aplicáveis em diversas áreas, como saúde, agricultura e pecuária. O que são as ômicas e suas aplicações é o que abordaremos nesta aula. Objetivo Esclarecer o que são as ômicas; Discutir a evolução do estudo cientí�co. Funcionamento da estrutura do DNA Desde a descoberta da estrutura do DNA pelos cientistas James Watson e Francis Crick, em 1953, vários grupos de pesquisa no mundo todo tentam compreender seu funcionamento e o modo como as informações genéticas são armazenadas e reguladas. Os estudos em busca desses objetivos tiveram início em 1990, por ocasião da criação do Projeto Genoma Humano, cujo intuito era determinar toda a sequência de nucleotídeos do DNA humano e identi�car seus genes. Ao mesmo tempo, outros projetos de sequenciamento de genomas foram iniciados e incluíam organismos muito usados em pesquisas cientí�cas, como Arabdopsis thaliana (planta mais presente nos estudos vegetais), Drosophila melanogaster (mosca-das-frutas), a bactéria Escherichia coli e o camundongo (Mus musculus). O termo genômica foi empregado pela primeira vez ainda em 1987 e, atualmente, as tecnologias denominadas ômicas vêm ganhando destaque, tanto em função da quantidade de dados obtidos e analisados, como em relação às suas áreas de aplicação. O termo ômica deriva do su�xo -oma que signi�ca conjunto de. E você deve ter várias perguntas sobre assunto, não é? A esta altura, você deve estar se perguntando: Tudo bem, mas o que signi�ca cada ômica? Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online A primeira delas, a genômica, caracteriza-se pelo estudo dos genes e suas funções. Sua chegada impulsionou uma verdadeira revolução no campo da Biologia. Não à toa, diversas expectativas e investimentos foram e continuam sendo empregados nesta área, objetivando aplicações nos campos da indústria farmacêutica, agricultura, meio ambiente, saúde, entre outros. A genômica pode ser: Estrutural Objetiva a caracterização da natureza física dos genomas completos. Funcional Busca caracterizar a função biológica dos genes. Embora revolucionária, a genômica não é capaz de responder todos os questionamentos dos pesquisadores, porque a determinação da sequência completa de um genoma (ou de vários) não permite compreender a complexidade dos mecanismos biológicos. Diante disto, logo nasceram outras ciências ômicas. Mas, antes de irmos para outra ômica, é importante falar um pouco sobre um ramo da genômica, chamado genômica comparativa. Esse campo vem se tornando cada vez mais comum em virtude da grande quantidade de sequências de genomas sendo obtidas, com o objetivo de comparar todo o conteúdo de DNA do genoma de um organismo com outros genomas já conhecidos. Através dessa análise, pode ser possível estabelecer relações funcionais e evolutivas. Saiba mais A metagenômica é uma técnica que permite estudar os genomas de microrganismos de um nicho ecológico sem necessidade de fazer culturas individuais. É uma das aplicações que tem se bene�ciado das melhorias tecnológicas trazidas pelo sequenciamento de DNA de nova geração. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Os objetivos dos projetos de metagenoma (é o genoma coletivo de microbiota total encontrada em um determinado habitat) geralmente incluem identi�car genes funcionais e/ou novas vias metabólicas, estimar a diversidade microbiana, compreender a dinâmica da população de uma comunidade inteira, montar o genoma de um organismo não cultivado e identi�car biomarcadores úteis para classi�car um tipo de processo ocorrido em ambientes especí�cos, como um ambiente poluído, por exemplo. A terceira ômica que iremos abordar é a transcriptômica, que busca determinar os per�s da expressão de todos os genes presentes em um genoma. Diferente do genoma, o transcriptoma é característico de cada tipo de célula, e pode diferir em função de diferentes situações �siológicas ou patológicas. Atenção Várias técnicas podem ser aplicadas para o estudo de transcriptoma, mas a que vem ganhando preferência é a técnica de microarranjosde DNA (DNA microarray), que se baseia na hibridação em paralelo de ácidos nucleicos. A tecnologia de microarranjos de DNA possibilita a avaliação simultânea da expressão de milhares de genes em diferentes tecidos de um determinado organismo, e em diferentes estágios de desenvolvimento ou condições ambientais. Em linhas gerais, para uma análise transcriptômica utilizando microarranjos de DNA, deve-se obter o RNA total puri�cado da amostra biológica. O próximo passo é isolar o RNA mensageiro (mRNA), a partir do RNA total. Isso garantirá que apenas os genes que estão sendo expressos serão identi�cados. O mRNA que foi isolado será usado para a construção de uma biblioteca de DNA complementar (cDNA), ou seja, todos os fragmentos de mRNA obtidos serão submetidos a um processo de transcrição reversa (catalisado pela enzima transcriptase reversa), para a produção de suas respectivas sequências de DNA de origem. Os fragmentos da biblioteca de cDNA são, então, marcados com um �uoróforo (componente de uma molécula que faz com que esta seja �uorescente) e colocados sobre um chip de microarranjos, para que a hibridização aconteça. Saiba mais Importante esclarecer que um chip de microarranjo é uma superfície de plástico, vidro ou silicone que possui uma coleção de pontos microscópicos que apresentam grupos de sequências de DNA de um gene. Esses segmentos de DNA são chamados de sondas. Se um gene da biblioteca de cDNA encontrar uma sequência correspondente no chip, ele irá se hibridizar, fazendo a sonda �car marcada com o �uoróforo. A intensidade luminosa apresentada pelo chip de microarranjo pode, então, ser lida e quanti�cada, sendo que, se uma determinada sequência encontrar vários correspondentes, implicará que esse gene foi expresso muitas vezes e a intensidade do sinal luminoso será maior. O contrário também pode ocorrer, onde uma sequência não encontra um correspondente no chip, não gerando um sinal luminoso. O volume de informações geradas vai depender da quantidade de spots presentes no chip de microarranjos. O NGS (new generation sequencing) possui uma alta sensibilidade, conseguindo veri�car, simultaneamente, a realização da hibridização de mais de 60 mil genes, ampliando, consideravelmente, as possibilidades de determinação de possíveis alterações no momento do processamento dos dados, uma das etapas subsequentes. Independentemente da técnica utilizada para quanti�car mRNAs, a informação fornecida é experimental e não uma condição constante absoluta. Ademais, uma divergência na quantidade de um mRNA especí�co entre duas amostras biológicas não é obrigatoriamente retratada por uma diferença na quantidade no nível da proteína traduzida a partir desse mRNA. Dessa forma, existem limitações intrínsecas relacionadas à transcriptômica, como: a quantidade do mRNA nem sempre é bem correlacionada com a quantidade da proteína; a sensibilidade das técnicas existentes não permite medir com facilidade os mRNAs menos abundantes, os quais podem estar envolvidos na codi�cação de proteínas regulatórias importantes; a função das proteínas codi�cadas pelos mRNAs apresenta vários níveis de regulação após sua tradução. Observe, por exemplo, que a localização e/ou extensão em que as proteínas são modi�cadas pós-tradução não são evidenciadas pela medição da quantidade do mRNA. A proteômica, por sua vez, faz parte das ômicas e é usada para quanti�car a abundância, modi�cação e interação de peptídeos, além de determinar sua localização subcelular. Através do estudo de proteomas é possível determinar: Em contraste com o genoma, o proteoma é extremamente dinâmico, variando de acordo com as condições micro e macroambientais. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Saiba mais As proteínas são biomoléculas responsáveis por diversas funções celulares, sendo capazes de conduzir a expressão de genes, catalisar reações metabólicas, além de fazer parte da estrutura celular. Alterações genéticas que acarretem a falta de algumas proteínas ou irregularidades estruturais (afetando sua função), podem promover doenças ou atuar como marcadores das mesmas, a exemplo da fenilcetonúria (doença causada pela função diminuída ou ausente da enzima fenilalanina hidroxilase) e da anemia falciforme (causada pela substituição do aminoácido ácido glutâmico pelo aminoácido valina, em uma das cadeias de hemoglobina, promovendo uma alteração importante na estrutura terciária da proteína e da forma da hemácia). Podemos inferir como as proteínas são importantes ao observarmos que grande parte dos medicamentos disponíveis no mercado apresentam essas biomoléculas como alvo, como ocorre com os fármacos inibidores da enzima conversora da angiotensina (ECA), usados no tratamento da hipertensão. Dessa forma, o estudo do proteoma, bem como a demonstração da função das proteínas no contexto em que são expressas são de grande importância para o prognóstico e terapia de doenças, por exemplo. Metabolômica Clique no botão acima. Outra ômica que tem sido utilizada na área da genômica funcional é a metabolômica, que estuda as mudanças na expressão de pequenas moléculas orgânicas, conhecidas como metabólitos. Importante lembrar que metabólitos são produtos intermediários ou �nais do metabolismo em uma amostra biológica. Em outras palavras, o metaboloma representa o conjunto de todos os metabólitos em uma célula, �uido biológico, tecido ou organismo, sendo estas substâncias consideradas os produtos �nais dos processos celulares. A metabolômica promete complementar a genômica por possibilitar análises objetivas de um determinado fenótipo. Grande destaque tem sido dado para a associação entre dados de metabolômica, expressão gênica e proteômica. A metabolômica pode auxiliar na demonstração de como genótipos e fenótipos estão associados, além de possibilitar simulações de processos celulares em larga escala. O estudo da quantidade de todos os metabólitos presentes em uma célula pode auxiliar na compreensão de alguns problemas, por exemplo, os efeitos chamados pleiotrópicos, em que um único gene estabelece uma quantidade de características não relacionadas. Várias são as áreas em que a metabolômica tem sido empregada. Na área ambiental, por exemplo, a metabolômica tem sido utilizada para o estudo das respostas metabólicas de organismos a fatores bióticos e abióticos. A aplicação da metabolômica na área ambiental é muito ampla e envolve o estudo de organismos aquáticos, de plantas e de como estes respondem a diferentes formas de estresse e fatores, sejam eles bióticos e/ou abióticos. São encontradas também pesquisas de exposição de organismos a poluentes, estudos de toxicidade aplicados à agricultura, mecanismo de ação de pesticidas, toxicidade e função de metais em sistemas biológicos, biodisponibilidade de contaminantes no solo, biorremediação, entre outros. No campo da clínica, a metabolômica tem possibilitado um aumento no entendimento, em nível molecular, de diversas doenças. Várias são as aplicações clínicas e tem sido crescente o número de estudos relacionados ao tema, principalmente no que diz respeito à identi�cação de biomarcadores e ao desenvolvimento de novas terapias e métodos diagnósticos. Na área oncológica, por exemplo, pesquisas têm revelado modi�cações no metabolismo, contribuindo para o diagnóstico e acompanhamento de doenças, como no caso do câncer de próstata, gástrico, colorretal e de mama. Outra doença crônica que tem sido amplamente estudada é a diabetes tipo 2, cuja incidência tem aumentado ao longo dos anos, requerendo a procura por biomarcadores que possam ser utilizados no diagnóstico precoce dessa patologia. A área clínica também tem se bene�ciado de investigações focadas em doenças cardiovasculares, uma das maiores causas de morte no mundo, e na identi�cação de alterações no metabolismo causadas pela doença de Alzheimer. Entre outrasáreas promissoras, destacam-se trabalhos relacionados à tuberculose, doença celíaca, esclerose múltipla e doenças renais. Com o crescente número de trabalhos na área de alimentos sob a perspectiva das ciências ômicas (transcriptômica, proteômica e metabolômica), e com o objetivo de relacionar os alimentos e seus componentes alimentares, a dieta e o indivíduo, a saúde e as doenças, um novo conceito foi inserido na comunidade cientí�ca, a foodomics, que é de�nida como uma nova abordagem que relaciona as tecnologias ômicas avançadas com a área de alimentos e nutrição, com o intuito de melhorar o bem-estar, a saúde e segurança dos consumidores, integrando pesquisadores de diversas áreas do conhecimento. Atualmente, muitos trabalhos estão sendo publicados sob a visão da metabolômica em Ciência de Alimentos e Nutrição. Estudos sobre evolução, �siologia e bioquímica de organismos estão intimamente relacionados aos sistemas biológicos e, assim, a metabolômica, junto às demais ômicas, tem um papel fundamental no entendimento dos fenômenos biológicos ocorridos na Microbiologia. A metabolômica tem sido aplicada a microrganismos, principalmente em estudos relacionados ao metabolismo da microbiota intestinal e interações organismo- hospedeiro, bem como marcadores de exposição a estresse ou alterações ambientais. Como podemos observar, as áreas de aplicação da metabolômica são múltiplas. Mas, as ômicas não param por aí... Além das que vimos até aqui, uma diversidade de outras ômicas vêm surgindo e uma sobreposição de objetivo é inevitável. Clique nos botões para ver as informações. Objetiva compreender a interação da constituição genética de um indivíduo com a resposta a drogas. É o ramo da Farmacologia que trata da in�uência da variação genética na resposta de fármacos em pacientes, correlacionando a expressão do gene ou polimor�smos de nucleotídeo único com a e�cácia e/ou toxicidade de uma substância. Farmacogenômica Tem o intuito de descrever, quantitativamente, as funções �siológicas de um organismo. Para isto, é necessário predizer as manifestações visíveis ou detectáveis de um genótipo, o que é bastante complexo em função das interferências ambientais e as condições relacionadas ao crescimento e desenvolvimento, incluindo o aparecimento de doenças. A intenção é conseguir entender toda a �siologia de um organismo, abrangendo rotas metabólicas, moléculas envolvidas e suas interações. O Projeto Fisioma �gura como uma das iniciativas pioneiras nessa área, onde seu principal objetivo é compreender o organismo humano por meio da descrição quantitativa da sua �siologia e pato�siologia para o melhoramento da saúde humana, usando até mesmo conhecimentos advindos de �siomas de outros organismos. Fisiômica Estuda as interações bioquímicas (transcritos e proteínas) que fazem a regulação da expressão dos genes. Regulômica Tem como objetivo estudar pequenos peptídeos que apresentam função essencial em diversos processos biológicos, tais como: Hormônios, citocinas, fatores de crescimento etc. Peptidômica Utiliza informações obtidas por outras duas ômicas, a genômica e a proteômica, para identi�cação de proteases e seus respectivos substratos, de forma a favorecer a descoberta de novos alvos para o desenvolvimento de fármacos para o tratamento de doenças. Degradômica Antes de passarmos para a próxima ômica, é importante pontuar o conceito de epigenética. A epigenética é uma área da Biologia que estuda mudanças no funcionamento de um gene que não são promovidas por alterações na sequência de DNA e que se perpetuam nas divisões celulares, meióticas ou mitóticas. Tais mudanças epigenéticas promovem o surgimento de diferentes epigenomas. Mecanismos epigenéticos são responsáveis por vários fenômenos, incluindo o silenciamento aleatório de um dos cromossomos X em cada célula somática normal de mamíferos fêmeas e a impressão genômica, de�nida como a expressão ou repressão de certos genes de acordo com o seu progenitor origem. Desde a segunda metade do século passado, a simples adição de grupos metila ao DNA foi reconhecida como o principal mecanismo epigenético. Logo, foi cogitado que a metilação do DNA poderia estar associada de várias formas à expressão gênica, à estabilidade genômica e às doenças (em particular, a progressão de tumores malignos). A descoberta de enzimas especí�cas da metilação foi importante para corroborar essa hipótese e estabeleceu uma ligação direta entre a metilação do DNA, expressão gênica e mudanças na estrutura da cromatina. O foco agora é entender a função global do gene e investigar a suscetibilidade a doenças comuns. Portanto, mecanismos que afetam a expressão gênica estão na linha de frente das investigações atuais e futuras nesta área. Diante do que foi mencionado, a epigenômica tenta compreender a �exibilidade do genoma, uma característica que confere complexidade aos sistemas biológicos. Atente-se ao fato de que, por mais que as células de um organismo tenham o mesmo genoma, a expressão dos genes pode diferir dependendo de uma dada condição ou momento. Por tudo que foi dito até aqui, é inegável o papel transformador dos projetos genoma sobre a Biologia. Entretanto, o maior progresso se deu por meio do surgimento da Bioinformática e da necessidade dos cientistas se inteirarem em modernas tecnologias de pesquisa. Exemplo Dados biológicos estão sendo produzidos em taxa exponencial. Por exemplo, em junho de 2019, o repositório GenBank continha 213.383.758 sequências de nucleotídeos. Além disso, desde a publicação do genoma de Haemophilus in�uenzae, sequências completas de centenas de organismos foram obtidas, variando entre 450 a mais de 100.000 genes. Adicione a isso dados de uma vasta gama de projetos que estudam expressão gênica, estruturas de proteínas codi�cadas pelos genes, bem como a forma como esses produtos interagem entre si. Podemos imaginar a enorme quantidade e variedade de informações que estão constantemente sendo produzidas. Como resultado desse aumento de dados, os computadores se tornaram indispensáveis à pesquisa biológica. Hoje, é incabível imaginar qualquer avanço na área de Biologia Molecular e Biotecnologia que não envolva a integração das tecnologias de informação e experimental. Um projeto experimental pode ter início a partir de sequências gênicas, sejam conhecidas ou não. Por meio da busca por similaridade, em bancos de dados, conforme será visto na próxima aula, sequências não conhecidas podem ter sua identi�cação e seus papéis preditos. Para este �m, é imprescindível o acesso à versão atualizada do conjunto de dados, em bancos de dados mundiais. O problema é que grande parte dos dados indispensáveis a esta análise encontra- se pulverizada em diversas fontes, o que di�culta a aquisição, por parte dos pesquisadores, de informações necessárias para que ocorra a conversão de dados complexos e divergentes em dados organizados e úteis, de acordo com a linha de pesquisa seguida. Para se ter uma ideia, às vezes, para responder uma simples questão, é necessário acessar diversas fontes de dados e utilizar so�sticadas técnicas de análise. Atualmente, existem cerca de 550 bancos de dados, com grande parte deles ainda construída com enfoque muito limitado para aplicações restritas, sem haver qualquer preocupação em relação à compatibilidade e troca de informações com outros sistemas. Além disso, o acesso a esses dados precisa melhorar em termos de e�ciência, velocidade e facilidade. Um conceito que sustenta a maioria das pesquisas de métodos em Bioinformática é que grande parte dos dados podem ser agrupados com base em semelhanças biologicamente signi�cativas. Por exemplo, segmentos de sequência geralmente são repetidos em diferentes posições genômicas no DNA. Os genes podem ser agrupados em aqueles com funções especí�cas (por exemplo, ações enzimáticas) ou de acordo com a via metabólica a qual pertencem,embora aqui, genes únicos possam apresentar várias funções. Além disso, proteínas distintas frequentemente têm sequências comparáveis e espécies diferentes possuem proteínas equivalentes ou similares que foram herdadas quando divergiram por meio da evolução. Para auxiliar a compreensão dos processos biológicos, é preciso fazer novas combinações aos dados disponíveis. Por exemplo, o que é feito em uma via metabólica deve ser generalizado para outros sistemas biológicos. Dessa forma, a partir de E. coli deve-se expandir para levedura e avançar em direção à biologia de organismos mais complexos, como o homem, animais e plantas economicamente importantes. Trabalhar toda essa informação de forma conjunta é fundamental para a geração de novos conhecimentos. Para tanto, é necessário que novas ferramentas sejam desenvolvidas com intuito de disseminar e analisar grandes quantidades de dados, bem como a construção de comunidades de bancos de dados centradas em princípios operacionais padronizados internacionalmente. Embora exista um crescente número de centros de Bioinformática, a maior tendência é que ela esteja presente nos centros de pesquisa e nas universidades, em cada departamento que envolva a área das Ciências Biológicas em todo o mundo, o que necessitará de pro�ssionais especializados em Bioinformática/Biologia Computacional. Na próxima aula, abordaremos a plataforma NCBI (National Center of Biotechnology Information) e suas funcionalidades. Atividades 1. Diante do que vimos sobre as diversas ômicas, diferencie genômica e transcriptômica, em relação ao conceito e objetivos. 2. Dentro do contexto de evolução do estudo cientí�co, discuta, de forma breve, por que a utilização de apenas uma ou outra ômica é insu�ciente para compreensão dos sistemas biológicos. 3. A abordagem proteômica tem permitido estudos em larga escala da expressão proteica em diferentes tecidos e �uidos corporais, em condições e/ou momentos distintos. O recente progresso de metodologias nessa área tem aberto novas oportunidades para obtenção de informações relevantes sobre processos normais e anormais que ocorrem no organismo humano. De�na proteômica. Notas Referências ALMEIDA, Thiago Silva de; CARVALHO, Ana Fontenele Urano. Guia para a análise transcriptômica: Potencial toxicológico e mecanismos de ação de produtos de origem natural. In: Ciência Animal v 28 n 3 p 56-68 2018 Animal, v. 28, n. 3, p.56 68, 2018. BINNECK, Eliseu. As ômicas: Integrando a Bioinformação. In: Biotecnologia, Ciência e Desenvolvimento, n. 32, p. 28-37, 2004. SCHNEIDER, Marta V.; ORCHARD, Sandra. Omics technologies, data and bioinformatics principles. In: Bernd Mayer (ed.), Bioinformatics for Omics Data: Methods and Protocols, Methods in Molecular Biology, vol. 719. Próxima aula NCBI e suas funcionalidades; Alinhamento de sequências; BLAST e ClustalW; Construção de primers. Explore mais Assista ao vídeo: https://www.youtube.com/watch? v=9mUcScHdcus javascript:void(0); Bioinformática Aula 7: NCBI e suas funcionalidades Apresentação Você já parou para pensar sobre a quantidade de genomas que são gerados nas pesquisas em Bioinformática? Já pensou também que deve existir um local virtual onde esses dados devem estar armazenados? Esse local virtual é chamado de banco de dados públicos, que permite que os dados gerados em uma pesquisa estejam acessíveis a toda comunidade cientí�ca. O avanço das técnicas de sequenciamento permitiu grande aumento do número de genomas disponíveis em bancos de dados e com isso foi necessário desenvolver ferramentas computacionais que fossem capazes de analisar rapidamente todo este conteúdo, daí surgiriam os alinhamentos genômicos. Nesta aula, veri�caremos e exploraremos o NCBI, que é um grande administrador de dados em Bioinformática, e aprenderemos um pouco sobre a funcionalidade dos alinhamentos de sequências genômicas. Vamos lá? Objetivo Reconhecer o NCBI e suas funcionalidades; Distinguir os diferentes tipos de alinhamentos genômicos e suas aplicações; Experimentar a ferramenta PRIMER 3. NCBI e suas funcionalidades Você conhece o NCBI? Não? A sigla NCBI vem do inglês National Center for Biotechnology Information, no português equivale a Centro Nacional de Informação em Biotecnologia. O NCBI nada mais é do que uma plataforma online que é responsável pela criação e administração de vários bancos de dados públicos. Criado em 1988 nos EUA, o NCBI faz parte da Biblioteca Nacional de Medicina dos Estados Unidos (NLM) que pertence ao Instituto de Saúde, conhecido como NIH. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online O NCBI é formado por vários bancos de dados relacionados com a área de Biologia Molecular, Biotecnologia e Bioinformática. Esta plataforma conduz investigação em Biologia Molecular, desenvolve softwares de análise genômica e divulga toda a informação biomédica disponível e depositada nela. Saiba mais Dentre as ferramentas disponíveis no NCBI, vale a pena destacar os dois maiores bancos de dados públicos, Pubmed e GenBank, e um algoritmo computacional de alinhamento genômico, o BLAST. Entre no NCBI e con�ra estas ferramentas! Conferiu? Agora, vamos ao que interessa, porque você já deve estar se perguntando - E aí, para que serve tudo isso? O Pubmed é uma grande biblioteca virtual da área biomédica con�gurada como um site de busca. Neste site, você pode buscar artigos cientí�cos, capítulos de livros e citações disponíveis em diferentes jornais e revistas espalhados por todo o mundo. Alguns destes conteúdos estão disponíveis de forma gratuita e outros devem ser pagos para que o leitor tenha acesso. Saiba mais javascript:void(0); No Pubmed, você pode fazer a busca de conteúdo utilizando �ltros que vão te auxiliar a encontrar um estudo especí�co. Vamos explorar o Pubmed? Acesse agora o site , coloque na aba de busca a palavra HIV e pressione o botão search. Observe e explore a quantidade e a qualidade de conteúdo disponível. Não é fácil? O GenBank é outra ferramenta administrada pelo NCBI desde 1992. Este banco de dados público se destaca por ser uma das mais importantes ferramentas para área de Biologia Molecular e Bioinformática. Nele, estão depositadas as sequências gênicas e anotações de todas as sequências de DNA disponíveis ao público que foram descritas em diferentes partes do mundo. Por que esta ferramenta é tão importante? Nela você pode ter acesso a diferentes sequências de DNA de uma região especí�ca do genoma, o que permite realizar a comparação entre sequências para �logenia, construção de primers, descoberta de mutações, dentre outras aplicações. Exemplo javascript:void(0); Agora, entre no GenBank pelo site , coloque a palavra HIV pol. Selecione a 2ª sequência que aparecerá como resultado da sua busca (Human immunode�ciency virus 1 DNA for Gag, Pol, Vif, Vpr, Tat, Rev, Env, Vpu) e explore as informações deste arquivo. Você irá observar uma detalhada descrição sobre a sequência, por exemplo: A origem (localidade), o ano, a região do genoma correspondente, o artigo em que esta sequência foi publicada, os autores e outras informações. Para �nalizar, as principais funcionalidades do NCBI, vamos agora falar rapidamente do BLAST. O BLAST é um site de busca que usa algoritmo computacional para identi�car genes e sequências genéticas especí�cas. Neste site, você consegue executar pesquisas de sequências contra a base de dados de DNA completa em menos de 15 segundos! Achou muito rápida a explicação sobre o BLAST? Não se preocupe, pois teremos um tópico desta aula apenas para falar sobre ele. Alinhamento de sequências genômicas Clique no botão acima. javascript:void(0); javascript:void(0); Com o crescimento da quantidade de dados gerados após o advento dos sequenciadores de DNA/RNA, veri�cou-se a necessidade de desenvolvimento de algoritmos computacionais que fosssem capazes de analisar as sequências biológicas de forma rápida e objetiva.Desta forma, diversos programas online e de instalação local foram desenvolvidos com o intuito de alinhar dezenas ou centenas de sequências em poucos minutos. Mas, você deve estar se perguntando: O que é alinhamento de sequências genômicas? O alinhamento de sequências genômicas são técnicas utilizadas para a comparação de duas ou mais sequências gênicas, com o intuito de buscar regiões de similaridade entre elas, ou seja encontrar a mesma ordem de nucleotídeos nas sequências analisadas e arrumá-las na mesma posição dentro dos genomas. O alinhamento genômico não é realizado exclusivamente com sequências de DNA, mas pode também ser realizado com o RNA ou sequências de aminoácidos de uma proteína. Apesar do alinhamento parecer uma tarefa relativamente fácil, a busca por similaridade entre as sequências é uma tarefa crucial para posterior aplicação das ferramentas de Bioinformática. Dentre as aplicações das técnicas de alinhamento, podemos destacar a possibilidade da realização de inferências estruturais e funcionais entre diferentes proteínas, identi�cação de mutações e regiões polimór�cas, pesquisas de inferência �logenética e de caráter evolutivo. Existem diferentes tipos de alinhamentos. A aplicação de cada um deles depende do objetivo do pesquisador. Basicamente, os programas mais populares de alinhamento buscam realizar o melhor alinhamento possível dentre as diversas combinações. Este alinhamento é chamado de alinhamento ótimo. Podemos dividir os alinhamentos de acordo com a quantidade de sequências e extensão da análise dentro das sequências. Você deve estar se perguntando: Como assim? Então, é muito fácil: Existe o alinhamento simples, que é aquele que busca a similaridade apenas entre duas sequências, e o alinhamento múltiplo, que busca a similaridade entre mais de duas sequências. Obviamente, o alinhamento múltiplo é mais complexo e demorado que o alinhamente simples, porém, permite realizar inferências mais robustas. Além disso, existe o alinhamento global, que é aquele que busca similaridade levando em consideração toda a extensão das sequências, enquanto o alinhamento local busca pequenas regiões de similaridade dentro das sequências. Tanto o alinhamento global quanto o local podem ser simples ou múltiplos, o que varia é a quantidade de sequências analisada. No alinhamento global, os algoritmos computacionais buscam o maior número de matches (similaridade) por toda a extensão da sequência, ou seja, desde o início até o �nal das sequências analisadas. Para isso, não raro é necessário inserir lacunas no meio das sequências, para que as mesmas se apresentem do mesmo tamanho. Exemplo: 1) Sequências antes do alinhamento TCCATGCGTAATGCTT TCATGCGACT 2) Sequências após o alinhamento TCCATGCGTAATGCTTATTCG TC–ATGCG – A- -GC-T No alinhamento local, os algoritmos computacionais focam a busca em pequenas regiões de alta similaridade. O alinhamento para logo após o �nal das regiões de similaridade e substitui as regiões excluídas do alinhamento por hífenes no resultado �nal. Exemplo: TCCATGCGTAATGCTTATTCG Nos estudos em Bioinformática, os alinhamentos múltiplos globais são os mais utilizados, pois estes são capazes de oferecer um panorama mais geral de similaridade entre as sequências. Um dos softwares de alinhamento múltiplo global mais usado é o ClustalW. Nele, são produzidos alinhamentos globais progressivos que aceleram o tempo de análise. O ClustalW é um software online baseado em um algoritmo computacional no qual inicialmente são realizados alinhamentos par a par, ou seja, entre duas sequências, de forma que todas as sequências analisadas possam ser combinadas com todas as possibilidades. Ficou confuso? Calma! Vamos a um exemplo simples: Imagine três pequenas sequências: TCAAC, TGAC, AACT. As três possíveis combinações de alinhamento que seriam inicialmente produzidas no ClustalW: 1) TCAAC Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online TG - AC 2) TCAAC - - - -AACT 3) TGAC- - AACT O alinhamento inicial par a par é realizado para veri�car a existência de divergência entre as duas sequências analisadas, ou seja, a distância evolutiva entre elas. Após este alinhamento, as duas sequências passam a ser tratadas como uma só, ou seja, uma sequência consenso, que será alinhada com a próxima sequência relacionada, ou seja, mais similar. Todas as outras sequências restantes serão alinhadas baseando-se na sequência consenso. O software ClustalW pode ser encontrado em sites ou dentro de programas baixados de alinhamento e edições de sequências como Bioedit® ou em versões do MEGA®. javascript:void(0); Para você fazer um alinhamento ClustalW, você necessita ter um banco de sequências que nós vamos disponibilizar no link XXXXXXXXX. Acesse o site e na opção Sequence faça o upload do nosso banco de sequências. Na opção Submit, aperte o botão send to ClustalW. Após alguns segundos, será exibida a tela dos seus resultados. Observe as informações disponibilizadas do seu alinhamento e baixe as informações e suas sequências alinhadas em Download result summary e Download alignment �le. BLAST Como nós vimos acima, o BLAST é uma das principais ferramentas disponíveis na platafoma NCBI. O software é disponibilizado online e realiza alinhamentos locais entre a sequência dada pelo pesquisador com todas as sequências disponíveis no banco de dados do GenBank— aquela ferramenta do NCBI que já conhecemos. Saiba mais O BLAST permite um alinhamento localizado de fragmentos de sequência a partir da seleção das sequências mais similares. O resultado da busca é apresentado em valores de score que expressam a signi�cância do alinhamento. O algoritmo do BLAST realiza buscas baseadas em alinhamentos que não são tão �dedignos, porém são con�áveis e rápidos. Isto faz com que o programa ofereça vantagens em relação a outras ferramentas de alinhamento. A rápida velocidade do alinhamento está associada ao mecanismo de busca pela similaridade realizada pelo algoritmo do BLAST. A busca no BLAST foca em pequenas sequências comuns existentes entre a sequência dada e as sequências do banco de dados. Não entendeu? Observe o exemplo: Considere a sequência a seguir: CGTACTGCCATT. Exemplos de sequências que poderiam ser achadas no BLAST seriam: Sequência dada: CGTACTGCCATT Busca 1 CGT Busca 2 TAC Busca 3 CCA Busca 4 CAT Conseguiu visualizar o funcionamento? Então, podemos seguir! O software nos permite realizar diferentes tipos de BLAST (alinhamentos), que podem ser utilizados para diferentes �ns, tudo dependendo do objetivo do pesquisador. Basicamente, existem quatro tipos diferentes de BLAST. Vamos a eles! Clique nos botões para ver as informações. Ferramenta utilizada para realizar BLAST de nucleotídeo com nucleotídeo. Neste BLAST, o pesquisador entra com uma sequência de DNA (nucleotídeos) e recebe como resultado sequências de nucleotídeos (DNA) similares à sequência de entrada. Nucleotide BLAST Ferramenta utilizada para realizar BLAST de sequência de proteínas (aminoácidos) com proteínas. Neste BLAST, o pesquisador entra com uma sequência de aminoácidos e recebe como resultado sequências de aminoácidos similares à sequência de entrada. Protein BLAST Ferramenta utilizada para realizar BLAST de sequências de nucleotídeos com as proteínas associadas a esta sequência. Neste BLAST, o pesquisador recebe como resultado o produto da tradução das sequências de nucleotídeos de entrada. blastx Ferramenta utilizada para realizar BLAST de proteínas com a sequência de nucleotídeo associada a ela. Neste BLAST, o pesquisador recebe como resultado a sequência de DNA que corresponde a uma dada proteína de entrada. tblastn Saiba mais Agora, vamos trabalhar! Entre no GenBank e coloque na abade busca as palavras: insulin human ins, selecione a 6ª sequência que aparece como resultado (Homo sapiens ins gene, partial). Após abrir a sequência, role o cursor da tela para a parte de baixo e copie a primeira linha da sequência de nucleotídeos, excluindo o número 1 que aparece no início da sequência. Agora, entre no site do BLAST e selecione a ferramenta nucleotide blast, cole a sequência copiada do GenBank e observe o resultado. E aí? Era mesmo a hemoglobina humana? BLAST X ClustalW Clique no botão acima. javascript:void(0); javascript:void(0); Como vimos nos tópicos anteriores, o BLAST e o CLUSTALW são ferramentas comuns utilizadas nos estudos de Bioinformática, mas essas ferramentas são constituídas de algoritmos distintos que vão buscar parâmetros diferentes. Recapitulemos rapidamente: O BLAST é um algoritmo de alinhamento local que busca de forma rápida pequenas regiões de similaridades, enquanto o ClustalW é um algoritmo de alinhamento múltiplo global que se baseia na distância evolutiva. O BLAST efetua um alinhamento mais simples que compara apenas regiões de alta similaridade entre duas sequências, enquanto o ClustalW efetua um alinhamento mais complexo que estabelece a relação evolutiva entre todas as sequências utilizadas. Depois de tanta informação, você deve estar confuso na escolha de qual ferramenta usará no seu estudo, não é? Então, a escolha depende exclusivamente do seu objetivo. Construção de primers Ao longo de toda a nossa aula, nós abordamos os alinhamentos e os algoritmos associados, mas muito antes de obtermos as sequências de DNA que serão alinhadas, precisamos de�nir que região do genoma—ou seja, gene— nós iremos trabalhar e como conseguiremos isolar esse gene. Para que possamos alcançar o nosso objetivo, é necessário realizar um desenho cuidadoso dos primers que serão utilizados no nosso estudo. Viajou? Então, vamos relembrar alguns conceitos... Para isolar um determinado gene, podemos utilizar uma técnica de Biologia Molecular chamada de PCR (Polymerase chain reaction), está lembrado? Para realizar ua PCR, nós necessitamos de nucleotídeos, da enzima DNA polimerase, do cofator enzimático e de um par de primers. Os primers são sequências de oligonucleotídeos sintéticos que vão hibridizar com regiões especí�cas das �tas moldes de DNA (um dos primers se liga à �ta 5’-3’ e outro se liga à �ta 3’-5’) para oferecer uma extremidade 5’ OH livre para a formação da ligação fosfodiéster e adição do primeiro nucleotídeo da nova �ta de DNA que será confeccionada. Lembrou agora? Atenção Além da função de iniciador do processo de replicação do DNA na PCR, o primer, também ao se ligar a uma sequência especí�ca do genoma ao qual ele foi desenhado. Portanto, para se construir primers, é necessário ter conhecimento sobre a sequência de nucleotídeos no qual este primer irá hibridizar. Existem alguns critérios básicos que são importantes para a construção de um bom primer. Vamos citar e explicar alguns deles: Tamanho do primer Geralmente, os primers apresentam entre 18-24 nucleotídeos, pois este é o tamanho ideal para garantir a especi�cidade de ligação do primer e também na e�ciência da reação de PCR, evitando a formação de estruturas secundárias, como grampos. Conteúdo de GC Os primers devem apresentar cerca de 45%-55% de CG na sua composição, pois isto aumenta a estabilidade de ligação do primer com a �ta molde de DNA, já que CG fazem 3 pontes de H. Temperatura de hibridização A temperatura de ligação do primer com a �ta de DNA deve ser entre 52°C—60°C, pois esta é a temperatura ideal para um primer 18-24 nucleotídeos, de tamanho ideal para apresentar especi�cidade na ligação e também na e�ciência da reação de PCR. Evitar regiões homopoliméricas Repetições de um ou de dinucleótidos consecutivas (exemplo: agagagag) aumenta a probabilidade da hibridização do primer acontecer em uma região inespecí�ca do genoma. Baseados nestes parâmetros, nós podemos utilizar o software online Primer 3. Neste software, o pesquisador poderá de�nir de forma customizada os primers que serão usados no seu estudo baseado na sequência alvo dada. Saiba mais Vamos construir nosso primer? Abra o site para fazer a construção do primer. Você deve colar na janela principal uma sequência obtida do GenBank— Você agora já sabe fazer isso! javascript:void(0); Após a colagem da sequência, role a tela para baixo e observe o item General Primer Picking Conditions, que por lá você encontrará a sugestão de preenchimento de todos os parâmetros que você aprendeu. Você pode alterar qualquer parâmetro usando os critérios que você quiser e o software desenhará para você os primers de maneira otimizada. Após ajustar seus critérios, clique no botão pick primers e veja as sugestões de primers criadas. Gostou? Então, você agora está pronto para iniciar uma pesquisa em Bioinformática. Atividades 1. De�na o que é o NCBI e cite uma das suas ferramentas, explicando-a. 2. Explique a diferença entre o alinhamento global e o local. Exempli�que cada um deles com as ferramentas apresentadas nesta aula. 3. A escolha do gene de interesse e o desenho de um primer são as primeiras etapas a serem pensadas ao se iniciar um estudo em Biologia Molecular. Dessa forma, cite 3 critérios importantes para o desenho de um primer. Notas Referências APOSTILA BIOINFORMÁTICA— DA BIOLOGIA À FLEXIBILIDADE MOLECULAR. E-book. 1. ed. São Paulo: UFRGS, 2014. Disponível em: https://www.ufrgs.br/bioinfo/ebook/. Acesso em: 22 jan. 2020. javascript:void(0); BLAST. NCBI. Disponível em: https://blast.ncbi.nlm.nih.gov/Blast.cgi. Acesso em: 22 jan. 2020. GENBANK. NCBI. Disponível em: https://www.ncbi.nlm.nih.gov/genbank/. Acesso em: 22 jan. 2020. PRIMER DESIGNER. In: Premier Biosoft. Disponível em http://www.premierbiosoft.com/tech_notes/PCR_Primer_Design.html . Acesso em: 22 jan. 2020. PRIMER 3. In: Bioinfo. Disponível em: http://bioinfo.ut.ee/primer3- 0.4.0/. Acesso em: 22 jan. 2020. PUBMED. In: NCBI. Disponível em: https://www.ncbi.nlm.nih.gov/pubmed. Acesso em: 22 jan. 2020. VIEIRA, Daniel Perez. Técnicas de PCR: Aplicações e Padronização de Reações. Disponível em: http://www.imt.usp.br/wp- content/uploads/proto/protocolos/aula4.pdf. Acesso em: 22 jan. 2020. Próxima aula BLAST e ClustalW; Artigos no Pubmed; javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0); Primers. Explore mais Leia os textos: Bioinformatics: An overview and its applications. Bioinformática: Manual do usuário. javascript:void(0); javascript:void(0); Bioinformática Aula 8: Alinhamento de sequências e desenho de primers Apresentação Nesta aula, abordaremos conceitos sobre o alinhamento de sequências e desenho de primers, destacando as principais ferramentas utilizadas. Conheceremos as aplicações no desenho de primers, sondas, alinhamento (comparação) de sequências e predição de resultados de reações de PCR. Objetivo Aplicar o conhecimento das aulas anteriores; Decodi�car a utilização do Blast para elaboração de um primer; Esclarecer a aplicação do Blast na sequência de primer adequada. NCBI Nucleotide Search Quando falamos em ferramentas para o desenho de primers, sondas e a comparação de sequências, três são essenciais. A primeira delas é o NCBI Nucleotide Search, que procura as sequências-alvo desejadas incluindo os genes de alguns animais, do homem, plantas, protozoários, fungos, bactérias e vírus. (Fonte: NCBI Nucleotide Search) A tela inicial tem um campo onde se escreve o nome do gene de interesse. Após a escolha da sequência, é aberta uma página que mostra muitas características da sequência: O nome do organismo e do tipo celular de onde este gene foi isolado, o nome da proteína proveniente (quando a sequência é uma região codi�cável do genoma), a classe da proteína (receptor, citocina,proteína estrutural etc.), o artigo cientí�co em que a sequência foi publicada, a tradução (sequência de peptídeos da proteína gerada), informações sobre os locais de início de transcrição e tradução, entre outras. O tamanho mínimo, ótimo e médio do primer que se deseja criar Recomenda-se que este número seja maior que 15 pares de bases e não maior que 35 pares de bases em condições normais. Primer Tm: Temperatura mínima, ótima e máxima de melting do par de primers. Recomenda-se a escolha de números entre 45ºC e 72ºC, para garantir a especi�cidade da ampli�cação. Primer GC% Concentração de bases G e C nas cadeias dos primers. Salvo em casos especiais, recomenda-se a escolha de valores de até 60%, pois concentrações mais altas podem causar aumento excessivo da temperatura de anelamento, di�cultando, assim, a padronização da reação. Salt concentration Refere-se ao conteúdo total de íons metálicos (em nM) na solução. O valor que o programa oferece (50nM) é adequado na maioria dos casos. Os demais parâmetros não são utilizados rotineiramente. Estes parâmetros dizem respeito à estabilidade térmica dos primers, sua chance de formar dimers, self-dimers, hairpins, sua energia cinética e outros fatores. Sua utilização não será abordada aqui por não ser usual. Estes dados são utilizados em casos especí�cos apenas. Após o preenchimento correto dos parâmetros, clica-se na tecla Pick Primers, logo abaixo das funções Liberal Base e Show Debugging Info. A janela de resultados mostra, a princípio, o par de iniciadores que o programa julgou mais adequado para a ampli�cação em questão, levando em conta os parâmetros fornecidos pelo usuário. Mostra não apenas a sequência de cada primer, mas também a região onde estes se anelam ao DNA-molde, seu tamanho em pares de base, o Tm de cada um e os valores de porcentagem de GC. Outros valores são mostrados, com importância apenas para casos especí�cos. Rolando-se a página até o �m, pode-se observar alguns pares alternativos. Estes pares também podem ser utilizados, porém com maior parcimônia, pois não são tão adequados à reação quanto o primeiro par, já visto. No meio da página, o programa fornece a região ampli�cada, delimitada por uma série de sinais > representando a região de anelamento do Sense primer e de sinais“. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Blast Clique no botão acima. O BLAST é talvez o melhor programa de alinhamento de sequências que existe. Pela sua interface, é possível inserir uma sequência genérica e compará-la com todos os genes já sequenciados até o momento. Como veri�cação �nal do processo de idealização de primers, deve-se inserir a sequência obtida pelo Primer3, correspondente à ampli�cação de interesse e confrontá- la com o banco de dados do BLAST. Este processo elimina erros, impedindo que os primers ampli�quem uma sequência errada e mostra a possibilidade de reações cruzadas. O programa estará disponível após acessar o link Standard nucleotide- nucleotide BLAST [blastn]. Nesta página, existe o campo de preenchimento, onde deve-se colocar a sequência obtida pelo Primer3. Feito isto, basta clicar no botão BLAST!, localizado no pé da página. A interface amigável e os controles intuitivos são provavelmente a maior razão do sucesso deste programa, que já conta com mais de uma década de existência. O programa apresenta uma tela de comando, com informações sobre o número do pedido de alinhamento de sequências. Para passar desta etapa, basta clicar em Format! A utilização de softwares como BLAST e Primer3 é de grande valia, poupando tempo e dinheiro na padronização de reações de PCR e servindo como referência. Algumas revistas cientí�cas só aceitam primers cuja sequência foi veri�cada pelo BLAST e desenhados por programas como o Primer3. Apesar de reduzir o tempo de padronização, a experimentação nunca pode ser substituída pelo uso de simulações em computador. As temperaturas de anelamento dos primers obtidos por todo este processo, desde a busca no NCBI até a veri�cação pelo BLAST, devem ser apuradas experimentalmente antes de se começar a sua utilização. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online O uso do desenho de primers no dia a dia A PCR (polymerase chain reaction) é uma reação em cadeia da polimerase que permite a ampli�cação exponencial de segmentos de DNA in vitro. A reação se processa em diferentes etapas, cada uma em uma temperatura controlada por um aparelho denominado termociclador . A primeira é a etapa de desnaturação térmica do DNA (~95ºC). Nesta temperatura, as �tas de DNA serão completamente separadas. Em seguida, a etapa anelamento dos primers (50~60ºC). Nesta etapa, ocorre o pareamento dos primers por complementariedade. A temperatura utilizada dependerá da composição de bases do primer. E a terceira etapa é a extensão do DNA . A extensão ocorre a 72ºC, temperatura em que a Taq Polimerase (um DNA polimerase) apresenta melhor atividade. Estas três etapas compõem um ciclo da PCR e se repetem por várias vezes, permitindo a ampli�cação de uma região do DNA. Saiba mais A de�nição da região a ser ampli�cada é determinada pelo par de primers, que funcionam como iniciadores da polimerização, delimitando a região do DNA a ser copiada. Os primers são oligonucleotídeos que apresentam sequência complementar à região de anelamento. Cada um dos primers introduzidos na PCR irá parear com uma das �tas de DNA. Os primers precisam apresentar algumas características para que se obtenha sucesso na PCR. Dentre as características, temos: Conteúdo CG deve estar por volta dos 50%. Isso garante que o primer apresente uma maior especi�cidade de interação com a região de complementariedade. Lembre-se que a etapa de anelamento ocorre em uma temperatura menor que a de extensão. A elevação da temperatura faz com que a interação entre o primer e a região de complementariedade do DNA diminua. Se o conteúdo CG for muito menor que 50%, eles irão se dissociar completamente. Não devem conter complementariedade entre suas bases Um primer não pode conter complementariedade com ele mesmo ou com o seu par. Se estes eventos ocorrerem, observaremos a formação de estruturas denominadas de autodímeros e dímeros. Caso ocorram em temperaturas próximas daquelas utilizadas nas etapas da PCR, ao invés do primer parear com a região do DNA de interesse, ele estará pareando com outro primer, reduzindo a e�ciência do processo. A temperatura de anelamento entre os primers não deve diferir mais do que 3ºC. Para se determinar a temperatura de anelamento dos primers, devemos partir da fórmula do cálculo da temperatura de melting [Tm= 2(A + T) + 4(G + C)ºC], onde A, T , G e C, devem ser substituídos pela quantidade de vezes que cada uma das bases aparece no primer. Após a obtenção deste valor, utilizaremos a seguinte fórmula para a obtenção da temperatura de anelamento: T anelamento= Tm (primer) – 4 ºC. A fórmula será utilizada para cada um dos dois primers . Ao �nal, a diferença entre os primers deverá ser <3 [T anelamento (primer esquerda) - T anelamento (primer direita) <3]. Isso garante que, no momento de se determinar a temperatura de anelamento no termociclador, ambos os primers estarão pareando com o DNA o mais próximo possível da sua temperatura ótima de anelamento. Existem outras maneiras de se calcular a temperatura de anelamento, mas esta será a utilizada em nossa disciplina. Após análise das características básicas, iremos construir um par de primers, com o objetivo de ampli�car uma determinada região de um gene humano de interesse. A primeira etapa a ser realizada é encontrar a região genômica que apresenta o gene de interesse. Para isso, iremos realizar uma busca no banco de dados do NCBI pelo gene de interesse utilizando um banco de dados de genes. Iremos acessar o gene correspondente em humanos e,a partir desta busca, acessar a sequência de nucleotídeos do gene clicando no link RefSeqGene presente na barra lateral direita do site. Ao acessar, clicando em GenBank, será apresentado. Atividade 1. O método de sequenciamento Sanger: a) É baseado na modificação química do DNA utilizando piperidina e foi inicialmente desenvolvido por Allan Maxam e Walter Gilbert e, mais tarde, modificado por Sanger. b) É baseado na incorporação de didesoxinucleotídeos que, ao serem incorporados, impedem a adição de nucleotídeos adicionais. c) Requer todas as enzimas necessárias para a replicação de DNA como helicases, polimerases, porém, não necessita da primase, pois são adicionados iniciadores artificiais com os nucleotídeos e didesoxinucleotídeos. d) Depende do preparo de géis de acrilamida para separar os diferentes fragmentos de DNA que serão analisados. e) É limitada pela necessidade do uso de isótopos radioativos para a marcação dos fragmentos de DNA que serão sequenciados. 2. (FUVEST) Em vez de sequenciar as bases nitrogenadas de todos os cromossomos de uma planta com um genoma muito grande, pesquisadores selecionaram partes desse genoma para sequenciar. Somente as sequências de DNA que correspondem ao conjunto dos RNA mensageiros transcritos no fruto serão estudadas. O DNA a ser sequenciado foi sintetizado em laboratório, tendo como molde as moléculas de RNA extraídas dos frutos. a) Se os cientistas fossem sequenciar todo o genoma dessa planta, haveria diferença se o material genético viesse do fruto ou da folha da planta? Justi�que. b) No estudo das sequências que tiveram como molde RNA mensageiro, faria diferença se esse RNA mensageiro fosse extraído das folhas ou dos frutos? Justi�que. 3. Diversas técnicas são utilizadas para determinar, em genes de uma célula eucariota, a sequência de bases nitrogenadas codi�cantes, ou seja, aquela que de�ne a estrutura primária da proteína a ser sintetizada. A abordagem experimental mais frequente, hoje, consiste em, primeiramente, extrair os RNA mensageiros da célula, sintetizar os seus DNA complementares e, então, proceder ao sequenciamento das bases presentes nesses DNA. Em uma bactéria, no entanto, é possível determinar a sequência codi�cante diretamente a partir de seu cromossomo. Explique o motivo pelo qual, em organismos eucariotas, é preferível utilizar o RNA-mensageiro para determinar a região codi�cante do DNA. 4. (PUC-SP) […] De outro lado, o galardão de Química �cou com os inventores de ferramentas para estudar proteínas, os verdadeiros atores do drama molecular da vida. É verdade que a Fundação Nobel ainda fala no DNA como o diretor da cena a comandar a ação das proteínas, mas talvez não seja pretensioso supor que foi um lapso, e que o sinal emitido por essas premiações aponta o verdadeiro futuro das pesquisas biológicas e médicas muito além do genoma e de seu sequenciamento (uma simples soletração) […]. O autor refere-se às proteínas como atores do drama molecular e ao DNA como diretor de cena. Essa referência deve-se ao fato de: a) Não ocorrer uma correlação funcional entre DNA e proteínas no meio celular. b) O DNA controlar a produção de proteínas e atuar como catalisador de reações químicas celulares. c) O material genético ser constituído por proteínas. d) As proteínas não terem controle sobre o metabolismo celular. e) O DNA controlar a produção de proteínas e estas controlarem a atividade celular. 5. Marque a alternativa que melhor de�ne um gene: a) O gene é uma porção da molécula de RNA que determina uma característica. b) O gene é uma região do DNA que é responsável pela síntese de carboidratos, determinando nossas características. c) O gene é uma sequência de nucleotídeos em que está contida a informação que será usada para a síntese de proteínas. d) Trecho do RNA que contém sequências de nucleotídeos que são usados para a síntese de proteínas. Notas Referências BRAMMER, Sandra Patussi. A técnica da eletroforese: Importância e aplicações em análises genéticas. Documentos Online. Disponível em: http://www.cnpt.embrapa.br/biblio/p_do06.pdf. Acesso em: 24 jan. 2020. FAKRUDDIN, M. D.; CHOWDHURY, A.; HOSSAIN, M. D. N.; MANNAN, K. S. B.; MUZAMDAR, R. M. Pyrosequencing— Principles and Applications. International Journal of Life Science and Pharma Research, v. 2, p. L.65-75, 2012. Disponível em: http://www.ijlpr.com/admin/php/uploads/67_pdf.pdf . Acesso em: 24 jan. 2020. FIGUEIREDO, Graziella S. et al. Reação de sequenciamento de DNA e puri�cação— Protocolos otimizados. Circular Técnica, n. 22, dez. 2003. Disponível em: http://ainfo.cnptia.embrapa.br/digital/bitstream/CENARGEN/24105/1/ct022.pdf . Acesso em: 24 jan. 2020. LEITE, Marcelo. De volta ao sequenciamento. Folha de S. Paulo, São Paulo, 20 out. 2002. MINOCHE, A. E.; DOHM, J. C.; SCHNEIDER, J.; HOLTGRÄWE, D.; VIEHÖVER, P.; MONTFORT, M.; HIMMELBAUER, H. (2015). Exploiting single-molecule transcript sequencing for eukaryotic gene prediction. Genome Biology, 1–13. javascript:void(0); javascript:void(0); p gy, PEIXOTO, B. M. Classi�cação de sequência e análise de diversidade em metagenômica. Tese (Mestrado em Bioinformática)— Universidade Estadual de Campinas/UNICAMP— Instituto de Computação, 2013. QUAIL, M.; SMITH, M. E.; COUPLAND, P.; OTTO, T. D.; HARRIS, S. R.; CONNOR, T. R.; GU, Y. (2012). A tale of three next generation sequencing platforms: Comparison of Ion torrent, paci�c biosciences and illumina MiSeq sequencers. BMC Genomics, 13(1)1. Disponível em: http://doi.org/10.1186/1471-2164-13-341. Acesso em: 27 jan. 2020. ROBERTS, R. J.; CARNEIRO, M. O.; SCHATZ, M. C. (2013). The advantages of SMRT sequencing. Genome biology, 14(6), 405. STADERMANN, K. B.; WEISSHAAR, B.; HOLTGRÄWE, D. (2015). SMRT sequencing only assembly of the sugar beet (beta vulgaris) chloroplast genome. BMC Bioinformatics, 16(1), 295. Próxima aula javascript:void(0); As ômicas e sua importância nos estudos cientí�cos. Explore mais Pesquise na internet sites, vídeos e artigos relacionados ao conteúdo visto. Em caso de dúvidas, converse com seu professor online por meio dos recursos disponíveis no ambiente de aprendizagem. Bioinformática Aula 9: Anotação gênica Apresentação Anotar é tornar um conteúdo mais claro, adicionar informações que facilitem o entendimento. Quando falamos de anotar uma sequência gênica, referimo-nos ao processo que dá sentido às longas sequências de DNA, encontrando os genes e dizendo a função que eles possuem. Ao longo dessa aula, grande parte do seu conhecimento adquirido até aqui será revivido. Para realizar a anotação gênica, é preciso relembrar a organização do DNA e a função das biomoléculas, saber o que são bancos de dados biológicos e como funciona o alinhamento de sequências. Objetivo Descrever o que é anotação de genomas; Explicar a realização da anotação gênica; Empregar bancos de dados públicos para anotações de nucleotídeos, proteínas e processos. O que é anotação gênica A anotação gênica é uma etapa muito importante das atividades de um bioinformata. Começaremos de�nindo a palavra anotar. De acordo com o dicionário Aurélio (2020), anotar é adicionar notas explicativas a um texto. Eu diria que anotar é tornar um conteúdo mais claro, adicionar informações que facilitem o entendimento. Quando você lê um texto e vai anotando algumas frases pelas beiradas da folha, você espera que isso torne mais fácil a próxima leitura, não é mesmo? Formalmente, anotação de um genoma consiste na identi�cação de suas regiões funcionais ou de relevância biológica. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online A anotação gênica vem logo depois de você determinar as sequências de nucleotídeos do DNA usando o sequenciamento. Ela se refere ao processo que dá sentido a essas longas sequências, encontrando os genes e dizendo a função que eles possuem. Se você vai estudar um organismo que já tem seu genoma anotado, tudo �ca mais fácil. Você já sabe, por
Compartilhar