Baixe o app para aproveitar ainda mais
Prévia do material em texto
P4 Semanal - ENGENHARIA GENÉTICA MÉTODOS DE SEQUENCIAMENTO DE ÁCIDOS NUCLEICOS E GENOMAS Desde a descoberta da dupla fita de DNA, surgiram diversas ciências dedicadas a estudar essa molécula, como a genética e a biologia molecular. Para que estudos fossem feitos com o objetivo de compreender o funcionamento de uma célula, e entender como seu material genético era capaz de determinar ou expressar um caractere, foram desenvolvidas algumas técnicas. Dentre elas, pode-se citar o SEQUENCIAMENTO GENÉTICO. SEQUENCIAMENTO DE DNA = consiste em métodos químicos ou enzimáticos para identificar e determinar a sequência das bases nitrogenadas no DNA. Essa técnica é usada, principalmente, para conhecer a sequência de bases nitrogenadas correspondente a um gene. Já sabemos que não adianta nada eu saber a sequência de um DNA de um ser vivo se eu não sei o que é gene e o que não é, como aconteceu em 2001, com a publicação do Genoma Humano. Muitos acreditaram que, logo em seguida, já seria possível obter respostas para perguntas mirabolantes, mas conhecer a sequência não significa conhecer o que é transcrito e o que é expresso, ou seja, conhecer a sequencia de bases não significa nada. Apenas para recordar, nossa sequência de DNA é constituída de bases que FAZEM PARTE DE UM GENE, e bases que NÃO FAZEM PARTE DE UM GENE. As bases que constituem o gene são as que irão determinar a produção de determinada proteína ao fim da tradução, e são, na maioria das vezes, as bases de interesse em um sequenciamento. Saber a sequencia, mas não saber quais regiões serão traduzidas em proteínas não resolve muita coisa. O primeiro método de sequenciamento de DNA surgiu em meados dos anos 70 e ficou conhecido como método Maxam–Gilbert, método amplamente aplicável na época. Alguns anos depois, em 1977, Frederick Sanger propõe um método diferente e mais eficiente chamado de MÉTODO ENZIMÁTICO ou MÉTODO DE SANGER. Esse método logo se tornou altamente replicável, e pode ser utilizado até os dias de hoje, apesar de existirem técnicas mais modernas para isso. 1) MÉTODOS DE SEQUENCIAMENTO Existem basicamente dois métodos amplamente conhecidos: o método de Sanger (também chamado de “sequenciamento clássico” ou “método dideoxi”) e o método Next Generation (também chamado de “sequenciamento de nova geração”), e são sobre esses métodos que iremos comentar. a) Sanger manual O método de Sanger, tanto o manual quanto o automático, foi muito importante para o estudo de genes, identificação de indivíduos, estudos comparativos, etc. Para entender este método, vamos recapitular como o DNA é formado. O DNA é uma molécula formada por uma dupla fita de nucleotídeos. Cada nucleotídeo é composto por um açúcar, um grupo fosfato e uma base nitrogenada. No sequenciamento, são essas bases nitrogenadas que são lidas. As bases podem ser de 4 tipos: Adenina, Timina, Citosina e Guanina. As bases A ligam-se a bases T na fita complementar, e as bases C ligam-se a bases G na fita complementar. Quando vamos fazer uma reação PCR, por exemplo, o que nós fazemos é, basicamente, simular in vitro a replicação que acontece naturalmente no meio celular, como já foi visto na prova passada. Para isso, é necessário adicionar no meio: amostra de DNA, dNTPs (dATP, dTTP, dCTP, dGTP), primers, etc... O que eu quero chamar a atenção aqui são os dNTPs, também chamados de desoxirribonucleotídeos trifosfatos, que nada mais são do que nucleotídeos ligados a 3 fosfatos. Esses nucleotídeos, na reação de PCR, simulam os nucleotídeos naturais da célula, e são essenciais para que a polimerização da fita complementar ocorra. O açúcar do dNTP é idêntico ao açúcar do nucleotídeo encontrado na célula, e portanto, a reação de amplificação é bem sucedida. Baseando-se nesse dNTP, Sanger criou os chamados ddNTPs (didesoxiribonucleotídeos), que variam de acordo com a base nitrogenada (ddATP, ddTTP, ddCTP, ddGTP). Os ddNTPs diferem dos dNTPs pela ausência da hidroxila (OH) livre no carbono 3’ da pentose. Relembrando o que foi visto em Biologia Método Old School Método de Maxam-Gilbert (ou método de degradação química): se baseava na clivagem química do DNA Método de Sanger (ou método dideoxi): baseia-se na terminação controlada da replicação. É dividido no método MANUAL e AUTOMÁTICO Método de Nova Geração (NGS) Método Illuminna, PACbio, etc Molecular, a replicação e a transcrição sempre acontece no sentido 5’ para o 3’. Isso porque é o OH do carbono 3’ que realiza o ATAQUE NUCLEOFÍLICO sobre o grupo fosfato, e promove a formação da ligação fosfodiéster entre os nucleotídeos. Se não houver um OH livre no carbono 3’, a ligação fosfodiéster não é estabelecida, e o alongamento da cadeia é interrompido. Desse modo, Sanger elaborou uma molécula ddNTP que, por não ter um OH livre, não é capaz de estabelecer uma ligação com o próximo nucleotídeo. Com isso, na reação de sequenciamento, quando um ddNTP era aleatoriamente adicionado a uma cadeia, a replicação da cadeia era interrompida. Assim foi possível obter fitas do mesmo DNA com número de resíduos diferentes. Assim, Sanger, descobriu que se conseguisse interromper a replicação de um mesmo DNA em pontos diferentes, ele poderia juntar essas fitas menores e formar a sequência completa do DNA. ddNTP = terminadores da síntese de DNA A reação de sequenciamento de Sanger é realizada em 4 tubos. Os materiais colocados nos tubos são bem semelhantes ao do PCR, visto que aqui a intenção também é promover a replicação, mas ao invés de ocorrer a síntese de uma fita complementar completa, o objetivo aqui é promover e interromper a replicação em pontos aleatórios. No PCR, precisamos de uma amostra de DNA, primers, dNTPs (dATP, dTTP, dCTP, dGTP), enzima DNA Polimerase, tampão da enzima e Mg2+ (MgCl2 ou MgSO4). Já na reação de sequenciamento, EM CADA UM DOS QUATRO TUBOS são adicionados: Amostra de DNA Primers Enzima DNA Polimerase Solução tampão dNTPs dos quatro tipos (dATP, dTTP, dCTP, dGTP, tudo misturado no mesmo tubo) ddNTP de apenas UM TIPO POR TUBO (ou seja, no primeiro tubo, eu coloco ddATP, no segundo tubo coloco ddTTP, no terceiro tubo coloco ddCTP, e no quarto eu coloco ddGTP). EM CADA TUBO, SEMPRE HÁ MAIS dNTP do que ddNTP! (os nucleotídeos normais são colocadas em maior quantidade e os ddNTPs em menor quantidade, SEMPRE). Para possibilitar a leitura ao fim da reação, é necessário marcar radioativamente ou o primeiro nucleotídeo do primer, ou os ddNTPs adicionados na reação com P32 ou S35. Após incorporação na cadeia de DNA, estes átomos marcados emitem radiação que é utilizada para impressão de uma chapa radiográfica, permitido visualizar os fragmentos amplificados. Dentro de cada tubo, ocorre uma reação de amplificação (PCR em termociclador), ou seja, primeiro ocorre a desnaturação das fitas (cerca de 95ºC), depois o anelamento de primers (que vão indicar a região que eu quero sequenciar) (cerca de 60ºC), e por fim, a polimerização da fita complementar (cerca de 72ºC). A DNA polimerase então começa a sintetizar a nova cadeia a partir do primer, adicionando os dNTPs normalmente, e assim por diante. Em determinado momento, no entanto, a DNA polimerase ao invés de incorporar um dNTP na cadeia, como havia fazendo, ela incorpora um ddNTP, que por não ter um OH livre no carbono 3’, interrompe a síntese. Esse processo é repetido em vários ciclos, garantindo que haja, ao fim da reação, fragmentos de todos os tamanhos possíveis, com um ddNTP contido em todas as posições do DNA molde. A chance dos dNTP ou dos ddNTP serem incorporados numa determinada posição da cadeia de DNA é a mesma, uma vez que a DNA polimerase não consegue distinguir estes dois nucleotídeos pelo fato da diferença entre eles ser apenas a ausência do grupo OH na posição 3´. Se pensarmos que existem, na mistura, muitas moléculas domesmo DNA molde, compreenderemos que todas as posições do DNA molde, em algum momento, terá um ddNTP complementar. Assim, teremos amplicons (produto da PCR) terminando em diferentes posições do DNA molde, produzindo um conjunto de fragmentos complementares ao DNA molde com tamanhos variados, sendo o tamanho de cada fragmento dependente da posição onde o ddNTP terminador foi adicionado. Ou seja: se um dNTP é adicionado, a síntese da cadeia de DNA continua, pois haverá a presença de uma hidroxila livre na posição 3´, onde deverá ser ligado o próximo desoxinucleotídeo. Se um ddNTP for adicionado, a síntese será interrompida neste ponto (por isso este método é também conhecido como “terminador de cadeia” ou “didesoxi”). Para a leitura da sequencia, o produto obtido em cada um dos 4 tubos é aplicado em canaletas diferentes, contendo geralmente gel de poliacrilamida como matriz (como cada tubo corre em canaletas diferentes, há ao todo, 4 canaletas para leitura). A reação precisa ser feita em 4 tubos diferentes para que, ao analisar as bandas, eu saiba se o ddNTP adicionado é um A, T, C ou G, já que em cada canaleta, apenas um tipo desses ddNTPs será encontrado. Devido ao alto poder de resolução (separação dos fragmentos) deste gel, é possível separar os fragmentos por tamanho (eletroforese). Os fragmentos menores ficaram mais em baixo (porque correram mais) e os maiores mais em cima (porque correram menos). As bandas produzidas são visualizadas numa chapa radiográfica (raio-X), e o resultado da eletroforese torna-se conhecido através de um autorradiograma. A análise da ordem das bandas na chapa radiográfica começa pelo final do gel, permitindo determinar a sequencia de nucleotídeos da fita de DNA recém- sintetizada (leitura é feita de baixo para cima). O analista, então, ia lendo e anotando, passo a passo. Esta técnica permitiu inicialmente separar de 200 a 300 nucleotídeos por corrida, sendo considerada uma revolução na época em que foi descoberta. No entanto, dentre as desvantagens, estava o TEMPO (era uma técnica muito demorada) e o USO DA RADIOATIVIDADE, prejudicial à saúde humana. b) Sanger automático A ciência não para, e está sempre buscando melhorar as mais variadas técnicas. Não foi diferente com o método de Sanger. Classificada como manual por não utilizar o computador em nenhuma de suas etapas, esta metodologia foi aperfeiçoada por Leroy Hood, originando o método SANGER AUTOMÁTICO. O princípio do método proposto por Sanger permaneceu o mesmo. No entanto, a técnica foi aprimorada ficando mais simples, mais rápida e mais segura, por não utilizar compostos radioativos prejudiciais a saúde humana (a revelação ficou automatizada). A principal modificação foi a adição de corantes nos ddNTPs, capazes de emitir fluorescência quando excitados. Cada um dos ddNTPs foi marcado com uma cor específica: o ddATP foi marcado de verde; o ddTTP de vermelho; o ddCTP de azul, o ddGTP de amarelo (não tenho certeza se foram essas cores, mas segue o baile). O método utiliza fluoróforos diferentes para cada um dos quatro tipos de ddNTP, que ao serem excitados, emitem luz característica do ddNTP incorporado. Fluoróforos: corantes especiais, que emitem luz ao serem atravessados por feixe de raios laser. Os materiais necessários para a realização do Sanger automático são os mesmos: a única diferença é que, ao invés de eu dividir a reação em 4 tubos, todos os ddNTPs (ddATP, ddTTP, ddCTP e ddGTP) são colocados em um ÚNICO TUBO devido à marcação com o corante. Desse modo, as quatro reações passam a ocorrer em um único tubo, e seu conteúdo podia agora ser aplicado em uma única canaleta do gel, otimizando o numero de amostras analisadas. Nos anos 90, os géis (de difícil manuseio) foram substituídos por finíssimos capilares preenchidos com gel onde os fragmentos de DNA são separados em altíssima velocidade. Nesse caso, após as reações de sequenciamento (amplificação interrompida via PCR), as amostras são aplicadas, através de um sistema de eletroinjeção, diretamente nos capilares. Após a eletroinjeção, os fragmentos começam a migrar e encontram, num determinado ponto, um feixe de raios laser que excita os fluoróforos presentes na extremidade 3´ de cada fragmento, fazendo com que estes emitam fluorescência característica de um dos quatro tipos de fluoróforos. Um detector registra esta fluorescência e a transmite para um computador que possui um software capaz de converter fluorescência em picos coloridos, sendo utilizado uma única cor para cada um dos quatro tipos de nucleotídeos. Este procedimento é efetuado para cada fragmento no gel. No final do processo, o software gera um cromatograma (ou eletroferograma) que corresponde a sequencia de DNA complementar ao DNA molde utilizado. Apenas para retomar o principio do sequenciamento: no Sanger automático, a amostra de DNA, os primers, a DNA polimerase, a solução tampão, todos os dNTPs e todos os ddNTPSs são colocados em um único tubo de reação. Ao longo da reação, fitas complementares ao DNA molde vão sendo sintetizadas a partir da incorporação de dNTPs. No entanto, quando um ddNTP é incorporado, a amplificação é interrompida e a fita para de crescer. Como várias fitas são construídas, em cada fita o ddNTP pode estar incorporado em um lugar diferente. Ao correr as fitas nos capilares, as fitas menores correm mais, e as fitas maiores correm menos. Como os ddNTPs de A, T, C e G tem cores diferentes, é possível identificar quais os nucleotídeos de terminação, e a partir de uma câmera CCV, que lê os comprimentos de onda emitidos pelos corantes, a informação é enviada a um software para que ele elabore um cromatograma (também chamado eletroferograma). Dentre as vantagens desse método, podemos citar: menor custo, maior segurança devido a não utilização de radioatividade na revelação (aqui, é usada a fluorescência), e é um método mais rápido. A técnica permite sequenciar cerca de 300 bases (tem lugar que fala que sequencia até 300, outros de 300 a 500). O problema é que ela não permite sequenciar genomas inteiros. Monalisa disse que a concentração de ddNTP é igual a de dNTP nesse método, mas não sei. Após a desnaturação da dupla fita, ddNTP marcados com compostos florescentes são incorporados à cadeia de DNA sintetizada pela DNA polimerase. Através de um sistema de eletroinjeção, os fragmentos de DNA recém sintetizados come- çam a migrar e encontram, num determinado ponto, um feixe de raios laser que excita os fluoróforos fazendo com que estes emitam fluorescência característica de um dos quatro tipos de nucleotídeos. Um detector registra a intensidade e comprimento de onda desta fluorescência e a transmite a um computador que possui um software capaz de converter fluorescência em um cromatogra- ma, que são decodificados na sequencia de nucleotídeos do fragmento. DISCUSSÃO EM AULA: pelo método Sanger, eu consigo sequenciar um gene? NÃO! Um gene eucarioto tem, em média, 3000 pares de bases, e o método de Sanger sempre sequencia de 300 a 500 pares de bases. O que pode acontecer é: na sequencia obtida pelo Sanger, eu posso ter um fragmento de algum gene, ou fragmentos de 2 genes. SE EU QUISER SEQUENCIAR um genoma eucariótico completo, isso é possível, mas é necessário utilizar técnicas de shotgun e sobreposição de sequências (reads). Com isso, consigo montar meu assembly (assembly é o ato de juntar pequenos fragmentos sequenciados; é a utlima figura abaixo), e por fim montar o meu contig (contig é a sequencia contínua do DNA que eu sequenciei). A sequência completa do meu genoma consiste na união de vários contigs. (arquivo do SHOTGUN em anexo) DISCUSSÃO EM AULA (II): como eu identifico um gene? Eu posso fazer isso de três formas, principalmente: Alinhando meu contig a um banco de dados Identificando regiões promotorasno próprio DNA, ou seja, regiões que antecedem um gene (ex: TATA box) Eu posso fazer um knockout para verificar se aquela sequência é, realmente, responsável pela expressão daquela característica. Knockout é uma técnica que consiste em bloquear a expressão de um gene específico (gene sofre deleção ou inativação). c) Método de Nova Geração (NGS – Next Generation Sequencing) Após a publicação do genoma humano houve um avanço nas tecnologias de sequenciamento culminando no surgimento dos “sequenciadores de segunda geração” ou “sequenciadores de nova geração”. Os sequenciadores de Nova Geração permitiram uma ampla aplicação do uso das sequências. Eles permitiram o sequenciamento do genoma COMPLETO, permitiram o uso da técnica de RNA-seq (que permite o estudo da expressão gênica em situações adversas, como o estresse), metagenômica, analise de variantes (SNPs – polimorfismo de nucleotídeo único - e INDEL – inserção e deleção de bases), sequenciamento de uma única célula, etc. O método NGS é mais rápido, demanda menor custo e possui maior capacidade de leitura (com capacidade de sequenciar genomas rapidamente). Nesse método, as sequencias fornecidas são mais curtas, mas MUITAS sequências são lidas por rodada, acelerando o processo. Existem vários equipamentos NGS, como Illumina, Ion torrent, etc. O Illuminna é capaz de ler 7 GB de dados de 3 a 7 dias. Já o Ion Torrent é capaz de ler 1 GB de dados em 4h30, ou seja, é mais rápido, além de ser barato. Nessa aula, vamos comentar sobre a tecnologia Illumina. Atualmente, é o padrão-ouro para muitas das análises de NGS. Utiliza como base o sequenciamento por síntese (SBS). Além do mais, é uma metodologia extremamente versátil e barata. O princípio desta metodologia é similar ao método proposto por Sanger, pois temos em ambas a síntese de uma fita complementar ao DNA alvo utilizando DNA polimerase e nucleotídeos marcados com diferentes fluoróforos. A fluorescência emitida após a incorporação de cada nucleotídeo é registrada como imagem e no final, através de uma decodificação destas imagens, tem se a sequencia de interesse. A técnica se baseia em 3 etapas: preparação de bibliotecas formação de clusters sequenciamento análise de dados. PREPARAÇÃO DE BIBLIOTECAS Como toda técnica de sequenciamento de segunda geração, é preciso primeiro preparar as bibliotecas contendo o DNA a ser sequenciado. A preparação da amostra começa com a extração e a purificação do DNA. Em seguida, o DNA é fragmentado por enzimas de restrição (mas também pode ser fragmentado por um processo químico ou mecânico). Usam-se enzimas de restrição porque desejamos a formação de extremidades coesivas, formadas pela clivagem ao redor do eixo de simetria. Ao usar um enzima de restrição X, eu já sei quais os nucleotídeos existem nas extremidades dos fragmentos. Apenas para retomar o funcionamento das enzimas de restrição: cada enzima de restrição é capaz de reconhecer um conjunto de nucleotídeos específico, e clivar essa sequência. Quando falamos de enzimas do tipo II, o local de clivagem ocorre dentro ou nas extremidades da sequência reconhecida. A clivagem Um dos problemas do Illumina é que, como ele gera sequências curtas, o contig é mais difícil de ser montado quando comparado ao método de Sanger. Basta imaginar, por exemplo, um quebra cabeças: o que é mais difícil montar, um quebra cabeça com peças grandes ou com peças pequenas? As pequenas são mais difíceis, e o mesmo vale para o Illumina. Esses sequenciadores, então, precisam de um GENOMA DE REFERÊNCIA, que funciona como a caixa do quebra cabeça, contendo a figura que deve ser montada. Se eu não tiver um genoma de referência, eu posso usar um PSEUDOGENOMA DE REFERÊNCIA (ex: se eu quero sequenciar a cana, mas não tenho seu genoma de referência, eu posso usar a sequência do sorgo como PSEUDOGENOMA). pode ser no eixo de simetria, formando fragmentos com extremidades “cegas”, ou ao redor do eixo de simetria, formando fragmentos com extremidade coesiva. O interessante aqui são as extremidades coesivas. Como eu sei que cada enzima reconhece uma determinada sequência, eu já sei quais nucleotídeos estão presentes nas extremidades dos fragmentos. Tendo como exemplo a EcoRI da imagem abaixo, eu sei que ao usar essa enzima de restrição no meu DNA, terei fragmentos com extremidade CTTAA ou AATTC Após a fragmentação do DNA, é adicionado um oligonucleotídeo (chamado de “adaptador”) em ambas as extremidades de cada fragmento (vamos chamar de adaptadores A e B). Os adaptadores têm a função de imobilizar os fragmentos fita simples, pela hibridização a primers complementares, numa placa de vidro (flowcell) onde acontecerá todo o processo. Diferente do método de Sanger, aqui o sequenciamento e a leitura das sequências acontece tudo junto, na lâmina de vidro (flowcell). Uma lâmina tem 8 canais, e eu posso colocar de 1 a 12 amostras por canal (375 MB por canal). Logo, eu teria de 3 a 3,5 GB de bases por lamina em 48 horas. FORMAÇÃO DOS CLUSTERS As moléculas de DNA fita simples são aderidas por afinidade a placas de vidro, onde estão também aderidos, em alta densidade, oligonucleotídeos complementares aos adaptadores A e B (como mostra a imagem ao lado). Cada lâmina da flowcell é composta por canais, e cada canal é revestido por dois tipos de oligonucleotídeos: um complementar ao adaptador A e outro complementar as adaptador B. Esses oligonucleotídeos são fixados na placa pela extremidade 5’, deixando a extremidade 3’ livre para servir de iniciador (primer) para a síntese de cadeia. O adaptador da extremidade livre liga-se ao primeiro tipo de oligonucleotídeo complementar, adjacente na placa de vidro. A alta densidade de oligonucleotídeos ligados a flowcell facilita esta ligação. Após a ligação, ocorre a fixação da fita de DNA na flowcell. Clusterização nada mais é do que a amplificação de cada fragmento. Em seguida, a DNA polimerase cria uma fita complementar ao fragmento de DNA molde fixado na placa utilizando nucleotídeos NÃO MARCADOS. A dupla fita é, então, desnaturada, e a amostra de DNA original é removida. O adaptador da extremidade livre desta fita recém-sintetizada se anela ao segundo tipo oligonucleotídeo complementar presente no suporte, formando uma estrutura em ponte, que dá nome ao processo de amplificação (amplificação em ponte). Uma vez fornecidos os reagentes necessários, a DNA polimerase começa a polimerizar a partir do oligonucleotideo do suporte, estendendo uma fita complementar. Com isso, uma “ponte de dupla fita” é formada. Posteriormente ocorre uma elevação de temperatura no suporte sólido. Com isso, essa ponte é desnaturada, resultando em duas fitas simples, fixadas na flowcell. Cada uma dessas duas fitas realiza, novamente, a etapa de anelamento, onde suas extremidades livres vão ao encontro dos oligonucleotídeos complementares no suporte, formando novas estruturas de ponte. Com a elevação da temperatura, as fitas se separam e, com isso, um novo ciclo de amplificação é iniciado. Esses ciclos são repetidos 35 vezes e assim as cerca de mil cópias geradas de cada fragmento nessa PCR de fase sólida permanecem próximas umas das outras, formando um cluster de sequenciamento. Cada um desses grupinhos consiste em um conjunto de uma única sequência, ou seja, dentro de cada um, apenas uma sequencia molde é amplificada. Com isso, no grupinho da esquerda eu tenho clusters frutos da amplificação do fragmento de DNA X, no grupinho do meio eu tenho clusters frutos da amplificação do fragmento de DNA Y, etc. Pode acontecer, as vezes, de dois grupinhos amplificarem o mesmo fragmento. Depois da “amplificação de ponte” e da desnaturação, as fitas reverse são clivadas e removidas, deixando apenas as fitas forward.. SEQUENCIAMENTO Nessa etapa, paraque ocorra o sequenciamento, é necessário bloquear a extremidade 3’ da fita para evitar um anelamento indesejado com um oligonucleotídeo do suporte. Em seguida, eu anelo um primer na fita (na região de “sequencing primer”, da primeira figura), e é a partir desse primer que a cadeia complementar será sintetizada. Após os 35 ciclos de sequenciamento, são adicionados, ao longo de toda a extensão da placa, uma solução contendo os quatro tipos de nucleotídeos (A, T, C, G) terminadores reversíveis, marcados com fluoróforos. Com isso, durante a polimerização da fita complementar, os nucleotídeos marcados com fluorescência que sejam complementares à fita molde, são incorporados na cadeia, e depois da incorporação de cada nucleotídeo, os corantes são clivados para permitir a incorporação da próxima base. Esse processo de sequenciamento é chamado de “sequenciamento por síntese” (SBS – Sequencing by Synthesis). Ao ocorrer a incorporação de um nucleotídeo, a fluorescência é excitada por uma série de lasers , emitindo um sinal que captado por um dispositivo de leitura. Esse sinal identifica qual tipo de nucleotídeo foi incorporado , e a intensidade da fluorescência emitida é proporcional ao número de fragmentos dos clusters. O número elevado de fragmentos nos clusters (mais de 1 milhão) é necessário para produzir intensidade suficiente que permita detectar com exatidão uma determinada base no sequenciamento. Logo, vários clusters são sequenciados simultaneamente, o que é uma grande vantagem do método, visto que acelera o processo. Cada base é lida à medida que é adicionada à cadeia recém-formada de DNA. Após a captura das imagens, e após a síntese do primeiro read (fragmento complementar à fita forward), o read é removido, e inicia-se o próximo ciclo de incorporação. Para isso, a extremidade 3 ’ da fita é desbloqueada, a fita adquire o formato de ponte novamente com um oligonucleotídeo complementar do tipo 1 aderido no suporte. A polimerase estende uma nova cadeia, formando uma “ponte de dupla fita”. Essa ponte é então linearizada, e a extremidade 3’ é bloqueada novamente. A fita forward, usada na primeira leitura, é removida, restando apenas a reverse. O segundo read, então, começa a ser produzido a partir do primer anelado (na região de “sequencing primer”), e é a partir desse primer que a cadeia complementar será sintetizada. Assim como na primeira leitura, os nucleotídeos são incorporados, emitindo um sinal, que é captado por um dispositivo de leitura. Depois do crescimento do read, o read é removido e o ciclo recomeça. Este processo se repete até que todas as bases de um determinado fragmento sejam determinadas. O processo de incorporação de nucleotídeo marcado, excitação e leitura são repetidos para cada nucleotídeo componente da sequência. Ao final da corrida, prossegue-se com a análise de dados. ANÁLISE DE DADOS Esse processo de sequenciamento gera bilhões de reads, que representam todos os fragmentos do DNA (fragmentado lá no comecinho). Os fragmentos com regiões similares são agrupados localmente. Durante o processo, foram formados reads Forward e Reverse, que ao serem pareados, criam as sequencias contig (lembrando que um genoma inteiro nada mais é do que a união de vários contigs). Essas sequências contig são, por fim, alinhadas com base na complementaridade entre suas extremidades, e de acordo com o genoma de referência. As informações das extremidades de cada read são importantes para resolver alinhamentos ambíguos. --------------------- ESQUEMA RESUMIDO:
Compartilhar