Baixe o app para aproveitar ainda mais
Prévia do material em texto
BIOINFORMÁTICADEFINIÇÃOÉ uma ciência que usa ferramentas computacionais para estudar informações biológicas, com o objetivo de quantificar, simplificar e integrar os dados obtidos de experimentos (DNAs, RNAs e proteínas) de forma organizada, promovendo conclusões de forma simples e rápida. PROJETO GENOMA HUMANO O objetivo do projeto foi determinar a ordem das bases nitrogenadas (A,T,C e G) de todos os cromossomos humanos. (1980- 2003) ORIGEM • Em 1990, como ciência multidisciplinar baseada na Biologia Molecular, Biologia Computacional e Matemática. • A partir das descobertas sobre a composição do DNA, como se replica e como pode ser traduzido em proteína (Watson e Crick 1953). • Desenvolvimento de computadores mais rápidos (Segunda Guerra Mundial 1939-1945 Alan Turing) • Uso de computadores para o estudo de biomoléculas (Atlas de Proteínas– ordem de formação de algumas proteínas) cientista Margaret Dayhoff 1965 • Programa para visualizar a estrutura tridimensional de moléculas por John Ward e Robert Stotz) ATUAÇÕES • Identificação das estruturas de proteínas: prever o modo de ligação e os detalhes do reconhecimento entre moléculas para o desenvolvimento de fármacos • Área forense: determinar a origem das amostras biológicas • Agricultura: desenvolvimento de novas variedades de cultura com maior produtividade e mais resstentes a pragas • Medicina personalizada: comparação de sequências de DNA permite a criação de marcadores e perfis específicos individuais para diagnósticos e tratamentos. FUNÇÃO • Analisar sequências, estruturas e funções de moléculas biológicas. • Análise de estruturas (prever a forma de DNAs, RNAs e proteínas, como interagem com outras moléculas e como atua no funcionamento da célula) • Armazenar informações biológicas VARIABILIDADE GENÉTICA • Pode ser medida pelo percentual de médio da quantidade de alelos heterozigotos ( par de genes com composição de nucleotídeos diferentes) ou pela observação da diversidade molecular nas sequências de nucleotídeos gerada por mutação • A existência de alelos heterozigotos em uma espécie reflete a variabilidade genética (resultado de mistura de indivíduos homozigotos que apresentam alelos homozigotos diferentes para uma mesma característica) MUTAÇÃO GÊNICA Alteração na sequência pontual dos nucleotídeos do DNA (não necessariamente fenotípica), pois a maioria das mutações acontece: • Regiões não codificantes do DNA • Não levam às alterações na proteína que será codificada Podem acontecer espontaneamente ou ser induzidas por exposição a agentes físicos/químicos. EVOLUÇÃO E MATERIAL GENÉTICO O principal mecanismo molecular responsável pela variação dos genes são as mutações gênicas (eventos genéticos que acontecem de forma aleatória e refletem no maus funcionamento do processo de replicação ou reparo do DNA), podem ser: • Inserção de uma base incorreta na cadeia de DNA • Interferência química sobre as bases nitrogenadas do DNA CLASSIFICAÇÃO DAS MUTAÇÕES CELULARES • Mutações somáticas: acomete qualquer célula do organismo (exceção células germinativas) sendo transferido apenas para células-filhas da célula original (podendo não afetar o organismo inteiro) • Mutações germinativas: ocorre nas células gaméticase e acometem todas as células e serão transmitidas à descendência. MUTAÇÃO PONTUAL • Adição ou inserção: adição de nucleotídeos extras em uma determinada sequência do DNA • Substituição: troca de nucleotídeos incorporados na sequência de DNA • Deleção: perda de um ou mais nucleotídeos de uma determinada sequência do DNA SUBSTITUIÇÃO DE UM NUCLEOTÍDEO Pode levar a uma mutação silenciosa, pois este novo códon irá codificar o mesmo aminoácido do códon anterior. Podem ser classificadas: • Mutação de sentido trocado: quando a substituição de nucleotídeos gera um novo códon e este corresponde a um aminoácido diferente, acarretando alteração na estrutura da proteína • Mutação sem sentido: quando a substituição gera um códon de parada, não corresponde a nenhum aminoácido e determinará uma terminação prematura da proteína traduzida • Mutação de fase de leitura: quando a inserção ou a deleção de um ou alguns nucleotídeos levam a alterações mais drásticas nos códons e em consequência, na proteína resultante (alteram todas as trincas de pares de bases no gene) CONSEQUÊNCIAS O que determina a consequência é o local e a extensão desta mutação. • Podem não acarretarem alteração na expressão gênica (região íntrons ou não codificantes); • Nenhuma alteração da função do produto gênico; • Perda total ou parcial de função do produto gênico; • Ganho de uma nova função para o produto gênico; TAXAS DE MUTAÇÃO São raras, acontecem em taxa baixa e variam entre os diferentes organismos • Células humanas: (10¯⁹) • Vírus: (10¯³) DUPLICAÇÃO GÊNICA É um processo de duplicação de um fragmento de DNA, que pode ser gerado por meio de recombinação desigual dos cromossomos homólogos durante a meiose fazendo com que parte do cromossomo seja duplicada ou através da movimentação da transposons que carreiam informações genéticas do organismo para regiões diferentes do genoma, podendo ser transmitida para os descendentes. PROCESSO DE ESPECIAÇÃO É um processo evolutivo no qual novas espécies surgem a partir das modificações de uma espécie ancestral associados a alteração genéticas: mutações; fluxo gênico; deriva genética e seleção natural. • Especiação alopátrica: a interrupção do fluxo gênico ocorre a partir do surgimento de uma barreira geográfica que separou as duas populações, isolando-as e forçando a adaptação e evolução distinta. • Especiação simpátrica: o fluxo gênico é interrompido mas elas ainda compartilham a mesma região geográfica DOGMA CENTRAL DA BIOLOGIA MOLECULAR Francis Crick - 1958 A informação é conservada através da replicação do DNA e é traduzida através dos processos de transcrição. Tais processos convertem a informação do DNA em uma forma mais acessível, representada por uma fita de RNA complementar e de tradução, que converte a informação contida no RNA em proteínas. EXPRESSÃO GÊNICA Processo em que a informação codificada por um determinado gene é traduzida e decifrada em proteína. Ex: expressão gênica controlada regula o processo de desenvolvimento embrionário e sua diferenciação. A ausência ou desequilíbrio de mecanismos de regulação gênica, pode determinar o estabelecimento de doenças. HOMOLOGIA X ANALOGIA • Homologia: processo evolutivo de estruturas apresentam a mesma origem embrionária, apesar se exercerem funções diferentes, apresentam semelhanças (ex: braço humano x asa pássaro) – ancestralidade comum • Analogia: processo evolutivo de estruturas com origem embrionária distintas, porém apresentam semelhanças funcionais (ex: asa de ave x asa de inseto) – convergência evolutiva e não ancestralidade. GENES PARÁLOGOS E ORTÓLOGOS A evidência evolutiva de que as espécies evoluíram por homologia é a presença de genes homólogos (genes que apresentem sequências nucleotídicas iguais ou altamente semelhantes que podem codificar para estruturas com a mesma função ou não). Podendo ser de dois tipos: • Genes parálogos: são genes que divergiram após o processo de duplicação dentro do genoma de uma mesma espécie. As espécies descendentes apresentam mais de uma cópia do gene com funções distintas. • Genes ortólogos: são genes que divergiram após o processo de especiação, onde cada descendente apresenta uma cópia do gene, apresentando um ancestral comum e apresentando as mesmas funções. CONSTITUIÇÃO DO DNA Os diferentes tipos celulares em um organismo multicelular possuem o mesmo genoma, porém diferem drasticamente em estrutura e função, pois sintetizam diversas moléculas de RNA e proteínas. Algumas de suas especificidades são: • Processos e produtos gênicos em comum (proteínas estruturais dos cromossomos, RNA e DNA polimerases, enzimas de reparo DNA, proteínas ribossômicas e RNAs) • Produção de proteínas especializadas em seus locais determinados, não sendo utilizados em outros locais (hemoglobinanas hemácias) • Os padrões genéticos varia de acordo com o tipo de célula • Existe uma gama complexa de diferenças no padrão final de produção de proteínas. CONTROLE DAS PROTEÍNAS A célula pode controlar as proteínas de seis formas: • Controle transcricional: regulando quando e como um determinado gene é transcrito • Controle do processamento de RNA: controlando como o transcrito de RNA é processado • Controle do transporte e da localização de RNA: selecionando quais mensageiros completos serão exportados do núcleo para o citoplasma e onde ficarão localizados • Controle traducional: selecionando quais RNAs mensageiros no citoplasma serão traduzidos pelos ribossomos • Controle da degradação do RNAm: desestabilizando de forma seletiva algumas moléculas de RNAm no citoplasma • Controle da atividade proteica: ativando, inativando, degradando ou compartimentalizando moléculas de proteínas específicas após sua produção CONTROLES TRANSCRICIONAIS O controle transcricional garante que a célula não sintetizará intermediários desnecessários. Esse controle é regulado por reguladores transcricionais (proteínas que ligam-se ás sequências de DNA específicas próximas dos sítio de início da RNA polimerase e podem ativar ou reprimir a sequências promotoras de gene (sequências de DNA específicas importantes para o início da transcrição). CONTROLES PÓS - TRANSCRICIONAIS Operam após a RNA polimerase ter se ligado ao promotor do gene e iniciado a síntese do RNA, fazendo a regulação da quantidade de produto gênico ou a sequência de aminoácidos. SPLICING É um processo de maturação de um pré- mRNA (RNA precursor), nesse processo as regiões não codificantes (íntrons) são retiradas do pré-mRNA, que passa a conter somente as regiões codificantes (exons).O splicing pode ocorrer durante e/ou após a transcrição do pré-mRNA. Éxons: sequência codificante de um gene formada por um série de códons (compostos por três nucleotídeos) Íntrons: sequências não codificantes que se alternam entre os éxons. Nos organismos procariotos esse processo não ocorre, pois a transcrição e a tradução são simultâneas e o RNA não sofre processamento, já nos eucariotos a transcrição ocorre no núcleo e a tradução no citoplasma. Splicing alternativo: durante a expressão génica, éxons de um transcrito primário são clivados em locais diferentes na molécula de RNA recém sintetizada, deste modo com as diferentes composições dos íntrons que foram removidos, os mRNA maduros são compostos de bases com sequências diferentes, implicando assim em códons diferentes e consequentemente em polipeptídeos com sequências de aminoácidos distintas, o que constitui proteínas de diferentes funções que foram codificadas por um mesmo gene. O processo de splicing pode criar várias proteínas únicas por variações no splicing do mesmo transcrito primário. TERAPIA GÊNICA Manipulação ou correção da expressão gênica em células-alvo ou transferência de genes para células com finalidade terapêutica. PESQUISA CIENTÍFICA EXPERIMENTAL EM BIOINFORMÁTICA O desenho experimental é o primeiro passo para produzir resultados confiáveis na área da Bioinformática (roteiro que é seguido pelo pesquisador para conduzir a pesquisa de acordo com os objetivos e obter resultados estatisticamente confiáveis). Na área da Bioinformática, as pesquisas científicas são classificadas com experimentais por ter como finalidade testar hipóteses de causa e efeito estabelecidas pelo pesquisador selecionando a população, controles e as variáveis que serão manipuladas. DESENHO DE UMA PESQUISA EXPERIMENTAL • Estabelecer uma ideia de relação causa- efeito • Estabelecer hipóteses que serão testadas: trabalhar com duas hipóteses ( a nula e a alternativa); achar evidências que possibilitem aceitar a hipótese alternativa (declara que existe uma relação causa-efeito) e recusar a hipótese nula (declara que não existe relação causa-efeito); • Determinar a população e as variáveis que serão manipuladas: selecionar a população de forma que a amostragem seja representativa da população que será estudada; considerar as variáveis independentes (que influenciam ou afetam outras variáveis) e as variáveis dependentes (que são influenciadas pelas independentes) • Executar o experimento e observar os resultados validar os resultados de forma estatística; • Formular as conclusões sobre a hipótese estabelecida TRANSPORTE E ARMAZENAMENTO DE AMOSTRAS DESTINADAS À EXTRAÇÃO DE ÁCIDOS NUCLEICOS Diversas fontes podem ser utilizadas como fonte de ácidos nucleicos: • Sangue: pode ser centrifugado para a obtenção do soro ou plasma, deve ser armazenado em geladeira (2-8°C) por até oito dias ou congelados por bastante tempo. Para obtenção tanto do RNA quanto do DNA, a amostra deve ser mantida congelada a -20ºC. O sangue total é estável à temperatura ambiente por até 24h para obtenção do DNA, e para a extração do RNA, ele deve ser mantido a -20ºC. As amostras de sangue total, soro ou plasma que serão destinadas à extração de ácidos nucleicos devem ser transportadas congeladas em caixas isotérmicas com gelo seco, evitando o ciclo de descongelamento. • Aspirado de medula: a extração deve ser feita com agulha específica com o EDTA. Quando a amostra for destinada à extração de RNA, ela deve ser imergida imediatamente em solução estabilizadora e armazenada a -70ºC, se a extração não for realizada o mais breve possível. Para a extração de DNA, o aspirado de medula pode ser armazenado em geladeira por até 72h. Caso o processamento ocorra posteriormente, é recomendado armazenar a amostra no freezer a -20ºC. O transporte de aspirado de medula deve ser realizado com gelo triturado, se a amostra estiver descongelada ou em gelo seco, se a amostra estiver congelada. • Amostra de tecido: As amostras de tecidos são geralmente utilizadas para extração de ácidos nucleicos em situações pontuais quando há necessidade especificamente de um tipo de genótipo celular. A coleta é invasiva e conhecida como biópsia. Este procedimento deve ser realizado por médico capacitado. Para a obtenção do DNA, o material coletado deve ser imediatamente resfriado após a coleta. O transporte pode ser efetuado em caixa isotérmica com gelo triturado e o armazenamento pode ser feito em geladeira por até 24h, no freezer a -20ºC, por até 14 dias ou no freezer a -70ºC, por até dois meses. Para a obtenção do RNA, as amostras de tecidos devem ser imergidas imediatamente em solução estabilizadora, podendo, assim, ser transportadas resfriadas em gelo triturado. O armazenamento deve ser feito em baixas temperaturas, com intuito de diminuir ou paralisar o metabolismo celular, já que o RNA é muito instável. Desta forma, as amostras podem ser mantidas em freezer a -70ºC ou por tempos maiores, em nitrogênio líquido (-196,1ºC). • Células bucais: As células bucais são excelentes fontes de DNA e RNA e o procedimento de coleta empregado nesse caso não é invasivo. A obtenção das células bucais pode ser realizada por meio da raspagem ou swab e também por meio de bochecho. É importante que, para obtenção do RNA, a amostra seja misturada após a coleta com a solução estabilizadora. As amostras de células bucais podem ser transportadas em temperatura ambiente e apresentam estabilidade nesta temperatura por até uma semana. Para a extração e coleta de RNA deve ser utilizado estabilizadores que a protegem ( por ser instável e facilmente degradada pela ação RNase) isso garantirá mais estabilidade à amostra, eliminando a necessidade do processamento imediato ou congelamento. EXTRAÇÃO DE ÁCIDOS NUCLEICOS A extração de ácidos nucleicos é um processo de separação destes de todos os outros componentes celulares. É preciso remover impurezas e substâncias inibidoras da amostra e para a extração é necessário utilizar reagentes químicos com propriedades que beneficiem a separação combinados com o processo de centrifugação. Existem diferentes protocolos de extração de ácidos nucleicos, utilizando reagentes diversos. Alguns procedimentos podem ser realizados de forma manual e outros automatizados.Entre os protocolos mais conhecidos, estão os protocolos à base de fenol-clorofórmio, isotiocianato de guanidina ou sílica. Independentemente do protocolo, o processo de extração pode ser dividido basicamente em três etapas: • Lise das membranas lipídicas • Precipitação das proteínas • Preciptação do DNA Extração com base no fenol-clorofórmio: - Rompimento da membrana plasmática celular e da membrana nuclear pela ação de substâncias detergentes como brometo de cetiltrimetilamômio (CTAB); - Centrifugação para remoção de debris lipídicos - O ácido etilenodiaminotetracético (EDTA) é utilizado como cofator inibidor de DNases (este ácido é um agente quelante de íons bivalentes) - Após a liberação do ácido nucleico, a molécula deverá ser separada dos demais componentes contaminantes da amostra: As proteínas. Para efetuar a retirada e inativação das proteínas, é necessário o tratamento da amostra com uma série de substâncias como: Fenol-clorofórmio ou trizol (desnaturam proteínas), proteinase K (inativa nucleases), NaCl (rompem as ligações iônicas da cadeia proteica) e outras. - O fenol-clorofórmio promove a desnaturação das proteínas contaminantes e atua na separação dos componentes em duas fases após a centrifugação: Fase fenólica (onde estão as proteínas) e a fase aquosa (onde está o DNA ou RNA). - Para finalizar a extração, o DNA ou RNA pode ser precipitado após a adição de etanol à mistura (promove alteração transitória na estrutura dos ácidos nucleicos levando a sua agregação e precipitação) - Ao final do processo, o ácido nucleico poderá ser solubilizado em água e armazenado em freezer ou geladeira para análises futuras QUANTIFICAÇÃO E VERIFICAÇÃO DA QUALIDADE DO MATERIAL EXTRAÍDO A análise de quantidade e qualidade do material extraído é uma etapa essencial para a garantia dos resultados do estudo. É preciso checar se o processo de extração funcionou, há apenas o ácido nucleico na amostra, e se há quantidade de material suficiente para iniciar um método de Biologia Molecular. • Verificar se houve ou não degradação da amostra durante o processo • Evitar o excesso de ácido nucleico aplicado na PCR (ou outra técnica de Biologia Molecular), o que dificulta a análise do resultado • Minimizar resultados falso-negativos pela baixa concentração de DNA/RNA na reação Existem três metodologias que podem ser utilizadas nestas análises: • Eletroforese: consiste na migração da molécula de ácido nucleico sobre a influência de um campo elétrico, ou seja, diferença de potencial (polo positivo e polo negativo). O DNA/RNA são moléculas com carga negativa devido à presença do grupamento fosfato (PO4-). Assim, eles migram do polo negativo em direção ao polo positivo. Essa migração acontece sobre uma matriz gelatinosa que permite a passagem das moléculas. Geralmente, a matriz é um gel formado de poliacrilamida ou agarose. Durante a preparação do gel, um composto químico chamado brometo de etídio é adicionado como corante pela sua capacidade de se ligar ao DNA/RNA e emitir fluorescência quando é excitado com luz ultravioleta. Durante a corrida da eletroforese, as moléculas de ácidos nucleicos, além da influência do campo elétrico, migram de acordo com o seu peso molecular, ou seja, moléculas maiores (mais pesadas) migram de forma mais lenta pelo gel do que moléculas menores (mais leves). Dessa forma, é formado um padrão bandas, de acordo com o peso das moléculas corridas. O padrão da banda é analisado por um densitômetro que mede a transmitância e, assim, a partir do uso de fórmulas matemáticas, é possível chegar à concentração aproximada de ácidos nucleicos na amostra. A desvantagem da eletroforese em relação às outras técnicas é que a quantificação é imprecisa, pois não é avaliada a presença de moléculas contaminantes na amostra. • Espectrofotometria: é uma metodologia ótica realizada em um instrumento chamado espectrofotômetro, no qual a quantificação das moléculas se baseia na quantificação da luz absorvida (absorbância) por ela. Toda substância, ao receber uma quantidade de luz, é capaz de absorvê-la, produzindo excitação nos elétrons, que passam para níveis energéticos mais altos. Cada molécula necessita de uma quantidade específica de energia para promover a excitação. No caso do DNA/RNA, essa energia obtida no comprimento de onda é 260nm. Quanto maior for a quantidade de DNA e RNA presente na amostra, maior será o valor de absorbância lida pelo aparelho. Logo, a absorbância é proporcional à concentração da molécula lida. Para fazer a correlação entre absorbância e mg de ácido nucleico, utiliza-se a seguinte proporção: O valor 1 de absorbância corresponde a 50mg de DNA fita dupla e 32,7mg de RNA fita simples. Para avaliar a qualidade do material, verificar a presença de moléculas contaminantes, a amostra pode ser lida no comprimento de onda de 280nm, pois é nesta faixa que as ligações peptídicas das proteínas se excitam. Assim, a pureza da amostra de ácidos nucleicos extraídos pode ser realizada com as leituras em 260 e 280nm, analisando-se a relação 260/280. Se o resultado obtido estiver entre a faixa de 1,8 a 2,0, a amostra se encontra em boas condições para o uso, diferente do que ocorre em faixas menores do que 1,6, onde será necessário repetir o processo de extração. • Fluorimetria: é uma técnica de espectroscopia eletromagnética que analisa a luz emitida pelas moléculas fluorogênicas. O DNA e RNA são ligados ao corante fluorescente. Ao serem excitados pela absorção de luz, eles emitem luminosidade fluorescente proporcional à concentração da amostra lida. É possível utilizar corantes diferentes para cada molécula, o que permite distingui-las dentro de uma mesma amostra. Este método também é indicado para amostras com concentração muito baixa de DNA ou RNA que não conseguem ser analisadas por espectrofotometria. EVOLUÇÃO NOS MÉTODOS DE SEQUENCIAMENTO GENÔMICO • 1953 – primeira sequência proteica; • 1953 - Watson e Crick propuseram o modelo de dupla hélice do DNA • 1970- as informações sobre métodos de sequenciamento direto do DNA eram baseados em estudos de genética reversa (a sequência de aminoácidos do produto do gene de interesse é retro- traduzida em uma sequência de nucleotídeos com base nos códons apropriados), um processo ser complicado e os resultados não corresponderem à realidade. • 1977- Sequenciamento químico de Maxam- Gilbert (baseada em hidrólise química para obtenção da sequência de nucleotídeos de fragmentos maiores de DNA), e outra por Frederick Sanger e cols. (baseada em reações enzimáticas), que permitiram determinar a sequência de nucleotídeos de fragmentos maiores de DNA • 2000- dois primeiros métodos de sequenciamento de DNA (Maxam-Gilbert) conhecido como método de clivagem química e o método de terminação de cadeia de Sanger, e o Projeto Genoma Humano, propiciaram o desenvolvimento de soluções tecnológicas mais avançadas para a geração e análise de dados. Lançamento da primeira plataforma de sequenciamento de alto rendimento (eg. high throughput), o Roche 454, propiciou uma redução de 50.000 vezes no custo do sequenciamento. A nova geração de sequenciadores de DNA Sequenciamento de Nova Geração (NGS) continuou a evoluir e aumentou a capacidade por um fator de 100-1.000. O sequenciamento genômico é uma técnica que permite identificar, na ordem correta, a sequência de nucleotídeos de uma molécula de DNA ou RNA, visando conhecer a informação genética contida nesta estrutura. O sequenciamento é feito a partir de moléculas de DNA advindas diretamente do DNA genômico (aquele que contém a maior parte da informação genética dos organismos) ou de outras moléculas de DNA celular como: DNA mitocondrial, DNA cloroplastídico, DNA plasmidial, dentre outros. SEQUENCIANDO GENOMAS 29 A técnica desenvolvida por eles utiliza marcação do DNA alvo a ser sequenciado com fósforo radioativo (P32). O P32 é inicialmente ligado ao dATP formando P32-dATP, que é incorporado pela enzima polinucleotídeo quinase ao DNA a ser sequenciado. Tal incorporação pode ser tanto na extremidade5’ quanto na extremidade 3’, ficando a critério do executor da técnica. Neste método, o rompimento das pontes de hidrogênio da fita dupla de DNA ocorre pela adição de dimetilsulfato e aquecimento a 90ºC. O princípio básico desta técnica consiste na clivagem do DNA alvo marcado, através da utilização de compostos químicos, em posições específicas (antes dos “G”s, antes de “A” ou “G”, antes de “C” ou “T” e antes dos “C”s). A posição a ser quebrada depende do composto químico que é adicionado, num só tipo, a um dos quatro tubos contendo o DNA molde a ser sequenciado. Como resultado, tem-se após a fragmentação um conjunto de fragmentos de diferentes tamanhos em cada um dos quatro tubos. As bandas geradas após a corrida destes fragmentos em gel de poliacrilamida podem ser visualizadas após a impressão de uma chapa radiográfica. A determinação da sequência de nucleotídeos é obtida lendo-se de baixo para cima, um a um, os nucleotídeos representados pelas bandas do gel. MÉTODO DE SANGER Utiliza marcação radioativa, marcando os fragmentos de DNA sintetizados a partir da fita molde. A síntese de novos fragmentos de DNA a partir da fita molde só foi possível graças ao desenvolvimento da técnica de PCR (reação em cadeia da polimerase), que consiste na síntese in vitro de uma fita de DNA complementar a um DNA molde, utilizando os seguintes componentes básicos da replicação celular: • Cópias do DNA molde que deverá ser sequenciado, apresentando relativo grau de pureza; • Enzima DNA polimerase capaz de produzir cópias relativamente fiéis do DNA molde; • Um DNA iniciador (primer) que propicia o início da extensão pela DNA polimerase; • Os desoxinucleotídeos que são as unidades básicas para a construção da fita complementar ao DNA molde. São eles: dATP, dCTP, dGTP e dTTP; • Solução tampão, contendo o cofator magnésio (Mg), necessário para que a enzima DNA polimerase desempenhe sua atividade É necessária ainda a presença de didesoxinucleotídeos (ddATP, ddCTP, ddGTP e ddTTP), que atuam como terminadores da síntese de DNA. A chance dos desoxi ou didesoxinucleotídeos serem incorporados numa determinada posição da cadeia de DNA nascente é a mesma, uma vez que a DNA polimerase não consegue distinguir estes dois nucleotídeos pelo fato da diferença entre eles ser apenas a ausência do grupo OH na posição 3´. No entanto, esta diferença é suficiente para bloquear a síntese da cadeia de DNA nascente. A explicação é simples: Se um desoxinucleotídeo (que é o substrato normal da DNA polimerase) é adicionado, a síntese da cadeia de DNA continua, pois haverá, após sua incorporação na molécula de DNA nascente, a presença de uma hidroxila livre na posição 3´, onde deverá ser ligado o próximo desoxinucleotídeo. Por outro lado, se um didesoxinucleotídeo for adicionado à cadeia nascente de DNA, a síntese da mesma será interrompida neste ponto, pois a ausência do grupo OH na posição 3’ impede a entrada de um novo nucleotídeo (por isso este método é também conhecido como terminador de cadeia ou didesoxi). O princípio da técnica consiste em marcar radioativamente alguns dos desoxinucleotídeos livres em solução ou o primeiro desoxinucleotídeo do primer com P32 ou S35. Após incorporação na cadeia de DNA nascente, estes átomos marcados emitem radiação que é utilizada para impressão de uma chapa radiográfica, permitindo, dessa forma, visualizar os fragmentos resultantes da amplificação. TÉCNICA MÉTODO SANGER • Primeiro, o DNA fita dupla é desnaturado e utilizado para montar quatro reações independentes contendo os mesmos reagentes, com exceção dos didesoxinucleotídeos, que são adicionados separadamente (um determinado tipo em cada reação). • Após um determinado tempo de reação, considerando que nada dirige a entrada de desoxi ou didesoxinucleotídeos na cadeia de DNA nascente e que os mesmos são colocados em excesso na reação, será produzido um conjunto de fragmentos complementar ao DNA molde com tamanhos variados, sendo o tamanho de cada fragmento dependente da posição onde o didesoxinucleotídeo terminador foi adicionado. • Se pensarmos que existem na mistura muitas moléculas do mesmo DNA molde, compreenderemos que todas as posições do DNA molde, em algum momento, terão um dNTP, ora um ddNTP complementar. Assim, teremos amplicons (produto da PCR) terminando em diferentes posições do DNA molde. • O produto heterogêneo de cada uma das quatro reações é aplicado em canaletas diferentes do gel que, frequentemente, têm a poliacrilamida como matriz. Devido ao alto poder de resolução (separação dos fragmentos) deste gel, é possível separar e visualizar fragmentos que diferem entre si por apenas um nucleotídeo. • As bandas produzidas são visualizadas numa chapa radiográfica após sua impressão. Assim, como no método anterior, a análise da ordem das bandas na chapa radiográfica começa pelo final do gel, permitindo determinar a sequência de nucleotídeos da fita de DNA recém- sintetizada. Esta técnica permitiu inicialmente separar de 200 a 300 nucleotídeos por corrida, sendo considerada uma revolução na época em que foi descoberta. APRIMORAMENTO DO MÉTODO DE SANGER Método semiautomatizado: técnica foi aprimorada ficando mais simples, rápida e segura por não utilizar compostos radioativos prejudiciais à saúde humana, consistiu basicamente, na adição aos didesoxinucleotídeos, de corantes capazes de emitir fluorescência quando excitados em comprimento de onda específico, emitindo luz ao serem atravessados por um feixe de raios laser. Método automatizado: nos anos 1990, os géis foram substituídos por finíssimos capilares preenchidos com gel onde os fragmentos de DNA são separados em altíssima velocidade. As amostras são aplicadas através de um sistema de eletroinjeção diretamente nos capilares diminuindo consideravelmente o trabalho do analista. Após a eletroinjeção, os fragmentos começam a migrar e encontram, num determinado ponto, um feixe de raios laser que excita os fluoróforos presentes na extremidade 3´ de cada fragmento fazendo com que estes emitam fluorescência característica de um dos quatro tipos de fluoróforos. Um detector registra esta fluorescência e a transmite para um computador que possui um software capaz de converter fluorescência em picos coloridos, sendo utilizada uma única cor para cada um dos quatro tipos de nucleotídeos (verde para adenina, preto para guanina, azul para citosina e vermelho para timina). Este procedimento é efetuado para cada fragmento no gel. No final do processo, o software gera um cromatograma que corresponde a sequência de DNA complementar ao DNA molde utilizado. O sequenciador MegaBace® é capaz de sequenciar 96 fragmentos de DNA num intervalo de 1 a 3 horas. O sistema continuou sendo aperfeiçoado, sendo possível hoje sequenciar até 384 amostras em uma única corrida. ESTRATÉGIAS DE SEQUENCIAMENTO DE DNA A técnica de sequenciamento automatizada, descrita anteriormente, permite sequenciar com qualidade aproximadamente 700 nucleotídeos consecutivos de um fragmento. Assim, quando o objetivo é o sequenciamento de genomas, seja de organismos simples como bactérias ou organismos complexos como o homem, torna-se necessário: Picotar o DNA em fragmentos menores, sequenciar os pedacinhos obtidos e depois sobrepô-los em busca do genoma completo. As técnicas de fragmentação são várias, dentre as quais destacamos: Uso de enzimas de restrição de corte frequente, como Alu1, e quebra aleatória por fragmentação mecânica do genoma a ser sequenciado (shotgun). A Bioinformática é considerada uma extensão da Biologia Computacional e consiste na utilização de métodos voltados ao estudo do genoma e, atualmente, pode ser dividida em três subáreas: Desenvolvimento de novos anagramas, análise e interpretação de um dado apenas e desenvolvimento e implementação de caracteres. Bioinformática é a utilização e desenvolvimento de ferramentas computacionais para estudo e resolução de problemas biológicos. Ela pode ser definida como uma modalidade que abrange todos os aspectos de aquisição, processamento, armazenamento, distribuição,análise e interpretação da informação biológica. Através da combinação de procedimentos e técnicas da Matemática, Estatística e Ciência da Computação são elaboradas várias ferramentas que nos auxiliam a compreender o significado biológico representado nos dados genômicos. Além disso, através da criação de bancos de dados com as informações já processadas, acelera a investigação em outras áreas como a Medicina e a Biotecnologia. BLAST é uma ferramenta que compara sequências de DNA ou aminoácidos com um banco de dados de sequências de DNA e/ou aminoácidos, não procura conduzir uma comparação da extensão total das moléculas comparadas, mas apenas identificar, no banco de dados, a presença de uma sequência suficientemente parecida com a pesquisada. A Bioinformática nasceu na segunda metade da década de 1990, como consequência do surgimento dos sequenciadores automáticos de DNA, a partir da grande quantidade de sequências a serem armazenadas, exigindo recursos computacionais cada vez mais eficientes. Além do armazenamento, ocorria, paralelamente, a necessidade de análise desses dados, o que tornava indispensável a utilização de plataformas computacionais eficientes para a interpretação dos resultados obtidos. Essa nova ciência envolve a união de diversas linhas de conhecimento, como a Engenharia de Softwares, a Matemática, a Estatística, a Ciência da Computação e a Biologia Molecular. A Bioinformática é importante para a análise de dados em Biologia Molecular e o desenvolvimento de programas aplicativos capazes de solucionar os mais diversos problemas encontrados durante a análise desses dados. Além da criação de bancos de dados que facilitam o acesso à grande quantidade de informação sobre sequências de nucleotídeos e aminoácidos. METAGENÔMICA É uma técnica que permite estudar os genomas de microrganismos de um nicho ecológico sem necessidade de fazer culturas individuais. É uma das aplicações que tem se beneficiado das melhorias tecnológicas trazidas pelo sequenciamento de DNA de nova geração. Os objetivos dos projetos de metagenoma incluem: identificar genes funcionais e/ou novas vias metabólicas; estimar a diversidade microbiana; compreender a dinâmica da população de uma comunidade inteira; montar o genoma de um organismo não cultivado e identificar biomarcadores úteis para classificar um tipo de processo ocorrido em ambientes específicos, como um ambiente poluído, por exemplo. TRANSCRIPTÔMICA A transcriptômica refere-se ao conjunto completo de transcritos (RNAs mensageiros, RNAs ribossômicos, RNAs transportadores e os microRNAs) de um dado organismo, órgão, tecido ou linhagem celular, com o objetivo de determinar os perfis da expressão de todos os genes presentes em um genoma. Busca determinar os perfis da expressão de todos os genes presentes em um genoma, é característico de cada tipo de célula, e pode diferir em função de diferentes situações fisiológicas ou patológicas. A técnicas de microarranjos de DNA (DNA microarray), que se baseia na hibridação em paralelo de ácidos nucleicos. Possibilitando a avaliação simultânea da expressão de milhares de genes em diferentes tecidos de um determinado organismo, e em diferentes estágios de desenvolvimento ou condições ambientais. ESTUDO GENÔMICO Genômica caracteriza-se pelo estudo dos genes e suas funções. A genômica estuda o genoma completo de um organismo, com o objetivo de caracterizar a natureza física desses genomas, a função biológica dos genes e estabelecer relações funcionais e evolutivas. A genômica pode ser: • Estrutural: objetiva a caracterização da natureza física dos genomas completos. • Funcional: busca caracterizar a função biológica dos genes. Para uma análise transcriptômica utilizando microarranjos de DNA, deve-se obter o RNA total purificado da amostra biológica. O próximo passo é isolar o RNA mensageiro (mRNA), a partir do RNA total. Isso garantirá que apenas os genes que estão sendo expressos serão identificados. O mRNA que foi isolado será usado para a construção de uma biblioteca de DNA complementar (cDNA), ou seja, todos os fragmentos de mRNA obtidos serão submetidos a um processo de transcrição reversa (catalisado pela enzima transcriptase reversa), para a produção de suas respectivas sequências de DNA de origem. Os fragmentos da biblioteca de cDNA são, então, marcados com um fluoróforo (componente de uma molécula que faz com que esta seja fluorescente) e colocados sobre um chip de microarranjos, para que a hibridização aconteça. CHIP DE MICROARRANJO É uma superfície de plástico, vidro ou silicone que possui uma coleção de pontos microscópicos que apresentam grupos de sequências de DNA de um gene. Esses segmentos de DNA são chamados de sondas. Se um gene da biblioteca de cDNA encontrar uma sequência correspondente no chip, ele irá se hibridizar, fazendo a sonda ficar marcada com o fluoróforo. A intensidade luminosa apresentada pelo chip de microarranjo pode, ser lida e quantificada, sendo que, se uma determinada sequência encontrar vários correspondentes, implicará que esse gene foi expresso muitas vezes e a intensidade do sinal luminoso será maior, O contrário também pode ocorrer, onde uma sequência não encontra um correspondente no chip, não gerando um sinal luminoso. O volume de informações geradas vai depender da quantidade de spots presentes no chip de microarranjos. O NGS (new generation sequencing) possui uma alta sensibilidade, conseguindo verificar, simultaneamente, a realização da hibridização de mais de 60 mil genes, ampliando, consideravelmente, as possibilidades de determinação de possíveis alterações no momento do processamento dos dados, uma das etapas subsequentes. Independentemente da técnica utilizada para quantificar mRNAs, a informação fornecida é experimental e não uma condição constante absoluta. Ademais, uma divergência na quantidade de um mRNA específico entre duas amostras biológicas não é obrigatoriamente retratada por uma diferença na quantidade no nível da proteína traduzida a partir desse mRNA. Dessa forma, existem limitações intrínsecas relacionadas à transcriptômica, como: • a quantidade do mRNA nem sempre é bem correlacionada com a quantidade da proteína; • a sensibilidade das técnicas existentes não permite medir com facilidade os mRNAs menos abundantes, os quais podem estar envolvidos na codificação de proteínas regulatórias importantes; • a função das proteínas codificadas pelos mRNAs apresenta vários níveis de regulação após sua tradução. PROTEÔMICA É usada para quantificar a abundância, modificação e interação de peptídeos, além de determinar sua localização subcelular. Através do estudo de proteomas é possível determinar: • A expressão de um gene; • As concentrações proteicas; • As modificações pós-traducionais; • Os processos metabólicos regulatórios e/ou sinalizadores relacionados a um estado fisiológico, patológico ou terapêutico; • A descoberta de novos alvos terapêuticos e moléculas bioativas; FARMACOGENÔMICA Objetiva compreender a interação da constituição genética de um indivíduo com a resposta a drogas. É o ramo da Farmacologia que trata da influência da variação genética na resposta de fármacos em pacientes, correlacionando a expressão do gene ou polimorfismos de nucleotídeo único com a eficácia e/ou toxicidade de uma substância. ESTUDO GENÔMICO METABOLÔMICA Estuda as mudanças na expressão de pequenas moléculas orgânicas, conhecidas como metabólitos (produtos intermediários ou finais do metabolismo em uma amostra biológica) como fluido biológico, tecido ou organismo, sendo estas substâncias consideradas os produtos finais dos processos celulares. Esse estudo possibilita análises objetivas de um determinado fenótipo, associação entre dados de metabolômica, expressão gênica e proteômica. Auxiliar na demonstração de como genótipos e fenótipos estão associados, possibilitar simulações de processos celulares em larga escala. Auxiliar na compreensão de alguns problemas, por exemplo, os efeitos chamados pleiotrópicos, em que um único gene estabeleceuma quantidade de características não relacionadas. • Na área ambiental: tem sido utilizada para o estudo das respostas metabólicas de organismos a fatores bióticos e abióticos, pesquisas de exposição de organismos a poluentes, estudos de toxicidade aplicados à agricultura, mecanismo de ação de pesticidas, toxicidade e função de metais em sistemas biológicos, biodisponibilidade de contaminantes no solo, biorremediação, entre outros. • No campo da clínica: possibilita um aumento no entendimento, em nível molecular, de diversas doenças. Várias são as aplicações clínicas e tem sido crescente o número de estudos relacionados ao tema, principalmente no que diz respeito à identificação de biomarcadores e ao desenvolvimento de novas terapias e métodos diagnósticos, como a diabetes tipo 2, cuja incidência tem aumentado ao longo dos anos, requerendo a procura por biomarcadores que possam ser utilizados no diagnóstico precoce dessa patologia, doenças cardiovasculares, Alzheimer, tuberculose, doença celíaca, esclerose múltipla e doenças renais. • Na área oncológica: têm revelado modificações no metabolismo, contribuindo para o diagnóstico e acompanhamento de doenças, como no caso do câncer de próstata, gástrico, colorretal e de mama. • Na área de alimentos: relacionando os alimentos e seus componentes alimentares, a dieta e o indivíduo, a saúde e as doenças, foodomics (nova abordagem que relaciona as tecnologias ômicas avançadas com a área de alimentos e nutrição) com o intuito de melhorar o bem-estar, a saúde e segurança dos consumidores, integrando pesquisadores de diversas áreas do conhecimento. FISIÔMICA Tem o intuito de descrever, quantitativamente, as funções fisiológicas de um organismo. Para isto, é necessário predizer as manifestações visíveis ou detectáveis de um genótipo, o que é bastante complexo em função das interferências ambientais e as condições relacionadas ao crescimento e desenvolvimento, incluindo o aparecimento de doenças. A intenção é conseguir entender toda a fisiologia de um organismo, abrangendo rotas metabólicas, moléculas envolvidas e suas interações. O Projeto Fisioma figura como uma das iniciativas pioneiras nessa área, onde seu principal objetivo é compreender o organismo humano por meio da descrição quantitativa da sua fisiologia e patofisiologia para o melhoramento da saúde humana, usando até mesmo conhecimentos advindos de fisiomas de outros organismos. REGULÔMICA Estuda as interações bioquímicas (transcritos e proteínas) que fazem a regulação da expressão dos genes. PEPTIDÔMICA Tem como objetivo estudar pequenos peptídeos que apresentam função essencial em diversos processos biológicos, tais como: Hormônios, citocinas, fatores de crescimento etc. DEGRADÔMICA Utiliza informações obtidas por outras duas ômicas, a genômica e a proteômica, para identificação de proteases e seus respectivos substratos, de forma a favorecer a descoberta de novos alvos para o desenvolvimento de fármacos para o tratamento de doenças.. Epigenética é uma área da Biologia que estuda mudanças no funcionamento de um gene que não são promovidas por alterações na sequência de DNA e que se perpetuam nas divisões celulares, meióticas ou mitóticas. Tais mudanças epigenéticas promovem o surgimento de diferentes epigenomas. MECANISMOS EPIGENÉTICOS São responsáveis por vários fenômenos, incluindo o silenciamento aleatório de um dos cromossomos X em cada célula somática normal de mamíferos fêmeas e a impressão genômica, definida como a expressão ou repressão de certos genes de acordo com o seu progenitor origem. O principal mecanismo epigenético reconhecido até hoje é a adição de grupos metila ao DNA - foi cogitado que a metilação do DNA poderia estar associada de várias formas à expressão gênica, à estabilidade genômica e às doenças (em particular, a progressão de tumores malignos). A descoberta de enzimas específicas da metilação foi importante para corroborar essa hipótese e estabeleceu uma ligação direta entre a metilação do DNA, expressão gênica e mudanças na estrutura da cromatina. A epigenômica tenta compreender a flexibilidade do genoma, uma característica que confere complexidade aos sistemas biológicos, pois a expressão dos genes pode diferir dependendo de uma dada condição ou momento. PLATAFORMAS DE SEQUÊNCIAMENTO GENÔMICO NCBI E SUAS FUNCIONALIDADES A NCBI (National Center for Biotechnology Information) no português equivale a Centro Nacional de Informação em Biotecnologia é uma plataforma online que é responsável pela criação e administração de vários bancos de dados públicos. Esta plataforma conduz investigação em Biologia Molecular, desenvolve softwares de análise genômica e divulga toda a informação biomédica disponível e depositada nela. Dentre as ferramentas disponíveis no NCBI, os dois maiores bancos de dados públicos: • Pubmed: é uma grande biblioteca virtual da área biomédica configurada como um site de busca • GenBank: é um banco de dados público que armazena as sequências gênicas e anotações de todas as sequências de DNA disponíveis ao público que foram descritas em diferentes partes do mundo. • ClustalW: é um algoritmo de alinhamento múltiplo global que se baseia na distância evolutiva, efetua um alinhamento mais complexo que estabelece a relação evolutiva entre todas as sequências utilizadas. São realizados alinhamentos par a par, ou seja, entre duas sequências, de forma que todas as sequências analisadas possam ser combinadas com todas as possibilidades. • Swiss-Prot: é um banco que armazena a anotação detalhada de proteínas. Essa anotação inclui estrutura, função, sítios de ligação para outras moléculas, proteínas similares, entre outras informações. Esse banco é curado, ou seja, especialistas no assunto revisaram as informações que estão ali e confirmaram que elas são verdadeiras, baseando-se em artigos científicos. • KEGG: é um banco de dados extremamente completo. Conseguimos extrair dele informações como em que via metabólica a proteína está inserida, incluindo exatamente o momento em que ela entra em ação. Além disso, você tem acesso a como aquela proteína pode variar entre os organismos que a possuem, além das doenças que podem atrapalhar o processo celular do qual ela participa. • BLAST: é um algoritmo computacional de alinhamento genômico, que permite um alinhamento localizado de fragmentos de sequência a partir da seleção das sequências mais similares. É um algoritmo de alinhamento local que busca de forma rápida pequenas regiões de similaridades. O resultado da busca é apresentado em valores de score que expressam a significância do alinhamento. Existem quatro tipos diferentes de BLAST: ✓ Nucleotide BLAST: utilizada para realizar BLAST de nucleotídeo com nucleotídeo. ✓ Protein BLAST: utilizada para realizar BLAST de sequência de proteínas (aminoácidos) com proteínas. ✓ blastx: utilizada para realizar BLAST de sequências de nucleotídeos com as proteínas associadas a esta sequência. Neste BLAST, o pesquisador recebe como resultado o produto da tradução das sequências de nucleotídeos de entrada. ✓ tblastn: utilizada para realizar BLAST de proteínas com a sequência de nucleotídeo associada a ela. Neste BLAST, o pesquisador recebe como resultado a sequência de DNA que corresponde a uma dada proteína de entrada. ANOTAÇÃO GÊNICA O processo de anotação gênica envolve duas fases principais: • Encontrar o gene (predição gênica) • Atribuir suas funções O gene é uma região do DNA que carrega uma informação específica e é transcrito em uma molécula de RNA. Esse RNA pode ser: • RNAm - Mensageiro: leva o código para a produção de uma proteína • RNAt – Transportador: que transporta aminoócios • RNAr – Ribossomal: que forma os ribossomos Esses genes também são chamados pelo termo em inglês features, que significa características. Anotação funcional: consiste em caracterizar: • As funções da proteína: considerando que a função do gene é igual à função da proteína codificada por ele exemplo: enzimas, transporte pela membrana, união célula-célula, sinalizadorespara comunicação entre as células, receptores de sinais, entre outras; • Identificar de qual processo biológico aquela proteína faz parte: Ex: as reações metabólicas – Glicólise • Identificar qual é o processamento da informação genética: Tradução ou Transcrição • Apontar s há alguma doença associada a alterações nesse gene: exemplo: defeito na síntese da lactase, responsável por digerir a lactose, nesse caso, existe uma deficiência de lactase congênita, conhecida popularmente como intolerância à lactose. CONSTRUÇÃO DE PRIMERS CONSTRUÇÃO DE PRIMERS Para se obter sequências de DNA que serão alinhadas, é preciso definir a região do genoma (gene) e como isolar esse gene. Para isolar um determinado gene, pode-se utilizar uma técnica de Biologia Molecular chamada de PCR (Polymerase chain reaction). Para realizar uua PCR, utiliza-se nucleotídeos, da enzima DNA polimerase, do cofator enzimático e de um par de primers. Primers: são sequências de oligonucleotídeos sintéticos que vão hibridizar com regiões específicas das fitas moldes de DNA (um dos primers se liga à fita 5’-3’ e outro se liga à fita 3’-5’) para oferecer uma extremidade 5’ OH livre para a formação da ligação fosfodiéster e adição do primeiro nucleotídeo da nova fita de DNA que será confeccionada. Existem alguns critérios básicos que são importantes para a construção de um primer: • Percentual de CG em 45%-55%. • Tamanho do primer entre 18-24pb. • Não apresentar sequências repetidas e consecutivas. TAMANHO DO PRIMER CONTEÚDO DE GC TEMPERATURA DE HIBRIDIZAÇÃO EVITAR REGIÕES HOMOPOLIMÉRICAS Apresentam entre 18-24 nucleotídeos, pois este é o tamanho ideal para garantir a especificidade de ligação do primer e também na eficiência da reação de PCR, evitando a formação de estruturas secundárias, como grampos. Os primers devem apresentar cerca de 45%-55% de CG na sua composição, pois isto aumenta a estabilidade de ligação do primer com a fita molde de DNA, já que CG fazem 3 pontes de H. A temperatura de ligação do primer com a fita de DNA deve ser entre 52°C—60°C, pois esta é a temperatura ideal para um primer 18-24 nucleotídeos, de tamanho ideal para apresentar especificidade na ligação e também na eficiência da reação de PCR. Repetições de um ou de dinucleótidos consecutivas (exemplo: agagagag) aumenta a probabilidade da hibridização do primer acontecer em uma região inespecífica do genoma. O USO DO DESENHO DE PRIMERS A PCR é uma reação em cadeia da polimerase que permite a amplificação exponencial de segmentos de DNA in vitro. A reação se processa em diferentes etapas, cada uma em uma temperatura controlada por um aparelho denominado termociclador . 1ª etapa: Desnaturação térmica do DNA (~95ºC)- nesta temperatura, as fitas de DNA serão completamente separadas. 2ª etapa: Anelamento dos primers: (50~60ºC) - ocorre o pareamento dos primers por complementariedade. A temperatura utilizada dependerá da composição de bases do primer 3ª etapa: Extensão do DNA: ocorre a 72ºC, temperatura em que a Taq Polimerase (um DNA polimerase) apresenta melhor atividade. Estas três etapas compõem um ciclo da PCR e se repetem por várias vezes, permitindo a amplificação de uma região do DNA. A definição da região a ser amplificada é determinada pelo par de primers, que funcionam como iniciadores da polimerização, delimitando a região do DNA a ser copiada. PASSO A PASSO - ANOTAÇÃO GÊNICA Quando o resultado for exibido, observe as descrições (descriptions) dos alinhamentos. Note que existem várias sequências semelhantes a sua no GenBank. Elas estão organizadas em ordem de similaridade. No nosso caso, a sequência mais semelhante está descrita como Homo sapiens CF (cystic fibrosis) transmembrane conductance regulator (CFTR). Isso significa que a nossa sequência é parte do gene CFTR, cujo nome da proteína correspondente é regulador de condutância transmembranar de fibrose cística. sequência 1 AAATGAGTTAATAGAATCTTTACAAATAAGAATATACACTTCTGCTTAGGATGAT AATTGGAGGCAAGTGAATCCTGAGCGTGATTTGATAAT GACCTAATAATGATGG GTTTTATTTCCAGACTTCACTTCTAATGGTGATTATGGGAGAACTGGAGCCTTCA GAGGGTAAAATTAAGCACAGT GGAAGAATTTCATTCTGTTCTCAGTTTTCCTGGA TTATGCCTGGCACCATTAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAATA TAGATA CAGAAGCGTCATCAAAGCATGCCAACTAGAAGAGGTAAGAAACTATGT GAAAACTTTTTGATTATGCATATGAACCCTTCACACTACCCAAA TTATATATTTG GCTCCATATTCAATCGGTTAGTCTACATATATTTATGTTTCCTCTATGGGTAAGCT ACTGTGAATGGATCAATTAATAAAACACA TGACCTATGCTTTAAGAAGCTTGCAA ACACATGAA PADRONIZAÇÃO DA DESCRIÇÃO FUNCIONAL Projeto Gene Ontology (GO): busca usar um número limitado de palavras para descrever três conjuntos de informações sobre uma proteína: • Função molecular: são descritas com vocabulário controlado, sempre que uma proteína tiver uma característica funcional igual a outra proteína, essa característica deve estar descrita com as mesmas palavras para as duas proteínas. Ex: a enzima citocromo c oxidase que participa da produção de ATP nas células tem a função descrita pelo GO como atividade oxirredutase. • Processo biológico: descrevem reações bioquímicas ou outros eventos que resultam em uma transformação dentro da célula. Ex: a enzima citocromo c oxidase é descrita por realizar o transporte de elétrons. • Localização dentro da célula: se refere ao local onde a proteína atua. Ex: citocromo c oxidase, é a membrana mitocondrial. O PDB E A ESTRUTURA DE PROTEÍNAS A próxima etapa do processo de anotação é buscar informações sobre a estrutura da proteína CFTR. Para isso, acesse o banco de dados PDB ( Protein Data Bank) é o único repositório mundial de estruturas 3D de grandes moléculas biológicas, incluindo proteínas e ácidos nucleicos. Esse banco armazena a estrutura ao nível atômico, ou seja, a posição espacial de cada átomo da molécula, suas coordenadas. Esses dados foram determinados experimentalmente por cristalografia, ressonância magnética nuclear e microscópios eletrônicos 3D. • Acesse a página do PDB. • No retângulo branco, logo no início da página, digite 5UAK (código para uma estrutura de CFTR). • Aperte o quadrado preto com a palavra Go e aguarde pelo resultado. O resultado da busca mostra o desenho da estrutura da proteína, informações sobre como a estrutura foi determinada (experimental data snapshot) e o artigo científico que fala sobre a estrutura da proteína CFTR (molecular structure of the human CFTR ion channel). No quadro com o título Macromolecules você pode verificar que essa proteína tem apenas uma cadeia (chain A). Com isso, podemos concluir que CFTR é uma proteína monomérica, ou seja, formada por apenas uma cadeia polipeptídica. Outra informação nesse quadro é que essa proteína pertence a um grupo de proteínas transmembranas através de alfa-hélice. Isso significa dizer que CFTR está inserida na membrana plasmática da célula, e a estrutura secundária presente nos pontos de inserção é a alfa-hélice, semelhante a uma escada em espiral. O próximo banco de dados a ser explorado é o Swiss-Prot: armazena dados de sequências de proteínas: função da proteína, modificações pós-traducionais, estrutura secundária da proteína, estrutura quaternária, similaridades com outras proteínas, associações com doenças ou deficiências, sequências parecidas, entre outras informações. • Acesse a página do UniProt/Swiss-Prot. • Digite no retângulo da parte superior da página o nome da proteína: CFTR. • Clique na opção Search e aguarde pelo resultado. Todos os resultados que possuem uma estrela dourada são sequência de proteína do Swiss-Prot, ou seja, sequências curadas (verificadas). Note também que a proteína CFTR está presente no genoma de várias espécies diferentes, como Mus musculus (rato), Xenopus laevis (sapo) e Homo sapiens (humano). Se você clicar na sequência P13569, uma nova página irá abrir com muitas informações sobre a proteína CFTR de humanos. Dentre essas informações, está a descrição detalhada sobre as funções dessa proteína, com todas as referências correspondentes incluindo a patologia com a qual essa proteína está envolvida (involvement in disease). A doença em questão é a fibrose cística. Essadoença é causada por mutações que afetam o gene CFTR, mutação que leva ao mau funcionamento da proteína CFTR, provocando uma desordem generalizada das glândulas exócrinas que prejudica a depuração de secreções em vários órgãos. Os sinais e sintomas são infecções respiratórias recorrentes, insuficiência pancreática que leva à má absorção e retardo do crescimento e, por fim, uma quantidade elevada de eletrólitos no suor. PASSO A PASSO - ANOTAÇÃO GÊNICA 2 KEGG E AS VIAS METABÓLICAS • O último banco de dados biológicos que será usado nessa prática virtual será o KEGG (Kyoto Encyclopedia of Genes and Genomes): dessa plataforma é possível extrair do KEGG informações como em qual via ou processo celular aquela proteína está inserida, incluindo exatamente o momento em que ela entra em ação. • Acesse a página do KEGG. • Digite no retângulo da parte superior da página o código da proteína: K05031. • Clique no retângulo escrito Search e aguarde pelo resultado. O resultado mostra as informações para a proteína CFTR, definida como cystic fibrosis transmembrane conductance regulator. Dentre esses resultados, mostra as vias nas quais essa proteína está envolvida, a via de secreção de ácido gástrico, via de secreção pancreática e via de secreção biliar. Se você clicar em cima do código indicador de cada via (como ko04971 para via de secreção de ácido gástrico), uma nova página se abre. Nessa página, toda via é mostrada e a proteína CFTR está destacada em vermelho, mostrando exatamente seu papel de canal secretor, nesse caso, do íon Cl-. Essa prática conclui o roteiro: • Realização de um alinhamento; • Busca de informações sobre determinada sequência de nucleotídeos; • Busca pela categorização de um gene; • Procura pela estrutura de uma proteína; • Adquire informações sobre as características moleculares de uma proteína; • Identifica as vias metabólicas onde a proteína está envolvida. ATIVIDADES 1. O método de sequenciamento Sanger: a) É baseado na modificação química do DNA utilizando piperidina e foi inicialmente desenvolvido por Allan Maxam e Walter Gilbert e, mais tarde, modificado por Sanger. Resposta certa: b)É baseado na incorporação de didesoxinucleotídeos que, ao serem incorporados, impedem a adição de nucleotídeos adicionais. c) Requer todas as enzimas necessárias para a replicação de DNA como helicases, polimerases, porém, não necessita da primase, pois são adicionados iniciadores artificiais com os nucleotídeos e didesoxinucleotídeos. d) Depende do preparo de géis de acrilamida para separar os diferentes fragmentos de DNA que serão analisados. e) É limitada pela necessidade do uso de isótopos radioativos para a marcação dos fragmentos de DNA que serão sequenciados. 4. (PUC-SP) […] De outro lado, o galardão de Química ficou com os inventores de ferramentas para estudar proteínas, os verdadeiros atores do drama molecular da vida. É verdade que a Fundação Nobel ainda fala no DNA como o diretor da cena a comandar a ação das proteínas, mas talvez não seja pretensioso supor que foi um lapso, e que o sinal emitido por essas premiações aponta o verdadeiro futuro das pesquisas biológicas e médicas muito além do genoma e de seu sequenciamento (uma simples soletração) […]. O autor refere-se às proteínas como atores do drama molecular e ao DNA como diretor de cena. Essa referência deve-se ao fato de: ) Não ocorrer uma correlação funcional entre DNA e proteínas no meio celular. b) O DNA controlar a produção de proteínas e atuar como catalisador de reações químicas celulares. c) O material genético ser constituído por proteínas. d) As proteínas não terem controle sobre o metabolismo celular. Resposta certa: e) O DNA controlar a produção de proteínas e estas controlarem a atividade celular. 2. (FUVEST) Em vez de sequenciar as bases nitrogenadas de todos os cromossomos de uma planta com um genoma muito grande, pesquisadores selecionaram partes desse genoma para sequenciar. Somente as sequências de DNA que correspondem ao conjunto dos RNA mensageiros transcritos no fruto serão estudadas. O DNA a ser sequenciado foi sintetizado em laboratório, tendo como molde as moléculas de RNA extraídas dos frutos. a) Se os cientistas fossem sequenciar todo o genoma dessa planta, haveria diferença se o material genético viesse do fruto ou da folha da planta? Justifique. Resposta: Não haveria diferença, pois o DNA apresenta a mesma sequências de bases, tanto nas células da folha quanto nas células do fruto. b) No estudo das sequências que tiveram como molde RNA mensageiro, faria diferença se esse RNA mensageiro fosse extraído das folhas ou dos frutos? Justifique. Resposta: Sim, pois os genes que se expressam produzindo RNA mensageiro nas células das folhas e nas dos frutos são diferentes em cada caso. 3. Diversas técnicas são utilizadas para determinar, em genes de uma célula eucariota, a sequência de bases nitrogenadas codificantes, ou seja, aquela que define a estrutura primária da proteína a ser sintetizada. A abordagem experimental mais frequente, hoje, consiste em, primeiramente, extrair os RNA mensageiros da célula, sintetizar os seus DNA complementares e, então, proceder ao sequenciamento das bases presentes nesses DNA. Em uma bactéria, no entanto, é possível determinar a sequência codificante diretamente a partir de seu cromossomo. Explique o motivo pelo qual, em organismos eucariotas, é preferível utilizar o RNA-mensageiro para determinar a região codificante do DNA. Resposta: O ARN mensageiro, RNA mensageiro, ARNm, mARN, RNAm ou mRNA é o ácido ribonucleico responsável pela transferência de informações do ADN (ou, em inglês, DNA) até o citoplasma. Durante a transcrição, uma enzima, designada ARN-polimerase (ou RNA-polimerase) faz a cópia de um gene do ADN para o ARNm. Nos organismos procariotas, o ARNm não sofre, geralmente, qualquer processo de modificação, de forma que a síntese das proteínas costuma ocorrer enquanto a transcrição ainda está em curso. Nos organismos eucariotas, por outro lado, a transcrição e a tradução ocorrem em locais distintos da célula: No núcleo e no citoplasma, respectivamente. A síntese proteica (tradução) nos eucariotas é possibilitada pela atividade de ribossomos com o auxílio do ARN transportador, possibilitando que a sequência de nucleotídeos do ARNm seja traduzida em uma proteína correspondente ao gene transcrito. ATIVIDADES 1. Anotação gênica pode ser definida como: Resposta: Identificação de genes, detecção da sua função e a verificação do processo celular do qual ele faz parte. 2. Por que geralmente são usados diferentes programas de computador para realizar a etapa de predição de genes em procariotas e eucariotas? Resposta: Devido à complexidade da estrutura gênica em eucariotas, que possuem íntrons interrompendo as regiões codificantes, por exemplo. 3. Analise as seguintes afirmativas sobre bancos de dados biológicos: I. Swiss-Prot é um banco curado de proteínas. II. GenBank é um banco de sequências de DNA. III. PDB é um banco de vias metabólicas. Escolha a opção correta referente a essas afirmativas: Resposta: As afirmativas I e II estão corretas. 4. Luana é aluna de Biomedicina e está no oitavo período. Ela está muito animada com a possibilidade de publicar o seu primeiro artigo científico. O foco do seu artigo é uma determinada proteína que atua no metabolismo de lipídios. No entanto, Luana verificou que autores diferentes usam nomes distintos para descrever a função biológica dessa proteína. Qual dos bancos de dados discutidos nesse capítulo é o mais recomendado para que Luana encontre uma nomenclatura padronizada para a função da sua proteína? Resposta: Gene Ontology 5. Marque a alternativa que melhor define um gene: a) O gene é uma porção da molécula de RNA que determina uma característica. b) O gene é uma região do DNA que é responsável pela síntese de carboidratos, determinando nossas características. Resposta certa: c) O gene é uma sequência de nucleotídeos em que está contida a informação que será usada para a síntese de proteínas. d) Trecho doRNA que contém sequências de nucleotídeos que são usados para a síntese de proteínas.
Compartilhar