Prévia do material em texto
Biologia Celular e Molecular II (sebenta Hugo Soares) Licenciatura em Biologia Faculdade de Ciências e Tecnologia Universidade de Coimbra Professor Ana Luísa Carvalho 2 Em 1944, o artigo, de autoria de Avery, MacLeod e MacCarty, tratava da transformação de cepas não virulentas de pneumococos em cepas causadoras de pneumonia. Veio a causar grande revolução nos estudos de genética. Com esta experiência ficou-se a saber que ratos inoculados pelas bactérias que não causavam doença juntamente daquelas que causavam (só que estas últimas mortas pelo calor) levava ao aparecimento de pneumococos virulentos. Há muito já se sabia disto, no entanto o trabalho que tinha em mãos propunha- se a descobrir qual fracção da bactéria patogénica era responsável pela passagem da característica genética da formação de cápsula bacteriana. Em outras palavras, os autores haviam identificado o ''princípio transformante'', a molécula que carrega os genes. Descobriram que se trata do ácido desoxiribonucleico, o DNA. Nesta altura já a composição química do ADN era conhecida cadeia polimérica constituída por vários monómeros de (TGAC). O Ácido desoxirribonucleico (ADN) é o armazém, ou a livraria celular, que contém toda a informação requerida para construir as células e os tecidos de um organismo. A duplicação exacta de informação em qualquer espécie de geração em geração assegura a continuidade genética daquela espécie. A informação esta arranjada em genes, unidades hereditárias que controlam certos aspectos de um organismo. No processo de transcrição, a informação guardada no ADN é copiado para ácido ribonucleico (RNA), este possui três formas distintas, e papéis diferentes na síntese proteica. O RNA mensageiro (mRNA) carrega as instruções do DNA que especifica a ordem correcta dos aminoácidos durante o processo de síntese. A especificidade notável em que os aminoácidos se arranjam nas proteínas ocorre durante a tradução do mRNA. Neste processo, a informação no mRNA é interpretada por um segundo tipo de RNA chamado RNA de transferência (tRNA) com a ajuda (AID) do terceiro tipo de RNA, o RNA ribossomal 3 (rRNA), e as proteínas a este associadas. À medida que a os aminoácidos correctos são trazidos até a sequência pelos tRNA, eles são ligados por ligações peptídicas a fim de formar proteínas. A descoberta da estrutura do DNA em 1953 e as suas subsequentes elucidações dos passos de síntese do DNA, RNA e proteínas são os monumentos atingidos nos primeiros dias da biologia molecular. Para entender como o DNA dirige a síntese de RNA, que então dirige a síntese proteica é o então chamado, dogma central da biologia molecular. ESTRUTURA DOS ÁCIDOS NUCLEICOS O DNA e o RNA têm grandes similaridades entre si. Na sua estrutura primária ambos são polímeros (estruturas químicas múltiplas) compostos por monómeros (estruturas químicas simples) chamados nucleótidos. O RNA celular encontra-se em arranjos de menos de 100 até vários milhares de nucleótidos. As moléculas de DNA celular podem ser tão longas quanto varias centenas de milhões de nucleótidos. Estas estruturas largas de DNA podem se encontrar ligadas a proteínas e então serem vistas e analisadas ao microscópico sob a forma de cromossomas. POLIMERIZAÇÃO DE NUCLEÓTIDOS FORMA OS ÁCIDOS NUCLEICOS Tanto o DNA como o RNA consistem apenas em 4 nucleótidos diferentes. Todos os nucleótidos têm uma estrutura em comum: o grupo fosfato ligado por uma ligação fosfodiéster a uma pentose (uma molécula de açúcar com 5 carbonos) que por sua vez se encontra ligada a uma base orgânica. No RNA a pentose é a ribose e no DNA a pentose é a desoxirribose – ou seja um grupo OH foi substituído por um H. A outra única diferença entre os nucleótidos de DNA e de RNA é que uma das quatro bases orgânicas difere entre os dois polímeros. As bases adenina, guanina e citosina são encontradas tanto em DNA quanto em RNA contudo a timina apenas se encontra no DNA e o uracilo é exclusivo do RNA. As bases são usualmente abreviadas A, G, C, T e U, respectivamente. As bases que compõem os ácidos nucleicos são heterociclicas com anéis que contém azoto e carbono. A adenina e a guanina são purinas, ou seja contêm um par de anéis fundidos; a citosina, a timina e o uracilo são pirimidinas, ou seja contêm um anel simples. O carácter ácido dos nucleótidos é devido a presença do fosfato, o qual se dissocia no pH celular, libertando iões de hidrogénio deixando o fosfato carregado negativamente. Devido a esta carga negativa atrair proteínas muitos dos ácidos nucleicos encontram-se associados a proteínas. Nos nucleótidos, o carbono 1’ do açúcar está ligado ao azoto 9 da purina ou ao azoto 1 da pirimidina. Nas células e nos espaços extracelulares encontram-se pequenas concentrações de nucleósidos (termo utilizado para designar o grupo açúcar mais a base, sem grupo fosfato). Nucleótidos são nucleósidos que possuem um, dois ou três grupos fosfato esterificados no grupo hidroxilo 5’. Nucleósidos monofosfatos possuem um esterificação simples, difosfato contêm um grupo pirofosfato e o trifosfato têm um terceiro fosfato. Como veremos mais tarde os nucleósidos trifosfato são usados na síntese de ácidos nucleicos. Contudo alguns destes servem para muito mais funções na célula: o ATP, por exemplo, é o maior transportador de energia dentro da célula e o GTP desempenha papéis fundamentais na sinalização intracelular e actua como receptor de energia, particularmente na síntese proteica. 4 Quando nucleótidos polimerizam para formar ácidos nucleicos, o grupo hidróxilo ligado ao carbono 3’ do açúcar de um nucleótido forma uma ligação éster com o fosfato do outro nucleótido, eliminando uma molécula de água. Esta reacção de condensação é semelhante aquela em que se formam ligações peptídicas entre dois aminoácidos. Assim uma simples cadeia de ácidos nucleicos é um polímero de fosfato-pentose (poliester) no qual as bases de purina e de pirimidina são as suas cadeias laterais. As ligações entre nucleótidos é chamada de ligação fosfodiéster. Tal como os polipéptidos uma cadeia de ácidos nucleico tem uma orientação química de terminal para terminal: o terminal 5’ possui um grupo fosfato livre no carbono 5’ do açúcar; o terminal 3’ tem um grupo hidroxilo livre no carbono 3’ do açúcar terminal. Esta direccionalidade mais o facto que a síntese progredi no sentido 5’ 3’ deu asas a convenção de que sequências de polinucleótidos são escritas e lidas no sentido 5’ 3’ (da esquerda para a direita); Por exemplo, a sequência AUG assume-se ser (5’)AUG(3’). A direcção 5’ 3’ de uma cadeia tem extrema importância nas propriedades da molécula. A sequência linear de nucleótidos ligados por fosfodiéster constitui a estrutura primária dos ácidos nucleicos. 5 Chargaff teve percepção ao ler, em 1944, o artigo recém - publicado no “Journal of Experimental Medicine”, por Avery et. al. (sobre a localização da informação genética/hereditária supra-referido) e a sua reacção foi concreta. Decidiu, naquele exacto momento, concluir o mais rapidamente possível os projectos em curso no seu laboratório, para se dedicar à bioquímica dos ácidos nucleicos. Em poucos anos chegou à descoberta que o tornou famoso: em praticamente todas as moléculas de DNA a concentração total das purinas (A e G) é igual ao conteúdo total das pirimidinas (C e T), ou seja, [A] + [G] = [T] + [C] a razão das concentrações molares das bases é igual a 1, sendo [A] = [T] e [G] = [C]. O conjunto desses postulados passou a ser conhecido como a “regra de Chargaff”. Algumas citações de Chargaff: • “Eu parti da convicção de que, se diferentes espécies de DNA exibem actividades biológicas diversas, devem existir também diferenças quimicamente demonstráveis entre os DNAs” • DNA isolado de tecidos diferentes de um organismo tem a mesma composição em bases • A composição do DNA em bases é constante ao longo da vida de um indivíduo Hojede transcrição imunoglobulinas nos vertebrados, incluem centenas de membros. A maioria das 29 famílias de proteínas, contudo, incluem de poucos a 30 membros; os exemplos mais comuns são as proteínas do citoesqueleto, proteínas 70-kDa de heat-shock, a cadeia leve da miosina, ovalbumina da galinha e as α e ß-globinas nos vertebrados. Os genes que codificam as ß-globinas são um bom exemplo de uma família de genes, tal como mostrado na figura da página anterior, todas as hemoglobinas transportam oxigénio no sangue mas elas exibem de alguma maneira diferentes propriedades que são necessárias para a fisiologia humana. Por exemplo, hemoglobinas que contêm polipéptidos Aγ ou Gγ são expressos durante a vida fetal. Porque estas hemoglobinas fetais possuem maior afinidade para o oxigénio que a hemoglobina de adultos elas conseguem, efectivamente, extrair o oxigénio do sangue materno da placenta. A hemoglobina adulta de baixa afinidade, expressa logo após o nascimento, permite melhor libertação de oxigénio nos tecidos especialmente nos músculos, os quais têm alta necessidade de oxigénio durante o exercício. As diferenças entre os genes de ß-globinas provavelmente urgiu por duplicação de um gene original, mais provavelmente devido a um crossing-over desigual, durante a recombinação meiótica no desenvolvimento da linha germinativa. Durante a evolução as duas cópias do gene terão acumulado mutações arbitrárias; mutações benéficas que conferiram algumas melhorias na função básica de transportar oxigénio e estas foram retidas pela selecção natural resultando numa sequência acumulada (sequence drift). 30 Duas regiões na zona dos genes de ß-globinas contêm sequências não funcionais, chamadas de pseudogenes, semelhantes àqueles funcionais. Análises da sequência mostraram que estes têm a mesma estrutura de intrões e exões que os genes funcionais de ß-globinas, sugerindo que eles também surgiram por duplicação do mesmo gene ancestral. Porque tais pseudogenes não são prejudiciais eles permaneceram no genoma e marcam a localização da duplicação de genes que ocorreu num dos nossos ancestrais. GENES REPETIDOS MUITAS VEZES CODIFICAM rRNA, tRNA E HISTONAS Tanto em vertebrados como em invertebrados genes que codificam rRNAs, e alguns outros que não codificam RNAs tais como alguns snRNAs envolvidos no splicing de RNA, ocorrem repetidos e seguidos. Estes são distinguíveis dos genes duplicados das famílias de genes no que diz respeito que múltiplos genes repetidos seguidos codificam proteínas ou RNA idênticas ou quase idênticas. Muitas vezes cópias de uma sequência ocorrem uma a seguir à outra durante uma longa porção de DNA. Dentro de uma disposição de genes para rRNA repetidos seguidos, cada cópia é exactamente, ou quase, igual às outras. Apesar das porções transcritas de genes de rRNA serem as mesmas num dado indivíduo, as regiões espaçadoras não codificantes podem variar. Os genes de rRNA, tRNA e histonas altamente repetidos são necessários para ir ao encontro da grande necessidade da célula para a transcrição. Para entender porquê, considere-se que existe um número fixo máximo de cópias de RNA que podem ser produzidas durante uma geração celular quando o gene está completamente lotado com moléculas de RNA polimerase. Se mais RNA é necessário do que aquele que consegue ser transcrito de apenas um gene, são necessárias várias cópias para responder à necessidade celular. Por exemplo, durante a fase embrionária, as células duplicam em ~24h, e têm entre 5-10 milhões de ribossomas. Para produzir rRNA suficiente para este número de ribossomas são necessárias pelo menos 100 cópias do gene para rRNA (subunidade maior e menor) por célula. MUITAS SEQUÊNCIAS SIMPLES DE DNA ESTÃO CONCENTRADAS EM LOCALIZAÇÕES ESPECÍFICAS NO CROMOSSOMA Para além de genes duplicados codificantes de proteínas e genes muitas vezes repetidos, as células eucarióticas contém múltiplas cópias de outras sequências de DNA no genoma, geralmente referidas como DNA repetitivo. Dos dois grandes tipos de DNA repetitivo, o menos comum são sequências simples de DNA o qual constitui 3% do genoma humano e é composto de pequenas sequências perfeitas, ou quase, relacionadas. O outro tipo de DNA repetitivo muito mais comum é composto por sequências muito maiores. Sequências simples de DNA são geralmente chamadas de DNA satélite porque em estudos preliminares de DNA de organismos superiores algumas sequências simples de DNA “fugiam”, por centrifugação, para posições diferentes daquela do DNA celular. A estas dava-se o nome de bandas satélite para as distinguir da banda maior. Sequências simples de DNA no qual a repetição contenha 1-13 pb são muitas vezes chamados microsatélites. A maioria do DNA satélite é composto por repetições de 14-500pb em repetições seguidas de 20-100kb. Estudos de hibridização in situ com cromossomas em metafase localizaram DNA satélite em regiões específicas do cromossoma. Nos mamíferos muito do DNA satélite localiza-se nos centrómeros e nos telómeros. Estas sequências podem ser úteis para identificar cromossomas particulares por hibridização in situ por fluorescência (FISH). Sequências simples localizadas nos centrómeros podem contribuir na ligação dos cromossomas a rede de microtúbulos durante a mitose. Repetições espalhadas de centenas de cópias de uma sequência • Sequência curta (~300 nucleótidos) – SINEs (“small interspersed elements”); por exemplo, sequências Alu (Tabela 10-1) • Sequência longa (~6-7 kb) – LINEs (“long interspersed elements”) (Tabela 10-1) FISH 31 DNA FINGERPRINTING Dentro de uma espécie, a sequência de nucleótidos de unidades repetidas que compõem as sequências simples de DNA muitas vezes repetidas estão altamente conservadas entre os indivíduos. Pelo contrário, diferenças no número de repetições, e deste modo no tamanho do contendo a mesma unidade de repetição é pouco comum entre os indivíduos. Estas diferenças no tamanho pensa-se resultarem de crossing-overs desiguais com regiões de sequência simples de DNA durante a meiose. Em humanos e outros mamíferos, algum do DNA satélite existe em relativamente pequenos fragmentos de 1 a 5 kb feitos de 20-50 unidades repetidas, cada uma contendo 15-10pb. Estas regiões são chamadas de minisatélites de modo a distingui-las dos satélites comuns com ~20-100kb de tamanho. Eles diferem dos microsatélites por estes possuírem unidades repetidas muito pequenas. Ainda assim diferenças no total do tamanho de vários minisatélites de diferentes indivíduos podem ser detectadas por Southern Blotting do DNA celular tratado com enzimas de restrição que corta exteriormente à sequência repetida. O polimorfismo neste tipo de DNA forma a base para o DNA fingerprinting, o qual é superior às convencionais impressões digitais para a identificação de indivíduos. 32 DNA MITOCONDRIAL Apesar da vasta maioria do DNA na maior parte dos eucariotas se encontrar predominantemente no núcleo, algum DNA esta presente dentro das mitocôndrias das plantas, animais e fungos e nos cloroplastos das plantas. Muitas evidências apontam que as mitocôndrias e os cloroplastos evoluíram de bactérias que foram endocitadas por células ancestrais contendo núcleos eucarióticos e formaram uma endossimbiose. O genoma mitocondrial possui grandes semelhanças com o DNA da bactéria Rickettsia prowazekii. Uma outra evidência desta evolução reside no facto dos ribossomas mitocondriais se assemelharem aos ribossomas procarióticos enquanto diferem dos ribossomas citosólicos a nível de proteínas, RNA, tamanho e resistência a antibióticos. Durante a evolução a maioria dos componentes de genes bacterianos dos, actualmente, organelos foram transferidos para o núcleo. Contudo, as mitocôndrias e os cloroplastos nos eucarióticos actuais retêm DNA codificante de proteínas essenciais para funções dos mesmos, assim como rRNA e tRNA necessários para a tradução. Deste modo as células eucarióticaspossuem múltiplos sistemas genéticos um sistemas predominante nuclear e um sistema secundário como seu próprio DNA em mitocôndrias e cloroplastos. O DNA mitocondrial encontra-se presente na matriz e estudos de fluorescência indicam que uma mitocôndria possui pelo menos 30 moléculas de DNA mitocondrial (mtDNA). Estudos posteriores mostraram que na maioria dos organismos o mtDNA replica-se durante a interfase, na mitose cada célula filha recebe aproximadamente o mesmo número de mitocôndrias , mas como não existe qualquer mecanismo para fazer a divisão exacta das mitocôndrias, algumas células possuem mais mtDNA que outras. Por isolamento das mitocôndrias de células e análise do DNA extraído destas, pode ser visto que uma mitocôndria possui muitas moléculas de mtDNA. Assim a quantidade de mtDNA numa célula varia grandemente de acordo com a quantidade de mitocôndrias na célula e o número de moléculas de mtDNA na mitocôndria. Cada um destes parâmetros varia consideravelmente com o tipo de célula. O mtDNA É HERDADO CITOPLASMATICAMENTE E PODE CODIFICAR rRNA, tRNA, E ALGUMAS PROTEINAS MITOCONDRIAIS. Estudos em leveduras mutantes e outros seres unicelulares primeiro indicaram que as mitocôndrias exibiam hereditariedade citoplasmática e que deste modo devia possuir o seu próprio sistema genético. No acasalamento por fusão de leveduras haplóides ambos os pais contribuíram igualmente para o citoplasma resultando em diploidia; deste modo a herança é biparental. Em mamíferos e muitos outros organismos multicelulares, contudo, o espermatozóide contribui pouco para o citoplasma do zigoto, e virtualmente todas as mitocôndrias no embrião derivam do ovo, não do espermatozóide. Estudos em ratinhos de laboratório mostram que uma pequena parte (0.01%) do material citoplasmático provem do progenitor masculino. Nas plantas o mtDNA é herdado exclusivamente da parte feminina e nada do gâmeta masculino (pólen). O genoma mitocondrial inteiro de um número de diferentes organismos tem sido clonado e sequenciado, e mtDNA de todas essas fontes mostraram capacidade de codificar tRNA e rRNA assim como proteínas essenciais à mitocôndria. Todas as proteínas codificadas são sintetizadas em ribossomas mitocondriais. Todos os polipéptidos codificados pelos mtDNA identificados até agora (com uma possível excepção) não são enzimas completas mas subunidades de complexos multiméricos usados no transporte de electrões ou síntese de ATP. A maioria das proteínas das mitocôndrias como a RNA e DNA polimerases são sintetizadas em ribossomas citosólicos e depois transportadas para a matriz mitocondrial. 33 O TAMANHO E A CAPACIDADE DE CODIFICAÇÃO DO mtDNA VARIA CONSIDERAVELMENTE EM DIFERENTES ORGANISMOS Surpreendentemente o tamanho de mtDNA, o número e a natureza das proteínas que ele codifica, e até mesmo o código genético mitocondrial varia muito entre diferentes organismos. Nos humanos o mtDNA, uma molécula circular que já foi completamente sequênciada, esta entre as moléculas de mtDNA mais pequenas que se conhecem, contendo 16.569pb. Este codifica os dois rRNA encontrados nos ribossomas mitocondriais assim como os 22 tRNA usados para a tradução do mRNA mitocondrial. O mtDNA humano possui 13 sequências que iniciam com o codão ATG (metionina), acabam com um codão stop, e são grandes o suficiente para codificar um polipéptido de mais de 50 aminoácidos; todas as possíveis proteínas codificadas por estes pontos já foram identificadas. mtDNA de mamíferos em contraste com o DNA nuclear, tem falta de intrões e não possui sequências não codificantes. O mtDNA da maioria dos animais (metazoários) possui um tamanho semelhante ao dos humanos. Pelo contrário o mtDNA das leveduras é quase 5 vezes maior (~78.000pb). o mtDNA das leveduras e de outros fungos codificam os mesmos produtos génicos que o mtDNA de mamíferos, assim como outros genes encontrados no núcleo dos metazoários. Um exemplo bastante evidente deste transporte de genes das mitocôndrias para o núcleo é o do gene cox II (que codifica a subunidade 2 do citocromo c oxidase) em todos os organismos está presente no mtDNA, mas num espécie de legumes, uma espécie de feijão, este encontra-se no DNA nuclear. Em contraste com outros eucariotas que possuem apenas um tipo de mtDNA, as plantas possuem vários tipos de mtDNA devido a recombinações umas com as outras. PRODUTOS DOS GENES MITOCONDRIAIS NÃO SÃO EXPORTADOS Tanto quanto se sabe, todos o RNA transcritos do mtDNA e os seus produtos de tradução permanecem nas mitocôndrias, e todos as proteínas codificadas pelo mtDNA são sintetizados nas mitocôndrias por ribossomas mitocondriais. As mitocôndrias codificam o rRNA que forma os ribossomas mitocondriais, contudo todas excepto uma ou duas proteínas (conforme a espécie) que constituem os ribossomas são importadas do citoplasma. Na maioria dos eucariótas, todo o tRNA usados para a síntese de proteínas nas mitocôndrias são codificadas pelo mtDNA. Contudo uma espécie de parasita Tripanossoma brucei, e noutros protozoários ciliados, a maioria dos tRNA mitocondriais são codificados pelo DNA nuclear e importados para as mitocôndrias. O CÓDIGO GENÉTICO DAS MITOCÔNDRIAS DIFERE DO PADRÃO NUCLEAR O código genético usado em mitocôndrias animais e fúngicas é diferente do código genético padrão usados em procariotas e no núcleo eucariótico; espantosamente o código das mitocôndrias difere mesmo entre diferentes espécies. Porquê e como estas diferenças surgiram durante a evolução continua um mistério. UGA, por exemplo, é normalmente um codão stop, mas é codificado como triptofan por mitocôndrias humanas e fúngicas; contudo nas mitocôndrias das plantas UGA é também reconhecido como um cordão stop. AGA e AGG, no código padrão codifica para arginina, assim também é codificado para arginina em mitocôndrias de fungos e plantas, mas é codificado como codão stop em mitocôndrias de mamíferos e como serina em Drosophila . 34 TELÓMEROS ADIÇÃO DE SEQUÊNCIAS TELOMÉRICAS PELA TELOMERASE IMPEDE O ENCURTAMENTO DOS CROMOSSOMAS A sequênciação dos telómeros de uma data de organismos, incluindo humanos, mostrou que a maioria são constituídos por sequências de oligonucleótidos repetitivas, com alta quantidade de G e T numa cadeia (terminal 3’) e C e A na cadeia complementar (terminal 5’). A sequência dos telómeros em humanos e outros vertebrados é TTAGG. Estas simples sequências repetem-se em todos os terminais dos cromossomas, num total de algumas centenas de pares de bases em leveduras e protozoários e alguns milhares em vertebrados. O terminal 3’ com uma cadeia rica em G estende-se por 12 a 16 nucleótidos para além do final 5’ da cadeia complementar. Esta região é ligada por proteínas específicas que ao mesmo tempo protegem o final linear dos cromossomas do ataque de exonucleases assim como associa telómeros a domínios específicos do núcleo. A necessidade para uma zona especializada no final dos cromossomas é visível quando nós consideramos que todas as DNA polimerases conhecidas alongam a cadeia de DNA na extremidade 3’, e todo este processo necessita de um primer de RNA ou DNA. Assim à medida que o garfo de replicação cresce e se aproxima do final linear do cromossoma, a síntese da cadeia líder continua até ao fim completando a cadeia de dupla hélice filha. Contudo, como a cadeira seguidora é copiada de forma descontínua, ela não pode ser replicada no seu total. Quando o primer final de RNA é removido, não existe nenhuma cadeia onde a DNA polimerase se possa ligar e construir nova cadeia. Sem a ajuda de mecanismos especiais a cadeia de DNA filha resultante seria encurtada a cada divisão celular. O problema do encurtamento dos telómeros é resolvido por uma enzima que adiciona sequências teloméricas ao final de cada cromossoma. A enzima é uma ribonucleoproteína (proteína com um núcleo de RNA de cerca de 150 nucleótidos) chamada telomerase. Porque a sequência do RNA associado à telomeraseé complementar à sequência dos telómeros, esta serve de cadeia molde para a adição de desoxirribonucleótidos no final dos telómeros. A estratégia de usar cadeias de RNA como molde para a síntese de cadeias de DNA chama-se transcriptase inversa e é usada pelos retrovírus (pegou-se nesta ideia e esquematizou-se uma nova técnica RT-PCR). A sequência adicionada é maioritariamente controlada pela origem da enzima e não pelo primer de DNA telomérico. Isto foi provado usando Tetrahymena transformadas com mutantes de genes que codificam o RNA associado a telomerase. A telomerase resultante adicionava sequências de DNA complementares à cadeia de RNA mutada no final dos cromossomas. Deste modo a telomerase é uma forma especializada de transcriptase inversa que carrega o seu próprio RNA interno. 35 As figuras que se seguem mostram como a telomerase, por transcrição inversa do seu RNA interno, alonga a cadeia 3’ da cadeia simples de DNA. Células de ratinhos knockout que n conseguiam produzir RNA associado à telomerase não exibiam actividade de telomerase, e os seus telómeros tornavam-se sucessivamente mais curtos a cada geração celular. Tais ratinhos podiam procriar e reproduzir-se normalmente por três gerações antes da repetição de sequências nos telómeros se tornarem demasiado curtas. Depois a ausência de DNA telomerase resultava em efeitos adversos, tais como a fusão de terminais de cromossomas e danos cromossómicos. Por volta da quarta geração a taxa de reprodução destes ratinhos reduzia substancialmente e a partir da 6º geração eles já não geravam qualquer descendência. Contudo isto traz um benefício, os ratinhos eram menos susceptíveis a desenvolverem cancro. Foram testados com produtos cancerígenos e a taxa de incidência de cancro era consideravelmente inferior. Mecanismo de acção da telomerase A cadeia de extremidade 3’ de um telómero é estendida pela telomerase, contrabalançado a incapacidade do mecanismo de replicação em sintetizar o extremo terminal de cadeia simples. A telomerase alonga estas cadeias simples por um mecanismo repetido de transcrição inversa. A acção da telomerase do protozoa Oxytricha, que possui uma sequência repetida T4G4 já se encontra descrita: outras telomerases possuem ligeiras diferenças na sequência repetida. A telomerase contem uma cadeia de RNA (vermelho) que emparelha com a extremidade 3’ da cadeia seguidora. O local activo da telomerase (verde) cataliza a adição de desoxirribonucleótidos (azul) usando a molécula de RNA como molde, esta transcrição inversa segue até à posição 35 da cadeia de RNA molde (1). Suspeita-se que a cadeia dupla resultado da interacção DNA-RNA deslize sobre si mesma, uma em relação à outra, conduzindo ao desligamento de uma região em cadeia simples do telómero de DNA e a desocupação de parte da sequência molde da cadeia de RNA (2). A cadeia seguidora telomérica é novamente estendida até à posição 35 pela telomerase, e a cadeia dupla RNA-DNA sofre translocação e hibridação, tal como antes (3 e 4). O mecanismo de deslize, pensa-se, ser facilitado por um, pouco usual, emparelhamento de bases (pontos negros) entre os resíduos de G desligados, que são menos estáveis que o emparelhamento de Watson e Crick. A telomerase pode adicionar múltiplas repetições por repetição dos passos 3 e 4. O resultado em rede previne o encurtamento de cadeias seguidoras a cada ciclo de replicação de DNA. 36 É importante que o telómero esteja associado a proteínas ou com um arranjo específico para que ele possa ser diferenciado das quebras cromossómicas. Quando o mecanismo celular encontra extremidades cromossómicas quebradas – produzidas por radiação, dano no DNA, ou outro factor – esse DNA deve ser reparado de alguma forma antes da próxima replicação, pois se isso não acontecer, a célula pode perder uma quantidade significativa de material genético e morrer. Assim, o telómero deve possuir proteínas específicas associadas, de forma a proteger e caracterizar as extremidades cromossómicas. Acredita-se que pelo menos metade dos cromossomas de mamíferos tem telómeros que formam um tipo mais complexo de arranjo, o chamado T Loop, que esconde a cadeia simples e a protege dos ataques. Sua formação depende, principalmente, de três factores: (1) repetições de cadeia dupla; (2) repetições de cadeia simples; e (3) presença de TRF2, que se liga ao sítio de formação do loop. Este forma-se pela dobragem da cadeia simples para trás, e o seu emparelhamento com nucleótidos complementares numa porção de cadeia dupla do telómero. A formação do T loop envolve a invasão da extremidade 3’ de cadeia simples numa cadeia de dupla hélice do DNA , pensa-se que este mecanismo talvez se assemelhe à iniciação da recombinação genética homóloga (estudada mais a frente). Nos mamíferos este loop é regulado por duas proteínas TRF1 (Telomere Repeat binding Factor 1) e TRF2., com a última envolvida na formação do T loop. Na figura: a estrutura proposta para os T loop nos telómeros. A cauda de cadeia simples sintetizada pela telomerase é dobrada para trás e emparelha com nucleótidos complementares na porção em cadeia dupla do telómero. O telómero é ligado por grandes variedades de proteínas incluindo TRF1 E TRF2. No caso dos mamíferos os telómeros chegam a possuir 5.000 pares de bases. A telomerase encontra-se particularmente activa em células embrionárias, células da linha sexual e células cancerígenas mas encontram-se muito pouco activas em células somáticas adultas. SUPERENROLAMENTO DO DNA O DNA celular, como vimos anteriormente, encontra-se extremamente compactado implicando um elevado grau de organização estrutural. O mecanismo de compactação deve não só empacotar o DNA como permitir o acesso à informação contida no DNA. O superenrolamento significa o enrolamento de algo já enrolado. O fio do telefone é tipicamente um fio enrolado. O caminho que leva a base do telefone até ao escutador muitas vezes inclui um ou mais superenrolamentos. O DNA encontra-se enrolado em dupla hélice com ambas as cadeias enrolando-se segundo um eixo. Um enrolamento adicional desse eixo sobre si mesmo produz o superenrolamento do DNA (fig. prox. pag.) Como será explicado mais a frente o superenrolamento do DNA é geralmente manifestação da força estrutura. Quando o DNA não se encontra superenrolado, ou seja o eixo não se encontra dobrado sobre si mesmo, diz-se que o DNA se encontra relaxado. Nós podemos prever que a compactação do DNA envolve a forma superenrolada, o que se calhar não é tão previsível é que até mesmo a replicação e a transcrição são afectadas por este estado do DNA. Ambos os processos requerem a separação das cadeias de DNA – um processo complicado devido ao enrolamento helicoidal das cadeias. (como demonstrado na figura da próxima pagina). 37 O facto do DNA se enrolar sobre si mesmo e se empacotar na célula poderia parecer lógico, e até mesmo trivial, não fosse um simples facto: muitas moléculas de DNA circular permanecem altamente superenroladas, mesmo após a extracção e purificação, livre de todas as proteínas e outros componentes celulares. Isto indica que o superenrolamento é uma propriedade intrínseca da estrutura terciária do DNA. isto ocorre em todas as moléculas de DNA e é altamente regulada em cada uma. Um número mensurável de propriedades do superenrolamento já foram estabelecidas, e o estudo do superenrolamento providenciou muitas luzes sobre a estrutura e função do DNA. Este trabalho apoiou-se fortemente num ramo da matemática chamado Topologia, o estudo das propriedades de objectos que não mudam sobre deformações contínuas. Para o DNA, deformações contínuas incluem mudanças conformacionais, devido a alterações na temperatura ou interacções com proteínas ou outras moléculas; deformações descontínuas incluem a quebra de cadeias do DNA. Para moléculas de DNA circular, uma propriedade topológica é aquela que não é afectada pordeformações da cadeia de DNA desde que nenhuma quebra seja introduzida. Propriedades topológicas são alteradas apenas por quebras e re-ajuntamentos do esqueleto de uma ou ambas as cadeias de DNA. Para entender o superenrolamento primeiro necessitamos debruçarmo-nos sobre as propriedades de pequenas moléculas de DNA circulares tais como os plasmídeos e DNA viral. Quando estes DNAs não possuem nenhuma quebra em nenhuma cadeia, elas são referidas como DNAs circulares fechados. Se o DNA de uma molécula circular fechada possui uma conformação semelhante à forma B descrita por Watson e Crick, com uma volta de dupla hélice por 10.5pb, o DNA está relaxado em vez de superenrolado. O superenrolamento resulta quando o DNA está sujeito a alguma forma de tensão estrutural. DNA circular fechado purificado encontra-se raramente na sua forma relaxada. Para mais, DNA deriva de uma dada fonte celular possui um grau característico de superenrolamento. A estrutura do DNA é portanto forçada numa forma que é regulada pela célula para induzir o superenrolamento. 38 Em praticamente quase todos os instantes, a tensão é resultado do baixo enrolamento da dupla hélice de DNA num circulo fechado. Por outras palavras, a DNA possui menos voltas helicoidais das que seriam de esperar para uma estrutura B. Os efeitos do baixo enrolamento estão sumariados na figura ao lado (superenrolamento negativo). Um segmento de 84pb de uma molécula de DNA circular no seu estado relaxado, iria possuir oito voltas de duplas hélice, ou uma por cada 10.5 pb. Se uma destas voltas for removida, vai haver 84pb/7 = 12.0pb por volta, em vez de 10.5 encontrado na forma B-DNA. Isto é um desvio da forma mais estável de DNA, como resultado a molécula encontra-se termodinamicamente tensa. Geralmente, muito desta tensão provoca o enrolamento do eixo do DNA sobre si mesmo, de forma a formar um superenrolamento (alguma da tensão nestes 84pb simplesmente seriam dispersados na estrutura destorcida da larga molécula de DNA). Em principio a tensão poderia também ser gasta pela quebra das duas moléculas de DNA numa distância de 10pb. Em moléculas de DNA circulares fechadas, a tensão induzida pelo desenrolamento é geralmente acompanhado de superenrolamento em vez da separação das cadeias, porque o enrolamento do eixo do DNA geralmente requer menos energia do que a quebra das pontes de hidrogénio que estabilizam os pares de bases. Note contudo, que o desenrolamento do DNA in vivo torna mais fácil separar as cadeias de DNA dando acesso à informação que elas contêm. Por convenção, se a ligação entre as duas cadeias de DNA está arranjada de modo que as cadeias se enrolem para a direita dá-se o nome de enrolamento positivo, para cadeias que se enrolem para à esquerda diz-se tratar-se de enrolamento negativo. Quando há um maior número de pares de bases por volta (>10.5pb/volta) a cadeia de DNA tenta libertar essa tensão enrolando-se sobre si mesma provocando superenrolamento negativo que enrola para a direita, quando há uma diminuição do número de pares de bases por volta (a longo prazo. Outra reacção importante em desoxirribonucleótidos é a hidrólise da ligação N-β-glicosil entre a base e a pentose. Isto ocorre a uma razão mais elevada para as purinas que para as pirimidinas. Tantas quanto uma em cada 105 em cada 24 horas em condições celulares típicas. A depurinação de ribonucleótidos e RNA é muito mais lenta e geralmente não é considerada significante fisiologicamente. No tubo de ensaio, perdas de purinas podem ser aceleradas pela diluição de ácidos. A incubação do DNA a pH3 causa remoção selectiva das bases purínicas, resultando num ácido derivado chamado ácido apurínico. Outras reacções são promovidas por radiação. Luz UV induz a condensação de dois grupos etileno para formar um anel de ciclobutano. Na célula a mesma reacção entre pirimidinas adjacentes leva à formação de dímeros ciclobutanos de pirimidinas. Isto acontece mais frequentemente entre timinas adjacente da mesma cadeia de DNA. Um segundo tipo de dímero de pirimidina, chamado 6-4 fotoproducto, é também formado durante irradiação com luz UV. Radiação ionizante como os raios-X e os raios gama podem causar a abertura dos anéis e a fragmentação das bases assim como quebras nas ligações covalentes do esqueleto dos ácidos nucleicos. Virtualmente todas as formas de vida encontram-se expostas a radiações de alta energia capazes de causar alterações químicas no DNA. Radiação perto do UV (c.o. entre os 200 e 400nm), que perfaz uma grande porção do espectro solar, é conhecida por causar a formação de dímeros de pirimidinas e outras mudanças químicas no DNA de bactérias e de células da pele humana. Nós estamos sujeitos constantemente a exposição com radiação ionizante na forma de raios cósmicos, os quais conseguem penetrar fundo na terra, assim como as radiações emitidas por elementos radioactivos, tais como o rádio, plutónio, urânio, rádon 14C e 3H. É estimado que raios UV e radiações ionizantes sejam responsáveis por cerca de 10% de todos os danos causados por agentes ambientais. 41 O DNA pode também ser danificado por agentes químicos introduzidos no ambiente como produto da actividade industrial. Tais produtos podem não ser prejudiciais por si mas modem ser metabolizados pelas células em formas que o são. Agentes alquilantes podem igualmente alterar certas bases de DNA. Por exemplo, a alta reactividade química do dimetilsulfato consegue metilar a guanina de modo a esta “segurar” O6 – metilguanina, a qual não consegue emparelhar com a citosina. Muitas reacções semelhantes são trazidas a cabo por agentes alquilantes normalmente presentes nas células, tais como S-adenosil-metionina. O nucleótido modificado O6 – metilguanina formado, é uma lesão comum e altamente mutagénica. Ela tende a emparelhar com a timina em vez da citosina durante a replicação, e por isso causar a alteração de bases G≡C para A=T. A reparação directa deste produto é levada a cabo pela O6 – metilguanina – DNA metiltransferase, uma proteína que catalisa a transferência de grupos metil de O6 – metilguanina para um dos seus resíduos de Cys. Esta metiltransferase não é estritamente uma enzima porque uma simples transferência de um grupo metil, metila permanentemente a proteína, inactivando-a. O consumo de uma proteína inteira para corrigir um único dano numa simples base é uma ilustração viva da prioridade dada à preservação da integridade do DNA celular. 42 Outros agentes causadores de danos no DNA são agentes carcinogénicos – Grupos volumosos que se ligam às bases azotadas e impedem a transcrição e a replicação – e espécies reactivas de oxigénio, tais como peróxido de hidrogénio, radicais hidróxilo, e radicais de superóxido que chegam através a irradiação ou como produto do metabolismo aeróbico. Destas espécies os radicais de oxigénio são responsáveis pela maioria dos danos oxidativos do DNA. As células possuem um poderoso sistema de defesa contra estas agressões, incluindo enzimas tais como a catalase e superóxido dismutase que convertem o oxigénio reactivo a simples produtos de oxigénio inofensivo. Uma fracção destes oxidantes inevitavelmente escapam das defesas celulares, e danificam o DNA celular em qualquer uma de uma larga série de reacções desde a oxidação de desoxirriboses até quebras de cadeias. O mecanismo pelo qual actua ainda não se encontra bem descrito, mas todos os dias o DNA humano é sujeito a milhares de danos por reacções oxidativas. Assim resumindo o que foi dito anteriormente, as razões pelas quais o DNA pode sofrer danos são: 1.Erros introduzidos durante a replicação 2.Bases anormais (desaminação, metilação, depurinação) 3.Lesões no DNA que causam alterações estruturais (dímeros de timina, por exemplo) 4.Quebra das cadeias de DNA 5.Oxidação de bases e açúcares Estes são apenas alguns exemplos das reacções mais bem estudadas. Muitos compostos carcinogénicos na comida, água ou mesmo no ar podem causar o cancro por modificação das bases no DNA. A integridade do DNA é mais bem conservada que a do RNA ou a das proteínas porque o DNA é a única macromolécula que tem o benefício de ter sistemas bioquímicos de reparação. REPARAÇÃO DO DNA Uma célula geralmente possui apenas um ou dois sistemas de DNA genómico. Proteínas o RNA danificados podem ser rapidamente substituídos pelo uso da informação codificada no genoma, mas as moléculas de DNA por si só são insubstituíveis. Manter a integridade da informação contida no DNA é um imperativo celular, suportado por um elaborado conjunto de sistemas de reparação de DNA. O DNA pode ser danificado por um conjunto de processos espontâneos, ou catalisados por agentes ambientais. A replicação por si mesmo pode originar ocasionalmente danos na informação contida no DNA quando introduz erros no emparelhamento de bases. A química dos danos do DNA é grande (como já foi visto), assim, também as respostas celulares para reparação destes erros apresentam uma grande variedade de transformações químicas no metabolismo do DNA. A melhor maneira para ilustrar a importância da reparação do DNA é considerando os efeitos do DNA não reparado. O dano mais sério no DNA é a troca de bases na sua sequência, a qual é transmitida pela replicação às gerações futuras tornando-se permanentes. Uma alteração permanente no DNA é chamada de mutação. As mutações podem envolver a substituição de bases, e por isso são chamadas de mutações de substituição, ou então envolver a quebra ou adição de sequências e por isso são chamadas de mutações de adição ou de quebra. Se a mutação afectar uma zona não essencial do DNA, então dizemos que se trata de uma mutação silenciosa pois ela não produz nenhuma alteração no fenótipo do organismo. É raro uma mutação conferir alguma vantagem biológica ao organismo, a maioria das mutações não silenciosas são na maior parte das vezes deletérias. O número e a diversidade de sistemas de reparação reflectem tanto a importância da reparação do DNA para a sobrevivência celular como a variedade de fontes de danos. A reparação de alguns danos causados no DNA é possível em parte graças ao facto deste ser constituído por duas cadeias complementares, sendo que se usa a cadeia não danificada como molde para a correcção do dano verificado na outra cadeia. 43 REPARAÇÕES DIRECTAS Vários tipos de reparações são efectuados sem haver a necessidade de remover a base ou o nucleótido. O exemplo melhor caracterizado é a fotoreactivação directa dos ciclobutanos de dímeros de pirimidinas, reacção esta promovida pelas DNA fotoliases. Os dímeros de pirimidinas resultam da acção de raios UV (como visto anteriormente), e a fotoliase utiliza energia da luz absorvida para desfazer os dímeros. A fotoliase geralmente possui dois cofactores que servem como agentes absorventes da luz, ou cromóforos. Um dos cromóforos é sempre FADH–. Exemplos adicionais de reparações directas podem ser observados na reparação de bases modificadas com alquilantes.Este processo já foi explicado anteriormente. REPARAÇÃO DE BASES MAL EMPARELHADAS – METILAÇÕES EM E. coli A correcção de bases mal emparelhadas não corrigidas pelo mecanismo de revisão da DNA Polimerase durante a replicação aumenta o grau de fidelidade numa taxa de 102 a 103. Os mal emparelhamentos são muitas vezes corrigidos de forma a reflectir a informação contida na cadeia antiga (molde), assim o mecanismo de reparação deve, de alguma maneira, fazer a discriminação entre a cadeia molde e a nova cadeia. A célula resolve este problema rotulando a cadeia molde com grupos metilo. O mecanismo de reparação de mal emparelhamentos em E. coli envolve pelo menos 12 componentes proteicos envolvidos tanto no reconhecimento da cadeia molde como na correcção do erro. O mecanismo de discriminação, propriamente dito, ainda não se encontra bem documentado quer em procariotas quer em eucariotas, contudo, em E. coli e outras bactérias aparentadas este já se encontra bem definido. Nestes procariotas o mecanismo de discriminação baseia-se na acção da Dam metilase, a qual metila o DNA na posição N6 de todas as adeninas em sequência (5’) GATC. Imediatamente após a passagem do garfo de replicação existe um curto período (apenas alguns segundos ou minutos) em que a cadeia molde é metilada mas a cadeia sintetizada não é. O estado transitório não metilado da sequência GATC na cadeia nova permite a esta distinguir-se da cadeia molde. Os erros de replicação no emparelhamento de bases é então corrigido de acordo com a informação na cadeia metilada (molde). Testes in vitro mostraram que se ambas as cadeias se encontrarem metiladas na sequência GATC poucos são os mal emparelhamentos que são corrigidos. Se nenhuma cadeia se encontrar metilada, a correcção ocorre mas não favorece nenhuma cadeia. O sistema de reparação celular de bases mal emparelhadas repara eficientemente até 1000pb de sequências GATC hemimetiladas. Para muitas espécies bacterianas, o mecanismo de discriminação das cadeias durante a reparação de mal-emparelhamentos ainda não se encontra bem determinado. 44 Como é o mecanismo de correcção dirigido para zonas relativamente distantes da sequência GATC. A proteína MutL forma um complexo com as proteínas MutS, e este complexo liga-se a todas as bases mal emparelhadas (excepto C-C). Então a proteína MutH reconhece as sequências GATC e junta-se ao complexo MutS/MutL. O DNA de ambos os lados do emparelhamento incorrecto são juntos pelo complexo de proteínas Mut e formam um loop de DNA. A proteína MutH possui um local específico com actividade de endonuclease que se encontra inactivo até ao complexo encontrar o local com a sequência GATC. Neste local a MutH catalisa a clivagem da cadeia não metilada do lado 5’ do nucleótido G da sequência GATC, o que marca a cadeia a ser reparada. Futuros passos na reparação dependem de onde o emparelhamento incorrecto está localizado relativamente a este local de clivagem. Quando o emparelhamento incorrecto se encontra a 5’ da clivagem, a cadeia desmetilada é desligada e degradada no sentido 3’ 5’ desde o local de clivagem até ao local do erro, e este fragmento é preenchido com novo DNA. Este processo inclui a acção combinada da DNA helicase II, SSB, exonuclease I ou exonuclease X (ambos degradam DNA na direcção 3’ 5’), DNA polimerase III, e DNA ligase. A via para reparar emparelhamentos que se encontrem a 3’ do local de clivagem é semelhante, excepto que a exonuclease é tanto a exonuclease VII (que degrada cadeias simples de DNA tanto na direcção 3’ 5’ como na direcção 5’ 3’) ou RecJ nuclease ( a qual degrada cadeias simples de DNA apenas na direcção 5’ 3’). 45 A reparação de bases mal emparelhadas é um processo particularmente dispendioso para E. coli em termos de energia utilizada. O emparelhamento incorrecto pode estar até 1000pb do local da sequência GATC. A degradação e o re-preenchimento do segmento da cadeia com este comprimento requer um investimento enorme de energia em activar percursores de desoxinucleótidos de forma a reparar um único erro no emparelhamento de DNA. Isto, mais uma vez, sublinha a importância em preservar a integridade genómica. Todas as células eucarióticas possuem proteínas funcionalmente e estruturalmente análogas às proteínas procariotas MutL e MutS (mas não às MutH). Alterações nos genes humanos que codificam este tipo de proteínas produzem alguns dos mais comuns sindromas hereditários de susceptibilidade a cancros, mais uma vez isto representa a importância na reparação do DNA. REPARAÇÃO DE EXCISÃO DE BASES Todas as células possuem um tipo de enzimas chamadas DNA glicosilases que reconhecem lesões no DNA particularmente comuns (tais como os produtos de desaminação da citosina ou da adenina) e remover a base afectada simplesmente quebrando a ligação N-glicosil. Esta clivagem cria um local apurínico ou apirimidínico, normalmente referido como Locais AP ou Locais abasic. Cada DNA glicosilase é geralmente específica para um tipo de lesão. DNA glicosilase de uracilo, por exemplo, encontrado na maioria das células, remove especificamente o uracilo do DNA resultante da desaminação espontânea da citosina. Células mutantes para este gene que cause a falta desta enzima têm um grande número de mutações que transformam pares G≡C em pares A= T. Esta enzima não remove o uracilo das moléculas de RNA nem os resíduos de timina das moléculas de DNA. A capacidade de distinguir timina de uracilo, pode ter sido uma das razões que levou o DNA a evoluir na presença de timina em vez de uracilo como base. As bactérias geralmente possuem apenas um tipo de uracilo DNA glicosilase, enquanto que os humanos possuem pelo menos 4 tipos, com diferentes especificidades – um indicador da importância da remoção de uracilo do DNA. Outras DNA glicosilases reconhecem e removem uma variedade de outros danos no DNA, incluindo bases anormais (uracilo, xantina, hipoxantina), bases alquiladas e bases alteradas por oxidação ou pela radiação ionizante. Glicosilases que reconhecem outras lesões, incluindo dímeros de pirimidina, já foram identificadas em algumas classes de organismos. Não esquecer que os locais AP também se originam na lenta e espontânea degradação das ligações N-glicosil. Uma vez o local AP estar formado um outro grupo de enzimas entra em cena para o reparar. A reparação não é feita simplesmente pela inserção de uma nova base e re-formar a ligação N-glicosil. Em vez disso, a desoxirribose com fosfato 5’ deixada para trás é removida e substituída por um novo nucleótido. Este processo inicia-se com AP endonuclease, uma enzima que corta a cadeia de DNA que contém o local AP. O local da cisão relativamente ao local AP (a montante ou a jusante do local) varia com o tipo de AP endonuclease. O segmento contendo o local AP é então removido e a DNA polimerase I substitui este fragmento, por fim uma DNA ligase sela a ligação entre o novo fragmento e a cadeia antiga. Em eucariotas, a substituição de nucleótidos é levado a cabo por polimerases especializadas. 46 REPARAÇÃO POR EXCISÃO DE OLIGONUCLEÓTIDOS Lesões no DNA que causem grandes distorções na estrutura helicoidal geralmente são reparadas pelo sistema de reparação por excisão de nucleótidos, uma via de reparação essencial para a sobrevivência de todos os organismos livres. Na reparação por excisão de nucleótidos, uma enzima multisubunitária hidrolisa duas ligações fosfodiester, uma em cada lado da distorção causada pela lesão. Em E. coli e outros procariotas, o sistema enzimático hidrolisa a quinta ligação fosfodiéster do lado 3’ e a oitava ligação fosfodiéster no lado 5’ de modo a gerar um fragmento de 12 a 13 nucleótidos (dependendo se a lesão afecta uma ou duas bases). Em humanos e outros eucariotas, o sistema enzimático hidrolisa a sexta ligação do lado 3’ e a vigésima segunda ligação do lado 5’, produzindo um fragmento entre 27 e 29 nucleótidos. Seguindo a incisão dupla, os oligonucleótidosexcisados são libertados da dupla hélice e a falha resultante é preenchida pela DNA polimerase I em E. coli e pela DNA polimerase ε em humanos. A DNA ligase liga a falha resultante. Em E. coli a chave do complexo enzimático é a excinuclease ABC, a qual possui três subunidades, UvrA, UvrB e UvrC. O termo excinuclease é usado para descrever a capacidade única do complexo para catalizar duas clivagens endonucleotídicas específicas, distinguindo esta actividade da actividade das endonucleases padrão. O complexo das proteínas UvrA e UvrB (A2B) revê o DNA e liga-se ao local da lesão. Quando o dímero de UvrA se dissocia deixa um ligeiro complexo UvrB-DNA. A proteína UvrC então liga-se à UvrB e faz uma incisão na quinta ligação fosfodiéster do lado 3’ da lesão. Esta é seguida por uma incisão mediada por UvrC na oitava ligação fosfodiéster do lado 5’ da lesão. O fragmento resultante, com 12 ou 13 oligonucleótidos é removido pela UvrD helicase. A pequena falha então criada é preenchida pela DNA polimerase I e DNA ligase. Esta via é uma rota de reparação primária para muitos tipos de lesões, incluindo dímeros ciclobutanos de pirimidinas, 6-4 fotoproductos, e vários outros tipos de lesões. O mecanismo de excinuclease em eucariotas é semelhante a este, contudo 16 polipéptidos sem qualquer similaridade com as subunidades de excinuclease de E. coli são necessários para se efectuar o corte duplo. Deficiências genéticas na reparação por excisão de nucleótidos em humanos dão origem a uma série de doenças. 47 A DNA lesion that causes distortion of the double helix, such as a thymine dimer, is initially recognized by a complex of the XP-C (xeroderma pigmentosum C protein) and 23B proteins (step 1). This complex then recruits transcription factor TFIIH, whose helicase subunits, powered by ATP hydrolysis, partially unwind the double helix. XP-G and RPA proteins then binds to the complex and further unwind and stabilize the helix until a bubble of ≈25 bases is formed (step 2). Then XP-G (now acting as an endonuclease) and XP-F, a second endonuclease, cut the damaged strand at points 24-32 bases apart on each side of the lesion (step 3). This releases the DNA fragment with the damaged bases, which is degraded to mononucleotides. Finally the gap filled by DNA polymerase exactly as in DNA replication, and the remaining nick is sealed by DNA ligase (step 4). A EXCISÃO DE NUCLEÓTIDOS FOI ELUCIDADO ATRAVÉS DO ESTUDO DE XERODERMA PIGMENTOSUM As células usam o mecanismo de reparação por excisão de nucleótidos para corrigir regiões do DNA que contenham bases quimicamente modificadas, isto distorce a forma normal do DNA localmente. A chave para este tipo de reparação é a habilidade de certas proteínas deslizarem ao longo da superfície da cadeia dupla de DNA à procura de irregularidades na forma da dupla hélice. Por exemplo, este mecanismo repara dímeros de timina, um dano comum causado pela luz UV. Estes dímeros interferem tanto com a replicação como com a transcrição. A excisão de nucleótidos consegue corrigir zonas do DNA que contenham bases alteradas por ligações covalentes de agentes carcinogénicos tais como o benzo(a)pyrene e aflatoxin, ambos causadores da troca G para T. A figura ao lado ilustra a forma como o mecanismo de reparação por excisão de nucleótidos repara o DNA. Algumas 30 proteínas estão envolvidas neste processo, a primeira das quais foi identificada pelo estudo de defeitos na reparação do DNA em células cultivadas a partir de indivíduos com a doença Xeroderma pigmentosum, uma doença hereditária associada com a predisposição para o cancro. Indivíduos com esta doença desenvolvem frequentemente cancros da pele chamados melanomas e carcinomas escamosos da pele, se a sua pele estiver exposta a raios UV do sol. Nas células de pacientes afectados falta um sistema funcional de reparação por excisão de nucleótidos. Mutações em qualquer um, de pelo menos 7 genes diferentes, chamados XP-A até XP-G, levam à inactivação deste processo de reparação e causam esta doença; todas estas mutações produzem o mesmo fenótipo e têm as mesmas consequências. O papel da maioria destas proteínas XP na excisão de nucleótidos ainda não é bem compreendido. Espantosamente, cinco subunidades polipeptídicas da TFIIH, um factor de transcrição comum, são necessárias para a excisão de nucleótidos em células eucarióticas, incluindo duas com homologia com as helicases. Na transcrição a actividade de helicase da TFIIH desfaz a hélice de DNA no local da origem de replicação, possibilitando à RNA polimeraseII iniciar o processo de síntese dos primers. O uso de subunidades partilhadas na transcrição e na reparação do DNA pode ajudar a explicar a observação de que danos no DNA, em eucariotas superiores, são reparados a uma velocidade muito superior em regiões do genoma que são activamente transcritas do que naquelas zonas não transcritas. Visto que apenas uma pequena fracção do genoma é transcrita em qualquer célula dos eucariotas superiores, o par transcrição/reparação repara eficientemente reparações directas nas regiões mais criticas. Neste sistema, se a RNA polimerase ficar presa numa lesão no DNA (ex.: dímeros de timina), uma pequena proteína, CBS, é recrutada, esta acciona a abertura da hélice de DNA naquele ponto e recruta a TFIIH, e o resto da reacção é igual (identificação, corte e substituição). 48 REPARAÇÃO DAS QUEBRAS NAS CADEIAS DE DNA JUNÇÃO DAS EXTREMIDADES (“ERROR-PRONE”) Em organismos multicelulares, o mecanismo predominante para a correcção de quebras na cadeia dupla de DNA envolve a colagem de extremidades não homologas de duas moléculas de DNA. Mesmo que as moléculas tenham origem no mesmo cromossoma, do processo de reparação resulta sempre a perda de nucleótidos da sequência original no ponto de junção. A formação de tais estruturas com potencialidade mutagénica é um exemplo de como a reparação de DNA pode introduzir mutações. Visto que o movimento de DNA no denso núcleo é escasso, muitas vezes as pontas unidas têm origem no mesmo ponto, contudo há sempre perda se nucleótidos. Contudo, extremidades de cromossomas diferentes ocasionalmente são coladas, o que resulta numa translocação de pedaços de DNA de um cromossoma para outro. Os efeitos devastadores que estas translocações podem provocar fazem destas “the most unkindest cuts of all” citando William Shakespeare na sua obra Julius Caesars. Esta tabela mostra alguns dos diferentes tipos de proteínas e enzimas envolvidas nos diferentes processos de reparação de bases, e o tipo de danos que elas corrigem. 1. Junção das extremidades (“error-prone”) 2. Recombinação homóloga (“error-free”) 49 RECOMBINAÇÃO DE DNA Os eventos de recombinação genética envolvem a troca genética entre quaisquer duas moléculas de DNA (ou segmentos da mesma molécula) e distribuem-se em três classes gerais. Recombinação genética homóloga (também chamada geralmente de recombinação), envolvendo a troca genética entre moléculas ou zonas da mesma que partilham uma região da sequência quase idêntica. A actual sequência de bases é particularmente irrelevante, desde que seja semelhante nas duas moléculas de DNA. Na recombinação genética específica, as trocas ocorrem apenas em zonas particulares da sequência de DNA. A transposição de DNA é distinta das duas anteriores no facto de que envolve um pequeno fragmento do DNA com capacidade de se mover de um local para outro. Há, no entanto, outras formas de rearranjos genéticos que não pertencem propriamente a nenhum destes três tipos e cujo mecanismo ainda não é muito explicito. Nós vamo-nos focar apenas nestes três. As funções dos sistemas de recombinação genética são tão variadas quanto os próprios mecanismos. Eles têm papeis na reparação de DNA, actividade especifica na replicação do DNA, regulação de alguns genes, facultar a segregação própria dos cromossomas durante a divisão celular, manutençãoda diversidade genética e implementação de rearranjos genéticos programados durante o desenvolvimento embrionário. Na maioria dos casos, a recombinação genética encontra-se bastante relacionada com outros processos no metabolismo do DNA. RECOMBINAÇÃO GENÉTICA HOMÓLOGA Nos eucariótas, a recombinação genética homóloga pode ter vários papéis na replicação e na divisão celular, incluindo o reparo de garfos de replicação “enguiçados”. A recombinação atinge o auge de frequência durante a meiose. A meiose inicia-se com a replicação do DNA nas células da linha germinativa, de modo que cada molécula de DNA forma 4 cópias. A célula entra então em dois ciclos de divisão celular sem, entre eles, passar por uma fase de replicação de DNA. Isto reduz o conteúdo de DNA a um nível haplonte em cada gâmeta. Depois do DNA ser replicado durante a profase I, os cromatídeos irmãos resultantes associam-se pelos centrómeros. Nesta fase, cada par cromossomas homólogos existe como dois pares de cromatídeos. Informação genética é agora trocada entre os cromatídeos homólogos associados por recombinação genética homóloga, um processo que envolve a quebra e a colagem de DNA. Esta troca, também referida como crossing-over, liga os dois pares de cromatídeos irmãos em pontos chamados “pontos de quiasma” (plural, quiasmata). O crossing-over liga eficientemente todos os quatro cromatídeos homóloga, uma ligação que é essencial para a própria segregação dos cromossomas na divisão meiótica subsequente. O crossing-over não é um processo totalmente ao acaso, e alguns “hot spots” têm sido detectados em muitos cromossomas eucarióticos. A recombinação homóloga, assim, possui pelo menos três funções: (1) contribui para a reparação de vários tipos de danos no DNA (principalmente em bactérias, nós não estudamos); (2) providencia, em eucariótas, uma ligação transitória entre os cromatídeos irmãos que promovem a segregação ordeira dos cromossomas na primeira divisão celular da meiose; e (3) ela engrandece a diversidade genética na população. 50 A RECOMBINAÇÃO DURANTE A MEIOSE É INICIADA COM UM CORTE NA CADEIA DUPLA Uma via provável para a recombinação homóloga é ilustrada na figura ao lado. O modelo possui três características chave. Primeiro, os cromossomas homólogos são alinhados. Segundo, a cadeia dupla é clivada por uma exonuclease, deixando uma extensão em cadeia simples com um grupo hidróxilo 3’ livre na extremidade cortada (1). Terceiro, a extremidade 3’ exposta invade a cadeia dupla de DNA intacta, e isto é seguido de “branch migration” e/ou replicação de forma a criar uma estrutura chamada de “intermediário de Holliday” ((2) e (3)). Quarto, clivagem dos dois crossover criados de forma a completar os produtos recombinantes. No modelo de reparação de quebras na cadeia dupla, o terminal 3’ é usado para iniciar as trocas genéticas. Uma vez emparelhado com a cadeia complementar no homólogo, cria-se uma região de DNA híbrida que contém cadeias complementares de origens diferentes (produto do passo 2). Cada um dos terminais 3’ pode agora servir como primer para a replicação. As estruturas assim formadas, chamadas de “intermediário de Holliday”, são o aspecto da recombinação genética homóloga em todos os organismos. A recombinação Homóloga pode variar em muitos detalhes de uma espécie para a outra, mas a maioria dos passos supra-referidos estão de alguma forma presentes. Para entender de que forma é que este processo contribui para a diversidade genética há que se ter em atenção que os cromossomas homólogos que sofrem recombinação não são totalmente idênticos. A disposição linear dos genes pode ser a mesma, mas a sequência de bases em alguns genes pode diferir ligeiramente (alelos). Nos humanos, por exemplo, um gene com um alelo para a hemoglobina normal, pode recombinar com um gene com o alelo para a hemoglobina S. A diferença pode consistir em não mais de um par de bases entre milhões. Recombinações homólogas não alteram a disposição linear dos genes, mas pode determinar quais os alelos que ficam ligados num único cromossoma. 51 A recombinação como todos os processos já estudados envolve uma série de enzimas que regulam os vários passos. De todas, a proteína Rec A é a que promove os passos centrais na recombinação: o emparelhamento das duas cadeias de DNA, a formação dos intermediários de Holliday e “branch migration”. A proteína RecA é algo invulgar, dentro de todas as proteínas do metabolismo de DNA, na sua forma activa, ordenada, em forma de um filamento helicoidal de mais de mil monómeros de RecA que se associam cooperativamente na cadeia de DNA. Este filamento vai-se também formar em torno da cadeia dupla de DNA. À medida que a cadeia dupla é incorporada no seio do filamento de RecA e alinhada com a cadeia simples proveniente do cromossoma homólogo, uma cadeia da dupla hélice troca de parceiros de emparelhamento (passo2). Porque o DNA tem uma estrutura helicoidal, a troca continua requer uma rotação ordenada das duas moléculas de DNA alinhadas. Isto trás à tona a actividade da RecA de bobina que faz a troca, pontualmente, ao longo da hélice. Para esta reacção é necessário a hidrólise de ATP por parte da RecA. Uma vez formado o intermediário de Holliday, muitas outras proteínas – topoisomerases, TuvAB branch migration protein, resolvases, nucleases, DNA polimerase I e III e DNA ligase – são necessárias para completar a recombinação. 52 RECOMBINAÇÃO GENÉTICA ESPECÍFICA A recombinação genética homóloga pode envolver quaisquer duas sequências homólogas. O segundo tipo geral de recombinação, recombinação específica, é um tipo de processo bastante diferente: a recombinação é limitada a sequências específicas. Reacções de recombinação deste tipo ocorrem virtualmente em todas as células, preenchendo papéis especializados que variam grandemente de uma espécie para outra. Exemplos que incluem a regulação da expressão génica e a promoção de rearranjos de DNA no desenvolvimento embrionário; ou ainda nos ciclos de replicação de alguns DNAs virais e plasmidiais. Cada sistema de recombinação específica consiste numa enzima chamada recombinase e uma pequena sequência única onde a recombinase actua (local de recombinação). Uma ou mais proteína podem regular o tempo e desenrolar da reacção. A sequência dos locais de recombinação reconhecida pela recombinase são parcialmente assimétricas (não palindrómicas), e os dois locais de recombinação alinham-se na mesma direcção durante a reacção da recombinase. O resultado depende da localização e da orientação dos locais de recombinação. Se os locais de recombinação se encontram em moléculas diferentes, a recombinação é intermolecular; se um DNA ou ambos são circulares o resultado é uma inserção. Também ocorre este tipo de recombinação dentro da mesma molécula de DNA, mas esse processo não é estudado por nós nesta cadeira. O primeiro sistema de recombinação específica estudado in vitro foi aquele descodificado pelo bacteriófago λ. Quando o DNA do fago entra numa célula de E. coli , uma série de eventos regulatórios complexos submetem o DNA a um dos dois destinos. O DNA λ ou se duplica e produz mais bacteriófagos (destruindo a célula hospedeira) ou se integra no cromossoma hospedeiro, replicando-se passivamente juntamente com a bactéria ao longo de várias gerações. A integração é acompanhada por uma recombinase codificada pelo bacteriófago (λ integrase) que actua no local de recombinação no DNA do fago e da bactéria – nos locais de ligação attP e attB (attchment sites Phage anda Bacterial), respectivamente. RECOMBINAÇÃO DOS SEGMENTOS V E J DA CADEIA LEVE IG KAPPA Alguns rearranjos do DNA são uma parte programada no desenvolvimento de organismos eucariotas. Um exemplo importante é a geração do gene completo da imunoglobina a partir de segmentos de genes separados no genoma de vertebrados. Um humano (tal como todos os mamíferos)é capaz de produzir milhões de imunoglobinas (anticorpos) diferentes, com especificidades de ligação distintas, mesmo quando o genoma humano possui apenas ~35 000 genes. A recombinação permite a um organismo produzir uma variedade extraordinária de anticorpos a partir de uma capacidade limitada de genoma codificante. Estudos do mecanismo de recombinação revelaram uma relação próxima com os transposões e sugeriram que o sistema de gerar esta diversidade de anticorpos evoluiu a partir de ancestrais invasões por transposões. 53 Nós podemos usar os genes humanos que codificam proteínas da classe das imunoglobinas G (IgG) para ilustrar como se gera a diversidade de anticorpos. Imunoglobinas consistem em duas cadeias polipeptídicas pesadas e duas leves. Cada uma destas cadeias possui duas regiões, uma variável, com uma sequência que varia bastante de uma imunoglobina para outra, e uma conservada dentro de cada classe de imunoglobinas. Existem ainda duas famílias distintas de cadeias leves, Kappa e Lambda, que diferem de alguma maneira na sequência da sua região constante. Para todos os três tipos de cadeias polipeptídicas (cadeia pesada e cadeias leves kappa e lambda), a variabilidade na região variável é gerada por mecanismos semelhantes. Os genes para estes polipéptidos encontram-se divididos em segmentos, e o genoma contém grupos com múltiplas versões de cada segmento. A junção de uma versão de cada segmento cria um gene completo. A figura ilustra a organização do DNA que codifica a cadeia leve kappa de IgG em humanos e mostra como uma cadeia madura é gerada. Em células indiferenciadas a informação codificante para este polipéptido encontra-se separada em três segmentos. O segmento V (variável) codifica 95 aminoácidos, a região J (joining) codifica os restantes 12 aminoácidos da região variável, e o segmento C (constante) que codifica a região constante. O genoma possui cerca de 3 segmentos V diferentes, 4 segmentos J diferentes, e 1 segmento C. Assim uma célula estaminal da medula óssea diferencia-se para formar um linfócito B maduro, um segmento V e outro J são juntos por um mecanismo especializado de recombinação. Durante esta delecção programada de DNA, o DNA interveniente é descartado. Existem cerca de 300 x 4 = 1 200 possibilidades de combinações V-J. Este processo de recombinação não é tão preciso quanto a recombinação específica, assim variações adicionais ocorrem na sequência na junção V-J. Isto aumenta a variação global num factor de pelo menos 2.5, assim as células podem gerar cerca de 1200x2.5 = 3000 combinações diferentes de V-J. A junção final da combinação junta-se à sequência C e é acompanhada de uma reacção de splicing de RNA pós transcrição. Os genes para a cadeia pesada e a cadeia leve lambda formam-se de forma semelhante. As cadeias leves possuem mais fragmentos de genes que as cadeias leves, com mais de 5000 combinações possíveis. Porque qualquer cadeia leve pode emparelhar com qualquer cadeia pesada para gerar imunoglobulinas, cada humano tem pelo menos 3000 x 5000 = 1.5X107 IgG possíveis. Variações adicionais são geradas pela elevada taxa de mutações (de mecanismo desconhecido) na sequência V durante a diferenciação do linfócito. Cada linfócito B maduro produz apenas um tipo de anticorpo, mas a variedade de anticorpos produzidos por diferentes células é enorme. ELEMENTOS GENÉTICOS MÓVEIS TRANSPOSÕES Iremos agora considerar o terceiro tipo geral de sistemas de recombinação: é um tipo de recombinação que possibilita o movimento de elementos transponíveis, os transposões. Estes segmentos de DNA, virtualmente encontrados em todas as células, movem-se ou saltam de um local para outro do cromossoma (local dador) para outro local no mesmo cromossoma ou num diferente (local alvo). Não é necessário nenhum tipo de homologia no DNA para este tipo de movimento, chamado transposição; o novo local é determinada mais ou menos ao acaso. A inserção de um transposão num gene essencial poderia matar o 54 organismo, por isso a transposição é um fenómeno altamente regulado e pouco frequente. Os transposões são, talvez, os parasitas moleculares mais simples; adaptados a replicarem-se passivamente com o cromossoma da célula hospedeira. Em alguns casos eles carregam genes que são úteis para a célula hospedeira, e por isso existem num tipo de simbiose com o hospedeiro. Os transposões bacterianos variam em estrutura, mas a maioria possui uma pequena sequência repetida em cada extremidade que serve como locais de ligação para a transposase. Quando a transposição ocorre, uma pequena sequência na zona alvo (5 a 10pb) é duplicada para formar uma sequência repetida adicional que encaixe cada extremidade do transposão a ser inserido (mecanismo “cortar e colar”). Estes segmentos duplicados resultam do mecanismo de corte usado para inserir o transposão na nova localização. Existem duas vias gerais para a transposição em bactérias. Na transposição directa (representada com o transposão a cor-de-laranja na figura de baixo) ou transposição simples, cortes em ambos os lados do transposão retira-o do local de origem e o transposão move-se para o sua nova localização. Isto deixa um corte na cadeia dupla no DNA dador que necessita ser reparado. No local alvo, um corte estratégico é feito, o transposão é inserido no corte e a replicação do DNA preenche as falhas duplicando as sequências alvo (zonas a vermelho na figura de cima). No segundo tipo de transposição, o transposão é transcrito, não sendo portanto removido do seu local de origem, formando-se um intermediário de RNA, este é convertido por uma trancriptase reversa numa cadeia dupla de DNA e é esta que se vai ligar à zona alvo, a estes transposões chamamos de retrotransposões. A maioria dos elementos móveis em bactérias são transposões directos (transposões de DNA). Em contraste em eucariótas a maioria são retrotransposões, contudo transposões directos também ocorrem, e de facto estes foram os primeiros a serem descobertos. SEQUÊNCIAS DE INSERÇÃO BACTERIANA (TRANSPOSÕES DE DNA) A primeira luz para perceber os elementos móveis veio do estudo de certas mutações em E. coli causadas pela inserção espontânea de sequências de DNA no meio de alguns genes. Estes segmentos de DNA inseridos são chamados sequências de inserção, ou elementos IS. Por agora mais de 2 elementos IS diferentes já foram caracterizados em E. coli e outras bactérias. A transposição de um elemento IS é um evento muito raro, ocorrendo apenas um em cada 105-107 células por geração, variando com o tipo de elemento. Muitos transposões inactivam genes essenciais, matando a célula hospedeira e o elemento IS que carregam. Consequentemente, altas taxas de transposões iriam provavelmente resultar numa taxa de mutação bastante elevada para que a célula hospedeira conseguisse sobreviver. Contudo, visto que os elementos IS transpõem mais ou menos ao acaso alguns transposões entram em regiões não essenciais do genoma (ex. zonas entre os genes), permitindo à célula sobreviver a uma taxa muito baixa de transposões a maioria da s células é capaz de sobreviver e consequentemente propagam o elemento IS simbiótico. Elementos IS também conseguem-se ligar a plasmídeos ou a vírus lisogénicos, e assim serem transferidos para outras células. Quando isto acontece, 55 elementos IS podem ser transpostos em cromossomas de células virgens. A estrutura geral de um elemento IS esta representado na figura. Uma zona repetida e invertida (inverted repeat) contendo cerca de 50 pares de bases encontra-se, invariavelmente, na extremidade de uma sequência de inserção. Numa inverted repeat a sequência 5’ 3’ numa cadeia é repetida na outra cadeia como: 5’GAGCT-------GAGCT3’ / 3’CTCGA-------CTCGA5’. Entre as regiões de inverted repeat encontra-se uma região que codifica a transposase, uma enzima necessária para a transposição do elemento IS para um novo local. A transposase é expressaa uma taxa muito baixa, dado a baixa frequência de ocorrência de transposões. Um importante ponto dos elementos IS é a presença de sequências curtas repetidas directamente. (direct-repeat sequence), contendo 5-11 pb, imediatamente adjacente a ambos os terminais do elemento de inserido. O comprimento das direct-repeat é característico de cada elemento IS, mas esta sequência depende da zona alvo onde uma cópia particular do elemento IS vai ser inseria. Quando a sequência de um gene mutado contendo um elemento IS é comparada com a sequência do gene tipo selvagem, apenas uma cópia da pequena sequência direct-repeat é encontrada. A duplicação desta sequência no local alvo para criar uma segunda sequência direct- repeat adjacente ao elemento IS ocorre durante o processo de inserção. Como mostra a figura, a transposição de um elemento IS é semelhante ao mecanismo “Cortar e colar”. A transposase desempenha três funções neste processo: (1) retira com precisão o elemento IS do DNA dador, (2) faz cortes estratégicos numa pequena sequência no DNA alvo, e (3) liga o terminal 3’ do elemento IS ao terminal 5’ do corte efectuado no dador. Finalmente a DNA polimerase da célula hospedeira preenche as falhas , gerando uma pequena sequência direct-repeat que rodeiam o elemento IS, e a DNA ligase liga os terminais livres. Estes elementos móveis que são transpostos através de intermediários de DNA são geralmente chamados de transposões de DNA. Os elementos móveis que são transpostos para novos lugares através de um intermediário de RNA são chamados retrotransposões porque o seu movimento é análogo ao efectuado por processos infecciosos por parte dos retrovírus. De facto os vírus podem ser “imaginados” como retrotransposões que transportam genes codificantes para proteínas virais, de modo a possibilitar-lhes infectar mais células. RETROTRANSPOSÕES COM SEQUÊNCIAS LTR O genoma de todos os organismos eucariótas contém retrotransposões, elementos de DNA móveis que são transpostos através de um intermediário de RNA utilizando uma transcriptase reversa. Estes elementos móveis encontram-se divididos em duas grandes categorias, aqueles que contêm e aqueles que não contêm LTRs (long terminal repeats). Retrotransposões com LTR são comuns em leveduras e em Drosophila. Apesar de menos abundantes em mamíferos que os transposões sem LTRs, retrotransposões com LTR constituem nada menos que 8% do genoma humano. A estrutura geral de um retrotransposão com LTR, encontrado em eucariotas, está representada na figura. Em adição as pequenas direct-repeats nas extremidades 3’ e 5’ típicas de todos os elementos móveis, estes retrotransposões estão marcados pela presença de LTR que rodeiam a zona central codificadora de proteínas. Estes LTRs, contendo ~250-600pb, 56 são característicos por integrarem DNA retoviral e são críticos ao ciclo de vida dos retrovírus. Além de partilharem LTRs com os retrovírus, retrotransposões com LTRs codificam todas as proteínas dos tipos mais comuns de retrovírus, exceptuando as proteínas do invólucro. Na falta destas proteínas do invólucro, retrotransposões LTRs não conseguem sair da sua célula hospedeira e infectar outra célula; contudo eles conseguem-se mover para novos locais no DNA do seu hospedeiro. Um passo chave no ciclo de vida dos retrovírus é a formação de RNA retroviral a partir de DNA retroviral integrado. Este processo serve como modelo para a geração de RNA intermediário durante a transposição dos retrotransposões com LTR. Como mostra a figura, a zona LTR da esquerda tem funções como promotor que direcciona RNA polimerase II da célula hospedeira a iniciar a transcrição no nucleótido 5’ da sequência R. Após todo o DNA retroviral ter sido transcrito a sequência de RNA correspondente ao LTR do lado esquerdo direcciona as enzimas de processamento de RNA da célula hospedeira a clivar o transcrito primário e a acrescentar uma cauda de poli(A) na extremidade 3’ da sequência R. O RNA retroviral resultante, no qual falta uma sequência completa de LTR, é empacotado num virião que cresce na célula hospedeira. Após uma infecção com retrovírus, dá-se a transcrição reversa do seu RNA pela proteína transcriptase reversa codificada pelo retrovírus resultando numa cadeia dupla de DNA contendo LTRs completos. Integrase, uma outra enzima codificada pelo retrovírus, que se encontra relacionada com a transposase codificada por alguns transposões de DNA, usa um mecanismo semelhante para inserir a cadeia dupla de DNA retroviral no genoma da célula hospedeira. Neste processo, short direct-repeats do local alvo são geradas em ambos os lados da sequência viral inserida. Como visto antes, retrotransposões com LTR codificam transcriptase reversa e integrase. Por analogia com os retrovírus, pensa-se que estes elementos móveis se deslocam através do mecanismo “cortar e colar”, contudo a transcriptase reversa converte uma cópia do RNA do local dador em DNA; o qual é inserido no local alvo pela integrase. O sequênciamento do genoma humano mostrou que as sequências mais comuns relacionadas com retrotransposões LTRs são derivadas de retroviroses endógenas (ERV). A maioria das 443.000 sequências relacionadas-ERV no genoma humano consiste unicamente de LTRs isolados. Estas são derivadas de DNA inteiro proviral por recombinação homóloga entre as duas sequências LTR, resultando na delecção da sequência interna retroviral. RETROTRANSPOSÕES SEM SEQUÊNCIAS LTR Os elementos móveis mais abundantes em mamíferos são retrotransposões sem sequências LTRs, por vezes chamados de retrotransposões não virais. Estas sequências de DNA moderadamente repetidas formam duas classes em genomas de mamíferos: long interspersed elements (LINEs) e short interspersed elements (SINEs). Em humanos o tamanho médio de LINEs é de ~6kb (21% genoma humano) enquanto que as sequências SINEs rondam os 300pb (13% genoma humano). Sequências repetidas com características de LINEs foram observadas em protozoários, insectos e plantas, mas por razões desconhecidas elas são particularmente abundantes nos genomas de mamíferos. SINEs também foram encontrados primariamente em DNA de mamíferos. Um largo número de LINEs e SINEs em eucariótas superiores foi acumulado com o processo evolutivo por cópias múltiplas das sequências em algumas posições no genoma e inserção noutras. Embora estes elementos móveis não contenham LTRs, as evidências disponíveis apontam que elas são transpostas através de um intermediário de RNA. 57 LINEs DNA humano contém três grandes famílias de LINEs que são semelhantes no seu mecanismo de transposição, mas diferem nas suas sequências: L1, L2 e L3. Apenas membros da família L1 ainda transpõem no genoma actual. A estrutura geral de um LINE completo é mostrada na figura. LINEs normalmente são rodeados por curtas direct-repeats, os marcadores dos elementos móveis, e contêm duas ORFs (open reading frames). ORF1, ~1kb, codifica uma proteína que liga RNA, e a ORF2, ~4kb, codifica uma proteína que possui uma longa região de homologia com a transcriptase reversa dos retrovírus e retrotransposões mas também possui actividade de endonuclease. Dado que LINEs não contêm LTRs, o seu mecanismo de transposição através de um intermediário de RNA difere dos transposões com LTR. As proteínas ORF1 e ORF2 são traduzidas a partir de um RNA LINE. Estudos in vitro indicam que a transcrição pela RNA polimerase II é dirigida por promotores na extremidade esquerda do DNA LINE integrado. RNA LINE é poliadenilado pelos mesmos mecanismos de pós-transcrição que poliadenilam outros RNA. O RNA LINE é então transportado para o citoplasma, onde é traduzido em proteínas ORF1 e ORF2. Cópias múltiplas da proteína ORF1 ligam-se ao RNA LINE, e a proteína ORF2 liga-se à cauda de poli(A). O RNA LINE é então transportado de volta para o núcleo como um complexo com as proteínas ORF1 e ORF2. 58 A proteína ORF2 faz então cortespodemos verificar, em retrospectiva, que naquela época somente um golpe intuitivo muito excepcional, de extrema genialidade, poderia levar à cogitação de que a codificação da mensagem genética fosse feita por meio da utilização de pares de bases complementares. Não havia a mínima evidência que permitisse essa conjectura. Por isso, nem Chargaff, e nem qualquer outro pesquisador, até 1953, foi capaz de perceber a complementaridade estrutural oculta na relação entre as concentrações molares das bases. Isso só se tornou claro após a descoberta da hélice dupla do DNA. No dizer de Crick, “não foi a regra de Chargaff que revelou a estrutura do DNA, e sim a estrutura do DNA que revelou a regra de Chargaff”. Para analisar a estrutura do DNA, R. Franklin, no laboratório de M. Wilkins, utilizava o método de difracção de Raios-X. Em um cristal as moléculas estão arranjadas ordenadamente. Assim, quando um feixe de Raio-X atinge um cristal, espalha-se ordenadamente de acordo com um padrão que reflecte a estrutura do cristal. A imagem do padrão de espalhamento é fixada em um filme fotográfico impressionado pelos Raio-X. Na figura o padrão de espalhamento do feixe de Raio-X atravessando um cristal de DNA indica que: • A molécula é uma hélice (padrão em cruz no centro); • As bases (áreas escuras) dispõem-se perpendicularmente ao eixo principal da molécula. • Possui um diâmetro constante de 20 Å (angstrongs) o que não seria possível se a molécula fosse composta apenas por uma cadeia de DNA, assim concluiu-se que a molécula seria composta por duas cadeias de DNA entrelaçadas; • O modelo proposto por Watson diz ainda que a cadeia enrola para a direita e que no interior (no esqueleto) existem as bases. • A estrutura mantém-se devido a pontes de hidrogénio que se estabelecem entre as bases e devido a forças de van der Walls e interacções hidrofóbicas que se geram entre os nucleótidos. • Cada nucleótido distancia-se do outro por 3.4Å • Cada volta da cadeia é constituída por 10 bases e possui um comprimento de 36Å; • A este modelo da molécula de DNA é chamado “modelo B” 6 Outras observações: • As bases adjacentes em cada cadeia encontram-se em planos paralelos; • A orientação de uma cadeia é antiparalela em relação a outra; • As cadeias são seguras por um preciso e regular emparelhamento de bases; • Esta complementaridade é consequência do tamanho, forma e composição química das bases; • Para manter a forma de dupla hélice uma purina (A ou G) – grandes – têm de emparelhar com uma pirimidina (T ou C) – mais pequenas. • No DNA normalmente A emparelha com T e G emparelha com C formando os pares A-T e G-C também chamados de pares de Watson-Crick. • A emparelha sempre com T pelo meio de duas pontes de hidrogénio; • G emparelha sempre com C pelo meio de três pontes de hidrogénio; • Sabe-se que uma purina emparelha com uma pirimidina devido ao diâmetro da molécula de DNA, se o emparelhamento fosse purina-purina a molécula teria um maior diâmetro e se o emparelhamento fosse pirimidina-pirimidina então a molécula teria um diâmetro mais reduzido. • Duas cadeias polinucleótidas, ou regiões dessa, nas quais os nucleótidos formem tais pares dizem-se ser complementares; • Contudo em teoria e em DNAs sintéticos outras interacções podem ocorrer. Por exemplo a guanina (purina) pode, teoricamente, emparelhar com a timina (pirimidina), causando apenas uma pequena distorção na hélice; • O espaço disponível na hélice permitiria também o emparelhamento entre duas pirimidinas, citosina e timina; • Apesar dos pares não padrão G-T, C-T normalmente não se encontrarem nas moléculas de DNA, G-U são um quanto comuns em regiões de dupla hélice de RNA; • Uma molécula com grande quantidade de ligações G-C é uma molécula muito estável e de difícil desnaturação; Duas cadeias de polinucleótidos podem, a princípio, formar tanto hélices que rodem para a esquerda como hélices que rodem para a direita. Devido a geometria do esqueleto açúcar-fosfato ser mais compatível com a primeira o DNA é naturalmente enrolado para a direita. No exterior da forma B, os espaços entre as cadeias enroscadas forma dois tipos de encaixe com diferentes dimensões – um maior e um menor. Consequentemente estes locais servem para ligar diferentes tipos de proteínas com diferentes afinidades e tamanhos. Estas duas superfícies de ligação na molécula de DNA é usada para ligar diferentes classes de DNA-biding proteins. Em adição a forma B de DNA, outras 3 foram descritas. Uma delas a forma A DNA encontra-se quando a molécula de forma B se encontra em ambientes muito baixos em humidade. A forma A é mais compacta que a forma B, possuindo 11 bases por cada volta. Moléculas pequenas de DNA compostas por bases de 7 purina-pirimidina alternados (especialmente G e C) adoptam uma configuração enrolada a esquerda. A esta estrutura damos o nome de Z DNA, pois as bases parecem ziguezaguear quando vistas de lado. É inteiramente possível que ambas as formas A e Z existam nas células. Finalmente, uma estrutura de três cadeias pode também existir, pelo menos no tubo de ensaio, e possivelmente durante a recombinação e reparação de DNA. Como separar duas cadeias de DNA? • Temperatura; • Enzimas; O termo desnaturação no caso de moléculas de DNA não tem o mesmo significado que tem quando se fala de proteínas. Nas proteínas disto resulta uma quebra de ligações e interacções e a proteína perde as suas funções. No caso do DNA isto refere-se apenas à separação das duas cadeias, resultado da quebra de pontes de hidrogénio por enzimas ou temperatura. Quando DNA desnaturado é submetido a temperaturas baixas as moléculas renaturam. Durante a replicação do DNA e durante a transcrição, as cadeias da hélice necessitam de se separar, pelo menos temporariamente. A libertação da tenção e separação das cadeias de DNA, referidas como desnaturação (melting), pode ser induzido experimentalmente. Por exemplo, se a solução de DNA for aquecida a energia térmica aumenta o movimento molecular, eventualmente quebrando as pontes de hidrogénio e as outras forças estabilizadoras da dupla hélice e as cadeias separam-se. Isto altera a absorção de luz ultravioleta (na gama dos 260nm), que é normalmente utilizada para medir a concentração de DNA 8 devido a absorvância das luz UV por parte dos nucleótidos (devido ao seu anel). Molécula de DNA no seu estado nativo (dupla hélice) absorve cerca de metade da quantidade de luz UV que a mesma quantidade de DNA de cadeia simples. Assim a medida que o DNA se desnatura a sua absorvância vai aumentando. Perto do ponto de desnaturação um ligeiro aumento na temperatura causa uma abrupta, quase simultânea, perda de múltiplas ligações fracas que seguram a cadeia, assim a desnaturação rapidamente ocorre em toda a cadeia. O melting point, Tm, à qual as cadeias de DNA se separam varia com vários factores. Moléculas que contêm uma grande proporção de pares G-C requerem altas temperaturas para desnaturar pois as três pontes de hidrogénio que se estabelecem entre estas duas bases tornam este par mais estável que A-T com apenas duas pontes de hidrogénio. Assim a percentagem de pares G-C numa amostra de DNA pode ser estimado através do seu ponto de Tm . As cadeias simples que resultam da desnaturação formam estruturas aleatórias sem uma estrutura regular. A diminuição da temperatura causa o rearranjo das duas cadeias numa estrutura perfeita de dupla hélice. A desnaturação e renaturação do DNA é a base da hibridação dos ácidos nucleicos, uma poderosa ferramenta para estudar relações de parentesco de duas amostras de DNA ou para detectar e isolar moléculas de DNA específicas numa mistura contendo um inúmero de sequências. A260nm =1 [DNA] = 50ug/ml [ RNA ] ou [DNA cadeia simples]= 40ug/ml Nota: Como o RNA absorve maior quantidade de luz não é necessário uma concentração tão elevada para que se dê o mesmoestratégicos no DNA do cromossoma em ambos os lados de qualquer sequência rica em A/T (1). A transcrição reversa de RNA LINE por parte da ORF2 tem como primer a cadeia simples rica em bases T gerada pelas clivagens da ORF2, a qual hibridiza com a cadeia de poli(A) (2). A enzima ORF2 então transcreve reversamente o RNA LINE (3), a transcrição continua, trocando a cadeia molde para a região em cadeia simples da cadeia superior do cromossoma, (4 e 5). Agora, enzimas celulares hidrolizam o RNA e extendem o terminal 3’ do DNA da cadeia superior do cromossoma, substituindo a cadeia RNA LINE com DNA (6). Finalmente, as extremidades 3’ e 5’ do DNA são ligadas, completando a inserção (7). Estes dois últimos passos provavelmente são catalizados pelas mesmas enzimas celulares que removem os primers de RNA e ligam os fragmentos de Okazaki durante a replicação do DNA. O processo completo resulta na inserção de uma cópia do retrotransposão LINE inicial num novo local no cromossoma. Uma curta repeat-direct sequência é gerada no local de inserção por causada clivagem inicial das duas cadeias de DNA cromossomais (1). A vasta maioria de LINEs no genoma humano são truncados (aleijados, incompletos) na sua extremidade 5’, sugerindo que a transcrição reversa termina antes de estar completa e os fragmentos resultantes extendem distancias variáveis a partir da cauda de poli(A) onde foram inseridos. Devido a este encurtamento, o tamanho médio de elementos LINE é apenas 900pb, enquanto que a sequência inteira é de 6kb. Em adição quase todos os elementos completos possuem codões stop e mutações nas regiões ORF1 e ORF2; estas mutações provavelmente foram-se acumulando com o processo evolutivo. Como resultado da truncação e das mutações, apenas 0.01% da sequências LINE no genoma humano estão completas com ORF1 e ORF2 intactas, ~60-100 do total. SINEs Esta é segunda classe mais abundante de elementos móveis no genoma humano. Variando muito no tamanho, desde 100 até 400pb, estes retrotransposões não codificam proteínas, mas contêm uma sequência 3’ rica em A/T semelhante à cauda dos LINEs. A sua inserção no genoma dá–se de igual maneira que a inserção dos LINEs mas como estes não codificam proteínas fazem uso das proteínas codificadas pelos LINEs. FUNÇÕES DO DNA MÓVEL Apesar de parecer não possuírem mais nenhuma função para além da sua própria sobrevivência, a sua presença provavelmente teve um impacto profundo na evolução dos organismos. Por exemplo, cerca de metade das mutações espontâneas que ocorrem em Drosophila resultam da inserção de elementos de DNA móvel dentro ou perto de uma unidade de transcrição. Em mamíferos, contudo, elementos móveis causaram uma proporção muito menor de mutações espontâneas (~10% em ratinhos e 0.1 a 0.2 % em humanos). 59 Mesmo assim, elementos móveis têm sido encontrados em alelos mutantes associados a várias doenças humanas. Algumas evidências sugerem que durante o processo evolutivo dos eucariótas superiores a recombinação intrões de dois genes separados, gerou novos genes a partir de combinações de exões já existentes. A este processo evolutivo chama-se “shuffling de exões”. Ambos os transposões de DNA como os retrotransposões mostraram por vezes carregar sequências do genoma não relacionadas com eles através do mecanismo ilustrado na figura ao lado. Este tipo de mecanismo também contribuiu para o shuffling de exões durante a evolução. Em adição a causar mudanças em sequências codificantes do genoma, a recombinação entre elementos móveis e a transposição de DNA adjacente também desempenhou algum papel na evolução. Estas considerações sugerem que a visão de que os elementos de DNA móveis eram completamente parasitas moleculares egoístas, falha um pouco. Em vez disso, eles contribuíram profundamente para a evolução dos organismos superiores promovendo (1) a geração de famílias de genes por duplicação; (2) a criação de novos genes via Shuffling de exões preexistentes e (3) a formação de regiões reguladoras mais complexas que providenciam controlo multifacetado da expressão génica. METABOLISMO DE RNA A expressão da informação num gene geralmente envolve a produção de uma molécula de RNA transcrita a partir de uma molécula de DNA molde. As cadeias de DNA e RNA podem parecer muito semelhantes à primeira vista, diferindo apenas no grupo OH na posição 2’ da pentose e na presença de Uracilo no RNA em vez de T. contudo, ao contrário do DNA, a maioria dos RNA desempenham as suas funções em cadeia simples, cadeias que se enrolam sobre si mesmas e têm o potencial para uma diversidade estrutural muito maior que o DNA. o RNA é assim essencial a uma variedade de funções celulares. O RNA é a única macromolécula conhecida que tem funções tanto de armazenas e transmitir informação mas também como catalizador, o que leva à especulação sobre o seu possível papel como intermediário químico essencial no desenvolvimento de vida neste planeta. A descoberta de RNAs catalíticos, ou ribossomas, mudou a definição de enzimas, estendendo-a para além do domínio das proteínas. As proteínas nunca foram essenciais para o RNA e para as suas funções. Nas células modernas, todos os ácidos nucleicos, incluindo o RNA, são complexos com proteínas. Alguns deste complexos são bastante elaborados, e o RNA pode assumir ambos os papéis catalítico ou estrutural em maquinarias bioquímicas bastante complicadas. Todas as moléculas de RNA, excepto o RNA genómico de alguns vírus, derivam da informação guardada no DNA. Durante a transcrição um sistema de enzimas converte a informação genética de um segmento de DNA em cadeia dupla numa cadeia de RNA com uma sequência de bases complementar a uma das cadeias de DNA. Três grandes tipos de RNA são produzidos RNA mensageiro (mRNA) que codifica a sequência de aminoácidos de um ou mais polipéptidos especificados por um gene ou série de genes. RNA de transferência (tRNA) lê a informação codificada no mRNA e transfere o aminoácido apropriado para a cadeia polipeptídica em crescimento durante a síntese proteica. RNA ribossomal (rRNA) é o constituinte dos ribossomas, o mecanismo celular intrincado que sintetiza as proteínas. Muitos outros RNAs especializados possuem funções regulatórias ou catalíticas ou são precursores de algum destes tipos. 60 TRANSCRIÇÃO Durante a replicação o cromossoma inteiro é copiado, mas a transcrição é um processo mais selecto. Apenas genes particulares ou grupos de genes são transcritos de cada vez, e algumas porções do genoma nunca são transcritas. A célula restringe a expressão da informação génica na formação de produtos génicos necessários naquele momento em particular. Sequências regulatórias específicas marcam o início e o final do segmento de DNA a ser transcrito e designam qual das cadeias da dupla hélice é usada como molde. A transcrição assemelha-se à replicação nos seus mecanismos químicos fundamentais, na sua polaridade (direcção) e no uso de uma cadeia molde. Também como a replicação, a transcrição possui uma fase inicial (ainda subdividida em pequenas fases de ligação ao DNA e inicio da síntese), de alongamento e de terminação. A transcrição difere da replicação no facto de não serem necessários primers para esta ter inicio, e no facto de que geralmente a transcrição envolve apenas uma porção limitada do genoma. RNA POLIMERASES A descoberta das DNA polimerases e a sua ligação à cadeia de DNA levou à procura de uma enzima que sintetizasse cadeias de RNA complementares à cadeia de DNA. Em 1960 quatro grupos de pesquisa independentes detectaram uma enzima num extracto celular que podia formar um polímero de RNA a partir de ribonucleósidos 5’-trifosfatados. Trabalhos subsequentes na purificação desta enzima em E. coli ajudou a definir as propriedades principais da transcrição. RNA polimerase dependente de DNA requeria, em adição a uma cadeia molde de DNA, todos os quatro ribonucleótidos na forma trifosfatada(ATP, GTP, UTP, CTP) como percursores das unidades de nucleótidos do RNA. A química do mecanismo da transcrição assemelha-se àquele usado pelas DNA polimerases. RNA polimerase estende a cadeia de RNA por adição de unidades de ribonucleótidos ao terminal hidroxilo 3’, construindo a cadeia de RNA na direcção 5’ 3’. Durante a adição dos ribonucleótidos há a libertação de pirofosfato, tal como na replicação. Através da reacção (NMP)n + NTP → (NMP)n+1 + PPi . A RNA polimerase necessita de DNA para estar activa e encontra-se mais activa quando ligada a DNA em cadeia dupla. Como dito antes, apenas uma das duas cadeias serve como molde. A cadeia de DNA molde é copiada no sentido 3’ 5’ (antiparalela com a nova cadeia de RNA), tal como na replicação. Cada nucleótido no RNA recém-formado é seleccionado pelas interacções de emparelhamento de bases de Watson-Crick. Ao contrário da DNA polimerase, a RNA polimerase não necessita de um primer para iniciar a transcrição. A iniciação ocorre quando a RNA polimerase se liga a uma sequência específica chamada promotores. O grupo trifosfato 5’ do primeiro resíduo numa cadeia de RNA recém formada não é clivado para libertar pirofosfato, mas em vez disso permanece intacto pelo processo de transcrição. Durante o alongamento, a extremidade crescente da nova cadeia de RNA emparelha temporariamente com a cadeia molde formando um pequeno híbrido DNA-RNA de cadeia dupla, estima-se que terá cerca de 8pb de comprimento. O RNA neste híbrido rapidamente “salta fora”, e a cadeia dupla de DNA volta a formar-se. De modo a possibilitar RNA polimerase a sintetizar uma cadeia de RNA complementar a uma cadeia de DNA, a cadeia dupla deve desenrolar-se por uma curta distância, formando-se uma bolha de transcrição. Durante a transcrição a RNA polimerase de E. coli geralmente mantém cerca de 17pb desenrolados. Os 8pb híbridos ocorrem nesta região desenrolada. Porque o DNA é uma hélice, os movimentos da bolha de transcrição requer consideráveis rotações das cadeias dos ácidos nucleicos. A rotação da cadeia de DNA está restrita na maioria dos RNA por proteínas ligantes e outras barreiras estruturais. Como resultado, uma RNA polimerase que se move gera ondas de superenrolamento positivo no início da bolha de transcrição e superenrolamento negativo no final. Isto foi já observado em estudos tanto in vivo como in vitro. Na célula, 61 os problemas topológicos gerados pela transcrição são resolvidos pela acção de topoisomerases (processo já descrito anteriormente). As duas cadeias de DNA complementares têm diferentes papéis na transcrição. A cadeia que serve como molde ao RNA é chamada a cadeia molde. A cadeia de DNA complementar à cadeia molde, a cadeia não molde, ou cadeia codificante, é idêntica em sequência de bases à molécula de RNA a ser transcrita, com a alteração da presença de U no lugar de T. A cadeia codificante para um gene em particular pode estar localizada em ambas as cadeias do cromossoma, como mostra a figura. A RNA polimerase bacteriana é um largo complexo enzimático com um núcleo de cinco subunidades (α2ββ’ω) e uma sexta subunidade α de variável peso molecular. A subunidade α liga-se temporariamente ao núcleo de cinco subunidades e dirige a enzima a locais de ligação específicos no DNA, é esta que faz a ligação da enzima ao DNA. Esta sexta subunidade consiste na holoenzima da RNA polimerase. Nas RNA polimerases falta um local activo distinto com acção de revisão (tal como existe em muitas DNA polimerases), e por isso a taxa de erros para a transcrição é maior que para a replicação – aproximadamente um erro em cada 104 a 105 ribonucleótidos inseridos. Como muitas cópias de mRNA de um único gene são produzidas, e todos os RNA são degradados e depois substituídos, um erro numa molécula de RNA não tem tantas consequências para a célula do que um erro na informação permanente guardada no DNA. PROMOTORES O início da síntese de RNA em locais ao acaso no DNA teria sido um processo extraordinariamente bem sucedido. Em vez disso, uma RNA polimerase liga-se a sequências específicas no DNA chamados de promotores, que direcciona a transcrição de segmentos de DNA adjacentes (genes). As sequências às quais o RNA se liga podem variar e muitos estudos têm sido feitos para a identificação de sequências particulares críticas para a função do promotor. Em E. coli, a ligação da RNA polimerase ocorre dentro de uma região de cerca de 70pb antes do local de início da transcrição até cerca de 30 pb após este mesmo local. Por convenção, aos pares de bases correspondentes ao início da síntese de uma molécula de RNA é-lhes atribuído um número positivo enquanto que àqueles que precedem essa posição é-lhes atribuído um número negativo. Assim, a região do promotor estende-se entre as posições -70 r +30. Análises e comparações das classes de promotores bacterianos mais comuns revelaram similaridades em duas curtas sequências centradas nas posições -10 e - 35. Apesar das sequências não serem totalmente iguais para todos os promotores bacterianos, certos nucleótidos possuem uma posição particular formando a sequência consenso. A sequência consenso na região -10 é (5’)TATAAT(3’) e a sequência consenso na região -35 é (5’)TTGACA(3’). Uma terceira zona, de reconhecimento, rica em bases AT chama-se elemento UP (upstream promoter), ocorre entre as posições -40 e -60 no promotor de certos genes altamente expressos. O elemento UP é ligado pela subunidade α da RNA polimerase. A eficiência pela qual a RNA polimerase se liga ao promotor e inicia a transcrição depende em larga medida destas sequências, ao espaçamento entre elas e a sua distância do local de iniciação da transcrição. A sequência do promotor regula a expressão génica (uma variação apenas numa base pode determinar a elevada ou baixa expressão de um gene), e por isso ele é considerado o nível base da expressão génica. 62 O mecanismo de iniciação da transcrição está agora muito melhor definido. Ele consiste em duas partes principais, ligação e iniciação, cada um deles com múltiplos passos. Primeiro a polimerase liga-se ao promotor, formando um complexo fechado (no qual o DNA ligado encontra-se intacto), e um complexo aberto (no qual o DNA ligado encontra-se intacto e parcialmente desenrolado perto da região -10). Segundo, a transcrição é iniciada dentro do complexo, levando a uma mudança conformacional que converte o complexo para a sua forma de alongamento, seguido de movimentos do complexo de transcrição para longe do promotor. Qualquer um destes passos pode ser afectado por arranjos na sequência dos promotores. TERMINAÇÃO DA TRANSCRIÇÃO EM PROCARIOTAS A RNA polimerase é uma enzima processiva (isto é com elevada processividade) – necessária para que, caso uma RNA polimerase liberte um transcrito prematuro esta não possa reutilizar este transcrito mas tenha de iniciar nova transcrição. Contudo, o encontro com certas sequências de DNA resulta numa pausa da síntese de RNA, e em algumas dessas a transcrição termina. O processo de terminação da transcrição ainda não é bem percebido em eucariotas, por isso iremo-nos focar em procariotas. Os terminadores da transcrição possuem duas características distintas. A primeira é uma região que produz um transcrito de RNA com sequência complementar a si mesma, permitindo a formação de uma estrutura secundária, centrada 15 a 20 nucleótidos antes do final da cadeia de RNA. A segunda característica é um segmento altamente conservado de três resíduos de A na cadeia molde que são transcritos como três resíduos de U perto do final da estrutura secundária. Quando a polimerase atinge um local de terminação com esta estrutura, ela pára. A formação de tal estrutura no RNA rompe vários pares de bases A=U no segmento híbrido DNA-RNA e pode com isto romper interacções importantes entre o RNA e a RNA polimerase, facilitando a dissociação da transcrição. 63 REGULAÇÃO DA TRANSCRIÇÃOA geração de vários tipos celulares diferentes que formam um organismo multicelular depende da correcta activação de genes nas células no tempo certo do desenvolvimento. Na maioria dos casos, uma vez iniciado o desenvolvimento duma célula ela não pode voltar atrás (esta teoria está a ser fortemente contrariada por estudos recentes – aulas de Desenvolvimento II). Apesar das diferenças nos propósitos do controlo génico em bactérias e eucariotas, duas características chaves foram inicialmente descobertas em bactérias, mas sabe-se que também são válidas para eucariotas. Primeiro, proteínas ligantes de sequências reguladoras do DNA determinam onde a transcrição terá início e tanto reprimem como activam a transcrição dos genes. Como representado na figura, em organismos multicelulares eucariotas, a inactivação de genes está relacionada com a condensação da cromatina, a qual inibe a ligação da RNA polimerase e factores de transcrição basais necessários para a iniciação da transcrição. Proteínas activadoras ligam-se a elementos de controlo perto dos locais de iniciação da transcrição do gene assim como a kilobases de distância e promovem a descondensação da cromatina, possibilitando a ligação da RNA polimerase e dos factores de transcrição ao promotor. Proteínas repressoras ligam-se a locais de controlo alternativo e promovem a condensação da cro9matina, impedindo a ligação da RNA polimerase. TATA BOX Os primeiros genes a serem sequenciados e estudados em sistemas de transcrição in vitro , foram genes virais e genes codificantes de proteínas que se encontravam muito activos ora em certos períodos do ciclo celular ou diferenciação específica de uma célula. Em todos estes genes rapidamente transcritos, uma sequência chamada TATA box foi descoberta, cerca de 25 a 35 pb a montante do local de início da transcrição. Estudos mutagénicos mostraram que uma simples alteração de bases na sequência de nucleótidos fazia descer drasticamente a transcrição in vitro de genes adjacentes à caixa TATA. Na maioria das vezes alterações de bases na região entre a sequência da caixa TATA e o local de início da transcrição não afectava em muito com a taxa de transcrição. Se esta região fosse removida, a transcrição do gene inicia-se cerca de 25 nucleótidos a jusante. Consequentemente, a caixa TATA actua de forma semelhante a um promotor de E. coli para posicionar a RNA polimerase e para se iniciar a transcrição. 64 RNA POLIMERASE II & FACTORES DE TRANSCRIÇÃO Os organismos eucariotas possuem uma maquinaria de transcrição nuclear muito mais complexa que os organismos procariotas. Os eucariotas possuem três tipos de RNA polimerase, designadas de I, II, e III, que são complexos enzimáticos distintos mas que contêm algumas subunidades em comum. Cada uma delas possui funções específicas e são recrutadas por sequências específicas de promotores. RNA polimerase I é responsável pela síntese de pré-mRNA, percursor dos rRNA 18S, 5.8S e 28S. RNA polimerase III forma os tRNA, rRNA 5S, e algumas pequenas moléculas especializadas de RNA. A RNA polimerase II é responsável pela síntese de mRNA e alguns RNA especializados. Esta enzima pode reconhecer centenas de promotores, alguns deles têm algumas características em comum, como a caixa TATA A enzima RNA polimerase II é essencial na expressão génica de eucariotas, e por isso tem sido estudada intensamente. Apesar desta ser bastante mais complexa que a sua sósia bacteriana, a complexidade mascara uma espantosa conservação na estrutura, função e mecanismo. A enzima Pol II é uma enzima enorme com 12 subunidades. A maior delas, RBP1, exibe um elevado grau de homologia com a subunidade β’ da enzima bacteriana. Outra subunidade (RBP2) é estruturalmente semelhante à subunidade β da RNA polimerase bacteriana, outras subunidades (RBP3 RBP11) mostram alguma homologia com as subunidades α da polimerase bacteriana. Pol II deve funcionar melhor com genomas mais complexos e com moléculas de DNA mais elaboradas e empacotadas. A necessidade do contacto proteína-proteína com números factores proteicos é responsável em grande escala para a adição da complexidade da polimerase eucariótica. A subunidade maior da Pol II possui ainda uma característica invulgar, uma longa cauda no terminal carboxílico que consiste de muitas repetições de uma sequência de 7 aminoácidos. Este domínio carboxílico terminal (CTD) encontra-se separado do corpo da enzima por um sequência de ligação não estruturada. O CTD possui muitos papéis importantes no desempenho das funções da Pol II. RNA polimerase II requer uma gama de outras proteínas, chamas factores de transcrição, de maneira a formar um complexo de transcrição activo. Os factores de transcrição basais necessários a todas os promotores de Pol II (geralmente designados de TFII com um identificador adicional) estão altamente conservados em eucariotas. Os processos de transcrição pela Pol II podem ser descrito em várias fases – reunião, iniciação, alongamento, terminação – cada um deles associado a várias proteínas. 65 Reunião da RNA polimerase e de factores de transcrição na zona do promotor A formação de um complexo fechado inicia-se quando TBP (TATA binding protein) se liga à caixa TATA. TBP é ligada por um factor de transcrição TFIIB, que também se liga ao DNA em ambos os lados do TBP. A ligação da TFIIA, apesar de nem sempre ser essencial, consegue estabilizar o complexo TFIIB-TBP no DNA e pode ser importante em promotores não consenso onde a ligação da TBP é relativamente fraca. O complexo TFIIB-TBP é de seguida ligado por outro complexo consistindo nas proteínas TFIIF e Pol II. A proteína TFIIF ajuda a direccionar a Pol II ao promotor, tanto por interacção com a TFIIB como por redução da ligação da polimerase a locais não específicos no DNA. Finalmente, TFIIE e TFIIH ligam-se para criar um complexo fechado. TFIIH possui actividade de DNA helicase que promove o desenrolamento do DNA perto do local de início da síntese de RNA (este processo requer a hidrólise do ATP – propriedade de cinase), criando assim um complexo aberto. A transcrição inicia-se! Contando todas as subunidades de todos os factores essenciais (excepto TFIIA), este complexo contém mais de 30 polipéptidos. Assim que a polimerase transcreve longe do promotor, outra subunidade de TFIIH fosforila o CTD em múltiplos locais. Nos ensaios feitos in vitro, apenas a subunidade TBP se manteve ligada à caixa TATA à medida que a transcrição decorria, todos os outros factores de transcrição se dissociaram. De uma maneira espantosa outras subunidades do complexo proteico TFIIH são necessárias noutros processos celulares: a activação das cinases necessárias para entrar em fase S do ciclo de vida e a reparação de danos no DNA pela excisão de bases. Deste modo indivíduos com deficiência nesta proteína muitas vezes desenvolvem doenças com hipersensibilidade da pele como a Xeroderma pigmentosum (descrito anteriormente). PROCESSAMENTO DO RNA Muitas moléculas de RNA em bactérias e virtualmente todas as moléculas de RNA em eucariótas são processadas em algum grau após a sua síntese. Alguns dos eventos moleculares mais interessantes no metabolismo do RNA ocorrem durante o seu processamento pós síntese. Intrigantemente, varias das enzimas que catalizam estas reacções são moléculas de RNA em vez de proteínas. A descoberta destes RNA catalíticos, ou ribozimas, trouxe uma revolução no pensamento de qual o papel do RNA e na origem da vida. Uma molécula de RNA recém sintetizada chama-se transcrito primário. Talvez o processamento mais extensivo ocorra no mRNA eucariótico e no tRNA. O transcrito primário de um mRNA típico contém sequências transcritas do gene, contudo as sequências codificantes de uma polipéptido podem não estar seguidas. Pedaços não codificantes que “quebram” a 66 região codificante do transcrito são chamados “intrões”, e os segmentos codificantes são chamados“exões”. Num processo chamado splicing, os intrões são removidos do transcrito primário e os exões são juntos para formar uma sequência contínua que especifica um polipéptido funcional. Os mRNAs eucarióticos são também modificados nas duas extremidades. Um resíduo modificado chamado cápsula 5’ (5’ cap) é adicionado na extremidade 5’. O terminal 3’ é clivado, e de 80 a 250 resíduos de A são adicionados, criando assim a cauda de poli(A). Os, por vezes, elaborados complexos proteicos que levam a cabo estas modificações não operam independentemente. Eles parecem estar organizados uns com os outros e associados ao terminal fosforilado CTD da Pol II; cada complexo afecta a função do outro. Outras proteínas envolvidas no transporte de mRNA para o citoplasma estão também associadas com o mRNA no núcleo, e o processamento do transcrito é acompanhado pelo seu transporte. De facto, um mRNA eucariótico, assim que é sintetizado é posicionado confortavelmente num complexo envolvendo dúzias de enzimas. A composição do complexo varia à medida que o RNA é processado, transportado para o citoplasma e encaminhada para o ribossoma. O transcrito primário de tRNAs também é processado pela remoção (clivagem) de sequências em cada extremidade, e em alguns casos pela remoção dos intrões. Muitas bases e açúcares no tRNA são também modificadas; tRNA maduro está repleto com bases invulgares e não encontradas e outro ácido nucleico. O destino final de qualquer RNA é a sua completa e regulada degradação. Isto é essencial para parar a expressão de genes que já não são necessário serem expressos. MODIFICAÇÃO DO TERMINAL 5’ DA MOLÉCULA DE MRNA A maioria dos mRNA eucarióticos possui um 5’cap, um resíduo de 7-metilguanosina ligado ao resíduo 5’ terminal do mRNA, através de uma invulgar ligação 5’,5’-trifosfato. O cap 5’ ajuda a proteger o RNA do ataque de ribonucleases. O cap também liga a complexos de proteínas cap binding específicos e participa na ligação do mRNA ao ribossoma de modo a iniciar a tradução. Esta modificação dá-se ainda muito cedo durante a transcrição, logo após os primeiro 20 ou 30 nucleótidos. 67 PRÉ-RNA ENCONTRA-SE ASSOCIADO A hnRNP O chamado pré-mRNA nunca existe livre no núcleo, na verdade, desde que é iniciada a sua síntese até ser transportado para o citoplasma, já maduro, ele encontra-se sempre associado a um vasto leque enzimático. Estas são o principal componente proteico do chamado heterogeneous ribonucleoprotein particles (hnRNP), o que contém heterogeneous nuclear RNA (hnRNA), um termo colectivo que se refere a pré-mRNA e outras moléculas de RNA. CLIVAGEM E POLI-ADENILAÇÃO DO mRNA Na extremidade 3’ da maioria dos mRNA eucarióticos possui uma cauda com 80 a 250 nucleótidos de A, constituindo a cauda de poli(A). Esta cauda serve como um local de ligação para uma ou mais proteínas especializadas. A cauda de poli(A) e as suas proteínas associadas provavelmente ajudam a proteger o mRNA da destruição enzimática. Muitos mRNA procarióticos também adquirem uma cauda de poli(A), mas esta ajuda a no declínio do mRNA em vez de o proteger. A cauda de poli(A) é adicionada num processo com múltiplos passos. O transcrito é estendido para além do local onde a cauda de poli(A) vai ser adicionada, depois é clivada até ao ponto de inserção da cauda, pelo componente de endonuclease de um largo complexo enzimático, mais uma vez associado com CTD da RNA polimerase II. O local do mRNA onde ocorreu a clivagem é marcado por duas sequências: a altamente conservada (5’)AAUAAA(3’), 10 a 30 nucleótidos a montante (lado 5’) do local de clivagem, e uma sequência um pouco menos bem definida rica em G e U, cerca de 20 a 40 nucleótidos a jusante (lado 3’) do local de clivagem. A clivagem gera um grupo hidroxilo3’ livre que define o final da molécula de mRNA, ao qual os resíduos de A são prontamente adicionados pela poliadenilase polimerase, esta enzima não necessita de uma cadeia molde mas necessita do mRNA clivado para ser usado como primer. SPLICING SITES Durante os passos finais da formação de uma molécula de mRNA madura e funcional, os intrões são removidos e os exões são juntos. Para curtas unidades de transcrição, o splicing do DNA usualmente baseia-se na clivagem e poliadenilação do terminal 3’ do transcrito primário. Mas para longas unidades de transcrição, contendo muito exões, o splicing de exões no RNA nascente normalmente começa ainda antes da transcrição estar completa. O local da junção intrão/exão é chamado de local de splicing, estes podem ser determinados por comparação da sequência de DNA genómico e do cDNA preparado a partir do mRNA. As sequências que estão presentes no DNA genómico mas ausentes no cDNA representam os intrões e indicam a posição dos locais de splicing. Tal análise de um largo número de mRNA diferentes revelou uma sequência moderadamente conservada, em organismos superiores uma região rica em pirimidinas logo a jusante da região 3’ do local de splicing, também ele conservado. Os nucleótidos mais conservados são (5’)GU e (3’)AG. Encontrados no final de vários intrões. Análises em delecções da porção central de intrões em vários pré-mRNA mostraram que geralmente apenas 30 a 40 nucleótidos em cada final são necessários para se dar o splicing a taxas normais. 68 Análises dos intermediários formados durante o splicing de pré-mRNA in vitro levaram à conclusão de que os intrões são removidos como um laço no qual a guanina 5’ do intrão é unido invulgarmente por uma ligação 2’,5’fosfodiester a uma adenosina perto do terminal 3’ do intrão. Este resíduo de A chama-se “branch point” porque ele forma um ramo (branch) de RNA no final da estrutura em laço. SPLICIOSSOMAS & snRNPs Mesmo antes do splicing ser observado in vitro, muitas observações tinham sugerido que pequenas RNAs nucleares (snRNAs) intervinham na reacção de splicing. Primeiro, descobriu-se uma pequena sequência consenso no final 5’ dos intrões complementar a uma sequência perto do final 5’ de uma snRNA, chamada U1. Cinco snRNA ricas em U (U1, U2, U4, U5, U6) variando entre 107 a 2010 nucleótidos, participam no splicing de RNA. No núcleo de células eucarióticas, snRNA encontram-se associadas com seis a dez proteínas em snRNPs (small nuclear ribonucleoprotein particles). Algumas destas proteínas são comuns a todos os snRNPs, e algumas são específicas de snRNPs individuais. O envolvimento da U2 no início do splicing foi inicialmente suspeito quando se descobriu possuir uma sequência interna que era largamente complementar à sequência consenso que rodeava o branch point nos pré-mRNAs. Experiências com mutantes, mostraram que o emparelhamento de bases entre a U2 e o branch- point nos pré-RNAs era critica para o splicing. Estes estudos com U1 e U2 indicaram que durante o splicing elas emparelham com o pré-mRNA. Estudos semelhantes com outras snRNA demonstraram que interacções RNA-RNA envolvendo estas moléculas ocorre ainda durante o splicing. Por exemplo, uma região interna da U6 inicialmente emparelha com o terminal 5’ da snRNA U4. Rearranjos tardios no splicing resultam num emparelhamento da snRNA U6 com o terminal 5’ da U2, a qual permanece ligada ao branch-point. Mais tarde, o emparelhamento de U5 com quatro nucleótidos de exões adjacentes ao local de splice desliga a U1 do pré-mRNA. Baseando-se nos resultados destas experiências, a identificação dos intermediários da reacção, e outras análises bioquímicas, pensa-se que os cinco snRNPs se ligam sequêncialmente ao pré-mRNA formando um largo complexo de ribonucleoproteínas chamado spliciossoma, que possui aproximadamente o tamanho de um ribossoma. De acordo com o modelo actual o spliciossoma inicia-se com a ligação das snRNAs U1 e U2 ao pré-mRNA. O emparelhamento extensivo entre as snRNAs U4 e U6 forma um complexo que liga U5. este complexo (U4/U6/U5) então associa-se ao complexo formado anteriormente (pré-mRNA/U2/U1) formando o spliciossoma.Após a formação do spliciossoma, rearranjos extensivos ocorrem no emparelhamento das snRNAs e do pré-mRNA. O rearranjo do spliciossoma então cataliza duas reacções de transesterificação que resultam no splicing do RNA. Após a segunda reacção de transesterificação, os exões ligados são libertados do spliciossoma enquanto que o intrão em forma de laço continua associado a este. Este complexo final de intrão com snRNPs é instável e dissocia-se. As snRNPs libertadas participam em novos ciclos de splicing. Os intrões excisados são rapidamente degradados. 69 Pr e- m R N A c on ta in s ho rt, c on se rv ed s eq ue nc es r eq ui re d fo r sp lic in g. T he m os t c on se rv ed in tro n se qu en ce a re th e (5 ’) G U , ( 3’ )A G , a nd th e br ac h- po in t A . C en tra l t o th e sp lic in g re ac tio ns a re th e fiv e sm al l n uc le ar R N A s (s nR N A s) , c om pl ex ed w ith p ro te in s in s m al l r ib on uc le op ro te in pa rti cl es (s nR N P) . A dd iti on al p ro te in s a nd A TP a re a ls o re qu ire d fo r s pl ic in g, b ut a re n ot sh ow n he re . 1- T he s nR N A s ba se p ai rs w ith p re -m R N A s eq ue nc es a nd w ith e ac h ot he r t o di re ct th e sp lic in g cy cl e. 2 F irs t, th e 5’ e nd o f U 1 sn R N A b as e pa ir w ith th e 5’ sp lic e si te , a nd U 2 sn R N A s eq ue nc e ba se p ai r w ith th e br an ch p oi nt re gi on . 3 E xt en si ve b as e pa iri ng b et w ee n sn R N A in th e U 4 an d U 6 sn R N Ps f or m s a co m pl ex t ha t as so ci at es w ith U 5 sn R N P. 4 Th e U 4/ U 6/ U 5 co m pl ex t he n as so ci at es w ith t he p re -m R N A . 5R ea rr an ge m en t o f R N A /R N A b as e pa iri ng o cc ur s, so th at U 6 di ss oc ia te s fr om U 4, a nd b as e pa irs w ith U 2. U 1 di ss oc ia te s fr om th e 5’ s pl ic e si te , a nd U 5 ba se p ai rs w ith e xo n se qu en ce s. 5 6 7 8 Th e re ar ra ng em en t s pl ic eo so m e ca ta ly ze s tw o tra ns es te rif ic at io n re ac tio ns , r es ul tin g in in tro n re m ov al a nd e xo n lig at io n. 9 Th e lig at e ex on s ar e re le as ed fr om s pl ic eo so m e. T he s nR N Ps d is so ci at es fr om th e ex ci se d la ria t i nt ro ns a nd ar e re cy cl ed fo r a no th er ro un d of sp lic in g. 1 0T he la ria t i s r ap id ly d eg ra de d. 70 SPLICING ALTERNATIVO A transcrição de intrões parece consumir muitas reservas e energia celular sem retribuir nenhum benefício ao organismo, mas os intrões podem conferir uma vantagem ainda não muito apreciada pelos cientistas. Os intrões podem ser vestígios de parasitas moleculares não muito diferentes dos transposões. Apesar dos benefícios dos intrões ainda não se encontrar muito bem definido, as células evoluíram de modo a tirar vantagem da via de splicing de modo a alterar a sua expressão génica. A maioria dos transcritos de mRNA em eucariotas produz apenas um mRNA maduro e um polipéptido correspondente, mas alguns conseguem ser processados em mais de uma maneira diferente e originar diversos mRNA maduros e consequentemente diferentes polipéptidos. O transcrito primário contém sinais moleculares para todas as vias de processamento alternativo, e a via favorecida numa dada célula é determinada por factores de processamento, proteínas ligantes de RNA que promovem uma determinada via. Transcritos complexos, podem ter mais de um local de clivagem e poliadenilação ou padrões de splicing alternativo, ou ambos. Se existe dois ou mais locais de clivagem e poliadenilação, o uso do local mais perto da extremidade 5’ (mais interno) irá remover maior porção de RNA que o uso do local mais perto da extremidade 3’. Este mecanismo, chamado de escolha de local de poli(A), gera diversidade em domínios variáveis da cadeia pesada da imunoglobina. Padrões de splicing alternativo produzem, a partir de um transcrito primário comum, três formas diferentes da cadeia pesada da miosina nos diferentes estágios de desenvolvimento da mosca da fruta. Ambos os mecanismos são accionados quando um simples transcrito de RNA é processado de forma diferente de forma a produzir duas hormonas diferentes: a hormona reguladora de cálcio – calcitonina na tiróide de rato e o péptido relacionado com o gene da calcitonina (CGRP) no cérebro de rato. 71 EDIÇÃO DO RNA A edição do RNA é um processo que ocorre no interior do núcleo, ainda antes da saída do mRNA para o citoplasma. É promovido pela RNA desaminase que retira um grupo amina aos ribonucleótidos, por exemplo, um nucleótido de adenina pode ser desaminado, e nesse caso origina um nucleótido de iosina. Estas modificações podem ter grandes consequências. Por exemplo os receptores de glutamato localizados na superfície das células (sistema nervoso) ligam glutamato (aminoácido e ao mesmo tempo um neurotransmissor) e a membrana torna-se permeável a Ca2+ e Na+. Esta permeabilidade selectiva é essencial para a transmissão do impulso nervoso de um neurónio para o outro. Contudo, conforme a edição do mRNA no núcleo a membrana pode tornar-se impermeável a Ca2+. Isto porque uma simples alteração num nucleótido de A que codifica para o codão glutamina (não carregada) foi desaminado transformando- se num nucleótido de iosina que codifica para o codão arginina (carregado positivamente). Esta troca de cargas provoca uma alteração profunda na função destes receptores. Uma outra forma distinta da edição do RNA ocorre no gene para a apolipoproteína B. uma forma da apolipoproteína B, apo-B-100, é sintetizada no fígado; uma segunda forma, apoB- 48, é sintetizada no intestino. Ambas são codificadas por um mRNA produzido a partir do gene apo-B-100. uma citosina desaminase encontrada apenas nos intestinos liga-se ao mRNA no codão para os resíduos de aminoácidos 2, 153 (CAA=Gln) e converte o C em U, de modo a introduzir o codão UAA ou codão stop. A apo-B-48 produzida nos intestinos a partir deste RNA modificado é simplesmente a forma abreviada da aopB-100. Esta reacção permite síntese de duas proteínas específicas em tecidos diferente a partir do mesmo gene. CAP BINDING PROTEINS Após a molécula de RNA nascente produzida pela RNA polimerase II atingir cerca de 25-30 nucleótidos, a 7-metilguanosina e outros componentes do cap 5’ são adicionados à extremidade de RNA 5’ a ser produzida. Este passo inicial é catalizado por uma enzima dimérica que se associa com o terminal CTD fosforilado da RNA polimerase II. A enzima não se associa com RNA polimerase I ou III porque estas não possuem o terminal CTD, logo este cap é específico para RNA produzidos pela RNA polimerase II (lembrar que é aquela responsável pela síntese de mRNA). 72 TRANSPORTE NUCLEAR Uma vez que o processamento de RNA esteja completo no núcleo, o RNA permanece ligado a hnRNPs específicas num complexo de proteínas ribonucleares mensageiras (mRNP). Antes que o RNA possa ser traduzido na sua proteína codificante, ele necessita ser transportado do núcleo para o citoplasma. O núcleo separa-se do citoplasma por duas membranas a que damos o nome de invólucro nuclear que tal como a membrana celular que reveste a célula, também este consiste numa camada dupla fosfolipídica e várias proteínas associadas. O transporte de macromoléculas incluindo mRNPs, tRNAs, e subunidades ribossomais para fora do núcleo, assim como o transporte de todas as proteínas nucleares do citoplasma para o núcleo passa pelo poro nuclear. Numerosos poros perfuram o invólucro nuclear. Cada poro nuclear é formado por uma estrutura elaboradadesignada de complexo poro nuclear (NPC). Um NPC é composto por imensas cópias de proteínas diferentes, de 50 a 100, chamadas nucleoporinas. Micrografias electrónicas revelam estruturas em filamentosas que se extendem a partir do nucleoplasma, o terminal distal destas estruturas é unido por um anel terminal formando uma estrutura chamada cesto nuclear. Componentes pequenos como iões água ou moléculas até 60kDa passam livremente por difusão através dos poros nucleares. Contudo proteínas maiores, e complexos ribonucleoproteícos não conseguem difundir livremente para dentro e fora do núcleo. Em vez disso, estas moléculas são transportadas selectivamente para dentro e fora do núcleo com a ajuda de transportadores proteicos solúveis que ligam as proteínas e ao mesmo tempo interactuam com algumas nucleoporinas. ENDEREÇAMENTO PROTEICO A comunicação celular entre o núcleo e o citosol requer o movimento de macromoléculas através dos poros nucleares. Moléculas de RNA sintetizadas no núcleo são transportadas para o citoplasma e proteínas sintetizadas no citoplasma são importadas para o núcleo, entre outros exemplos. Este tráfego é regulado por um sistema complexo de sinais moleculares e proteínas transportadoras que têm vindo a ser cada vez mais esclarecido. Na maioria dos organismos eucarióticos o invólucro nuclear desmancha-se a cada divisão celular, dispersando o seu conteúdo, e as proteínas nucleares têm de ser constantemente importadas para o núcleo. De forma a permitir esta importação constante as sequências de sinal que enderecem a proteína – a sequência de localização nuclear, NLS – não são clivadas após entrada da proteína no seu destino. As NLS, assim como qualquer outra sequência, pode-se localizar em qualquer zona da sequência primária da proteína. NLSs podem variar consideravelmente, mas muitas consistem numa sequência de 4 a 8 aminoácidos, dos quais muitos são básicos (Arg ou Lys). A importação nuclear é mediada por um número de proteínas que circulam entre o citosol e o nucleoplasma, incluindo importinas (α e β) e proteínas Ran (GTPases). Um heterodímero de importina α e β funciona como um receptor solúvel para proteínas endereçadas para o núcleo, com a subunidade alfa a ligar- se à zona NLS das proteínas no citosol. O complexo da sequência NLS da proteína com o importina liga-se ao poro nuclear e é translocado através do poro por um mecanismo dependente de energia que requer a enzima Ran GTPase. As duas subunidades (α e β) dissociam-se durante a translocação e são, depois disso, exportadas para o citoplasma. 73 As NLS foram inicialmente descobertas durante a análise de vírus SV40 (uma mutação do vírus 40 de símios) que produzia uma forma anormal de uma proteína chamada antigénio-t. O tipo selvagem desta proteína encontrava-se exclusivamente no núcleo, enquanto que a forma mutada se distribuía por todo o citosol. As mutações responsáveis por esta alteração da localização celular ocorriam todas em cinco aminoácidos básicos na sequência Pró – Lys – Lys – Lys – Arg – Lys – Val. Espantosamente, quando esta região da proteína era fundida com piruvato cinase, uma proteína citosólica de grandes dimensões envolvida no metabolismo dos hidratos de carbono, a proteína fundida era transportada para o núcleo. A sequência de aminoácidos que dirigia a piruvato cinase para o núcleo era a sequência de sete aminoácidos descrita acima. Esta experiência demonstrou que era esta sequência do antigénio-t de SV40 que actuava como um sinal para a importação para o núcleo. MECANISMO DE IMPORTAÇÃO NUCLEAR Usando este tipo de ensaio, foram purificadas quatro proteínas: Ran, nuclear transport factor 2 (NTF2), importina α, e importina β. Ran é uma proteína G monométrica que existe em duas conformações, uma quando em complexo com GTP, e outra quando em complexo com GDP. As duas importinas formam um receptor de importação nuclear heterodimérico: a subunidade α liga-se à zona NLS na proteína “carga” a ser transportada, e a subunidade β interage com uma classe de proteínas chamadas Nucleoporinas-FG. Estas nucleoporinas, que delimitam o canal do poro nuclear são também encontradas no cesto nuclear e em filamentos citoplasmáticos, contêm múltiplas repetições de pequenas sequências hidrofóbicas ricas em fenilalanina (F) e glicina (G) (FG-repeats). O modelo actual para a importação de carga do citoplasma para o núcleo mediado por importinas monoméricas é mostrado na figura. Importinas livres no citoplasma ligam-se à zona NLS da proteína a ser transportada, formando um complexo de carga bimolecular. O complexo é transportado para o nucleoplasma à medida que a importina liga transitoriamente as sucessivas repetições FG individuais nas Nucleoporinas-FG que delimitam o canal. Pensa-se que as repetições FG actuam como “stepping stones” à medida que o complexo de carga difunde de uma FG- nucleoporina para outra, no seu caminho pelo canal, este processo não requer o gasto directo de energia. Quando o complexo de carga atinge o nucleoplasma, a importina interage com Ran·GTP, causando uma troca conformacional na importina diminuindo a sua afinidade para com a zona NLS, libertando a proteína carga no nucleoplasma. O complexo importina-Ran·GTP difunde então de volta para o citoplasma através do NPC, por interacções transitórias da importina com as repetições FG. Uma vez o complexo importina-Ran·GTP atinja o citoplasma, a Ran interage com GTPase-accelerating protein (Ran-GAP), que é um componente específico dos filamentos citoplasmáticos do NPC. Isto estimula à Ran a hidrolizar o GTP que tem ligado em GDP, provocando uma troca conformacional para uma forma com baixa afinidade para a importina, e isto liberta a importina no citoplasma e torna-a disponível para iniciar novo ciclo de importação. A Ran agora volta para o núcleo pela NTF2. o dímero de NTF2 liga especificamente à Ran·GDP e também interage com as repetições FG das Nucleoporinas-FG. Quando este complexo atinge o nucleoplasma ele encontra uma guanine nucleotide–exchange factor (Ran-GEF) específica e causa a 74 libertação de Ran do seu GDP e re-liga GTP que se encontra em muito maior concentração deste lado do invólucro. Esta alteração conformacional torna o Ran com baixa afinidade para NTF2, desligando-se desta. Agora encontra-se Ran·GTP livre no nucleoplasma e NTF2 volta por difusão para o citoplasma. Ainda que este transporte seja unidireccional. A direcção do transporte é uma consequência da rápida dissociação do complexo de importação quando este atinge o nucleoplasma. Como consequência existe um gradiente de concentração do complexo importina-carga através do poro nuclear: alta no citoplasma, onde se lá a associação, e baixa no citoplasma onde ocorre a dissociação. Este gradiente de concentração é responsável pela importação unidireccional. Um gradiente semelhante é responsável por retomar as importinas do núcleo para ao citoplasma. A concentração do complexo importina-Ran·GTP é maior no nucleoplasma, onde se dá a associação que no citosol, onde ocorre a dissociação. Numa última fase, o responsável pela unidirecionalidade da importação nuclear é a distribuição assimétrica de Ran-GEF e de Ran-GAP. Ran-GEF no nucleoplasma mantém Ran no estado de Ran·GTP onde ele promove a dissociação do complexo de carga. Ran-GAP no lado citosólico converte Ran·GTP em Ran·GDP causando a dissociação do complexo importina-Ran·GTP e a libertação de importina livre no citoplasma. MECANISMO DE EXPORTAÇÃO NUCLEAR Um mecanismo muito semelhante é usado para exportar proteínas, tRNAs, e subunidades ribossomais do núcleo para o citoplasma. Este mecanismo inicialmente foi elucidado pelo estudo de certas proteínas nhRNP que saltavam entre o núcleo e o citoplasma. Estudos feitos mostraram que algumas nhRNPs circulavam entre o núcleo e o citoplasma enquanto que outras permaneciam sempre no núcleo. Tais proteínas saltitantes possuíam um sinal de exportação nuclear (NES), queestimulava a sua exportação do núcleo para o citoplasma através dos poros nucleares, em adição a um NLS que resultava numa reentrada no núcleo. De acordo com o modelo actual de exportação nuclear (baseado no exporte de proteínas com sequências ricas em leucina), mostrado na figura, um receptor de exportação nuclear específico no núcleo, exportina1, forma um complexo inicial com Ran·GTP e depois liga-se à sequência NES na proteína carga. A ligação da exportina1 ao Ran·GTP leva a uma mudança conformacional da exportina1, que aumenta a afinidade para a sequência NES, e por isso forma-se um complexo de exportação trimolécular. Que tal como as importinas, também a exportina1 interage transitoriamente com as repetições FG das nucleoporinas-FG e difundem através do NPC. O complexo de carga dissocia-se quando encontra Ran-GAP nos filamentos citosólicos do NPC, que estimulam o Ran a hidrolizar GTP, mudando-o para uma conformação com baixa afinidade para a exportina1. A exportina1 livre, altera a conformação para a de uma estrutura com pouca afinidade para NES, libertando a carga no citosol. A direcção do processo de exportação é guiado pela dissociação da carga da exportina1 que causa um gradiente de concentração do complexo de carga pelo NPC, de modo que existe uma elevada concentração de complexo de carga no nucleoplasma, onde se dá a associação, e uma baixa concentração no citoplasma, onde ocorre a dissociação. Exportina1 e são agora transportados pela NTF2, tal como discutido antes. O Ran·GDP é então convertido em Ran pela Ran-GEF no nucleoplasma. Por comparação dos dois modelos conseguimos observar uma diferencia óbvia: Ran·GTP é parte do complexo de carga durante a exportação mas não durante a importação. Aparte desta diferença, os dois transportes processam-se com uma elevada semelhança. Em ambos a associação do sinal de transporte com Ran·GTP no nucleoplasma causa uma alteração conformacional que afecta a afinidade com o sinal de transporte. Durante a importação, a interacção causa a libertação da carga, enquanto que, durante a exportação a interacção promove a associação com a carga. Em ambos, a estimulação de Ran·GTP para a 75 hidrólize no citoplasma por parte da Ran-GAP associada com filamentos citoplasmáticos do NPC produz uma alteração conformacional na Ran que liberta o receptor de sinal de transporte. Importinas e exportinas são ambas difundíveis através do NPC devido a ligações transitórias com as repetições FG nas nucleoporinas-FG. A localização das Ran-GAP e –GEF no citoplasma e no núcleo, respectivamente, é a base para o transporte unidireccional de proteínas através do NPC. A par das semelhanças nas funções das importinas e exportinas, os dois transportadores são altamente homólogos em sequência e estrutura. FORMAÇÃO DO “MESSENGER RIBONUCLEAR PROTEIN COMPLEX” (mRNP) Estudos recentes em leveduras sensíveis à temperatura mutantes no transporte nuclear, identificaram um exportador mRNA heterodimérico que parece direccionar a maioria dos mRNPs através dos poros nucleares. Leveduras com mutações nas subunidades destas proteínas acumulam RNA poliadenilado no núcleo a uma temperatura não premissiva, indicando que a proteína é requerida para o transporte da maioria das mRNPs. Exportadores de mRNA homólogos aos das leveduras são encontrados em todos os organismos eucarióticos, e várias linhas de evidências mostram que exportadores de mRNA são necessários para exportar da maioria dos mRNPs. A pequena subunidade do exportador é homóloga à NTF2 e interage com uma região na subunidade maior eu também partilha homologia com NTF2. O grande exportador de mRNA também contém domínios de ligação de RNA que parecem ligar ao RNA cooperativamente com proteínas de mRNP específicas. A descoberta de que os exportadores de mRNA se encontravam associados mRNPs, e ligavam directamente às repetições FG levaram à proposta de um modelo, ilustrado na figura. Este modelo propõe que o exportador de mRNA transloca mRNPs através do canal do poro nuclear de maneira semelhante às importinas e exportinas, isto é por ligação transitória sucessiva e individual a repetições FG. Actualmente, não é claro do que direcciona este mecanismo do transporte de mRNP através dos poros. Por analogia com as importinas e exportinas pensa-se que o complexo transportador de mRNA dissocia- se assim que atinge o citoplasma. Isto resultaria numa alta concentração de complexos exportadores de mRNA no nucleoplasma e no poro nuclear, onde ele se associa com as nucleoporinas-FG, e uma baixa concentração do complexo no citoplasma onde ele se dissocia. Tal como para as importinas e exportinas, tal gradiente de concentração poderia direccionar a translocação vectorial do mRNAP. Contudo muito há ainda a aprender sobre as proteínas hnRNP associadas com mRNPs durante o transporte através do poro, assim como o mecanismo pelo qual elas se dissociam do mRNP no lado citoplasmático do poro nuclear. As glândulas salivares da larva de insecto de Chironomous tentans providenciaram um bom modelo de estudo de ME da formação de hnRNPs e a exportação de mRNPs. Nesta larva, alguns genes são altamente transcritos em pré-mRNAs nascentes que se associam com proteínas hnRNPs e são processados em mRNPs enrolados com uma molécula de mRNA de ~75kb. Estes mRNAs gigantes codificam grandes proteínas colantes que aderem a larva em desenvolvimento à folha. Após o processamento do pré-mRNA, as mRNPs resultantes movem-se através do poro nuclear para o citoplasma. Micrografias electrónicas de secções destas células mostram mRNPs que parecem desenrolar durante a sua passagem através do poro e depois ligarem-se ao ribossomas a medida que entram no citoplasma. A observação de que mRNPs se associam aos ribossomas durante o transporte indica que a extremidade 5’ lidera o caminho pelo NPC. Além disto também os factores de “splicing” promovem exportação do mRNA, isto porque como visto anteriormente, o spliciossoma impede a exportação do mRNA com splicing incompleto. Estudos detalhados de micrografias electrónicas deste transporte levaram à formulação do modelo ilustrado na figura. 76 DEGRADAÇÃO DO mRNA A concentração de mRNA numa célula é uma função da taxa de síntese em ordem à taxa de degradação. A estabilidade de um mRNA também determina a rapidez com que a síntese da proteína codificada pode ser cancelada. Para uma molécula estável de mRNA, a síntese da proteína codificada persiste muito tempo após a transcrição do gene ter sido reprimida. A maioria dos mRNA bacterianos é instável, decaindo exponencialmente com um meio-tempo de vida de apenas alguns minutos. Por esta razão, uma célula bacteriana rapidamente ajusta a síntese de proteínas de forma a acomodar alterações no ambiente celular. Por outro lado, a maioria das células em organismos multicelulares existem num ambiente celular equitativo, e carregam uma série específica de funções através de períodos de dias ou meses, ou mesmo o tempo de vida de um indivíduo (células nervosas, p.e.). assim, a maioria dos mRNA dos eucarióticos superiores possui um tempo de meia vida de varias horas. Contudo, algumas proteínas nas células eucariótica são necessárias apenas por curtos períodos de tempo e necessitam ser expressas repentinamente (Burst – estouro, rompimento, explosão…). A expressão de tais proteínas pode ocorrer em pequenos flashes porque a regulação da transcrição dos genes que as codificam pode ser rapidamente activada ou desactivada, além disso também o seu mRNA possui geralmente tempos médios de vida muito curtos – cerca de 30 min ou menos. mRNA citoplasmático é degradado por uma das vias ilustradas na figura. Para a maioria dos mRNAs, o tamanho da cauda de poli(A) decresce gradualmente com o tempo por acção da nuclease deadenilizante. Quando ela se encontra pequena o suficiente, as moléculas de PABPI já não se conseguem ligar e estabilizar a interacção do cap 5’ e os factores de iniciação. O cap entãoexposto é removido pela enzima decapping e o mRNA desprotegido é degradado no sentido 5’ 3’ por exonucleases. A remoção da cauda de poli(A) também torna os mRNAs susceptíveis à degradação por exossomas citoplasmáticos contendo exonucleases 3’ 5’. Para os mRNAs degradados neste processo dependente da deadenização, a taxa à qual eles são deadenilizados controla a taxa à qual eles são degradados. A razão de deadenilação varia inversamente com a frequência de iniciação da tradução: quanto mais alta a frequência de iniciação, mais baixa a taxa de Célula Meia-vida do RNA (tempo médio) E. coli 2-5 min S. cerevisiae 22 min Células em cultura 10h (de rato ou humanas) 77 deadenilização. Esta relação provavelmente deve-se às interacções recíprocas entre os factores de iniciação e PABPI que estabilizam a ligação de PABPI à cauda de poli(A), com isto, protegendo-a da acção de exonucleases. Muitos mRNA de vida curta em mamíferos contêm múltiplas cópias da sequência AUUUA na região 3’ não traduzida. Descobriram-se proteínas que interagem com estas sequências, e experiências recentes sugerem que a ligação destas proteínas interagem com a enzima que deadenila o mRNA e com o exosoma promovendo, com isto, a rápida deadenilação do mRNA e subsequente degradação do mRNA no sentido 3’ 5’. Nestes mecanismos, a velocidade de degradação não está associada a velocidade de tradução. Assim o mRNA contendo estas sequências AUUUA pode ser rapidamente traduzido e também rapidamente degradado, permitindo a codificação de proteínas a serem expressas em curtos espaços de tempo (burts). Como demonstrado na figura da página anterior algum RNA é degradado em vias que não envolvem deadenilação significativa. Neste o mRNA é “decapped” antes da cauda de poli(A) ser totalmente degradada. Parece que algumas sequências de mRNA tornam o cap sensível a enzimas decapantes, mas este mecanismo ainda não é muito claro. Em outras vias alternativas o mRNA é primeiro clivado internamente por endonucleases, e os fragmentos daqui resultantes são degradados por exonucleases. REGULAÇÃO DA ESTABILIDADE DO mRNA DO RECEPTOR DA TRANSFERRINA O controlo das concentrações de ferro intracelular pelo ironresponse element–binding protein (IRE-BP) é um elegante exemplo de proteínas individuais que regulam a tradução de um mRNA e a degradação de outro. Quando os valores de ferro intracelular estão em baixo este sistema duplo de controlo opera de forma aumentar os níveis de ferro livre necessários para algumas enzima; quando os níveis de ferro estão muito altos, este sistema opera de forma a prevenir a acumulação de níveis tóxicos de ferro. Este é um dos mais simples e melhor entendidos processos de tradução mediada por proteínas. Um componente deste sistema é a regulação da produção de ferritina, uma proteína intracelular ligadora de ferro. A região 5’ do mRNA da ferritina contém ironresponse elements (IREs), que possui uma estrutura em stem loop. IRE-Binding Proteins reconhecem cinco bases específicas no loop IRE e a natureza dupla do loop. A baixas concentrações, IREBP encontra-se numa conformação activa que liga IRES. As IRE-BP ligadas bloqueiam a subunidade ribossomal 40s de reconhecer o codão de iniciação AUG, e portando inibindo o inicio da tradução. O resultante decréscimo na concentração de ferritina significa menos ferro complexado com a ferritina e por isso disponível para ser usado por outras enzimas. A altas concentrações de ferro, IRE-BP encontra-se na sua forma inactiva e por isso não liga IRES, e portanto a tradução ocorre. A recém sintetizada ferritina então liga o ferro livre, prevenindo a sua acumulação até níveis tóxicos. A outra parte deste sistema regulatório controla a importação de ferro para dentro das células. Em vertebrados, o ferro ingerido é transportado pela corrente sanguínea ligado a uma proteína chamada transferrina. Após se ligar a um receptor de transferrina (TfR) na membrana plasmática, o complexo transferrina-ferro é levado para dentro das células por endocitose mediado por receptores A região 3’ não traduzida do mRNA das TfR contém IREs cujos stem loop são ricos em sequências destabilizantes AU. A altas concentrações de ferro, quando a IRE-BP se encontra inactiva, pensa-se que estas sequências ricas em AU promovem a degradação 78 do mRNA de TfR pelo mesmo mecanismo que lidera a rápida degradação de outros mRNA de pouco tempo de vida, como descrito anteriormente. O resultante decréscimo na produção de receptores de transferrina rapidamente reduz a concentração de ferro, contudo, agora, IRE-BP pode-se ligar ao terminal 3’IRE no mRNA de TfR. Pensa-se que o IRE-BP ligado bloqueia o reconhecimento da sequência destabilizante rica em AU pelas proteínas, que de outro modo, iriam rapidamente degradar mRNAs. Como resultado a produção de transferrina aumenta e mais ferro entra na célula. LOCALIZAÇÃO DO mRNA PERMITE PRODUÇÃO DE PROTEÍNAS EM REGIÕES ESPECÍFICAS DA CÉLULA Muitos processos celulares dependem da localização de proteínas particulares em estruturas específicas ou regiões da célula. Alternativamente, a localização de uma proteína pode ser atingida por localização do mRNA a regiões específicas do citoplasma da célula. Na maioria dos casos estudados até agora, tais localizações do mRNA é especificada por sequências na região 3’ não traduzida do mRNA. Um exemplo bem documentado ocorre nos Mioblastos de mamíferos (células percursoras musculares) à medida que eles se diferenciam em Miotubos. Os Mioblastos são células móveis que extendem regiões do citoplasma, chamadas lamellipodia, que se estendem desde a margem líder na direcção do movimento. Extensões dos lamellipodia durante o movimento celular requerem a polimerização de actina. mRNA da β-actina encontra- se concentrado nas margens líder dos Mioblastos, a região do citoplasma em que a proteína codificada é necessária para a mobilidade. Quando os Mioblastos se fundem em Miotubos sinciciais, a actividade da β- actina é reprimida e a expressão da α-actina (muscle-specific) é induzida. Em contraste com a β-actina, a α- actina é restrita nas regiões perinucleares dos Miotubos. Quando cultivados mioblastos no processo de diferenciação são marcados com partículas florescentes para β-actina ou α-actina, e ambos os mRNA se encontram localizados nas suas respectivas zonas de actuação. Para testar a habilidade das sequências do mRNA da actina em direccionar para a localização celular de um mRNA específico, fragmentos dos cDNAs de β- actina e α-actina foram inseridos em plasmídeos separados que expressavam β-galactosidase a partir de um forte promotor viral. Os plasmídeos resultantes eram então transfectados para culturas de células que n expressavam a actividade de β-galactosidase. Estas experiências mostraram que a inclusão do terminal 3’ não traduzida da β ou da α-actina direccionava a localização da β-galactosidase, no entanto regiões 5’ não traduzidas e regiões codificantes não direccionavam. O tratamento de mioblastos cultivados com citocalasina D, a qual provoca a disrupção dos microfilamentos de actina, leva à rápida deslocalização dos mRNAs de actina, indicando que o citoesqueleto de microfilamentos de actina participa no processo de localização. A disrupção de outros componentes do citoesqueleto, contudo, não provocava qualquer alteração na localização dos mRNAs. PROCESSAMENTO DO rRNA Aproximadamente 80% do total de RNA é constante crescimento nas células de mamíferos é rRNA, e 15% tRNA; RNA codificante de proteínas mRNA apenas constitui uma pequena porção do total de RNA presente numa célula. Os transcritos primários produzidos pela maior parte dos genes de rRNA e de tRNA, tal como os pré-mRNA, são extensamente processados de forma a assegurar a forma madura e funcional destes RNAs. Os rRNAs 28s e 5.8s associados à subunidade maior (60s) e o rRNA 18s associado à subunidade menor (40s), em eucariótas superioressão codificados por uma única unidade de transcrição de pré-RNA. A transcrição por parte da RNA polymerase I assegura um transcrito primário de 45s (pré-RNA), o qual é processado em rRNA maduro 28s, 18s e 5.8s encontrados nos ribossomas citoplasmáticos. A sequênciação do DNA codificante pré-RNA de muitas espécies revelou que o DNA partilha varias propriedades em todos 79 os eucariótas. Primeiro, os genes de pré-RNA estão arranjados em longas repetições (tandem – estudado anteriormente) separadas por regiões espaçadoras não transcritas que variam entre os 2kb em sapos e 30kb em humanos. Segundo, as regiões do genoma correspondentes aos três rRNAs maduros encontram-se sempre arranjadas na mesma ordem 5’ 3’: 18s,5.8s,28s. Terceiro, em todos as células eucariotas (e mesmo em bactérias), o gene do pré-rRNA codifica para, e o transcrito primário contém, regiões que são removidas durante o processamento e rapidamente degradadas. Tanto a síntese como o processamento de pré-rRNA ocorrem no nucléolo. A estrutura geral do pré-rRNA em Humanos, sapos, Drosophila e leveduras encontra- se representado na figura que se segue. Seguindo-se à sua síntese no nucléolo, o transcrito de pré-rRNA nascente é imediatamente ligado por proteínas, formando preribosomal ribonucleoprotein particles (pre-rRNPs). A maior destas (80s) contém uma molécula de 45s intacta, a qual é cortada numa série de clivagens e passos exonucleolíticos que asseguram a formação dos rRNAs maduros encontrados nos ribossomas. Durante o processamento, o pré-rRNA é também extensivamente modificado, principalmente por metilações do grupo hidroxilo 2’ de riboses específicas e a conversão de resíduos de uridina específicos em resíduos de pseudouridina. Ao contrário dos genes de pré-RNA, o RNA 5s é transcrito pela RNA polimerase III no nucleoplasma fora do nucléolo. Sem mais nenhum processamento, RNA 5s difunde-se para o nucléolo, onde se associa com os rRNAs 28s e 5.8s, e proteínas em grandes subunidades ribossomais . Quando a associação das subunidades ribossomais no nucléolo está completa, elas são transportadas pelo poro nuclear para o citoplasma, onde elas aparecem pela primeira vez como subunidades livres. PROCESSAMENTO DE tRNAs As moléculas maduras, citosólicas, de tRNA, com cerca de 75-80 nucleótidos, são produzidas a partir de largos percursores (pré-tRNAs) sintetizados pela RNA polimerase III no nucleoplasma. tRNAs maduros contêm, ainda, numerosas bases modificadas que não estão presentes no transcrito primário de tRNAs. Clivagens e modificações de bases ocorrem durante o processamento; alguns pré-tRNAs também sofrem splicing durante o processamento. Uma sequência de tamanho variável na extremidade 5’ encontra-se ausente em todos os tRNAs maduros, mas encontra-se presente em todos os pré-tRNA. Estes nucleótidos 5’ extras são removidos pela ribonuclease P (RNase P) uma ribonucleoproteína com actividade de endonuclease. 80 Cerca de 10% das bases no pré-tRNA são modificadas enzimaticamente durante o processamento. Ocorrem três classes de modificações no terminal 3’ do pré-tRNA com a sequência CCA, a qual se encontra no terminal 3’ de todos os tRNA é necessária pelo seu carregamento pela aminoacil-RNA sintetase durante a síntese proteica; adição de grupos metil e isopentenil ao anel heterocíclico das bases purínicas e metilação do grupo 2’ OH da ribose em qualquer resíduo presente; e por fim a conversão de uridinas específicas em dihidrouridinas, pseudouridinas ou ribotimidinas. O mecanismo de splicing do pré-tRNA difere do habitual processo a vários níveis. Primeiro, o splicing de pré-tRNA é catalizado por proteínas e não por RNAs. Segundo, os intrões nos pré-tRNA são excisados num só passo que engloba simultaneamente clivagem nas duas extremidades do intrão. Finalmente a hidrólise do GTP e do ATP é necessária para juntar as duas metades de tRNAs geradas pela clivagem nos dois lados do intrão. Após o processamento do pré-tRNAs no nucleoplasma, o tRNA maduro é transportado para o citoplasma através do NPC pelas exportinas-t, tal como discutido antes. No citoplasma, os tRNAs são “passados” por aminoacil-tRNA sintetases, factores de alongamento e ribossomas durante a síntese proteica. Assim tRNAs geralmente estão associados com as proteínas e gastam pouco tempo livres nas células. 81 PRÍNCIPIOS GERAIS DA REGULAÇÃO DA TRANSCRIÇÃO De todos os 4,000 e tal genes presentes no genoma bacteriano, ou dos 35,000 genes em humanos, apenas uma fracção deles é expresso numa célula a um dado instante. Alguns produtos dos genes estão presentes em grandes quantidades: factores de alongamento (estão entre as proteínas mais abundantes das bactérias), ou a enzima rubisco (até agora a enzima conhecida mais abundante no mundo vivo). Outros produtos estão presentes em quantidades muito pequenas, como por exemplo um factor de reparação de um dano celular muito raro. Muitos são os factores capazes de regulara a expressão génica: 1. Síntese do transcrito primário de RNA; 2. Modificações pós – transcrição do mRNA; 3. Degradação do mRNA; 4. Síntese proteica; 5. Modificações pós – tradução; 6. Transporte e endereçamento proteico; 7. degradação proteica; nesta parte vamo-nos focar essencialmente na regulação da iniciação da transcrição. Este controlo permite a regulação sincronizada de múltiplos genes codificantes de proteínas com actividades interdependentes. Nós iniciaremos o nosso estudo por examinar as interacções entre proteínas e DNA que são a chave para a regulação da transcrição. De seguida discutiremos as proteínas especificas que influenciam a a expressão de genes específicos, primeiro em procariotas e depois em eucariótas. PRINCÍPIOS DA REGULAÇÃO GÉNICA Os genes para produtos que são necessários em qualquer altura na célula, tais como as enzimas centrais na via metabólica, são expressos a um nível mais ou menos constante, virtualmente, em qualquer célula de um organismos tais genes damos o nome de Housekeeping genes. E a expressão não variada de um gene é dita como expressão génica constitutiva. Para outros produtos génico, os níveis celulares dobem e descem em resposta a sinais moleculares; isto é expressão génica regulada. Os produtos génicos que aumentem em concentrações sob condições moleculares particulares são referidos como indutíveis; e o processo da sua expressão é a indução. A expressão de muitos dos genes codificantes de enzimas reparadoras do DNA, por exemplo, são induzidos por altos níveis de danos no DNA. Contrariamente, produtos de genes que decrescem a sua concentração em resposta de um sinal molecular são chamados de repressíveis e o processo chama-se repressão. Por exemplo nas bactérias, as grandes concentrações de triptofan lideram a repressão dos genes que codificam para enzimas que catalizam a biosíntese de triptofan. A transcrição é mediada e regulada por interacções proteínas/DNA, especialmente aquelas que envolvem componentes da RNA polimerase. LIGAÇÃO DA RNA POLIMERASE A PROMOTORES NO DNA A DNA polimerase liga-se ao DNA e inicia a sua transcrição em zonas chamadas promotores, locais estes geralmente encontrados perto dos locais de inicio da transcrição. A regulação do inicio da transcrição muitas vezes envolve a maneira como RNA polimerase interactua com o promotor. A sequência de nucleótidos do promotor varia consideravelmente, afectando a afinidade de ligação da polimerase e consequentemente a frequência de transcrição. Alguns genes de E. coli são transcritos uma vez por segundo, enquanto outros são apenas transcritos uma vez em cada geração celular. Muitas destas diferenças devem-se a alterações na sequência do promotor. Na ausência de proteínas reguladoras, as diferenças nos promotores podem influenciar a transcrição numa taxa de 1000x ou mais. Muitos dos genes de E. coli têm sequências nos promotores muito perto da sequênciaconsenso. Mutações que provocam um afastamento da sequência consenso geralmente provocam um decréscimo na expressão desse gene. A taxa de transcrição de promotores de genes não housekeeping é também determinado por diferenças nas sequências dos promotores, mas essencialmente pela presença de proteínas reguladoras, muitas destas actual por aumentar ou interferir com a eficácia da ligação da RNA polimerase ao promotor. 82 A sequência de um promotor eucariótico é mais variável que a dos seus correspondentes procarióticos. As três RNA polimerases eucarióticas geralmente necessitam um arraial de factores de transcrição de modo a ligarem-se ao promotor. Mas mesmo assim, da mesma maneira que nos procariotas, o nível básico da regulação é definido pela sequência de nucleótidos do promotor e da eficiência de ligação da RNA polimerase a este. OPERADORES O início da transcrição é regulado por proteínas que se ligam a zonas do DNA perto dos promotores. Existem pelo menos três tipos de proteínas reguladoras do inicio da transcrição: os factores de especificidade alteram a especificidade da RNA polimerase para um dado promotor; repressores impedem o acesso da polimerase ao promotor; e os activadores aumentam as interacções RNA polimerase/promotor. Estas proteínas ligam-se a locais específicos no DNA. Em DNA de procariotas, tais locais de ligação, chamados operadores, geralmente encontram-se perto dos promotores. A ligação da RNA polimerase ou o seu movimento ao longo do DNA após ligação é bloqueado quando um repressor está presente. A regulação por meio de um repressor é referida como regulação negativa. A ligação do repressor ao DNA é regulada por um sinal molecular (efector), normalmente uma pequena molécula ou uma proteína que se liga ao repressor e causa uma mudança conformacional. A interacção entre o repressor e a molécula sinal tanto aumenta como diminui a transcrição. Em alguns casos, a mudança conformacional resulta numa dissociação do repressor do operador. A iniciação da transcrição pode então prosseguir. Noutro caso, a interacção entre um repressor e uma molécula sinal causa a ligação do repressor ao operador. Em células eucarióticas o local de ligação para um repressor pode estar um quanto distante do promotor; mas a ligação tem o mesmo efeito que nas bactérias: inibição da compilação ou actividade do complexo de transcrição no promotor. Os activadores representam um contraponto molecular dos repressores; eles ligam-se ao DNA e aumentam a actividade da RNA polimerase; isto é regulação positiva. Os locais de ligação de um activador está normalmente adjacente do promotor, ao qual a RNA polimerase se liga-se muito fracamente ou não se liga de todo. Alguns activadores eucarióticos ligam-se a locais de ligação no DNA, chamados enhancers, que se encontram um pouco distantes do promotor, afectando a taxa de transcrição no promotor que pode estar localizado a milhares de bases de distância. Alguns activadores encontram-se normalmente associados ao DNA aumentando a transcrição até que um sinal molecular provoque a dissociação do activador. Noutros casos, os activadores apenas se ligam ao DNA após uma interacção com um sinal molecular. Os sinais moleculares podem, por isso, aumentar ou diminuir a transcrição, dependendo apenas da maneira como eles afectam o activador. A regulação positiva é particularmente frequente em eucariotas. 83 REGULAÇÃO DA TRANSCRIÇÃO EM PROCARIÓTAS OPERÃO LAC As bactérias possuem um mecanismo geral muito simples para coordenar a regulação de genes que codificam produtos que participam numa série de processos relacionados. Estes genes encontram-se reunidos no cromossoma e são transcritos juntos. Muitos mRNAs procarióticos são policistrónicos - muitos genes num único transcrito – e o único promotor que inicia a transcrição desta reunião, é também zona de regulação para a expressão destes genes. O conjunto de genes, do promotor, e sequências adicionais que funcionam juntos na regulação, é chamado de operão. Muitos dos princípios da expressão génica em procariotas foram inicialmente definidos por estudos do metabolismo da lactose (na figura) em E. coli, que pode usar a lactose como sua única fonte de carbono. O operão da lactose (lac) (figura de baixo) inclui o gene da ß- galactosidase (z), galactoside permease (Y), e thiogalactoside transacetylase (A). Esta ultima parece modificar galacatosídeos tóxicos para facilitar a sua remoção da célula. Cada um destes três genes é precedido por um local de ligação de ribossomas (não mostrado na figura), que independentemente direcciona a tradução daquele gene. A regulação do operão lac por proteínas repressoras lac segue os padrões delineados anteriormente, na figura a) da pagina anterior. Estudos de operões lac mutantes revelaram alguns detalhes no funcionamento do sistema de regulação dos operões. Na ausência de lactose, os genes do operão lac são reprimidos. Mutações no operador ou noutro gene, no gene I, resultava numa síntese constitutiva dos produtos dos genes. Quando o gene I é defeituoso, a repressão pode ser restaurada pela introdução do gene I funcional na célula numa outra molécula de DNA, demonstrando que o gene I codifica uma molécula difundível que causa a repressão do gene. Esta molécula, uma proteína, é agora chamada o repressor lac. O operador ao qual ele se liga mais fortemente (O1) bloqueia a local de iniciação da transcrição. O gene I possui o seu próprio promotor (PI) independente dos genes do operão lac. O operão lac possui ainda dois locais de ligação do repressor. Um deles (O2) encontra-se na região +410, dentro do gene que codifica a ß-galactosidase (Z); o outro (O3) encontra-se próximo da zona -90, dentro do gene I. Para reprimir o operão, parece que o repressor lac se ligar a ambos, o local principal de ligação e um dos locais secundários, formando um loop. Qualquer uma das combinações bloqueia a transcrição. Apesar deste elaborado complexo de ligação a repressão não é absoluta. A ligação do repressor lac reduz a transcrição a uma taxa de 103. Se os locais O2 e O3 forem eliminados do operão, a simples ligação do repressor ao local O1 reduz a transcrição numa taxa de 102. Quando as células possuem lactose, o operão lac encontra-se induzido. Uma molécula indutora liga-se a um local específico no repressor lac e provoca uma alteração conformacional que resulta na dissociação do repressor do operador. O indutor no sistema de repressão do operão lac não é a lactose por si mesma, mas a 84 alolactose, um isómero da lactose. Após a lactose entrar na célula por uma das poucas permeases ainda existentes, a lactose é convertida em alolactose por uma das poucas ß-galactosidase ainda existentes. Libertando o operador do repressor, permitindo ao operão lac ser transcrito, conduzindo a um aumento da expressão de permeases e ß-galactosidases. Os mecanismos pelos quais os operões são regulados podem variar muito do modelo aqui apresentado anteriormente, de facto o próprio operão da lactose é mais complexo do que aquilo que foi aqui indicado, com um activador que contribui para o esquema global. REGULAÇÃO POSITIVA DO OPERÃO LAC As interacções operador/repressor/indutor descritas anteriormente para o operão lac providenciam um modelo satisfatório e intuitivo para um mecanismo on/off na regulação da expressão génica. Na verdade, a regulação de um operão raramente é assim tão simples. O ambiente bacteriano é demasiado complexo para que os seus genes sejam controlados apenas por um sinal. Outros factores para além da lactose controlam a expressão dos genes lac, tais como a disponibilidade de glucose. A glucose proveniente directamente da glicólise é a fonte principal de energia da célula. Claramente a expressão de genes para proteínas que metabolizem açucares tais como a lactose ou a arabinose é um desperdício quando a glucose é abundante. O que acontece ao operão lac quando ambasgrau de absorvância. RNA ou DNA cadeia simples absorve maior quantidade porque os anéis estão mais expostos. COMPACTAÇÃO DE DNA: O genoma dos eucariótas é, não só, mais complexo que o dos procariotas como, além disso, encontra-se organizado de maneira diferente. O genoma dos procariotas está contido em cromossomas simples, que usualmente são moléculas de DNA circulares. Pelo contrário o genoma de um eucariota é composto por múltiplos cromossomas, cada um contendo uma cadeia linear de DNA. Apesar das diferenças entre as espécies a estrutura básica do DNA eucariótico é semelhante em todos os seres. Este tipo de DNA encontra- se ligado a pequenas proteínas (histonas) que empacotam o DNA de uma forma ordenada no núcleo da célula – esta é uma tarefa crucial dado a quantidade de DNA na maioria dos eucariotas. Por exemplo, o tamanho total do genoma humano é cerca de 2m, contudo ele tem de caber num núcleo de 5 a 10 µm. 9 CROMATINA: O complexo formado entre o DNA eucariótico e as proteínas é chamado cromatina, geralmente contém cerca do dobro de proteínas que de DNA. O maior grupo de proteínas presente na cromatina são as histonas – pequenas proteínas contendo uma alta proporção de aminoácidos básicos (arginina e lisina) que facilitam a ligação a moléculas de DNA carregadas negativamente. Existem cinco grandes grupos de histonas (H1, H2A, H2B, H3, H4) muito semelhante entre as diferentes espécies eucariontes. As histonas são proteínas extremamente abundantes nas células eucarióticas; juntas, a sua massa é aproximadamente igual à do DNA celular. Além disso, a cromatina contém uma massa aproximadamente igual de uma grande variedade de proteínas não histónicas. Existem mais de mil tipos diferentes destas proteínas, cada uma delas envolvida numa grande gama de actividades incluindo a replicação e a expressão génica. A unidade básica estrutural da cromatina, os nucleossomas, foi descrita por Roger Kornberg em 1974. Dois tipos de experiências levaram a que ele propusesse o modelo. Primeiro uma digestão parcial da cromatina com nuclease micrococcal (enzima que degrada DNA) formou fragmentos com um comprimento de aproximadamente 200 bases. Em contrate, uma digestão semelhante de DNA nu (sem proteínas associadas) originou uma gama de fragmentos de tamanhos aleatórios. Estes resultados sugeriam que a ligação de proteínas ao DNA protegia algumas regiões da digestão por parte das nucleases de modo que a enzima só era capaz de atacar o DNA em locais espaçados por cerca de 200 pares de bases. Consciente desta noção, a microscopia electrónica revelou que a fibra de cromatina tinham um aspecto de rosário, com as contas separadas em intervalos aproximadamente de 200 pares de bases. Assim, tanto a experiência de digestão com nucleases como a microscopia electrónica sugeriam que a cromatina fosse composta por unidades repetitivas de 200 pares de bases, chamados nucleossomas. O empacotamento de DNA por parte das histonas forma um fibra de aproximadamente 10nm de diâmetro que é composta por cromatossomas (nucleossomas associados a uma molécula de histona H1) separados por segmentos de DNA ligante com cerca de 80 pares de bases de tamanho. O enrolamento do DNA em fibras de 10nm reduz cerca de sete vezes (7x) o seu tamanho. A cromatina pode depois condensar em fibras de 30nm. Forças entre as histonas H1 dos 10 diferentes cromatossomas parecem desempenhar um papel importante na fixação desta estrutura. Este tipo de condensação não permite a expressão génica. Equivale a uma compactação de 100x. numa célula em interfase, diferentes zonas do cromossoma podem-se encontrar em diferentes graus de compactação. A extensão da condensação da cromatina varia durante o ciclo celular. Na interfase a maioria da cromatina (chamada eucromatina) está relativamente condensada e espalhada pelo núcleo. Durante este período, genes são transcritos e o DNA é replicado em preparação para a divisão celular. A maioria da cromatina na interfase parece encontrar-se na forma condensada de 30nm, organizada em grandes loops contendo aproximadamente 50 a 100 kb de DNA. os genes que estão a ser transcritos encontram-se numa forma mais descondensada de maneira a facilitar o processo. Concluindo – a estrutura da cromatina está altamente relacionada com a regulação da expressão génica nos eucariotas. Ao contrário da eucromatina, cerca de 10% da cromatina interfásica, chamada heterocromatina, encontra-se num estado altamente condensado que se assemelha à cromatina da célula durante a mitose. A heterocromatina encontra-se transcriptamente inactiva, e contém elevado número de sequências de DNA repetidas, tais como aquelas presentes nos centrómeros e telómeros. Quando as células entram em mitose, os seus cromossomas tornam-se altamente condensados, de modo a que eles se consigam distribuir pelas células filhas. Pensa-se que os loops de cromatina das fibras de 30nm ligam-se e entrelaçam-se entre si de modo a compactar e formar os cromossomas típicos de metafase. Tal estado de condensação da cromatina não pode ser usado para a síntese de DNA, assim a transcrição cessa durante o processo de mitose. DNA cadeia de dupla hélice Cromatina DNA + proteínas associadas Cromossomas 1 cromossoma = 1 molécula de DNA (homem tem 46 moléculas de DNA) Gene porção da molécula que codifica informação DNAses ou Nucleases proteínas que clivam ácidos nucleicos; Compactação ~10000x 11 REPLICAÇÃO DO DNA A descoberta do emparelhamento complementar das bases de DNA sugeriu imediatamente uma solução molecular para a questão de como o material genético dirigia a sua replicação – um processo necessário cada vez que se dava a divisão celular. Foi inicialmente proposto que as duas cadeias se podiam separar e servir de modelos para a síntese de novas cadeias, a sequência seria ditada pelo simples emparelhamento de bases. O processo é chamado de replicação semiconservativa porque uma das cadeias do DNA parental é conservada em cada um dos descendentes. Um suporte directo para este suposto foi obtido em 1958 por Mathew Meselson e Frank Stahl, através de uma experiência em que o DNA ela rotulado com isótopos que alteravam a sua densidade. E. coli primeiro cresceu num meio contendo isótopos de alta densidade (15N) em vez de isótopos normais (14N). O DNA destas bactérias incorporou este isótopo no seu DNA e tornou-se, por isso, mais pesado. Esta diferença de densidades permitia a separação de cadeias por centrifugação, e foi esta característica que eles usaram para estudar o processo de replicação. As bactérias que tinham crescido num meio com isótopo pesado de DNA foram depois transferidas para um meio com isótopos normais e foi permitida a sua replicação uma vez mais. O DNA das bactérias foi então extraído e analisado. O resultado destas análises mostrou que todas as moléculas de DNA possuíam agora uma densidade intermédia entre a densidade de 15N e 14N. Isto mostrou que durante o processo de replicação as duas cadeias parentais pesadas separam-se e servem de molde para novas cadeias, estas formadas com o isótopo leve e formando, por isso, cadeias de densidade intermédia. A REPLICAÇÃO É BIDIRECCIONAL Seguindo-se à confirmação de que a replicação era semiconservativa uma série de questões surgiram. • Estarão as duas cadeias de DNA completamente separadas antes do início de cada replicação? • A replicação começará em locais aleatórios ou em locais específicos? • Após o início da replicação, esta procede num única direcção ou nas duas? Uma antecipada indicação de que a replicação se tratava de um processo altamente ordenado no qual as cadeias iniciais eram simultaneamente separadas e replicadas foi-nos dada por John Cairns, usando a autoradiografia. Ele tornou o DNA de E. coli radioactivo fazendo-a crescer num meio com timina radioactiva (rotulada com tritium - 3H). Quando o DNA foi revelado com película fotográfica, esta mostravaa glucose e a lactose estão presentes? Um mecanismo de regulação conhecido como repressão catabolítica restringe a expressão dos genes necessários para o catabolismo da lactose, arabinose, e outros açucares na presença de glucose, mesmo quando estes açucares estão presentes. O efeito da glucose é mediado pelo AMP cíclico (cAMP), como coactivador, e uma proteína activadora conhecida como proteína receptora de cAMP (CRP) – por vezes referida como CAP. Quando a glucose está ausente, CRP-cAMP liga-se a um local perto do promotor lac e estimula a transcrição do RNA. CRP-cAMP é portanto um regulador positivo responsivo aos níveis de glucose, enquanto o repressor lac é um regulador negativo responsivo aos níveis de lactose. CRP-cAMP tem pouco efeito no operão lac quando o repressor lac está a bloquear a transcrição, assim como a dissociação do repressor do operador tem pouco efeito na transcrição do operão lac a menos que a CRP-cAMP esteja presente para facilitar a transcrição; quando CRP não se encontra ligado, o tipo selvagem de promotor lac é um promotor relativamente fraco. O complexo aberto de RNA polimerase e do promotor não se forma automaticamente, é necessária a presença de CRP-cAMP. CRP interage directamente com RNA polimerase. O efeito da glucose no CRP é mediado pelas interacções com cAMP. CRP liga- se ao DNA quase avidamente quando as concentrações de cAMP são altas. Na presença de glucose, a síntese de cAMP é inibida e o fluxo do cAMP na célula é estimulado. À medida que a concentração de cAMP diminui, a ligação do CRP ao DNA também decresce, consequentemente diminuindo a expressão do operão lac. Fortes induções do operão lac são depois necessárias ambas a lactose (para inactivar o repressor) e baixas concentrações de glucose (para desencadear o aumento na concentração de cAMP e o aumento da ligação de cAMP ao CRP). As proteínas CRP e cAMP estão envolvidos em muitos sistemas regulatórios de vários operões. 85 OPERÃO DA ARABINOSE A arabinose é um açúcar que entra na via da pentose, mas que antes tem de ser transformada em xilulose 5-p; isto é feito por proteínas codificadas pelos genes araA, araB e araD. O operão é regulado pelos níveis de arabinose glicose, já que só se usa a arabinose quando não há glicose. A proteína codificada pelo gene araC, funciona como repressor, estando ligado ao operador e impedindo a transcrição; na presença de arabinose a repressão é levantada. Esta proteína regula a sua própria expressão. No gene araC existe um local regulador, que é chamado de sequência araO1, junto do promotor, onde a proteína se liga quando os seus níveis são elevados (mecanismo de autorregulação). Os operadores do operão são as sequências araO2 e araI; a proteína AraC vai dimerizar e ligar-se a estes operadores, formando um loop no DNA. A estrutura é mantida pela dimerização que impede a transcrição. Na presença de arabinose, o gene araC liga-se ao operador AraI, e dimeriza de uma forma diferente e deixa de se ligar ao araO1, e a ligação a um dos operadores facilita a transcrição – A proteína AraC passa de repressora a activadora (facilita a ligação da RNA polimerase). O promotor deste operão é também um promotor fraco e só se torna mais eficiente quando há pouca glicose; neste sistema , os níveis de cAMP sobem, há ligação com CRP que se liga, posteriormente, a uma sequência do operão; a ligação desta CRP juntamente com a ligação da arabinose aumentam a transcrição. 86 OPERÃO DO TRIPTOFAN E ATENUAÇÃO Os 20 aminoácidos são necessários em grandes quantidades para a síntese proteica, e a E. coli consegue sintetizá-los a todos. Os genes para as enzimas necessárias para a síntese de aminoácidos estão geralmente reunidos num operão e são expressos sempre que haja necessidade. Quando o aminoácido está em abundância na célula, as enzimas biosintéticas não são necessárias e o operão é reprimido. O operão de triptofan (trp) em E. coli inclui cinco genes para as enzimas necessárias para a síntese de triptofan. De notar que duas das enzimas catalizam para mais de um passo na via metabólica. O mRNA resultante deste operão tem um tempo de meia-vida de apenas 3 minutos, permitindo à célula responder rapidamente a mudanças de necessidades para este aminoácidos. Quando o triptofan é abundante ele se liga ao repressor de Trp, causando uma alteração conformacional que permite ao repressor ligar-se ao operador trp e inibir a expressão do operão trp. O operador trp sobrepõe-se ao promotor, assim a ligação do repressor bloqueia a ligação da RNA polimerase. Uma vez mais, este simples mecanismo on/off mediado por um repressor não é a história completa da regulação. Diferentes concentrações celulares de triptofan consegue variar a velocidade de síntese das enzimas biosintéticas. Uma vez que a repressão é elevada e a transcrição comece, a taxa de transcrição é afinada por um segundo processo de regulação, chamado atenuação da transcrição, no qual a transcrição se inicia normalmente mas depois é abruptamente interrompida antes dos genes serem transcritos. A frequência pela qual se dá a atenuação varia com a quantidade de triptofan disponível e faz uso da relação muito próxima que existe entre a transcrição e a tradução nas bactérias. O mecanismo de atenuação do operão trp usa sinais codificados em quatro sequências dentro de uma região líder de 162 nucleótidos na extremidade 5’ do mRNA, precedendo o codão de iniciação do primeiro gene. Dentro da região líder reside uma região conhecida como atenuadora, composta pelas sequências 3 e 4. 87 Estas sequências emparelham para formar um stem loop rico em G≡C perto de uma série de resíduos de U. a estrutura atenuadora actua como finalizador da transcrição. A sequência 2 é uma complemento alternativo para a sequência 3. se a sequência 2 e 3 emparelharem, a estrutura atenuadora não se pode formar e a transcrição continua pela genes síntese de trp, isto porque o loop formado pelo emparelhamento das sequências 2 e 3 não termina a transcrição. A sequência reguladora 1 é crucial para o sensível mecanismo, e este que determina qual o loop formado, se entre a sequências 2 e 3 ou se entre as sequências 3 e 4. a formação da estrutura atenuadora depende de eventos que ocorrem durante a tradução da sequência reguladora 1, a qual codifica um péptido líder de 14 aminoácidos dois dos quais são resíduos de triptofan. O péptido líder não possui mais nenhuma função celular conhecida; a sua síntese é apenas um aparato regulatório do operão. Este péptido é traduzido imediatamente após ser transcrito por ribossomas que seguem logo atrás da RNA polimerase. Quando as concentrações de triptofan estão altas, as concentrações de tRNA carregado com triptofan também são elevadas. Isto permite à tradução prosseguir rapidamente através dos dois codões de triptofan da sequência 1 e começar a tradução da sequência 2, antes da sequência 3 ser transcrita pela RNA polimerase. Nesta situação, a sequência esta coberta por ribossomas e indisponível para ligar com a sequência 3; deste modo a sequência 3 emparelha com a sequência 4 formando a estrutura atenuadora. Contudo, quando as concentrações de triptofan estão em baixo, os ribossomas ficam travados nos dois codões de triptofan da sequência 1 porque os codões de tRNA carregados estão menos disponíveis. Deste modo a sequência 2 continua disponível quando a sequência 3 é transcrita e estas formam um loop, que permite a transcrição. 88 CONTROLO DA TRANSCRIÇÃO EM EUCARIOTAS Os vários elementos de controlo da transcrição em DNA eucariótico são locais de ligação de proteínas reguladoras. Nesta secção, vamos discutir a identificação, purificação e estrutura destes factores de transcrição, os quais funcionam como activadores ou repressores da transcrição Apesar das diferenças nos propósitos do controlo da transcrição entre procariotas e eucariotas, duas característicaschave do controlo da transcrição inicialmente descobertas em bactérias são também válidas para organismos eucariotas. Primeiro a ligação de proteínas reguladoras a sequências de DNA. Segundo, a ligação de proteínas específicas a zonas reguladoras do gene determinam se a transcrição terá inicio, e também activam ou reprimem a transcrição. O controlo da transcrição em eucariotas tem três níveis de actuação: • Interferência com o complexo de iniciação da transcrição • Regulação da estrutura da cromatina • Modulação dos níveis e da actividade dos activadores e dos repressores da transcrição A caixa TATA é uma sequência do promotor altamente conservada em eucariotas, mas em vez dela alguns organismos possuem um elemento alternativo no promotor chamado iniciador. A maioria dos iniciadores que ocorrem naturalmente possui uma citosina (C) na posição -1 e uma adenina (A) na posição +1. A mutagénese dirigida em mamíferos com promotores contendo iniciadores revelaram que a sequência de nucleótidos imediatamente nas redondezas do local de iniciação determina a força de tais promotores. Ao contrario das sequências altamente conservadas caixas TATA, apenas uma sequência consenso extremamente degenerada foi definida (5’) Y-Y-A+1-N-T/A-Y-Y-Y (3’), onde A+1 é a base na qual se inicia a transcrição, Y é uma pirimidina (C ou T), N é qualquer uma das quatro bases, e T/A é qualquer uma destas duas bases na posição 3’. A transcrição de genes, com promotores contendo uma caixa TATA ou um elemento iniciador, inicia-se num ponto bem definido. Contudo, foi mostrado que a transcrição de muitos genes codificantes de proteínas tem início em qualquer um dos muitos locais possíveis numa região que se estende entre 20 e 200 nucleótidos. Estes genes não possuem nem uma caixa TATA nem uma sequência iniciadora, a maioria destes genes contêm porções de 20 a 50 nucleótidos ricas em CG a uma distancia de ~100 nucleótidos de distancia do local de iniciação da transcrição. ELEMENTOS REGULADORES DA TRANSCRIÇÃO Técnicas de DNA recombinante têm sido usadas para sistematicamente mutar a sequência de nucleótidos a montante do local de iniciação de vários genes eucarióticos de modo a identificar regiões controladoras da transcrição. Por agora centenas de genes já foram analisados e outras tantas regiões foram identificadas. Estes elementos de controlo juntos com a caixa TATA ou o iniciador são muitas vezes referidos como o promotor do gene que eles regulam. Contudo, vamos reservar o termo promotor para a caixa TATA ou sequência iniciadora e chamemos a estas sequências elementos próximos do promotor. Em alguns casos os elementos próximos do promotor são específicos para o tipo celular, isto é apenas funcionam em tipos celulares especializados. Uma aproximação frequentemente utilizada para determinar o quadro da região controladora da transcrição para um gene de mamífero envolve a construção de séries de delecções 5’. Uma vez criado o quadro da região, a análise de linker scanning mutations, pode apontar para a sequência com funções reguladoras que reside entre o quadro e o local de início da transcrição. Nesta aproximação, uma série de construções com encaixes sobrepostos são ensaiados para analisar o seu efeito na expressão do gene repórter 89 ou produção de mRNA específicos. Um dos primeiros trabalhos foi a análise de elementos próximos do promotor do gene da cinase de timidina (tk) do vírus do herpes (HSV). Os resultados, ilustrados na figura, mostram que regiões no DNA a montante do gene tk do HSV contem três zonas separadas de controlo da transcrição: a caixa TATA (de -32 a -16), e dois outros controladores um pouco mais longe do local de iniciação da transcrição. Para testar as constrições de espaço nos elementos de controlo na região do promotor, identificadas por análise de linker scanning mutations, os cientistas promoveram um ensaio contendo pequenas delecções e inserções entre os elementos. Isto indicou que uma certa flexibilidade no espaçamento entre elementos próximos do promotor é geralmente tolerada, mas a separação de vários emparelhamentos pode diminuir a taxa de transcrição. ELEMENTOS CONTROLADORES DA TRANSCRIÇÃO – (ELEMENTOS CIS) Inicialmente pensava-se que enhancers e elementos próximos do promotor eram diferentes tipos de elementos de controlo da transcrição. Contudo, quantos mais enhancers e elementos próximos do promotor eram analisados, a distinção entre eles tornou-se menos clara. Por exemplo ambos os tipos geralmente conseguiam estimular a transcrição mesmo quando invertidos, e ambos muitas vezes eram cell-type- specific. Agora o consenso geral é que um espectro de elementos regula a transcrição pela RNA polimerase II. Num extremo estão os enhancers, capazes de estimular a transcrição de um promotor a dezenas de milhares de pares de bases de distância (p.e. o enhancer de SV40). No outro extremos estão os elementos próximos do promotor tais como os elementos a montante no gene de tk do HSV, os quais perdem a sua função quando distanciados a mais de 30-50 pb do promotor. As investigações demonstraram a existência de elementos reguladores entre estes dois. A figura ilustra a localização de sequências de controlo de transcrição para um gene hipotético. O local de iniciação da transcrição codifica o primeiro nucleótido (5’) do primeiro exão do mRNA – o codão que está capped. Para muitos genes, especialmente aqueles codificantes proteínas abundantemente transcritas, a caixa TATA localiza-se aproximadamente 25-35pb a montante do local de iniciação. Elementos próximos do promotor, que são relativamente curtos com cerca de 10 a 20pb, estão localizados entre os primeiros 200 pb a montante do local. Os enhancers, pelo contrário usualmente possuem 100pb de comprimento e são compostos por múltiplos elementos de 10 a 20 pb. Enhancers podem estar localizados até 50kb de distancia a montante ou a jusante do local de iniciação ou dentro de um intrão. Muitos genes de mamíferos são controlados por mais de uma região enhancer. O genoma de S. cerevisiae contém elementos reguladores chamados upstream activating sequences (UASs), os quais funciona de maneira semelhante aos enhancers e aos elementos próximos do promotor. A maioria dos genes de leveduras possui apenas um UAS, que geralmente reside dentro de centenas de pb a partir do ponto de partida. Em contrapartida, os genes de S. cerevisiae contêm caixa TATA ~90pb a montante do local de iniciação da transcrição. 90 FACTORES DE TRANSCRIÇÃO TÊM DOMÍNIOS FUNCIONAIS INDEPENDENTES Estudos com o activador de transcrição de leveduras chamado GAL4 providenciaram uma luz no domínio da estrutura dos factores de transcrição. O gene codificante da proteína GAL4, a qual promove a expressão de enzimas necessárias no metabolismo da galactose foi identificado por análises de complementação de mutantes de gal4. Estudos de mutagénese dirigida tais como aqueles já aqui referidos identificaram UASs para os genes activados por GAL4. Descobriu-se que cada um destes possuía uma ou mais cópias da sequência de 17pb chamada USAGAL. Quando uma cópia de UASGAL era clonada a montante da caixa TATA seguida pelo gene repórter lacZ, a expressão deste gene era activada em células do tipo selvagem em meio de galactose, mas não em mutantes gal4. Estes resultados mostraram que UASGAL é um elemento de controlo da transcrição activado pela proteína GAL4 em meio de galactose. Um espantoso número de experiências com delecções mutantes em gal4 demonstrou que o factor de transcrição GAL4 é composto por domínios funcionais separados: um domínio ligador do terminal N do DNA, o qual liga a sequências específicas do DNA, e um domínio activador no terminal C, o qual interage com outras proteínas para estimular a transcrição de um promotor na vizinhança. Quando o domínio de ligação de proteínas no terminal N de GAL4 está fundido com vários terminais C dos seus fragmentos, o resultadosão proteínas truncadas retêm a habilidade de estimulara a expressão do gene repórter num ensaio in vivo. Deste modo a porção interna da proteína não é necessária para o funcionamento de GAL4 como factor de transcrição. O modelo estrutural para os activadores eucarióticos é um molde no qual um ou mais domínios de activação estão conectados a uma sequência específica de domínio ligador de proteínas. Em alguns casos, aminoácidos envolvidos na ligação ao DNA também contribuem para a activação da transcrição. Pensa-se que os domínios de activação funcionam por ligação de outras proteínas envolvidas na transcrição. A presença de domínios do DNA ligadores de proteínas flexíveis para a activação de domínios pode explicar porque alterações no espaçamento entre os elementos de controlo são tão bem tolerados em regiões de controlo eucarióticas. Assim mesmo quando a posição dos factores de transcrição ligados ao DNA é deslocado relativamente a outro, os seus domínios de activação continuam disponíveis para interagir porque estão ligados ao seu domínio do DNA através de regiões proteicas flexíveis. 91 DOMÍNIOS LIGADORES DE DNA Os domínios de ligação ao DNA de activadores e repressores proteicos contêm uma variedade de motivos estruturais que ligam sequências de DNA específicas. A habilidade das proteínas ligadoras de DNA para ligar sequências específicas normalmente resulta de interacções não covalentes entre os átomos de uma α-hélice no domínio ligante do DNA, e de átomos nas extremidades das bases que compõem o sulco maior no DNA. Interacções com o esqueleto de açúcar/fosfato, e, em alguns casos, com átomos do sulco menor do DNA também contribuem para a ligação. Os princípios para as interacções DNA/proteína foram primeiro descobertas durante o estudo de repressores bacterianos. Muitos repressores bacterianos são proteínas diméricas nas quais uma α-hélice de cada monómero se insere num sulco maior do DNA. Esta α-hélice é referida como a hélice de reconhecimento ou a hélice de leitura de sequências porque a maioria das cadeias laterais dos aminoácidos que contactam com o DNA estendem-se a partir desta hélice. A hélice de reconhecimento que espicha da superfície do repressor bacteriano para entrar no sulco maior do DNA e faz múltiplas, especificas interacções com átomos no DNA é usualmente suportado na estrutura da proteína em parte por interacções hidrofóbicas com uma segunda α-hélice na zona N terminal. Este elemento estrutural, que se encontra presente em muitos repressores bacterianos, é chamado de motivo helix-turn-helix. Muitos motivos que podem apresentar uma α-hélice ao sulco maior do DNA são encontrados em factores de transcrição eucarióticos, que muitas vezes são classificados de acordo com o tipo de domínio ligante de DNA que contêm. Porque a maioria destes motivos possui sequências de aminoácidos consenso características, novos factores de transcrição podem ser classificados uma vez que os genes correspondentes ou cDNAs sejam clonados e sequenciados. O genoma de eucariótas superiores codifica dúzias de classes de domínios ligantes de DNA e centenas a milhares de factores de transcrição. O genoma humano, por instantes, codifica ~2000 factores de transcrição. Iremos agora introduzir várias classes de proteínas ligadores de DNA cuja estrutura tridimensional já foi determinada. Em todos estes exemplos e muitos outros factores de transcrição, pelo menos uma α-hélice é inserida no sulco maior do DNA. Contudo alguns factores de transcrição contêm motivos estruturais alternativos que interagem com o DNA. PROTEÍNAS COM HOMEODOMÍNO Muitos factores de transcrição eucarióticos que funcionam durante o desenvolvimento contêm um motivo de ligação ao DNA com cerca de 60 nucleótidos que é semelhante ao motivo helix-turn-helix dos repressores bacterianos. Proteínas Zinc-Finger– um número de proteínas eucarióticas diferentes possuem regiões que se ligam à volta de um ião Zn2+, produzindo um domínio compacto de uma porção relativamente curta do péptido que pode ligar a sua α-hélice ao sulco maior do DNA . Chamado de zinc-finger, este motivo estrutural foi inicialmente identificado em proteínas ligantes de DNA, mas hoje sabe-se que também ocorre em outras que n ligam DNA. este motivo possui uma sequência consenso de 23 a 26 resíduos, contendo duas cisteínas e duas histidinas altamente conservadas (Tyr/Phe-X- Cys-X2-4-Cys-X3-Phe/Tyr-X5-Leu-X2-His-X2-4- His) cujas cadeias laterais ligam a um ião de Zn2+. O nome zinc-finger foi atribuído porque o diagrama a duas dimensões da estrutura faz lembrar um dedo. Muitos factores de transcrição possuem mais do que um domínio zinc-fingers, que interagem com grupos de pares de bases sucessivos, dentro do sulco maior, enquanto a proteína se enrola à volta da dupla hélice de DNA. 92 Proteínas Leucine-Zipper – Outro motivo estrutural presente nos domínios ligantes de DNA de uma grande classe de factores de transcrição que contêm aminoácidos hidrofóbicos como a leucina a cada sete posições na sequência. Estas proteínas ligam ao DNA como dímeros, e mutações na sequência de leucinas mostrou que elas são essenciais para a dimerização. Técnicas de cristalografia de raios-X em complexos entre o DNA e este domínio mostraram que a proteína dimérica contém duas α-hélices extensas que apertam a molécula de DNA, muito como uma par de tesouras, em dois sulcos maiores adjacentes. A porção das α-hélices que contactam com o DNA possuem resíduos positivamente carregados (básicos) que interagem com os grupos fosfatos do esqueleto do DNA, e resíduos adicionais que interagem com bases específicas no sulco maior. Estas proteínas formam dímeros através de interacções hidrofóbicas entre os terminais C das α-hélices, formando uma estrutura enrolada (coiled-coil). Apesar do primeiro factor de transcrição Leucine-Zipper a ser analisado conter resíduos de leucina a cada sete posições, na zona de dimerização, foram, posteriormente, identificadas outras proteínas ligantes de DNA contendo outros resíduos hidrofóbicos nessas posições. E tais como as proteínas Leucine-Zipper também elas formavam dímeros contendo os terminais C enrolados e o terminal N ligado ao DNA. o termo basic-zipper (bZip) é agora frequentemente usado para referir estas proteínas. Muitos factores de transcrição basic-zipper são heterodiméricos para duas cadeias polipeptídicas diferentes, outras há que são homoméricas, ou seja as duas cadeias polipeptídicas são iguais, cada um dos polipéptidos possui um domínio basic-zipper. Os dois factores de transcrição mais conhecidos desta família são Jun, Fos. Proteínas Básicas Helix-Loop-Helix (bHLH) – o domínio ligante de DNA de outra classe de factores de transcrição diméricos contem um motivo funcional muito semelhante ao motivo basic-zipper excepto que um loop não helicoidal das cadeias polipeptídicas separa as duas regiões α-hélices em cada monómero. Este domínio foi previsto a partir de sequências de aminoácidos destas proteínas, que continham uma cauda N com resíduos básicos que interagiam com o DNA, na região mediana do loop e uma região no terminal com aminoácidos hidrofóbicos espaçados em intervalos característicos, numa α-hélice anfipática. ELECTROPHORETIC MOBILITY SHIFT ASSAY (EMSA) Como se mede a actividade de um factor de transcrição? Podemos fazê-lo indirectamente avaliando a expressão da proteína, ou então avaliar a ligação do factor de transcrição. Isto faz-se introduzindo uma sequência de oligonucleótidos reconhecidos pelo factor de transcrição, através da técnica de EMSA. O electrophoretic mobility shift assay (EMSA) também conhecido como gel-shift ou band-shiftI, é mais útil que o DNA footprinting para a quantificação de proteínas ligantes de DNA. em geral a mobilidade electroforética de um fragmento de DNA é reduzida quando ele é complexado a uma proteína, causando uma troca na banda do fragmento. Esta técnica pode ser usada para detectarfactores de transcrição em fracções proteicas incubadas com um marcador radioactivo e contendo um conhecido elemento de controlo. O que se faz é isolar o DNA em cadeia dupla e medir a sua mobilidade num gel de electroforese; se incubarmos o DNA com o factor de transcrição eles ligam-se (se o FT estiver activo), e o complexo terá maior mobilidade. De seguida podemos incubar uma sonda de DNA com o estrato celular e aplicar estímulos para avaliar a actididade do factor de transcrição. No isolamento bioquímico do factor de transcrição, um estrato do núcleo celular é sujeito a vários tipos sequênciais de cromatografia de coluna. E estas fracções são analisadas por EMSA e posteriormente por cromatografia de afinidade sequence-specific, com múltiplas cópias de locais de ligação de factores de 93 transcrição associados à matriz. Para finalizar, para certificar de que as proteínas isoladas são de facto factores de transcrição, a sua habilidade para modular a transcrição é testada in vitro. Uma vez que o factor de transcrição esteja isolado e purificado a sua sequência de aminoácidos parcial pode ser determinada e ser usada para clonar o gene ou o cDNA. O gene isolado pode depois ser usado para testar a habilidade da proteína codificada para activar ou reprimira transcrição num ensaio de transfecção in vivo. FORMAÇÃO DA HETEROCROMATINA Por muitos anos era clara a relação entre os genes inactivos e a heterocromatina, zonas onde o genoma se encontra mais condensado, nas células eucarióticas. Regiões dos cromossomas perto dos centrómeros e dos telómeros e regiões adicionais específicas que variam com o tipo celular encontram-se organizadas em heterocromatina. O DNA na heterocromatina está menos acessível para o acesso de proteínas externas que o DNA em eucromatina, e por isso é muitas vezes referido como a cromatina fechada. O mecanismo detalhado para as mudanças estruturais associadas com a transcrição, são chamadas de remodelação da cromatina, está agora a ser mais bem entendido, incluindo a identificação de uma variedade de enzimas directamente implicadas no processo. Isto inclui enzimas que modificam covalentemente o núcleo de histonas do nucleossoma e outras que usam energia química do ATP para remodelar os nucleossomas no DNA. A acetilação e desacetilação de histonas são uma figura predominante no processo de activar a cromatina para a transcrição. O terminal N das histonas é muitas vezes rico em resíduos de lisina. Resíduos particulares deste aminoácido são acetilados pelas histona acetiltransferases (HATs). HATs citosólicas acetilam histonas recentemente sintetizadas antes destas serem transportadas para o núcleo. A reunião das histonas na cromatina é depois facilitada por um vasto número de outras enzimas. Quando a cromatina esta a ser activada para a transcrição, as histonas nucleossomais são pois acetiladas pelas HATs nuclear. A acetilação de múltiplos resíduos de Lys no terminal N das histonas H3 e H4, consegue reduzir a afinidade de todo o nucleossoma. A acetilação pode ainda prevenir ou promover interacções com outras proteínas envolvidas nos processos de regulação da transcrição. Quando a transcrição de um gene não é mais necessária a acetilação dos nucleossomas é reduzida pela acção das histona desacetilases (HDAC), como parte do processo geral de silenciamento de genes, que restora a cromatina a um estado inactivo de transcrição. 94 REPRESSORES CONSEGUEM DIRECCIONAR A DESACETILAÇÃO DE HISTONAS EM GENES ESPECÍFICOS A importância da desacetilação de histonas na cromatina mediando a repressão de genes tem sido muito suportada por estudos de repressores eucariótas que regulam os genes em posições internas do cromossoma. Estas proteínas são conhecidas por agirem em parte causando a desacetilação da cauda das histonas nos nucleossomas que ligam a caixas TATA e regiões próximas de promotores dos genes que elas pretendem reprimir. Estudos in vitro mostraram que quando o promotor está reunido num nucleossoma com histonas desacetiladas, os factores de transcrição basais não se conseguem ligar a caixa TATA nem a região de iniciação. Em histonas desacetiladas, as lisinas do terminal N encontram-se carregadas positivamente e interagem fortemente com DNA fosfatases. As caudas das histonas desacetiladas também interagem com octâmeros de histonas vizinhas, unindo a cromatina na forma condensada. O efeito em rede é o que os factores de transcrição basais não conseguem assimilar no complexo de pré-iniciação num promotor associado com histonas hipoacetiladas. Pelo contrário, a ligação de factores de transcrição basais são muito menos por histonas com hiperacetilação da cauda de lisinas, nas quais as lisinas carregadas positivamente são neutralizadas e as interacções electrostáticas com os fosfatos do DNA são eliminadas. A ligação entre histonas desacetiladas e a repressão da transcrição na maioria dos promotores da vizinhança tornou-se mais clara quando o cDNA codificante de uma histona desacetilase humana foi encontrado e possuía alta homologia com o gene RPD3 de leveduras, conhecido por ser altamente responsável na repressão de genes nestes organismos. Trabalhos posteriores mostraram que RPD3 possuía actividades de desacetilase de histonas. A habilidade para o RPD3 desacetilar histonas dependia da acção de duas outras proteínas UME6, um repressor que liga sequências reguladoras a montante (URS1), e SIN3, a qual faz parte de um complexo multiproteíco que também contém RPD3. SIN3 também liga a um domínio repressor de UME6, posicionando deste modo RPD3 no complexo para que assim ele possa interagir com promotores associados a nucleossomas e remover os grupos acetil de histonas. Todas estas descobertas e mais algumas contribuíram para a elaboração do modelo de desacetilação dirigida por repressores mostrado na figura. Neste modelo, o complexo SIN3-RPD3 funciona como co- repressor. Complexos co-repressores contêm desacetilases de histonas também foram encontrados associados a muitos repressores nas células de mamíferos. ACTIVADORES CONSEGUEM DIRECCIONAR A ACETILAÇÃO DE HISTONAS EM GENES ESPECÍFICOS Estudos genéticos e bioquímicos em leveduras levaram a descobertas de um largo complexo multiproteíco contendo a proteína GCN5 que possui actividade de acetilase de histonas. Outra subunidade deste complexo liga-se a domínios de activação acídicos nas proteínas activadoras de leveduras, tais como a GCN4. A máxima activação da transcrição por parte da GCN4 depende deste complexo de acetilases de histonas, que assim funciona como coactivador. O modelo representado na figura é consistente com as observações feitas de que nucleossomas perto da região do promotor de um gene regulado pelo activador GCN4 são especificamente hiperacetilados. A hiperacetilação de nucleossomas direccionada por activadores perto da região do promotor modifica (abre) a estrutura da cromatina assim como para facilitar a ligação de outras proteínas necessárias para o início da transcrição. 95 METILAÇÃO DE DNA Trata-se de outra forma de regulação da transcrição e encontra-se associado à desacetilação das histonas. Isto porque, em zonas metiladas os genes estão silenciosos; normalmente o nucleótido metilado é uma citosina, no entanto, a metilação de DNA vai recrutar algumas proteínas – desacetilases – que vão desacetilar as histonas, impedindo a transcrição, isto ocorre em sequências de DNA ricas pares de base G-C que são zonas onde o DNA é mais compacto. Esta metilação induz a ligação da proteína MeCP2 ao DNA metilado, este complexo “recruta” Desacetilases de Histonas (HDACs) que inibem a transcrição. REGULAÇÃO DA ACTIVIDADE DOS FACTORES DE TRANSCRIÇÃO Até agora temos estudado como é que as combinações de vários factores influenciam a transcrição. Um gene ser ou não transcrito num determinado tipo celular num dado momento do desenvolvimento de um organismo é largamente comandado porinteracções entre factores de transcrição e sequências reguladoras. Agora quais e em que quantidade, os factores de transcrição são expressos, é regulada por múltiplas interacções regulatórias entre os genes codificantes de factores de transcrição num determinado tipo celular. Não só a sua expressão como também a actividade destes factores de transcrição são reguladas por interacções proteicas na superfície de células vizinhas, por acção de hormonas e factores de crescimento. Em organismos multicelulares, estes sinais são segregados por um tipo celular e afectam células vizinhas ou noutra zona do organismo. Um grande grupo destes sinais extracelulares compreende péptidos que se ligam a receptores presentes na superfície da membrana plasmática. A ligação destes sinais a receptores desencadeia uma série de vias de sinais de tradução no interior da célula. Aqui vamos estudar apenas o segundo maior grupo de sinais extracelulares, pequenas hormonas liposolúveis – incluindo esteróides, retinóides e hormonas da tiróide – que se conseguem difundir através da membrana celular e interagir directamente com os factores de transcrição que elas regulam. Os receptores intracelulares para estas hormonas liposolúveis pertencem à família dos receptores nucleares, que funcionam como activadores da transcrição quando ligados ao seu ligando. RECEPTORES NUCLEARES: FACTORES DE TRANSCRIÇÃO A clonagem e sequênciamento dos genes codificantes dos receptores nucleares revelaram uma grande conservação na sua sequência de aminoácidos e três regiões funcionais. Todos eles possuem uma região única na extremidade N com um tamanho variável. Porções desta região variável funcionam como domínios activadores em alguns receptores. Os domínios ligadores de DNA localizados ao centro da estrutura primária possuem um motivo zinc-finger. Os domínios ligadores de hormonas localizados no terminal C contêm um domínio de activação dependente de hormonas. Em alguns receptores estes domínios funcionam como repressores na ausência do ligando. 96 SEQUÊNCIAS DE DNA QUE LIGAM OS RECEPTORES NUCLEARES É a sequência de nucleótidos característica na região de ligação de DNA, chamado elementos de resposta, que ligam vários receptores nucleares – como já foi referido. A sequência consenso dos elementos de respostas dos receptores de glucocorticóides(a) e estrogénio(b) são inverted repeats de 6pb por cada 3 pares de bases. As descobertas sugerem que os receptores ligam ao DNA como dímeros simétricos como aqueles dos domínios zinc-finger. Alguns elementos de resposta de receptores nucleares, tais como aqueles que ligam vitamina D3, hormonas tiróides e ácido retinóide, são direct repeats da mesma sequência reconhecida pelos receptores de estrogénios, separados por três a cinco pares de bases (c - e). a especificidade para responder a estas diferentes hormonas por ligação de diferentes receptores é determinada pelo espaçamento entre as repetições. RECEPTOR GLUCOCORTICÓIDE O mecanismo de por meio de que as hormonas ligantes controlam a actividade de receptores nucleares difere entre receptores heterodiméricos e homodiméricos. Os receptores nucleares heterodiméricos localizam-se exclusivamente no núcleo. Na ausência do seu ligando, eles reprimem a transcrição quando ligados a locais específicos no DNA. Eles fazem isto por desacetilação directa de histonas e nucleossomas vizinhos, por mecanismos descritos anteriormente. Ao contrário dos receptores heterodiméricos, os homodiméricos encontram-se no citoplasma na ausência do seu ligando. Quando a hormona se liga a estes receptores provoca a sua translocação para o núcleo. A translocação dependente de hormonas do receptor de glucocorticóides (GR) foi demonstrada na transfecção mostrada na figura. O domínio de GR que liga as hormonas medeia a sua transportação. Estudos subsequentes mostraram que na ausência de hormona, GR encontra-se unicamente no citoplasma como um agregado de proteínas complexado de proteínas inibidoras. Enquanto o receptor esteja confinado ao citoplasma ele n consegue interagir com genes presentes no núcleo, e por isso não conseguem activar a transcrição. A ligação da hormona ao receptor liberta-o das proteínas inibidoras, permitindo-lhe entrar no núcleo, onde ele se pode ligar a elementos de resposta associados aos genes alvo, isto vai activar a transcrição por interacções com remodeladores da cromatina, complexos de acetilação de histonas e mediadores. 97 TRADUÇÃO DO RNA Existe muito menos variedade de nucleótidos (4) do que de aminoácidos (20), o constituinte base das proteínas, logo daqui concluí-se que uma base não corresponde a um aminoácido, mas o mesmo se passa se considerarmos que as bases se combinam 2 a 2 (42=16). No entanto se considerarmos combinações 3 a 3 (43=64) obtemos um número excessivamente elevado. Isto implica que pode haver diferentes combinações de nucleótidos que codifiquem o mesmo aminoácido. O conjunto destes 3 nucleótidos são designados de tripletos ou codões. Por isso se diz que o código genético é degenerado ou redundante, porque um aminoácido é codificado por mais de um tripleto mas não é ambíguo porque um codão codifica sempre o mesmo aminoácido, além disto é praticamente Universal o mesmo tripleto codifica o mesmo aminoácido em quase todas as situações (excluindo por exemplo parte do genoma mitocondrial e alguns organismos procariotas). Esta redundância contudo nem sempre acontece visto que a Met é sempre codificada pelo codão AUG, que também é o codão de iniciação, que é sempre o primeiro a ser traduzido. Mas isto não significa que todos os mRNAs possuam uma sequência AUG no inicio da sua cadeia ou que todas as proteínas possuam Met na extremidade N. De facto o que se passa é que algures perto do inicio da cadeia do mRNA existe uma sequência AUG, mas esta pode variar muito a sua posição, e de facto as proteínas no seu estado pré- operacional possuem uma metionina na extremidade N, contudo durante a maturação pós–traducional esta metionina pode, ou não, ser clivada. Existem ainda 3 codões de terminação algures perto da extremidade 3’ do mRNA são eles UAA, UAG, UGA. A tradução inicia sempre com uma sequência AUG e termina sempre com um codão de terminação. A iniciação da tradução depende da ligação do mRNA à subunidade pequena do ribossoma e dos tRNAs responsáveis por interpretar a mensagem. Os ribossomas são ribozimas, ou seja são RNAs com actividade enzimática e de facto a maior parte do ribossoma é constituído por RNA e uma fracção menor é proteínas, e este conjunto cataliza a formação de novas proteínas. O rRNA é sintetizado no núcleo e sofre maturação antes de se juntar às proteínas correspondentes no citoplasma. A subunidade 5S dos ribossomas possui uma estrutura secundária devido ao emparelhamento de certas zonas da molécula. 98 LOCAL DE SÍNTESE DAS PROTEÍNAS O local onde as proteínas são sintetizadas depende muito da função e destino final da proteína. Proteínas secretoras, da membrana dos lisossomas, do retículo (lúmen ou membrana) e do complexo de Golgi são todas sintetizadas no Retículo Endoplasmático e nos ribossomas a ele associados. As Proteínas citoplasmáticas, nucleares, mitocondriais, cloroplastidiais, e peroxissomais são todas sintetizadas no citoplasma por ribossomas livres (algumas proteínas dos cloroplastos e das mitocôndrias são sintetizadas nos próprios compartimentos através do seu próprio material genético). Todas as proteínas sintetizadas nos ribossomas do RER têm uma sequência específica codificada logo na extremidade do mRNA, imediatamente a seguir ao codão de iniciação na extremidade 5’. Deste modo o inicio da tradução de todas as proteínas tem lugar em ribossomas livres no citoplasma, contudo as proteínas que devem ser sintetizadas no RE possuem uma sequência sinal na extremidade N, constituída por aminoácidos hidrofóbicos e um aminoácido básico que determinam quea síntese deve parar, vai ligar SRP (Signal Recognition Particle) esta ligação sinal – SRP vai causar uma mudança conformacional na SRP que faz com que este complexo seja reconhecido por outras proteínas na membrana do RE, esta interacção provoca a translocação do ribossoma. Na membrana do RE formam-se poros (translocões) associados ao receptor que permitem a entrada da proteína a ser sintetizada para o lúmen ou incorporadas na membrana. Uma vez no RE a sequência sinal é clivada por uma peptidase sinal devido à afinidade que esta tem para uma certa região do sinal. Após a síntese as proteínas necessitam de adquirir a sua conformação terciária e sofrem modificações pós-traducionais como a clivagem ou glicosilação através de proteínas típicas do RE. As proteínas são posteriormente transportadas para outros locais intracelulares ou para o exterior pela acção do tráfego vesicular. 99 tRNAs E EFEITO DE WOBBLE Os tRNAs são moléculas pequenas com estrutura secundária em folha de trevo, mantida por pontes de hidrogénio, estas zonas são espaçadas por zonas onde não ocorrem pontes de hidrogénio e formam-se loops, num destes loops encontra-se o anticodão que são sequências complementares e antiparalelas dos codões. Os tRNAs possuem duas zonas muito importantes o anticodão e a zona do terminal 3’ onde se insere o aminoácido (esta ligação faz-se entre a extremidade 3’ e o grupo COO- do aminoácido), a cada tRNA só se liga um aminoácido, codificado pelo anticodão (contudo como iremos ver mais a frente o anticodão por si mesmo não está envolvido na ligação do aminoácido). Algumas bases no tRNA encontram-se modificadas, a guanina é muitas vezes metilada e surge a iosina. E muitas vezes a extremidade 5’ do anticodão encontra-se modificada em inosina, isto porque esta é capaz de emparelhar com três bases diferentes A, U, C, na posição 3’ do codão. Esta ligação permite poupar energia (na síntese de vários tRNAs para o mesmo aminoácido) e codões, visto que um anticodão que inicie com Inosina consegue reconhecer três codões diferentes. Por exemplo o codão GCI pode ligar-se a CGA, CGU e CGC, todos eles codificam a arginina. No anticodão quando surge um U na posição 5’, ele é capaz de se ligar a uma A na posição 3’ do codão, mas também a uma G! Isto porque no ribossoma o ambiente é tal que a ligação não é tão rígida (no local A do ribossoma), o contrario também se verifica se se encontrar G na extremidade 5’ do anticodão, este também liga C ou U na extremidade 3’ do codão. Contudo se na extremidade 5’ do anticodão existir A ou C a ligação é especifica e segue a regra de Watson. A esta situação designa-se por efeito de Wobble, ou seja designa a flexibilidade de ligação devido à existência de bases modificadas e emparelhamento inespecífico. É por esta razão que não existem 61 tRNAs como foi matematicamente calculado (43 = 64 – 3 codões STOP =61), mas sim cerca de 30. Estas ligações não são tão fortes quanto os emparelhamentos de Watson e Crick mas isso é bom visto que ajuda a que o tRNA se desligue mais rapidamente do ribossoma aumentando com isto a velocidade de síntese. Caso a ligação fosse forte formar-se-iam estruturas mais estáveis e a velocidade do tRNA se desligar do mRNA no ribossoma seria menor. Assim a partir de uma sequência de aminoácidos, não podemos saber bem qual a sequência de nucleótidos que lhe deu origem, porque o código é um processo degenerado (à excepção da Met e do Trp). 100 LIGAÇÃO DE AMINOÁCIDOS AO tRNA CORRESPONDENTE A ligação do aminoácido ao tRNA faz-se através de enzimas chamadas aminoacil- tRNA sintetases e existem tantas destas enzimas quanto tRNAs existirem. Como vimos anteriormente (pag. 79/80) o tRNA após ser sintetizada sofre um processo de modificações e uma dessas modificações é a adição de uma sequência CCA na extremidade 3’ que vai ligar o aminoácido. Para ocorrer a ligação do aminoácido é necessário que primeiro ocorra a activação deste, ligando-se a cAMP transferido do ATP que se vai ligar à zona COOH do aminoácido. Existem duas classes de aminoacil-tRNA sintetases que promovem a ligação do aminoácido ao tRNA de diferentes maneiras mas sempre no terminal 3’. A ligação faz-se sempre entre o grupo COOH do aminoácido e a adenina na extremidade 3’ do tRNA, pode é no entanto ocorrer a ligação com o grupo OH 2’ (tipo I) ou 3’ (tipo II) da ribose. O AMP facilita a ligação. No caso da ligação se dar ao grupo Oh 2’ há posteriormente uma transesterificação que transfere o aminoácido para a posição 3’. O facto da ligação ser feita pelo terminal COOH determina o modo como se produz a ligação peptídica e qual a extremidade da proteína que é sintetizada primeiro (N). 101 ESPECIFICIDADE DAS AMINOACIL-tRNA SINTETASES A aminoacilação do tRNA é acompanhada por dois finais: (1) identificação e activação do aminoácido e (2) ligação do aminoácido a um adaptador de tRNA que assegura o posicionamento correcto no polipéptido em crescimento. A identidade do aminoácido não é revista no ribossoma, por isso a ligação do aminoácido correcto ao tRNA é essencial para a fidelidade na síntese proteica. A discriminação entre dois substratos enzimáticos muito semelhantes tem sido estudada em detalhe no caso da Ile-tRNA sintetase, capaz de distinguir entre valina e isoleucina, aminoácidos que diferem apenas num grupo metil (-CH2-). DIRECÇÃO DA SÍNTESE PROTEICA A síntese proteica inicia-se no terminal amínico e processa-se pela adição de aminoácidos até ao terminal carboxílico tal como determinado por Howard Dintzins em 1961. Ele elaborou uma experiência onde reticulócitos que transcrevem activamente hemoglobina eram incubados num meio com leucina radioactiva. Amostras de cadeias α completas foram isoladas dos reticulócitos a vários intervalos de tempo e a sua radioactividade determinada. As zonas a vermelho forte mostram as porções das cadeias completas da α-globina que contêm resíduos de Leu radioactivos. Após 4 minutos apenas alguns resíduos do terminal carboxílico se encontravam marcados sendo que o resto da cadeia possuía resíduos normais de Leu. Com tempos de incubação mais longo, havia sucessivamente mais porção das cadeias marcadas com radioactividade, sempre num bloco a partir da extremidade COOH. Assim a extremidade não rotulada, o terminal amínico, era de facto a extremidade iniciadora, o que significa que o polipéptido cresce por adições sucessivas de aminoácidos ao terminal carboxílico. INICIAÇÃO DA TRADUÇÃO A tradução nos procariotas tem inicio na sequência de Shine-Delgarno, esta localiza-se no mRNA a montante do codão de iniciação, a sequência é bastante conservada e surge na extremidade 5’ esta a porção do mRNA localizada antes do codão de iniciação é chamada de porção 5’UTR, a porção do mRNA para além do codão STOP é chamado a porção 3’UTR. A sequência Shine-Delgarno é complementar de uma sequência do rRNA 16S à qual se liga inicialmente. Em eucariotas as modificações sofridas durante a maturação do mRNA, como a cauda de poli(A) ou o 5’cap com a Guanina metilada são essenciais para que ocorra a ligação deste à subunidade 40S do ribossoma, dado que estes não possuem sequência Shine-Delgarno. 102 Em eucariótas a ligação do mRNA faz-se por interacção com as extremidades deste e varias proteínas como a eIF4E que se liga a extremidade 5’ do mRNA e a PAB que liga a cauda de poli(A). A proteína eIF4G faz a ligação entre a eIF4E e a PAB, permitindo a ligação do mRNA à subunidade pequena do ribossoma, outras são as proteínas que também intervêm como a eIF3 ou a eIF4F. A eficiência na tradução varia com vários aspectos desde o complexo até às modificações do mRNA como a cauda de poli(A) que, geralmente, quanto maior melhor. Nos procariotas a sequência Shine-Delgarno tem uma distância tal no mRNA que faz com que o codão de iniciação fique logo posicionado para que se dê o inicio da tradução. Contudo os eucariotasnão possuem esta sequência e o posicionamento faz-se por scanning do mRNA até encontrar o primeiro codão AUG, pensa-se que este scanning seja promovido pelo complexo eIF4e que liga a extremidade 5’. Em eucariotas existe ainda a sequência de Kozak (sequência AAC antes do codão de iniciação e um C imediatamente após) que facilita a localização do codão de iniciação pelo ribossoma facilitando com isto a tradução. Esta sequência não é obrigatória mas facilita a síntese. Ao contrario da ligação do mRNA a síntese proteica em eucariotas e procariotas é muito semelhante. Os ribossomas possuem dois locais distintos, Local A zona do ribossoma onde se encontra o codão a ser traduzido e no qual se dá a ligação dos tRNAs, e o Local P que é a zona onde se encontra o polipéptido em crescimento. Quando o mRNA se liga ao ribossoma o codão de iniciação fica localizado na zona P, e o tRNA para a metionina inicial liga-se nesta posição (é o único caso em que isto acontece). Existem duas proteínas muito importantes no início da tradução, a IF3 e IF1, a IF3 liga-se à subunidade pequena do ribossoma e impede que a subunidade se ligue a esta, porque antes de se formar um ribossoma funcional o tRNA cujo anticodão é complementar de AUG é ligado. O codão AUG codifica sempre parara metionina, contudo existem dois tRNAs para esta com o anticodão CAU, isto porque um desses tRNAs é especifico para a primeira metionina a ser inserida no inicio da tradução enquanto que o outro tRNA transporta a Met que serão inseridas noutras partes da cadeia. A molécula de tRNA iniciadora é transportada pela IF2 que liga GTP e que direcciona o tRNA ao codão AUG. A hidrolise de GTP promovida pela IF2 faz com que IF1 e IF3 se desliguem a subunidade pequena e que ela própria se desligue do tRNA ligado ao codão de iniciação. Esta dissociação permite a formação do ribossoma funcional por ligação da subunidade maior, e com este surge também o local E (Exit) por onde saem as moléculas de tRNA já utilizados e sem aminoácidos ligados. Inicia-se agora a segunda fase da tradução: o Alongamento. É necessário agora que já temos a metionina iniciadora que se liguem mais tRNAs com os restantes aminoácidos, essa ligação faz-se por complementaridade entre o codão no Local A e o anticodão do tRNA complementar. O transporte dos outros tRNAs todos é promovido pelo factor de alongamento TU (EF-TU), estas são proteínas procarióticas, mas como nos eucariotas esta fase é semelhante limitar-nos-emos ao estudo dos 103 procariotas. Tal como a IF2 também a EF-TU necessita da hidrólize de GTP para promover o transporte de tRNAs, depois da hidrólise, ela deixa de ligar tRNAs e tem de ser regenerada (troca de GDP por GTP), esta regeneração é facultada por outros factores de alongamento, as proteínas T (EF-TS). No final surgem dois aminoácidos lado a lado no ribossoma associados aos seus tRNAs pelo grupo COOH, para que se forme a ligação peptídica, o grupo NH3 do aminoácido na posição A liga-se ao grupo COOH do aminoácido na posição P (ataque nucleofílico), e o aminoácido na posição P fica “por cima” do aminoácidos da posição A, esta reacção é catalizada pelo ribossoma, mais propriamente pelo rRNA. Para que se possa continuar a síntese é necessário desocupar a posição A para ser ocupada por outro tRNA transportado pela EF-TU que entretanto já se renovou. Isto implica que haja uma translocação do ribossoma em relação ao mRNA, este movimento é da responsabilidade do EF-G que também promove a hidrólize de GTP. Depois da translocação o local A fica livre, há transporte do tRNA e tudo recomeça. O processo continua até que na posição A surja um codão STOP, que n realidade funciona como tal porque não existem tRNAs com anticodões complementares para este. Deste modo algumas proteínas (proteínas RF – Releasing Factors) vão-se ligar aos codões STOP e hidrolizam a ligação entre a proteína e o tRNA do ultimo aminoácido; por outro lado o mRNA desliga-se do ribossoma, e este dissocia-se nas duas subunidades que o compõem. A síntese proteica decorre no sentido NH3 COOH, o terminal NH3 corresponde à metionina, mas depois pode ser removida. Em bactérias a subunidade 50S (grande) possui rRNA do tipo 5S e 23S; é a 23S que é responsável pela formação da ligação peptídica (ataque nucleofílico). O Ribossoma é por isso uma ribozima, e as proteínas do ribossoma asseguram a localização correcta das moléculas que intervêm no processo. 104 CUSTO ENERGÉTICO DA TRADUÇÃO A síntese proteica é um processo que consome muita energia. A ligação do aminoácido ao tRNA implica gasto de ATP no processo de activação, é portanto necessário uma molécula de ATP por cada aminoácido ligado. Depois por cada aminoácido que se ligue ao péptido em síntese gasta-se uma molécula de GTP (gasto no transporte do aminoácido), além destes dois processos também há gasto de energia por hidrólize de GTP cada vez que o ribossoma se desloca no mRNA (translocação). O ribossoma não possui muitos mecanismos revisores da síntese proteica , no entanto quando a TU transporta o tRNA, a ligação peptídica acontece apenas após a hidrólise de GTP, é um processo que leva tempo e que permite a dissociação do tRNA caso não seja complementar do codão mRNA. Isto garante alguma fidelidade na síntese proteica, porque neste intervalo de tempo os tRNA mal emparelhados podem sempre dissociar-se. READING FRAMES Uma molécula de mRNA pode ser lida de 3 maneiras diferentes, consoante a pauta de leitura formam-se proteínas diferentes, o que determina qual a pauta de leitura é o codão de iniciação, os ORF (open reading frames) são as pautas de leituras lidas a partir do codão de iniciação. mRNA PROCARIOTA POLICISTRÓNICO Nos procariotas existem conjuntos de genes que são regulados conjuntamente sob a influência de um único promotor (operões já estudados), surge assim, aquando da transcrição destes genes, uma molécula de mRNA policistrónica codificante de várias proteínas; nos eucariotas o mRNA é monocistrónico codificando apenas uma proteína. Por isso, para que o DNA policistrónico seja usado na tradução é necessário que a montante de cada zona codificante exista uma sequência de Shine-Delgarno para cada uma das proteínas codificantes. Isto é, se o mRNA codificar para 3 proteínas então ele liga-se simultaneamente de três maneiras diferentes a três ribossomas. Mas isto apenas é possível em procariotas dado que a ligação dos ribossomas se dá por reconhecimento de uma sequência no meio da cadeia de mRNA, nos eucariótas tal já não é possível visto que a ligação do mRNA ao ribossoma se faz por reconhecimento das duas extremidades formando uma espécie de circulo que começa a ser lido pela extremidade 5’, pelo que só permite o reconhecimento de um codão de iniciação, o que é incompatível com o mRNA policistrónico. Contudo um mRNA eucariota pode ser lido simultaneamente por vários ribossomas já que um deles reconhece os locais e depois desliza sobre o mRNA deixando as extremidades livres para novo reconhecimento. A este sistema chamam-se polissomas vários ribossomas envolvidos na tradução de uma molécula de mRNA ao mesmo tempo. Nos procariotas a transcrição e tradução estão muitas vezes acopladas, devido a ausência de núcleo; um mRNA que é produzido pode ser logo usado na tradução, porque é transcrito no sentido 5’ 3’ deixando logo livre a extremidade 5’ para a tradução. A maior parte dos antibióticos o que fazem é inibir a síntese proteica procariótica não afectando por isso os organismos eucarióticos, dado às diferenças no inicio de cada uma, à diferença significativa entre os ribossomas eucarióticos e procarióticos e factores de iniciação. Por exemplo a Puromicina termina precocemente a síntese proteica, 105 pois possui uma estrutura semelhante ao terminal 3’ do aminoacil-tRNA, simulando um tRNA com um ligando (simula o grupo NH3 do aminoácido). Assim a Puromicina vai-se ligar à posição A do ribossoma,dando-se um ataque nucleofílico desta ao COOH do aminoácido na posição P. eventualmente a Puromicina desliga-se do local A formando-se uma proteína incompleta com Puromicina na extremidade. MODIFICAÇÕES PÓS-TRADUCIONAIS Após a tradução as proteínas sofrem modificações de modo a se tornarem funcionais, muitas destas ocorrem no RE. Uma das modificações que elas sofrem é o correcto enrolamento da proteína de forma a obterem a estrutura terciária / conformação funcional, esta estrutura vai ser mantida por interacções entre os grupos laterais dos aminoácidos. Assim a estrutura terciária depende essencialmente da estrutura primária (ou seja da sequência de aminoácidos), no entanto a maior parte das proteínas necessita de ajuda de outras proteínas para adquirir a estrutura terciária, estas proteínas auxiliares chamam-se Chaperons. As chaperonas estabilizam proteínas que ainda não adquiriram estrutura terciária, é um processo que depende de ATP e no fim da aquisição da estrutura, as chaperonas libertam-se, muitas destas proteínas (chaperonas) são chamadas de Heat Shock Proteins (Hsp). Nalguns casos a estabilização parcial da estrutura é suficiente para que esta, depois, se enrole correctamente, mas noutros casos é necessário que se promova o enrolamento total e nestes casos surge um outro tipo de chaperonas – as Chaperoninas – que formam uma estrutura em barril no interior da qual se ocorre o enrolamento da proteína (ex: actina). Isto porque no interior há condições “ambientais” que facilitam o processo, é também um processo dependente de ATP. Existem chaperonas no citoplasma e outras (diferentes) no RE, assim uma proteína do retículo à qual foi retirado a sequência sinal e portanto seja sintetizada no citoplasma não vai ser correctamente enrolada e portanto não vai ser funcional, porque n existem no citoplasma as chaperonas correctas que promovam o enrolamento funcional desta proteína. 106 GLICOSILAÇÃO DE PROTEÍNAS Ocorre em proteínas da membrana e extracelulares que são produzidas no RE, a função destes açucares é o reconhecimento entre células, o enrolamento das proteínas e o endereçamento (algumas proteínas têm o seu destino marcado devido à adição de açucares como as proteínas dos lisossomas. Existem dois tipos de glicosilação: N- Glicosilação (surge no primeiro aminoácido de Aspargina), ocorre no RE, e acontece quando temos uma sequência do tipo: Asn – X- Ser ou Asn – X – Thr, é o tipo de glicosilação mais comum e é promovido por uma enzima do retículo. Geralmente encontra-se ligado a esta o açúcar N-acetil glucosamina, no retículo encontra-se também muito o açúcar manose pelo que às enzimas glicosiladas é-lhes frequentemente adicionado este açúcar que depois sofre modificações no Complexo de Golgi, transformando a Manose em glicose ou outros. Assim a N-Glicosilação começa no RE mas só termina no Complexo de Golgi. O outro tipo de glicosilação é O-glicosilação que liga os açucares ao grupo OH da primeira Serina; o açúcar é normalmente a N-acetil galactosamina, esta adição ocorre sempre e apenas no Complexo de Golgi. No citoplasma as proteínas nunca são glicosiladas porque a enzima responsável por esta transferência é exclusiva do lúmen do retículo, se por acaso se tratar de uma proteína que se destine à membrana do RE então a glicosilação só pode ocorrer na face intraluminal. ADIÇÃO DE LÍPIDOS Pode ocorrer em proteínas citoplasmáticas, a principal função desta adição poderá ser anexar as proteínas à membrana plasmática, sem que tenham um domínio transmembranar, permitindo a ligação à membrana pelo interior. O aminoácido normalmente envolvido nesta ligação é a Cys, que tem um grupo SH, que pode estar no terminal COOH. Existem três formas de adição directa de lípidos às proteínas: Palmovil, Miristil e Prenil. Estas adições variam de acordo com o grupo lipídico adicionado, mas são todas elas intramembranares . Contudo também existem proteínas extracelulares com modificações lipídicas. Estes lípidos são adicionados no RE (normalmente há adição de fosfatidilinositol que se encontra ligado à poteína por um açúcar (Gal, Nac, e 107 Manose), deste modo estas proteínas sofrem dois tipos de modificações diferentes. Assim a glicosilação ocorre no sistema endomembranoso e a adição de lípidos ocorre tanto em proteínas citoplasmáticas como do sistema endomembranoso. Estas proteínas são chamadas âncoras de GPI (Glucosil-FosfatidilInositol). A glicosilação ou a adição de lípidos são dois tipos diferentes de modificações irreversíveis mas também ocorrem modificações reversíveis, estas são de facto até mais frequentes, destas a mais frequente é a fosforilação, que tem um papel regulador da actividade proteica ao contrário das modificações anteriores que têm uma função mais estrutural. A fosforilação dá-se por adição de grupos fosfato, o fosfato no entanto não pode ser adicionado a qualquer aminoácido, só podendo ser, por isso, ligado a grupos OH em cadeias laterais de resíduos de aminoácidos de Serina, Treonina e Tirosina. A fosforilação é promovida por cinases de serina e treonina e a desfosforilação é feita por fosfatases de Serina/Treonina. A fosforilação altera a função de uma proteína pois pode ser que com a adição de cargas negativas a um aminoácido neutro a proteína altere (aumente ou diminua) a sua actividade ou altere capacidade de interacção com outras proteínas. Para a tirosina também surgem cinases e fosfatases, isto porque a serina e a treonina são muito semelhantes e por isso pode haver uma classe de enzima para ambas, mas o mesmo já não se pode dizer para a tirosina (embora existam alguns tipos de proteínas capazes de fosforilar os 3 aminoácidos). De notar que nem todas as proteínas são susceptíveis à fosforilação. Por exemplo a cinase A (PKA)é uma enzima cinase ubíqua, sendo activada na presença de elevadas concentrações de cAMP (mensageiro intracelular). Esta cinase é tetramérica, possuindo subunidades catalíticas e reguladoras; na presença de cAMP, ele liga-se às subunidades reguladoras, promovendo a dissociação e activação das subunidades catalíticas. Existem muitas enzimas substrato da PKA: glicogénio sintetase, fosforilase b cinase, histonas, fosfatases… Podemos estabelecer a sequência consenso da fosforilação da PKA: surgem aminoácidos básicos (Arg e Lis) perto da Serina e Treonina, tornando-se a proteína um bom substrato. Sabendo esta sequência podemos prever locais de fosforilação. Existem outras cinase s cujo requerimento a nível da sequência consenso é completamente diferente. 108 TEMPO DE VIDA DAS PROTEÍNAS Existem proteínas com tempo de vida muito curtos (minutos) e outras com tempo de vida muito elevados (dias). Sabe-se que o aminoácido no terminal NH3 está directamente associado com o tempo de vida, mas não se sabe bem como. A Met, Gly, Ala, Ser, Thr e valina são aminoácidos estabilizadores conferindo uma maior longevidade à proteína. A maioria dos outros(Ile, Gln, Tyr, Glu, Pró, Leu, Phe, Asp, Lys e Arg) são destabilizadores. A degradação das proteínas pode ocorrer nos lisossomas sobretudo para as proteínas membranares e dos sistema endomembranoso que são proteínas com tempos de vida longo, mas não é um processo regulado. Existe um outro processo mais regulado. A degradação de proteínas nos proteossomas, que são conjuntos de proteínas (proteases) organizados num complexo; as proteínas que são aí degradadas possuem um sinal que as marca para a destruição, esse sinal é a Ubiquitina ligada. A ubiquitina é uma proteína de 76 aminoácidos que se liga às proteínas marcando-as para a degradação no proteossoma. A ligação desta à proteína faz-se sempre através de uma Lys presente na sequência da proteína a degradar. Existem três famílias de proteínas envolvidas na ubiquitinação E1, E2 e E3. A família E1 liga-se à Ubiquitina (enzima activadora da ubiquitina), depois há transferência para E2 e depois para E3que transfere a ubiquitina da E2 para a proteína alvo. Existem vários ciclos de ubiquitinação, já que as proteínas a serem degradadas no proteossoma têm que ter 4 ubiquitinas ligadas (poliubiquitinação). No processo a proteína alvo entra no proteossoma e dá-se a degradação da proteína com reciclagem da ubiquitina. Isto permite regular o tempo de vida, como por exemplo a passagem das etapas no ciclo celular depende da ubiquitinação das proteínas (proteínas associadas; quando se dissociam pode ser exposto um local susceptível à ubiquitinação). Ainda não é conhecida nenhuma sequência de aminoácidos que determina a ubiquitinação como ocorria com a fosforilação. 109 BIBLIOTECA DE cDNA Até agora sempre que se falou de técnicas de Biologia Molecular partiu-se do principio que já se conhecia a sequência do gene a utilizar. Mas e se pretendermos estudar um gene ou porção dele que ainda n tenha sido estudado e por isso se desconheça a sua sequência? Como se procura e encontra o cDNA codificante de proteínas de interesse cujos genes ainda não são conhecidos? Hoje e cada vez mais com a sequênciação do genoma de tantos organismos diferentes torna-se cada vez menos frequente esta prática. De facto hoje a primeira coisa a fazer-se é uma pesquisa da sequência do gene ou do cDNA numa base de dados disponível na Internet. Para a replicação do gene necessitamos não do gene em si mas da sequência de DNA complementar do mRNA (cDNA) que codifica a proteína em estudo. O cDNA difere do gene porque não possui intrões. É importante conhecer o gene que dá origem a uma proteína para sabermos como é a expressão desta e como pode ser controlada, mas quando se quer apenas expressar uma proteína (por clonagem, p.e.) convém ter o gene sem intrões, ou seja o cDNA. Assim, se se quer produzir cDNA a partir do mRNA presente num determinado tipo de células é necessário escolher uma população de células onde o mRNA pretendido exista com alguma abundância. Não podemos pegar uma célula qualquer do corpo do organismo. Uma biblioteca de cDNA é um conjunto de clones representativo de todo o mRNA de um conjunto de células, a dada altura do desenvolvimento. E para o desenrolar deste processo parte-se do conjunto de moléculas de cDNA correspondentes a todas as células de mRNA presentes neste tecido numa dada altura, criam-se todas estas moléculas de cDNA a partir de transcrição reversa. Assim a construção de uma biblioteca envolve os seguintes passos: Construção e Rastreio Construção: • Extracção do RNA total (Tecido – ter em atenção qual) • Isolamento do mRNA • Síntese do cDNA em cadeia dupla • Ligação a um vector (bacteriófago l) • Infecção de células hospedeiras (E. coli) Deste modo começa-se por se isolar o RNA total da célula e depois extrai-se o mRNA do RNA total, por cromatografia de afinidade que tira partido da cauda de poli(A) para distinguir entre mRNA e os outros tipos de RNA. Colocando oligonucleótidos com sequência de timinas na matriz da coluna de cromatografia, este liga a cauda de poli(A) e deixa todos os outros RNAs passar, ficando do o mRNA retido. Depois para desligar o mRNA da resina da coluna da cauda de poli(A) aumenta-se o pH na coluna por utilização de uma solução com muito sal. Depois de isolar os mRNA presentes nas células é necessário por transcrição reversa transformar estes em cDNA de modo a poder utilizá-los na biblioteca. Para isso pode-se novamente tirar partido da cauda de poli(A) e usar como primer um oligonucleótido de timina, não esquecer que as transcriptases são DNA polimerases e por isso necessitam de um primer. Assim ficamos com uma cadeia de DNA em cadeia simples híbrida com uma molécula de RNA. Mas como a ligação do cDNA a um vector tem de ser feito com uma cadeia de DNA de dupla hélice temos de destruir a cadeia de RNA. Podemos fazê-lo pelo uso de RNAses ou de alkali, que corta a cadeia de RNA e apenas a cadeia de RNA em pequenos fragmentos, que se vão desligar da cadeia de DNA. Estes pequenos fragmentos vão ser úteis porque podem depois ser usados como primers na amplificação deste fragmento. Assim fazemos PCR para ampliar esta cadeia, mas usamos DNA polimerase I de modo a garantir que depois da síntese os oligonucleótidos de RNA são retirados. 110 É contudo necessário depois ligar estes cDNA a sequências de restrição de modo a poder ligá-los a vectores de clonagem. Então é necessário ligar sequências de restrição em ambas as extremidades do nosso cDNA, isto consegue-se usando cadeias duplas contendo a sequência de restrição e DNA ligase do bacteriófago T4 que é capaz de juntar cadeias de DNA em dupla hélice “blunt-ended”. Embora este tipo de reacção não seja muito eficaz nós podemos aumentar a sua eficiência usando uma elevada concentração de ligandos. As cadeias resultantes são então tratadas com uma enzima de restrição dando origem a moléculas de cDNA com sticky ends. O passo final da construção da biblioteca é a ligação destes pedaços de cDNA ao vector de clonagem (plasmídeo ou vector viral) que já foi anteriormente tratado com a mesma enzima de restrição e portanto possui sticky ends complementares. O uso de bacteriófagos como vectores de clonagem torna esta técnica mais eficiente do que o uso de plasmídeos. Por isso usamos o bacteriófago λ ao qual ligamos o nosso cDNA, inserindo-o por complementaridade dos sticky ends do cDNA a clonar e o genoma do vírus. Depois de se ligar o cDNA ao DNA viral há que se construir um vírus eficiente para que possa infectar as bactérias. Para isso adiciona-se num tubo de ensaio o DNA viral modificado e as proteínas que compõem a cápsula viral e elas organizam- se automaticamente para formar a cápsula. No final juntamos estes vírus funcionais a uma caixa de petri com bactérias em cultura. Estas vão ser infectadas pelos vírus e vão-se replicar juntamente com os vírus, formando colónias de bactérias infectadas de vírus (cada bactéria só é infectada por um vírus, e devido a elevada eficiência destes mais de 90% dos vírus infectam pelo menos uma célula). Mais tarde, devido ao elevado número de vírus (produzidos por ciclo lítico) dentro das células, elas rebentam e espalham os vírus, as zonas da colónia rebentada chamam-se placas fágicas. 111 O ciclo lítico de um vírus consiste na produção de mais cópias de si mesmo, isto é possível porque o genoma viral natural, assim coo o utilizado, têm sequências que codificam proteínas para a cabeça e cauda do invólucro do vírus. O vírus quando infecta bactérias pode integrar o seu genoma no genoma hospedeiro e reproduzir-se com a bactéria (ciclo lisogénico) ou então pode tirar partido da maquinaria celular e começar a produzir várias cópias de si mesmo, (replicar, transcrever e traduzir o seu genoma) – ciclo lítico – o elevado número de cópias geradas por este processo acabam por rebentar com a célula. Assim dado que cada bactéria é apenas infectada por um vírus, criam-se placas fágicas (clones) resultantes de apenas uma bactéria mãe, ou seja temos numa placa fágica varias cópias de um cDNA inserido. E em cada placa fágica existe um cDNA diferente pois derivam de vírus diferentes com diferentes cDNAs introduzidos. Mas agora temos uma mistura de vírus, DNA viral e cDNA para várias proteínas, como fazemos o rastreio? Primeiro o que temos de fazer é transferir uma amostra de todas as placas fágicas para uma membrana, de modo a podermos manipulá-las sem danificar toda a placa. Assim coloca-se um filtro de nitrocelulose a cobrir as placas fágicas, e parte destas vai ser transferido para a membrana; a partir daqui trabalharemos sempre com esta membrana. De seguida pegamos na membrana a incubamo-la numa solução alcalina de forma a provocar a lise de todos os vírus e libertar o seu material genético. Depois de extraído, a membrana é incubada a altas temperaturas de forma a desnaturar as cadeias de DNA em dupla hélice e é hibridizada com uma sonda marcadacom fosfato radioactivo ou com fluorescência. Esta sonda possui uma sequência complementar a uma zona do cDNA a detectar, por isso ela apenas se vai ligar ao nosso DNA, deste modo através da técnica de autoradiografia podemos detectar qual a zona marcada radioactivamente na membrana de celulose, e por correspondência sabemos qual a placa fágica que possui o cDNA que nos interessa. Agora podemos ir buscar o nosso cDNA directamente à placa e utilizá-lo para os mais diversos fins. Mas se um dos objectivos desta técnica é descobrir qual a sequência de DNA que dá origem a uma proteína como construímos nós uma sonda complementar? É possível produzir uma sonda complementar se se conhecer uma sequência parcial do nosso cDNA, nesse caso sintetizamos um oligonucleótido complementar, caso não se conheça nenhuma sequência parcial podemos sempre tirar partido de informações anteriores, caso seja cDNA codificante para um factor de transcrição ou uma proteína de determinada família que possua uma região conservada, podemos tirar partido disto e construir uma sonda complementar a esta zona conservada. Imaginando que se trata de uma proteína bastante conhecida em outros organismos como a actina, se estivermos a estudar a actina de Capivara podemos sempre fazer uma sonda partindo da sequência conhecida de actina de ratinho porque elas não hão-de variar muito. 112 Caso não se tenha qualquer destes conhecimentos, a hipótese que nos resta é sequênciar a proteína em estudo e tentar criar uma sonda tendo como base a sequência da proteína. Temos, no entanto, de ter vários aspectos em atenção: o código genético é degenerado pelo que um aminoácido pode ter sido originado a partir de vários codões e não sabemos ao certo qual deles foi. Por isso escolhemos uma zona em que a variabilidade de codões possível seja menor. E é também conveniente ter em conta a frequência de codões utilizado por aquela espécie. Se à partida já sabemos que em 80% dos casos a Capivara utiliza o codão CCA para codificar Prolina então usamos esse mesmo codão na nossa sonda pois é mais provável que seja esse o correcto. No caso de construirmos a sonda através da sequência de aminoácidos da proteína temos muitas vezes de construir mais de uma sonda devido às várias possibilidades de sequências do cDNA. Por isso também convém escolher um local e uma sequência que não seja muito variável, pois isso iria dar mais trabalho e dispêndio de dinheiro, assim como podia não ser específico. Depois de sintetizar a sonda e de a marcar radioactivamente podemos utilizá-la como descrito anteriormente. Em mais pormenor: SEQUÊNCIAÇÃO DE GENES Depois de localizados os vírus que contêm o cDNA que nos interessa vamos isolar o cDNA e sequenciá- lo de modo a podermos obter a sequência de aminoácidos (caso ainda n se conheça) e a identidade da proteínas, ou apenas para saber a sequência de nucleótidos a fim de podermos utilizar esta informação em trabalhos posteriores como clonagem ou organismos transgénicos. O método mais utilizado nesta sequênciação é o método de Sanger. Este faz uso de um primer (convém saber qualquer coisa sobre o fragmento a sequênciar, ou então caso se faça esta técnica com o uso de vírus também podemos utilizar um primer complementar de ao DNA viral na zona de inserção do cDNA), e de ddNTPs marcados. Fazem-se 4 reacções em tubos de ensaio diferentes, onde se coloca o DNA, DNA polimerase e dNTPs normais, contudo também se adicionam dNTPs modificados, ou seja ddNTPs. Estes possuem uma alteração no grupo OH 3’, que é substituído por um H (pára a transcrição), e encontram-se marcados com fluorescência. Assim no primeiro tubo coloca-se para além dos 3 componentes principais (DNA, DNA polimerase e dNTPs) coloca-se também ddGTP, deste modo, dado que este não possui o grupo 3’OH, a transcrição pára quando este é adicionado. Nos outros tubos adiciona- se o mesmo mas e em cada um deles um ddNTP diferente. 113 Assim a cada adição de um ddNTP a transcrição pára, o que se passa no 1º tubo é ilustrado na figura ao lado, a cada adição de G modificada a transcrição pára e assim formam-se várias moléculas de vários comprimentos. A presença de G não modificadas em maior quantidade permite que estas também sejam adicionadas e deste modo a transcrição não parar sempre no primeiro nucleótido de G. Com isto vão haver cadeias que pararam a sua síntese na 1ª G, outras que interromperam na 2ª, e assim sucessivamente até há aquelas que foram até ao final sem serem travadas. Depois das várias cadeias serem sintetizadas corre-se em electroforese por tamanho molecular, as moléculas mais pequenas (aquelas que foram travadas no inicio) correm mais no gel porque são mais pequenas, enquanto as maiores correm menos porque são maiores e não passam tão bem nos poros. Assim a cadeia que se deslocar mais será aquela que parou logo no primeiro nucleótido a seguir ao primer a que estiver imediatamente acima desta terá parado a sua síntese, muito provavelmente, no segundo nucleótido e assim sucessivamente, como mostra a figura. Neste caso foram feitas 4 reacções diferentes para cada um dos nucleótidos diferentes em quatro tubos separados e correram-se em diferentes poços na electroforese. Nestes casos é mais comum marcar os ddNTPs radioactivamente do que com marcadores fluorescentes, a leitura faz-se da mesma maneira – consoante a posição relativa de cada banda no gel. Podemos por vezes encontrar bandas mais intensas que outras, isso depende do número de cadeias que foram travadas naquela posição. Atenção para fazer a separação de fragmentos de DNA que variam tão pouco (diferenças de 1 nucleótido por vezes) tem de se usar um gel de poliacrilamida. Notar que esta técnica tem de ser feito com o DNA em cadeia simples, ou seja, depois de sintetizar as cadeias é necessário submetê- las primeiro a um processo desnaturante. Mas e se o que queremos sequênciar é um fragmento muito grande? E se as diferenças entre as bandas forem tão pequenas que não sejam fáceis de distinguir qual está primeiro e qual está depois? Para isso usa-se sequênciação automática, e marcam-se os ddNTPs com fluorescência (neste caso n pode ser por radioactividade), mas pode-se fazer ocorrer todas as reacções no mesmo tubo se ensaio juntando todos os ddNTPs. Após a síntese estar completa desnaturam-se as moléculas e procede-se uma electroforese capilar que tem muito mais sensibilidade para as diferenças no tamanho das moléculas, além disso utilizam-se leitores a lazer que detectam com tamanha precisão variações na absorvância (cor) das bandas e possibilitam uma leitura mais eficiente - electrofluorograma. Onde cada pico corresponde a um nucleótido, o tamanho dos picos variam com a concentração de moléculas daquele tamanho. A leitura faz-se da esquerda(5’) para a direita (3’). 114 BIBLIOTECA GENÓMICA No caso de se pretender obter o gene tal e qual ele existe no núcleo, com intrões, exões e promotores, não podemos fazer uma biblioteca de cDNA, em vez disso temos de fazer uma biblioteca genómica – conjunto de clones representativo de todos os genes de um organismo. A construção de uma biblioteca genómica é bastante semelhante à construção de uma biblioteca de cDNA, também esta é composta por duas partes principais: Construção e Rastreio. Construção: • Extracção do DNA • Digestão parcial com uma enzima de restrição • Ligação a um vector (bacteriófago l) • Infecção de células hospedeiras (E. coli) A extracção do DNA processa-se de maneira diferente, pois n interessa qual o tipo celular que utilizamos dado que o que queremos é o genoma completo e esse está presente em todas as células. Para extrair os genes o que temos de fazer é clivar todo o genoma com enzimas de restrição de modo a obter fragmentos pequenos que vão ser ligados a vectores e infectar as células hospedeiras. A estratégia de clonagem é igual em ambas as bibliotecas, clivagem, ligação ao DNA viral, construçãorastos de DNA que revelavam que o cromossoma de E. coli era uma grande molécula circular. DNA radioactivo isolado a partir de células em replicação mostravam ainda um loop extra. Cairns concluiu que o loop resultava da formação de duas cadeias de DNA filhas radioactivas, cada uma delas complementar a uma cadeia parental. Um, ou os dois, dos extremos dos loops eram pontos dinâmicos – chamados garfos de replicação, onde as cadeias de DNA parental estavam a ser separadas e rapidamente replicadas. Os resultados de Cairns demonstraram que ambas as cadeias de DNA se replicavam simultaneamente, e uma 12 variância na sua experiência demonstra que mostra que a replicação do cromossoma bacteriano é bidireccional: ambos os extremos do loop têm garfos de replicação activos. Para determinar se a replicação tinha origem num único ponto no DNA foram necessários marcos ao longo da molécula. Isto foi providenciado por uma técnica chamada mapeamento de desnaturação (denaturation mapping), desenvolvida por Ross Inman e seus colegas. Usando um cromossoma de um vírus (bacteriófago) eles mostraram que a molécula podia ser selectivamente desnaturada numa sequência rica em pares de base A=T, gerando um padrão reproduzível de bolhas de cadeia simples. DNA isolado contendo loops de replicação pode ser parcialmente desnaturado da mesma maneira. Isto permite o posicionamento e o progresso do garfo de replicação de forma a ser medido e mapeado, usando as regiões desnaturadas como ponto de referência. A técnica revelou que neste sistema os loops de replicação iniciam-se sempre no mesmo ponto, o qual foi chamado de origem. Isto também veio confirmar a anterior observação que a replicação é bidireccional. Para moléculas circulares, os dois garfos de replicação encontram-se num ponto oposto ao da origem. Origens específicas têm então sido identificadas e caracterizadas em bactérias e eucariótas inferiores. NUCLEASES Para entender a enzimologia da replicação do DNA, é necessário primeiro introduzir as enzimas que degradam o DNA em vez daquelas que o sintetizam. Estas enzimas são conhecidas como nucleases, ou DNases para o caso de serem específicas para o DNA e não actuem para o RNA. Todas as células contêm vários tipos de nucleases que pertencem a duas grandes classes: exonucleases e endonucleases. As Exonucleases degradam os ácidos nucleicos a partir da extremidade da molécula. Muitas operam apenas na direcção 5’ 3’ ou 3’ 5’, removendo nucleótidos apenas da extremidade 5’ ou 3’, respectivamente, de uma cadeia simples ou dupla. As Endonucleases conseguem começar a degradar em específicos locais internos da molécula, reduzindo-a a pequenos fragmentos. Algumas exonucleases e endonucleases degradam apenas cadeias simples de DNA. existem algumas classes importantes de endonucleases que clivam apenas sequências específicas de nucleótidos (tais como as enzimas de restrição, muito importantes na biotecnologia). DNA POLIMERASE A habilidade do DNA servir como molde para a sua própria replicação foi posteriormente estabelecida com a demonstração de que uma enzima purificada de E. coli (DNA polimerase) conseguia catalizar a replicação de DNA in vitro. Na presença de DNA que servisse como molde esta era capaz de, directamente, incorporar nucleótidos na cadeia de DNA complementar. Identificada por Arthur Kornberg em 1956, a habilidade desta enzima para, apuradamente, copiar uma cadeia de DNA providencia a base bioquímica para o modelo de replicação, que foi inicialmente proposto por Watson e Crick, assim o seu isolamento representa um marco na biologia molecular. Ironicamente, a primeira molécula de DNA polimerase a ser isolada (agora chamada DNA polimerase I) não é a principal enzima responsável pela 13 replicação em E. coli. Em vez disso é agora claro que tanto procariotas como eucariótas possuem vários tipos de DNA polimerases que desempenham papeis distintos na replicação e reparação de DNA. O fundamento de tal reacção é a transferência de grupos fosforilos. O nucleófilo é a extremidade 3’ do grupo hidroxilo do nucleótido na extremidade 3’ da cadeia crescente de DNA. Ataques nucleofílicos ocorrem na extremidade 5’ do fósforo α do desoxinucleósido a ser inserido. Pirofosfato (duas moléculas inorgânico é libertado durante esta reacção: onde dNMP e dNTP são desoxinucleósidos 5’ – monofosfatados e 5’ –trifosfatados, respectivamente. A reacção parece acontecer com uma mínima alteração na energia livres, visto que a ligação fosfodiéster é formada com o uso da energia libertada pela quebra dos grupos fosfatos. Trata-se de duas reacções coordenadas. Também as ligações não covalentes de emparelhamento de bases contribuem para estabelecer a cadeia de agora formada. Estudos em DNA polimerase I levaram à definição de dois requisitos centrais para as DNA polimerases: Primeiro, todas as DNA polimerase necessitam de um molde. A reacção de polimerização é guiada por uma cadeia de DNA molde de acordo com o emparelhamento de bases complementares. Todas elas sintetizam DNA unicamente na direcção 5’ 3’, adicionando dNTP ao grupo hidroxilico 3’ da cadeia crescente. Isto foi uma descoberta particularmente importante, não só porque providenciava uma base química para a exactidão da replicação semiconservativa mas também porque representava o primeiro exemplo do uso de moldes para guiar uma reacção de biosintética. Segundo, as polimerases necessitam de um primer. Um primer é um segmento de cadeia (complementar ao molde) com o grupo hidroxilo 3’ livre ao qual um nucleótido pode ser adicionado. Por outras palavras as DNA polimerase apenas conseguem adicionar desoxirribonucleótidos a uma cadeia “primer” (iniciadora) que se encontre já ligada por pontes de hidrogénio à cadeia molde; elas não são capazes de iniciar a síntese de DNA a partir do nada. A maioria dos primers são oligonucleótidos de RNA em vez de DNA, e enzimas especializadas (primases) sintetizam estes primers quando e onde eles são necessários. A este respeito, DNA polimerase difere da RNA polimerase, a qual consegue iniciar a síntese de uma nova cadeia de RNA na ausência de qualquer primer. Esta propriedade das DNA polimerases é critica para a alta-fidelidade na replicação necessária durante a divisão celular Após a adição de um nucleótido a uma cadeia crescente de DNA, a DNA polimerase ou se dissocia ou se move ao longo da cadeia molde e adiciona mais nucleótidos. A dissociação e reassociação da polimerase pode limitar a velocidade da polimerização – o processo é geralmente mais rápido quando a polimerização é contínua. A média do número de nucleótidos adicionados por uma polimerase antes desta se dissociar é definido pela sua processividade. As DNA polimerases variam bastante na sua processividade, algumas adicionam apenas alguns nucleótidos outras milhares, antes de se dissociarem. FIDELIDADE NA REPLICAÇÃO A replicação ocorre com um extraordinário grau de fidelidade. Em E. coli um erro é cometido apenas uma vez por cada 109 a 1010 nucleótidos inseridos. Para o cromossoma de E. coli de aproximadamente 4.6x106 pares de bases. Isto significa que ocorre um erro apenas por cada 1.000 a 10.000 replicações. Durante a polimerização a descriminação entre nucleótidos correctos e incorrectos reside não apenas nas pontes de hidrogénio que especificam o correcto emparelhamento mas também na geometria padrão dos pares de bases. O local activo da DNA polimerase I acomoda apenas pares de base com geometria padrão. Bases incorrectas podem ser rejeitadas após a ligação fosfodiéster estar formada. A exactidão da polimerização por si mesmo não é suficiente para justificar o elevado grau de fidelidade da replicação. Medições cuidadosas in vitro mostraram que a DNA polimerase insere um nucleótido incorrecto por cada 104 a 105 outros correctos. Estes erros por vezes ocorrem 14 porque as bases se encontram brevemente numa forma tautomérica (formas modificadas influenciadasdo vírus, infecção, construção de placas fágicas. De seguida temos de fazer o screening (rastreio) das placas para encontrar o genoma viral associado ao fragmento de DNA com o gene de interesse. O rastreio é igual ao rastreio de usado na construção de uma biblioteca de cDNA. A construção da sonda pode ser feita de igual maneira ou, caso já haja informação de qual o cDNA para a proteína codificada por este gene, podemos ainda tirar partido desta informação. Contudo a biblioteca não termina por aqui. É ainda necessário fazer-se um Southern blot de modo a identificar quais as porções importantes do nosso gene. SOUTHERN BLOT Consiste na análise de um genoma clivado em vários fragmentos por enzimas de restrição, nos quais queremos saber qual(ais) o(s) fragmento(s) que correspondem ao nosso gene – fragmentos aos quais a sonda se liga. Para isso clivamos o nosso genoma (no caso da biblioteca genómica, clivamos o fragmento presente na placa fágica com resultado positivo) e corremos em electroforese de modo a separá-los por peso molecular. De seguida transferimos o conteúdo do gel para uma membrana de nitrocelulose, esta tem afinidade para DNA pelo que os fragmentos passam facilmente do gel para a membrana formando-se uma réplica do gel. De seguida incuba-se a membrana com a sonda usada no rastreio, esta vai ligar-se a alguns fragmentos resultantes da segunda digestão por enzimas de restrição (início do Southern blot), esses fragmentos são os fragmentos que correspondem ao nosso gene, os fragmentos a que ela não se ligar são zonas exteriores ao gene. ATENÇÃO Durante a primeira clivagem com enzimas de restrição usa-se uma quantidade mínima destas enzimas de modo a que a digestão seja parcial (incompleta). Isto faz com que alguns cromossomas de umas células sejam cortados em pedaços mais pequenos e outros de outras células em pedaços maiores. Com isto o que nós podemos ter (e teremos) são fragmentos do gene que nos interessa de vários tamanhos, cada um deles proveniente de cromossomas de diferentes células que sofreram diferentes digestões. 115 Nós vamos tirar partido disto, porque após o primeiro Southern blot podemos não possuir a sequência total do gene (muito dificilmente obtemos isso logo à primeira). Assim pegamos na informação que o primeiro Southern blot nos dá, e construímos uma nova sonda para uma zona que não aquela que foi usada na primeira sonda. Com esta nova sonda voltamos a fazer um rastreio da biblioteca genómica (membrana e autoradiografia) provavelmente obtemos outras placas marcadas, e fazemos novo Southern blot. Isto repete- se até se possuir toda a sequência do gene. A este processo de percorrer o gene chama-se Chromosome Walking. Pegando e comparando a informação obtida por cada Southern blot conseguimos alinhar toda a sequência do gene. Para conhecer os exões e intrões basta comparar a sequência do gene com a do cDNA, ou então procurar as sequência típicas, presentes nos intrões, reconhecidas pelo spliciossoma. ANÁLISE DOS NÍVEIS DE EXPRESSÃO DE UMA PROTEÍNA Já sabemos que uma proteína está presente, qual o seu cDNA e até mesmo qual o gene que a codifica, mas e a quantidade desta? Será que ela é necessária em grande quantidade ou em pequena quantidade? Existem várias maneira de analisar os níveis de expressão de uma proteína, desde formas qualitativas até formas quantitativas. E esses estudos pode ser a nível da própria proteína ou por análise do mRNA que lhe dá origem. Uma das formas qualitativas de o fazer é por hibridização in situ por análise de um gene repórter, criando um organismo transgénico onde se associa o promotor dessa proteína (por isso é necessário conhecer o gene que a codifica e não apenas o cDNA) a um gene essencial à sobrevivência da célula, pelo que a produção da proteína repórter não vai ser prejudicial à célula e vai-nos ser útil pois o seu nível de expressão, ou o do seu mRNA vai ser igual ao da proteína em estudo. Podemos ainda aproveitar o facto de se conhecer a sequência do promotor para estudar em que zona se ligam os factores de transcrição (eliminando sequências deste), e analisando depois a expressão do gene repórter. O uso de genes repórteres é bom porque não interfere com o desenvolvimento do organismo. 116 Outro processo para analisar os níveis de expressão é por Northern blot, o processo é equivalente ao utilizado em Southern blot alterando apenas o início. Com Northern fazemos uma análise dos RNA em vez de DNA, a sonda é feita a partir de sequências de cDNA conhecidas. Assim vemos qual a quantidade de RNA marcado e tiramos conclusões. RT-PCR Mais um método indirecto para esta análise é por análise de PCR, em que cada as moléculas de RNA são ampliadas de acordo com a sua concentração inicial. Isto é, na célula as quantidades destes RNAs podem ser vestigiais e por isso não são detectadas, assim quando ampliadas elas vão ser ampliadas em proporção, assim conhecendo a expressão do RNA de uma proteína podemos comparar com a expressão da nossa proteína. No entanto esta técnica trás desvantagens como no caso das proteínas terem expressões muito semelhantes, a diferença entre as duas bandas pode não ser muito notória visto o PCR ter uma amplificação exponencial. Assim podemos fazer uma alteração a esta técnica (RT – PCR Real Time PCR) onde a quantidade de mRNA é medida ao fim de cada ciclo. Assim podemos ver qual a relação entre os dois. Este processa-se do seguinte modo: 1. Isolamento do mRNA; 2. Síntese do cDNA; 3. PCR usando primers específicos; 4. Quantidade do produto de PCR obtido reflecte níveis do mRNA para o transcrito amplificado; DNA MICROARRAYS O último meio de análise da expressão através da molécula de mRNA é o uso de microarrays. Esta técnica permite a análise global de mRNA num ou mais tecidos ao mesmo tempo, através de Chips de DNA (microarrays). Para fazer esta técnica prepara-se uma placa onde se depositam milhares de sondas (DNA complementar – um tipo de sonda por divisão) para todos os mRNAs. De seguida por transcrição reversa converte-se o mRNA celular em cDNA, durante esta transcrição marca-se o cDNA com fluróforos, que vai incubar a nossa placa. Estes cDNAs vão-se ligar as sondas lá inseridas, e vão manifestar a cor verde ou 117 vermelha caso ligue apenas cDNA proveniente de um dos tipos celulares, ou amarelo caso ligue cDNA proveniente de ambos os tecidos. Assim sabemos se determinado RNA é produzido unicamente num tipo celular (tecido, estirpe, espécie, estado de desenvolvimento…) ou se em ambos. Muitas vezes a análise de microarrays é feita por computadores, pois tornava-se impossível a leitura de tão grande quantidade de dados e de tão reduzidas dimensões a olho nú. Além disso o computador é capaz de detectar pequenas variações na fluorescência indicando que um RNA pode ser altamente transcrito num tipo celular e muito pouco noutro tipo, não causando por isso grande variação de cor para o amarelo. A produção das placas usadas em microarrays assim como das sondas lá hibridizadas é feita pela industria bastando ao investigador encomendar e comprar. Existem outras técnicas de análise da expressão proteica que tiram partido da própria proteína, métodos mais directos que os anteriores. WESTERN BLOT Não varia muito de todos os outros blots falados até agora. A principal diferença é a análise de proteínas em vez de DNA Southern ou de RNA Northern, a sonda usada é um anticorpo específico para a proteína. Começa-se por se desnaturar as proteínas pois a proteína nativa pode esconder a zona reconhecia pelo anticorpo. De seguida faz-se um a electroforese (em condições desnaturantes) e faz-se um blot (passagem do resultado da electroforese para uma membrana, e incubamos com o anticorpo. Para visualizarmos incubamos esta membrana com um anticorpo secundário, marcado radioactivamente, específico para o primeiro. O uso do anticorpo secundário tem vantagens nosentido em que pode ser usado várias vezes em várias experiências, diminuindo o gasto económico, assim como a produção de vários anticorpos marcados (um para cada experiência, cada blot). 118 ACTIVAÇÃO DE GENES Para o estudo de uma proteína podemos efectuar estudos bioquímicos, ou então produzir proteína recombinante. É importante conhecer o DNA que codifica determinada proteína, a identidade da sequência de aminoácidos passa pelo conhecimento da sequência de nucleótidos que lhe dá origem. Mas todos estes estudos informam-nos sobre a estrutura e alguma função da proteína, mas na realidade não nos revelam os seus efeitos no organismo. Normalmente esta informação é-nos fornecida naturalmente por organismos mutantes para a forma nativa da proteína. Assim podemos induzir alguns organismos a produzirem proteínas mutantes não funcionais, através da mutagénese dirigida, onde se altera especificamente a sequência de aminoácidos e se estuda as consequências dessa mutação. MUTAGÉNESE DIRIGIDA A mutagénese dirigida assenta sobre o principio do PCR: temos um plasmídeo recombinante (clonagem do DNA que nos interessa) isolado de bactérias. Fazemos um PCR tendo como molde o plasmídeo usando primers com a mutação a inserir, estes são complementares das cadeias de DNA do plasmídeo. O PCR não será muito eficiente nos primeiros ciclos porque os primers são complementares entre si e não são completamente complementares da cadeia do plasmídeo. Mas mesmo assim ocorrerá amplificação e o gene sofre mutação, nos ciclos mais avançados a eficiência do PCR já será maior. De seguida elimina-se o plasmídeo original recorrendo a uma enzima de restrição (DnpI), que digere DNA metilado. As cadeias sintetizadas de novo foram sintetizadas in vitro e por isso n sofreram o processo de metilação que sofreu o plasmídeo produzido em bactérias. Logo o novo plasmídeo (mutado) não é digerido. No final introduz-se este plasmídeo mutado em bactérias e elas replicam-no. É importante que a concentração de primers não seja muito elevada visto que eles emparelham entre si, deste modo usam-se primers muito longos, estes não vão ligar completamente porque têm porção não complementar, contudo a ligação destes ao plasmídeo é mais eficiente se forem maiores do que 119 se forem menores. Por outro lado convém que a porção que não emparelha esteja localizada no entro do primer de forma a garantir o emparelhamento das extremidades e aumentar a eficiência na ligação e mutação do DNA. A nível do estudo podemos introduzir mutações pontuais (alteração num único nucleótido), inserções (inserir porções que vão ligar ou interagir com outros componentes), ou delecções (retirar parte da sequência, por exemplo podemos querer retirar um domínio de ligação Zink–finger, ou outro qualquer). Se pretendermos retirar/inserir uma sequência do gene o plasmídeo/primer vai ter no centro uma sequência de nucleótidos que não vão emparelhar, assim quando ocorre a ligação das extremidades complementares forma-se um loop e o produto resultante do 1º ciclo do PCR não contém/contém a sequência do loop, nos ciclos seguintes o emparelhamento dos primers é mais fácil visto que já existem plasmídeos completamente complementares aos primers em uso. TRANSFECÇÃO DE CÉLULAS EUCARIÓTICAS Se é nosso objectivo estudar a acção da proteína numa célula então é necessário fazer a transfecção de células eucarióticas em que se insere um plasmídeo recombinante com o DNA da proteína que queremos estudar (equivalente à transfecção de bactérias). No entanto as células eucarióticas normalmente não mantêm o plasmídeo e apenas um número muito pequeno de células inclui o plasmídeo no seu genoma. Assim convém referir que existe transfecção transitória (eucariotas) e transfecção permanente ou transformação (eu procariotas). O plasmídeo deve por isso possuir um promotor eucariótico e origem de replicação também eucariótica (normalmente usa-se a origem de replicação de um vírus que infecte células eucarióticas). O plasmídeo entra nas célula por electroporação (choques eléctricos), contudo só 20-40% das células deixam o plasmídeo entrar no seu núcleo, e depois de 48h já ele foi eliminado. É neste espaço de tempo que a proteína mutada é produzida, e também é neste curto espaço de tempo que temos de fazer o nosso estudo sobre esta proteína. Existe no entanto um reduzido número de células que incorporaram o plasmídeo no seu genoma, neste caso podemos esperar as 48h e de seguida seleccionar, por uso de um antibiótico, quais as células que o incorporaram. Nestes casos obtemos uma colónia de células que expressa continuamente a nossa proteína. 120 TRANSFECÇÃO DE UM MUTANTE COM EFEITO DOMINANTE NEGATIVO No caso de querermos inactivar um gene fazemos a transfecção de um gene mutado que não seja activo. Por exemplo a proteína Ran só está activa quando liga GTP, e possuem uma baixa actividade de GTPase. Quando essa actividade aumenta elas passam a ligar-se a GDP e ficam inactivas. As proteínas Ran e outras da sua família são activadas por GEF. Se introduzirmos nas células uma forma mutante de Ran, que liga GEF mas que não liga GTP, sob a influencia de um promotor forte vai haver grande expressão desta proteína. Esta proteína mutada vai ligar GEF mas não liga GTP, e impede a ligação de Ran normais a GEF, pelo que estas também n são activadas. Esta é uma forma de inactivar proteínas. RNA DE INTERFERÊNCIA Nos últimos anos surgiu uma técnica alternativa ao efeito dominante negativo para inactivar um gene: RNA de interferência (iRNA). Com esta técnica verificou-se que uma molécula de RNA em cadeia dupla é capaz de inactivar genes com grande eficiência. Nas plantas isto surge como uma defesa contra ataques retrovirais. O RNA em cadeia dupla quando entra na célula é clivado pela acção de RNAses em cadeias mais pequenas (small interference RNA siRNA) que vão levar à degradação do mRNA devido às associações que criam com um complexo proteico (RISC). Este complexo possui endonucleases e helicase que vão fazer com que as cadeias de siRNA se desliguem formando siRNA em cadeias simples ligadas ao complexo RISC. O complexo resultante vai-se ligar a moléculas de mRNA com sequência complementar ao siRNA e provocar a sua degradação por parte das endonucleases. Podemos assim silenciar genes de uma forma rápida e barata por inserção de iRNA, ou então podemos combinar as duas técnicas e transfectar as células com DNA codificante de iRNA. 121 RATINHOS TRANSGÉNICOS Como se produz um organismo em que há produção de genes estranhos que normalmente não fazem parte do genoma? Pode-se fazer que a partir de um ovo fecundado, mas ainda numa fase muito precoce quando ainda não ocorreu fusão dos dois pronúcleos, se injecte DNA estranho num dos núcleos. E repete-se este procedimento em vários ovos que vão ser introduzidos numa fêmea. EM 10-30% dos casos ocorre recombinação eficiente entre o DNA injectado e o genoma, gerando-se um individuo que expressa genes adicionais, produzindo proteínas codificadas pelos transgéneros. Não existe, no entanto, qualquer controlo sobre em que parte do genoma o DNA estranho é inserido, o gene é transcrito sempre que estiver presente o factor de transcrição associado ao promotor do gene. RATINHOS “KNOCKOUT” Esta técnica consiste na inactivação de genes de um organismo, introduzindo-se um gene estranho numa células mas de modo a promover a recombinação homóloga entre o gene a inserir e o que se pretende retirar. O que se faz é substituir um gene endógeno de células de um blastócito com células estaminais transportadoras da mutação. Mas de que maneira se faz a mutação nestas células? É uma técnica que tenta inserir um gene semelhante ao endógeno mas não funcional (mutado por métodos referidos anteriormente), a ladear a sua sequência existem sequências que servem como marcadores, permitindo saber se o processoocorreu ou não. Essas sequências normalmente são genes de resistência a antibióticos (neomicina). Contudo quando se faz esta técnica há sempre o perigo de ocorrer recombinação aleatória com outros genes no genoma (recombinação não homóloga). É necessário fazer então uma distinção, assim o DNA a inserir transporta também uma zona que codifica uma cinase que confere sensibilidade a um antibiótico (ganciclovir). Esta pequena fracção que confere sensibilidade não é inserida no caso de ocorrer recombinação homóloga pois só a zona homóloga do fragmento é que se insere, enquanto que na recombinação não homóloga todo o fragmento se insere no genoma, incluindo a zona de sensibilidade. Para distinguir umas células das outras basta aplicar a neomicina as células que sobreviverem é porque sofreram recombinação, mas quais as que sofreram recombinação homóloga? Junta-se ganciclovir e aquelas que morrerem é porque sofreram recombinação não homóloga, sobrevivendo assim as células que apenas sofreram recombinação homóloga. 122 De seguida transferem-se estas células para alguns blastócitos que serão inseridos no útero de uma fêmea pseudo-grávida. Geralmente utilizam-se marcadores genéticos como as células dadoras do blastócito e as células estaminais modificadas serem de ratinhos com colorações diferentes, de modo a distinguir com maior facilidade os ratinhos quiméricos e normais. Espera-se ver os descendentes e analisam-se. Depois seguem-se uma série de cruzamentos entre os descendentes de forma a obtermos ratinhos homozigóticos para este gene mutado (ratinho Knockout). Contudo existem algumas limitações a esta técnica, nos organismos Knockout, as proteínas que se pretende estudar pode ser importante na fase embrionária (clivagem ou formação de algum tecido) e nunca se chega a ter ratinhos viáveis. Para contornar este perigo podemos tentar inactivar o gene especificamente numa fase do desenvolvimento do organismo ou apenas num tecido. Para isso podemo-nos inspirar no que se passa comum vírus e a sua proteína Cre (recombinase) que reconhece sequências nas extremidades de cada monómero de genoma de um vírus na replicação do vírus formam-se várias cópias ligadas que têm de ser quebrada, essa clivagem é levada a cabo pela proteína Cre que cliva nas sequências LoxP. Assim tirando partido desta informação podemos criar um ratinho transgénico para a proteína Cre, associado a um promotor específico que apenas é activado em determinada fase do desenvolvimento e/ou em certo tecido. Depois criamos um ratinho pela técnica do Knockout onde inserimos o gene funcional ladeado de sequências LoxP. E depois cruzamos estes dois ratinhos. No final vamos obter um ratinho normal para a maioria das células, contudo naquelas células em que existem factores de transcrição que activem o promotor associado à proteína Cre, esta vai ser traduzida e actuar sobre as sequências LoxP clivando-as e retirando o gene de interesse. Deste modo é possível estudar a acção de determinada proteína no desenvolvimento de um só tipo de células (tecido, órgão…), mesmo que esta afecte todo o organismo, sem que o organismo todo seja alterado. Hugo Soares 2004/2005pelo pH do meio), permitindo a formação correcta de pontes de hidrogénio com um parceiro incorrecto. In vivo, a razão de erros diminui graças a mecanismos enzimáticos adicionais. Um mecanismo intrínseco a, virtualmente, todas as DNA polimerases é uma actividade separada de exonuclease no sentido 3’ 5’ que pode rever cada nucleótido após a sua inserção. Esta actividade de nuclease permite à enzima renovar uma nova base adicionada incorrectamente e é altamente específico para pares de bases mal ligados. Se a polimerase adicionar um nucleótido errado, a translocação da enzima para a posição onde o próximo nucleótido esta para ser adicionado é inibido. Esta pausa cinética providencia a oportunidade para a correcção do erro. A actividade de exonuclease na direcção 3’ 5’ remove o nucleótido mal emparelhado, e a polimerase inicia de novo a sua função. Esta actividade, conhecida como Revisão, não é simplesmente o contrário da reacção de polimerização, porque não envolve pirofosfato. Quando a selecção de bases e a revisão são combinadas, a DNA polimerase “deixa para trás” uma taxa de erros na ordem dos 106 a 108 pares de bases. Ainda assim a exactidão medida em E. coli é maior. A exactidão adicional é devido a um sistema separado de enzimas que reparam as bases mal emparelhadas após a replicação. OUTROS TIPOS DE DNA POLIMERASE Mais de 9% da actividade de DNA polimerase observada em estratos de E. coli são da responsabilidade da DNA polimerase I. Pouco depois do isolamento desta enzima em 1955, contudo, começaram-se a acumular evidências de que esta não era apropriada para a replicação que ocorre no largo cromossoma de E. coli : 1. A velocidade a qual ela actua (600 nucleótidos/min.) é muito baixa (cerca de 100x ou mais) para ser responsável pela velocidade à qual o garfo de replicação se move numa célula bacteriana. 2. DNA polimerase I tem uma processividade relativamente baixa. 3. Estudos genéticos demonstraram que muitos genes, e portanto muitas proteínas, estão envolvidas na replicação: DNA polimerase I claramente não actua sozinha. 4. Finalmente a mais importante, em 1969 John Cairns isolou uma cadeia bacteriana com um gene alterado para a DNA polimerase I que produzia uma enzima inactiva. Contudo esta cadeia era anormalmente sensível a agentes que danificavam o DNA. A procura de outra DNA polimerase levou à descoberta da DNA polimerase II e DNA polimerase III no início dos anos 70. DNA polimerase II é uma enzima envolvida num tipo de reparação do DNA, contudo a sua função ainda não está muito bem definida. A enzima DNA polimerase III é a principal responsável pela replicação em E. coli. 15 A DNA polimerase I, então, não é a enzima primária na replicação; em vez disso ela desempenha uma gama de funções importantes como recombinação e reparação. As funções especiais desta polimerase são engrandecidas pela sua actividade de exonuclease 5’ 3’, distinta da sua actividade de exonuclease 3’ 5’ de revisão, que está localizada num domínio estrutural que pode ser separado da enzima através de um leve tratamento com uma protease. Quando o domínio de exonuclease 5’ 3’ é removido, o restante fragmento (largo ou de Klenow), retém ainda a capacidade de polimerização e de revisão. A actividade de exonuclease 5’ 3’ da DNA polimerase I intacta pode substituir o segmento de DNA (ou RNA) emparelhados a cadeia molde, num processo conhecido como a translação de Nick. Muitas outras enzimas possuem a actividade de exonuclease 5’ 3’. A DNA polimerase III é muito mais complexa do que a I, possuindo 10 tipos de subunidades. 16 As funções de polimerização e de revisão residem, respectivamente, nas subunidades α e ε (épsilon). As subunidade θ associa-se as duas subunidades anteriores e forma um núcleo que consegue polimerizar DNA mas com baixa processividade. Dois núcleos podem ser ligados por uma outra série de subunidades, o complexo γ, consistindo em cinco subunidades de quatro tipos diferentes τ2γδδ’. Os núcleos são ligados pelas subunidades τ (tau), duas outras subunidades χ(chi) e φ(psi) estão ligadas ao complexo γ. Todo o conjunto de 13 subunidades proteicas (9tipos) e chamado de DNA polimerase III*. DNA polimerase III* pode polimerizar DNA, mas com muito menor processividade que aquela esperada para uma replicação organizada. O aumento necessário da processividade é providenciado pela adição de subunidades β, quatro das quais completam a DNA polimerase III. As subunidade β associam-se em pares para formar uma estrutura em forma de donut que circundam a molécula de DNA e actuam como uma braçadeira. Cada dímero associa-se com um núcleo da polimerase III*. A braçadeira de subunidades β previne a dissociação da DNA polimerase III da molécula de DNA, aumentando dramaticamente a sua processividade – para mais de 500.000. (tabela pag.15) As células eucarióticas possuem 5 tipos de DNA polimerases: α, β, γ, δ e ε. Polimerase γ está localizada nas mitocôndrias e é responsável pela replicação do DNA mitocondrial as outras localizam-se no núcleo e estão portanto envolvidas na replicação do DNA nuclear. As polimerases α, β e ε estão mais activas em células que se dividem, sugerindo que têm função na replicação. A polimerase δ tanto activa em células que se dividem como naquelas que não se dividem mais, consistindo a sua função em reparar danos no DNA. O garfo de replicação A síntese de novas cadeias de DNA complementares a ambas as cadeias parentais que lhes deram origem conferiu um importante problema para o entendimento da bioquímica da replicação. Dado que as duas cadeias de DNA correm em direcções opostas (antiparalelas), a replicação contínua das duas novas cadeias requer que uma seja sintetizada na direcção 5’ 3’, enquanto a síntese da outra cadeia correria em sentido oposto 3’ 5’. Mas a DNA polimerase cataliza a polimerização de dNTP’s apenas na direcção 5’ 3’. Como poderia então a outra cadeia ser sintetizada? Este enigma foi resolvido com experiências que mostravam que apenas uma cadeia de DNA é sintetizada de uma forma contínua na direcção 5’ 3’; enquanto que a outra era formada por curtos fragmentos (1-3kb) de DNA que eram sintetizadas “para trás” respeitando o garfo de replicação. 17 Estes novos pedaços de DNA sintetizados (chamados fragmentos de Okazaki) ligam-se pela acção de DNA ligases, formando uma nova cadeia de DNA intacta. A cadeia de DNA que possui uma síntese contínua é chamada de cadeia líder, visto que o seu prolongamento em direcção ao garfo de replicação expõe o molde usados para a síntese dos fragmentos de Okazaki ( a cadeia seguidora). Apesar da descoberta da síntese descontínua da cadeia seguidora providenciar o mecanismo para o alongamento de ambas as cadeias de DNA, isso suscitou outra questão: se a DNA polimerase precisa de primers e não consegue iniciar a síntese a partir do nada, como é que a síntese dos fragmentos de Okazaki se inicia? A resposta é que pequenos fragmentos de RNA servem como primers para a replicação de DNA Ao contrário da síntese de DNA a síntese de RNA pode começar do zero, e uma enzima chamada primase sintetiza pequenos fragmentos de RNA (entre 3 a 10 nucleótidos) complementares da cadeia seguidora molde. Fragmentos de Okazaki são então sintetizados via extensão destes primers de RNA pela DNA polimerase. Cada fragmento separado é então estabilizado por SSB (Single Strand DNA Binding proteins). Uma importante consequência de tais primers de RNA é que novos fragmentos de Okazaki contém uma ligação RNA-DNA. A descoberta disto providenciou evidências críticas para entender o papel dos primers de RNA na replicação de DNA. Para formar uma cadeia contínua de DNA, os primers de RNA necessitam ser removidos e substituídos por nucleótidos de DNA, isto é feito pela DNA polimerase I, e a ligação entre os fragmentos é promovida pela enzima DNA ligase. Não só polimerases e primases mas também um número de outrasproteínas estão envolvidas no garfo de replicação. Uma classe dessas proteínas liga-se à DNA polimerase aumentando a sua actividade e fazendo com que esta permaneça ligada a cadeia de DNA molde de modo a que a síntese continue. Outras proteínas destorcem as cadeias de DNA e estabilizam regiões de cadeia simples. Helicases são enzimas que catalizam o desdobramento de cadeias de DNA parentais, associadas à hidrólise de ATP, estas colocam-se à frente do garfo de replicação. As SSB de seguida estabilizam das cadeias molde agora desentrelaçadas, mantendo-as esticadas e separadas para que a replicação possa prosseguir. À medida que a replicação avança “a frente” da replicação é forçada a rodar sobre si. Se nada acontecesse essa rotação causaria que moléculas circulares de DNA (como as existentes em alguns vírus e 18 bactérias) se entrelaçassem sobre si mesmas, bloqueando com isto a replicação. Este problema é então resolvido pela presença de topoisomerases, enzimas que catalizam a quebra reversível e re-ajuntamento das duas cadeias. Apesar dos organismos eucariontes serem compostos de cadeias lineares em vez de cadeias circulares de DNA, na sua replicação estas enzimas também intervêm, caso contrario todo o cromossoma teria de rodar continuamente durante a síntese de DNA. A REPLICAÇÃO EM E. coli A síntese de DNA pode ser dividida em três partes: iniciação, alongamento e terminação, distinguindo cada uma delas pelas reacções que ocorrem e pelas enzimas que actuam. Iniciação: O ponto de origem da replicação em E. coli chama-se de oriC, consiste em 245 pares de bases, e carrega segmentos altamente conservados na origem da replicação bacteriana. Um arranjo geral das sequências conservadas é ilustrado na figura. As sequências chave com interesse são duas séries de pequenas repetições: três repetições de 13 pares de bases e quatro repetições de 9 pares de bases. Pelo menos nove tipos diferentes de proteínas participam no início da fase de replicação. Elas abrem a hélice de DNA no ponto de origem e estabilizam um complexo pré-iniciador das subsequentes reacções. Um componente crucial na iniciação deste processo são as proteínas DnaA. 1. Um simples complexo de quatro ou cinco proteínas DnaA liga-se às quatro repetições de 9 pares de bases na origem; 2. Depois reconhecem e sucessivamente desnaturam o DNA na região de três repetições de 13 pares de bases, a qual é rica em ligações A=T; este processo requer o uso de ATP e a proteína HU - parecida com uma histona; 3. DnaC liga as DnaB na região desnaturada. Dois anéis de hexâmeros DnaB ligam-se cada um a uma cadeia de DNA, actuando como helicases que desligam as moléculas de DNA bidireccionalmente criando dois potenciais garfos de replicação. Quando outras proteínas são adicionadas, num sistema in vitro, como as SSB (Single-stranded DNA- binding protein) e DNA girases (DNA topoisomerases II) milhares de pares de bases são separados pelas DnaB helicases nos garfos de replicação. O início da replicação é a única fase da replicação onde é conhecida a sua regulação, e é regulada de tal forma que a ela ocorre apenas suma vez em cada ciclo celular. O mecanismo de regulação ainda não é muito bem compreendido mas a genética e a bioquímica já providenciaram algumas luzes sobre o assunto. 19 Alongamento: Nesta fase ocorre basicamente o processo descrito atrás. A complexidade reside sobretudo na coordenação da cadeia líder com a cadeia seguidora: ambas as cadeias são produzidas por um único dímero assimétrico de DNA polimerase III. A síntese dos segmentos de Okazaki na cadeia seguidora concerne uma elegante coreografia. • A helicase DnaB e a primase DnaG constituem uma unidade funcional no complexo de replicação, o primossoma; • DNA polimerase III utiliza uma série das suas subunidades para sintetizar a cadeia líder, e outra série para sintetizar os fragmentos de Okazaki; • A helicase DnaB desnatura o DNA no garfo de replicação à medida que ele atravessa a cadeia molde na direcção 5’ 3’; • DNA primase ocasionalmente associa-se com DnaB e sintetiza pequenos primers de RNA; (a e b) • Uma nova braçadeira β é então posicionada no primer; (c) • Quando a síntese de um fragmento de Okazaki está completa, a replicação “descansa” e um núcleo de subunidades da DNA polimerase II dissocia-se da sua braçadeira β (e do fragmento de Okazaki inteiro), e associa-se com uma nova braçadeira. (e) • Isto inícia a síntese de um novo fragmento de Okazaki; • Todo o complexo de proteínas intervenientes na síntese de DNA na zona do garfo de replicação é conhecido como replissoma; 20 POLIMERASE CHAIN REACTION Um método para isolar grandes quantidades de moléculas simples de DNA é a reacção em cadeia da polimerase (PCR - polymerase chain reaction), desenvolvida por Kary Mullis em 1988 e que lhe valeu um prémio Nobel. Provido de algumas sequências conhecidas da molécula de DNA, esta técnica pode atingir uma alta amplificação de DNA através de reacções inteiramente in vitro. Essencialmente, a DNA polimerase é usada para repetir a replicação de um determinado segmento. O número de moléculas de DNA aumenta exponencialmente, dobrando em cada ciclo de replicação; assim uma significante quantidade de DNA pode ser obtida a partir de pequenas amostras. Por exemplo, uma simples molécula submetida a 30 ciclos de replicação originaria, teoricamente, 230 (cerca de 1 bilião) moléculas copiadas. A técnica de PCR desenrola-se com uma elegante simplicidade. Dois oligonucleótidos sintéticos são preparados, eles são complementares às sequências nas cadeias opostas do DNA alvo na posição adjacente ao final (3’) do segmento a ser amplificado. Estes oligonucleótidos servem como primers para a replicação. As extremidades 3’ de uma sonda híbrida encontram-se orientadas de frente uma para a outra e posicionadas de forma a iniciar a síntese de todo o segmento de DNA pretendido. O DNA isolado com a sequência a replicar é ligeiramente aquecido de maneira a desnaturá-lo e depois arrefecido na presença de um número excessivo de primers (oligonucleótidos sintéticos). De seguida é adicionado à mistura grande quantidade de desoxinucleósidos trifosfatados para que a replicação do primer possa então ter início. O ciclo de aquecimentos e arrefecimentos é repetido 25 a 30 vezes no decorrer de algumas horas num processador automático, amplificando os segmentos de DNA até que eles possam ser prontamente analisados. O PCR usa uma DNA polimerase resistente ao calor, tal como a Taq-polimerase (derivada de uma bactéria que vive a uma temperatura de 90ºC) que permanece activa após todos os passos de aquecimento e não necessita ser substituída. Uma escolha cuidadosa do primer a ser usado, assim como o uso de endonucleases de restrição facilita o subsequente processo de clonagem do DNA amplificado. Esta tecnologia é muito sensível: PCR consegue detectar e amplificar a mais pequena molécula de DNA numa amostra de qualquer tipo. Apesar do DNA se degradar com o tempo a reacção de PCR já foi capaz de copiar segmentos com mais de 40.000 anos. 21 Alguns conceitos práticos para o processo de PCR: • Desnaturação das duas cadeias da molécula de DNA faz-se a 95ºC; • Emparelhamento dos primers: 50-60ºC; calcular em cada experiência a temperatura ideal para os primers a usar • Extensão das cadeias pela DNA polimerase faz-se a uma temperatura de 72ºC (Taq polimerase); Características dos primers a usar no PCR? • ~20 nucleótidos de DNA em cadeia simples; • Emparelhamento com o terminal 3’ de cada uma das cadeias a amplificar: • Específicos para o fragmento a amplificar: • Temperatura de emparelhamento semelhante para os dois primers do par; • Não devem formar dímeros consigo próprios ou entre si Cálculo da temperatura de fusão (Tm) de um primer: Tm = (4×[G+C]) + (2×[A+T]) Nota: Usar na reacção de PCR temperatura de emparelhamento dos primers 4ºC inferior à TmCLONAGEM E DNA RECOMBINANTE Um Clone é, por definição, uma população de células geneticamente idênticas. A Clonagem de um organismo significa a formação de um organismo geneticamente igual a outro organismo. Mas pode-se falar de clonagem de um gene, ou seja a produção de cópias múltiplas de um gene. Clone de um gene: células contendo moléculas idênticas de DNA recombinante (DNA não original daquele organismo), contendo o gene de interesse. Quais são os objectivos da clonagem de um gene? • Interesse em conhecer a sequência de DNA que codifica uma proteína, não é possível saber a identidade de uma proteína sem se conhecer a sua sequência de aminoácidos, conhecer a sequência de nucleótidos que codificam essa proteína possibilita essa e outras informações; • Produção de proteína recombinante – produção de grandes quantidades da proteína codificada pelo gene inserido, com o objectivo de estudá-la melhor, ou utilizá-la na medicina; • Inserção do DNA clonado noutro organismo – produção de OGM; Sequência de DNA que codifica a proteína – utilidade? • Dedução da sequência de aminoácidos da proteína • Comparação com a sequência de aminoácidos de outras proteínas • Reconhecimento de domínios funcionais • Previsão da função • Previsão da estrutura • Mutagénese – com o facto de se mutar uma proteína numa certa sequência e isso inactivar a sua actividade podemos tirar conclusões acerca da proteína em estudo; • Produção de anticorpos (proteínas produzidas por linfócitos B com função de reconhecer organismos estranhos) – podemos utilizar esta capacidade de maneira a produzir anticorpos específicos para proteínas específicas. Isso ajuda em outros estudos como de citologia, desenvolvimento, bioquímica, metabolismo… pois providencia a criação de marcadores ou sondas. 22 Produção de proteína recombinante – utilidade? • Proteína recombinante – proteína produzida num organismo onde ela, naturalmente, não existiria. Por exemplo produção de insulina por parte de bactérias; • Aplicações na medicina e na biotecnologia • Caracterização da proteína o Produção de anticorpos o Actividade da proteína o Estrutura da proteína o Interacções da proteína com outras macromoléculas o Cristalização – muito útil para determinara a sua estrutura. Como se faz a clonagem de um gene? Como já referido, estudos detalhados sobre a estrutura e função de um gene a nível molecular requer uma larga quantidade de genes puros. Uma variedade de técnicas, muitas vezes referidas como técnicas de DNA recombinante, são usadas para clonar DNA, o que permite aos investigadores um grande número de técnicas idênticas. DNA recombinante é simplesmente qualquer molécula de DNA composta de sequências derivadas de uma fonte diferente daquela onde se encontra. A chave para clonar o fragmento de DNA de interesse é ligá-lo a um vector, que se pode replicar dentro de uma célula hospedeira. Após uma simples molécula de DNA recombinante (composta por um vector mais o fragmento de DNA inserido) ser introduzida numa célula hospedeira, o DNA replica-se juntamente com o vector, gerando um largo número de moléculas de DNA idênticas. A base para este esquema é indicada ao lado. Apesar das numerosas variações este esquema indica os passos essenciais da clonagem de genes. PROCESSO ENZIMÁTICO DA CLONAGEM Apenas moléculas de DNA relativamente pequenas podem ser clonadas em qualquer dos vector disponíveis. Por esta razão a grande cadeia de DNA que constitui o genoma de um organismo necessita ser clivada em fragmentos menores de modo a que estes possam ser inseridos no vector de DNA. dois tipos de enzimas – enzimas de restrição e DNA ligases – facilitam a produção de tais moléculas de DNA recombinante. Cortando as moléculas de DNA em pequenos fragmentos as enzimas de restrição são endonucleases, produzidas por bactérias, que tipicamente reconhecem sequências especificas de 4 a 8 nucleótidos (sendo o mais comum 6), chamados de locais de restrição. Os locais de restrição são normalmente palindromas, isto é a sequência é igual nas duas cadeias de DNA quando lidas na direcção 5’ 3’, são simétricos em relação a um eixo. As enzimas de restrição provocam cortes confusos nas duas cadeias de DNA no seu local de restrição, gerando fragmentos que possuem uma cauda em cadeia simples nas duas extremidades. A cauda formada num fragmento é complementar da formada noutro fragmento pela mesma enzima de restrição. À temperatura ambiente as regiões em cadeias simples são capazes de emparelhar entre si. O DNA isolado de um organismo individual possui uma sequência específica, que puramente por acaso vai conter uma série de locais de restrição. Deste modo uma dada enzima de restrição vai cortar o DNA (de uma fonte particular) numa série de fragmentos reproduzíveis ou fragmentos de restrição. Várias enzimas de restrição já foram isoladas de várias espécies de bactérias, permitindo cortar as moléculas de DNA num largo número de sequências diferentes, correspondendo ao local de reconhecimento da enzima. (ver tabela) 23 Os fragmentos de DNA podem ser inseridos no vector de DNA com a adição de DNA ligases. Durante a replicação normal do DNA, as DNA ligases catalizam a ligação da extremidade 3’ à extremidade 5’ adjacentes dos fragmentos de Okazaki. No caso da clonagem esta enzima promove a ligação entre as extremidades dos fragmentos de restrição e os vectores que possuem extremidades complementares. O vector e o fragmento de restrição ligam-se covalentemente por ligações fosfodiéster padrão. PLASMÍDEOS DE E. COLI Plasmídeos são cadeias duplas de DNA circular separadas do cromossoma da célula. Este DNA extracromossomal que ocorre naturalmente em bactérias e em eucarióticos inferiores (leveduras) existem em relações de parasitismo ou simbiose com a sua célula hospedeira. Tal como o cromossoma bacteriano o plasmídeo é replicado antes de cada divisão celular. Durante a divisão, cópias do plasmídeo segregam para cada célula filha, assegurando a continuidade do plasmídeo através de sucessivas gerações. Os plasmídeos mais usados em tecnologia de DNA recombinante são os de E. coli. Investigadores conseguiram já manipular estes plasmídeos de forma a optimizar o seu uso como vectores na clonagem de DNA. Assim, alterações em porções desnecessárias para o funcionamento normal dos plasmídeos de E. coli produz um vector de aproximadamente 1.2 – 3 kb em comprimento circunferencial, que contém três regiões essenciais à clonagem: uma origem de replicação, um marcador que permite a selecção, usualmente um gene de resistência a antibióticos e a região de inserção dos fragmentos de DNA exógenos. Enzimas de replicação da célula hospedeira promovem a replicação do plasmídeo a partir da origem (ORI, uma sequência com 50 a 100 nucleótidos). Uma vez que a replicação do DNA tenha começado ela continua à 24 volta do plasmídeo circular qualquer que seja a sua sequência de nucleótidos. Deste modo qualquer sequência de DNA num plasmídeo é replicada durante a replicação deste. A figura que se segue ilustra a clonagem de DNA utilizando um plasmídeos de E. coli como vectores. Quando células de E. coli são misturadas com vectores de DNA recombinantes, sob determinadas condições, uma pequena fracção das células vai tomar o plasmídeo, este processo é conhecido como transformação. Tipicamente uma célula em cada 10.000 incorpora um único plasmídeo, esta célula diz-se transformada. Após o vector ser incubado em E. coli , aquelas células que incorporaram o plasmídeo podem ser facilmente seleccionadas do outro elevado número de células. Agora, se o plasmídeo transportar um gene de resistência a um determinado antibiótico (p.e. ampicilina), as células transformadas podem ser seleccionadas fazendo-as crescer num meio contendo ampicilina, só aquelas que incorporaram o gene de resistência sobrevivem. Fragmentos de DNA de poucos pares de bases, cerca de 20 kb, são comummenteinseridos no vector. Se precauções especiais forem tomadas para evitar manipulações que possam mecanicamente partir o DNA, até longos fragmentos de DNA podem ser inseridos no plasmídeo. Quando um plasmídeos recombinante com um fragmento de DNA inserido transforma uma célula de E. coli todos os genes de resistência presentes na progenia será transmitida a os seus descendentes e todas as células que surjam desta linha possuirão plasmídeos com os mesmos genes inseridos. O DNA inserido é replicado ao longo da replicação do plasmídeo e segregado para as células filhas à medida que a colónia cresce. Desta maneira o fragmento de DNA inicial é replicado na colónia num largo número de cópias idênticas. Visto que todas as células na colónia originaram-se de uma única célula parental transformada, elas constituem clone da célula parental, e o segmento inserido no plasmídeo parental é referido como clone de DNA, ou DNA clonado. A versatilidade de um vector de plasmídeo de E. coli aumenta com a incorporação de um polilinker, uma sequência sintética que contém uma cópia de vários locais de restrição que não estão presentes em mais nenhum local do plasmídeo. Quando tal vector é tratado com uma enzima de restrição que reconhece um desses locais de restrição, o vector é cortado apenas uma vez (dentro do polilinker). Subsequentemente qualquer fragmento de DNA de tamanho apropriado produzido utilizando a mesma enzima de restrição pode ser introduzido nesta zona utilizando DNA ligase. Plasmídeos que possuem uma região polilinker permitem ao investigador clonar fragmentos de DNA gerados com diferentes enzimas de restrição usando o mesmo plasmídeo, o que simplifica o procedimento experimental. UTILIZAÇÃO DA CLONAGEM DE GENES NA BIOTECNOLOGIA Muitas hormonas, proteínas sinalizadoras ou reguladoras são normalmente expressas em quantidades muito baixas, impedindo o seu isolamento e purificação em grandes quantidades por técnicas bioquímicas básicas. O uso terapêutico difuso de tais proteínas, assim como pesquisas na sua estrutura e função, depende da eficiência dos processos para produzir grandes quantidades a custo razoável. A técnica de DNA recombinante que transforma células de E. coli em fábricas para a síntese de proteínas pouco abundantes é agora utilizada para a produção do factor VIII (factor de coagulação do sangue), factores estimulantes das 25 colónias de granulócitos (G-CSF), insulina, hormonas de crescimento e outras proteínas humanas com usos terapêuticos. Por exemplo, G-CSF estimula o crescimento de granulócitos glóbulos brancos fagocíticos essenciais para a defesa contra infecções bacterianas. A administração de G-CSF a doentes com cancro ajuda à redução da produção de granulócitos provocados pela quimioterapia, protegendo os pacientes contra infecções serias enquanto eles fazem quimioterapia. O primeiro passo na produção de grandes quantidades de proteínas pouco abundantes é obter clones de cDNA que codifiquem para a proteína em interesse através do PCR. O segundo passo é de fabricar plasmídeos que vão expressar largas quantidades de proteínas codificadas quando inseridos nas células de E. coli. A chave para desenhar tais vectores de expressão é adicionar um promotor, uma sequência de DNA a partir da qual a transcrição de cDNA pode começar, como por exemplo o processo para expressar G-CSF mostrado na figura. Neste caso, G-CSF é expresso em E. coli transformada com plastídeos que contenham promotores lac adjacentes ao cDNA que codifica para G-CSF. A transcrição do promotor lac ocorre a alta velocidade apenas quando a lactose, ou análogos (IPTG), são adicionadas ao meio de cultura. Para ajudar a purificação de uma proteína eucariótica produzida em E. coli, os investigadores muitas vezes modificam o cDNA que codifica a proteína recombinante para facilitar a sua separação de proteínas endógenas de E. coli. Uma modificação comum deste tipo é adicionar uma curta sequência de nucleótidos no final do cDNA, de modo a que a proteína expressa tenha seis resíduos de histidina no terminal C. As proteínas modificadas deste modo liga-se levemente a uma matriz com átomos de níquel, enquanto que a maioria das proteínas endógenas não se irão ligar a esta matriz. As proteínas ligadas podem ser libertadas dos átomos de níquel por um decréscimo no pH do meio. Na maioria dos casos, este procedimento retém uma proteína pura recombinante que é funcional, visto que a adição de pequenas sequências de aminoácidos a qualquer dos extremos de uma proteína não interfere com a actividade bioquímica da proteína. ORGANIZAÇÃO DO GENOMA No início do século 21, os biólogos moleculares já haviam sequenciado o genoma inteiro de centenas de vírus, uma data de bactérias, e a levedura da cerveja S. cerevisiae. Além disto uma vasta gama de genomas de eucariótas multicelulares são também já conhecidos, incluindo o nemátode C. elegans, a mosca da fruta D. melanogaster e o genoma humano. Análises detalhadas destas sequências revelaram que uma larga porção do genoma de organismos superiores não codifica mRNA ou qualquer tipo de RNA. Espantosamente tal DNA não codificante constitui mais de 95% do genoma humano. O DNA não codificante em organismos multicelulares contém muitas regiões que são similares mas não iguais. Variações dentro de algumas extensões destes DNA repetitivos são tão grandes que cada pessoa individual pode ser distinguida por uma impressão digital do DNA. Além disso algum DNA repetitivo não é encontrado constantemente na mesma posição no DNA de indivíduos da mesma espécie. Tais elementos de DNA 26 móvel, presentes tanto em eucariontes como em procariontes, podem causar mutações quando alteram o seu local no genoma. Mesmo pensando que eles geralmente não possuem qualquer função no ciclo de vida de um organismo individual, estes provavelmente desempenharam um papel evolução dos organismos. Em eucariótas superiores, regiões de DNA que codificam proteínas – isto é, os genes - residem entre esta expansão de aparente DNA não funcional. Em adição ao DNA não funcional entre os genes, intrões não codificantes são comuns dentro dos genes. Os intrões são menos comuns mas por vezes estão presentes, em organismos eucarióticos unicelulares e são muito raros em bactérias. Sequências do mesmo gene codificante para determinada proteína numa variedade de espécies eucarióticas mostrou que as pressões evolutivas seleccionam sequências relativamente similares na região codificante, ou exões. Em contraste, amplas variações nas sequência que ocorrem entre os intrões (mesmo incluindo perda total), sugerem que a maioria das sequências de intrões têm pouca significância funcional. O TAMANHO DO GENOMA DE UM ORGANISMO NÃO ESTÁ DIRECTAMENTE RELACIONADO COM A SUA COMPLEXIDADE BIOLÓGICA Através de dados avaliados por computador com algoritmos de pesquisa de genes através da sequência genómica foi elaborado um inventário completo dos genes codificantes de proteínas para uma grande variedade de organismos. A figura abaixo mostra o número total de genes codificantes de proteínas em vários genomas eucarióticos que já foram totalmente sequenciados. A função de cerca de metade das proteínas descodificadas nestes genomas são conhecidas ou já foram previstas com base na comparação de sequências. Uma das características surpreendentes desta comparação é que o número de genes codificantes em diferentes organismos não parece proporcional ao nosso senso intuitivo da sua complexidade biológica. Por exemplo C. elegans, aparentemente tem mais genes que a mosca da fruta D. melanogaster que é, intuitivamente, mais complexa a nível estrutural e de comportamento. E os humanos possuem pouco mais do dobro dos genes de C. elegans, o que parece completamente inexplicável dada a enorme diferença entre os organismos. Claramente, simples diferenças quantitativas nos genomas de diferentes organismos são inadequadas para explicar diferenças na sua complexidadebiológica. Contudo, muitos fenómenos podem gerar maior complexidade nas proteínas expressas por eucariótas superiores do que aquilo previsto pelos seus genomas. Primeiro, um splicing alternativo do pré-mRNA pode conter múltiplos mRNA funcionais correspondendo a um gene em particular. Segundo, variações nas modificações pós-tradução de algumas proteínas pode produzir diferenças funcionais. Finalmente, diferenças qualitativas nas interacções entre as proteínas e a sua integração nas vias (metabólicas e outras) pode contribuir significativamente para diferenças na complexidade biológica dos organismos. A função específica de muitos genes e proteínas identificados pela análise do genoma ainda não é conhecida. 27 DEFINIÇÃO MOLECULAR DE GENE Em termos moleculares, um gene normalmente é definido como uma sequência inteira de ácidos nucleicos que é necessária para a síntese de um produto funcional (polipéptido ou RNA). De acordo com esta definição um gene inclui mais do que os nucleótidos que codificam a sequência de aminoácidos, referido como a região codificante. Um gene também inclui toda a sequência de DNA necessária para a síntese de determinado RNA de transcrição. Em genes eucarióticos, as regiões de controlo de transcrição conhecidos como “enhancers” podem conter 50kb ou mais da região codificante. Outras regiões não codificantes importantes nos genes eucarióticos são as sequências que especificam a clivagem 3’ e a poliadenilação, conhecida como local poly(A), e o splicing do transcrito primário de RNA, conhecidos como locais de splicing. Mutações nestes sinais de processamento de RNA impede a expressão de mRNA funcional e deste modo do polipéptido codificado. Apesar da maioria dos gene serem transcritos em mRNAs, os quais codificam proteínas, claramente algumas sequências de DNA são transcritas em RNAs que não codificam proteínas (rRNA e tRNA). Contudo, porque o DNA que codifica tRNAs e rRNAs pode causar fenótipos específicos quando é mutado, estas regiões de DNA geralmente são referidas como genes de rRNA e tRNA, mesmo apesar do produto final não serem proteínas. Muitas outras moléculas de RNA são transcritas em genes não codificantes de proteínas. Ao contrário dos genes das bactérias e das leveduras, em que geralmente faltam intrões, muitos genes em animais e plantas multicelulares contêm intrões que são removidos durante o processamento do RNA. Em muitos casos, os intrões num gene são consideravelmente mais longos do que os exões. Por exemplo, dos ~50.000 pares de bases que compõem os genes humanos que codificam proteínas de tamanho vulgar, mais de 95% do gene é constituído por intrões e regiões não codificantes. Muitas proteínas de grande tamanho em organismos superiores possuem domínios repetidos e são codificadas por genes constituídos por exões repetidos ou semelhantes separados por intrões de tamanho variável. ORGANIZAÇÃO CROMOSSOMAL DE GENES E DE DNA NÃO CODIFICANTE Comparações feitas entre o DNA total nos cromossomas de várias espécies sugeriu que muito DNA em alguns organismos não codificava RNA ou possuía qualquer função reguladora ou estruturante aparente. Por exemplo as leveduras, a mosca da fruta, galinhas e os humanos possuem, sucessivamente, mais DNA nas suas séries haplóides de cromossomas (12, 180, 1300, e 3300MB, respectivamente) do que aquele que seria esperado de acordo com a sua complexidade. Mesmo assim os anfíbios são aqueles com maior quantidades de DNA por célula, os quais são, certamente, menos complexos que os humanos tanto em estrutura como em comportamento. Ainda mais surpreendente, os protozoários unicelulares da espécie Amoeba dubia possuem 200x mais DNA por célula que os humanos. Por exemplo, as túlipas possuem 10 vezes mais DNA nas suas células que os humanos. A percentagem de DNA por célula também varia entre organismos relativamente relacionados. Todos os insectos e todos os anfíbios parecem ser semelhantemente complexos, mas a quantidade de DNA haplóide em espécies dentro destas classes filogenéticas varia em factor de 100. As sequências detalhadas e a identificação dos exões no DNA cromossomal providenciou evidencias directas que o genoma de eucariótas elevados contém grande quantidade de DNA não codificante. Por 28 exemplo, apenas uma pequena fracção da família de genes da β-globina em humanos codifica para uma proteína, cerca de 80kb. Ainda mais, quando comparado com outras regiões do DNA de vertebrados, a família das ß-globinas é anormalmente rica em sequências codificadoras de proteínas, e os intrões na família de genes são consideravelmente curtos daqueles em muitos outros genes humanos. Em contraste, uma sequência tio de 80kb de DNA da levedura S. cerevisiae, contém muitos espaços, próximos, codificantes de proteínas sem intrões e relativamente muito menos DNA não codificante. A densidade dos genes varia consideravelmente em diferentes regiões do DNA cromossomal humano, desde regiões ricas de genes, tais como a família das ß-globinas até largos desertos pobres em genes. Do total do genoma humano já sequenciado apenas ~1.5% corresponde a sequências codificadoras de proteínas (exões). A maioria dos exões humanos contém 50-200 pares de bases, contudo os exões 3’ em muitas unidades de transcrição é muito maior. Os intrões humanos variam consideravelmente em tamanho. Apesar de alguns terem ~90pb de tamanho alguns são bem maiores. O tamanho médio é 3,3 kb. Pensa-se que aproximadamente um terço do genoma humano é transcrito em percursores de pré-mRNA mas alguns 95% destas sequências são intrões, os quais são removidos durante o splicing. Pressões selectivas diferentes durante a evolução podem ter contribuído, pelo menos em parte, para a notável diferença na quantidade de DNA não funcional em organismos unicelulares e multicelulares. Por exemplo, os microrganismos devem competir por quantidades limitadas de nutrientes no seu ambiente, e a economia metabólica é uma característica critica. Visto que a síntese de DNA não codificante requer tempo e energia, presumivelmente houve pressões para eliminar aquelas zonas de DNA não codificantes durante a evolução. Por outro lado, a selecção natural nos vertebrados depende consideravelmente do seu comportamento. A energia investida na síntese de DNA é trivial comparada com a energia metabólica necessária para o movimento dos músculos; assim houve muito poucas pressões para eliminar DNA não funcional nos vertebrados. GENES CODIFICANTES PODEM SER SOLITÁRIOS OU PERTENCER A UMA FAMÍLIA A sequência de nucleótidos no DNA cromossomal podem ser classificados na sua estrutura básica e função, tal como mostrado na tabela 10-1. Em organismos multicelulares, ~25-50% dos genes codificantes de proteínas são representados apenas uma vez no genoma haplóide e por isso são chamados de genes solitários. Um exemplo bem estudado de um gene solitário é o gene de lisozimas das galinhas. A sequência de 15 kb que codifica a lisozima constitui uma simples unidade de transcrição contendo 4 exões e 3 intrões. As regiões laterais, estendendo-se cerca de 20kb acima e abaixo da unidade de transcrição, não codificam qualquer mRNAs detectável. E lisozima é uma enzima que se encontra no ovo da galinha assim como nas lágrimas humanas, em ambos os casos ela serve para manter a superfície, do ovo ou do olho, esterilizadas. Genes duplicados constituem o segundo grupo de genes codificantes de proteínas. Estes são genes com sequências aproximadas mas não idênticas que geralmente se encontram localizadas de 5 a 50 kb um do outro. No genoma dos vertebrados genes duplicados constituem provavelmente metade das sequências codificantes. Uma série de genes duplicados que codifiquem proteínas com semelhantes, mas não idênticas, sequências de aminoácidos é chamada uma família de genes; as proteínas codificadas, relacionadas e homólogas constituem uma família de proteínas. Uma gama de família de proteínas, tal como as cinases, factores