Baixe o app para aproveitar ainda mais
Prévia do material em texto
21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 1/14 Início | Aulas |Bibliografia | Exercícios | Artigos | Animações |Links | |A Equipe | Contato | Sua Opinião | Notícias Completas | Termo de Uso| Mapa do Site Genes: organização e estrutura (uma visão do genoma humano, da forma típica de seus genes e do fluxo da informação gênica) Este capítulo seguirá essencialmente o assunto abordado no capítulo 3 do livro Genética Médica (Thompson e Thompson). Em alguns pontos adicionaremos informações de outros livros e de artigos científicos, ou remeteremos o leitor a uma das aulas do website BiolMol. Para os assuntos Estrutura do DNA e O Dogma central da Biologia Molecular, remetemos o leitor à aula 2 da página BiolMol, item 2b e seguintes e à aula 1, item 1, da mesma página. Os seguintes temas serão tratados nesta aula: 1. Estrutura e organização do gene 2. Processamento do RNA - transcrito primário do DNA - para geração do mRNA 3. Diversidade da estrutura do gene 4. Promotores e ativadores 5. Genes cópia única, famílias e super-famílias de genes 6. Expressão de genes: síntese protéica e código genético 7. Uma visão geral da organização do genoma humano 8. Visitando o cromossoma 1 humano 1. Estrutura e organização do gene Inicialmente convém estabelecer o que entendemos por gene. Numa concepção simplista podemos admitir que um gene é o segmento de DNA que codifica uma certa proteína. Embora esta definiçao possa ser útil e válida, ela encontra dificuldades de aplicação quando o segmento de DNA contém introns. Por outro lado, convém em muitos casos considerar as regiões controladoras da expressão do gene como partes integrantes dele. Assim, a definição molecular de gene deve compreender um segmento de DNA bem maior do que o mínimo necessário para codificar os aminoácidos que fazem parte da sequência polipeptídica. Vamos começar o caminho na direção da definição molecular de um gene pela análise da estrutura típica de um gene procarioto. Embora em muitos casos vários genes estejam sob o controle de um único sistema, formando o chamado operon, vamos aqui considerar que um único gene está em jogo. A figura abaixo mostra um gene típico de um procarioto. Figura 1: Estrutura típica de um gene procarioto. RBS = sítio ligador de ribossomo; ATG = códon de iniciação da síntese protéica; Cds ou ORF = quadro aberto de leitura; stop = qualquer um dos três códons de finalização da síntese protéica; terminador = região terminadora da transcrição aluno Realce aluno Realce 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 2/14 O trecho compreendido entre o códon de iniciação da síntese proteíca (usualmente ATG ou TTG) e um dos três códons para terminação da síntese protéica (designados aqui por stop) determina a sequência de aminoácidos do polipeptídeo final, produto do gene. Este trecho é frequentemente designado como quadro aberto de leitura (ORF = open reading frame) ou sequência codificadora (Cds = coding sequence). Antes dele (diz-se 5' dele) estão o promotor (onde vai se ligar a RNA polimerase) e o sítio ligador de ribossomo (RBS = ribosome binding site ou rrs = ribosome recognition site), uma sequência que, quando transcrita para o mRNA, irá permitir o pareamento deste com um trecho complementar do RNA 16 S da sub-unidade menor do ribossoma. Após a ORF (3' dela, como se diz no jargão de biologia molecular), há o sinal de parada da transcrição, que é formado por uma sequência diádica acompanhada de um poliT (na fita 5'-3', que é sempre a de cima, salvo quando especificado na figura). A transcrição da região do terminador provoca a formação de um grampo no RNA mensageiro nascente, seguido de um poli-U, que interrompe a síntese de RNA. Para maior detalhe (não necessário para as aulas da disciplina oferecida ao curso de Medicina), consultar a aula 3 do website BiolMol. A transcrição do DNA, que começa numa base dentro da região promotora e termina no grampo de terminação, gera o mRNA. A análise da figura a seguir mostra que ele tem um segmento antes do códon de iniciação (AUG), que não será traduzido. Este trecho de mRNA é designado 5'- UTR (região 5' não traduzida; UTR = untranslated region) e pode ter dezenas de bases na maioria das bactérias. Da mesma forma, após o códon de terminação da tradução, há um trecho de mRNA não traduzido, designado como região 3'- UTR. Este segmento pode ter também várias dezenas de bases. A função das regiões UTR nas bactérias nem sempre é clara. No caso da 5'-UTR, ela contém o sítio ligador de ribossoma, sem o qual nenhuma síntese de proteína é possível. Figura 2: mRNA transcrito do gene. Observe que a região 5'-UTR contém o RBS, enquanto a 3'-UTR tem o grampo de terminação. Nos eucariotos os genes costumam ter, cada um, sua região controladora. Há poucos exemplos de transcritos de RNA com vários genes, que são entretanto comuns nas bactérias. A estrutura geral do gene acompanha, portanto, a figura acima, mas há várias particularidades, tanto na organização das regiões controladores e codificantes, como no processo de transcrição e processamento do RNA até chegar ao mRNA maduro. Vamos observar primeiro a estrutura geral de um gene eucarioto, como representado na figura abaixo. 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 3/14 Figura 3: Diagrama de um gene hipotético eucarioto. Além das regiões, sítios e características já descritas para o gene procarioto, há ainda sinais (S) entre o promotor e o códon de inciação (pequenas sequências que determinam o destino do mRNA, sua duração e outros parâmetros importantes na fisiologia da célula) e uma divisão da ORF em regiões codificantes (formadas por exons) e regiões intercalares (formadas por introns). O promotor, como nos procariotos, pode conter uma sequência de 6 a 8 bases, rica em A e T, conhecida como caixa TATA. Esta sequência varia um pouco de posição, mas costuma estar cerca de 25 bases do início da transcrição do RNA (que determina a base +1). A caixa CAT está mais acima (5') e tem uma posição menos conservada. Eventualmente, não existe. Para uma visão detalhada da estrutura do promotor bacteriano, veja a aula 3 da página BiolMol (não é indispensável para a disciplina do curso de Medicina, mas sugerimos a leitura). No item 4 desta aula voltaremos a discutir este ponto. Observe que o códon de iniciação da síntese protéica está quase no meio do primeiro exon. Esta posição é muito variável e o códon pode até mesmo estar no 2o. ou no 3o. exon. Todas as bases antes dele vão formar a região 5' não traduzida (fora aquelas que forem retiradas porque são introns - no caso de códon de iniciação no 2o. exon, por exemplo - ou por algum tipo de trimagem pós-transcricional). Portanto, quando dizemos que o exon tem uma sequência codificante, podemos estar sendo pouco precisos. O exon 1 do exemplo da globina só tem parte dele devotada à codificação da proteína, sendo o segmento inicial conservado no mRNA, mas não traduzido. Seria mais correto dizer que os exons são as sequências que permanecem no RNA após a retirada dos introns. Entretanto, ainda esta definição pode ainda ser confusa porque, devido ao splicing alternativa, ora um certo exon permanece na sequência final do RNA, ora é retirado, dependendo do tecido, do desenvolvimento do organismo, de seu sexo e de muitos outros fatores. Assim, é preciso estar alerta sobre esta dificuldade conceitual, que de fato não tem solução. 2. Processamento do RNA - transcrito primário do DNA - para geração do mRNA No genoma humano os introns iniciam sempre com GU e terminam em AG. Há um número maior de bases relativamente conservadas nas duas extremidades e elas participam no reconhecimentodo intron pelo spliceossomo ou encadeassomo, complexo enzimático responsável pela retirada dos introns e emenda dos exons adjacentes (mais adiante vamos ver que os exons devem ser sinalizados para o sistema). A figura abaixo mostra esquematicamente a retirada os introns, assim como duas outras modificações importantes do transcrito primário de RNA: o capeamento e o caudeamento. No capeamento, uma base diferente das demais que compõem o RNA, a 7-metil-guanosina, é adicionada na extremidade 5' do mRNA, com sua hidroxila da posição 3' voltada para fora do RNA. Na outra extremidade, a partir de um sinal de poli- adenilação (uma sequência no mRNA), uma enzima específica cliva o RNA, descarta a porção 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 4/14 final e adiciona à extremidade 3' um número variável de adeninas (de 15 a 300). Com isto, o trecho que vai deste sinal até o fim do mRNA fica perdido. este fenômeno dificulta imensamente o estudo do mecanismo de terminação da transcrição em eucariotos, que ainda não é bem compreendido. Figura 4: Diagrama do processamento do transcrito primário até o mRNA maduro. Os introns formam laços (denominados lariats) na presença do splicesossomo (1), sendo retirados. Ao mesmo tempo, a parte final (3') do RNA é clivada (2) e uma cauda poli-A adicionada. Por fim, uma resíduo de 7-metil-guanosina é adicionado à extremidade 5' do RNA, criando o boné, ou cap (3). O mRNA pronto passa pelo poro nuclear para o citoplasma, onde será traduzido. Por este poro passam também as duas sub-unidades do ribossomo (separadamente). Dependendo dos sinais que o mRNA tiver nas regiões 5'-UTR e 3'-UTR, ele poderá ser exportado para uma organela (mitocôndria ou cloroplasto), transportado para determinadas regiões da célula (botões sinápticos, por exemplo) ou ainda formar parte do pool de mRNAs não traduzidos. As duas regiões UTR têm, na verdade, um importante papel na regulação pós-transcricional da expressão gênica, mas este assunto não será desenvolvido aqui. basta no momento sabermos que muitos eucariotos empregam este mecanismo com frequência e, em alguns casos, quase exclusivamente (como é o caso da Leishmania e do Trypanosoma). 3. Diversidade da estrutura do gene Embora o diagrama apresentado para a estrutura de um gene eucarioto seja correto, os genes podem diferir muito em número de exons e no seu tamanho final. A figura abaixo dá alguns exemplos esclarecedores. aluno Realce 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 5/14 Figura 5: Genes humanos mostram uma grande variação de tamanho e da proporção relativa entre exons e introns. Nesta figura o tamanho do gene está representado pela barra vermelha e o conteúdo de exons pela porcentagem ao lado do nome do gene. No caso da imunoglobulina, está mostrado o tamanho do gene na linhagem germinativa. Considere que a cadeia pesada tem cerca de 440aa, o que corresponde a aprox. 1300 bases, dando uma porcentagem de exons de 0,1%. Vamos procurar analisar a figura acima, que é bastante densa. Deve-se ter em mente inicialmente, que o tamanho médio de uma proteína humana é de 450 aminoácidos. Proteínas muito pequenas costumam conter apenas os domínios funcionais indispensáveis para sua função. Seus genes são, também, geralmente pequenos. É o caso de todas as proteínas mostradas no quadro dos genes com menos de 10 kb. Observe também que no quadro há o gene para um tRNA. O conceito de gene que codifica um RNA, e não uma proteína, é mais uma concessão ao nome "gene", que está se tornando um conceito cada vez mais amplo e, lamentavelmente, cada vez mais vago. Ainda com a atenção sobre o quadro dos genes pequenos, fica claro que, à medida que os introns aparecem nas suas sequências, eles aumentam de tamanho. Assim, a globina e a molécula de HLA Classe I não são maiores que o interferon, mas seus genes são 2 e 4 vezes maiores, respectivamente. Se nos movermos para os quadros seguintes, vamos verificar um aumento de tamanho de genes de 1 e 2 ordens de grandeza, sem que as proteínas que eles codifiquem sejam significativamente maiores que aquelas do quadro 1: 95% das proteínas humanas têm entre 150 e 800 aminocácidos, e aquelas mostradas nos três quadros da figura acima, exceto pela apolipoproteína (mais de 4000 aa) e pela distrofina (427 kD, pouco mais de 4000 aa e um mRNA de aprox. 17.000 bases) , não são maiores que isto. A conclusão a que somos forçados é: os introns são em geral muito maiores que os exons. Isto pode ser comprovado pela porcentagem aluno Realce 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 6/14 relativa de introns nos genes dos quadros. No caso extremo do gene da distrofina, com cerca de 80 exons espalhados por quase 2,5 milhões de pares de bases, das quais perto de 16.000 apenas codificam aminoácidos, os introns são verdadeiramente imensos. Neste caso, e em boa parte dos demais genes, os exons ficam imersos num conjunto de grandes introns. Por isso a Natureza desenvolveu um sofisticado sistema de reconhecimento de exons no processo de splicing. Embora seja comum lermos em livros texto que o spliceossomo reconhece sequências no início e no fim dos introns, o que também foi dito no item anterior nesta aula, isto é apenas parte do sistema de reconhecimento da região a ser encadeada. É indispensável que as fronteiras entre exons e introns seja bem delimitadas e que haja mesmo uma sinalização para a presença do exon, para que ele não fique "perdido" num "mar" de introns. A figura abaixo mostra o atual estado de conhecimento deste sofisticado mecanismo. O artigo completo da revista Nature (julho/2002) pode ser baixado aqui (585 kb). Figura 6: Reconhecimento de exons no processo de splicing. Os sítios aceptores de splicing GU e AG são reconhecidos pela maquinaria de splicing com base na sua proximidade com os exons. Os exons contêm sequências chamadas ativadores exônicos de splicing (ESE), que são sítios de ligação para as proteínas SR. Quando elas se ligam a estes sítios no RNA, recrutam as snRNP U1 (pequenas ribonucleoproteínas nucleares) para o sítio aceptor de splicing 5', localizado mais abaixo do SR, e recrutam o fator de splicing U2AF, tanto a sub-unidade de 65 kD como a de 35 kD, para as repetições de pirimidina YYYY e para o dinucleotídeo AG do sítio aceptor de splicing 3', respectivamente. Assim, as proteínas SR recrutam fatores de splicing para formar um complexo de reconhecimento através do exon (cross exon). As proteínas SR também funcionam no reconhecimento através do intros (cross intron), facilitando as interações entre a snRNP U1, ligada ao GU, e a snRNP U2, ligada à sequência de ramificação. Splicing alternativo O splicing alternativo tem aparecido nos últimos anos como o mecanismo que pode explicar a enorme diferença entre o tamanho modesto do conjunto de genes humano e a elevada complexidade do proteoma. Pelo menos um terço, e provavelmente a maioria, dos genes humanos são alternativamente encadeados, e alguns genes podem gerar milhares de isoformas de proteínas por eventos complexos de splicing alternativo. A análise do transcriptoma (conjunto de mRNAs do ser vivo ou da célula em estudo) dependerá do desenvolvimento de novas tecnologias para atacar a complexidade criada pelo splicing alternativo. Na página satélite disponibilizada aqui vamos rever apenas as várias possibilidades de splicing alternativo e examinar alguns exemplos elucidativos. A comparação entre três genes bem estudados, o da -globina, o do fator VIII e o da HPRT, encerrará este item, evidenciando todos os pontos discutidos acima. O gene da -globina cobre aluno Realce aluno Realce 21/09/2015 Functional repetitive sequenceshttps://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 7/14 perto de 2 kb, enquanto o do fator VIII é dez vezes maior. O primeiro tem apenas 3 exons, enquanto o segundo tem 26. Entretanto, o tamanho dos seus produtos gênicos (proteínas) não é muito diferente. A razão reside, evidentemente, no número e tamanho dos introns. O gene da HPRT está numa posição intermediária entre os dois genes já discutidos, tem 9 exons e cobre 50 kb do genoma. Uma análise da figura 5 acima mostra que os exons representam 33% do gene da globina, mas apenas 4% do gene da HPRT e somente 3% do gene do fator VIII. A figura abaixo compara os três genes. Figura 7: Comparação entre os genes humanos da b-globina, do fator VIII da coagulação e da HPRT (hipoxantina ribosil transferase). Os três genes diferem largamente em tamanho, mas estão representados no mesmo fundo de escala. Os exons estão indicados ou numerados. As pequenas caixa não hachuradas antes e depois do primeiro e do último exon, respectivamente, representam as regiões 5'-UTR e 3'-UTR de cada gene. As regiões promotoras estão indicadas, assim como sua estrutura geral. 4. Promotores e ativadores Na figura acima um outro aspecto importante da estrutura geral de um gene eucarioto está representado: a região promotora. Observe que ela difere entre os 3 genes apresentados: os dois primeiros são genes controlados durante a vida da célula a presentam ao menos uma caixa TATA. As regiões, ou caixas, TATA e CAT, são sítios ligadores da RNA polimerase 2 eucariota (que transcreve mRNAs), e são controladas por um complexo sistema de fatores de transcrição e regiões ativadoras (enhancers) da expressão gênica. Já o terceiro gene é constitutivamente expresso (não é controlado) e tem apenas regiões ricas em G e C, chamadas caixas GC. Um promotor eucarioto típico está mostrado abaixo (para um gene do vírus do herpes simplex, o que pode parecer estranho: mas lembre-se que os genes do vírus têm que ser transcritos e 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 8/14 traduzidos pela maquinaria da célula hospedeira, no caso um eucarioto). As regiões controladoras podem ocupar milhares de bases, pois os ativadores e outras sequências controladores podem estar muito distantes do sítio de iniciação da síntese de RNA. Figura 8: Um promotor eucarioto típico, neste caso o promotor do gene da timidina quinase do virus do herpes simplex. Ele contém 3 sequências acima da caixa TATA que são necessárias para uma transcrição eficiente: a caixa CAT (ou CCAAT) e duas caixas GC, com a sequência de consenso GGGCGG. Observe a semelhança estrutural entre este promotor e o promotor bacteriano, apresentado na aula 3 da página Biolmol. As duas caixas TATA e CAT, correspondem às caixas TATA e TTGACA do procarioto. No caso deste promotor viral, há também duas sequências ricas em G e C, com o consenso GGGCGG, que reforçam a função promotora deste sítio. Figura 9: O promotor do virus SV40 (simian virus 40, de uma leucemia de macacos) para os genes de expressão precoce contém uma caixa TATA e seis caixas GC arranjadas em três conjuntos de sequências repetidas. Adicionalmente, a transcrição necessita ainda, para ser eficiente, de um enhancer acima da região promotora, e que consiste em duas repetições de 72 pb cada. O mecanismo pelo qual um ativador auxilia na transcrição parece ser dependente de um dobramento do DNA e da aproximação da sequência do promotor com a caixa TATA. Por isso os atenuadores podem ser muito distantes do início do sítio de transcrição (por exemplo, 50 kb) e podem estar orientados no mesmo sentido da transcrição ou, muitas vezes, em sentido oposto. A figura abaixo mostra esquematicamente este processo. Figura 10. Loop de DNA. Os fatores de transcrição ligados a ativadores distantes são capazes de interagir com fatores de transcrição mais gerais que estão ligados ao promotor, porque o segmento de DNA entre os dois sítios pode formar uma alça (loop). Assim, não parece haver diferença fundamental entre a ação de fatores de transcrição ligados logo acima do promotor ou a ativadores distantes. 5. Genes cópia única, famílias e superfamílias de genes. 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 9/14 Nos genomas eucariotos em geral os genes têm mais de uma cópia, mesmo considerando apenas o complemento haplóide. As duplicações de genes ocorrem por vários mecanismos possíveis e a seleção natural aos poucos vai fazendo com que estas cópias progressivamente se diferenciem entre si. Muitos genes que hoje têm funções distintas provavelmente um dia surgiram por duplicação. Genes de igual função e com similaridade de sequência num mesmo organismo são chamados parálogos, reservando-se o nome ortólogo para o gene com a mesma função e similar a outro de outra espécie de organismo. Nos dois casos, desde que a função biológica dos dois genes seja a mesma (ou próxima), eles são chamados de homólogos. Assim, muitos genes no genoma humano pertencem a famílias, reconhecidos pela similaridade da sequência de nucleotídeos ou, no mais das vezes, de aminoácidos. Os genes cópia única são raros. Um exemplo de família gênica é a família das globinas, mostrada na figura abaixo. Figura 11: Família das globinas, distribuída em dois cromossomos. Além dos genes funcionais para -globina e -globina, os cromossomos 11 e 16 mostram genes não funcionais, conhecidos como pseudogenes. Os pseudogenes com introns foram gerados possivelmente por duplicação gênica e posterior mutação, eliminado o códon de iniciação ou algum elemento regulador importante, ou ainda criando um códon de terminação precoce. Quando os pseudogenes não têm introns eles são chamados pseudogenes processados, e podem ter sido originados de retrotransposição a partir de mensageiros do próprio organismo, A comparação das sequências das diversas cópias permite inferir que, para os genes da globina, deve ter havido um primeiro evento de duplicação há quase 500 milhões de anos. Portanto, é um fenômeno muito antigo (lembre-se que a Explosão Cambriana aconteceu a 580 milhões de anos). Os genes de um mesmo grupo, por exemplo, no cromossoma 16, são mais semelhantes entre si do que em relação aos membros do grupo no cromossoma 11. Cada gene é expresso numa diferente fase da vida do indivíduo. Quatro são exclusivamente fetais. dois exclusivamente embriônicos, dois exclusivamente expressos no indivíduo adulto e dois expressos desde o feto até o adulto (veja figura abaixo) Figura 12: Expressão dos genes de globina ao longo do desenvolvimento do indivíduo. Os dois genes fetais G e A têm 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 10/14 elevada expressão antes do nascimento e são silenciados progressivamente, iniciando algumas semanas antes do nascimento e progredindo até o bloqueio completo em 24- 36 semanas. Ao contrário, o gene b (beta) adulto está pouco expresso na vida fetal e é intensamente ativado após o nascimento. É interessante notar que a estrutura de introns e exons dos genes da globina está preservada para todas as cópias funcionais. Entretanto, observa-se, como era de se esperar pela pressão da seleção natural, muito mais conservação entre sequências de exons do que de introns ente os mesmos genes. A maior superfamília de genes é a da imunoglobulina. Aparentemente esta família de genes evoluiu a partir de uma sequência que codificava um domínio Ig globular de cerca de 110 aminoácidos, formando uma estrutura fechada por uma ponte dissulfeto. Centenas de genes fazem parte agora desta superfamília, que incluem muitas das moléculas do sistema imune e um grande número de moléculas de adesão. A figura abaixomostra alguns membros da superfamília envolvidos na resposta imune. Figura 13: Algumas das proteínas de membrana da superfamília das imunoglobulinas.Os domínios Ig estão marcados em cinza e os domínios ligadores de antígeno em azul. A superfamília Ig também inclui muitas proteínas de membrana envolvidas na interação célula a célula, mas que não fazem parte do sistema imune, como a proteína de adesão celular neural (N-CAM) e os receptores para vários fatores de crescimento protéicos. 6. Expressão de genes: síntese protéica (Tradução e Código Genético) 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 11/14 Este tema constitui uma página autônoma. Clique aqui para alcançá-la. É indispensável a sua leitura para a compreensão da importância da organização do gene na sua expressão. 7. Uma visão geral da organização do genoma humano O genoma humano de foto compreende dois genomas: o nuclear, que responde por 99,995% das sequências de bases, e o mitocondrial. O reduzido genoma mitocondrial mostra que houve, durante o processo de simbiose e integração à célula, uma transferência progressiva de genes da mitocôndria para o genoma do eucarioto. Agora os poucos genes mitocondriais restantes são transcritos e traduzidos pelos ribossomos mitocondriais. A maior parte das proteínas que a mitocôndria necessita são produzidas no citoplasma da célula e exportadas para a mitocôndria. Para dirigir nossa discussão sobre a organização do genoma vamos tomar por base o diagrama abaixo. Figura 14: Organização do genoma humano. A informação genética está essencialmente concentrada no genoma nuclear. O número de genes para o genoma mitocondrial é conhecido, mas para o genoma nuclear é apenas estimado. Genes são considerados aqui os segmentos de DNA que são transcritos para dar origem a uma proteína ou RNA funcional. Sequências relacionadas a genes são as regiões controladoras 5' e 3' do gene, algumas vezes a várias kbases de distância do início da transcrição ou de seu término. DNA codificador é apenas aquele que é traduzido. Por fragmentos de genes entende-se trechos do DNA que contêm restos de genes deixados no genoma ao longo da evolução. As sequências não traduzidas, grupadas com os introns, são as regiões 3'-UTR e 5'-UTR. Repetições são 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 12/14 ditas em tandem quando o final de um motivo é seguido imediatamente pelo início de um motivo idêntico, sendo este arranjo repetido muitas vezes (como nos vagões de um trem). Repetições agrupadas têm entre si DNA não repetitivo, mas estão fisicamente próximas no genoma. O genoma mitocondrial O genoma mitocondrial é composto de um pequeno DNA circular fita dupla (16,6 kb), densamente povoado de genes. Num pequeno trecho este DNA aparece como fita tripla, pois uma parte de uma das fitas é replicada 2 vezes durante a duplicação do genoma. 28 genes são codificados por uma das fitas (dita pesada, e rica em guaninas) e 9 pela outra fita (dita leve). Do total de genes 24 especificam RNAs funcionais: 22 tRNAs mitocondriais e 2 rRNAs mitocondriais. Os 13 genes restantes codificam polipeptídeos que são produzidos pela própria mitocôndria, através de seus ribossomas. O código genético da mitocôndria (assim como o dos cloroplastos) difere levemente do código empregado pelos genes nucleares. O genoma nuclear O genoma nuclear humano está dividido entre 24 diferentes tipos de moléculas de DNA lineares fita dupla, que formam, junto com as histonas e outras moléculas, os cromossomos. Dois destes cromossomos determinam o sexo na espécie e são denominados X e Y. A composição dos cromossomos e sua estrutura geral serão tema de outra aula. Os cromossomos humanos são moléculas muito grandes, variando de 50 Mb a 250 Mb, com média de 130 Mb, sendo assim cada um deles em média 10.000 maiores que o genoma mitocondrial. Para fins de comparação podemos citar que o genoma de uma bactéria pode variar de 2,5 Mb a 10 Mb. O genoma de um protozoário costuma ter entre 15 e 50 Mb. Mas o tamanho do cromossomo não guarda uma relação óbvia com a complexidade do organismo, tanto por causa das repetições de DNA e regiões não codificantes diversas, comuns nos genomas de eucariotos, como pela ploidia (número de cópias dos cromossomos no genoma). Nas preparações citogenéticas de cromossomos metafásicos uma banda pode ter perto de 6 Mb de DNA. A proporção de bases no genoma humano é de 43% GC (lembre-se que o número de bases A deve ser igual ao de T, e de G igual ao de C num DNA fita dupla, mas não precisa haver correlação clara entre o número de bases A e G, por exemplo. Há organismos mais ricos em G e C, outros muito mais ricos em A e T, e que geralmente são filogeneticamente próximos). Um importante aspecto do estudo da genômica é a distribuição do dinucleotídeo CpG (com esta sigla designamos o dinucleotídeo 5'-CG-3', que indica cytosine-phosphate-guanine). Pelas frequência de G e C no genoma esperava-se uma frequência do dinucleotídeo em torno de 0,0441. Entretanto, a frequência observada é muito menor. Ocorre que os eucariotos metilam o DNA (para identificar a fita antiga da nova, na replicação e para regular a expressão gênica), e em geral o fazem no dinucleotídeo CpG. Assim, ele se transforma e mCpG. Mas o dinucleotídeo metilado mCpG converte-se ao longo de um tempo evolutivo considerável, em TpG. Por isso a queda da proporção esperada de CpG. Contudo, em vários trechos do DNA, eles são frequentes. São as chamadas ilhas CpG ou ilhas CG, e têm um importante papel no rearranjo da estrutura da cromatina e no controle de grandes blocos de genes. Por causa dos longos trechos repetidos, frequentes no DNA humano (e de outros eucariotos), a composição média de bases também 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 13/14 pode variar bastante de trecho para trecho do genoma. Nas extremidades, por exemplo, os telômeros adicionados pela telomerase têm uma composição muito particular, com 50% GC. As regiões com muitas repetições têm uma composição relativa de bases suficientemente distinta das regões não repetidas para terem uma densidade de flutuação distinta delas num gradiente de sacarose. Assim por ultracentrifugação de pedaços de DNA é possível separar regiões repetidas do restante do DNA. A banda formada, chamada banda satélite, acabou denominando estar regiões. Assim, as sequências satélite ou DNAs satélite nada mais são do que sequências com muitas repetições de bases, A densidade de distribuição dos genes nos cromossomos é muitíssimo variável. As regiões teloméricas (extremidades dos cromossomos) são deprovidas de genes, assim como várias outras regiões especializadas dos cromossomos, como os centrômeros e grandes regiões do cromossomo Y. Por outro lado, as regiões sub-teloméricas costumam ser ricas em genes. Uma visita ao cromossomo 1, facilitada nesta página (ver próximo item) mostra claramente este ponto. O número real de gene do genoma humano não é conhecido ainda, apesar da sequência de todo o genoma estar essencialmente completa. A causa deste desconhecimento está na base de nossa compreensão da estrutura de um gene humano. de fato, para a maior parte das sequências que parecem ser genes, não temos a idéia de qual seja a função. Assim, pode acontecer que estejamos identificando como gene algo que não é, em muitos casos. Por outro lado, como não conhecemos com clarez as estruturas de todas as regiões promotoras, também não temos como afirmar que um determinado segmento de DNA será transcrito algum dia. Pelas estimativas obtidas por outros sistemas de avaliação de genes (análise de genes expressos por microarray e pela construção e sequenciamentode bibliotecas de cDNA, além do uso do sistema ORESTES, desenvolvido pelos pesquisadore do Instituo Ludwig para a Pesquisa sobre o Cancer,de São Paulo), provavelmente não temos mais que 50.000 genes. A densidade de genes seria, assim, perto de um gene a cada 15 kb, se eles fossem homogeneamente distribuídos pelos cromossomos, o que definitivamente não é o caso. Por isso, há áreas onde os genes estão densamente agrupados, e outras relativamente vazias. Aqui se encerra provisoriamente esta aula (mas não esqueçam que o item 8 faz parte integrante desta aula!). O final dela (que incluirá uma discussão sobre as famílias gênicas e as classes de DNA repetitivo) e a aula seguinte (Ferramentas da Genética Molecular Humana (Cap. 4 do Thompson & Thompson) serão cobrados na prova do dia 22 de maio 8. Visitando o cromossoma 1 humano Clique aqui para visitar o cromossomo 1 humano e averiguar a extraordinária diversidade de densidades gênicas ao longo do cromossomo. É essencial esta visita para a completa compreensão do tema desta aula. 21/09/2015 Functional repetitive sequences https://www.ufpe.br/biolmol/GeneticaMedicina/genesestrutura_e_organizacao.htm 14/14
Compartilhar