Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Análise de sequências de DNA e Proteínas Prof. Leonardo M. Cruz Depto. de Bioquímica e Biologia Molecular (UFPR) 2 Dogma central da Biologia Molecular 3 Fluxo de informação em procariotos e eucariotos Procariotos DNA RNA PTN transcrição tradução RNA DNA PTN RNA tradução transcrição Eucariotos 6 Anatomia de um gene procariótico Região reguladora Região codificadora UAS Promotor/ operador Sítio de início da transcrição DNA Transcrição RNAm Sítio de início da tradução Sítio de término da tradução Região 5'-UTR Região 3'-UTR Tradução PROTEÍNA UAS (upstream activator sequences) – seqüências ativadoras da transcrição. Sítios de ligação de proteínas ativadoras da transcrição UTR (untranslated region) – regiões não traduzidas OPERADORES – sítio de ligação de proteínas repressoras da transcrição Sítio de término da transcrição RBS 7 Operons Gene A Gene B Gene C Região reguladora (promotor/operador) Transcrição Tradução DNA RNAm PROTEÍNA Em procariotos, vários genes são agrupados em torno de uma única região reguladora. 8 Anatomia de um gene eucariótico Promotor e outros elementos reguladores proximais Sítio de início da transcrição Sítio de término da transcrição DNA Transcrição pré-RNAm Região 5'-UTR Região 3'-UTR Tradução PROTEÍNA Elementos reguladores distais Processamento Éxons Íntrons RNAm AAAAAAAACAP Não há agrupamento de genes em operons 9 Características do processo de transcrição (5’)CGCTATAGCGTTT(3’) DNA(fita codificadora) (3’)GCGATATCGCAAA(5’) DNA(fita molde) (5’)CGCUAUAGCGUUU(3’) RNA(transcrito) FITA CODIFICADORA fita complementar do DNA. É idêntica em seqüência a fita de RNA (trocando U por T) FITA MOLDE fita do DNA usada como molde na síntese de RNA 10 Organização da informação codificada Organização da informação docificada no genoma do adenovírus Ambas as fitas codificam proteínas O sentido de codificação é o mesmo em cada uma das fitas 11 Código IUPAC para sequências de DNA Código de uma letra Nome do nucleotídio Categoria A Adenina Purina C Citosina Pirimidina G Guanina Purina T Timina Pirimidina N Qualquer base R A ou G Purina Y C ou T Pirimidina IUPAC – International Union of Pure and Applied Chemistry DNA 5' – AGCTTCGGGGTAACTATTCG – 3' 3' – TCGAAGCCCCATTGATAAGC – 5' reverso 5' – CGAATAGTTACCCCGAAGCT – 3' reverso/complementar 5' – GCTTATCAATGGGGCTTCGA – 3' Sequência palindrômica 5' – TGATCA – 3' 3' – ACTAGT – 5' 12 Tradução in silico De proteína a DNA proteína A L Q E R T A S P G S G códons GCC CTT CAC GAA CGT ACT GCC TCT CCT GGT TCT GGT GCT CTC CAA GAG CGC ACC GCT TCA CCC GGC TCA GGC GCA CTA CGA ACA GCA TCC CCA GGA TCC GGA GCG CTG CGG ACG GCG TCG CCG GGG TCG GGG TTA AGA AGT AGT TTG AGG AGC AGC Devido ao código genético ser degenerado, não é possível deduzir a sequência de um gene a partir da sequência de uma proteína. De DNA a proteína DNA GCCCTACAAGAGCGCACTGCAAGTCCCGGTTCTGGA códons GCC CTA CAA GAG CGC ACT GCA AGT CCC GGT TCT GGA Proteína A L Q E R T A S P G S G Se a sequência de DNA está no sentido 5' → 3' A sequência de proteína estará no sentido N terminal → C terminal 15 O código genético padrão O código genético é degenerado (redundância principalmente na 3a. Base) Códon de início ATG (metionina) 83% Códons de parada TAA (ochre) TAG (amber) TGA (opal) Códons de início alternativos GTG (valina) 14% TTG (leucina) 3% Como códons de início, são traduzidos como metionina ou formilmetionina 16 Código dos aminoácidos Os amino ácidos são representados por códigos de uma ou três letras 17 Propriedade dos aminoácidos Sequência → Estrutura → Função A estrutura 3D de uma proteína é influenciada pelas características dos aminoácidos, como: - hidropaticidade - carga elétrica - tamanho/volume 18 Matriz de substituição PEQUENO E POLAR PEQUENO E APOLAR POLAR OU ACÍDICO BÁSICO GRANDE E HIDROFÓBICO AROMÁTICO MATRIZ DE SUBSTITUIÇÃO Probabilidades de mutação entre os aminoácidos que reflete suas características químicas 19 Preferência de uso de codon Diferenças na frequência de ocorrência de códons sinônimos na CDS do DNA Reflete um balanço entre tendências mutacionais e seleção natural para otimização traducional Está relacionado a diferentes fatores Nível de expressão gênica Refletindo a seleção para otimização do processo de tradução pela abundância de tRNA Composição GC% Refletindo transferência gênica horizontal ou tendência mutacional GC skew Refletindo tendência mutacional fita-específica Conservação de aminoácidos Hidropaticidade de proteínas Seleção transcricional Estabilidade do RNA 20 Uso de códon de Herbaspirillum seropedicae ttt 5.4 ( 8793) Phe cct 3.8 ( 6279) Pro aat 9.6 ( 15680) Asn ttc 29.7 ( 48271) ccc 17.5 ( 28411) aac 19.4 ( 31499) tta 0.6 ( 1109) Leu cca 2.9 ( 4715) aaa 4.4 ( 7183) Lys ttg 11.2 ( 18200) ccg 24.8 ( 40173) aag 31.1 ( 50386) ctt 2.6 ( 4286) act 2.6 ( 4310) Thr gat 18.3 ( 29745) Asp ctc 16.5 ( 26840) acc 32.8 ( 53206) gac 33.0 ( 53551) cta 1.2 ( 2064) aca 1.9 ( 3167) gaa 27.2 ( 44148) Glu ctg 76.3( 123636) acg 12.3 ( 20052) gag 25.7 ( 41677) att 5.3 ( 8654) Ile gct 8.0 ( 13003) Ala tgt 1.2 ( 1983) Cys atc 43.0 ( 69732) gcc 70.8( 114811) tgc 7.7 ( 12550) ata 1.0 ( 1671) gca 8.8 ( 14276) tgg 13.2 ( 21443) Trp atg 25.4 ( 41195) Met gcg 35.4 ( 57402) cgt 8.5 ( 13845) Arg gtt 2.4 ( 3890) Val tat 9.9 ( 16184) Tyr cgc 44.0 ( 71416) gtc 25.3 ( 40999) tac 14.3 ( 23222) cga 1.7 ( 2808) gta 3.1 ( 5127) cat 9.7 ( 15769) His cgg 8.0 ( 13003) gtg 41.5 ( 67226) cac 12.7 ( 20600) aga 0.8 ( 1439) tct 1.8 ( 3050) Ser caa 8.8 ( 14400) Gln agg 1.9 ( 3085) tcc 13.6 ( 22035) cag 36.2 ( 58687) tca 1.9 ( 3090) ggt 9.7 ( 15714) Gly tcg 16.9 ( 27385) ggc 57.4 ( 92982) agt 2.8 ( 4598) gga 4.7 ( 7728) agc 21.5 ( 34898) ggg 7.7 ( 12589) Colunas: 1. triplete 2. frequência (por mil) 3. númeroc 28 Identificação de elementos estruturais em sequências de DNA Busca por genes 30 Fase de leitura Cada fita do DNA possui 3 fases de leitura. O DNA possui um total de 6 fases de leitura. 31 Open reading frame (ORF) Uma região de sequências de nucleotídios, em uma mesma fase de leitura, a partir de um códon de início até um códon de parada. Marcação das ORF com comprimento maior de 100nt Códons de início Códons de parada Qual ORF realmente codifica para uma proteína!? Regra: em procariotos não há sobreposição de ORF. 33 ORF vs CDS ORF CDS Códon de início ajustado Regra: ORF mais longas possuem maior probabilidade de constituirem CDS 34 CDS hipotéticas Codificam para proteínas com função desconhecida Podem ser divididas em dois grupos Hipotéticas Quando não há similar nos bancos de dados Hipotéticas conservadas Existem similares nos bancos de dados 38 Sinais na sequência de DNA para identificação de CDS You may add additional text here ... 39 FramePlot H. seropedicae SmR1 (região 1..11115pb) GC 61,12% GC 46,19% Base conceitual: 1. Bactérias com alto GC possuem tendência no uso de códon. 2. Resulta em uma distribuição extremamente alta do GC na terceira base de cada códon. 3. Esta característica permite a predição de regiões codificadoras. GCtotal = 62,8% GC3a. base = 86,9% GCtotal = 60,7% GC3a. base = 87,5% GCtotal = 61,9% GC3a. base= 86,9% 40 Score para uso de códons GC 61,12% GC 46,19% H. seropedicae SmR1 (região 1..11115pb) Permite: 1. Localizar CDS em uma sequência de DNA 2. Prever o nível de expressão relativa 3. Detectar erros de inserção/deleção na CDS (framshift) Gribskov, M. et al. Nucleic Acids Res., 12(1):539-549,1984 41 Busca por genes em sequências de DNA GLIMMER 42 Modelo escondido de Markov d d d mmm iiii m – estado de pareamento d – estado de deleção i – estados de inserção Exemplo da sua utilização em um alinhamento entre sequências 43 Ordem dos modelos de Markov Modelo de Markov de 1a. ordem irá analisar a base precedente para determinar qual base será a seguinte Modelo de Markov de 2a. ordem irá analisar as duas bases precedentes para determinar qual base será a seguinte Modelo de markov interpolado (IMM) irá determinar qual a melhor ordem a ser usada Necessidade de um subconjunto de dados para treinamento 44 Glimmer Busca por genes utilizando IMM A partir de uma sequência longa de DNA Extrai ORF longas Cria o IMM a partir das ORF longas Usa o IMM criado para encontrar genes na sequência de DNA
Compartilhar