Prévia do material em texto
1 IBM1029 Introdução à Bioinformática Aula 14 Profª Drª Silvana Giuliatti Departamento de Genética – Bloco G Ramal: 4503 silvana@rge.fmrp.usp.br Faculdade de Medicina Departamento de Genética Predição de Genes • Objetivo da predição genes é identificar regiões de DNA que codificam proteínas. • O genoma humano tem ~3 bilhões de pares de bases e por volta de 35.000 genes que codificam proteínas. Quais são esses genes? Problema: determinar as posições de início e fim dos genes em um genoma Predição de Genes • Reconhecimento de Padrões • Identificação ao longo dos anos, através de experimentos, de “regras gerais “. Para entender esses padrões, estudar as estruturas dos genes: eucariotos e procariotos Predição de Genes • Genes em PROCARIOTOS • São mais fáceis de identificação que os genes de eucariotos por causa da simplicidade da estrutura gênica e densidade de genes no genomas. • Genomas pequenos • Alta densidade • Regiões codificantes e não codificantes • Não apresenta introns. gene genegenepromotor “start” (início) “stop” (fim) Predição de Genes • Genes em EUCARIOTOS • São mais difíceis de identificação porque possuem um processo de transcrição mais complicada. • A transcrição é iniciada em uma região de promotores, seguido por uma remoção de regiões não-codificantes (introns) do pré mRNA por um mecanismo de splicing, deixando apenas os exons. • O mRNA (maduro) é então traduzido na direção 5´3´, do sart codon até o stop codon. Predição de Genes • Genes em EUCARIOTOS exon intron Splice sites Tradução Proteína Splicing mRNA Cap- -Poli(A) Transcrição pre-mRNA Cap- -Poli(A) DNA Start codon Stop codon 2 Predição de Genes • Os Codons • Uma trinca de nucleotídeos é denominada codon. • Há 64 codons: 4 x 4 x 4 = 64 • Três desses condons são denominados de condons de finalização: stop codon. TAG TGA TAA • O codon de início, start codon, é a trinca ATG. • O restante codifica um aminoácido. AAA: K CAA: Q GAA: E AAC: N CAC: H GAC: D AAG: K CAG: Q GAG: E AAT: N CAT: H GAT: D Predição de Genes • “Reading Frame” • Para cada segmento de DNA há seis possíveis reading frames. Reading frame 1 ATG GCT TAC GCT TGC Reading frame 2 TGG CTT ACG CTT GA... Reading frame 3 GGC TTA CGC TTG A... ATGGCTTACGCTTGASequência “Forward”: Reading frame 1 TCA AGC GTA AGC CAT Reading frame 2 CAA GCG TAA GCC AT... Reading frame 3 AAG CGT AAG CCA T... TCAAGCGTAAGCCATSequência “Reverse”: Predição de Genes • “Open Reading Frame - ORF” • É um segmento de DNA com um start codon e um stop codon. Uma ORF Um gene Um stop codon start stop ORF Predição de Genes Identificação de Genes • Por homologia: – Buscas por similaridades – Por exemplo.: BLAST • Predição Ab initio – Programas de predição de gene – Procariotos • Identificação de ORF – Eucariotos • Predição de Promotores • Predição da Poli-A • Sítio de splice, predição de start/stop codons C om bi na çã o Ferramentas • Detectores de ORF http://www.ncbi.nih.gov/gorf/gorf.html • Predição de Promotores http://rulai.cshl.org/software/index1.htm fruitfly.org/seq_tools/promoter.html TATA-Box predictor • Predição de PoliA argon.cshl.org/tabaska/polyadq_form.html • Predição de sítios de Splice http://www.fruitfly.org/seq_tools/splice.html • Identificadores de Start-/Stop Codon – Translator/ORF-Finder – Searchlauncher Predição de Genes Programas de Predição de Genes • Programas baseados em Regras Básicas – Uso de um conjunto de regras para tomada de decisões. – Examplo: GeneFinder • Programas baseados em Redes Neurais – Usa um conjunto de dados para construir as regras. – Examplos: Grail, GrailEXP • Programas baseados em Modelos de “Hidden Markov” – Usa probabilidades de estados e transições entre esses estados para predição. – Examplos: Genscan, GenomeScan • Tabelas: 9.1 e 9.6 do Mount Predição de Genes