Buscar

Analise De Sequencias de DNA e Proteínas

Prévia do material em texto

1
Análise de sequências de
DNA e Proteínas
Prof. Leonardo M. Cruz
Depto. de Bioquímica e Biologia Molecular (UFPR)
2
Dogma central da Biologia Molecular
3
Fluxo de informação em
procariotos e eucariotos
Procariotos
DNA
RNA
PTN
transcrição tradução
RNA
DNA
PTN
RNA
tradução
transcrição
Eucariotos
6
Anatomia de um gene procariótico
Região reguladora Região codificadora
UAS Promotor/
operador
Sítio de início 
da transcrição
DNA
Transcrição
RNAm
Sítio de início 
da tradução
Sítio de término 
da tradução
Região 
5'-UTR
Região 
3'-UTR
Tradução
PROTEÍNA
UAS (upstream activator sequences) – seqüências 
ativadoras da transcrição. Sítios de ligação de 
proteínas ativadoras da transcrição
UTR (untranslated region) – regiões não traduzidas
OPERADORES – sítio de ligação de proteínas 
repressoras da transcrição
Sítio de término 
da transcrição
RBS
7
Operons
Gene A Gene B Gene C
Região reguladora 
(promotor/operador)
Transcrição
Tradução
DNA
RNAm
PROTEÍNA
Em procariotos, vários genes são agrupados 
em torno de uma única região reguladora.
8
Anatomia de um gene eucariótico
Promotor e outros 
elementos reguladores 
proximais
Sítio de início 
da transcrição
Sítio de término 
da transcrição
DNA
Transcrição
pré-RNAm
Região 
5'-UTR
Região 
3'-UTR
Tradução
PROTEÍNA
Elementos 
reguladores 
distais
Processamento
Éxons
Íntrons
RNAm AAAAAAAACAP
Não há agrupamento 
de genes em operons
9
Características do processo de transcrição
(5’)CGCTATAGCGTTT(3’) DNA(fita codificadora)
(3’)GCGATATCGCAAA(5’) DNA(fita molde)
(5’)CGCUAUAGCGUUU(3’) RNA(transcrito)
FITA CODIFICADORA
fita complementar do DNA. É 
idêntica em seqüência a fita 
de RNA (trocando U por T)
FITA MOLDE
fita do DNA usada como 
molde na síntese de RNA
10
Organização da informação codificada
Organização da informação docificada no genoma do adenovírus
Ambas as fitas codificam proteínas
O sentido de codificação é o mesmo em cada uma das fitas
11
Código IUPAC para sequências de DNA
Código de 
uma letra
Nome do 
nucleotídio
Categoria
A Adenina Purina
C Citosina Pirimidina
G Guanina Purina
T Timina Pirimidina
N Qualquer base
R A ou G Purina
Y C ou T Pirimidina
IUPAC – International Union of Pure and Applied Chemistry
DNA
5' – AGCTTCGGGGTAACTATTCG – 3'
3' – TCGAAGCCCCATTGATAAGC – 5'
reverso
5' – CGAATAGTTACCCCGAAGCT – 3'
reverso/complementar
5' – GCTTATCAATGGGGCTTCGA – 3'
Sequência palindrômica
5' – TGATCA – 3'
3' – ACTAGT – 5'
12
Tradução in silico
De proteína a DNA
proteína A L Q E R T A S P G S G
códons GCC CTT CAC GAA CGT ACT GCC TCT CCT GGT TCT GGT
 GCT CTC CAA GAG CGC ACC GCT TCA CCC GGC TCA GGC
 GCA CTA CGA ACA GCA TCC CCA GGA TCC GGA
 GCG CTG CGG ACG GCG TCG CCG GGG TCG GGG
 TTA AGA AGT AGT
 TTG AGG AGC AGC
Devido ao código genético ser degenerado, não é possível deduzir 
a sequência de um gene a partir da sequência de uma proteína.
De DNA a proteína
DNA GCCCTACAAGAGCGCACTGCAAGTCCCGGTTCTGGA
códons GCC CTA CAA GAG CGC ACT GCA AGT CCC GGT TCT GGA
Proteína A L Q E R T A S P G S G
Se a sequência de DNA está no sentido 5' → 3'
A sequência de proteína estará no sentido N terminal → C terminal
15
O código genético padrão
O código genético é 
degenerado (redundância 
principalmente na 3a. Base)
Códon de início
 ATG (metionina) 83%
Códons de parada
 TAA (ochre)
 TAG (amber)
 TGA (opal)
Códons de início alternativos
 GTG (valina) 14%
 TTG (leucina) 3%
Como códons de início, são 
traduzidos como metionina 
ou formilmetionina
16
Código dos aminoácidos
Os amino ácidos são representados 
por códigos de uma ou três letras
17
Propriedade dos aminoácidos
Sequência → Estrutura → Função
A estrutura 3D de uma proteína é 
influenciada pelas características 
dos aminoácidos, como:
- hidropaticidade
- carga elétrica
- tamanho/volume
18
Matriz de substituição
PEQUENO 
E POLAR
PEQUENO E 
APOLAR
POLAR OU 
ACÍDICO
BÁSICO
GRANDE E 
HIDROFÓBICO
AROMÁTICO
MATRIZ DE SUBSTITUIÇÃO
Probabilidades de mutação entre os aminoácidos 
que reflete suas características químicas
19
Preferência de uso de codon
Diferenças na frequência de ocorrência de códons sinônimos 
na CDS do DNA
Reflete um balanço entre tendências mutacionais e seleção 
natural para otimização traducional
Está relacionado a diferentes fatores
Nível de expressão gênica
Refletindo a seleção para otimização do processo de 
tradução pela abundância de tRNA
Composição GC%
Refletindo transferência gênica horizontal ou tendência 
mutacional
GC skew
Refletindo tendência mutacional fita-específica
Conservação de aminoácidos
Hidropaticidade de proteínas
Seleção transcricional
Estabilidade do RNA
20
Uso de códon de Herbaspirillum seropedicae
ttt 5.4 ( 8793) Phe cct 3.8 ( 6279) Pro aat 9.6 ( 15680) Asn
ttc 29.7 ( 48271) ccc 17.5 ( 28411) aac 19.4 ( 31499)
tta 0.6 ( 1109) Leu cca 2.9 ( 4715) aaa 4.4 ( 7183) Lys
ttg 11.2 ( 18200) ccg 24.8 ( 40173) aag 31.1 ( 50386)
ctt 2.6 ( 4286) act 2.6 ( 4310) Thr gat 18.3 ( 29745) Asp
ctc 16.5 ( 26840) acc 32.8 ( 53206) gac 33.0 ( 53551)
cta 1.2 ( 2064) aca 1.9 ( 3167) gaa 27.2 ( 44148) Glu
ctg 76.3( 123636) acg 12.3 ( 20052) gag 25.7 ( 41677)
att 5.3 ( 8654) Ile gct 8.0 ( 13003) Ala tgt 1.2 ( 1983) Cys
atc 43.0 ( 69732) gcc 70.8( 114811) tgc 7.7 ( 12550)
ata 1.0 ( 1671) gca 8.8 ( 14276) tgg 13.2 ( 21443) Trp
atg 25.4 ( 41195) Met gcg 35.4 ( 57402) cgt 8.5 ( 13845) Arg
gtt 2.4 ( 3890) Val tat 9.9 ( 16184) Tyr cgc 44.0 ( 71416)
gtc 25.3 ( 40999) tac 14.3 ( 23222) cga 1.7 ( 2808)
gta 3.1 ( 5127) cat 9.7 ( 15769) His cgg 8.0 ( 13003)
gtg 41.5 ( 67226) cac 12.7 ( 20600) aga 0.8 ( 1439)
tct 1.8 ( 3050) Ser caa 8.8 ( 14400) Gln agg 1.9 ( 3085)
tcc 13.6 ( 22035) cag 36.2 ( 58687)
tca 1.9 ( 3090) ggt 9.7 ( 15714) Gly
tcg 16.9 ( 27385) ggc 57.4 ( 92982)
agt 2.8 ( 4598) gga 4.7 ( 7728)
agc 21.5 ( 34898) ggg 7.7 ( 12589)
Colunas:
1. triplete
2. frequência (por mil)
3. númeroc
28
Identificação de elementos estruturais 
em sequências de DNA
Busca por genes
30
Fase de leitura
Cada fita do DNA possui 3 fases de leitura.
O DNA possui um total de 6 fases de leitura.
31
Open reading frame (ORF)
Uma região de sequências de nucleotídios, em uma mesma fase 
de leitura, a partir de um códon de início até um códon de parada.
Marcação das ORF com comprimento maior de 100nt
Códons de início
Códons de parada
Qual ORF realmente codifica para uma proteína!?
Regra: em procariotos não há sobreposição de ORF.
33
ORF vs CDS
ORF
CDS
Códon de início 
ajustado
Regra: ORF mais longas possuem maior probabilidade de constituirem CDS
34
CDS hipotéticas
Codificam para proteínas com função desconhecida
Podem ser divididas em dois grupos
Hipotéticas
Quando não há similar nos bancos de dados
Hipotéticas conservadas
Existem similares nos bancos de dados
38
Sinais na sequência de DNA para 
identificação de CDS
You may add additional text here ...
39
FramePlot
H. seropedicae SmR1 (região 1..11115pb)
GC 61,12% GC 46,19%
Base conceitual:
1. Bactérias com alto GC possuem tendência no uso de códon.
2. Resulta em uma distribuição extremamente alta do GC na terceira base de cada códon.
3. Esta característica permite a predição de regiões codificadoras.
GCtotal = 62,8%
GC3a. base = 86,9%
GCtotal = 60,7%
GC3a. base = 87,5%
GCtotal = 61,9%
GC3a. base= 86,9%
40
Score para uso de códons
GC 61,12% GC 46,19%
H. seropedicae SmR1 (região 1..11115pb)
Permite:
1. Localizar CDS em uma sequência de DNA
2. Prever o nível de expressão relativa
3. Detectar erros de inserção/deleção na CDS (framshift)
Gribskov, M. et al. Nucleic Acids Res., 12(1):539-549,1984
41
Busca por genes em
sequências de DNA
GLIMMER
42
Modelo escondido de Markov
d d d
mmm
iiii
m – estado de pareamento
d – estado de deleção
i – estados de inserção
Exemplo da sua utilização em um alinhamento entre sequências
43
Ordem dos modelos de Markov
Modelo de Markov de 1a. ordem irá analisar a base 
precedente para determinar qual base será a seguinte
Modelo de Markov de 2a. ordem irá analisar as duas bases 
precedentes para determinar qual base será a seguinte
Modelo de markov interpolado (IMM) irá determinar qual a 
melhor ordem a ser usada
Necessidade de um subconjunto de dados para treinamento
44
Glimmer
Busca por genes utilizando IMM
A partir de uma sequência longa de DNA
Extrai ORF longas
Cria o IMM a partir das ORF longas
Usa o IMM criado para encontrar genes na sequência de 
DNA

Continue navegando