Buscar

Continue navegando


Prévia do material em texto

1
IBM1029
Introdução à Bioinformática
Aula 15
Profª Drª Silvana Giuliatti
Departamento de Genética – Bloco G
Ramal: 4503
silvana@rge.fmrp.usp.br
Faculdade de Medicina
Departamento de Genética
Predição de Proteínas
• A análise da estrutura 3D: campo mais 
desenvolvido do que a análise de sequências
biológicas – início nos anos 70.
• Grande número de programas: comerciais e 
livres.
Predição de Proteínas
• Macromoléculas
– Conformação complexa de amino ácidos (resíduos)
– Por volta de 40 resíduos são chamados peptídeos.
• Conformação = Enovelamento (Fold) = Estrutura 3D 
Determina a função da proteína
– 40-50 resíduos tende a ser o limite mais baixo.
Predição de Proteínas
As Proteínas
Amino Ácidos
• Amino ácido é a unidade básica de todas as 
proteínas.
• Um único aminoácido sempre apresenta:
– Um grupo amino [NH2] 
– Um grupo carboxil [COOH] 
– Um hidrogênio [H]
– Um grupo químico (cadeia lateral) -"R". 
• Todos são agrupados por um átomo de 
carbono central
– O carbono ‘alfa’
Predição de Proteínas
Amino Ácido
Predição de Proteínas
Grupo carboxil
Grupo amino
Carbono α
2
Predição de Proteínas Predição de Proteínas
• São polipeptídeos com três estruturas 
dimensionais:
– Primária: seqüência de aminoácidos que 
constituem a cadeia polipeptídica.
– Secundária: organização da cadeia em 
elementos de estrutura secundária, como 
hélices α e folhas β.
– Terciária: ligações entre os elementos de 
estrutura secundária.
– Quaternária: interações entre proteínas.
A Estrutura Primária das Proteínas
• Cadeia principal fixa
• Varia o grupo químico
– 20 diferentes grupos
químicos
• Várias possibilidades 
devido à rotação em volta 
do Cα.
• Cadeia polipeptídica tem 
um padrão N-Cα- C 
repetido.
• A diferença entre os 
aminoácidos são os 
radicais R.
Predição de Proteínas
Estruturas Secundárias
• Grupos químicos bloqueiam certas
conformações de enovelamento.
• Estruturas das proteínas não são aleatórias.
• Duas estruturas são comuns
– Hélice Alfa
– Fita Beta
• Conectadas por “voltas”
Predição de Proteínas
Interações Hidrofóbicas
• Cargas atômicas definem como o 
enovelamento ocorre.
• Grupos de átomos C-H possuem carga baixa.
– Denominados hidrofóbicos ou não-polares
• Grupos hidrofóbicos se mantêm juntos
– Evitam o contato com solvente (solução aquosa)
– Minimizam a energia.
• Regiões hidrofóbicas e hidrofílicas são:
– Os principais fatores no controle do processo de 
enovelamento. 
Predição de Proteínas
Enovelamento de uma Proteína num 
Ambiente Aquoso
H20
H20 H20
H20
H20
H20
Cadeia não enovelada
H20
H20
H20
Cadeia enovelada:
Os átomos se aglomeram
para evitar contato com a água
H20
H20
H20
Predição de Proteínas
3
Predição de Proteínas
• Tipos mais Comuns de Elementos de Estruturas 
Secundárias:
– Hélices α
– Folhas β
Predição de Proteínas
• Hélices α
– Estrutura secundária mais abundante.
– Pontes de Hidrogênio formadas entre cada quarto 
resíduo.
– Comprimento médio: 10 aminoácidos ou 3 voltas.
– Normalmente encontrada na superfície da região 
central da proteína.
– Interage com ambiente aquoso.
– Padrão pode ser detectado computacionalmente.
Hélices Alfa
Predição de Proteínas Predição de Proteínas
Predição de Proteínas
• Fitas β
– Pontes de Hidrogênio entre 5-10 aminoácidos 
consecutivos em uma porção da cadeia com outros 
5-10 aminoácidos a frente da cadeia.
– Difícil predição por causa da ampla faixa dos 
ângulos de rotação φ e ψ.
Fitas Beta
Predição de Proteínas
4
Predição de Proteínas Enovelamento
• Estrutura Terciária
– Estruturas 3D de toda uma cadeia de amino 
ácidos.
• Estrutura Quaternária
– Proteínas com mais de uma cadeia.
– Arranjo dessas cadeias.
Predição de Proteínas
Predição de Proteínas
• Classes de Estruturas de Proteínas
Quatro classes principais:
– Classe α: hélices α conectadas por loops.
– Classe β: fitas β antiparalelas.
– Classe α/ β: fitas β paralelas com hélices α.
– Classe α+ β: fitas β antiparalela com hélices α.
Predição de Proteínas
– Classe α: hélices α conectadas por loops.
Predição de Proteínas
– Classe β: fitas β antiparalelas.
Predição de Proteínas
– Classe α/ β: fitas β paralelas com hélices α.
5
Predição de Proteínas
– Classe α+ β: fitas β antiparalelas com hélices α.
Estrutura Quaternária
Predição de Proteínas
Ferramentas de 
Estrutura Protéica
Predição de Proteínas
• Bancos de Dados de estruturas em 3D de 
proteínas (cristalografia de Raio X ou 
Ressonância Magnética)
– PDB (Protein Data Bank)
• Mais extenso banco de dados de estruturas 3D de 
proteínas.
http://www. rcsb.org.pdb/
Predição de Proteínas
• Formato Brookhaven PDB
– Formato de dados de estrutura protéica utilizado pela 
maioria dos programas de análise de estruturas.
– Registra todos os átomos dos aminoácidos. 
– Coordenadas cartesianas de cada átomo.
– “Occupancy”: frequência com que cada átomo aparece no 
cristal. 
– Fator de Temperatura: uma medida da incerteza da posição 
do átomo devido ao movimento do átomo no cristal. A 
medida é dada em Angstrons ao quadrado. Quanto mais 
alto o valor do fator, mais incerta é a posição do átomo.
Predição de Proteínas
Coordenadas X, Y e Z
6
Predição de Proteínas
• Classificação de proteínas
– As proteínas não são agrupadas por famílias 
funcionais, mas de acordo com o tipo de 
estrutura secundária existente. 
– As subclasses são definidas de acordo com a 
ordenação das estruturas secundárias na 
proteína.
Predição de Proteínas
• Bancos de dados de Classificação de Proteínas
– CATH (classification by Class, 
Architecture, Topology and Homology)
www.biochem.ucl.ac.uk/bsm/cath/
– SCOP (Strutural Classification of Proteins)
http://pdb.wehi.edu.au/scop/gloss.html
– MMDB (Molecular Modeling Database)
www.ncbi.nlm.nih.gov/Entrez
Predição de Proteínas
• Para visualização das proteínas.
– Há visualizadores para Windows, Mac e UNIX.
– Convertem as coordenadas atômicas em um 
gráfico.
– Permitem: rotação, zoom.
– Mais popular: RASMOL
www.umass.edu/microbio/rasmol
– Cn3D: www.ncbi.nlm.nih.gov/Structure/
– Swiss 3D: www.expasy.ch/spdbv/mainpage.html
Predição de Proteínas
• Alinhamento Estrutural de Proteínas
– Estruturas 3D de duas proteínas podem ser 
comparadas.
– Os átomos são colocados o mais perto possível, de 
forma que o desvio padrão espacial entre eles seja 
mínimo.
– Similaridade estrutural não significa 
necessariamente uma relação na evolução. 
Predição de Proteínas
• Alinhamento Estrutural de Proteínas por:
– Programação Dinâmica
• SSAP (Secondary Structure Alignment
Program)
– Usa algoritmo de programação dinâmica 
dupla.
Predição de Proteínas
• Alinhamento Estrutural de Proteínas por:
– Matriz de Distância
• Usa procedimento gráfico similar à matriz de pontos
• Se duas proteínas possuem uma estrutura similar, 
então seus gráficos serão sobrepostos.
• DALI (Distane ALIgnment Tool)
– Usa método da matriz de distância.
– Usa simulação de Monte Carlo para encontrar submatrizes que 
possam ser alinhadas.
7
Predição de Proteínas
• Alinhamento Estrutural de Proteínas por:
– Pesquisa Rápida de Similaridade Estrutural
• VAST 
– Ferramenta oferecida pelo NCBI.
– Compara tipos e arranjos de estruturas 
secundárias dentro de duas proteínas.
Predição de Proteínas
• Predição de Estrutura Secundária
O CALICE SAGRADO
– A predição da estrutura secundaria da proteína é a 
classificação de aminoácidos de uma seqüência 
protéica de acordo com a estrutura local prevista.
Predição de Proteínas
Casp: Critical Assessment of Techniques for 
Protein Struture Prediction
– A cada 2 anos.
– http://predictioncenter.llnl.gov/
• Homologia 
• Métodos de encadeamento
•Ab-initio: construção de uma estrutura sem 
informações previas. 
Predição de Proteínas
a) Chou-Fasman e GOR 
Chou-Fasman (Chou e Fasman, 1978)
– Predição de seqüência única.
– Usa regras derivadas de dados físico-químicos sobre os 
aminoácidos para prever a estrutura secundária.
– Baseado na análise da freqüência de cada um dos 20 
aminoácidos em hélices α, folhas β e outros elementos 
secundários.
– Tabelas de valores foram criadas para cada elemento de 
estrutura secundária. 
– De 50 a 60% de precisão.
Predição de Proteínas
Método GOR (Garnier, Osguthorpe, Robson)
– Predição de seqüência única.
– Assume que os aminoácidos em volta do 
aminoácido central influenciam a estrutura 
secundária adotada.
– No grupo de programas do Genetics Computer
Group e do EMBOSS utilizam esses métodos.
Predição de Proteínas
b) Modelos de Redes Neurais
– Métodos mais sofisticados usados em predição.
– Precisão de 70 a 77%.
– Programas são treinados para reconhecimento de 
padrões de aminoácido localizados em estruturas 
secundárias conhecidas.
– Dois web sites:
• PHD
www.embl-heidelberg.de/predictprotein/predictprotein.html
• NNPREDICT
www.cmphrm.ucsf.edu/ñomi/nnpredict.html
8
Predição de Proteínas
c) Métodos de Vizinhos Mais Próximos
– Métodos de aprendizagem de máquina.
– Predição através da identificação de seqüências de 
estruturas conhecidas similares à seqüência de 
entrada.
– Programas:
• PSSP
• Simpa96
• SOPM
Predição de Proteínas
• Predição de Estrutura Tridimensional
– Modelagem por Homologia
• Baseia-se no conceito da evolução molecular.
– Parte-se do principio de que a semelhança nas estruturas primarias da 
proteína estudada e de proteínas homologas de estruturas 
tridimensionais conhecidas resulta em similaridade estrutural entre 
elas.
• Etapas:
– Identificação e seleção das proteínas homologas
– Alinhamento das seqüências
– Construção do modelo da proteína estudada.
– Validação do modelo
– MODELLER
http://salilab.org/modeller/
Predição de Proteínas
• Predição de Estrutura Tridimensional
– Threading
• Usado quando a seqüência de uma proteína de 
estrutura desconhecida não apresenta similaridade de 
seqüências com outras proteínas
• Baseia-se na:
– Distância entre os resíduos de aminoácidos.
– Estrutura secundaria de cada fragmento.
– Características físico-químicas de cada resíduo.
• GenTHREADER
http://bioinf.cs.ucl.ac.uk/psipred/
Predição de Proteínas
• Predição de Estrutura Tridimensional
– Ab Initio
• Programa que seja capaz de predizer a estrutura 
terciária de uma proteína, tendo como informação 
apenas a seqüência de resíduos dos aminoácidos e suas 
interações físico-químicas, entre si e o meio.
• Robetta server: combina Rosetta com uma serie de outros 
métodos.
http://robetta.bakerlab.org/
Predição de Proteínas
• Predição de Estrutura Tridimensional
– HMM – Hidden Markov Models
• Os modelos de Markov têm sido usados para predição 
de estruturas tridimensionais de proteínas.
• HMMSTR: Obtido por download ou pode ser usado via 
web.
http://www.bioinfo.rpi.edu/~bystrc/hmmstr/server.php
• http://www.expasy.org/tools/