Prévia do material em texto
1 IBM1029 Introdução à Bioinformática Aula 15 Profª Drª Silvana Giuliatti Departamento de Genética – Bloco G Ramal: 4503 silvana@rge.fmrp.usp.br Faculdade de Medicina Departamento de Genética Predição de Proteínas • A análise da estrutura 3D: campo mais desenvolvido do que a análise de sequências biológicas – início nos anos 70. • Grande número de programas: comerciais e livres. Predição de Proteínas • Macromoléculas – Conformação complexa de amino ácidos (resíduos) – Por volta de 40 resíduos são chamados peptídeos. • Conformação = Enovelamento (Fold) = Estrutura 3D Determina a função da proteína – 40-50 resíduos tende a ser o limite mais baixo. Predição de Proteínas As Proteínas Amino Ácidos • Amino ácido é a unidade básica de todas as proteínas. • Um único aminoácido sempre apresenta: – Um grupo amino [NH2] – Um grupo carboxil [COOH] – Um hidrogênio [H] – Um grupo químico (cadeia lateral) -"R". • Todos são agrupados por um átomo de carbono central – O carbono ‘alfa’ Predição de Proteínas Amino Ácido Predição de Proteínas Grupo carboxil Grupo amino Carbono α 2 Predição de Proteínas Predição de Proteínas • São polipeptídeos com três estruturas dimensionais: – Primária: seqüência de aminoácidos que constituem a cadeia polipeptídica. – Secundária: organização da cadeia em elementos de estrutura secundária, como hélices α e folhas β. – Terciária: ligações entre os elementos de estrutura secundária. – Quaternária: interações entre proteínas. A Estrutura Primária das Proteínas • Cadeia principal fixa • Varia o grupo químico – 20 diferentes grupos químicos • Várias possibilidades devido à rotação em volta do Cα. • Cadeia polipeptídica tem um padrão N-Cα- C repetido. • A diferença entre os aminoácidos são os radicais R. Predição de Proteínas Estruturas Secundárias • Grupos químicos bloqueiam certas conformações de enovelamento. • Estruturas das proteínas não são aleatórias. • Duas estruturas são comuns – Hélice Alfa – Fita Beta • Conectadas por “voltas” Predição de Proteínas Interações Hidrofóbicas • Cargas atômicas definem como o enovelamento ocorre. • Grupos de átomos C-H possuem carga baixa. – Denominados hidrofóbicos ou não-polares • Grupos hidrofóbicos se mantêm juntos – Evitam o contato com solvente (solução aquosa) – Minimizam a energia. • Regiões hidrofóbicas e hidrofílicas são: – Os principais fatores no controle do processo de enovelamento. Predição de Proteínas Enovelamento de uma Proteína num Ambiente Aquoso H20 H20 H20 H20 H20 H20 Cadeia não enovelada H20 H20 H20 Cadeia enovelada: Os átomos se aglomeram para evitar contato com a água H20 H20 H20 Predição de Proteínas 3 Predição de Proteínas • Tipos mais Comuns de Elementos de Estruturas Secundárias: – Hélices α – Folhas β Predição de Proteínas • Hélices α – Estrutura secundária mais abundante. – Pontes de Hidrogênio formadas entre cada quarto resíduo. – Comprimento médio: 10 aminoácidos ou 3 voltas. – Normalmente encontrada na superfície da região central da proteína. – Interage com ambiente aquoso. – Padrão pode ser detectado computacionalmente. Hélices Alfa Predição de Proteínas Predição de Proteínas Predição de Proteínas • Fitas β – Pontes de Hidrogênio entre 5-10 aminoácidos consecutivos em uma porção da cadeia com outros 5-10 aminoácidos a frente da cadeia. – Difícil predição por causa da ampla faixa dos ângulos de rotação φ e ψ. Fitas Beta Predição de Proteínas 4 Predição de Proteínas Enovelamento • Estrutura Terciária – Estruturas 3D de toda uma cadeia de amino ácidos. • Estrutura Quaternária – Proteínas com mais de uma cadeia. – Arranjo dessas cadeias. Predição de Proteínas Predição de Proteínas • Classes de Estruturas de Proteínas Quatro classes principais: – Classe α: hélices α conectadas por loops. – Classe β: fitas β antiparalelas. – Classe α/ β: fitas β paralelas com hélices α. – Classe α+ β: fitas β antiparalela com hélices α. Predição de Proteínas – Classe α: hélices α conectadas por loops. Predição de Proteínas – Classe β: fitas β antiparalelas. Predição de Proteínas – Classe α/ β: fitas β paralelas com hélices α. 5 Predição de Proteínas – Classe α+ β: fitas β antiparalelas com hélices α. Estrutura Quaternária Predição de Proteínas Ferramentas de Estrutura Protéica Predição de Proteínas • Bancos de Dados de estruturas em 3D de proteínas (cristalografia de Raio X ou Ressonância Magnética) – PDB (Protein Data Bank) • Mais extenso banco de dados de estruturas 3D de proteínas. http://www. rcsb.org.pdb/ Predição de Proteínas • Formato Brookhaven PDB – Formato de dados de estrutura protéica utilizado pela maioria dos programas de análise de estruturas. – Registra todos os átomos dos aminoácidos. – Coordenadas cartesianas de cada átomo. – “Occupancy”: frequência com que cada átomo aparece no cristal. – Fator de Temperatura: uma medida da incerteza da posição do átomo devido ao movimento do átomo no cristal. A medida é dada em Angstrons ao quadrado. Quanto mais alto o valor do fator, mais incerta é a posição do átomo. Predição de Proteínas Coordenadas X, Y e Z 6 Predição de Proteínas • Classificação de proteínas – As proteínas não são agrupadas por famílias funcionais, mas de acordo com o tipo de estrutura secundária existente. – As subclasses são definidas de acordo com a ordenação das estruturas secundárias na proteína. Predição de Proteínas • Bancos de dados de Classificação de Proteínas – CATH (classification by Class, Architecture, Topology and Homology) www.biochem.ucl.ac.uk/bsm/cath/ – SCOP (Strutural Classification of Proteins) http://pdb.wehi.edu.au/scop/gloss.html – MMDB (Molecular Modeling Database) www.ncbi.nlm.nih.gov/Entrez Predição de Proteínas • Para visualização das proteínas. – Há visualizadores para Windows, Mac e UNIX. – Convertem as coordenadas atômicas em um gráfico. – Permitem: rotação, zoom. – Mais popular: RASMOL www.umass.edu/microbio/rasmol – Cn3D: www.ncbi.nlm.nih.gov/Structure/ – Swiss 3D: www.expasy.ch/spdbv/mainpage.html Predição de Proteínas • Alinhamento Estrutural de Proteínas – Estruturas 3D de duas proteínas podem ser comparadas. – Os átomos são colocados o mais perto possível, de forma que o desvio padrão espacial entre eles seja mínimo. – Similaridade estrutural não significa necessariamente uma relação na evolução. Predição de Proteínas • Alinhamento Estrutural de Proteínas por: – Programação Dinâmica • SSAP (Secondary Structure Alignment Program) – Usa algoritmo de programação dinâmica dupla. Predição de Proteínas • Alinhamento Estrutural de Proteínas por: – Matriz de Distância • Usa procedimento gráfico similar à matriz de pontos • Se duas proteínas possuem uma estrutura similar, então seus gráficos serão sobrepostos. • DALI (Distane ALIgnment Tool) – Usa método da matriz de distância. – Usa simulação de Monte Carlo para encontrar submatrizes que possam ser alinhadas. 7 Predição de Proteínas • Alinhamento Estrutural de Proteínas por: – Pesquisa Rápida de Similaridade Estrutural • VAST – Ferramenta oferecida pelo NCBI. – Compara tipos e arranjos de estruturas secundárias dentro de duas proteínas. Predição de Proteínas • Predição de Estrutura Secundária O CALICE SAGRADO – A predição da estrutura secundaria da proteína é a classificação de aminoácidos de uma seqüência protéica de acordo com a estrutura local prevista. Predição de Proteínas Casp: Critical Assessment of Techniques for Protein Struture Prediction – A cada 2 anos. – http://predictioncenter.llnl.gov/ • Homologia • Métodos de encadeamento •Ab-initio: construção de uma estrutura sem informações previas. Predição de Proteínas a) Chou-Fasman e GOR Chou-Fasman (Chou e Fasman, 1978) – Predição de seqüência única. – Usa regras derivadas de dados físico-químicos sobre os aminoácidos para prever a estrutura secundária. – Baseado na análise da freqüência de cada um dos 20 aminoácidos em hélices α, folhas β e outros elementos secundários. – Tabelas de valores foram criadas para cada elemento de estrutura secundária. – De 50 a 60% de precisão. Predição de Proteínas Método GOR (Garnier, Osguthorpe, Robson) – Predição de seqüência única. – Assume que os aminoácidos em volta do aminoácido central influenciam a estrutura secundária adotada. – No grupo de programas do Genetics Computer Group e do EMBOSS utilizam esses métodos. Predição de Proteínas b) Modelos de Redes Neurais – Métodos mais sofisticados usados em predição. – Precisão de 70 a 77%. – Programas são treinados para reconhecimento de padrões de aminoácido localizados em estruturas secundárias conhecidas. – Dois web sites: • PHD www.embl-heidelberg.de/predictprotein/predictprotein.html • NNPREDICT www.cmphrm.ucsf.edu/ñomi/nnpredict.html 8 Predição de Proteínas c) Métodos de Vizinhos Mais Próximos – Métodos de aprendizagem de máquina. – Predição através da identificação de seqüências de estruturas conhecidas similares à seqüência de entrada. – Programas: • PSSP • Simpa96 • SOPM Predição de Proteínas • Predição de Estrutura Tridimensional – Modelagem por Homologia • Baseia-se no conceito da evolução molecular. – Parte-se do principio de que a semelhança nas estruturas primarias da proteína estudada e de proteínas homologas de estruturas tridimensionais conhecidas resulta em similaridade estrutural entre elas. • Etapas: – Identificação e seleção das proteínas homologas – Alinhamento das seqüências – Construção do modelo da proteína estudada. – Validação do modelo – MODELLER http://salilab.org/modeller/ Predição de Proteínas • Predição de Estrutura Tridimensional – Threading • Usado quando a seqüência de uma proteína de estrutura desconhecida não apresenta similaridade de seqüências com outras proteínas • Baseia-se na: – Distância entre os resíduos de aminoácidos. – Estrutura secundaria de cada fragmento. – Características físico-químicas de cada resíduo. • GenTHREADER http://bioinf.cs.ucl.ac.uk/psipred/ Predição de Proteínas • Predição de Estrutura Tridimensional – Ab Initio • Programa que seja capaz de predizer a estrutura terciária de uma proteína, tendo como informação apenas a seqüência de resíduos dos aminoácidos e suas interações físico-químicas, entre si e o meio. • Robetta server: combina Rosetta com uma serie de outros métodos. http://robetta.bakerlab.org/ Predição de Proteínas • Predição de Estrutura Tridimensional – HMM – Hidden Markov Models • Os modelos de Markov têm sido usados para predição de estruturas tridimensionais de proteínas. • HMMSTR: Obtido por download ou pode ser usado via web. http://www.bioinfo.rpi.edu/~bystrc/hmmstr/server.php • http://www.expasy.org/tools/