Baixe o app para aproveitar ainda mais
Prévia do material em texto
Resumo de Bioinformática (prova 2) (Slide 5) Bioinformática: é um campo interdisciplinar que aplica e cria ferramentas computacionais para o gerenciamento, armazenamento e análise de dados biológicos #O gerenciamento de informações consiste em armazenar dados e disponibilizá-los de forma maleável e facilitada, ou seja, gerenciar a troca de informações. Isto inclui banco de dados, páginas de serviços via internet, buscas de dados, etc. Algoritmo: é a forma estruturada de resolver problemas em uma sequência lógica. Banco de dados biológicos: conjunto de arquivos armazenados e organizados, que possibilitam fácil, preciso e rápido acesso as informações biológicas. Podem ser divididos em três categorias a partir do tipo e do conteúdo dos dados nele armazenados (primário, secundário e especializados). #Primários: armazenam informações biológicas originais (sequências de nucleotídeos, por exemplo). Utilizam-se basicamente arquivos de tipo teto simples (tipo fasta) para armazenar essas informações; #Secundários: armazenam resultados das análises feitas a partir de um banco de dados primário. Exemplo: o Swiss-prot armazenam informações referentes as proteínas, incluindo anotações e funcionalidades, estruturas tridimensionais e literatura associada; #Especializados: são aqueles que atendem a um interesse particular de pesquisa (organismo particular ou tipo de dado). Principais bancos de dados da Bioinformática: ModWeb: é um servidor para modelagem de estrutura de proteínas; SWISS-MODEL: é um servidor de modelagem de homologia de estrutura de proteínas totalmente automatizado, acessível através do servidor web ExPASy, ou do programa DeepView (Swiss Pdb-Viewer). Vakser Lab: é um software de armazenamento de proteínas. É projetado exclusivamente para acoplar pares de moléculas de proteínas por simulação. PatchDock: é um software que permite realização do docking molecular. Dadas duas moléculas, suas superfícies são divididas em imagens de acordo com a forma da superfície. Esses “patches” correspondem a padrões que distinguem visualmente entre peças de quebra-cabeça. Uma vez que as imagens são identificadas, elas podem ser sobrepostas usando algoritmos de correspondência de formas. NCBI: o NCBI é dividido em vários bancos de dados específicos. Cada banco de dados armazena informações e apresenta links com outros bancos do próprio NCBI e bancos externos. o O banco Nucleotide armazena sequências e informações associadas a cada uma das sequências. o O banco Protein armazena sequências de proteínas e sequências que foram traduzidas automaticamente de sequências nucleotídicas codificadoras. O banco também traz informações associadas a cada uma das sequências. o Taxonomy: Banco de dados com informações sobre a classificação taxonômica das espécies. Esse banco de dados apresenta somente informações taxonômicas de espécies que têm informações moleculares depositadas no NCBI. PDB: banco de dados que armazena informações sobre estrutura tridimensional das proteínas. Nesse banco são armazenadas estruturas das proteínas que foram avaliadas por cristalografia Raio-X, Espectroscopia por ressonância magnética nuclear (NMR). Expasy: banco de dados com sequências de proteínas, especialmente enzimas. Keeg: é um recurso de banco de dados para a compreensão de funções de alto nível e utilitários do sistema biológico, como células organismos e ecossistemas, a partir de informações de nível molecular, como mapas metabólicos por exemplo. Biocyc: é um programa que coleciona “pathways”, como vias metabólicas, etc. #Principais bancos de dados de proteínas: Swiss-prot, PDB, Pfam, Modbase #Principais bancos de dados de genes: GenBank #Principais bancos de dados de vias metabólicas: Biocarta, KEGG, Biocyc Por que geralmente utiliza-se o sistema operacional Linux na bioinformática? Por que é um software livre, multitarefa e de fácil acesso as ferramentas científicas, além de ser seguro e estável. Alinhamento de sequências: é uma forma de organizar sequências primárias de DNA para identificar regiões similares que possam ser consequência de relações funcionais, estruturais ou evolucionárias entre elas. Consiste em comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a observar seu nível de similaridade. #Permite a transmissão de informações sobre uma sequência para outras similares. #Método de comparação que determina o grau da identidade e similaridade, inferindo homologia entre duas ou mais sequências. Diferenças entre identidade, similaridade e homologia Identidade: refere-se à presença de resíduos na mesma posição em duas sequências alinhadas; Similaridade: é a porcentagem de resíduos idênticos ou com propriedades físico- químicas semelhantes; Homologia: é a relação evolutiva entre as sequências. Principais tipos de alinhamentos: Alinhamento global: o alinhamento se estende por toda a sequência. Utiliza-se o algoritmo de Needleman-Wunsch para alinhar globalmente pares de sequências, maximizando o escore. Alinhamento local: consiste no alinhamento de apenas parte das sequências envolvidas. É feita uma procura por regiões com semelhança local e não é considerada a sequência em todo o seu comprimento. Utiliza-se o algoritmo de Smith-Waterman. Esse alinhamento é útil para sequências de tamanhos diferentes e também para sequências com apenas alguns trechos conservados. #O melhor tipo de alinhamento é aquele que maximiza o escore. #Um escore de alinhamento é a medida pelo qual o alinhamento entre duas sequências é qualificado. É a quantificação da semelhança entre duas sequências. #Em princípio, realiza-se alinhamentos para medir similaridades; determinar as correspondências entre os resíduos; observar padrões de conservação e variabilidade; e inferir relações evolucionárias. (Slide 6) Matrizes de alinhamentos #Para se determinar o escore que define qual o melhor alinhamento precisa-se de uma matriz de pontuação. A matriz de pontuação é uma tabela de valores que descreve um valor probabilístico de ocorrer um par de resíduo (aminoácidos ou bases nucleofílicas) em um alinhamento. #Os valores probabilísticos são retirados a partir de amostras de alinhamentos de sequências reais armazenadas no banco de dados. #As matrizes de valores são usadas em todas análises que envolvem comparação de sequências. São divididas em matrizes unitárias e de substituições (PAM e Blossun). Matriz unitária: geralmente é utilizada para atribuir valores à pares de nucleotídeos. Nesta matriz, somente caracteres idênticos recebem valores positivos. Essas matrizes funcionam (e são usadas), mas o mundo real é mais complicado devido a complexidade de sistemas biológicos. Matriz de substituição: geralmente são usadas para darem valores às substituições de pares de aminoácidos. Considera os valores probabilísticos de um aminoácido “x” ser substituído por um aminoácido “y”. #Essas estatísticas mostram quais mutações são mais frequentes (aceitas) e quais mutações menos frequentes (não aceitas). #Existe duas famílias de matrizes de substituição: a PAM e Blossun. Estas são famílias que contém a probabilidade de que uma sequência tenha sido transformada noutra num processo evolutivo. Matriz PAM: são baseadas em alinhamentos globais de proteínas com parentesco próximo (algoritmo de Needlemamn Wunsch), ou seja, as sequências A e B são comparadas na totalidade do seu comprimento, sendo as diferenças de comprimento da sequência compensadas com gaps (inserções). Matriz Blosun: são baseadas em alinhamentos locais (algoritmo de Smith- Waterman). Detecta melhoras similaridades biologicamente importantes. É útil em situações onde não existe qualquer conhecimento sobre a semelhança entre as sequências a se comparar. Significância de alinhamentos: é dado pela interpretação do “e-value”. Esse valor dado ao se multiplicar o “p-value” pelo tamanho do banco de dados (quantidade de sequências disponíveis para alinhamento). Sendo assim, o e-value depende do tamanho do banco de dados, já o p-value não. #O p-value varia de 0 a 1, quanto mais perto de 0, melhor é o alinhamento. Exemplo: 10-100 (alinhamento perfeito); 10-1 (alinhamento insignificante) #Para interpretar o e-value Exemplo: E<= 0,02 (sequências provavelmente homólogas); E entre 0,02 e 1 (homologia não pode ser descartada). Programa BLAST: é uma derivação do algoritmo de Smith-Waterman, que se caracteriza e por apresentar a pontuação máxima de alinhamento local de duas sequências. O algorítmo de Smith-Waterman emprega um método exaustivo conhecido como programação dinâmica, e assim garante encontrar a pontuação máxima. Programa PSI-BLAST: é um refinamento do BLAST e que gera resultados considerando- se uma tabela (matriz) construída automaticamente a partir da frequência de cada aminoácido em cada posição da sequência. É mais poderoso que o BLAST na identificação de relações distantes. Pode identificar corretamente três vezes mais homólogas que o BLAST nas regiões onde a identidade é inferior que 30%. (Aula 7) Programação dinâmica: é atualmente o método mais popular para comparação e alinhamento rigoroso de sequências de ácidos nucleicos e proteínas. Esse método fornece o resultado da comparação e encontra um alinhamento entre duas sequências com o mais alto escore possível para vários esquemas de atribuição de escores úteis. #É o método computacional que calcula o melhor alinhamento possível entre sequências, através das principais variáveis: match, mismatch e gap. #Surgiu para solucionar o problema para produzir possibilidade de alinhamentos. Pois pela programação convencional, produzir todos os alinhamentos possíveis levaria muito tempo mesmo para um supercomputador. #A programação dinâmica é aplicável sempre que um grande espaço de procura pode ser estruturado de numa sessão de passos, de tal forma que: O passo inicial contém as soluções triviais dos sub-problemas; Cada solução parcial num passo posterior pode ser calculada em decorrência a um número fixo de soluções parciais de passos anteriores; O passo final contém a solução global *Ou seja, dá o primeiro passo e vê o resultado dele. Utiliza o primeiro passo para direcionar o segundo passo. Utiliza o resultado do segundo passo para direcionar o terceiro passo, e assim por diante, até o passo final. #Na programação dinâmica existe: alinhamento global e alinhamento local. Componentes de um alinhamento Match (identidade): duas letras idênticas numa mesma posição do alinhamento; Mismatch (substituição): duas letras diferentes numa mesma posição no alinhamento; Gap (buraco): espaços únicos ou consecutivos (gap extension) entre duas sequências. #Observação: nessa aula tem atividade práticas de alinhamento global. (Aula 8) Tipos de alinhamentos em relação a quantidade de sequências Pairwise (par-a-par): utiliza duas sequências; Múltiplos: mais de duas sequências. #Obtém-se respostas biológicas interessantes. Alinhamentos múltiplos: podem ser usados para estudar grupos de genes ou proteínas relacionadas, para inferir relações evolutivas entre os genes e para descobrir padrões que sejam compartilhados entre grupos de sequências funcional ou estruturalmente relacionadas. #Exemplo: quando lidando com uma proteína, de função desconhecida, a presença de domínios similares e outros em proteínas conhecidas pode implicar em função ou estrutura semelhante. #Estratégia: para a realização do alinhamento múltiplo, primeiro faz uma busca no banco de dados através do PSI-BLAST (alinhamento par-a-par), posteriormente, seleciona-se as sequências candidatas a moldes, ou seja, aquelas que possuem maiores identidades. Depois, realiza-se o alinhamento múltiplo com o auxílio de um software específico. #Vantagens: oferecem alta sensibilidade (detectam parentescos mais distantes) e alta seletividade (minimiza o número de sequências listadas que não são genuinamente homólogas). #Geralmente, os softwares mais usualmente utilizados são o ClustalW e o ClustalW- Phylogeny. Mas também existem outros como: T-coffee, SAM, BLOCKS, etc. ClustalW: é o software mais usualmente utilizado. Nele, é gerado uma matriz da distância entre os pares para todas as sequencias a serem alinhadas. Cada um dos pares de sequências é alinhado por meio da programação dinâmica. Cada novo alinhamento é analisado para construir um perfil de sequência. Finalmente os perfis são alinhados entre si. Árvores filogenéticas (alguns conceitos): Filogenia: é a relação evolucionária entre organismos, baseado num ancestral comum. Filogenética: é a área de pesquisa preocupada em encontrar relações genéticas (filogenias) entre as espécies. #Na bioinformática, sabe-se que as mutações de DNA ocorrem ao acaso a uma taxa muito baixa e são transmitidas dos pais para os filhos. Assim, se assumirmos que todos os organismos têm um ancestral comum, podemos usar as diferenças nas sequências homólogas para medir quanto tempo decorreu desde que os organismos se divergiram. Sendo assim, quanto mais tempo passou desde que as espécies se divergiram a partir de um ancestral comum, mais diferenças haverá nas suas sequências de DNA. Árvores filogenéticas: é a representação gráfica, em forma de árvore, apresentando as relações evolutivas entre várias espécies ou outras entidades que possam ter um ancestral comum. São estritamente binárias. #Os comprimentos das arestas significam uma medida da dissimilaridade entre duas espécies ou o tempo decorrido desde sua separação. #Existe dois tipos: árvores com raiz e árvores sem raiz. Nas árvores com raízes, cada nó tem dois descendentes que partem de um ancestral comum. Já as árvores sem raízes mostram a topologia da relação, mas não o padrão de descendência. Abordagens para construção de árvores filogenéticas (1) Método fenético: funciona medindo um conjunto de distâncias entre espécies. (2) Método cladística: considera possíveis rotas de evolução, infere as características do ancestral em cada nó e escolhe a árvore ótima de acordo com algum modelo de mudança evolucionária. #A fenética é baseada na similaridade, enquanto a cladística é baseada na genealogia. #Há vários softwares que derivam árvores filogenéticas, como o PHYLIP, por exemplo. (Slide 9) Modelagem molecular: é um termo coletivo que se refere aos métodos teóricos e técnicas computacionais para modelar ou mimetizar o comportamento das moléculas. Visam prever o comportamento de sistemas reais. Principais métodos de predição de estrutura a partir da sequência: Modelagem molecular comparativa (por homologia): A MMC é uma técnica da Bioinformática que prevê a estrutura tridimensional de uma dada proteína com base no seu alinhamento a uma ou mais proteínas de estruturas conhecidas (templates). O processo de previsão consiste em atribuição de dobras, alinhamentos da proteína-alvo com os templates, construção e avaliação de modelos. Os estudos da MMC buscam considerar aspectos dinâmicos do complexo fármaco-receptor, com o objetivo de fidelizar ao máximo a descrição de processos biológicos de interesse no desenvolvimento de fármacos. #Tem o potencial de gerar modelos confiáveis, caso sejam utilizados resíduos com mais de 40% de identidade. Ab initio: são métodos da química computacional baseados na química quântica. Baseia-se nas propriedades físico-químicas conhecidas de cada aminoácido para a construção de funções de energia. Estas funções são minimizadas por algoritmos que realizam buscas no espaço de conformações que a proteína de interesse possa assumer. Modelagem molecular comparativa (por homologia) A MMC consiste em cinco etapas sequenciais: (1) Procurar proteínas com estruturas 3D conhecidas que estão relacionadas ao alvo; #Geralmente utiliza-se o PSI-BLAST para identificação direta no banco de dados PDB para procurar templates. (2) Escolher as estruturas que serão usadas como templates; #Deve-se selecionar os templates com maiores identidades, preferencialmente aqueles com mais de 40% de identidade. (3) Alinhas as sequências com a sequência alvo; #Uma vez selecionado os templates, um método deve ser utilizado para executar o alinhamento template/alvo, quando apenas um template é identificado é realizado um alinhamento “pairwise” (par-a-par), já quando várias sequências são identificadas é necessário a obtenção de um alinhamento múltiplo. #O alinhamento é um dos principais passos na modelagem, pois é dele que são extraídas as restrições espaciais para a construção do modelo. (4) Construir o modelo para a sequência alvo através do alinhamento dos templates; #O modelo é construído com base nas restrições espaciais implementadas no software utilizado para modelagem. (5) Avaliar o modelo, usando uma variedade de critérios. #Avalia a geometria global da estrutura com relação a qualidade estereoquímica. #Geralmente, avalia-se o modelo através do gráfico de Ramachandran. Este gráfico é particularmente útil porque ele define os resíduos que se encontram nas regiões mais favoráveis e desfavoráveis e orienta a avaliação da qualidade de modelos teóricos ou experimentais de proteínas. Nele, a região mais favorável está expressa em vermelho, a região permitida está em amarelo, a região generosamente permitida em amarelo claro e a não permitida em branco. #A condição necessária para que a MMC funcione é que a semelhança entre a sequência designada e as estruturas do modelo sejam detectáveis e que o alinhamento correto entre elas possa ser construído. (Aula 10) * O Nelson repetiu o slide (Aula 11) Modelagem com múltiplos templates: o uso de mais de um template melhora a qualidade do modelo pois agrega mais informações sobre as regiões conservadas. Modelagem com heteroátomos: a presença de heteroátomos como água e ligantes devem ser consideradas no modelo. Os heteroátomos correspondem às pequenas moléculas complexadas com a proteína, como substratos, coenzimas, íons, inibidores, etc. *O slide contém mais informações sobre o protocolo da aula prática. (Aula 12) Docking molecular: a ancoragem ou Docking molecular é uma ferramenta da Bioinformática importante para a descoberta de drogas. Os avanços das técnicas de caracterização de proteínas, como a cristalografia e ressnância magnética nuclear, contribuíram para muitos detalhes estruturais das proteínas com seus complexos proteína- ligante. Esses avanços permitiram estratégias computacionais que permeeiam a descoberta de novos fármacos na atualidade. O Docking molecular é um processo computacional que tenta prever a ligação não covalente de macromolécula receptora e uma molécula ligante de forma eficiente, com estruturas obtidas a partir de MMC. #O patchdock é um algoritmo para docking molecular. As entradas são duas moléculas de qualquer tipo: proteínas, DNA, peptídeos, ligantes. A saída é uma lista de potencias complexos ordenados pelo critério de complementariedade da forma. #Gramm é um software que também permite o acoplamento de duas moléculas, dando como saída potenciais complexos. (Slide 13) Fármaco: qualquer remédio, substância ou produto desenvolvido para fins farmacêuticos. Para um composto químico ser identificado como fármaco, deve ser seguro, eficaz, estável, entregável (deve ser absorvido para atingir seu sítio de ação) e disponível. #A descoberta e o desenvolvimento de fármacos é um processo multidisciplinar de elevada complexidade e envolve alto custo e longo prazo para execução. #Um dos mais importantes avanços no planejamento e descoberta de fármacos tem sido a utilização da modelagem molecular. Ela tem se firmado como uma ferramenta indispensável não somente no processo de descoberta de novos fármacos, mas também na otimização de protótipo já existente ou obtido pelo estudo de modelagem molecular. #O grande desenvolvimento da modelagem molecular deve-se em grande parte ao avanço dos recursos computacionais em termos de hardware e software #A maioria dos programas de modelagem molecular é capaz de desenhar a estrutura molecular e realizar os cálculos de otimização geométrica e estudos de análise conformacional. Os arquivos de saída destes cálculos podem ser utilizados como arquivos de entrada para outros programas. Desta forma, a primeira etapa em estudos de modelagem molecular é desenhar a estrutura tridimensional da molécula. Em seguida a molécula é otimizada objetivando encontrar parâmetros geométricos tais como ângulos e comprimentos de ligação que estejam próximos aos valores determinados experimentalmente. Etapas do desenvolvimento de fármacos: #Primeiramente, identifica-se qual a doença que será estudada para elaboração de novos protótipos. Em seguida, seleciona-se o alvo molecular (proteína, por exemplo). *Efeitos adversos não relacionados ao alvo ocorrem quando o fármaco interage com alvos não pretendidos. Dessa forma, quando as proteínas-alvo não estão presentes naturalmente em humanos (caso a doença estudada ocorra em humanos), tornam-se alvos seletivos para o desenho de fármacos, reduzindo efeitos adversos. #Em segundo, determina-se a estrutura tridimensional do alvo molecular. A estrutura 3D pode ser determinada através de métodos experimentais, como ressonância magnética nuclear e cristalografia (métodos caros), e também, através de métodos in silico (simulação computacional), como a modelagem molecular comparativa (viável economicamente). #Posteriormente, utiliza-se a triagem computacional. A triagem computacional, através de inúmeras técnicas distintas, é capaz de direcionar a direção de moléculas com as características químicas desejadas para modular a atividade biológica dos mais diversos e atrativos alvos moleculares. Envolve técnicas simples, como busca de similaridade ou “docagem” molecular, até as estratégias mais complexas, que envolvem métodos estatísticos e de aprendizagem de máquinas. *O principal objetivo da triagem computacional é aprimorar o processo de busca de novos candidatos a fármacos e acelerar o processo contínuo do seu planejamento. *A contribuição da Bioinformática na descoberta e desenvolvimento de fármacos permitiu: a facilitação na identificação da molécula-alvo, planejamento, análise e otimização de ligantes, seleção e triagem in silico de biblioteca de ligantes. #Depois é realizado o Docking, ou seja, que prevê a ligação não covalente de macromolécula receptora e uma molécula ligante de forma eficiente. #Por fim, segue a linha lógica do fluxograma (testes in vitro, in vivo e clínicos) para posterior liberação do fármaco. Critérios para a triagem computacional (virtual screening): A biblioteca tem que ter uma ampla diversidade química; Deve ser aplicado filtros na sua montagem ou na análise dos resultados; Deve ter um tamanho passível de busca; Os objetivos da virtual screening devem estar claros; Possibilidade de testes in vitro para confirmaçãodo potencial dos compostos analisados; Disponibilidade de realização de estudos cristalográficos (para confirmar a estrutura do complexo proteína-ligante). Exemplo de biblioteca (banco de compostos) #Super Natural Database II e ZINC Natural Products #O Super Natural Database II apresenta mais de 45 mil moléculas depositadas e que podem ser consultadas livremente. As principais características desse banco de dados são: disponibilidade de um amplo espaço químico a ser vasculhado; aberta (sem custo para acesso); atualizada regularmente; e permite a busca de diversos critérios (nome do composto, via “templates”, via fornecedor, via construção da estrutura, similaridade com drogas, efeitos celulares, etc). (Slide 14 e 15) referentes a aula prática
Compartilhar