Baixe o app para aproveitar ainda mais
Prévia do material em texto
BIOINFORMÁTICA O que é bioinformática? É uma ciência que nos ajuda a resolver problemas biológicos, usando técnicas computacionais, facilitando o trabalho. A bioinformática surgiu para ser possível resolver problemas biológicos de uma forma rápida e segura. Principais problemas biológicos abordados pela bioinformática Como surgiu a bioinformática? A partir da possibilidade de comparar sequencias de insulina. Disso, surgiu a possibilidade de utilizar métodos estatísticos para fazer o alinhamento e analisar as sequencias. O que é preciso saber para ser um bioinformata?? Multidisciplinaridade. A bioinformática é multidisciplinar. Tipos de bioinformata: 1) Usuário: Usa os programas desenvolvidos para resolver os problemas biológicos, entende um pouco de tudo; 2) Desenvolvedor: Aquele que, a partir de problemas do usuário, consegue desenvolver ferramentas que agilizem o trabalho do usuário. Ele sabe algo de programação e dos problemas biológicos; 3)"Matemágico": Desenvolve os algoritmos para que os programas feitos pelo desenvolvedor funcionem. Reúne todos os conhecimentos. Possibilita a criação de uma ferramenta. Aplicações da Bioinformática: No sequenciamento do DNA, lentamente, usando uma reação de polimerase em cadeia, evoluindo para sequenciamentos mais rápidos; Montagem de sequencias; anotação e análise de genomas. Modelagem molecular (modelar RNAm, proteína, fazendo um modelo tridimensional, de uma determinada sequencia); Encontrar padrões, desenvolver bancos de dados, e melhorar a nalise de sequencias. - Sequenciamento de DNA: Fazer um software compatível com o equipamento utilizado; Anotação: Pegar o resultado e procurar a informação contida na sequencia. Após montagem, procurar qual é, se gera uma proteína,etc; Banco de Dados: Um banco de dados pode ser consideradoumacoleção de dados inter-relacionados, projetado para suprir as necessidades de um grupo específico de aplicações e usuários. Um banco de dados organiza e estrutura as informações de modo a facilitar consultas, atualizações e deleções de dados. Os principais bancos de dados primários são o GenBank,oEBI (European Bioinformatics Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank). Matriz de Substituição: Matrizes de substituição são uma alternativa aos valores fixos de pontuação para matches e mismatches. Estas matrizes indicam os diferentes valores a serem contabilizados para cada par de unidades. As matrizes de substituição são normalmente utilizadas no alinhamento de seqüências protéicas. Assim o valor de cada uma de suas células indica a chance da ocorrência da substituição correspondente ao par de aminoácidos deste mismatch. As matrizes de substituição mais utilizadas são aquelas pertencentes às famílias de matrizes PAM (Point Accepted Mutation) e BLOSUM. A matriz PAM1foi construída através da análise de mutações entre proteínas homólogas com 1% de divergência (1% dos aminoácidos diferentes). PAM1. As matrizes BLOSUM foram construídas tendo como base os alinhamentos do banco de motivos BLOCKS. Uma matriz BLOSUM62 é definida através da análise das substituições nas seqüências de BLOCKS que possuem menos que 62% de similaridade. Valores positivos são mutações que ocorrem com frequências, enquanto valores negativos são mutações que ocorrem com baixa frequência. Homologia: Refere-se a relação de duas sequencias, que possuem a mesma origem e a mesma função. Possuem um ancestral em comum. Sequenciamento de DNA: Tipos de sequenciamento de DNA: Os métodos clássicos, e métodos de nova geração. Os clássicos são como o Método de Sanger, conhecido como método de terminação de cadeia, pois em algum momento da polimerização, uma base sem hidroxila se incorpora, parando a reação. Era um método baseado na síntese, e era necessário correr um gel. Depois, fazia-se a leitura de baixo para cima (pois quem corre primeiro são mais leves). Fazia-se tudo numa reação só, em um tubo. Cada base dá uma luz de uma cor diferente, em um comprimento de onda diferente. Assim, desenvolveu-se um sistema ótica e software para fazer a leitura disso. Os Métodos de Nova geração: Ilumina, Solid, 454, ... O método clássico é muito lento. E, apesar de ter evoluído para a automação do processo de sequenciamento, ainda é muito lento. O 454 é um processo também por síntese, e foi o primeiro sequenciador de nova geração realmente aplicado, em que há uma fita simples para ser polimerizada, e uma DNA polimerase para a reação. Na reação, em algum momento, há a incorporação dos ddNTPs, e a reação para. (procurar na internet vídeo sobre pirosequenciamento) O problema da nova geração é que o volume de dados é grande, mas os sequenciamentos são curtos. A terceira geração tem tamanho intermediário, e possui leituras longas. Na hora de montar uma sequencia, é muito mais trabalhoso, a partir de sequencias curtas. É difícil saber de onde saiu cada fragmento.O solid gera os menores fragmentos. Estratégias de montagem de sequência: Montagem por referência, que exige que já haja uma sequencia já montada, e alinha-se uma nova sequencia, identificando o que se difere, sendo útil para quando se quer identificar características ou mutações de cada grupo. A montagem "De novo" é útil quando vai- se trabalhar com organismos novos que não foram sequenciados ainda, ou em organismos que diferem muito dentro de uma mesma espécie, como ocorre rearranjos. Para fazer a montagem, é necessário fazer comparações para identificar sobreposições, gerando contigs. Alinhamento de Sequências: Este método de comparação procura determinar o grau de similaridade entre duas ou mais seqüências, ou a similaridade entre fragmentos destas seqüências. No caso de mais de duas seqüências o processo é denominado alinhamento múltiplo. É bom lembrar que similaridade e homologia são conceitos diferentes.O alinhamento indica o grau de similaridade entre seqüências, já a homologia é uma hipótese de cunho evolutivo, e não possui gradação: duas seqüências são homólogas caso derivem de um ancestral comum ou, caso esta hipótese não se comprove, simplesmente não são homólogas. A qualidade de um alinhamento é determinada pela soma dos pontos obtidos por cada unidade pareada (match) menos as penalidades pela introdução de gaps e posições não pareadas (mismatch). Quando há duas sequencias, utilizamos um alinhamento global, pois é o tipo de sequencia ótima. Se usasse o alinhamento local, usaria uma heurística, utilizando apenas probabilidades, mudando o score. Sempre que há mais de duas sequencias, e melhor utilizar um alinhamento local, ou uma heurística pra isso. Relógio molecular: quanto tempo e preciso na escala evolutiva para a mudança de nucleotídeos. determinação exata de sequências que flanqueiam uma determinada sequência de repetição. Em experimentos tradicionais associados ao sequenciamento de Sanger, um protocolo paired-end inicia-se com longos fragmentos de DNA clonados em vetores para sua replicação em Escherichia coli. As extremidades destes fragmentos poderiam assim ser facilmente determinadas por sequenciamento.Utilizar uma heurística facilita um alinhamento, facilitando a interpretação. Blossum 62 é adequada para utilizar com proteinas (no Blast). - Heurística: Os algoritmos de busca heurística procuram pela melhor filogenia em um subconjunto de todas as filogenias possíveis. - Paired-Ends: Dados de sequenciamento paired-end oferecem a possibilidade da - Single-Ends: Quando o fragmento de nucleotídeo só foi sequenciado em uma extremidade. - Orfs (Open Reading Frame): É uma parte de um fragmento de leitura que pode ser codificado em proteínas ou peptídeo. É uma sequência entre um códon iniciador e um stop-códon. Conteúdo da Prova 2: BANCO DE DADOS BIOLÓGICOS PARA ANÁLISES DE SEQUENCIAS O objetivo de um banco de dados biológico é obter o maior número de informações possíveis deuma sequencia. As informações que os bancos de dados permitem incluem: arquivos contendo as informações (por exemplo, só sequencias); a organização lógica estrutural dessas informações; ferramentas para ter acesso às informações (encontrar o maior numero de informações no menor tempo possível). Dados biológicos são necessários porque, ao trabalhar com um organismo, é necessário conhecer toda a informação possível sobre o assunto. São importantes para disponibilizar dados biológicos para os cientistas (espécie, cepa, taxonomia, etc). O máximo possível de um tipo particular de informação deve estar disponível em um único lugar. Dados publicados podem ser difíceis de encontrar ou acessar(um banco de dados em que é possível de coletar informações até de artigos e revistas de menor impacto) e coletá-los da literatura consume muito tempo. Logo, é necessáriodisponibilizar dados em formato que possa ser lido por um computador. Banco de dados biológicos: Constitui um grande conjunto de dados persistentes (não pode desaparecer, tem que ser mantido por um longo tempo), geralmente associado a um software projetado para atualizar, consultar e recuperar componentes dos dados armazenados no sistema. Eficácia: \ser de fácil acesso às informações; Objetivo: Métodos para extrair somente informações necessárias para responder uma específica pergunta biológica. O conceito de bancos de dados pode ser resumido como qualquer conjunto organizado de dados, ou seja, é o local onde determinados dados serão armazenados de forma planejada e lógica, aumentando sua confiabilidade e facilitando o acesso das informações. Com base neste conceito, pode ser dito que Bancos de Dados Biológicos são bancos de dados que possuem conteúdo de caráter biológico. Nestes bancos podem ser encontrados diversos tipos de informações sobre o organismo ou micro-organimos de interesse, tais como: família, domínios, localização celular, enzimas, mutações, funções biológicas, dentre outras. Deve haver um local de integração, um de distribuição das informações, e vários usuários podem acessar esses dados rapidamente. Há um data center: local onde as informações são armazenadas, e um fluxo de dados onde ocorre a seleção, transformação, e data mining (mineração) das informações. Ao lapidar as informações, é possível obter o conhecimento. Data mining é a mineração dos dados, é o processo de explorar grandes quantidades de dados. O que se pode descobrir sobre um gene por meio de uma busca a um banco de dados: Informações evolutivas, informações genômicas, informações estruturais, informações de expressão, e informação funcional, tudo o que for possivel e existir sobre. A partir das informações básicas é possivel delegar outras informações a respeito daquela proteína, molécula, ou organismo, integrando conhecimento. Algumas informações associadas ao gene: Perfis metabólicos, co-fatores e metabólitos, inferencias filogenéticas, sequencias homólogas e outros genomas, sequencias,, informações de expressão, dados experimentais, etc. Realidade e problemas comuns: Muitas bases de dados são construídas pelos próprios biólogos, e isso acaba causando a não padronização da taxonomia, dificuldade na adoção de um vocabulário entre os grupos de pesquisa, termos diferentes para conceitos iguais ou conceitos diferentes para termos iguais. Qualidade dos dados disponíveis na web: Grupos de pesquisa submetem suas descobertas, algumas bases aceitam de qualquer maneira, e muitas bases não verificam a qualidade dos dados. Outras bases preocupam-se com a qualidade dos dados, onde um comitê valida-os. Estas bases ganham destaque na comunidade científica. O software oferecido por órgãos públicos como o NCBI e o PDB podem ainda estar em desenvolvimento. Grande parte deles é de boa qualidade. Treinar a ferramenta é importante, para que melhore a versão de seus dados. Versionamento dos dados: Dados não acurados podem ser melhorados; novas versões sobre a anotação de uma sequencia são submetidas às bases de dados. O custo de armazenamento e do tratamento das versões pode levar algumas bases de dados à simples atualização da "versão". Curadoria: saber se as informações fornecidas são relevantes e corretas. Repositórios de dados biológicos: O primeiro banco de dados que se instituiu com sequencias biológicas é o construído pela Dayhoff, em 1965, que depositou as sequencias de insulina. Depois surgiram outros bancos de dados, como o GenBank (1988), EMBL(1997) e DDBJ (1996). Os bancos de dados mantinham uma integração entre eles, compartilhando informações. Os bancos de dados são públicos e facilmente acessáveis. Se quiser trabalhar com sequências de nucleotídeos e DNA, é melhor pesquisar no GenBank, no NCBI. Para proteínas, o banco europeu (EMBL). Porém, é possível fazer tudo nos dois bancos. Bancos de dados primários: a pessoa deposita a sequencia de nucleotídeos e elas não recebem nenhum tipo de tratamento, existindo muita redundância nesse tipo de banco de dados. Ex: NCBI. - Meta-databases: Todas as informações possíveis. Ex: Entrez. - Bancos de dados de proteínas, ex: Swissprot. - Bancos de dados de estruturas de proteínas, ex: PDB. - Bancos de domínios e motivos proteicos, Ex: SMART. - Bancos de vias metabólicas, ex: KEGG. - Bancos de dados Genômicos, ex: WormBase, AceDB, FlyBase Classificação de bancos de dados: Bancos de dados primários: deposição direta de sequencia sem qualquer processamento ou análise, não curados. Ex: GenBank, EMBL, DDBJ. Bancos de dados Secundários: derivam dos primários, mas possuem alguns tipos de análises, geralmente curados. Ex: Swiss-prot, trEMBL,Uniprot, PROSITE, blocks, PDB, etc. A curadoria envolve, por exemplo, olhar artigos relacionados, informações biológicas depositadas,o que há de informações sobre aquela sequência, etc. Há um grande intervalo entre o depósito da sequência e a sua curadoria. Há informações que demoram a chegar aos bancos secundário, o que faz com que talvez haja perda de informações sobre algo entre um banco de dados primário e o secundário. Busca das Informações: Como acessar e recuperar as informações dos bancos de dados? Todos os bancos de dados são composto por entradas: pacotes discretos e coerentes de informações. Um software de recuperação de informação identifica entradas relevantes para o seu interesse.Para que a pesquisa seja bem-sucedida, é necessário ser o mais específico possível. A informação aumenta, os genes evoluem, e os bancos de dados devem se adequar e evoluir: Aumentando o recurso computacional para o arquivamento e interpretação de dados, aumentando do número de bancos especializados, surgindo sites "guarda-chuva" (tipo portal, com várias ferramentas), e com o aumento da interatividade. GI: Código de identificação de uma sequência. A principal entrada de dados sobre DNA é o genbank do NCBI, que com o desenvolvimento de nova geração, cresceram rapidamente. Com o banco de dados de proteínas não foi diferente: O primeiro banco de dados criado foi de proteínas, feito por Dayhoff. Com proteínas, deve-se isolar o proteoma para poder sequenciar. Trabalhar com proteínas é mais lento, e demora mais pra ser construído. Para sequenciar proteína, é necessário ter ela isolada, o que dá mais trabalho que sequenciar DNA. Bancos de dados primários são os que aceitam sequências de DNA que pode ser passada para uma sequencia de proteínas, e depois pode ser passada para um banco secundário (de proteínas). Toda sequência de DNA depositada é traduzida e compõe um banco secundário. As sequencias de proteínas são trabalhadas, fazendo curadoria: Pessoas analisam a sequência e, utilizam referencias e coisas assim para sua curadoria. A maior parte das sequencias de proteínas são derivadas do banco primário, compondo um banco de dado secundário. O banco secundário leva em consideração a informação de alguma atividade já demonstrada, e quanto mais informações tiverem, melhor esse banco secundário.O tempo de processamento para sequência do banco primário e secundário é diferente. No banco primário, após depositar, a sequência fica um tempo sendo analisada, e não cai em banco secundário (ainda). Bancos de dados secundários demoram mais para que a sequencia seja analizada, pois é necessário o processo de curadoria. Quando se faz anotação de genoma, preferencialmente se usa o banco de dado secundário, pois é mais confiável e tem informações que já foram curadas, mas é necessário olhar o banco primário pois podem haver sequencias e informações que ainda não foram depositadas no banco secundário. O banco secundário possui um número menor de sequencias. Os bancos primários aceitam tudo, já os bancos de dados secundários não aceitam tão fácil, pois precisa passar por uma curadoria. O que acontece também é que pode ter informações que nem sempre vão gerar uma proteína. O genoma não dá informações de processamento pós transducional. Quando se sequencia um genoma, a informação do genoma pode não mostrar regiões reguladoras, ou processamento pós-traducional. Pró-proteína: ainda não foi transformada para ser uma proteína madura. Quando passa por um processamento pós-traducional, forma uma proteína madura. Para conseguir chegar nas proteínas isoladas de um organismo, se faz uma eletroforese 2D, que separa as proteínas. Eletroforese de proteína é feita em gel de poliacrilamida. Proteína madura não tem peptideo sinal, que só serve pra levar ela até onde ela deve atuar. Análises em que se olha o proteoma, servem também para fazer um "proteoma comparativo ou diferencial", comparando as diferenças entre os proteomas, em condições diferentes. Após isso, se corta a proteína analisada desejada. Todas as informações possíveis sobre um gene ou proteoma são importantes, e depois se analisa SNPs, microarranjos, vias metabólicas, etc. Bancos de dados de proteínas: vários pesquisadores foram construindo bancos de dados e ferramentas de bioinformática. Os bancos de dados foram evoluindo. Busca de informações: Qual a informação que é necessária ter para proteínas: há modelos conceituais de estruturas de proteínas: Tipos de estruturas e modelo conceituais ,proteínas globulares, estruturas secundária, terciaria, quarternária, etc... Os modelos conceituais podem dar informação de que: - Proteínas globulares são solúveis em solventes predominantemente aquosos, tal como o citosol e fluídos extra-celulares; - Proteínas integrais de membranas existem dentro de ambientes dominados por lipídeos das membranas biológicas; - Modelos concentuais de estruturas de proteínas são importantes para o entendimento da bioinformática de proteínas. PDB: Banco de dados de estrutura de proteínas. Não há outro banco de dados de estrutura de proteínas. É o único repositório de distribuição de informações. Possui vários recursos e ferramentos para entender como a proteína vai funcionar. Ele não possui nada dos bancos de dados primários e secundários depositados. Só possui dados sobre estruturas reais, derivados de estudos de bancadas e dados experimentais, feitos por critalografia de raio-x e NMR. FERRAMENTAS: INSDC (International Nucleotide Sequence Database Colaboration): Banco de dados onde os principais repositores de dados biológicos compartilham as informações entre si. PDBSum: um dos principais recursos pra obtenção de informações estruturais. Contém resumos e análises de todas estrutras do PDB. Cada resumo fornece a descrição da resolução, número de cadeias de proteínas, ligantes e ions metálicas, estruturas secundárias, etc. RESOLUÇÃO: Quanto menor for, melhor é a qualidade da estrutura. SCOP: Olha classificação de estruturas. Tem por objetivo descrever as relações estruturais e evolutivas entre proteínas de estruturas conhecidas. SOSUI: Analisa sequências de proteínas com a finalidade de predizer estruturas secundárias em proteínas de membrana, baseando-se nas propriedades fisico-quimicas dos AAs. PROSITE: Contém sequências-modelos associadas com membros de famílias de protéinas, funções específicas de modifcações pós-traducionais. PRODOM: Dá de olhar domínios de famílias. INTERPRO procura em todos os bancos de dados e ferramentas para receber o maior número de dados possíveis, contendo informações como: domínios, famílias, funções, dentre outras; InterProScan: pode ser usado para procurar por “motifs” na seqüência da proteína de interesse. Os “motifs” ou motivos estruturais são oriundos do arranjo dos elementos da estrutura secundária dentro de um mesmo domínio. O que caracteriza um sítio de glicosilação é um NxTx. O UNIPROT também possui outras subdivisões, como grupos de sequências (Sequence Clusters) que possuem o mesmo grau de identidade. Clusters são sequências muito parecidas, agrupadas. GO - ligação à algo. Peptídeo sinal: Pequena porção no início da sequência que vai direcionar a proteína para um compartimento especíifco. Proteínas que são secretadas por uma célula possuem um peptídeo sinal. O domínio de uma proteína está relacioando com alguma função estrutural ou algo assim. Além das proteínas, existem famílias de proteínas definidas com regiões conservadas. Estas regiões conservadas e características de cada família são chamadas de motivos ou domínios. Os bancos de dados que armazenam estas informações são: CDD, PROSITEM, PFAM, PRODOM. PFAM: É um banco de dados de modelos de domínios, podendo extrair do alinhamento multiplo uma representação geral. SMART: Integra o PFAM e SignalP para fazer a caracterização, além de identificar sequências de baixa complexidade, com sequências repetitivas ou AAs pequenos que ocorrem várias vezes na mesma região. CDD NCBI: É um banco de dados curado. NETNGLYC: Banco de dado por onde é possível identificar sítios de glicosilação. ANOTAÇÃO DE GENOMAS Anotação consiste na identificação de suas regiões funcionais ou de relevância biológico, podendo incluir regiões codificantes, regiões funcionais em proteínas, genes de ncRNA (tRNAs, rRNAs, etc), regiões de DNA repetitivo, promotores, terminadores, operons, riboswitches e outras regiões regulatórias. Poucas informações biológicas podem ser extraídas se analisando unicamente a sequência de um genoma. Entretanto, em alguns casos, estes dados podem ser usados para análises comparativas. Além disso, genomas inteiros, da mesma forma que sequências pequenas, também podem ser alinhados (análise de sintenia, através dos blocos de sintenia). Mesmo assim não é poossível saber ao certo as alterações. A análise de sintenia pode demonstrar rearranjos e deve-se verificar se os genes presentes ali podem determinar alguma função. Ilhas de patogenicidade em bactérias são identificáveis através de análises. Etapas de Análise de Genoma: - Sequenciamento: Sanger, ngs, etc - Montagem: Montagem de novo: Quando se sequencia do zero, sem referências Montagem por referência: Quando já se tem o genoma anotado para aquela espécie - Anotação: Genes, ncRNAs, CDS, etc - Submissão: Submeter ao banco de dados, ex: GenBank. PREDIÇÃO DE GENES Os genes de procariotos são fáceis de ser identificados, pois não possuem sequencias de íntrons. Há RNAs policistrônicos, estrutura gênica simples, de fácil predição. Em eucariotos, há interrupção por íntrons e estrutura gênica complexa. Difícil predição, e pouco confiável fazer identificação do zero. Conceitos importantes: ORF: Sequência de DNA constituída por códons, sendo o primeiro códon de iniciação (normalmente ATG), e que termina com um códon de terminação. ORFS podem ser, mas não necessariamente são, regiões codificantes de fato. Bactérias possuem códon de iniciação diferentes (3 ou 4). CDS(Coding DNA Sequence): Sequencia de DNA codificante para uma proteína. Uma CDS pode ser uma ORF, mas nem toda ORF é CDS. CDS podem ser constutidas também pela soma de regiões de éxons de um gene de eucariotos. PSEUDOGENE: Uma região do genoma que, durante o processoevolutivo, deixou de ser um gene normalmente por conta de frameshifts (alteração de case de leitura). São genes que perderam uma função. PREDIÇÃO DE GENES EM PROCARIOTOS A identificação de genes em genomas de procariotos normamente é realizadas por softwares chamados “gene finders”. Devido à estrutura simples dos genes, os gene finders mais modernos costumam apresentar uma boa acurácia na identificação dos genes. Ex: PRODIGAL, GLIMMER, GENEMARK, FGENESB. Às vezes, possuem muitos falsos positivos. Por isso, é importante comparar com o banco de dados depois do resultado. Quadro de leitura: Divisão da sequencia em vários quadros diferentes, em códons. Possuem três fases de leitura. A primeira fase nas leituras de genes é identificar as ORF, depois comparar com bancos de dados para saber se há uma proteína presente ali. Nem todas as ORFs são genes, então, algunas delas são classificadas como “spurious ORF” (orfs identificadas erroneamente pelos programas, como codificantes). As spurious ORF são “falsos positivos”, e são conceitualmente similares, porém não iguais, as proteínas hipotéticas. Proteínas hipotéticas: ORFs que não apresentam similaridades a nenhuma sequência de proteínas que possui uma caracterização muito confiável. Spurious ORF: Uma sequência que definitivamente não pode ser uma região codificante. Exemplos incluem ORFs que estão sobrepostas a RNAs transportadores, RNAs ribossomais, sequências de DNA repetitivo. AntiFAM: Banco de dados criado com base em todos as “regiões codificadoras” identificadas erroneamente, os falsos positivos. PREDIÇÃO DE GENES EM EUCARIOTOS É muito mais complicada. A predição de genes em eucariotos é um processo complexo e que apresenta baixa acurácia mesmo em organismos bem caracterizados, sobretudo devido à ocorrência de éxons/íntrons, e de fenômenos como o splicing alternativo. A maioria dos softwares usa os chamados HMM (Hidden markov models), para gerar um “modelo de gene” com base em um organismo próximo já anotado. Depois, este modelo é usado para buscar genes. Os HMMs usam uma abordagem mais matemática. A principal alternativa à predição de genes em eucariotos é o uso de dados experimentais para a identificação de genes. Exemplos de dados que podem ser usados incluem: Sequências de proteínas (MS/MS ou sequenciamento de EDMAn), sequências de ESTs (expressed sequence tags) (sequenciamento por Sanger), e dados de RNA-seq (NGS). Diversos softwares podem ser usados para combinar estes dados, e após isso, é possível fazer uma anotação consenso com base em diferentes evidências, e ainda combinar estes dados de predição. IDENTIFICAÇÃO DE PROTEÍNAS É importante se realizar a identificação das proteínas correspondentes a cada gene encontrado, sendo esse processo normalmente realizado através do alinhamento da sequência contra um banco de dados de referência. UNIPROT, GENBANK, PFAM E GENE ONTOLOGY, COG (CLUSTER OF ORTHOLOGOUS GROUPS) são os principais bancos de dados para se realizar a identificação de uma proteína. Para esta comparação, as ferramentas mais usadas são: BLAST (Busca de sequências simiares através de alinhamento local) e HMMER (busca de sequências similares através de HMMs). IDENTIFICAÇÃO DE RNAS NÃO CODIFICANTES Sequências de RNA que não codificam para uma proteína, mas que apresentam função biológica. Exemplos incluem: RNAs transportadores, RNAs ribosomais, RNAs transportadores-mensageiros, micro-RNAS, etc. SOFTWARES: Diferentes ferramentas podem ser usadas para a busca de ncRNAS em um genoma. A forma mais simples, porém menos especifica, é usando o BLAST, mas seu uso pode resultar em um alto número de falsos positivos. Na busca de ncRNAs é importante se considerar a estrutura secundaria da molécula. Alinhamento local( ex:blast): Usa uma sequência como base para identificação. É pouco recomendada devido a acurácia. HMMs: Usa um modelo construído a partir do alinhamento múltiplo de moléculas de uma mesma classe. Possui acurácia maior que o alinhamento local nesse caso, e é usado por ferramentas como o RNAmmer. Modelos de covariância: Combina os HMMs com análises estruturais e gera uma predição mais acurada dos RNAs. Ferramentas usadas para identificar NCRNAS: Rnammer: predição de RNAs através de HMMs, Aragorn, Infernal,Trnascan-se. O rfam é um banco de dados curado de família de RNAs que inclui diversos modelos de covariância. Os dados do rfam podem ser importados na ferramenta infernal e usados para a busca de diversas famílias de ncRNAs. O rfam pertence a iniciativa xfam, que agrega também o pfam e o antifam, dentro de outros bancos pra famílias de sequências. ANOTAÇÃO AUTOMÁTICA Em informática, pipelines são conjuntos de ferramentas que são executadas em uma sequência lógica, onde a saída (output) de uma é a entrada (input) de outra. Diversas pipelines estão disponíveis para a anotação de genomas, e são capazes de identificar diversos tipos de regiões funcionais. Procariotos: PROKKA, RAST, EUGENE-PP, Basys, NCBI genome annotation pipeline. Eucariotos: MAKER, EUGENE. Pipelines locais VS. Web Algumas pipelines, denominadas de uso local, são programas instaláveis e podem ser baixadas nos sites de seus desenvolvedores. Prokka, Eugene-pp e maker são um exemplo. Já os pipelines web estão dispiníveis na forma de servidores online, onde os genomas são submetidos em seus respectivos sites. O uso é facilitado, mas uma anotação pode demorar horas, dias ou até semana dependendo da demanda. RAST, BASYS, NCBI GENOME ANOTATTION PIPELINE e XBASE são exemplos de pipelines de uso web. FERRAMENTAS DE BIOINFORMÁTICA PARA A CONSTRUÇÃO E ANÁLISE DE PRIMERS E VETORES Para construir um primer, é preciso amplificar um fragmento de DNA a partir de uma reação de polimerase em cadeia (PCR). É possível fazer à mão, mas também é possível fazer in silico com ferramentas de bioinformática onde é possivel simular com o plasmídeo como vai ficar e qual a temperatura ideal de anelamento pro primer. Antes de desenhar os primers: Existe um monte de bancos de dados de primers. Ex: Probe, do NCBI; qPrimerDepot - para PCR quantitativo; Primer/bank, do Harvard medical school. Deve-se conhecer bem a sequência que se deseja trabalhar, suas peculiaridades, o organismo de onde provém, e suas características. Peptídeo sinal não faz parte do gene, e por isso, ele deve ser retirado. Genes de procariotos não possuem íntrons, porém, os genes de eucariotos possuem. Logo, é necessário pegar apenas partes da sequência que não possuam íntrons. Primers podem ser desenhados por diversas ferramentas - Software podem variar em: - Conceitos e abordagens gerais; - Critério para desenho e configurações gerais; - Usabilidade; - Acessibilidade e velocidade; Considere uma segunda opinião quando: Tu és novo na área ou usando o software e não tens confiança no resultado inicial. Amplicon: Pedaço de DNA que será amplificado na PCR. O tamanho do primer determina a especificidade e afeta o anelamento ao DNA molde: Muito curto: baixa especificidade, resultando em amplicon não-específico; Muito longo: diminui a eficiência de ligação ao DNA molde em temperaturas normais de alinhamento, principalmente pela maior chance de estruturas secundárias (hairpins – grampo de cabelo – quando há anelamento por primer no próprio primer. Assim, gastará o primer fazendo uma estrutura secundária, ao invés de anelar com uma sequência). Tamanho ótimo do primer: 10-30 no geral; 30-35 para multiplex; Tamanho ótimo do amplicon: Depende da aplicação e da reação em si; - 300-1000 pb no geral, evitando >3000 pb; - 50-150 pb para Real Time PCR, evitando >400 pb; Especificidade dos primers: Determinado pela sequencia e tamanho do primer. Sequência usada para desenhar primers deve ser a mesma usada como molde para PCR! O primer vai se ligar apenas na sequencia que foi desenhado para ligar. Homologia cruzada: Amplificação de uma sequência diferente, mas parecida coma sequência alvo. A sequência amplificada é parecida com a sequência alvo, mas não é a sequência que deveria anelar. Pode ocorrer quando o DNA molde é gDNA ou amostra complexa (mistura de gDNAs); Para evitar amplificação cruzada, basta Blastear a sequência dos primers contra o banco de dados não-redundantes do NCBI; Desenhar os primers de forma a anelá-los sobre junções de éxons (gDNA x cDNA); Melting temperature (Tm) vs. Temperatura de anelamento (Ta) - TM é a temperatura em que 50% da duplex de DNA se dissocia a fita simples; - TA é a temperatura em que o primer se anela ao DNA alvo; Dependem do tamanho e composição do primer, sal, concentrações de buffers e reagentes, etc. A TM ótima para primers é 50-65°C.A temperatura dos dois primers (forward e reverso) não podem diferenciar muito, devem ser muito próximas, e suas diferenças não podem ser maiores do que 3ºC. TA depende da TM do primer e do amplicon. Regra geral: TA é 5°C menor que TM. As TAs dos primers usados numa reação devem ser muito próximas! < 3 °C de diferença! TA maiores aumentam a especificidade, mas podem reduzir rendimento. TA menores aumentam amplificação inespecífica. Estruturas secundárias no primer: ΔG aceitáveis: > -2 kcal/mol para hairpins na ext. 3’ > -3 kcal/mol para hairpins internos ΔG aceitáveis: > -5 kcal/mol para dímeros na ext. 3’ > -6 kcal/mol para dímeros internos. Homodímeros ou heterodímeros Homodímero: Dímero do mesmo primer. Heterodímero: Dímero de anelamento forward e reverso (tanto de um, como do outro). Algumas estruturas secundárias são mais danosas para a PCR, principalmente as que envolvem o anelamento da porção 3' do primer. DNA polimerase pode estender o primer, precisando de: uma porção 3'OH livre com porção do DNA pareada, precisa de um primer que esteja pareado, e DNA não pareado para que a DNA polimerase adicione nucleotídeos. Um dímero que forma uma estrutura capaz de ser estendida é mais danoso para uma PCR do que um dímero que forma uma estrutura que não é danosa ao PCR. Quando uma estrutura tem uma anelamento grande, mas a porção 3' não anela, também é danoso, pois gasta muita energia para estender o primer. Há duas formas de formar uma estrutura danosa: uma em que se forma uma estrutura capaz de ser amplificada, e a outra em que se forma um dímero forte o suficiente, e precisará de muita energia para que ele se solte (TM). Quanto mais negativa a TM, mais energia necessária para desmanchar essa estrutura e soltar o dímero, separando as moléculas. Conteúdo C-G: 40-60%; Sequências repetitivas devem ser evitadas; Bases iguais em sequencia <4; 3’ clamp ("braçadeira", referente à característica de ter uma extremidade 3'OH ligado a uma sequência de DNA. A presilha, o clamp, diz respeito à potência de ligação, que deve ser alta para formar uma ligação forte): deve haver C/G entre os últimos 4 pb (evitar >3); Evitar ΔG < -9 nas ultimas 5 bases; Cumprindo todas estas exigências, a extremidade 5’ pode ficar não pareada à sequência alvo, ficando livre para adição de características interessantes (sítio para enzima de restrição, fusão de genes, mutação sítio-dirigida por PCR, marcadores fluorescentes...) ‘Colinha’ para desenho de primers em geral 10-30 pb anelando ao DNA alvo; Amplicon <3000 pb; TM e TA entre 55 e 65 °C e com < 3 °C de diferença; CG entre 40 e 60%; Sem estruturas secundárias significativas (ΔGs altos), bases repetidas ou regiões repetitivas longas; Terminando em CG; Específico. Existem inúmeras ferramentas on line para desenhar primers para as mais diversas finalidades, como por exemplo, o "Primer 3" Vetor de clonagem Possui: Origem de replicação, marcador de seleção, sítio de múltipla clonagem Vetor de expressão Mesmas características do vetor de clonagem, mas com promotor forte e induzível, ATG, RBS (em procarioto), Sequência de Kozak, enhancers e sinal poli-A (em eucarioto), sinais de secreção e proteínas carreadoras, fusão a peptídeos específicos para purificação. Escolha teu vetor baseado na aplicação. Na bancada, posso fazer a digestão com ambas as enzimas ao mesmo tempo? Depende das enzimas! Importa qual o nucleotídeo que adicionei no primer, antes (ou depois, no caso da outra extremidade) do sítio da enzima de restrição? Não, mas podes variar, para mudar a TM do primer (AT vs. CG). Isso muda meu primer? Sim. Isso muda meu produto de PCR? Sim. Isso muda meu plasmídeo recombinante? NÃO! Durante a digestão estes nucleotídeos adicionais serão removidos e não farão parte da molécula final. E se e eu quiser clonar usando uma única enzima de restrição, posso? Pode, desde que investigue se a inserção ocorreu no sentido horário ou anti-horário. O mesmo se aplica a vetores TOPO! Precisamos escolher uma enzima que corte o vetor e o inserto, e no inserto o corte deve ser assimétrico em relação à molécula. A característica mais forte e universalmente presente em uma CDS (sequência codificadora) é ter um ATG (start codon) no início. Enzimas de restrição reconhecem as sequências específicas. São endonucleases de restrição. Seu sítio precisa estar no meio da sequência de DNA. ESTUDO DE PROTEÍNAS E BIOINFORMÁTICA ESTRUTURAL Estudo de proteínas Níveis organizacionais das estruturas das proteínas: Estrutura primária: sequência de aminoácidos na cadeia polipeptídica Estrutura secundária: enovelamento de partes das cadeias, formada somente pelas interações dos átomos da ligação peptídica. Estrutura terciária: Enovelamento de uma cadeia como um todo. Ligações entre átomos dos radicais R de todos os aminácidos da molécula Estrutura quarternária: Associação de mais de uma cadeia polipeptídica A estrutura de uma proteína madura tem a ver com a primeira cadeia/primeira estrutura. O arranjo dos peptídeos na cadeia primária pode fazer com que as proteínas com as mesmas características químicas sejam proteínas diferentes. Aminácidos que têm muita aproximação se atraem mais, e outros se repulsam mais. O conjunto de atração e repulsão faz com que haja a montagem de estruturas, de um modelo bidimensional e tridimensional da proteína. Essas estruturas levam em consideração o molde da proteína, e porque razão essa proteína faz isso. Arranjos homodimeros possuem a mesma proteína, enquanto que arranjos heterodímeros possuem proteínas diferentes. As funções hoje em uma célula têm, a ver com a estrutura da proteína, que é mantida pela força dela e pelas interações que ela faz com o meio dela. Modelar proteína é importante. As principais características que mantém a estrutura da proteína são as interações que ela faz: pontes de hidrogênio (aminoácidos polares), ligações ionicas(aminoácidos carregados), interações hidrofóbicas (aminoácidos apolares), e forças de Van der Waals (qualquer aminoácido). Isso é diretamente relacionado com o ambinte em que ela está. A principal forma de estudar uma proteína é cristalizando ela, e outra é fazendo ressonância magnética nuclear, e outra é a forma da bioinformática: a partir de modelamento por homologia ou similaridade, ou por cálculos que levam em consideração as interações e características das aminoácidos. INTRODUÇÃO À BIOINFORMÁTICA ESTRUTURAL: O que é bioinformática estrutural? É a área da bioinformática responsável pela análise de dados de estruturas moleculares, sobretudo de DNA e proteínas, mas também se estendendo a outros tipos de moléculas. Há diferentes forças e tipos de interações que são responsáveis por coordenar as estruturas: interações eletróstaticas, forças de dispersão, interação covalente, pontes de hidrogênio. É importante saber qual força atua em regiões da estrutura, afetando sua atividade. Otimização geométrica: A otimização geométrica é um procedimento utilizado para a determinação da melhor conformação para uma determinada molécula, considerando as interações inter-atômicas. As interações covalentes eletrósticas possuem distâncias e energias que devem ser obedecidas. Nível deorganização estrutural: - Primária: Sequência de aminoácidos. - Secundária: alfa-hélice, folha-beta, e loops. - Terciária: estrutura 3D de uma cadeia. - Quarternária: estrutura 3D com mais de uma cadeia. Folding: Dobramento de uma proteína é um processo dinâmico, sendo regido por um grande número de fatores internos(interações entre cadeias laterais) e externos (condiçoes do meio, enzimas chaperonas, etc) Forma nativa: forma em que é normalmente encontrada. É um processo rápido. Rotação de angulos Phi e Psi: A ligação peptidica é bastante rígida, apesar de não ser dupla, e não consegue ser rotacionada. Mas, entre o carbono central e o hidrogênio, e o outro carbono, há ângulos em que podem ser rotacionados. Há uma grande variedade de combinações de ângulos que podem gerar, mas é limitado, nem todos ângulos são possíveis, e por isso alguns não são permitidos. Métodos de determinação de estruturas moleculares: Métodos experimentais: cristalografia por difração de raio x e ressonância magnética nuclear. Métodos teóricos: modelagem por homologia, cálculo ab initio e dinâmica molecular. Métodos experimentais: As abordagens laboratoriais que permitem a determinação da estrutura de uma molécula. Tem um respaldo maior em relação aos modelos teóricos por refletirem a realidade para uma determinada condição. Servem de base para os modelos de homologia, e geralmente possuem grande confiabiliade Cristalografia por difração de Raio X: Construir um cristal a partir de uma molécula de interesse, um arranjo de várias estruturas iguais em um arranjo periódico. Formados em condições muito específicas para uma proteína cristalizar, precisa de condições necessárias. Há varias limitações, pois cada proteína possue sua condição ideal. Refletem o estado em menor energia. Ressonância Magnética Nuclear: Permite analisar a estrutura em solução, e possue limitações como o tamanho da estrutura. Cristalografia: Neste procedimento, a molécula de interesse é purificada, formando em condições ideais um cristal. Um feixe de ondas eletromagnéticas (raio-x) é incidido sobre o cristal. A densidade eletrônica do material desvia o feixe (processo de difração = um cristal recebe um feixe de raio X, que quando passa pelo cristal, bate na eletrosfera dos átomos, difratando). Os resultados da difração são captados por uma câmera CCD (antigamente filme fotográfico), e levados para a análise no computador. Com os dados da difração é feita a resolução da estrutura. Forma uma silhueta da proteína, e depois é possível analisar e construir. A densidade possue diferentes resoluções. Quanto melhor, mais fácil montar a estrutura. Vantagens: Permite a resolução de moléculas de diversos tamanhos. A cristalização dificulta a presença de outras moléculas que não as de interesse. Desvantagens: Nem todas as proteínas cristalizam. Algumas regiões podem apresentar densidade eletrônica falhada devido à flexibilidade e/ou vibração. Ressonância magnética Nuclear: É uma tecnica baseada na propriedade de mesmo nome presente em átomos pesados. A rotação do núcleo atômico gera um campo magnético de baixíssima intensidade que pode ser medido com determinados dispositivos. Este mesmo campo pode ser afetado por um campo magnético externo, sendo o efeito dessa alteração também passível de medicação. Neste procedimento, uma solução da molécula de interesse é submetida a campos magnéticos de alta-intensidade, sendo feita uma análise para identificação da posição relativa de cada atomo alternando o campo magnético. Vantagens: Usa soluções, não cristais, permitindo a resolução de proteínas não cristalizáveis. O fato de usar soluções também permite uma conformação mais próxima do real. Desvantagens: Quanto maior a proteína, maior o campo magnético necessário. Por isso, só é aplicada em alguns casos. É muito caro para ter em uma instituição normal. Métodos Teóricos: Métodos teóricos são aqueles que partem de análises in silico, ou seja, usando dados meramente computacionais, e não diretamente experimentais. Podem se basear em dados obtidos experimentalmente a fim de se predizer novas estruturas. Caso não se baseiem em dados experimentais, partindo apenas de simulações computacionais, são denominados ab initio ou de novo. Ambas as expressões podem ser traduzidas como "do começo". Cálculo que leva em consideração cada interação e estrutura da molécula. Modelagem por homologia: Baseia-se no princípio de que as sequências semelhantes apresentaram estruturas semelhantes. Usa alinhamentos globais e/ou locais para identificar proteínas homólogas ou regiões conservadas em um banco de dados. As estruturas das proteínas semelhantes serão usadas como molde para a construção de um novo modelo. Estruturas pouco definidas como alças podem ser preditas também por homologia ou por simulações ab initio. SWISS-MODEL: é um servidor online para modelagem por homologia. Possui um sistema de banca de trabalho onde o usuário pode manter seus dados no próprio site. MODELLER: é um software de uso local, ou seja, diferente dos preditores que ficam hospedados em um servidor online, seu uso necessita de instalação e capacidade de processamento adequada. Apesar de muitas vezes os servidores onlines serem mais práticos e rápidos para os usuários convencionais, em alguns casos os preditores locais podem ser mais interessantes. Modelagem ab initio: construção de modelos teóricos e ferramentas para se simular in silico de forma minuciosa o folding de proteinas via ab initio. Entretanto um dos principais problemas para este tipo de simulação é o grande número de variáveis a serem considerados o que exige uma capacidade computacional imensurável. No ano 2000 a universidade de Stanford iniciou o projeto Folding@home, que usa computação distribuída para resolver esse problema. O projeto disponibiliza um software para download em seu site que "rouba" um pouco da capacidade de processamento do usuário. A plataforma usada para gerir este processo é chamada BOINC. O software pode ser rodado em diversos sistemas operacionais. Cada usuário se torna parte de um gigantesco cluster de computadores que processam simultaneamente pacotes de informação para as simulações do projeto. Além dos folding@home, alguns muitos outros sistemas de modelagem ab initio estão sendo desenvolvidos e/utilizados (apesar de não contarem com o poder de processamento do mesmo). Alguns destes projetos inclusive disponibilizam interfaces web para que usuários possam simular o dobramento de suas proteínas. FOLDIT: O foldit é um jogo de computador do tipo MMO do tipo puzzle. O objetivo do jogo é a resolução de estruturas proteicas que apresenta crash (erros ou inconsistências que não poderia ocorrer na realidade). Apesar de ser um jogo, o Foldit já se mostrou uma ferramenta útil na solução de estruturas anteriormente não resolviveis por outros métodos. Durante o transcorrer do jogo, o usuário é desafiado a encontrar a melhor conformação pra um determinado fragmento, sendo conferido um score para cada solução. CASP é um experimento realizado a cada dois anos por uma comunidade mundial de grupos de pesquisa que visa avaliar os métodos de predição estrutural disponíveis. Neste caso, diversas proteínas com caracteristicas estruturais complexas são usadas como paramentro. BANCOS DE DADOS DE ESTRUTURAS: É importante submeter a estrutura para um banco de dados. Bancos de dados de pequenas molécula - ligantes: agregam informações de moléculas inorgânicas e orgânicas sintéticas ou naturais, além de poderem fornecer dados como: atividade biológica, rotas metabólicas, métodos de síntese, estrutura 3D, preço. - zinc. Bancos de dados de estruturas de proteínas: O principal banco de dados para estruturas de proteínas é o PDB, fundado em 1969 como sistema de análise para uso interlaboratório de dados e ferramentas de análise e representação de coordenadas atômicas. Bancos dedados de dominios: pfam, prodom, scop (com dominios tridimensionais) VISUALIZAÇÃO DE MOLÉCULAS - Visualizadores: Permitem a visualização de moléculas, podendo suportar diferentes formatos. Os principais formatos para moléculas são o .pdb (natural protein data bank), o .mol (mais usado para moléculas pequenas) e o .cif/.mtz (usado em cristalografia para dados de densidade eletrônica) - Representações : Linhas (backbone), sticks, cartoons/ribons (estruturas secundárias), surface (superfície eletrônica). PyMOL: ferramenta de uso livre para fins acadêmicos, desenvolvida em linguagem Python. Garante imagens de ótima qualidade aos seus renderizadores. MOLECULAR DOCKING Técnica que permite se determinar como duas moléculas interagem estruturalmente, sendo normalmente aplicado a casos de proteínas + ligante, proteína + proteína, proteína+ DNA/rna, ETC. Virtual screening & drug design: Possível para saber como uma droga atuaria, e através da estrutura de uma proteína alvo e uma biblitoeca de ligantes, qual seria o ligante que se liga com maior afinidade à proteína, e em qual local aquela molécula se liga com maior energia. Exercício, passos: ncbi - fasta (protein) - swiss model - Rampage Ramachandram - SolvX protein (only chain yes) (quanto mais negativo o resultado, melhor) - dfire protein (dfire/dfire 2)analiza a energia total do sistema.
Compartilhar