Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioinformática na Análise de Genes e Genomas Bioinformática = aquisição, análise e armazenamento de informação biológica, principalmente sob a forma de ácidos nucleicos e proteínas; biologia molecular computacional = cuida do desenvolvimento de algoritmos e programas computacionais para resolver problemas nessa área Alinhamentos de sequências Quando análises comparativas são feitas, procura-se similaridades e diferenças entre sequências de nucleotídeos ou aminoácidos, com o propósito de inferir analogias estruturais e/ou funcionais e relações evolutivas entre as moléculas envolvidas mais utilizado é o alinhamento de sequências para determinar quando duas sequências são suficientemente similares para justificar uma inferência de homologia Por similaridade entende-se uma quantidade observável que expressa esse conceito intuitivo. Homologia, por outro lado, refere-se ao fato de dois genes ou seus respectivos produtos partilharem ou não uma história evolutiva comum Alinhamentos de pares de sequências Não é necessário que todas as bases de uma sequência estejam associadas às da outra sequência no alinhamento, mas é desejável que o número de associações seja o maior possível. Pra visualizar as bases associadas pode se utilizar lacunas (gaps) para que ocorra alinhamento vertical ABCDEF ABC------DEF AGHJKGDEA AGHJKGDEA Para buscar alinhamentos ótimos é necessário definir um critério, medido na forma de um escore, pelo qual alinhamentos são quantificados. O algoritmo ótimo para uma determinada definição de escore deverá procurar o alinhamento que maximiza o valor desse escore. valor +1 a uma correspondência (match) de caracteres, -1 a uma falta de correspondência (mismatch) e -2 quando há a ocorrência de uma lacuna (gap) n pode so analisar, há necessidade de se considerar o significado biológico, devem ser colocados em posições não idênticas em ambas as sequências também Deve se ponderar a correspondência entre resíduos diferentes, levando em consideração matriz de substituição Elas levam em consideração uma parte da proteína q possui a mesma função mas com pequenas mutações ao decorrer do tempo, depois são contadas a frequencia da substituição valor em uma determinada posição da matriz representa a probabilidade de uma substituição de um aminoácido por outro. a similaridade é considerada ao longo de toda a extensão das sequências (similaridade/alinhamento global), ou as regiões de similaridade constituem uma fração da extensão das sequências (similaridade/alinhamento local) sequências não são uniformemente similares e é inútil realizar um alinhamento global em sequências que só possuem similaridades locais fazendo a comparação de duas sequencias em matriz, conseguimos alinhar cada base do eixo y com o eixo x, descobrindo então qual seria o valor desses alinhamentos e descobrir o alinhamento que produz o maior valor, sendo o ótimo. Dot Plot método gráfico que permite a comparação de duas sequências biológicas e a identificação de regiões de semelhança entre elas comparando em x e y as sequencias e pontuando bases que se igualam formando linhas diagonais caso apresentem semelhança. Com este modo e muito fácil ver modificações em sequencias (mutação/deleção) FastA Alinha duas sequencias e calcula segmentos com alta incidência de correspondência e atribui valor (linhas coloridas, *, no programa) Alem do valor ele mostra probabilidade p, que indica o quão acaso esta semelhança pode ser BLAST Procura a sua sequencia em um banco de dados e traz o melhor alinhamento com E-value, cujo menor valor menos chance do alinhamento ser ao acaso. Alinhamentos múltiplos Com mais sequencias parecidas conhecidas melhor o alinhamento Como: transformar, por meio de lacunas, todas as sequências em outras de mesma extensão e calcular a semelhança O programa ClustalW é um dos mais utilizados para o alinhamento múltiplo Análise de genomas Montagem de genomas Sequenciamento e feito de forma aleatória e o computador sobrepõe as pequenas sequencias para obter uma sequencia com bases contíguas. Anotação de genomas Anotação é a agregação de informação biológica. Proteoma é simples em procarioto pois mrna=dna, logo é so identificar código inciador e terminador do gene no DNA. Em eucariotos deve se levar em consideração informações conhecidas como prot semelhante, ortologo ou EST que são sequencias peq conhecidas de genes expressos Após a descrição de um gene, a sequencia de aminoácido pode ser buscada em banco de dado para ver se há proteína semelhante e identificar função do gene. Identificar genes ortólogos: montar um catálogo dos genes presentes no organismo estudado, atribuindo-lhes nomes e associando-os às prováveis funções, depois compara os organimos estudados. Cuidado com xenólogo. Para isso é necessário o metaboloma ou filogenia pra descobrir a presença desse gene no ancestral. proteínas com identidade menor que 50% faz se necessário buscas em bancos de dados de estruturas Análise comparativa de genomas Alinhar genoma pode elucidar evolução e ate mesmo identificar polimorfismo e doenças em humanos. Genômica comparativa Compara proteoma, localização de gene, numero e localização de seq reptida. Exemplos de programas: MUMmer - fornece informações de uma única mudança de nucleotídeo, inversões, translocações e homologias entre os genes ACT – interação comparando genomas PipMaker - identificação de padrões de similaridade em larga escala M-GCAT - alinhamento das regiões mais conservadas de vários genomas Bancos de dados biológicos bancos de dados secundários usam informações dos primários bancos de motivos (função biológica da proteína) bancos de dados de estruturas (predição de estrutura proteica) bancos de dados de genômica comparativa e os bancos de dados funcionais e de metabolismo procuram estabelecer relações entre os genomas de organismos evolutivamente próximos Banco de dados primários repositórios de sequências de nucleotídeos e de proteínas (NCBI, UniProt) GenBank - banco de dados de sequências primárias pelo ncbi Uniprot - repositório central de sequências de proteínas e de anotação funcional Banco de dados secundarios procurar sequências com função desconhecida em uma biblioteca de padrões para determinar se elas possuem ou não características predefinidas e função biológica. Banco de dados de estruturas de proteínas relacionamento sequência estrutura e os processos evolutivos PDB (proteindatabank) - estruturas de proteínas que foram resolvidas experimentalmente, fornece descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes RESUMO LIVRO A bioinformática é uma área multidisciplinar, envolvendo biologia, matemática, computação e estatística, e que tem, como um dos seus desafios, a análise dos dados gerados pelos diversos projetos de sequenciamento de genomas. Como a anotação (predição da função de um gene) é geralmente realizada por meio da sua comparação com sequências depositadas em vários bancos de dados, é importante conhecer a forma de organização dos conteúdos dos bancos de dados, para a realização da anotação correta de genomas. Essas informações estão armazenadas em vários bancos de dados públicos, que contêm sequências de DNA e de proteínas (bancos primários), de motivos proteicos conservados (bancos secundários e bancos de dados de estruturas de proteínas). A busca pode ainda ser realizada em bancos funcionais e de metabolismo, e o objetivo é sempre o de adicionar a informação biológica às sequências de DNA. Se, por um lado, a genética experimental não cessa de fornecer notáveis progressos nas técnicas de sequenciamento, por outro, isso leva ao acúmulo de múltiplos genomas para estudos cada vez mais detalhados. A genômica comparativa tornou-se uma ferramenta poderosa para identificação de novas famílias gênicas e de estudos evolutivos. Algoritmos eficientes para o alinhamento de pares de sequências, do tipo BLAST, encontram-se otimizados e são, rotineiramente, utilizados. Entretanto, o desenvolvimento de métodos rápidos e eficientespara comparar dois ou mais genomas são cada vez mais necessários. Os recursos apresentados neste capítulo, encontram-se (a maioria) disponíveis na internet. Assim, a genética e a genômica modernas enfrentam o desafio de aplicar esses novos recursos ao estudo da dinâmica da atuação dos genes e dos genomas, para alcançar um melhor entendimento de sua biologia
Compartilhar