Bioinformática na Análise de Genes e Genomas

•

UFU

0

Warlley Cunha

31/07/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioquímica I

142.668 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Bioinformática na Análise de Genes e Genomas
Bioinformática = aquisição, análise e armazenamento de informação biológica, principalmente sob a forma de ácidos nucleicos e proteínas; 
biologia molecular computacional = cuida do desenvolvimento de algoritmos e programas computacionais para resolver problemas nessa área
Alinhamentos de sequências
Quando análises comparativas são feitas, procura-se similaridades e diferenças entre sequências de nucleotídeos ou aminoácidos, com o propósito de inferir analogias estruturais e/ou funcionais e relações evolutivas entre as moléculas envolvidas
mais utilizado é o alinhamento de sequências para determinar quando duas sequências são suficientemente similares para justificar uma inferência de homologia
Por similaridade entende-se uma quantidade observável que expressa esse conceito intuitivo. Homologia, por outro lado, refere-se ao fato de dois genes ou seus respectivos produtos partilharem ou não uma história evolutiva comum
Alinhamentos de pares de sequências
Não é necessário que todas as bases de uma sequência estejam associadas às da outra sequência no alinhamento, mas é desejável que o número de associações seja o maior possível.
Pra visualizar as bases associadas pode se utilizar lacunas (gaps) para que ocorra alinhamento vertical
ABCDEF		ABC------DEF
AGHJKGDEA		AGHJKGDEA
Para buscar alinhamentos ótimos é necessário definir um critério, medido na forma de um escore, pelo qual alinhamentos são quantificados. 
O algoritmo ótimo para uma determinada definição de escore deverá procurar o alinhamento que maximiza o valor desse escore.
valor +1 a uma correspondência (match) de caracteres, -1 a uma falta de correspondência (mismatch) e -2 quando há a ocorrência de uma lacuna (gap)
n pode so analisar, há necessidade de se considerar o significado biológico, devem ser colocados em posições não idênticas em ambas as sequências também
Deve se ponderar a correspondência entre resíduos diferentes, levando em consideração matriz de substituição
Elas levam em consideração uma parte da proteína q possui a mesma função mas com pequenas mutações ao decorrer do tempo, depois são contadas a frequencia da substituição
valor em uma determinada posição da matriz representa a probabilidade de uma substituição de um aminoácido por outro.
a similaridade é considerada ao longo de toda a extensão das sequências (similaridade/alinhamento global), 
ou 
as regiões de similaridade constituem uma fração da extensão das sequências (similaridade/alinhamento local)
sequências não são uniformemente similares e é inútil realizar um alinhamento global em sequências que só possuem similaridades locais
fazendo a comparação de duas sequencias em matriz, conseguimos alinhar cada base do eixo y com o eixo x, descobrindo então qual seria o valor desses alinhamentos e descobrir o alinhamento que produz o maior valor, sendo o ótimo.
Dot Plot
método gráfico que permite a comparação de duas sequências biológicas e a identificação de regiões de semelhança entre elas comparando em x e y as sequencias e pontuando bases que se igualam formando linhas diagonais caso apresentem semelhança. Com este modo e muito fácil ver modificações em sequencias (mutação/deleção)
FastA
Alinha duas sequencias e calcula segmentos com alta incidência de correspondência e atribui valor (linhas coloridas, *, no programa)
Alem do valor ele mostra probabilidade p, que indica o quão acaso esta semelhança pode ser
BLAST
Procura a sua sequencia em um banco de dados e traz o melhor alinhamento com E-value, cujo menor valor menos chance do alinhamento ser ao acaso.
Alinhamentos múltiplos
Com mais sequencias parecidas conhecidas melhor o alinhamento
 Como: transformar, por meio de lacunas, todas as sequências em outras de mesma extensão e calcular a semelhança
O programa ClustalW é um dos mais utilizados para o alinhamento múltiplo
Análise de genomas
Montagem de genomas
Sequenciamento e feito de forma aleatória e o computador sobrepõe as pequenas sequencias para obter uma sequencia com bases contíguas. 
Anotação de genomas
Anotação é a agregação de informação biológica.
Proteoma é simples em procarioto pois mrna=dna, logo é so identificar código inciador e terminador do gene no DNA.
Em eucariotos deve se levar em consideração informações conhecidas como prot semelhante, ortologo ou EST que são sequencias peq conhecidas de genes expressos
Após a descrição de um gene, a sequencia de aminoácido pode ser buscada em banco de dado para ver se há proteína semelhante e identificar função do gene.
Identificar genes ortólogos: montar um catálogo dos genes presentes no organismo estudado, atribuindo-lhes nomes e associando-os às prováveis funções, depois compara os organimos estudados. Cuidado com xenólogo.
Para isso é necessário o metaboloma ou filogenia pra descobrir a presença desse gene no ancestral.
proteínas com identidade menor que 50% faz se necessário buscas em bancos de dados de estruturas
Análise comparativa de genomas
Alinhar genoma pode elucidar evolução e ate mesmo identificar polimorfismo e doenças em humanos.
Genômica comparativa
Compara proteoma, localização de gene, numero e localização de seq reptida. 
Exemplos de programas:
	MUMmer - fornece informações de uma única mudança de nucleotídeo, inversões, translocações e homologias entre os genes
ACT – interação comparando genomas
PipMaker - identificação de padrões de similaridade em larga escala
M-GCAT - alinhamento das regiões mais conservadas de vários genomas
Bancos de dados biológicos
bancos de dados secundários usam informações dos primários
bancos de motivos (função biológica da proteína)
bancos de dados de estruturas (predição de estrutura proteica)
bancos de dados de genômica comparativa e os bancos de dados funcionais e de metabolismo procuram estabelecer relações entre os genomas de organismos evolutivamente próximos
Banco de dados primários
repositórios de sequências de nucleotídeos e de proteínas (NCBI, UniProt)
GenBank - banco de dados de sequências primárias pelo ncbi
Uniprot - repositório central de sequências de proteínas e de anotação funcional
Banco de dados secundarios
procurar sequências com função desconhecida em uma biblioteca de padrões para determinar se elas possuem ou não características predefinidas e função biológica.
Banco de dados de estruturas de proteínas
relacionamento sequência estrutura e os processos evolutivos
PDB (proteindatabank) - estruturas de proteínas que foram resolvidas experimentalmente, fornece descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes
RESUMO LIVRO
A bioinformática é uma área multidisciplinar, envolvendo biologia, matemática, computação e estatística, e que tem, como um dos seus desafios, a análise dos dados gerados pelos diversos projetos de sequenciamento de genomas. Como a anotação (predição da função de um gene) é geralmente realizada por meio da sua comparação com sequências depositadas em vários bancos de dados, é importante conhecer a forma de organização dos conteúdos dos bancos de dados, para a realização da anotação correta de genomas. Essas informações estão armazenadas em vários bancos de dados públicos, que contêm sequências de DNA e de proteínas (bancos primários), de motivos proteicos conservados (bancos secundários e bancos de dados de estruturas de proteínas). A busca pode ainda ser realizada em bancos funcionais e de metabolismo, e o objetivo é sempre o de adicionar a informação biológica às sequências de DNA. Se, por um lado, a genética experimental não cessa de fornecer notáveis progressos nas técnicas de sequenciamento, por outro, isso leva ao acúmulo de múltiplos genomas para estudos cada vez mais detalhados. A genômica comparativa tornou-se uma ferramenta poderosa para identificação de novas famílias gênicas e de estudos evolutivos. Algoritmos eficientes para o alinhamento de pares de sequências, do tipo BLAST, encontram-se otimizados e são, rotineiramente, utilizados. Entretanto, o desenvolvimento de métodos rápidos e eficientespara comparar dois ou mais genomas são cada vez mais necessários. Os recursos apresentados neste capítulo, encontram-se (a maioria) disponíveis na internet. Assim, a genética e a genômica modernas enfrentam o desafio de aplicar esses novos recursos ao estudo da dinâmica da atuação dos genes e dos genomas, para alcançar um melhor entendimento de sua biologia