Grátis
15 pág.

Denunciar
Pré-visualização | Página 1 de 3
Prova Bioinfo: 1. Explique as diferenças entre o RefSeq e o GenBank. Em suma, as bases de dados primárias armazenam dados brutos e redundantes, enquanto que, as secundárias, informações não redundantes, derivadas das primárias, em que várias entradas da mesma sequência lá são mescladas, a fim de criar uma única sequência na base de dados secundária com anotações extensas derivadas de todas as informações disponíveis na sequência. Como já dito anteriormente, o GenBank é uma base de dados primária e o RefSeq, secundária. No GenBank é disponibilizada a sequência anotada de nucleotídeos e suas traduções em proteínas. O RefSeq é um banco de dados de sequências de DNA, RNA e suas proteínas, com grandes sequências de diversas espécies, apresentando registros únicos para cada biomolécula para cada organismo, de genomas às transcrições e produtos de tradução. 2. Explique as diferenças entre as matrizes Blosum e PAM. As matrizes PAM (Acetilação de mutação pontual) nos mostram a probabilidade de uma alanina alinhar-se com outra alanina. A hipótese tomada é a seleção natural, logo, o padrão de mudança não é aleatório. As matrizes BLOSUM são para regiões conservadas dentro do alinhamento de proteínas não tão similares. Comparando PAM vs. BLOSUM temos que altos valores da BLOSUM e baixos valores de PAM são matrizes mais adequadas para estudo de proteínas mais conservadas. Já baixos valores de BLOSUM e altos de PAM, para detectar proteínas distantes que se relacionam. Na PAM a mutação diminui, enquanto que na BLOSUM, a identidade. 3. Discuta sobre homologia e similaridade. A homologia remete à ancestralidade compartilhada, identidade, aos mesmos aminoácidos compartilhados e similaridade, às mesmas classes de aminoácidos. 4. Explique as razões de se utilizar a medida de e-value para avaliar os resultados do Blast. O “valor de esperança” compara resultados do alinhamento obtido com outros da base de dados. Os e-value são gerados após vários testes e correspondem ao número distinto de alinhamentos, com pontuação igual ou melhor, que se espera retornar na busca por sequências similares aleatoriamente. Quanto menor o e-value, menor o número de chances de uma determinada sequência ser alinhada aleatoriamente com outras e, portanto, mais significante é o resultado. 8. Explique como mineração de dados pode ser empregada em problemas Biológicos. A mineração de dados explora banco de dados e extrai um padrão. Em aplicações biológicas, um gene pode ser identificado através de certas sequências de nucleotídeos na fita de DNA e, a partir disso, pode-se comparar diferentes organismos em busca de homologia, por exemplo. 9. Discuta complexidade no contexto da Biologia de Sistemas. A complexidade é essencial à biologia, ao funcionamento do nosso organismo e à natureza. (remete à precisao*) - complexidade é definida como a condição de elementos de um sistema e a relação entre esses elementos em um determinado momento. As bases de dados reúnem conteúdo bruto a partir do qual é possível gerar informação e aplicá-la em determinado interesse. As bases de dados primárias armazenam os resultados experimentais, os quais podem conter alguma informação mais concreta, porém sem estarem organizados em uma determinada coleção. Existem três bancos de dados primários que contêm todos os sequenciamentos gerados até agora. São esses: GenBank, EMBL e DDBJ. As bases de dados secundárias contêm os dados curados, ou seja, armazenados em coleções, sem redundância e derivados das bases de dados primárias. Quando buscas são realizadas, o Google Scholar retorna mais resultados que o Pubmed, porém, este retorna um conjunto bem definido de periódicos, enquanto a ferramenta do Google não é tão específica quanto a isso. Os bancos de dados, como visto em aula, são úteis tanto na hora de auxiliar a pesquisa, coletando informações para serem utilizadas ou verificando se o que está sendo pesquisado já foi feito. A quantidade de informações que se pode ter acesso através desses bancos e os diversos recursos que se pode explorar nestes, fazem deles um importante aliado à ciência e une laboratórios do mundo todo. Quanto maior a nota do alinhamento, maior a probabilidade deste ser verdadeiro. Pelo esquema de notas podemos organizar dados para comparação de resultados. O esquema de cores nos mostra a polaridade dos aminoácidos, por exemplo, importante para sabermos mais sobre a função da proteína. A comparação de estruturas de proteínas pode nos fornecer dados sobre a conservação destas. Comparando proteínas ortólogas, com sequências de organismos diferentes, podemos observar como a proteína evolui. No caso das parólogas, proteínas similares do mesmo organismo, pode-se fazer o mesmo. As matrizes mostram a probabilidade de um resíduo de aminoácido ser substituído por outro durante a divergência das sequências na evolução. O algoritmo de programação dinâmica de Needleman & Wunsch (1970) relaciona duas sequências numa matriz para alinhamento global, seguindo um caminho diagonal e, se necessário, pode-se desviar o caminho verticalmente ou horizontalmente, indicando a introdução de gaps. O sistema de notas penaliza se há alinhamento errado, diminuindo o score. Já o algoritmo de Smith & Waterman (1981) é para alinhamento local, ou seja, seleciona regiões de alta similaridade entre as sequências. É um caso especial de Wunsch; quando a nota diminui muito, o algoritmo para. Comparando-se alinhamento local e global, temos que, enquanto o primeiro identifica subsequências no genoma, o segundo faz uso de filogenias para comparar substituição de aminoácidos. As alternativas ao algoritmo de Smith e Waterman são o BLAST e FASTA. O BLAST busca por pares de palavras usadas em vez de resíduos, selecionando os que tenham a nota (score - S) maior que o corte (T). A avaliação dos alinhamentos obtidos com o BLAST é feita por meio do E-value - “valor de esperança”, o qual compara resultados do alinhamento obtido com outros da base de dados. Referente ao programa Python, nesta aula, trabalhamos os conceitos de strings, tuplas, listas e dicionários. As strings são utilizadas quando precisamos de estruturas textuais, são letras, símbolos, espaços ou dígitos colocados entre aspas simples ou duplas. As tuplas são sequências ordenadas de elementos que podem ser de diferentes tipos, mas seus valores não podem ser trocados, são imutáveis. Já as listas são sequências ordenadas de elementos, os quais podem ser alterados. É possível realizar a conversão entre strings, tuplas e listas. Os dicionários constituem um meio de guardar dados e obter informações de uma maneira melhor e mais limpa, indexa o que nos interessa diretamente e podemos utilizar uma única estrutura, sem listas separadas. alinhamentos, sabemos que estes são comparações entre duas ou mais sequências biológicas e que são fundamentais para a análise destas; buscam séries de caracteres individuais que se encontram na mesma ordem nas sequências analisadas, objetivando a melhor correspondência e criando gaps para que, ao final, todas as sequências tenham o mesmo comprimento. Isto torna visualizável a similaridade e identidade, ao mesmo tempo, diminui as diferenças. BLAST (Basic Local Alignment Search Tool) é o mais importante quando se trata de alinhamento local; este algoritmo visa comparar uma sequência alvo (query) com as disponíveis nos banco de dados (target), fornecendo um valor de significância estatística associada a essa comparação de similaridade (VERLI, 2014). A ideia principal por trás da pesquisa do BLAST é que sequências homólogas provavelmente contêm uma região de similaridade curta e de alta pontuação, chamada word ou hit (W) (CHOUDHURI, 2014). O alinhamento local é representado pelos HSPs (high-scoring segment pairs). O alinhamento múltiplo utiliza duas ou mais sequências que são completamente ou parcialmente alinhadas para encontrar a melhor combinação. Presume-se a homologia de resíduos e também a posição