A maior rede de estudos do Brasil

Grátis
15 pág.
Resumo Bioinformática

Pré-visualização | Página 1 de 3

Prova Bioinfo:
1. Explique as diferenças entre o RefSeq e o GenBank.
Em suma, as bases de dados primárias armazenam dados brutos e
redundantes, enquanto que, as secundárias, informações não redundantes, derivadas
das primárias, em que várias entradas da mesma sequência lá são mescladas, a fim de
criar uma única sequência na base de dados secundária com anotações extensas
derivadas de todas as informações disponíveis na sequência. Como já dito
anteriormente, o GenBank é uma base de dados primária e o RefSeq, secundária.
No GenBank é disponibilizada a sequência anotada de nucleotídeos e suas
traduções em proteínas. O RefSeq é um banco de dados de sequências de DNA, RNA
e suas proteínas, com grandes sequências de diversas espécies, apresentando
registros únicos para cada biomolécula para cada organismo, de genomas às
transcrições e produtos de tradução.
2. Explique as diferenças entre as matrizes Blosum e PAM.
As matrizes PAM (Acetilação de mutação pontual) nos mostram a probabilidade
de uma alanina alinhar-se com outra alanina. A hipótese tomada é a seleção natural,
logo, o padrão de mudança não é aleatório.
As matrizes BLOSUM são para regiões conservadas dentro do alinhamento de
proteínas não tão similares.
Comparando PAM vs. BLOSUM temos que altos valores da BLOSUM e baixos
valores de PAM são matrizes mais adequadas para estudo de proteínas mais
conservadas. Já baixos valores de BLOSUM e altos de PAM, para detectar proteínas
distantes que se relacionam. Na PAM a mutação diminui, enquanto que na BLOSUM, a
identidade.
3. Discuta sobre homologia e similaridade.
A homologia remete à ancestralidade compartilhada, identidade, aos mesmos
aminoácidos compartilhados e similaridade, às mesmas classes de aminoácidos.
4. Explique as razões de se utilizar a medida de e-value para avaliar os resultados do
Blast.
O “valor de esperança” compara resultados do alinhamento obtido com outros da base
de dados. Os e-value são gerados após vários testes e correspondem ao número
distinto de alinhamentos, com pontuação igual ou melhor, que se espera retornar na
busca por sequências similares aleatoriamente. Quanto menor o e-value, menor o
número de chances de uma determinada sequência ser alinhada aleatoriamente com
outras e, portanto, mais significante é o resultado.
8. Explique como mineração de dados pode ser empregada em problemas
Biológicos.
A mineração de dados explora banco de dados e extrai um padrão. Em aplicações
biológicas, um gene pode ser identificado através de certas sequências de
nucleotídeos na fita de DNA e, a partir disso, pode-se comparar diferentes organismos
em busca de homologia, por exemplo.
9. Discuta complexidade no contexto da Biologia de Sistemas.
A complexidade é essencial à biologia, ao funcionamento do nosso organismo e à
natureza. (remete à precisao*) - complexidade é definida como a condição de
elementos de um sistema e a relação entre esses elementos em um determinado
momento.
As bases de dados reúnem conteúdo bruto a partir do qual é possível gerar
informação e aplicá-la em determinado interesse.
As bases de dados primárias armazenam os resultados experimentais, os quais
podem conter alguma informação mais concreta, porém sem estarem organizados em
uma determinada coleção.
Existem três bancos de dados primários que contêm todos os sequenciamentos
gerados até agora. São esses: GenBank, EMBL e DDBJ.
As bases de dados secundárias contêm os dados curados, ou seja,
armazenados em coleções, sem redundância e derivados das bases de dados
primárias.
Quando buscas são realizadas, o Google Scholar retorna mais resultados que
o Pubmed, porém, este retorna um conjunto bem definido de periódicos, enquanto a
ferramenta do Google não é tão específica quanto a isso.
Os bancos de dados, como visto em aula, são úteis tanto na hora de auxiliar a
pesquisa, coletando informações para serem utilizadas ou verificando se o que está
sendo pesquisado já foi feito.
A quantidade de informações que se pode ter acesso através desses bancos e
os diversos recursos que se pode explorar nestes, fazem deles um importante aliado à
ciência e une laboratórios do mundo todo.
Quanto maior a nota do alinhamento, maior a probabilidade deste ser
verdadeiro. Pelo esquema de notas podemos organizar dados para comparação de
resultados. O esquema de cores nos mostra a polaridade dos aminoácidos, por
exemplo, importante para sabermos mais sobre a função da proteína.
A comparação de estruturas de proteínas pode nos fornecer dados sobre a
conservação destas. Comparando proteínas ortólogas, com sequências de organismos
diferentes, podemos observar como a proteína evolui. No caso das parólogas,
proteínas similares do mesmo organismo, pode-se fazer o mesmo.
As matrizes mostram a probabilidade de um resíduo de aminoácido ser
substituído por outro durante a divergência das sequências na evolução.
O algoritmo de programação dinâmica de Needleman & Wunsch (1970)
relaciona duas sequências numa matriz para alinhamento global, seguindo um caminho
diagonal e, se necessário, pode-se desviar o caminho verticalmente ou
horizontalmente, indicando a introdução de gaps. O sistema de notas penaliza se há
alinhamento errado, diminuindo o score.
Já o algoritmo de Smith & Waterman (1981) é para alinhamento local, ou seja,
seleciona regiões de alta similaridade entre as sequências. É um caso especial de
Wunsch; quando a nota diminui muito, o algoritmo para.
Comparando-se alinhamento local e global, temos que, enquanto o primeiro
identifica subsequências no genoma, o segundo faz uso de filogenias para comparar
substituição de aminoácidos.
As alternativas ao algoritmo de Smith e Waterman são o BLAST e FASTA. O
BLAST busca por pares de palavras usadas em vez de resíduos, selecionando os que
tenham a nota (score - S) maior que o corte (T). A avaliação dos alinhamentos obtidos
com o BLAST é feita por meio do E-value - “valor de esperança”, o qual compara
resultados do alinhamento obtido com outros da base de dados.
Referente ao programa Python, nesta aula, trabalhamos os conceitos de
strings, tuplas, listas e dicionários. As strings são utilizadas quando precisamos de
estruturas textuais, são letras, símbolos, espaços ou dígitos colocados entre aspas
simples ou duplas. As tuplas são sequências ordenadas de elementos que podem ser
de diferentes tipos, mas seus valores não podem ser trocados, são imutáveis. Já as
listas são sequências ordenadas de elementos, os quais podem ser alterados. É
possível realizar a conversão entre strings, tuplas e listas.
Os dicionários constituem um meio de guardar dados e obter informações de
uma maneira melhor e mais limpa, indexa o que nos interessa diretamente e podemos
utilizar uma única estrutura, sem listas separadas.
alinhamentos, sabemos que estes são comparações entre duas ou mais
sequências biológicas e que são fundamentais para a análise destas; buscam séries de
caracteres individuais que se encontram na mesma ordem nas sequências analisadas,
objetivando a melhor correspondência e criando gaps para que, ao final, todas as
sequências tenham o mesmo comprimento. Isto torna visualizável a similaridade e
identidade, ao mesmo tempo, diminui as diferenças.
BLAST (Basic Local Alignment Search Tool) é o mais importante quando se
trata de alinhamento local; este algoritmo visa comparar uma sequência alvo (query)
com as disponíveis nos banco de dados (target), fornecendo um valor de significância
estatística associada a essa comparação de similaridade (VERLI, 2014). A ideia
principal por trás da pesquisa do BLAST é que sequências homólogas provavelmente
contêm uma região de similaridade curta e de alta pontuação, chamada word ou hit (W)
(CHOUDHURI, 2014). O alinhamento local é representado pelos HSPs (high-scoring
segment pairs).
O alinhamento múltiplo utiliza duas ou mais sequências que são
completamente ou parcialmente alinhadas para encontrar a melhor combinação.
Presume-se a homologia de resíduos e também a posição

Crie agora seu perfil grátis para visualizar sem restrições.