Resumo de Bioinformática

•

UNIFAL

11

0

11

0

Levy Bueno Alves

27/11/2017

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioinformática

2.001 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Resumo de Bioinformática

Sequenciamento de DNA: é a determinação de sua sequência nucletídica (ACGT’s)
#A tecnologia de sequenciamento atual exige que se quebre o DNA em pequenos
fragmentos de cerca de 2000 pares de bases (Sanger), exigindo a montagem de
fragmentos
#Método de Sanger: uma fita simples de DNA que será sequenciada, é hibridizada com
um Primer de desoxinucleotídeos marcado na extremidade 5´(cinco linha). Quatro
misturas de reação são preparadas onde os Primer's utilizados serão elongados por
uma DNA polimerase. Cada mistura contém os quatro desoxinucleosídeos trifosfato
normais mais um dos quatro didesoxinucleosídeos trifosfato em uma razão de
aproximadamente 1/100. Uma vez que um didesoxinucleotídeo não tem oxidrila ou
hidroxila na extremidade 3´, não é possível haver extensão a partir do nucleotídeo
adicionado, parando a reação. Desta forma, cada mistura de reação produzirá cadeias
prematuramente terminadas de acordo com toda ocorrência de um didesoxinucleotídeo
adicionado. Cada mistura é então separada em um gel (poliacrilamida desnaturante) de
sequenciamento por eletroforese para se detectar cada um dos nucleotídeos presentes
na sequência de DNA lida.

Cromatograma: é o registro gráfico de uma análise por um método cromatográfico
#Quanto mais alto o pico, maior a qualidade da identificação da base
*Recurso Bioedit: Identifica as bases, dizendo se as regiões tem alta, média, baixa
afinidade. “A diferença de qualidade acontece devido a migração de elétrons na placa”.

O que é um projeto genoma?
#Sequenciamento de material genético de organismo e anotação de estruturas e genes
encontrados.
* O sequenciamento pode ser total ou parcial. A montagem feita por diferentes
programas. O objetivo final pode ser um produto, publicações ou respostas.

Bioinformática: aplicação da “informática” na “biologia molecular”. Utilização de
ferramentas computacionais para o estudo e resolução de problemas biológicos.

Gerenciamento de informações: Armazenar dados genéticos e disponibilizá-los de
forma maleável e facilitada. Gerenciar a troca de informações.
# Inclui bancos de dados, páginas de serviços via internet, listas de correio eletrônico,
submissão e busca de dados etc.

Bancos de dados: Armazenamento organizado de informações que possibilita fácil,
preciso e rápido acesso às mesmas.

• ModWeb: é um servidor para modelagem de estrutura de proteínas
• SWISS-MODEL: é um servidor de modelagem de homologia de estrutura de
proteínas totalmente automatizado, acessível através do servidor web ExPASy,
ou do programa DeepView (Swiss Pdb-Viewer). O objetivo deste servidor é
tornar a Modelagem de Proteínas acessível a todos os bioquímicos e biólogos
moleculares em todo o mundo.
• Vakser Lab: é um software de armazenamento de proteínas. O servidor irá
ignorar quaisquer pequenos ligandos ou outras moléculas não protéicas nos
arquivos de entrada. É projetado exclusivamente para acoplar pares de
moléculas de proteínas por simulação.
• PatchDock: o algoritmo PatchDock é inspirado pelo reconhecimento de objetos
e técnicas de segmentação de imagem usadas na Visão de Computador. Dadas
duas moléculas, suas superfícies são divididas em manchas de acordo com a
forma da superfície. Esses patches correspondem a padrões que distinguem
visualmente entre peças de quebra-cabeça. Uma vez que as manchas são
identificadas, elas podem ser sobrepostas usando algoritmos de
correspondência de formas.
• NCBI: o NCBI é dividido em vários bancos de dados específicos. Cada banco de
dados armazena informações e apresenta links com outros bancos do próprio
NCBI e bancos externos.
o O banco Nucleotide armazena sequências e informações associadas a
cada uma das sequências.
o O banco Protein armazena sequências de proteínas e sequências que
foram traduzidas automaticamente de sequências nucleotídicas
codificadoras. O banco também traz informações associadas a cada uma
das sequências.
o Taxonomy: Banco de dados com informações sobre a classificação
taxonômica das espécies. Esse banco de dados apresenta somente
informações taxonômicas de espécies que têm informações moleculares
depositadas no NCBI.
• PDB: banco de dados que armazena informações sobre estrutura tridimensional
das proteínas. Nessa banco são armazenadas estruturas das proteínas que
foram avaliadas por cristalografia Raio-X, Espectroscopia por ressonância
magnética nuclear (NMR).
• Expasy: banco de dados com sequências de proteínas, especialmente enzimas.
• Keeg: é um recurso de banco de dados para a compreensão de funções de alto
nível e utilitários do sistema biológico, como células organismos e ecossistemas,
a partir de informações de nível molecular.

Algoritmo: é a forma estruturada de resolver problemas em uma sequência lógica.

Desenvolvimento: em bioinformática, é a área onde são criadas ferramentas
computacionais para resolução de problemas da biologia molecular.

Phred/Phrap/Consed: Um pacote de três programas interligados e altamente
compatíveis para análise, montagens e editoração de sequências que rodam em
ambiente UNIX. Permite:
• Leitura dos arquivos cromatogramas;
• Atribuição de qualidade às bases (individualmente);
• Identificação e mascaramento de vetores;
• Sequência Assembly (montagem da sequência)
• Visualização de Assembly (visualização e edição das montagens)
Onde:
• Phred – valores de qualidade para bases
• Cross-match – comparação e marcação
• Phrap e CAP3 – montagem
• Phrapview e Consed – visualização

Pipeline Phred/Phrap/Consed:

Diretórios:
Chromat_dir Phd_dir Edit_dir

#Contigs: São sequências que tiveram pareamento (junção de sequências a modo de
se obter um gene). É o comprimento cotínuo da sequência genômica.
#Sintigs: são sequências que não tiveram pareamento

Phred: esse software lê arquivos de rastreamento de sequências de DNA, chama bases
e atribui um valor de qualidade a cada base chamada. Possui a capacidade de ler os
cromatogramas de cada “read” do sequenciador e atribuir bases aos picos, produzir um
índice de qualidade com valores para cada base e escrever todo em um arquivo em
formato certo para Phrap. Phred é capaz de ler vários formatos de arquivos de vários
sequenciadores (SCF, ABI, e ESD formatos) e extrair a sequência e escrever em
formato FASTA ou PHD. A qualidade (a confiabilidade na identificação de cada base) é
utilizada na montagem das sequências como a medida de precisão da montagem final.
*Phred: Identifica a qualidade da base. Quanto mais alto o pico, menor o erro de leitura.
A qualidade é determinada por -10log10 (p). O software solta os arquivos com formato
phd.
*phd2Fasta: Vai extrais 3 colunas: base, posição da base e qualidade da base. Vai gerar
um arquivo de texto no formato fasta com números onde será possível identificar regiões
com melhores ou piores qualidades. O software somente formata o arquivo do Phred.

*Cross_match: Precisa de um vetor de clonagem. Vai mascarar as regiões que não são
de interesse com “X”, deixando apenas regiões de interesse. Faz a marcação.

Imput
Arquivos do cromatograma
Avaliação de valores de qualidade
Phred
Arquivos phd -*.phd
Conversão – phd para fasta
phd2fasta.pl
Sequências de nucleotídeos - seqs_fasta
Valores de qualidade - seqs_fasta.screen.qual

Retirada de bases contaminantes
Cross_Match +vector.seq
Arquivos de saída -seqs_fasta.screen

Montagem (Assembly)
Phrap
Contigs montadas -seqs_fasta.screen.contigs
Arquivode montagem - seqs_fasta.screen.ace#

Visualização e edição de montagem
Consed

Phrap: recebendo os arquivos do Phred, este programa compara as sequências
procurando regiões de homologia para sobrepor os reads, montando sequências
pequenas em trechos maiores. O programa permite o uso do read inteiro mas usa as
informações da qualidade da sequência na montagem (informações do Phred). O
arquivo produzido tem todas as informações sobre as montagens, qualidade das
associações entre reads e confiabilidade da montagem final.
*Phrap: Faz a junção de sequências para formarem um possível gene.
Consed: Editor de gráficos e utilidades: este programa converte as informações geradas
pelo Phred e Phrap, em gráficos que mostram os "contigs" (sequências montadas), os
reads utilizados, a confiabilidade de cada read e dados sobre a confiabilidade de "contig"
(qualidade de cada base, erros por 1000 bases e orientação e nome de cada read).
Também, tem utilidades para desenhar primers para terminar regiões da sequência de
baixa confiabilidade, programas para busca de sequências repetidas e editoração de
reads dentro do contig. Os recursos de acabamento incluem permitir ao usuário escolher
primers e modelos, sugerindo reações de sequenciamento adicionais para executar e
facilitando a verificação da precisão da montagem usando informações de digerir e
reenviar / reverter.
*.ace – permite a visualização da montagem usando o Consed
*.view – requerido para visualização da montagem usando o Phrapview
Blast: é uma família de programas desenvolvidos para comparar seqeências (DNA,
RNA ou proteína) com rapidez e sem perder sensibilidade. Os valores dados são
baseados em interpretação estatística facilitando a escolha de identidades reais e não
semelhanças que acontecem ao acaso. BLAST busca semelhanças locais e não
globais, com isto é possível identificar relações entre sequências que compartilham
regiões curtas de similaridade.
#É uma ferramenta de busca (em banco de dados biológicos) de similaridades de
sequências. Faz alinhamento, em outras palavras, mede similaridade e homologia.

Cap 3: Serve para montar genomas. Produção de ordem parcial de contigs por restrição,
tornando mais fácil e mais rápido sua construção. Menos erros intensos no consenso
(contigs mais curtos com menores erros)