Baixe o app para aproveitar ainda mais
Prévia do material em texto
Resumo de Bioinformática Sequenciamento de DNA: é a determinação de sua sequência nucletídica (ACGT’s) #A tecnologia de sequenciamento atual exige que se quebre o DNA em pequenos fragmentos de cerca de 2000 pares de bases (Sanger), exigindo a montagem de fragmentos #Método de Sanger: uma fita simples de DNA que será sequenciada, é hibridizada com um Primer de desoxinucleotídeos marcado na extremidade 5´(cinco linha). Quatro misturas de reação são preparadas onde os Primer's utilizados serão elongados por uma DNA polimerase. Cada mistura contém os quatro desoxinucleosídeos trifosfato normais mais um dos quatro didesoxinucleosídeos trifosfato em uma razão de aproximadamente 1/100. Uma vez que um didesoxinucleotídeo não tem oxidrila ou hidroxila na extremidade 3´, não é possível haver extensão a partir do nucleotídeo adicionado, parando a reação. Desta forma, cada mistura de reação produzirá cadeias prematuramente terminadas de acordo com toda ocorrência de um didesoxinucleotídeo adicionado. Cada mistura é então separada em um gel (poliacrilamida desnaturante) de sequenciamento por eletroforese para se detectar cada um dos nucleotídeos presentes na sequência de DNA lida. Cromatograma: é o registro gráfico de uma análise por um método cromatográfico #Quanto mais alto o pico, maior a qualidade da identificação da base *Recurso Bioedit: Identifica as bases, dizendo se as regiões tem alta, média, baixa afinidade. “A diferença de qualidade acontece devido a migração de elétrons na placa”. O que é um projeto genoma? #Sequenciamento de material genético de organismo e anotação de estruturas e genes encontrados. * O sequenciamento pode ser total ou parcial. A montagem feita por diferentes programas. O objetivo final pode ser um produto, publicações ou respostas. Bioinformática: aplicação da “informática” na “biologia molecular”. Utilização de ferramentas computacionais para o estudo e resolução de problemas biológicos. Gerenciamento de informações: Armazenar dados genéticos e disponibilizá-los de forma maleável e facilitada. Gerenciar a troca de informações. # Inclui bancos de dados, páginas de serviços via internet, listas de correio eletrônico, submissão e busca de dados etc. Bancos de dados: Armazenamento organizado de informações que possibilita fácil, preciso e rápido acesso às mesmas. • ModWeb: é um servidor para modelagem de estrutura de proteínas • SWISS-MODEL: é um servidor de modelagem de homologia de estrutura de proteínas totalmente automatizado, acessível através do servidor web ExPASy, ou do programa DeepView (Swiss Pdb-Viewer). O objetivo deste servidor é tornar a Modelagem de Proteínas acessível a todos os bioquímicos e biólogos moleculares em todo o mundo. • Vakser Lab: é um software de armazenamento de proteínas. O servidor irá ignorar quaisquer pequenos ligandos ou outras moléculas não protéicas nos arquivos de entrada. É projetado exclusivamente para acoplar pares de moléculas de proteínas por simulação. • PatchDock: o algoritmo PatchDock é inspirado pelo reconhecimento de objetos e técnicas de segmentação de imagem usadas na Visão de Computador. Dadas duas moléculas, suas superfícies são divididas em manchas de acordo com a forma da superfície. Esses patches correspondem a padrões que distinguem visualmente entre peças de quebra-cabeça. Uma vez que as manchas são identificadas, elas podem ser sobrepostas usando algoritmos de correspondência de formas. • NCBI: o NCBI é dividido em vários bancos de dados específicos. Cada banco de dados armazena informações e apresenta links com outros bancos do próprio NCBI e bancos externos. o O banco Nucleotide armazena sequências e informações associadas a cada uma das sequências. o O banco Protein armazena sequências de proteínas e sequências que foram traduzidas automaticamente de sequências nucleotídicas codificadoras. O banco também traz informações associadas a cada uma das sequências. o Taxonomy: Banco de dados com informações sobre a classificação taxonômica das espécies. Esse banco de dados apresenta somente informações taxonômicas de espécies que têm informações moleculares depositadas no NCBI. • PDB: banco de dados que armazena informações sobre estrutura tridimensional das proteínas. Nessa banco são armazenadas estruturas das proteínas que foram avaliadas por cristalografia Raio-X, Espectroscopia por ressonância magnética nuclear (NMR). • Expasy: banco de dados com sequências de proteínas, especialmente enzimas. • Keeg: é um recurso de banco de dados para a compreensão de funções de alto nível e utilitários do sistema biológico, como células organismos e ecossistemas, a partir de informações de nível molecular. Algoritmo: é a forma estruturada de resolver problemas em uma sequência lógica. Desenvolvimento: em bioinformática, é a área onde são criadas ferramentas computacionais para resolução de problemas da biologia molecular. Phred/Phrap/Consed: Um pacote de três programas interligados e altamente compatíveis para análise, montagens e editoração de sequências que rodam em ambiente UNIX. Permite: • Leitura dos arquivos cromatogramas; • Atribuição de qualidade às bases (individualmente); • Identificação e mascaramento de vetores; • Sequência Assembly (montagem da sequência) • Visualização de Assembly (visualização e edição das montagens) Onde: • Phred – valores de qualidade para bases • Cross-match – comparação e marcação • Phrap e CAP3 – montagem • Phrapview e Consed – visualização Pipeline Phred/Phrap/Consed: Diretórios: Chromat_dir Phd_dir Edit_dir #Contigs: São sequências que tiveram pareamento (junção de sequências a modo de se obter um gene). É o comprimento cotínuo da sequência genômica. #Sintigs: são sequências que não tiveram pareamento Phred: esse software lê arquivos de rastreamento de sequências de DNA, chama bases e atribui um valor de qualidade a cada base chamada. Possui a capacidade de ler os cromatogramas de cada “read” do sequenciador e atribuir bases aos picos, produzir um índice de qualidade com valores para cada base e escrever todo em um arquivo em formato certo para Phrap. Phred é capaz de ler vários formatos de arquivos de vários sequenciadores (SCF, ABI, e ESD formatos) e extrair a sequência e escrever em formato FASTA ou PHD. A qualidade (a confiabilidade na identificação de cada base) é utilizada na montagem das sequências como a medida de precisão da montagem final. *Phred: Identifica a qualidade da base. Quanto mais alto o pico, menor o erro de leitura. A qualidade é determinada por -10log10 (p). O software solta os arquivos com formato phd. *phd2Fasta: Vai extrais 3 colunas: base, posição da base e qualidade da base. Vai gerar um arquivo de texto no formato fasta com números onde será possível identificar regiões com melhores ou piores qualidades. O software somente formata o arquivo do Phred. *Cross_match: Precisa de um vetor de clonagem. Vai mascarar as regiões que não são de interesse com “X”, deixando apenas regiões de interesse. Faz a marcação. Imput Arquivos do cromatograma Avaliação de valores de qualidade Phred Arquivos phd -*.phd Conversão – phd para fasta phd2fasta.pl Sequências de nucleotídeos - seqs_fasta Valores de qualidade - seqs_fasta.screen.qual Retirada de bases contaminantes Cross_Match +vector.seq Arquivos de saída -seqs_fasta.screen Montagem (Assembly) Phrap Contigs montadas -seqs_fasta.screen.contigs Arquivode montagem - seqs_fasta.screen.ace# Visualização e edição de montagem Consed Phrap: recebendo os arquivos do Phred, este programa compara as sequências procurando regiões de homologia para sobrepor os reads, montando sequências pequenas em trechos maiores. O programa permite o uso do read inteiro mas usa as informações da qualidade da sequência na montagem (informações do Phred). O arquivo produzido tem todas as informações sobre as montagens, qualidade das associações entre reads e confiabilidade da montagem final. *Phrap: Faz a junção de sequências para formarem um possível gene. Consed: Editor de gráficos e utilidades: este programa converte as informações geradas pelo Phred e Phrap, em gráficos que mostram os "contigs" (sequências montadas), os reads utilizados, a confiabilidade de cada read e dados sobre a confiabilidade de "contig" (qualidade de cada base, erros por 1000 bases e orientação e nome de cada read). Também, tem utilidades para desenhar primers para terminar regiões da sequência de baixa confiabilidade, programas para busca de sequências repetidas e editoração de reads dentro do contig. Os recursos de acabamento incluem permitir ao usuário escolher primers e modelos, sugerindo reações de sequenciamento adicionais para executar e facilitando a verificação da precisão da montagem usando informações de digerir e reenviar / reverter. *.ace – permite a visualização da montagem usando o Consed *.view – requerido para visualização da montagem usando o Phrapview Blast: é uma família de programas desenvolvidos para comparar seqeências (DNA, RNA ou proteína) com rapidez e sem perder sensibilidade. Os valores dados são baseados em interpretação estatística facilitando a escolha de identidades reais e não semelhanças que acontecem ao acaso. BLAST busca semelhanças locais e não globais, com isto é possível identificar relações entre sequências que compartilham regiões curtas de similaridade. #É uma ferramenta de busca (em banco de dados biológicos) de similaridades de sequências. Faz alinhamento, em outras palavras, mede similaridade e homologia. Cap 3: Serve para montar genomas. Produção de ordem parcial de contigs por restrição, tornando mais fácil e mais rápido sua construção. Menos erros intensos no consenso (contigs mais curtos com menores erros)
Compartilhar