Prévia do material em texto
FMU - FACULDADES METROPOLITANAS UNIDAS LAYSLA MOURA BUENO 2872503 TRABALHO NCBI E ANÁLISES DE SEQUÊNCIA Laysla Moura Bueno TRABALHO NCBI E ANÁLISES DE SEQUÊNCIA Monografia apresentada ao curso de Biotecnologia Molecular da FMU como requisito para obtenção do título de bacharel em Ciências Biológicas. Orientadora: Márcia Renata Hidalgo Marques NCBI O Centro Nacional de Informações sobre Biotecnologia (NCBI) faz parte da Biblioteca Nacional de Medicina dos Estados Unidos (NLM), uma filial dos Institutos Nacionais de Saúde (NIH). É aprovado e financiado pelo governo dos Estados Unidos. O NCBI está localizado em Bethesda, Maryland, e foi fundado em 1988 através de legislação patrocinada pelo congressista norte-americano Claude Pepper. O NCBI abriga uma série de bancos de dados relevantes para biotecnologia e biomedicina e é um recurso importante para ferramentas e serviços de bioinformática. Os principais bancos de dados incluem GenBank para sequências de DNA e PubMed, um banco de dados bibliográfico para literatura biomédica. Outros bancos de dados incluem o banco de dados NCBI Epigenomics. Todas essas bases de dados estão disponíveis online através do mecanismo de busca Entrez. O NCBI foi dirigido por David Lipman, um dos autores originais do programa de alinhamento de sequências BLAST é uma figura amplamente respeitada em bioinformática. GenBank O NCBI foi responsável por disponibilizar o banco de dados de sequências de DNA do GenBank desde 1992. O GenBank coordena com laboratórios individuais e outros bancos de dados de sequências, como os do Laboratório Europeu de Biologia Molecular (EMBL) e do Banco de Dados de DNA do Japão (DDBJ). Desde 1992, o NCBI cresceu para fornecer outros bancos de dados além do GenBank. NCBI fornece o banco de dados genético, Online Mendelian Inheritance in Man, o banco de dados de modelagem molecular (estruturas de proteínas 3D), dbSNP (um banco de dados de polimorfismos de nucleotídeo único), a coleção de sequências de referência, um mapa do genoma humano e um navegador de taxonomia, e coordena com o Instituto Nacional do Câncer o fornecimento do Projeto Anatomia do Genoma do Câncer. O NCBI atribui um identificador único (número de identificação de taxonomia) a cada espécie de organismo. O NCBI dispõe de ferramentas de software que estão disponíveis através de navegadores de internet ou por FTP. Por exemplo, BLAST é um programa de busca por similaridade de sequência. O BLAST pode fazer comparações de sequências com o banco de dados de DNA do GenBank em menos de 15 segundos. Estante NCBI O NCBI Bookshelf é uma coleção de versões on-line de acesso gratuito e para download de livros biomédicos selecionados. A estante cobre uma ampla gama de tópicos, incluindo biologia molecular, bioquímica, biologia celular, genética, microbiologia, estados de doença do ponto de vista molecular e celular, métodos de pesquisa e virologia. Alguns dos livros são versões online de livros publicados anteriormente, enquanto outros, como Coffee Break, são escritos e editados pela equipe do NCBI. O Bookshelf é um complemento ao repositório Entrez PubMed de resumos de publicações revisadas por pares, na medida em que o conteúdo do Bookshelf fornece perspectivas estabelecidas sobre áreas de estudo em evolução e um contexto no qual muitas peças individuais díspares de pesquisas relatadas podem ser organizadas. Ferramenta básica de pesquisa de alinhamento local (BLAST) BLAST é um algoritmo usado para calcular a similaridade de sequências entre sequências biológicas, como sequências de nucleotídeos de DNA e sequências de aminoácidos de proteínas. O BLAST é uma ferramenta poderosa para encontrar sequências semelhantes à sequência de consulta dentro do mesmo organismo ou em organismos diferentes. Ele pesquisa a sequência de consulta nos bancos de dados e servidores do NCBI e envia os resultados de volta ao navegador da pessoa no formato escolhido. As sequências de entrada para o BLAST estão principalmente no formato FASTA ou GenBank, enquanto a saída pode ser entregue em uma variedade de formatos, como HTML, formatação XML e texto simples. HTML é o formato de saída padrão para a página da web do NCBI. Os resultados do NCBI-BLAST são apresentados em formato gráfico com todos os acertos encontrados, uma tabela com identificadores de sequência para os acertos com dados relacionados à pontuação, juntamente com os alinhamentos para a sequência de interesse e os acertos recebidos com pontuações BLAST análogas para estes. Entrez O sistema de pesquisa entre bancos de dados cruzados Entrez Global Query é usado no NCBI para todos os principais bancos de dados, como sequências de nucleotídeos e proteínas, estruturas de proteínas, PubMed, taxonomia, genomas completos, OMIM e vários outros. Entrez é um sistema de indexação e recuperação com dados de várias fontes para pesquisa biomédica. O NCBI distribuiu a primeira versão do Entrez em 1991, composta por sequências de nucleotídeos do PDB e GenBank, sequências de proteínas do SWISS-PROT, GenBank traduzido, PIR, PRF, PDB, e resumos e citações associados do PubMed. Entrez é especialmente projetado para integrar os dados de diversas fontes, bancos de dados e formatos diferentes em um modelo de informação uniforme e sistema de recuperação que pode recuperar com eficiência referências, sequências e estruturas relevantes. Gene O gene foi implementado no NCBI para caracterizar e organizar as informações sobre os genes. Ele serve como um nó principal no nexo do mapa genômico, expressão, sequência, função proteica, estrutura e dados de homologia. Um GeneID exclusivo é atribuído a cada registro genético que pode ser seguido através de ciclos de revisão. Os registros genéticos para genes conhecidos ou previstos são estabelecidos aqui e são demarcados por posições de mapas ou sequências de nucleotídeos. Gene tem várias vantagens sobre seu antecessor, LocusLink, incluindo melhor integração com outros bancos de dados no NCBI, escopo taxonômico mais amplo e opções aprimoradas de consulta e recuperação fornecidas pelo sistema Entrez. Proteína O banco de dados de proteínas mantém o registro de texto para sequências de proteínas individuais, derivadas de muitos recursos diferentes, como o projeto NCBI Reference Sequence (RefSeq), GenBank, PDB e UniProtKB/SWISS-Prot. Os registros de proteínas estão presentes em diferentes formatos, incluindo FASTA e XML, e estão vinculados a outros recursos do NCBI. A proteína fornece dados relevantes aos usuários, como genes, sequências de DNA/RNA, vias biológicas, dados de expressão e variação e literatura. Ele também fornece conjuntos pré-determinados de proteínas semelhantes e idênticas para cada sequência, conforme computado pelo BLAST. O banco de dados de estrutura do NCBI contém conjuntos de coordenadas 3D para estruturas determinadas experimentalmente no PDB que são importadas pelo NCBI. O banco de dados de domínios conservados ( CDD ) de proteínas contém perfis de sequências que caracterizam domínios altamente conservados dentro de sequências de proteínas. Também possui registros de recursos externos como SMART e Pfam. Existe outro banco de dados de proteínas conhecido como banco de dados Protein Clusters, que contém conjuntos de sequências de proteínas que são agrupadas de acordo com os alinhamentos máximos entre as sequências individuais, conforme calculado pelo BLAST. Banco de dados Pubchem O banco de dados PubChem do NCBI é um recurso público para moléculas e suas atividades em ensaios biológicos. PubChem pode ser pesquisado e acessível pelo sistema de recuperação de informações Entrez. Labrador Retriever Sequência do gene: ACTTCCCGGGAGCGGGCAGGGCCAGCATGGAGAGGAGACGGGTCGCCTCGGCCGCTCGCCGCTCCTACGTCTACGTCTCCTCGTGGGACATGGCGGGGGGAGGCCCGGGCTCCGGCCGCCGTCTGGGGCCGGGCCCCCGCCCCTCCGTGGCTCGGATGCCGCTGCCGCCAACCCGGGTGGACTTCTCGCTGGCCGCGGCGCTCAACGCCGGCTTCAAGGAGACACGGGCCAGCGAGCGCGCCGAGATGATGGAGCTCAACGACCGCTTTGCCAGCTACATCGAGAAGGTGCGCTTCCTGGAACAGCAGAACAAGGCTCTGGCTGCTGAGCTGAACCAACTGCGGGCCAAGGAGCCCACCAAGCTGGCCGACGTCTACCAGGCCGAGCTGCGAGAGCTAAGGCTGCGGCTAGACCAACTCACTGCCAACAGCGCCCGGCTGGAGGTCGAGAGAGACAATCTGGCACAGGACCTGGGCACCCTGAGGCAGAAGTGAGGAGGGGGCCCGGGGTGAGGGACCTCCGGAGCAGGGAAGACGCCCGCCCCTCGCAGGCCCAGGACCTCAGGCGGAGCCTCTGACTCTGTGATCCTTGGCTCCTCTGTTTACCCATCTCCGGGAGGGGAGGGCTGTCCTTGCTCCCCAAGATGATGAGAGGGACTGGGAGGAGGCCGAGTCCCAAGGATCTGACTCCCAAAGACCTCTTGCAGAGGAGCCACGGTGCTCTCAGCALocus: NC_051813 45798 bp DNA linear CON 08-JAN-2021 Organismo: Canis lupus familiaris Números de pares: 45798 bp Protein id: XP_038532142.1 Sequência de nucleotídeos: MERRRVASAARRSYVYVSSWDMAGGGPGSGRRLGPGPRPSVARMPLPPTRVDFSLAAALNAGFKETRASERAEMMELNDRFASYIEKVRFLEQQNKALAAELNQLRAKEPTKLADVYQAELRELRLRLDQLTANSARLEVERDNLAQDLGTLRQKFQDETNLRLEAENNLASYRQEADEATLARLDLERKIESLEEEIRFLRKIHDEEVQELQEQLARQQVHVELDVAKPDLTAALREIRTQYEAMASSNMHEAEEWYRSKFADLTDAAARNAELLRQAKHEANDYRRQLQTLTCDLESLRGTNESLERQMREQEERHAREAASYQEALARLEEEGQNLKDEMARHLQEYQDLLNVKLALDIEIATYRKLLEGEENRITIPVQTFSNLQIRGQYSRALWARCWIPAPSPSVGSCSGLGLRTRAKGSGPGLSLGAYIIHRRASSQNTAAQSIPGGACSCSCPALPCVPFPNPATPSYSRIG Raposa do Ártico Sequência do gene: GAAGCGCTTCCTCCCTCCTCGCCCCGCCCTTCAGGGAGGAGCGGAAGTGACGTAACGCGGGGCGGGGCGGGCCGCGCACAATGGGCCATGGAGTTCTCGTTCGACGTGGACGCGCTGCTCCCGGAGCGGATCACGGTGCTGGACCAGCACCTGCGACCCCCAGCCCGCCGACCCGGAACCACAACGCCAGCCCGGTGACATCTCAAACCCGCCCCAAAGCCCTTCTCTCCTGGTTCCTTCCGAAACCCGGTCTAGGCACCACGCCCCCTTCTCACGAGTGACCTCCCTTTTTGTGGCCCTGGCGCGCCCTTCTGGTGACCTTTGACCTTAGACCTAGGTGGAGTTGATGGGCACTCGCATCTGTGACCTTTCACCAGAGCTTGTGATTGACCCGCCCTTCCGGCTTCCCTACTATAACCCCAGGGAGGAGGGAGTGTACTGTTTTGAAGAGGTGTGGCAAAAGTTTAGGTTCCCGAAAGGTGGGGTGGAAAACCAGACCGGAGGCCTCCAAGGTAAAGTCAGAGAGCCGTAGGTGAAGTCAGAGAGCCGTAAGTGCTGAGCCTGGGTTGGGGTTGTGGCCAAGGTTCCCAGGGCCCTCTAATTCAGTGAGTATCTGACTCGTTCCTTTTTTTTTTCTATAGTGTTGATCTACAACAGCAAATTATGACCATTGTAGATGAACTGGGCAAGGCTTCTGCCAAGGTATTGGGGAGTCTTTAGATAGAGAAAAGGGGAAGGCTTCTCTGGGGCCAGTAGATAGGGATGCCTTGGTCCTTTGAAACAGACTTTCAGAGAGTCGGCCTTTATTTTCCTGCAGGCCCAGCATCTTCCTGCTCCCATCACCAGTGCATCAAGGATGCAGAGTAATCGCCATGTTATGTATGTGCTCAAAGACACTTCGGCACGACCGTGAGTGCCAGATGCCCTTCCATCCATACGTTATTCCTTCCTTCCCCAACCCTTCTTCCTTTGTTGACTTTGCCTTCCAAATAGCTGCTACTAGCTTGTTTCATTATTTTCCCCATCCTACAGGGCTGGCAAAGGAGCCAT Locus: NC_054824 13894 bp DNA linear CON 24-MAY-2021 Organismo: Volpes lagopus Números de pares: 13894 bp Protein id: XP_041629115.1 Sequência de nucleotídeos: MEFSFDVDALLPERITVLDQHLRPPARRPGTTTPARVDLQQQIMTIVDELGKASAKAQHLPAPITSASRMQSNRHVMYVLKDTSARPAGKGAIIGFLKVGYKKLFVLDDREAHNEVEPLCILDFYIHESLQRHGHGRELFHYMLQKERVEPHQLAIDRPSQKLLKFLNKHYNLETTVPQVNNFVIFEGFFAHQHPPARKLPPKRAEGDIKPYSSSDREFLKVAVEPPWPLNRAPRRATPPAHPPPRSSSLGSSPERGPLRPFVPEQDLLRSLRLCPPHPTARLLLATDPGGSPAQRRRTRGAPPGLVAQSCCYSRHGGLSSSSPNTGLPARSRACPRLGLGRKPRTLCPQRPSPGQWVGTYSTPGSFETCRTAAAPGLGEHSPHTPSASMLTAGGGPSRSSRWMYSF Onça Parda Sequencia do gene: ATGTTGGAAGGTCTTGTAGCCTGGGTTCTCAATACCTATCTGGGGAAATACGTCAATAACCTGAACACTGATCAGCTCTCTGTTGCACTTCTGAAAGGTAAGTGTATCTCTTTTTGGTAAAGTATGCCTTTGCAGATGGCATTTCTGTTTTTTTAAATATTCTTTTTGTTGTACTGAGAATAATAAAACATAATGCCCAGATGGCTTTGTACTAAATATGTGTTAAAGGAAATATGTTCTCTTATATGACACTGATTATTATTACAGGGTAACTTAATGTAGCTGTATTGCTATAGATTTTAGGGAACTATTAAATATATATATAAAAAAAAGACTATACTGCTGGTGACTCTGCTTTATCTCAGTTAACTTAAAAAAATAGTTTTTAAATGTTTATTCATTTTTGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGATAGAGATAGAGAAAGAGACAGAGCGTGAGTTGGGGAGGAGCGGAGAGAGAGGGAGACACAGAATCCAAGGCAGGCTCCAGGCTCTGAGCTGTCAGCACACAGCCCAAGGCTGGGCTCAAACCCAAGAGGTATGAGGTCACGACCTGAGCCAAAGTCGGACATTCAACCAACTGAGCCACCCAAGTGCCC Locus: NW_020338243 255908 bp DNA linear CON 26-JUL-2018 Organismo: Puma concolor Número de pares: 255908 bp Protein id: XP_025767854.1 Sequência de nucleotídeos: MLEGLVAWVLNTYLGKYVNNLNTDQLSVALLKGAVELENLPLKKDALKELELPFEVKAGLIGKVTLQIPFYRPHVDPWVISISSLHLIGAPEKLEDFDDEKEKLLERERKKALLQALEDRWKNERQRKGESYWYSVTASVVTRIVENIELKIQDVHLRFEDGVTNPSHPFAFGICIKNVSMQNAVNEPVQKLMRKKQLDVAEFSIYWDVDCTLLGDLPQVELQEAMDKSMESRDHHYILEPVCASALLKRNCAKEPLRSRHTPRIECDIHLETIPLKLSQLQHRQIMEFLKELERKERQVKFRKWKPRVAVSENCREWWYFALNANLNEIREERKRCTWDFLLHRARDAVSYTDKYFSKLKGGLLPADDKEEMCRIEEEQSFEELKILRELVHERFHKQEELAESLREPQFDSPGDSPGDPEPSGGSWMLQYLQSWFPGWGGWYGQQSPEGRVVEGLSAEQREQWNPEEILGTEEFFDPTADASCVNTYT SÃO PAULO 2024 São Paulo 2024 image2.jpg image1.jpg image3.jpg