Prévia do material em texto
Universidade de Brasília Prova 1 - Bioinformática Brasília - DF 2019 Sumário 1 Gene Alvo 5 2 Localização Genômica 5 2.1 Quais as coordenadas genômicas exatas do gene? 5 2.2 Utilizando o genome browser do ensembl mostre uma figura da posição do gene no genoma. Encontre um fator de zoom de tal maneira que seu gene fique no centro e ladeado pelos genes vizinhos (anterior e posterior) 5 2.3 Qual a distância exata (em bases) do seu gene para os seus vizinhos acima. Mostre em uma tabela contendo as seguintes colunas (nome/código do gene, início, fim, distância para seu gene alvo)… 6 3 Bancos de Dados Gerais 6 3.1 Qual o Ensembl Gene ID? 6 3.2 Forneça uma breve descrição da função deste gene 6 3.3 O seu gene existe em camundongo (Mus musculus)? Forneça o termo de busca no banco Gene e o link para o resultado. 6 3.4 Em quais classes do Gene Ontology seu gene é classificado? 6 3.5 Quantas referências bibliográficas existem para este gene, entre 2013 a 2017? Liste as 5 primeiras e mostre os termos de busca no pubmed 7 4 Ácidos Nucléicos 8 4.1 Quais os códigos para a entrada do DNA genômico nos bancos EMBL e DDBJ? 8 4.2 Mostre a figura com a estrutura do gene em termos de éxons e íntrons 8 4.2.1 A partir do Ensembl genome browser 8 4.2.2 USCS genome browser 9 4.3 Quantos transcritos este gene possui? Forneça os IDs. 9 4.4 Qual o tamanho do maior éxon e do maior íntron? 9 4.5 Quantos éxons possui o primeiro transcrito da sua lista? 9 4.6 Existem genes homólogos ao seu em outras espécies? Mostre um screenshot da página do banco que possui estas informações 9 5 Variações Genéticas 10 5.1 Quantos SNPs foram reportados para este gene no dbSNP? 10 5.2 Destes SNPs quantos são patogênicos de acordo com o ClinVar e quantos são patogênicos com uma mutação do tipo frameshift? 10 5.3 Existe uma doença mendeliana associada com o gene? Forneça o código do OMIM e uma breve descrição 10 5.4 Para o seu gene busque o SNP patogênico que possui a maior frequência MAF no projeto 1000 genomes 11 5.4.1 Indique o ID do dbSNP (com link) 11 5.4.2 Mostre um screenshot da frequência alélica deste nas 5 principais populações do 1000 genomes.. 11 6 Proteínas 11 6.1 Qual o código do Uniprot? 11 6.1.1 Esta proteína está o SwissProt? 11 6.2 Quais os domínios proteícos do presentes nesta proteína? Crie uma tabela com o Pfam ID, Pfam accession e Intrepro ID 11 6.2.1 Mostre uma figura esquemática com os domínios conservados 12 6.3 Mostre uma figura da estrutura tridimensional desta proteína, fornecendo o PDB ID (forma de link) 12 6.4 Se o seu gene for uma enzima qual é seu EC number? 12 6.4.1 Mostre um screenshot da página correspondente no banco Enzyme 12 6.5 A partir do banco de enzimas BRENDA identifique: 12 6.5.1 Forneça uma figura e o link da reação catalizada pela enzima (REACTION DIAGRAM)… 13 6.5.2 Forneça uma tabela com o valor do KM da enzima 13 6.5.3 Mostre a figura de uma via metabólica que a sua enzima participa dentro do banco KEGG…. 13 7 Outros Bancos Proteícos 13 7.1 Qual é a sua função? 13 7.2 Qual o pubmed id de uma publicação contendo o termo reactome no título em 2014?.. 13 7.3 Mostre um screenshot da página do Reactome com o resultado da pesquisa (primeira entrada Reaction) com o EC number do seu gene 13 8 Buscas Integradas em Bancos de Dados 13 8.1 Quantos genes de microRNAs existem no cromossomo onde se encontra o seu gene?.. 13 8.2 Forneça a tabela do BioMart (20 primeiras linhas) com as seguintes informações sobre os genes de microRNAs encontrados: Chromosome name, Gene start (bp), Gene end (bp), Strand, Ensembl gene ID, Description, miRBase ID 13 8.3 Qual o tamanho (em pares de bases) do maior destes genes. Indique também o Ensembl gene ID…… 14 8.4 No BioMart busque no genoma de camundongo todos os genes que possuam pelo menos algum os domínio Pfam que esteja presente no seu gene designado e que estejam nos cromossomos de 1 a 5 15 8.4.1 Mostre um screenshot da página do BioMart com os filtros utilizados 15 8.4.2 Mostre as 20 primeiras linhas da planilha com os resultados finais, contendo as colunas acima (exceto miRBase ID) 15 8.4.3 Com a planilha de resultados salva no formato XLS (Excel), crie um gráfico de pizza dos Interpro ID para mostrar a distribuição de todos os domínios que ocorrem na planilha obtida do BioMart. (Dica: inclua o Interpro Id nos “attributes” da saída) 16 Lista de figuras Figure 1 – Posição do gene HBA1 (centro) no genoma humano. O gene é flanqueado anteriormente por HBA2 e posteriormente por HBQ1. Imagem feita com o Genome Browser do banco Ensembl. 5 Figure 2 – Termo de busca utilizado no banco Gene com o objetivo de encontrar o gene HBA1 em Mus musculus. 6 Figure 3 – Termos GO, do gene HBA1, para a classe Function do Gene Ontology. Entrada no banco Gene. 6 Figure 4 – Termos GO, do gene HBA1, para a classe Process do Gene Ontology. Entrada no banco Gene. 7 Figure 5 – Termos GO, do gene HBA1, para a classe Component do Gene Ontology. Entrada no banco Gene. 7 Figure 6 – Termos de busca do PubMed para as referências bibliográficas do gene HBA1 entre 2013 e 2017. 7 Figure 7 – Estrutura do gene HBA1 em termos de éxons e introns. Imagem feita com o Genome Browser do Ensembl. 8 Figure 8 – Estrutura do gene HBA1 em termos de éxons e introns. Imagem feita com o Genome Browser do USCS. 9 Figure 9 – Árvore gênica para o gene HBA1 humano e seus homólogos em outros organismos. Imagem feita a partir da entrada do gene HBA1 no banco Ensembl. 10 Figure 10 – Printscreen do banco dbSNP para a entrada da SNP patogênica, do gene HBA1 humano, com a maior MAF. Pode-se observar as frequências alélicas nas cinco principais populações do 1000 genomes. 11 Figure 11 – Ilustração do domínio conservado Globina da proteína Hemoglobina. 12 Figure 12 – Estrutura tridimensional da proteína Hemoglobina. Ilustração 3D retirada do banco PDB, entrada 1A00. 12 Figure 13 – Screenshot da página do BioMart com os filtros utilizados para a pesquisa solicitada. 15 Figure 14 - Screenshot da página do BioMart. Pode-se observar que a tabela com os resultados para a busca solicitada retornou vazia. 15 1 Gene Alvo O gene alvo do presente trabalho é o HBA1 de Homo sapiens, cujo gene ID é: 3039. 2 Localização Genômica 2.1 Quais as coordenadas genômicas exatas do gene? O gene está localizado no cromossomo 16, braço p e banda 13.3. Suas coordenadas genômicas exatas, no GRCh38, são: Cromossomo 16: 176,680-177,522 – fita líder. 2.2 Utilizando o genome browser do ensembl mostre uma figura da posição do gene no genoma. Encontre um fator de zoom de tal maneira que seu gene fique no centro e ladeado pelos genes vizinhos (anterior e posterior) Figure 1 – Posição do gene HBA1 (centro) no genoma humano. O gene é flanqueado anteriormente por HBA2 e posteriormente por HBQ1. Imagem feita com o Genome Browser do banco Ensembl. 2.3 Qual a distância exata (em bases) do seu gene para os seus vizinhos acima. Mostre em uma tabela contendo as seguintes colunas (nome/código do gene, início, fim, distância para seu gene alvo). Tabela 1 – Genes codificadores de proteínas, na região 172822-181366 do cromossomo 16 do genoma humano. Gene name Gene stable ID Gene start (bp) Gene end (bp) Distance to HBA1 (bp) HBA2 ENSG00000188536 172876 173710 2970 HBA1 ENSG00000206172 176680 177522 0 HBQ1 ENSG00000086506 180459 181179 2937 3 Bancos de Dados Gerais 3.1 Qual o Ensembl Gene ID? O Ensembl Gene ID correspondente é: ENSG00000206172. 3.2 Forneça uma breve descrição da função deste gene Esse gene codifica para a subunidade de um proteína que possui a função de realizar o transporte de oxigênio dos pulmões para os outros tecidos do corpo humano. 3.3 O seu gene existe em camundongo (Mus musculus)? Forneça o termo de busca no banco Gene e o link para o resultado. Sim, o gene HBA1 existe em camundongo. O Gene ID correspondente é: 15122. Figure 2 – Termo de busca utilizado no banco Gene com o objetivo de encontrar o gene HBA1 em Mus musculus. 3.4 Em quais classes do Gene Ontology seu gene é classificado? Os termosGO para o gene HBA1 podem ser visualizados nas figuras abaixo. Figure 3 – Termos GO, do gene HBA1, para a classe Function do Gene Ontology. Entrada no banco Gene. Figure 4 – Termos GO, do gene HBA1, para a classe Process do Gene Ontology. Entrada no banco Gene. Figure 5 – Termos GO, do gene HBA1, para a classe Component do Gene Ontology. Entrada no banco Gene. 3.5 Quantas referências bibliográficas existem para este gene, entre 2013 a 2017? Liste as 5 primeiras e mostre os termos de busca no pubmed Existe no total 128 referências para esse gene no período solicitado. Os PMID’s dos 5 primeiros resultados são: 29210290, 29205277, 29232697, 28993156, 29049312. Figure 6 – Termos de busca do PubMed para as referências bibliográficas do gene HBA1 entre 2013 e 2017. 4 Ácidos Nucléicos 4.1 Quais os códigos para a entrada do DNA genômico nos bancos EMBL e DDBJ? Os códigos para a entrada do DNA genômico no banco EMBL é: J00153.1, e a entrada no banco DDBJ é: J00153. 4.2 Mostre a figura com a estrutura do gene em termos de éxons e íntrons 4.2.1 A partir do Ensembl genome browser Figure 7 – Estrutura do gene HBA1 em termos de éxons e introns. Imagem feita com o Genome Browser do Ensembl. 4.2.2 USCS genome browser Figure 8 – Estrutura do gene HBA1 em termos de éxons e introns. Imagem feita com o Genome Browser do USCS. 4.3 Quantos transcritos este gene possui? Forneça os IDs. Esse gene possui 4 transcritos, sendo 2 deles codificadores de proteínas. Os IDs dos transcritos são: ENST00000320868.9, ENST00000472694.1, ENST00000397797.1, ENST00000487791.1. 4.4 Qual o tamanho do maior éxon e do maior íntron? O maior éxon possui 243 pares de bases, já o maior intron possui 148 pares de base. 4.5 Quantos éxons possui o primeiro transcrito da sua lista? O primeiro transcrito da minha lista possui 3 exons. 4.6 Existem genes homólogos ao seu em outras espécies? Mostre um screenshot da página do banco que possui estas informações Existem ao todo 234 genes homólogos reportados até o momento, de acordo com o banco Ensembl. Esses genes homológos podem ser visualizados na árvore gênica representada pela figura abaixo. Ainda Segundo o mesmo banco essa árvore faz parte de uma super árvore gênica (composta por 15 árvores) que reúne um total de 2005 genes. Figure 9 – Árvore gênica para o gene HBA1 humano e seus homólogos em outros organismos. Imagem feita a partir da entrada do gene HBA1 no banco Ensembl. 5 Variações Genéticas 5.1 Quantos SNPs foram reportados para este gene no dbSNP? Foram reportados 1189 SNPs para o gene HBA1 no banco dbSNP. 5.2 Destes SNPs quantos são patogênicos de acordo com o ClinVar e quantos são patogênicos com uma mutação do tipo frameshift? De acordo com o ClinVar, apenas 18 SNPs são patogênicas. Nenhuma delas apresenta mutação do tipo frameshift. 5.3 Existe uma doença mendeliana associada com o gene? Forneça o código do OMIM e uma breve descrição Existem 5 doenças mendelianas associada com o gene HBA1. Os códigos para o OMIM são: 617981, 617973, 613978, 604131, 140700. Podemos descrever brevemente a doença Eritrocitose Familial 7, que é a primeira da lista de IDs, como: Uma doença caracterizada pelo aumento da afinidade da Hemoglobina pelo oxigênio, de tal forma que a entrega de O2 para os tecidos do corpo é prejudicado, tendo em vista que essa gás não se dissocia da proteína. 5.4 Para o seu gene busque o SNP patogênico que possui a maior frequência MAF no projeto 1000 genomes 5.4.1 Indique o ID do dbSNP (com link) O ID da dbSNP com a maior frequência MAF é: rs1060339. 5.4.2 Mostre um screenshot da frequência alélica deste nas 5 principais populações do 1000 genomes. Figure 10 – Printscreen do banco dbSNP para a entrada da SNP patogênica, do gene HBA1 humano, com a maior MAF. Pode-se observar as frequências alélicas nas cinco principais populações do 1000 genomes. 6 Proteínas 6.1 Qual o código do Uniprot? O Código do UniProt é: P69905. 6.1.1 Esta proteína está o SwissProt? Sim, a proteína está no SwissProt. 6.2 Quais os domínios proteícos do presentes nesta proteína? Crie uma tabela com o Pfam ID, Pfam accession e Intrepro ID A proteína Hemoglobina, que é composta pela subunidade alfa, possui apenas um domínio, sendo esse o domínio Globina. Tabela 2 – Informações dos bancos de dados para o domínio proteíco da Hemoglobina Pfam accession Pfam ID Interpro ID Globin PF00042 IPR000971 6.2.1 Mostre uma figura esquemática com os domínios conservados Figure 11 – Ilustração do domínio conservado Globina da proteína Hemoglobina. 6.3 Mostre uma figura da estrutura tridimensional desta proteína, fornecendo o PDB ID (forma de link) Essa proteína possui várias entradas para o estruturas 3D no PDB. Uma dessas entradas corresponde a figura abaixo, e seu PDB ID é: 1A00. Figure 12 – Estrutura tridimensional da proteína Hemoglobina. Ilustração 3D retirada do banco PDB, entrada 1A00. 6.4 Se o seu gene for uma enzima qual é seu EC number? 6.4.1 Mostre um screenshot da página correspondente no banco Enzyme A Hemoglobina não é uma enzima, logo não possui um EC number. 6.5 A partir do banco de enzimas BRENDA identifique: A Hemoglobina não é uma enzima, logo não possui um EC number. 6.5.1 Forneça uma figura e o link da reação catalizada pela enzima (REACTION DIAGRAM) 6.5.2 Forneça uma tabela com o valor do KM da enzima 6.5.3 Mostre a figura de uma via metabólica que a sua enzima participa dentro do banco KEGG 7 Outros Bancos Proteícos O banco de dados Reactome, não foi estudado na disciplina, responda: 7.1 Qual é a sua função? O Reactome é um banco de dados curado e revisado por pares que fornece informações a respeito de vias metabólicas 7.2 Qual o pubmed id de uma publicação contendo o termo reactome no título em 2014? O PMID da publicação correspondente é: 24243840. 7.3 Mostre um screenshot da página do Reactome com o resultado da pesquisa (primeira entrada Reaction) com o EC number do seu gene A Hemoglobina não é uma enzima, logo não possui um EC number. 8 Buscas Integradas em Bancos de Dados 8.1 Quantos genes de microRNAs existem no cromossomo onde se encontra o seu gene? Existem ao todo 79 genes de miRNA no cromossomo 16 humano, aonde está localizado o gene HBA1. 8.2 Forneça a tabela do BioMart (20 primeiras linhas) com as seguintes informações sobre os genes de microRNAs encontrados: Chromosome name, Gene start (bp), Gene end (bp), Strand, Ensembl gene ID, Description, miRBase ID Chromosome/scaffold name Gene start (bp) Gene end (bp) Strand Gene stable ID Gene description miRBase ID 16 770183 770277 1 ENSG00000207579 microRNA 662 [Source:HGNC Symbol;Acc:HGNC:32918] hsa-mir-662 16 30893903 30893985 1 ENSG00000211591 microRNA 762 [Source:HGNC Symbol;Acc:HGNC:37303] hsa-mir-762 16 83508346 83508408 1 ENSG00000263785 microRNA 3182 [Source:HGNC Symbol;Acc:HGNC:38317] hsa-mir-3182 16 16306370 16306434 1 ENSG00000264722 microRNA 3670-2 [Source:HGNC Symbol;Acc:HGNC:43460] hsa-mir-3670-1 16 16306370 16306434 1 ENSG00000264722 microRNA 3670-2 [Source:HGNC Symbol;Acc:HGNC:43460] hsa-mir-3670-2 16 16306370 16306434 1 ENSG00000264722 microRNA 3670-2 [Source:HGNC Symbol;Acc:HGNC:43460] hsa-mir-3670-3 16 16306370 16306434 1 ENSG00000264722 microRNA 3670-2 [Source:HGNC Symbol;Acc:HGNC:43460] hsa-mir-3670-4 16 76868936 76869019 1 ENSG00000266426 microRNA 4719 [Source:HGNC Symbol;Acc:HGNC:41807] hsa-mir-4719 16 2271747 2271840 1 ENSG00000284346 microRNA 940 [Source:HGNC Symbol;Acc:HGNC:33683] hsa-mir-940 16 81611348 81611408 1 ENSG00000275109 microRNA 6504 [Source:HGNC Symbol;Acc:HGNC:49976] hsa-mir-6504 16 2445392 2445457 1 ENSG00000283180 microRNA 6767 [Source:HGNC Symbol;Acc:HGNC:50133] hsa-mir-6767 16 21506049 21506135 -1 ENSG00000265462 microRNA 3680-1 [Source:HGNC Symbol;Acc:HGNC:38989] hsa-mir-3680-1 16 21506049 21506135 -1 ENSG00000265462 microRNA 3680-1 [Source:HGNC Symbol;Acc:HGNC:38989] hsa-mir-3680-2 16 56245520 56245623 1 ENSG00000265281 microRNA 3935 [Source:HGNCSymbol;Acc:HGNC:38918] hsa-mir-3935 16 2090195 2090284 -1 ENSG00000221656 microRNA 1225 [Source:HGNC Symbol;Acc:HGNC:33931] hsa-mir-1225 16 3485381 3485469 -1 ENSG00000273776 microRNA 6126 [Source:HGNC Symbol;Acc:HGNC:50099] hsa-mir-6126 16 4671318 4671390 1 ENSG00000276641 microRNA 6769a [Source:HGNC Symbol;Acc:HGNC:50079] hsa-mir-6769a 16 28724252 28724321 1 ENSG00000278340 microRNA 6862-2 [Source:HGNC Symbol;Acc:HGNC:50192] hsa-mir-6862-1 16 28724252 28724321 1 ENSG00000278340 microRNA 6862-2 [Source:HGNC Symbol;Acc:HGNC:50192] hsa-mir-6862-2 16 543277 543366 1 ENSG00000266235 microRNA 3176 [Source:HGNC Symbol;Acc:HGNC:38345] hsa-mir-3176 Tabela 3 – 20 primeiros resultados para os genes de miRNA encontrados no cromossomo 16 humano. 8.3 Qual o tamanho (em pares de bases) do maior destes genes. Indique também o Ensembl gene ID O maior desses genes possui 103 pares de bases. Seu ENSEMBL ID é: ENSG00000265281. 8.4 No BioMart busque no genoma de camundongo todos os genes que possuam pelo menos algum os domínio Pfam que esteja presente no seu gene designado e que estejam nos cromossomos de 1 a 5 8.4.1 Mostre um screenshot da página do BioMart com os filtros utilizados Figure 13 – Screenshot da página do BioMart com os filtros utilizados para a pesquisa solicitada. 8.4.2 Mostre as 20 primeiras linhas da planilha com os resultados finais, contendo as colunas acima (exceto miRBase ID) Não há nenhum gene nos cromossomos 1, 2, 3, 4 e 5 de camundongo que possua o domínio Globina. Figure 14 - Screenshot da página do BioMart. Pode-se observar que a tabela com os resultados para a busca solicitada retornou vazia. 8.4.3 Com a planilha de resultados salva no formato XLS (Excel), crie um gráfico de pizza dos Interpro ID para mostrar a distribuição de todos os domínios que ocorrem na planilha obtida do BioMart. (Dica: inclua o Interpro Id nos “attributes” da saída) Não houve resultados para a pesquisa solicitada.