Buscar

Relatório de Bioinformatica - CODONCODE ALIGNER

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE FEDERAL DE GOIÁS
ESCOLA DE AGRONOMIA
CURSO DE BIOTECNOLOGIA
DOUGLAS CHRISTIAN BORGES LOPES
RELATÓRIO REFERENTE À AULA SOBRE O CODONCODE ALIGNER
GOIÂNIA,
2013
INTRODUÇÃO 
O Codoncode Aligner é um programa para a montagem de sequência de contigs a partir de fragmentos de genoma, denominados reads, formado a partir da sobreposição destes fragmentos. O programa é compatível com Phred e Phrap e apoia plenamente índices de qualidade de sequência. Ele roda ambos os programas Phred e Phrap, facilitando e acelerando o processo de montagem e análise de sequências.
O Phred é um programa que faz a leitura dos eletroferogramas enquanto o Phrap faz a montagem de sequências de nucleotídeos.
PROCEDIMENTOS E RESULTADOS
Em aula foi feito a análise das sequências dos Traces 1 e Traces 2 com o programa Codoncode Aligner.
ANÁLISE DAS SEQUÊNCIA DO TRACES 1
As sequência do Traces 1 foram carregadas no codoncode aligner, sendo 16 amostras presentes, com sequências de tamanhos variados. Foi possível obter o conhecimento da qualidade das sequências em cada amostra. Uma amostra em especial, C02, possuía uma grande variedades de nucleotídeos de baixa qualidade sendo que de 1552 nucleotídeos, apenas 1 era de alta qualidade enquanto os outros 1551 eram de baixa qualidade. 
A partir da opção “View traces” foi possível identificar a qualidade das sequências das 16 amostras. A qualidade era identificada a partir de uma coloração nos nucleotídeos pelo programa. As cores eram verde escuro, verde-claro e branco que informavam que os nucleotídeos eram de alta, média e baixa qualidade respectivamente. 
Em seguida foi feito o Clip End de todas as 16 amostras apresentadas seguindo os seguintes passos: Selecionar as opções Sample e Clip End, respectivamente. A finalidade dessa opção é retirar segmentos de baixa qualidade das sequências. Observou-se que ao fazer o clip das 16 amostras, estas tiveram o comprimento reduzido e uma das amostras foi deletada devido a baixa qualidade de basicamente toda a sequência C02, sendo que somente um nucleotídeo possuía alta qualidade.
Posteriormente a retirada dos segmentos de baixa qualidade, foi feito a retirada de resíduos de vetores das 15 amostras remanescentes selecionando a opção Sample e em seguida as opções Trim vector e Aplly trims. 
Logo após foi feito a conversão dos dados obtidos pra o formato de arquivo FASTA para que se possa fazer a leitura das sequências no banco de dados do NCBI. Para isso deve-se selecionar File – Export – Samples – All samples – Export.
A partir dessa etapa, deve-se abrir o arquivo fasta no wordpad e lá estarão as sequências de cada uma das 15 amostras.
Essas sequências devem ser analisadas no blastn, comparando a sequência de nucleotídeos da amostra com sequências de nucleotídeos presentes no banco de dados do NCBI, e também no blastx que utiliza as sequência de nucleotídeos da amostra e as traduz nos 6 quadros de leitura e compara com o banco de dados de proteínas.
Análise da sequência A01
Ao fazer a análise pelo blastn dessa sequência observa-se que a maioria dos resultados correspondem a um gene de um RNA ribossomal 26S de microrganismos. Os valores de E-value são extremamente pequenos podendo considerar que a sequência A01 é compatível com a sequência do banco de dados. Os valores de Ident acima de 96% indicam que a sequência é semelhante a do banco de dados. O Query cover indicou que apenas parte da sequência analisada se alinhou a do banco de dados. A sequência analisada possui mais de 200 combinações com as do banco de dados.
Ao fazer a análise pelo blastx, grande parte dos resultados são referentes a uma proteína denominada LOC100787432. Os valores de E-value, Ident Query cover indicam que a sequência analisada é realmente significatica, ou seja, compatível com a do banco de dados, 90% indêntica e está 45% alinhada a sequência do banco de dados.
Análise da sequência A02
A análise dessa sequência no blastn não produziu resultados, significando que no banco de dados do NCBI não existe sequências compatíveis à A02. 
Pelo blastx, os valores de E-value dos resultados demonstram que a sequência é compatível com a sequência, demonstrando que o alinhamento dessa sequência com a do banco de dados não é aleatória , de uma blue copper-binding protein, pois apresentam resultados aceitáveis de 3-25. O alinhamento das sequências analisadas com as do banco de dados é demonstrada pelo Query cover de aproximadamente 33% e a semelhança (Ident) é de apenas 59%.
Análise da sequência B01
A partir da análise da sequência pelo blastn e do valor de E-value observa-se que essa sequência é compatível com um gene que codifica para um mRNA de Eucalyptus grandis responsável pela fator de trancrição Myb. Os valores de Query cover e Ident ajudam a confirmar, sendo que 88% de alinhamento e 98% de semelhança da sequência analisada com as do banco de dados. 
Já a análise feita pelo blastx está relacionada ao fator de transcrição Myb de Eucalyptus grandis. O E-value é extremamente pequeno resultando na não aleatoriedade no alinhamento dessa sequência com a do banco de dados. A porcentagem do alinhamento das sequências indica que 83% das sequências estão alinhadas e elas são identicas 84%.
Análise da sequência B02
Através do blastn, identifica-se que essa sequência representa a um gene presente na espécie Vitis vinifera que codifica um RNAm responsável pela transcrição de uma enzima denominada monodehydroascorbate reductase (LOC100233035), sendo que o alinhamento dessa sequencia com a do banco de dados ser aleatório é extremamente baixas indicada pelo valor de E-value de 3-174. 
Grande parte da sequência está alinhada a sequência do banco de dados explicitada pelo Query cover de 93%. Essa sequência é 83% idêntica a do banco e é compatível com mais de 200 combinações com o banco.
Na análise pelo blastx, os resultados indicam que a sequência é uma isoenzima produzida pela espécie Theobrama cacao denominada Monodehydroascorbate redutase, onde o alinhamento dessa sequencia com a sequência do banco de dados apresentada ser aletória é mínima, sendo que o valor de E-value é 1-122 e o alinhamento entre as sequências é 98% e o Ident 85%.
Análise da sequência C01
A análise dessa sequência no blastn não produziu resultados, significando que no banco de dados do NCBI não existe sequências compatíveis à C01.
A análise produzida pelo blastx evidencia um resultado de que a sequência está pode ser de uma enzima denominada ABC transportador permease, entretanto não se deve confiar nesse resultado obtido, pois o E-value é de 7,5, indicando que o alinhamento dessa sequência com a do banco de dados é aleatória seja. Os E-values para serem considerados devem possuir valores abaixo de 10-30 . A porcentagem alinhamento entre as sequências e o valor do Ident também são abaixo do esperado fortalecendo a hipótese de que a sequência do banco de dados, seja aleatória. Esses resultado obtidos não são considerados confiáveis pois possuem menos de 40 combinações com o banco de dados.
Análise da sequência D01
A análise dessa sequência pelo blastn mostra que essa sequência é compatível com do banco resultando em Cítrico sinensis cultivo de bergamota poli(A)-ligação proteína 1, mRNA, nao foi produzida aletoriamente. O Alinhamento dessa sequência com a do banco nao é aleatória é miníma, pois possui um E-value de 3-109. Essa sequência possui um alinhamento de combinações acima de 200. A sequência possui um Query cover de 61% expondo a porcentagem de alinhamento da sequência que é coberta pelo alinhamento e Ident de 85%.
Na análise pelo blastx, o resultado obtido mostra que essa sequência possui um alinhamente de combinações acima de 200, e que devido ao valor minímo de E-value (9-83) o alinhamento dessa sequência com a sequência correspondente do banco produzida pode ser considerada não-aleatória. O resultado desse blastidentifica uma sequência de informações desconhecida [Glicyne max].
Análise da sequência D02
A análise dessa sequência no blastn não produziu resultados, significando que no banco de dados do NCBI não existe sequências compatíveis à sequência D02.
A análise feita pelo blastx associa a sequência a uma suposta endoglucanase presente em Flammulina velutipes. Essa análise evidencia que essa sequência possui um alinhamento de combinações abaixo de 40, o que torna esse resultado obtido não confiável. O valor de E- value 4,4 indica que a possibilidade da sequência do banco de dados ser aleatória grande.O Query cover e Ident também influenciam, sendo 35,5% e 39 %, respectivamente.
Análise da sequência E01
A pesquisa dessa sequência no blastn atribui como resultado (Ricinus communis dead box ATP- dependent RNA helicase, putative, mRNA). O Query cover de 100% indica que a sequência do banco de dados está totalmente alinhada com a sequência E01. O alinhamento dessa sequência com a sequência correspondente ao banco de dados pode ser considerada aleatória, sendo indicada pelo E-value de 2-143 . A sequência possui Ident de 84% indicando o quão semelhante é a sequência do banco.
A análise pelo blastx resulta em uma Dead-box ATP-dependent RNA helicase 8 isoform 3, partial (Presente em Theobroma cacao) . Seu E-value de 1-110 identifica que o alinhamento dessa sequência com a sequência correspondente ao banco de dados pode ser como não-aleatória. A sequência possui um alinhamento de combinações acima de 200. O Query cover de 99% mostra que quase toda sequência submetida ao programa que é coberta pelo alinhamento. A sequência E01 possui 95% de semelhança à sequência do banco de dados.
Análise da sequência E02
A análise feita pelo blastn resultou no encontro da sequência de gene correspondente a alfa tubuina (TUA) mRNA, presente na espécie Eucalyptus grandis. A sequência possui um E-value de 0.0 o que indica que o alinhamento dessa sequência com a do banco não foi aleatória. A porcentagem de 96% mostra que a maioria da sequência E02 é coberta pelo alinhamento. O valor de Ident de 99% mostra que basicamente toda a sequência é idêntica a do banco de dados.
A pesquisa feita pelo blastx, depara-se como resultado com uma proteína alpha-tubuline-like presente na espécie Solanum tuberosum . O alinhamento dessa sequência com a sequência correspondente ao banco de dados não foi aleatoria devido ao valor de E-value de 3-87. A sequência possui um alinhamento de combinações acima de 200. O Query cover e Ident são 72% e 99%, respectivamente.
Análise da sequência F01
A análise feita pelo blastn dessa sequência resulta em um valor de E-value de 1-127 que indica que essa sequência não foi alinhada aleatoriamente com a sequência correspondente do banco de dados. O resultado expõe (Fragaria vesca subsp. uncharacterized LOC101291534, mRNA). A porcentagem da sequência F01 que se alinhou com a sequência é identificada pelo valor de Query cover de 51%. O valor do Ident foi de 90% sendo que a sequência é quase toda idêntica ao do banco de dados.
A pesquisa obtida através do blastx resultou no encontro de sequência correspondente a Myb domain protein 103 presente na espécie Theobroma cacao. Essa sequência apresenta um E-value de 1-96 indicando que o alinhamento dessa sequência com a sequência do banco de dados não foi produzida aleatoriamente. A sequência está 78% alinhada a uma sequência fornecida pelo banco de dados.
Análise da sequência F02
A pesquisa obtida através do blastn resultou no encontro de uma sequência correspondente a [Alnus glutinosa mRNA for alcohol dehydrogenase (ADH1 gene]. Essa sequência apresenta um E-value de 2-105 indicando que o alinhamento dessa sequência com a sequência banco de dados produzida não é aleatória. A sequência está 87% alinhada a uma sequência fornecida pelo banco de dados. A similaridade dessa sequência com a do banco é identificada pelo valor de Ident de 80%.
A análise pelo blastx resultou no encontro de uma sequência correspondente a unnamed proteína product, presente em Vitis vinifera . Seu E-value de 7-119 identifica que o alinhamento dessa sequência com a sequência do banco de dados produzida não foi aleatória . A sequência possui um alinhamento de combinações acima de 200. O Query cover de 87% mostra que grande parte da sequência submetida ao programa que é coberta pelo alinhamento. A sequência F02 possui 93% de semelhança à sequência do banco de dados.
Análise da sequência G01
A análise feita pelo blastn resultou no encontro da sequência de gene correspondente a predicted protein, mRNA, presente na espécie Populus trichocarpa. A sequência possui um E-value de 3-114 indicando que o alinhamento dessa sequência G01 com a sequência do banco de dados não foi produzida aleatóriamente. A porcentagem de 92% mostra que a maioria da sequência G01 é coberta pelo alinhamento. O valor de Ident de 79% mostra grande parte da sequência é idêntica a do banco de dados. Essa sequência possui um alinhamento de combinações acima de 200.
A análise dessa sequência pelo blastx evidencia uma sequência correspondente a 7-dehydrocholesterol reductase-like, que está presente em Vitis vinifer. Essa sequência possui um alinhamento de combinações com o banco de dados do NCBI acima de 200. O valor do E-value é 6-117 indica que o alinhamento produzido por essa sequência com a sequência do banco de dados não foi aleatório. Os valores de Query cover e Ident são 82% e 87%, respectivamente.
Análise da sequência G02
A análise dessa sequência no blastn não produziu resultados, significando que no banco de dados do NCBI não existe sequências compatíveis à sequência G02
A análise do blastx para essa sequência revela que não há confiabilidade no alinhamento dessa sequência com a do banco de dados, pois o valor de E-value 8-8 está acima do valor mínimo considerado que é de 10-30, demonstrando que dessa maneira o alinhamento da sequência G02 com a do banco de dados foi produzida aleatoriamente. O Query cover é de 41% e o Ident 73%. O resultado obtido corresponde a sequência do gene Cytocrome B5 n6, ATCB5-A, CB5 , presente na espécie Theobroma cacao. Essa sequência possui um alinhamento de combinações abaixo de 80.
Análise da sequência H01
 Os resultados produzidos pelo blastn indicam que essa sequência possui um E-value de 1-37 representando que o alinhamento produzido por essa sequência com a sequência do banco de dados foi aleatório pois esse valor de E-value é maior que o valor de 10-30. Essa sequência possui um alinhamento de combinações entre 80 e 200 e corresponde a Nicotiana tabacum cultivar Bright Yellow cytosolic class I small heat shock protein 3A (sHSP3A) gene promoter region and complete cds. O valor de Query cover é 57% e o de Ident é 78% que indica o quanto essa sequência é a correspondente no banco de dados.
A pesquisa feita no blastx indica nos resultados dessa sequência uma suposta proteína head shock presentes no organismo da espécie Ricinus communis. O valor exposto de E-value (2-27) indica que o alinhamento dessa sequência com a sequência do banco de dados foi produzida aleatoriamente pois esse E-value é superior ao máximo aceitável que é 10-30 . O Query cover (65%) mostra que parte da sequência submetida ao programa que é coberta pelo alinhamento. O valor de Ident demonstra que existe 72% de semelhança entre as sequências.
Análise da sequência H02
A busca sobre essa sequência no blastn resulta em uma PREDICTED: Fragana vesca subsp. Vesca basic leucine zippeer and W2 domain-containing proteína 2-like (LOC1013154578), mRNA. O alinhamento dessa sequência com a sequência do banco de dados produzido não foi aleatório evidenciado pelo E-value de 2-109. Essa sequência está alinhada 94% com a do banco de dados e sua semelhança é identificada pelo Ident de 81%. Essa sequência possui um alinhamento de combinações acima de 200.
Na pesquisadessa sequência pelo blastx, o resultado observado corresponde a uma proteína prevista em no organismo da espécie Populus trichocarpa (gblABK93058). O alinhamento dessa sequência com a sequência do banco de dados não foi produzida aleatoriamente, indicada pelo valor de E-value de 2-90. Esse alinhamento ocorreu entre as sequências com o valor de 98%. E a semelhança entre essas sequências alinhadas é de 80% indicada pelo valor de Ident. 
ANÁLISE DAS SEQUÊNCIAS DO TRACES 2
A análise das sequências seguem os mesmos passos do Traces 1 no Codoncode Aligner que são a retirada das sequências de baixa qualidade, a retirada dos vetores. No traces 2 acorre com uma modificação. Logo após a retirada dos vetores, no Traces 2 adiciona-se uma etapa, o Assemble. Essa etapa dará origem a dois Contigs que são sobreposições dos READS. Esses Contigs serão convertidos no formato FASTA e analisados no BLAST.
Análise do CONTIG 1 
Ao analisar o Contig 1 no blastn observa-se que o resultado está relacionada a uma sequência de cosmídeo F35H8 de um nematódeo denominado Caenorhabditis elegans. A sequência analisada possui mais de 200 combinações com as do banco de dados. E o valor de E-value (0.0) indica que esse alinhamento não foi feito ao acaso. O Ident indica que essa sequencia é 99% semelhante com a sequência presente no banco de dados. Esse Contig analisado é uma sequência completa de um cosmídeo de Caenorhabditis elegans apresentando iniciando a partir do nucleotídeo 1 até o 8727, totalizando 8727 na sequência produzida pelo banco de dados. A sequência do gene compatível com a do banco de dados inicia-se no nucleotídeo 37638 (T) e finaliza no 28921 (A). Existem também sequências apresentando bases em forma diferente (letras minúsculas) que identificam as regiões de íntrons.
Pelo blastx a análise do Contig 1 resulta em três genes relacionados a três proteínas. Analisando mais detalhadamente cada um desses genes possuem mais de 200 combinações compatíveis com o banco de dados do BLAST.
Observa-se que o primeiro gene representa a proteína UGT-58 de Caenorhabditis elegans. Essa sequência possui 533 aminoácidos, sendo que a sequência do banco inicia-se em 1115 e finaliza-se em 3394 equanto a sequência complementar incia-se em 1 e termina em 533. Os frames positivos(+) indicam que a leitura do blastx está no mesmo sentido da sequência do banco de dados do Blast. 
O segundo gene representa a proteína WWE 1.1 também encontrada em C. elegans, os frames positivos(+) indicam que essa proteína está no mesmo sentido da sequência do banco de dados. Essa proteína possui em sua constituição 468 aminoácidos, sendo que a sequência do banco inicia-se no aminoácido em 4342 e finaliza-se em 5922.
O terceiro gene representa a proteína EXC-7 também de C. elegans e apresenta comprimento de 456 aminoácidos em sua constituição. Os frames negativos (-) indicam que o Contig está na sequência oposta a do banco de dados. Percebe-se também que o alinhamento da sequência do gene, com a sequência do banco de dados do BLAST torna-se possível através da compatibilidade da base 1 á 456 da sequência do gene com as bases de 7447 á 8589 da sequência da banco de dados.
Análise do CONTIG 2
A análise feita a partir do blastn permite identificar o mesmo resultado obtido na análise feita pelo blastn do Contig 1, evidenciando que essa sequência representa um cosmídeo F35H8 presente em Caenorhabditis elegans. Entretanto esse resultado possui uma pequena variação nos valores de Ident.
 A sequência analisada possui mais de 200 combinações com as do banco de dados. O valor de E-value (0.0) indica que esse alinhamento não foi feito ao acaso e o valor de Ident indica que essa sequência é 100% semelhante com a sequência presente no banco de dados. O Query cover mostra que 99% da sequência analisada se alinhou com a sequência do banco de dados.
Na análise feita pelo blastx observa-se que a sequência do gene é responsável por codificar uma proteína E02H1.2, constituída de 394 aminoácidos, encontrada no nematódeo Caenorhabditis elegans, a localização das bases dessa sequência do gene, inicia-se na posição 470 e finaliza-se na 745. O frame negativo (-1), indica que a sequência do gene presente no banco de dados encontra-se no sentido oposto em relação ao da sequência pesquisada.
O valor de E-value, 4-54, indica que o alinhamento da sequência analisada com a sequência presente no banco de dados do BLAST não foi produzido aletoriamente.
O Ident de 100% expõem que ambas as sequências, analisada e do banco de dados, possuem uma alta semelhança entre si.
A sequência analisada possui entre 80 e 200 combinações com as do banco de dados.

Continue navegando