Buscar

Análise de sequência de dna

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Análise de sequência de dna
 de dani8bob | trabalhosfeitos.com
 ANÁLISE DE SEQUÊNCIA DE DNA:
Danielle Forbeci Suzuki
Pamella Hachbardt
O presente artigo propõe a análise de sequência de um fragmento de DNA fornecido de um procarioto. Com o auxílio da ferramenta computacional BLASTP foi possível visualizar e estudar as características inerentes a este organismo e através do sequenciamento do seu gene e identificação de suas ORF’s foi encontrada a proteína codificada Urease acessory. O produto desse gene está amplamente encontrado em vegetais, bactérias e fungos e apresenta um alto grau de homologia entre si. A sequência de DNA que codifica essa proteína foi composta por 891 pares de bases e possui a porcentagem de G+C na terceira base de 80.1%. Esta similaridade de sequência primária indica um processo conservativo durante a evolução da espécie e um papel fisiológico importante destas enzimas. Na análise de vizinhança do gene encontramos outros três organismos similares, dentre eles o Brucella abortus, transmissor de zoonoses e responsável por problemas sanitários e econômicos nas áreas de produção de carne e leite. (Poester et al. 2002). 
Palavras-chave: gene, Urease acessory, Brucella abortus, sequenciamento.
1 INTRODUÇÃO
 1.1 A importância em se conhecer a sequência de um gene
	A descoberta da estrutura do DNA, molécula que armazena a informação genética, pelos pesquisadores Watson e Crick em 1953, levou a biologia molecular, principalmente a partir da década de 1990, a se tornar uma grande propulsorada Bioinformática, ciência que integra as áreas de Biologia, Bioquímica e Informática. Com o auxílio da Bioinformática, que se destaca na busca de conhecimento para desenvolver novos métodos de análise integrada de dados, pode-se isolar e seqüenciar moléculas de DNA de maneira rotineira. A otimização das técnicas de sequenciamento leva ao desenvolvimento de ferramentas com o objetivo de sequenciar genomas completos de diferentes organismos, assim como se torna uma forma de explorar e processar dados gerados por projetos em larga-escala disponíveis em bancos de armazenamento como, por exemplo, o GenBank, um banco de dados público de sequências de DNA e de aminoácidos do Centro Nacional de Informação Biotecnológica dos EUA (NCBI). Uma vez desenvolvidas, essas ferramentas podem ser utilizadas pela comunidade científicas para responder questões específicas nas comunidades médicas. A figura 1 mostra o exponencial crescimento/ano de dados emergentes dos laboratórios de todo o mundo.
FIGURA 1 – GRÁFICO DE CRESCIMENTO DO GENBANK
 	Além de concentrar dados sobre o código genético de milhares de organismos, os Bancos de dados fornecem uma série de ferramentas para trabalhar com essas informações, uma delas é o Blast (Basic Local Aligment Search Tool) que permite encontrar similaridades entre sequências de DNA e será a base do trabalho descrito a seguir. Essas informações carregam o potencial de solucionar os entraves da existência possibilitando ao homem controlar aintimidade dos mecanismos da vida. 
	Espera-se num futuro próximo, que a Genômica, em estudos de padrões genéticos, viabilize o combate a doenças, como por exemplo, o câncer. Isso porque a real importância de se conhecer as sequências dos genes que compõem o genoma de um determinado ser é a de se ter a uma melhor compreensão dos processos biológicos subjacentes como, por exemplo, o conhecimento de todas as proteínas necessárias e suficientes para a existência desse organismo. De posse desse conhecimento resta, é claro, o desafio maior de esclarecer como essas proteínas se inter-relacionam para executar as mais diferentes funções de um ser desde a formação, diferenciação e manutenção de uma célula viva, até funções mais complexas que levam a conceitos sobre consciência, memorização e sentimentos. Nos diferentes grupos de organismos o genoma difere muito quanto a tamanho e organização, exigindo do pesquisador estratégias que possibilitem seu sequenciamento. 
 
1.2 Vantagens e limitações da análise computacionais de sequência
	Com o desenvolvimento da tecnologia do DNA recombinante em 1972 e do sequenciamento do DNA em 1975-1977, tornou-se possível a inserção de tecnologia avançada no desenvolvimento das ciências que vai isolar e determinar a sequência de genes dos mais diferentes organismos (MIR, 2004). O sequenciamento de DNA baseia-se numa série de métodos bioquímicos que têm por finalidade determinar a ordem das bases nitrogenadas na molécula de DNA, ou seja,a seqüência de nucleotídeos da molécula (BRANDÃO, 2009). Existem vários métodos disponíveis, e cada um apresenta vantagens e desvantagens. Para ajudar nestes problemas o uso de métodos matemáticos, numéricos, estatísticos e probabilísticos, aliados ao uso de métodos computacionais através do uso de softwares, como o Bioedit, por exemplo, e meios de acelerar o processo de construção e comparação das moléculas foram criados (BAPTISTA, 2003). Hoje existem ferramentas de análise de genoma, como por exemplo, Phred/Phrap/Consed que auxiliam nos processos automáticos de sequenciamento ou ainda são capazes de realizar testes comparativos nas fitas prontas (FERREIRA, 2005). Estas ferramentas também são responsáveis pela análise qualitativa da molécula permitindo então, a detecção de doenças.Dentre elas, são as mais conhecidas o PCR, a Eletroforese, a Espectofotometria e as comparações com bases de dados como o BLAST (GIBAS et al., 2007). Uma vez que conseguimos realizar o sequenciamento e temos condições de fragmentá-lo, podemos utilizar a técnica de micro-arrays (trechos da sequência) para buscar as bases.
Com isso, o uso de softwares agiliza o processo e permite uma quantidade ainda maior de possibilidades na busca de certas semelhanças em códigos genéticos. 
	É suficiente que o pesquisador possua uma parte do código que quer analisar, podendo ter vindo este de outros softwares de edição de sequências, como o BioEdit, para que possa fazer uma pesquisa no BLAST/NCBI,obtendo as informações desejadas (CAMPOS, 2006).
Há metodologias que podem identificar mutações genéticas com grande precisão porque a grande maioria das mutações com grandes efeitos clínicos “enganam” essas regiões codificantes de proteínas, e esta promete ser uma estratégia eficiente para a descoberta de genes relacionados a doenças, além de outras áreas da bioquímica que visam manipular o código em busca de melhorias genéticas (ISAUDE, 2009).
2 METODOLOGIA
	 Análise da sequência e construção de plasmídio virtual 
 	O presente trabalho iniciou-se a partir de um fragmento de sequência de DNA (5’ – 3’) que definiremos como a sequência 5473.
 2.1 Escolha da ORF 
 	O cromossomo de procarioto não tem seqüência supérflua. Ele é composto de seqüências denominadas ORFs (Open Reads Frames) correspondentes a genes, e seqüências 5'-3' que codificam elementos reguladores da transcrição gênica. Uma ORF é uma série de trincas de nucleotídeos, iniciando com um códon de iniciação (geralmente, mas não sempre ATG) e finalizando em um códon de terminação (TAA, TAG ou TGA, na maioria dos genomas as ORFs auxiliam a previsão de um gene e as ORFs mais longas são utilizadas como evidências na análise. Em um genoma bacteriano o resultado mais comum nesse tipo de análise é encontrarmos ORF’s longas que quase sempre correspondem a genes e de outras ORF’s mais curtas podendo estar parcialmente ou totalmente contidas nos genes, mas que se encontra em fases de leitura diferentes.Então, toda a seqüência do DNA do procarioto é traduzida em uma função do organismo. Foi utilizado o programa FramePlot para encontrar a ORF. Este programa busca por um segmento de DNA com um códon de início (preferencialmente ATG) e um de parada. 
	Os parâmetros utilizados na pesquisa foram:
 * Window Size: 40 códons 
 
 * Step Size: 5 códons 
 * Minimum ORF size: 20 códons 
 * Start códon: ATG 
 * Incomplete ORF:
on 
FIGURA 2 – RESULTADO DA ANÁLISE DA SEQÜÊNCIA ORIGINAL PELO PROGRAMA 		 FRAMEPLOT
	Selecionamos algumas ORF’s para a sua tradução em peptídeos e posterior análise. Após a escolha da ORF’s estas foram traduzidas em aminoácidos e analisadas pelo programa BLASTP.
2.2 BLAST 
	Blast (Basic Local Alignment Search Tool) é uma ferramenta usada para comparar sequências de informações biológicas tais como segmentos de DNA, sequências de aminoácidos, entre outros, com sequências depositadas no banco de dados on-line, gerando um resultado em termos da porcentagem de homologia com a sequência presente no banco de dados (BLAST, 2011). Esta homologia pode ser em nível de nucleotídeos, aminoácidos ou domínios funcionais. O Blast foi originalmente desenvolvido para solucionar problemas dos métodos de programação exaustivos que são muito lentos para realizar consultas completas em banco de dados. O programa BLASTP tem como tipo de sequência-alvo os aminoácidos, e a consulta no banco de dados é feita em sequências deproteínas (LESK, 2008). Cabe ao pesquisador julgar se sua sequência é desconhecida ou não. Quanto maior a porcentagem de homologia presente mais seguro o pesquisador ficará de sugerir a função da sua sequência.
	A ORF selecionada que obteve o melhor resultado foi a que compreende os pares de base entre 3793:4681
	A sequência de DNA que codifica essa proteína é composta por 891 pares de bases e possui a porcentagem de G+C na terceira base de 80.1%. A composição de bases é: 114 A, 312 C, 270 G e 131 T. 
FIGURA 3 - RESULTADO DA ORF 3793:4681
	O resultado obtido mostrou diversas proteínas com alta homologia e identidade com a sequência de aminoácidos fornecida. Como melhor ilustrado no próximo gráfico:
FIGURA 3- ALINHAMENTOS SIGNIFICATIVOS
	A maior parte das proteínas encontradas com homologia foi da família da Urease accessory, que é uma enzima que cataliza a hidrólise da uréia em dióxido de carbono e amônia.
2.3 CLUSTAL
	Clustal é um programa utilizado em biologia molecular para o alinhamento múltiplo tanto de seqüências de ácidos nucléicos quanto de proteínas e também para a preparação de árvores filogenéticas. O Clustal foi utilizado para fazer o alinhamento entre a seqüência de aminoácidos das proteínas encontrada no BlastP com a seqüência genética da ORF que estamos trabalhando. O software Clustal está disponível online no endereço:(http://www.ebi.ac.uk/Tools/msa/clustalw2/). Na figura 4 pode-se observar o alinhamento entre as sequências.
FIGURA 4– ALINHAMENTO DAS SEQUENCIAS
2.3.1 Identificando domínios conservados
	Com o objetivo de comparar a sequência de aminoácidos das proteínas identificadas na sequência genética com a sequência de aminoácidos de outros microrganismos, foi selecionado a proteína Urease accessory no BlastP. Foi feito uma busca por domínios conservados no NCBI e encontrado os domínios conservados da urease selecionada com os domínios conservados de mais outras 3 proteínas de diferentes organismos e pode-se observar similaridade entre os organismos selecionados. Como se pode observar no gráfico abaixo:
FIGURA 5 – DOMÍNIO CONSERVADO
2.5 String 
	O String é um banco de dados disponível on-line no endereço: http://string.embl.de/, sua principal função é realizar a previsão de interações proteína-proteína, assim como fazer interações físicas (estruturais) e funcionais. Ele realiza uma análise de vizinhança do gene que codifica determinada proteína em diferentes microorganismos, para que possamos analisar se aquele gene e os vizinhos são conservados em diferentes espécies, quando isso acontece pode-se determinar se a função da proteína em estudo é ou não a mesma nesses diferentes microrganismos. Esse programa também é conhecido por simplificar o acesso a informações sobre associação de proteínas, ilustrado na figura 6, de uma forma compreensível e com bom controle de qualidade para um grande número de organismos. Assim, foi utilizado este programa para realizar o estudo sobre aconservação dos genes de vizinhança ao gene da nossa ORF escolhida. 
FIGURA 6 - POSSÍVEIS PROTEÍNAS PARCEIRAS FUNCIONAIS
FIGURA 7 - LISTA DAS POSSÍVEIS PROTEÍNAS PARCEIRAS FUNCIONAIS
	A análise com o programa String foi realizada colocando como entrada os aminoácidos da ORF 3793:4681 por nós selecionada. Na análise podemos observar a parceria entre as vizinhanças do gene onde todas as proteínas têm um alto grau de envolvimento e similaridade pode-se observar com mais detalhes na figura 7 acima.  
2.6 Mapa de restrição 
	Para encontrarmos nosso mapa de restrição utilizamos o programa NEBcutter da BioLab disponível em : <http://tools.neb.com/NEBcutter2/cutshow.php?name=60ca3218-> e o programa Restriction Mapper disponível em : <http://www.restrictionmapper.org/>. Um mapa de restrição nos mostra os sítios do segmento que são cortados pelas enzimas de restrição, conforme ilustrado na figura 8.
FIGURA 8 - MAPA DE RESTRIÇÃO OBTIDO PELO PROGRAMA NEBCUTTER
	Através dos mapas de restrição obtidos foi possível observar que houve o corte em apenas 3 enzimas de restrição: AleI,SmaI e AfeI. 
2.7 Identificação de Promotores
	Os promotores são sequências de DNA específicas importantes para o início da transcrição. Tais sequências são reconhecidas por algumas proteínas específicas, chamadas de fatores de transcrição, que trazem a RNA polimerase para realizar a montagem dos RNAs. Com a comparação entre os vários promotores é possível deduzir umasequência consenso. Os promotores cuja sequência são mais semelhantes à sequência consenso geralmente são os mais fortes. Os genes que são expressos com mais intensidade, provavelmente terão promotores com sequências próximas da sequência consenso. Na figura 9 podemos observar o promotor onde letras maiúsculas representam alta probabilidade de se encontrar a base em questão e as minúsculas representam baixa probabilidade.
 
FIGURA 9 – SEQUÊNCIA DO PROMOTOR ENCONTRADO
2.7 Identificação de Terminadores
	Um mecanismo extensivamente utilizado no controle da expressão gênica em procariotos é o controle da terminação da transcrição. A polimerase inicia a transcrição e move-se ao longo do molde de DNA, sintetizando RNA até encontrar a seqüência terminadora. Neste ponto a enzima para de adicionar nucleotídeos na cadeia de RNA, libera o produto completado e dissocia-se da fita molde. Como na iniciação, a terminação requer quebra das pontes de hidrogênio e proteínas adicionais para interagir com a enzima, envolvendo o reconhecimento de sinais no transcrito pela polimerase ou por fatores auxiliares. (Henkin 1996). Para a identificação de terminadores foi utilizado o programa Arnold que pode ser encontrado online em:
( http://rna.igmors.u-psud.fr/toolbox/arnold/index.php). Nenhum terminador foi encontrado no resultado.
2.8 Descrever a organização do fragmento de sequencia com uma figura mostrando os motivos estruturais identificados (promotores, RBS, terminadores, sítiode ligação de fatores de transcrição, etc)
FIGURA 10 – MOTIVOS IDENTIFICADOS
	Na região da ORF foram identificados dois motivos principais: um deles é um sítio de ativo de resíduos catalíticos, observados na figura 11. E o outro é um polipeptídeo de ligação local, observados na figura 12.
FIGURA 11 – RESÍDUOS CATALÍTICOS
FIGURA 12 – POLIPEPTÍDEO DE LIGAÇÃO LOCAL
3.Função do gene ou operon
3.1. Importância fisiológica do produto do gene
	O produto do gene é a uréase proteína acessória. As ureases são amplamente encontradas em vegetais, bactérias e fungos, apresentando um alto grau de homologia entre si. Esta similaridade de seqüência primária indica um processo conservativo durante a Evolução e um papel fisiológico importante destas enzimas. As ureases microbianas estão envolvidas em processos patogênicos como formação de cálculos urinários, incrustação de catéter, pielonefrites, úlceras pépticas
e possivelmente, na formação de tumores de estômago. Em vegetais, pouco se sabe a respeito da função biológica das ureases, embora sua presença em tecidos vegetais seja freqüente. Postula-se seu envolvimento na biodisponibilidade de nitrogênio; ou mesmo como mecanismo de defesa dos vegetais.
3.2. Outros genes relevantes que podem fazer parte do operon ou vizinhança 
	Não foram encontrados genes com produtos diferentes da urease proteína acessória.
3.3. Se disponível, fenótipo do mutante em outros organismos
	Também não foram observados mutantes em outrosorganismos.
REFERÊNCIAS 
BAPTISTA, E. S. Uma abordagem alternativa para seqüenciamento por hibridização. 2003. 150 f. Dissertação (Mestrado em Engenharia Elétrica). Escola de Engenharia, Universidade Federal de Pernambuco, Pernambuco. 2003.
	BLAST - Basic Local Alignment Search Tool em: NCBI. Disponível em: <http://www.ncbi.nlm.nih.gov/BLAST/> Acesso em 15/06/2011.
BRANDÃO, K. L. S. Sequenciamento e alinhamento de DNA. 32 p. Piracicaba, SP. 2009. 
CAMPOS, A. C. F. C.; BARBOSA, D. V. C.; LOBO, F.; MELO, R. C. Apostila completa de Bioinformática da UFMG. 47 p. Belo Horizonte, MG. 2006. 
FERREIRA, R. R. Introdução a Bioinformática. 55 p. Uberaba, MG. 2005. 
GIBAS, C.; JAMBECK, P. Desenvolvendo Bioinformática. 464 p. Rio de Janeiro: Editora Campos, 2007. 
HENKIN, T. Control of transcription termination termination in prokaryotes. Annual Reviews of Genetics, v. 30, p. 35-57, 1996.
	ISAUDE, Pesquisadores sequenciam DNA completo de proteína codificante de genes. Disponível em: < http://www.isaude.net/pt-BR/noticia/2728/ciencia-e-tecnologia/pesquisadores-sequenciam-dna-completo-de-proteina-codificante-de-genes>. Acesso em: 12 de jun. 2011.
LENSK, Arthur M. Introdução à Bioinformática. 2 ed.. 384 p. Porto Alegre: Editora: Artmed, 2008.
MIR, Luís. Gênomica/organizador editorial Luís – São Paulo: Editora Atheneu, 2004.
POESTER F.P., Gonçalves V.S.P. & Lage A.P. Brucellosis in Brazil. Vet. Microbiol. 90:55-62. 2002.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando