Buscar

Caracterização de genes por bioinformática

Prévia do material em texto

Caracterização de genes por bioinformática
Alinhamento aos pares: Alinhamento pairwaise 
Após o isolamento e sequenciamento do gene que se quer estudar, o primeiro passo para a análise é a busca por sequências similares ao gene de interesse em bancos de dados através de alinhamento aos pares. O programa mais utilizado para realizar uma busca em bancos de dados é o BLAST. Ao encontrar sequências homólogas, pode-se inferir função do gene de interesse, além de poder utilizar as sequências encontradas para estudar filogenia evolutiva.
Outro tipo de programa é o BLAT. Ele diminui o tempo de busca, sendo mais rápido que a grande maioria dos algoritmos de alinhamento de sequências, trabalhando melhor com sequências que apresentam alta similaridade. O BLAT pode ser utilizado para alinhar sequências de mRNA em uma montagem de genoma para inferir as coordenadas dessas sequências no genoma; determinar homologia entre sequências de duas espécies; determinação da distribuição de regiões exônicas e intrônicas de um gene, entre outras funções. BLAT indexa o banco de dados genoma/proteína, retém o índice na memória e, em seguida, e busca por correspondências (matches) com a sequência query (diferente do BLAST, que consulta diretamente o banco de dados). BLAST só aceita sequências no formato FASTA (não aceita números de acessos) e é menos sensível que o BLAST.
Alinhamento múltiplo
Após encontrar sequências homólogas para o gene de estudo, um próximo passo pode ser inferir a relação evolucionária entre as sequências através de alinhamento múltiplo (discutido anteriormente). Além de inferir evolução das sequências, o alinhamento múltiplo também pode ser utilizado para a detecção de mutações em sequências de um mesmo gene em diferentes indivíduos. Diferentes programas são utilizados no alinhamento múltiplo, como o Clustal, T-Coffee, MUSCLE, MAFFT e ProbCons. Muitos programas utilizam o algoritmo do alinhamento progressivo (descrito anteriormente).
Fase de leitura aberta (ORF)
Fases de leitura aberta são compostas por um códon de início (geralmente AUG) e um códon de parada. É a região do gene que codifica determinada proteína. Encontrar ORFs em genomas procariotos é mais simples (90% do genoma é codificante). Esses programas devem conseguir discriminar regiões entre ORFs codificantes e regiões não-codificantes e identificar corretamente o códon de início. 
Programas para encontrar genes: EasyGene, CONRAD e MetaGun. ORFFinder identifica as fases de leitura aberta usando os códigos genéticos padrão ou alternativos, sequencias de entrada e sua tradução para proteína, usado para encontrar regiões que codificam proteínas. Verificar as proteínas previstas usando BLAST.

Continue navegando