Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ‘ Introdução à Bioinformática Sónia Andrade setembro/2012 ESALq - USP ‘ O que é bioinformática “... é a pesquisa, desenvolvimento e aplicação de ferramentas e abordagens computacionais que permitem o uso de de dados biológicos, comportamentais ou da área de saúde, incluindo sua aquisição, organização, visualização, análise e armazenamento” (http://www.bisti.nih.gov/CompuBioDef.pdf) National Center for Biotechnology Information Origem - Universidade de Ultrecht, Grupo de Bioinformática, final dos anos 1970 - Paulien Hogeweg e Ben Hesper "the study of information processes in biotic systems". - Desde então a área de bioinformática engloba um número grande de assuntos interdisciplinares incluindo biologia de sistemas, biologia computacional e genômica Sequenciamento do genoma humano 2001 4 Métodos tradicionais em bioinformática - Procura na literatura e buscas (NCBI Entrez e Blast) - Análises de dados de sequenciamento (análise de restrição, mapeamento de plasmídeos, desenho de primers, procura por ORFs) - Obtenção da sequência consenso a partir de sequenciamento direto 5 Citocromo oxidase I Uso de algoritmos para adquirir novos conhecimentos biológicos Uso de conhecimentos biológicos na construção de algoritmos 7 Algoritmos Afinal, o que é um algoritmo? ● Uma receita passo a passo para um cálculo Exemplo: Alinhamento de 2 sequências Método – deslize a sequência 1 com sequência 2 e conte os pb que são coincidentes Algoritmo – ao longo do comprimento da seq 1 - compare a base na posição 1 da seq 2 com posição 1 da seq 1, conte coincidentes - repita com todas posições - registre a posição de todas bases coincidentes Implementação – escreva um código que exceute esses algoritmo em uma linguagem que o sistema computacional entenda 8 GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT <— —>CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT <— —> CTAGAAGAGCGTAGTCAGAGTGTGTTTGAGTTCC ?????? Nosso problema Algoritmos de comparação par-a-par não funcionam bem pq não refletem a realidade biológica da similaridade entre sequências Mas porque não? Não sabe o que fazer com os indels Logo não sabe o que fazer com as regiões internas de similaridade Isso é um problema do algoritmo ou de sua implementação? Não, o problema aqui é o método Precisa conhecer a biologia do sistema Normalmente cientistas da computação criam algoritmos de bioinformática não muito úteis Por que nosso algoritmo não funcionou? 10 Um problema biológico pode ser solucionado por vários algoritmos diferentes: - possíveis resultados diferentes - diferentes quantidade de tempo de cálculo - pesquisador define o melhor “trade off” Um tipo de algoritmo pode ser aplicável a diversos problemas biológicos Difícil saber qual é a melhor solução possível Quanto mais os algoritmos existentes não proporcionam a solução adequada, mais ativa é a área de pesquisa Uma solução ótima mas que leva bilhões de anos para calcular não é satisfatória! 11 Mas preciso saber muito de computação? - Bioinformática pode ser encarada como uma ferramenta – como o PCR - Biólogos deveriam ser capazes de escrever seus próprios programas e construir base de dados? -na verdade não, mas seria extremamente vantajoso - está na crista da onda “Two months in the lab can easily save an afternoon on the computer.” —Alan Bleasby, 1997 12 13 Mas qual sistema usar? Mac OS X e Linux - Sistema Unix É possível em Windows: Cygwin, um portal de ambiente Unix Na maioria das distribuições o shell onde se digita a linha de comando se chama bash 15 “ Bash script” #!/bin/bash for ARQ in $(ls *.fasta) do bsub -q giribet -R "span[ptile=4]" -n 4 -e $ARQ.err -o $ARQ.out -J $ARQ.job blastx -query $ARQ -db nr -gilist /n/nobackup2/giribet/sandrade/blast_db/Fungi_Metazoa.gi -outfmt 5 -max_target_seqs 5 -evalue 1e-5 -out $ARQ.blx done 16 #!/usr/bin/perl use warnings; #use Bio::SeqIO; use Bio::AlignIO; $informat="fasta"; $outformat="phylip"; #$count = 0; for $infile (@ARGV) { $in = Bio::AlignIO->new(-file => $infile, -format => $informat); $outfile = $infile.".phy"; $out = Bio::AlignIO->new(-file => ">$outfile", -format => $outformat, -interleaved => 0, -longid => 1); while ( my $aln = $in->next_aln ) { $out->write_aln($aln); # $count++; } } #warn "Translated $count sequences from $informat to $outformat format\n" warn "Converted file @ARGV sequences from $informat to $outformat format\n" “Scripts” Funções escritas utilizando linguagens avançadas, como perl (.pl), python (.py) ou R (.r), onde o programa é interpretado ao longo da análise 17 Scriptome http://sysbio.harvard.edu/csb/resources/computational/scriptome/ 18 “Programas compilados” Se referem a arquivos executáveis que já tem seu código pré-compilado ou seja Não possuem um arquivo texto onde vc possa fazer alterações (ou se vc faz, tem que ser compilado novamente) 19 https://github.com/ Repositórios de programas livres http://sourceforge.net/ 20 1000-Pentium Beowulf-Style Cluster Computer 1999 HPTC cluster -4096 processadores, 16 TB mem - 2008 Onde analisar seus dados? 21 Aplicações da área de Bioinformática Análise de bases de dados de DNA & proteína Alinhamentos múltiplos Similaridade, alinhamento e montagem Padrões de domínios/motifs de proteínas(Pfam, Blocks, ProDom) Padrões de sequências/motifs de DNA (promotores, fatores de transcrição, regiões intrônicas) Reconstrução filogenética Predição de genes Análise de expressão de microarranjos Análise de SNPs Predição da estrutura de proteínas Mapeamento dos caminhos metabólicos e regulatórios Ontologias 22 Genômica Aplicação do sequenciamento de nova geração para biologia molecular Permite o estudo dos genomas completos (e dos transcriptomas, proteomas, metabolômicas...) 23 Análise Genômica de larga escala - lida-se com uma quantidade muito grande de dados Cria-se uma base de dados do lab Utiliza-se de ferramentas de bioinformática em grupos de dados Necessário saber linguagem de programação -estudos de expressão diferencial, classificação e predição de genes -genômica funcional – caminhos funcionais, classificção da ontologia -identificação de SNPs, GWA (Genome Wide Association) Muitas novas sequências Sequenciamento direto Sequenciamento de genomas Sequenciamento de EST Sequenciamento ambiental/metagenômica O GenBank tem mais de 140 Bilhões de bases!!! E continua crescendo Processadores não dão conta Enorme quantidade de dados Um dos grandes desafios... 25 Busca de sequências Como procurar uma sequência similar às minhas? Ferramentas – usando arquivos FASTA, faz-se uma busca heurística no BLAST (Basic Local Alignment Search Tool) Como decidir: resultados estatísticos e bom senso 26 >Mytilusedulis TGGAGGAAAAGCTCCAAGAAAACAACTTGCCACCAAGGCCGC CCGTAAGAGCGCACCTGCCACAGGTGGAGTTAAGAAGCCACA TAGATACAGGCCAGGAACAGTCGCTCTTCGTGAGATCAGAAGA TACCAGAAAAGTACTGAACTCCTCATCAGGAAACTCCCCTTCC AGAGATTAGTTCGTGAAATTGCTCAAGACTTCAAGACTGATCTT CGTTTCCAGAGCTCTGCCGTTATGGCCCTCCAGGAAGCCAGT GAAGCTTACCTCGTTGGTCTTTTCGAGGACACCAACTTGTGTG CAATCCACGCCAAGAG >Golfingiaelongata TGGTGGCAAAGCCCCAAGGAAGCAACTGGCCACCAAGGCAG CCCGCAAGAGCGCCCCAGCSACAGGGGGAGTGAAGAAACCC CACAGGTACAGGCCTGGCACAGTCGCCCTGAGAGAAATCAGA AGGTACCAGAAGAGCACTGAACTTCTCATCAGGAAGCTGCCCT TCCAGCGTCTGGTGCGAGAAATTGCCCAGGACTTCAAGACTG ACCTCAGGTTCCAGAGCTCCGCCGTCATGGCTCTCCAGGAGG CCAGCGAGGCCTACCTTGTTGGACTGTTTGAGGACACCAACCTGTGCGCCATCCACGCCAAACG Arquivos Fasta 27 BLAST 28 Algoritmo do Blast 29 Resultado BLAST 30 31 32 Projeto Genoma O genoma humano é decodificado cerca de 3,2 bilhões de pares de base 33 Mais genomas Sequenciamento de Nova Geração @HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAACCTTTACATAC TGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGATACTTTGA + b__eeeeeggege]ghdhghiiihhiiifWefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggidM\`d`dac]]bc`_ ]b``bbb`bbZ_`Z @HWI-H201:67:D13FRACXX:5:1101:1875:1922 1:N:0:CGATGT NTTGCAAGTCATTGAACTTAGGGGAAAAGAAGTACTTTATGGCTCATTAAACAGGC CACTCAACACAACAACATACTTTTATAAATAAAATTTGCTAAGC + BP\ccccc\ceeehhhhhhhhhhhheehhhedefhehhhbdhheedehdecehhdehhhehhhhheedde eea__a__Z`bbcdd`caaaZ_Z__```Y^ cromatograma fastq Cerca de 76800 pb Cerca de 150 bilhões pb @HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAA CCTTTACATACTGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGAT ACTTTGA + b__eeeeeggege]ghdhghiiihhiiifWefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggi dM\`d`dac]]bc`_]b``bbb`bbZ_`Z Identificação do read/leitura Score de qualidade Mas como são esses dados? Arquivos FASTQ 37 Paired end e Single end Ozsolak e Milos (2011) 38 Como checar a qualidade dessas sequências? Programa FASTQC 39 40 pré- processamento Após thinning e trimming Mas o que fazer com as sequências que não estão boas?? Alinhamento contra o genoma de referência Se temos um genoma de referência é fácil visualizar se o alinhamento ficou bom ou não E quando não há um genoma de referência? Montagem de novo Gráficos De Brujin 44 Como saber se sua montagem de novo ficou boa ou não? Usando parâmetros como: Tamanho dos contigs Número dos contigs maior que 1000pb N50 * é o tamanho minímo do contig que contém 50% das bases utilizadas na montagem Exemplo: Se vc tem 1000 pares de base para fazer a montagem e seu N50 = 300, isso quer dizer que 500 pb estão dentro de contigs com tamanho ≥ 300 pb 45 Faça um blast!! Tubulanus punctatus dados da plataforma 454 - Roche 4217 contigs! 1885 identificados pelo Blast Todos Blast hits (e<10-4) 46 E em seguida se faz a anotação dos contigs Anotação estrutural consiste na identificação do elementos de genoma ORFs e sua localização Estrutura do gene Regiões codificadoras Localizaçào dos motifs reguladores Anotação funcional consiste em dar informação biológica aos elementos do genoma Função bioquímica Função biológica Regulação da expressão e interações 47 Anotação Funcional As propriedades dos produtos gênicos se encaixam em 3 categorias: Funções Moleculares Processos Biológicos Componentes Celulares DAG 48 O projeto Gene Ontology é uma iniciativa entre pesquisadores com o objetivo de padronizar a representação do genes e dos atributos desse genes em várias espécies e bases de dados. O projeto proporciona um vocabulário controlado de termos para descrever os produtos do gene e os dados de anotação do consórcio GO, assim como também ferramentas para acessar e processar esses dados. 50 51 52 Análise de expressão diferencial Quantificando a expressão RPKM: Reads Per Kilobase per Million mapped reads • RPKM = C/LN C : número de reads mapeados em uma região determinada L: tamanho da região (em pb) N: número total de reads mapeados (em milhões) Exemplo do cálculo de RPKM Quantificando expressão: FPKM • FPKM: Fragments Per Kilobase of transcript per Million fragments mapped Análogo ao RPKM mas não usa o número de reads As abundâncias relativas dos transcritos são descritas em termos de objetos biológicos esperados (fragmentos); a expressão relativa dos transcritos é proporcional ao número de fragmentos de cDNA que geraram os mesmos 55 Gastrozooids rpm (mean) N e ct o ph o re s rp m (m e a n ) 100 10k1 1 100 10k 0.01 1M 1M 0.01 Nectophore Enriched Gastrozooid Enriched p<0.05 p<0.01 p<0.001 Visualização de análises de RNA-seq 59 Análise de enriquecimento existem diferenças de expressão entre categorias pré-definidas? (Alguma categoria é “enriquecida”?) Categorias comumente usadas: Gene Ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG) Outras categorias PRÉ-definidas (cromossomo, tecido expresso, etc). 60 Como funciona? 1.Genes são divididos em categorias 2.conta-se quantos genes diferencialmente expressos existem por categoria 3. teste estatístico comparando distribuição de genes diferencialmente expressos entre categorias 61 Análise de enriquecimento existem diferenças de expressão entre categorias pré-definidas? (Alguma categoria é “enriquecida”?) Categorias comumente usadas: Gene Ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG) Outras categorias PRÉ-definidas (cromossomo, tecido expresso, etc). 62 ‘ Aula Prática Enriquecimento das ontologias GO usando GOrilla (http://cbl-gorilla.cs.technion.ac.il/) 63 Dados do traballho: Comparação da expressão diferencial entre células tumorosas do tipo TNBC e não TNBC 64 Objetivos - Procurar quais são os genes enriquecidos nas diferentes ontologias: Processos biológicos, funções moleculares e componentes celulares - Visualização e compressão dos DAG (gráficos acíclicos direcionado) 65 Exercício 1. fazer análise comparando os genes significativos em relação ao total de genes identificados Exercício 2. fazer análise somente com os genes significativos ranqueados para cada tipo de câncer
Compartilhar