INTRODUÇÃO A BIOINFORMÁTICA

•

UNICEUMA

Yuri Nascimento Froes

31.03.2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 65 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 65 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 65 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioinformática

1.994 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1
‘
Introdução à
Bioinformática
Sónia Andrade
setembro/2012
ESALq - USP
‘
 
O que é bioinformática
 “... é a pesquisa, desenvolvimento e aplicação de 
ferramentas e abordagens computacionais que 
permitem o uso de de dados biológicos, 
comportamentais ou da área de saúde, incluindo sua 
aquisição, organização, visualização, análise e 
armazenamento”
(http://www.bisti.nih.gov/CompuBioDef.pdf)
National Center for Biotechnology Information 
Origem
- Universidade de Ultrecht, Grupo de 
Bioinformática, final dos anos 1970
- Paulien Hogeweg e Ben Hesper 
"the study of information processes in biotic 
systems". 
 - Desde então a área de bioinformática 
engloba um número grande de assuntos 
interdisciplinares incluindo biologia de 
sistemas, biologia computacional e genômica
Sequenciamento do genoma humano 2001
4
Métodos tradicionais em bioinformática
 - Procura na literatura e buscas (NCBI Entrez e Blast)
- Análises de dados de sequenciamento (análise de 
restrição, mapeamento de plasmídeos, desenho de 
primers, procura por ORFs)
- Obtenção da sequência consenso a partir de 
sequenciamento direto
5
Citocromo oxidase I 
Uso de algoritmos para adquirir novos conhecimentos 
biológicos 
Uso de conhecimentos biológicos na construção de 
algoritmos
7
Algoritmos
Afinal, o que é um algoritmo?
● Uma receita passo a passo para um cálculo
Exemplo: Alinhamento de 2 sequências
Método – deslize a sequência 1 com sequência 2 e 
conte os pb que são coincidentes 
 
Algoritmo – ao longo do comprimento da seq 1
- compare a base na posição 1 da seq 2 com posição 
1 da seq 1, conte coincidentes
- repita com todas posições
- registre a posição de todas bases coincidentes
Implementação – escreva um código que exceute 
esses algoritmo em uma linguagem que o sistema 
computacional entenda
8
 GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT 
 CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC
 GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT <—
 —>CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC
 GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT <—
 —> CTAGAAGAGCGTAGTCAGAGTGTGTTTGAGTTCC
??????
Nosso problema
Algoritmos de comparação par-a-par não funcionam 
bem pq não refletem a realidade biológica da 
similaridade entre sequências
Mas porque não?
Não sabe o que fazer com os indels
Logo não sabe o que fazer com as regiões internas 
de similaridade
Isso é um problema do algoritmo ou de sua 
implementação?
Não, o problema aqui é o método
Precisa conhecer a biologia do sistema
Normalmente cientistas da computação criam 
algoritmos de bioinformática não muito úteis
Por que nosso algoritmo não 
funcionou?
10
Um problema biológico pode ser solucionado por 
vários algoritmos diferentes:
- possíveis resultados diferentes
- diferentes quantidade de tempo de cálculo
- pesquisador define o melhor “trade off”
Um tipo de algoritmo pode ser aplicável a diversos 
problemas biológicos 
 Difícil saber qual é a melhor solução possível
Quanto mais os algoritmos existentes não 
proporcionam a solução adequada, mais ativa é 
a área de pesquisa
Uma solução ótima mas que leva bilhões de 
anos para calcular não é satisfatória!
11
Mas preciso saber muito de 
computação?
 - Bioinformática pode ser encarada como 
uma ferramenta – como o PCR
 - Biólogos deveriam ser capazes de 
escrever seus próprios programas e 
construir base de dados?
-na verdade não, mas seria extremamente 
vantajoso
- está na crista da onda
“Two months in the lab can easily save an afternoon on the computer.”
—Alan Bleasby, 1997
12
13
Mas qual sistema usar?
Mac OS X e Linux - Sistema Unix
É possível em Windows: Cygwin, um 
portal de ambiente Unix
Na maioria das distribuições o shell onde se digita a 
linha de comando se chama bash 
15
“ Bash script” 
#!/bin/bash
for ARQ in $(ls *.fasta)
do
 bsub -q giribet -R "span[ptile=4]" -n 4 -e $ARQ.err -o $ARQ.out -J 
$ARQ.job blastx -query $ARQ -db nr -gilist 
/n/nobackup2/giribet/sandrade/blast_db/Fungi_Metazoa.gi -outfmt 5 
-max_target_seqs 5 -evalue 1e-5 -out $ARQ.blx
done
16
#!/usr/bin/perl 
use warnings;
#use Bio::SeqIO;
use Bio::AlignIO;
$informat="fasta";
$outformat="phylip";
#$count = 0;
for $infile (@ARGV) 
{
 $in = Bio::AlignIO->new(-file => $infile, -format => $informat);
 $outfile = $infile.".phy";
 $out = Bio::AlignIO->new(-file => ">$outfile", -format => $outformat, -interleaved => 0, -longid => 
1);
 while ( my $aln = $in->next_aln ) 
 { 
 $out->write_aln($aln);
# $count++;
 }
}
#warn "Translated $count sequences from $informat to $outformat format\n"
warn "Converted file @ARGV sequences from $informat to $outformat format\n"
“Scripts”
Funções escritas utilizando linguagens avançadas, 
como perl (.pl), python (.py) ou R (.r), onde o programa é 
interpretado ao longo da análise
17
Scriptome 
http://sysbio.harvard.edu/csb/resources/computational/scriptome/
18
“Programas compilados”
Se referem a arquivos executáveis que já tem 
seu código pré-compilado 
ou seja
Não possuem um arquivo texto onde vc 
possa fazer alterações (ou se vc faz, tem que 
ser compilado novamente)
19
https://github.com/
Repositórios de programas livres
http://sourceforge.net/
20
1000-Pentium Beowulf-Style Cluster Computer
1999
HPTC cluster -4096 processadores, 16 TB 
mem - 2008
Onde analisar seus dados?
21
Aplicações da área de Bioinformática
Análise de bases de dados de DNA & proteína
Alinhamentos múltiplos
Similaridade, alinhamento e montagem
Padrões de domínios/motifs de proteínas(Pfam, Blocks, ProDom)
Padrões de sequências/motifs de DNA (promotores, fatores de 
transcrição, regiões intrônicas)
Reconstrução filogenética
Predição de genes
Análise de expressão de microarranjos
Análise de SNPs
Predição da estrutura de proteínas
Mapeamento dos caminhos metabólicos e regulatórios
Ontologias
22
Genômica
 Aplicação do sequenciamento de nova geração para 
biologia molecular
Permite o estudo dos genomas completos (e dos 
transcriptomas, proteomas, metabolômicas...)
23
Análise Genômica de larga escala
- lida-se com uma quantidade muito grande de dados
 Cria-se uma base de dados do lab
Utiliza-se de ferramentas de bioinformática em grupos 
de dados
Necessário saber linguagem de programação
-estudos de expressão diferencial, classificação e predição de 
genes
-genômica funcional – caminhos funcionais, classificção da 
ontologia
-identificação de SNPs, GWA (Genome Wide Association)
Muitas novas sequências 
 Sequenciamento direto
 Sequenciamento de genomas
 Sequenciamento de EST
 Sequenciamento 
ambiental/metagenômica
O GenBank tem mais de 140 
Bilhões de bases!!!
E continua crescendo
Processadores não dão conta
Enorme quantidade de dados
Um dos grandes desafios...
25
Busca de sequências 
Como procurar uma sequência similar 
às minhas?
Ferramentas – usando arquivos 
FASTA, faz-se uma busca heurística 
no BLAST (Basic Local Alignment 
Search Tool)
Como decidir: resultados estatísticos 
e bom senso
26
>Mytilusedulis
TGGAGGAAAAGCTCCAAGAAAACAACTTGCCACCAAGGCCGC
CCGTAAGAGCGCACCTGCCACAGGTGGAGTTAAGAAGCCACA
TAGATACAGGCCAGGAACAGTCGCTCTTCGTGAGATCAGAAGA
TACCAGAAAAGTACTGAACTCCTCATCAGGAAACTCCCCTTCC
AGAGATTAGTTCGTGAAATTGCTCAAGACTTCAAGACTGATCTT
CGTTTCCAGAGCTCTGCCGTTATGGCCCTCCAGGAAGCCAGT
GAAGCTTACCTCGTTGGTCTTTTCGAGGACACCAACTTGTGTG
CAATCCACGCCAAGAG
>Golfingiaelongata
TGGTGGCAAAGCCCCAAGGAAGCAACTGGCCACCAAGGCAG
CCCGCAAGAGCGCCCCAGCSACAGGGGGAGTGAAGAAACCC
CACAGGTACAGGCCTGGCACAGTCGCCCTGAGAGAAATCAGA
AGGTACCAGAAGAGCACTGAACTTCTCATCAGGAAGCTGCCCT
TCCAGCGTCTGGTGCGAGAAATTGCCCAGGACTTCAAGACTG
ACCTCAGGTTCCAGAGCTCCGCCGTCATGGCTCTCCAGGAGG
CCAGCGAGGCCTACCTTGTTGGACTGTTTGAGGACACCAACCTGTGCGCCATCCACGCCAAACG
Arquivos Fasta
27
BLAST
28
Algoritmo do Blast
29
Resultado BLAST
30
31
32
Projeto Genoma
O genoma humano é decodificado 
cerca de 3,2 bilhões de pares de base
33
Mais genomas
Sequenciamento de Nova Geração
@HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT
CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAACCTTTACATAC
TGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGATACTTTGA
+
b__eeeeeggege]ghdhghiiihhiiifWefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggidM\`d`dac]]bc`_
]b``bbb`bbZ_`Z
@HWI-H201:67:D13FRACXX:5:1101:1875:1922 1:N:0:CGATGT
NTTGCAAGTCATTGAACTTAGGGGAAAAGAAGTACTTTATGGCTCATTAAACAGGC
CACTCAACACAACAACATACTTTTATAAATAAAATTTGCTAAGC
+
BP\ccccc\ceeehhhhhhhhhhhheehhhedefhehhhbdhheedehdecehhdehhhehhhhheedde
eea__a__Z`bbcdd`caaaZ_Z__```Y^
cromatograma
fastq
Cerca de 76800 pb
Cerca de 150 bilhões pb
@HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT
CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAA
CCTTTACATACTGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGAT
ACTTTGA
+
b__eeeeeggege]ghdhghiiihhiiifWefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggi
dM\`d`dac]]bc`_]b``bbb`bbZ_`Z
Identificação do read/leitura
Score de qualidade
Mas como são esses dados?
Arquivos FASTQ
37
Paired end e Single end
Ozsolak e Milos (2011)
38
Como checar a qualidade dessas sequências?
Programa FASTQC 
39
40
pré-
processamento
Após thinning e 
trimming
Mas o que fazer com as sequências que não 
estão boas??
Alinhamento contra o genoma de referência
Se temos um genoma de referência é fácil 
visualizar se o alinhamento ficou bom ou não
E quando não há um genoma de referência? 
Montagem de novo
Gráficos
De Brujin 
44
Como saber se sua montagem de novo ficou boa ou não?
Usando parâmetros como: 
Tamanho dos contigs
Número dos contigs maior que 1000pb
N50 * é o tamanho minímo do contig que contém 50% das bases 
utilizadas na montagem 
Exemplo:
Se vc tem 1000 pares de base para fazer a montagem e seu 
N50 = 300, isso quer dizer que 500 pb estão dentro de contigs 
com tamanho ≥ 300 pb
45
Faça um blast!!
Tubulanus punctatus
 dados da plataforma 454 - Roche
4217 contigs!
1885 identificados 
pelo Blast
Todos
Blast hits
(e<10-4)
46
E em seguida se faz a anotação dos contigs
Anotação estrutural consiste na identificação do 
elementos de genoma
 ORFs e sua localização
 Estrutura do gene
 Regiões codificadoras
 Localizaçào dos motifs reguladores
Anotação funcional consiste em dar informação 
biológica aos elementos do genoma
 Função bioquímica
 Função biológica
 Regulação da expressão e interações
47
Anotação Funcional
As propriedades dos 
produtos gênicos se 
encaixam em 3 
categorias: 
Funções Moleculares
Processos Biológicos
Componentes Celulares
DAG
48
O projeto Gene Ontology é uma iniciativa entre 
pesquisadores com o objetivo de padronizar a 
representação do genes e dos atributos desse 
genes em várias espécies e bases de dados. O 
projeto proporciona um vocabulário controlado 
de termos para descrever os produtos do gene 
e os dados de anotação do consórcio GO, 
assim como também ferramentas para acessar 
e processar esses dados.
50
51
52
Análise de expressão diferencial
Quantificando a expressão
RPKM: Reads Per Kilobase per 
Million mapped reads
• RPKM = C/LN
 C : número de reads mapeados em uma 
região determinada
 L: tamanho da região (em pb)
 N: número total de reads mapeados (em 
milhões)
Exemplo do cálculo de RPKM
Quantificando expressão: FPKM
• FPKM: Fragments Per Kilobase of transcript per
Million fragments mapped
 
Análogo ao RPKM mas não usa o número de reads
As abundâncias relativas dos transcritos são 
descritas em termos de objetos biológicos esperados 
(fragmentos); a expressão relativa dos transcritos é 
proporcional ao número de fragmentos de cDNA que 
geraram os mesmos
55
Gastrozooids rpm (mean)
N
e
ct
o
ph
o
re
s 
rp
m
 
(m
e
a
n
)
100 10k1
1
100
10k
0.01 1M
1M
0.01
Nectophore
Enriched
Gastrozooid
Enriched
p<0.05
p<0.01
p<0.001
Visualização de análises de RNA-seq
59
Análise de enriquecimento
 existem diferenças de expressão entre categorias 
pré-definidas? (Alguma categoria é “enriquecida”?)
Categorias comumente usadas: Gene Ontology 
(GO), Kyoto Encyclopedia of Genes and Genomes 
(KEGG)
Outras categorias PRÉ-definidas (cromossomo, 
tecido expresso, etc).
60
Como funciona?
 1.Genes são divididos em categorias
 2.conta-se quantos genes diferencialmente 
expressos existem por categoria
 3. teste estatístico comparando distribuição de 
genes diferencialmente expressos entre 
categorias
61
Análise de enriquecimento
 existem diferenças de expressão entre categorias 
pré-definidas? (Alguma categoria é “enriquecida”?)
Categorias comumente usadas: Gene Ontology 
(GO), Kyoto Encyclopedia of Genes and Genomes 
(KEGG)
Outras categorias PRÉ-definidas (cromossomo, 
tecido expresso, etc).
62
‘
 Aula Prática 
Enriquecimento das ontologias GO usando GOrilla 
(http://cbl-gorilla.cs.technion.ac.il/)
63
Dados do traballho: 
Comparação da expressão diferencial 
entre células tumorosas do tipo TNBC e 
não TNBC
64
Objetivos
- Procurar quais são os genes enriquecidos 
nas diferentes ontologias: Processos 
biológicos, funções moleculares e 
componentes celulares
- Visualização e compressão dos DAG 
(gráficos acíclicos direcionado)
65
Exercício 1.
fazer análise comparando os genes significativos em 
relação ao total de genes identificados
Exercício 2.
 fazer análise somente com os genes significativos 
ranqueados para cada tipo de câncer