aula1_ibm1029

•

USP-RP

Alef Janguas Da Costa

22.10.2014

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Introdução à Bioinformática

161 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1
IBM1029
Introdução à Bioinformática
Aula 1
Profª Drª Silvana Giuliatti
Departamento de Genética – Bloco G
Ramal: 4503
silvana@rge.fmrp.usp.br
Faculdade de Medicina
Departamento de Genética
Conteúdo
¾ Obtenção de Sequências, Bancos de dados 
genômicos e formato de arquivos
¾ Phred/Phrap
¾ Alinhamento de Pares de Sequências
¾ Alinhamento Múltiplo de Sequências
¾ Árvores Filogenéticas
¾ Predição de Estrutura Secundária de RNA
¾ Predição de Genes e transcriptoma
¾ Classificação de Proteínas
¾ Predição de Estruturas
¾ Medida de Expressão Gênica
¾ Análise de Genomas
¾ Conceito de Pipeline
Bibliografia
	Mount, D. W., Bioinformatics - Sequence
and Genome Analysis, ed. CSHL, 2ª edição.
	 Gibas, C e Jambeck, P., Desenvolvendo a 
Bioinformática. Ed. Campus. 
2
Método de Avaliação
� 1ª Avaliação: 27/04
� 2ª Avaliação: 05/06
� 3ª Avaliação: 22/06
�Substitutiva (Recuperação): 29/06
Avaliações: peso 3
Relatórios/Listas: peso 1
Introdução
Anotação de 
Genes Mapa de Genes
Análise por 
Microarrays
Vias 
Metabólicas
Comparação de 
Proteomas
Genômica
Comparativa
Identificação 
de Cluster
Genômica
Funcional
Seqüência 
Genoma
Repeats
Predição 
de Genes
Localização de 
Genes
Análise de Promotores Famílias de Parálogos
Identificação de 
Ortólogos
Análise de 
Domínios
Modelagem 
Evolucionária
Banco de Dados de Genoma
3
Envolve diferentes linhas de conhecimento:
ESTATÍSTICA
INFORMÁTICABIOLOGIA
Aspectos da Bioinformática:
 representação, armazenamento e distribuição de dados
 desenvolvimento de ferramentas para revelar o 
conhecimento contido nos dados.
Anos 60
¾Margaret Dayhoff - Construção das 
matrizes PAM.
¾ Programas para alinhamentos de Sequências
Matrizes de Pontos (Gibbs e McUntyre, 1970)
 Programação Dinâmica
 Alinhamento Global (Needleman e Wunsch, 1970)
 Bancos de dados de Sequências de DNA
 Protótipo do GenBank, 1979
Anos 70
 Programação Dinâmica
 Alinhamento Local (Waterman e 
Smith, 1981)
 Buscas por similaridades em bancos de 
dados
 FASTA (Pearson e Lipman, 1988) 
Anos 80
 Bancos de Dados: EMBL fundado em 1980; DDB 
fundado em 1984.
 BLAST (Altschul et al., 1990)
Alinhamento Múltiplo (CLUSTALW, Thompson et al., 1994) 
¾ Ferramentas para Assembly
 Phred/Phrap/Consed (1998)
Anos 90
¾ Projeto do Genoma Humano finalizado em 2001.
Formatos de Arquivos
4
Formatos de Arquivos
¾ Nucleotídeos
 Símbolos para as 4 bases: A, T, C, G
 Código padrão para bases em ácidos nucléicos que 
são ambíguos ou incertos (estabelecido por um 
comitê internacional).
¾ Aminoácidos
 Código padrão, de uma única letra, para os 
aminoácidos foi estabelecido por um comitê 
internacional.
 
 
 
 
 Símbolo Significado Explicação 
 
 
 
 
 
 
 
 
 
 
 
G 
T 
C 
T 
G 
ou 
ou 
ou 
ou 
ou 
G 
A 
T 
C 
R 
Y 
M 
K 
S 
w 
H 
B 
v 
D 
N 
G 
A 
T 
C 
A 
C 
A 
G 
C 
A ou T 
A, C ou T, não G 
 
C,G ou T, não A 
 
A, C ou G, não T 
(não U) 
A, G ou T, não C
 
A,C, G ou T 
Guanina 
Adenina 
Timina 
Citosina 
puRina 
pYrimidina 
aMino 
Keto 
Forte interação (Strong) 
 
Fraca interação (Weak) 
 
H segue G no alfabeto 
 
B segue A no alfabeto 
 
V segue U no alfabeto 
 
D segue C no alfabeto 
 
Nenhuma base 
 
 
1-letra 3-letras Aminoácido 
 
 Aa Ala alamina 
 C Cys cisteina 
 D Asp acido aspartico 
 E Glu acido glutâmico 
 F Phe Fenilalanina 
 G Gly glicina 
 H His . histidine 
 I Ile isoleucina 
 K Lys lisina 
 L Leu leucina 
 M Met metionina 
N Asn asparagina 
 P Pro prolina 
 Q Gln glutamina 
 R Arg arginina 
 S Ser serina 
T Thr treonina 
V Val valina 
W Trp triptofano 
X Xxx aminoácido indeterminado 
 Y Tyr tirosina 
Zb Glx ácido glutâmico ou glutamina 
 
5
Alguns Formatos...
Diferentes programas usam diferentes formatos. 
– GenBank
O programa assume que a seqüência estará 
entre os identificadores “ORIGIN” e “ // ”.
LOCUS nome do locus, comprimento e tipo da seqüência, 
classificação do organismo, data de entrada 
DEFINITION descrição de entrada 
ACCESSION numeros da fonte original 
KEYWORDS palavras chave para referencias 
SOURCE organismo fonte de DNA 
ORGANISM descrição do organismo 
REFERENCE 
COMMENT função biologica ou informação da base de dados 
FEATURES informação sobre a seqüência pela posição de base ou faixa de posições Source organismo fonte misc_signal tipo de função ou sinal 
mRNA mRNA CDS, região codificadora da proteína intron, posição de intron mutation, alterações na seqüência por mutação 
BASE COUNT contagem de A, C, G, T e outros simbolos 
ORIGIN texto indicando inicio da sequencia 1 gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc 51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg 
. 
. 
 
 // simbolo indicando final da sequencia 
 
 Formato GenBank 
6
– EMBL (European Molecular Biology
Laboratory Data Library)
– O programa assume que a seqüência estará 
entre os identificadores “SQ”e “// “.
ID código de identificação para a seqüência no banco de dados 
AC numero de origem da seqüência 
DT datas de entrada e modificação 
KW palavras chaves para referencias 
OS, OC organismo fonte 
RN, RP, RX, RA, RT, RL referencias de literatura ou fonte 
DR i.d. em outras bases de dados 
CC descrição da função biológica 
FU, FT informação sobre a seqüência pela posição de base ou faixa de 
posições 
 source organismo fonte 
 misc_signal tipo de função ou sinal 
mRNA mRNA 
CDS, região codificadora da proteína 
intron, posição de intron mutation, alterações na seqüência por mutação 
SQ contagem de A, C, G, T e outros símbolos 
gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc cttttgctgt 60 
atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg ttaacggcca 120 
. 
. 
// símbolo para indicar final de seqüência 
Formato EMBL 
7
– FASTA
– Três partes:
a) linha de comentário identificada por “ > “ seguida 
por nome e origem da seqüência.
b) seqüência em padrão de símbolos de uma letra.
Um símbolo “ * “ indicando o final da seqüência 
(opcional).
Nº Geninfo, dado pelo NCBI
Indica o banco de dados que forneceu a sequência (SWISS-PROT)
Identificador do banco de dados (SWISS-PROT) Nome da proteína
GCG (Genetics Computer Group)
 Linhas de informação são finalizadas com “..”, 
marcando o final da informação e inicio da 
seqüência.
 Não há símbolo para indicar o fim da seqüência.
 
BASE COUNT 215 A 224 C 263 G 250 T 
ORIGIN 
Filename, Length af sequence, Date, Checksum value, .. 
1 GAATTCGATA AATCTCTGGT TTATTGTGCA GTTTATGGTT CCAAAATCGC 
51 CTTTTGCTGT ATATACTCAC AGCATAACTG TATATACACC CAGGGGGCGG 
Formato GCG 
8
Conversão de Formatos
– READSEQ:http://www.ebi.ac.uk/cgi-bin/readseq.cgi
– SEQIO: http://bioweb.pasteur.fr/docs/seqio/seqio.html
Mais alguns Bancos de Dados
SwissProt: proteínas
(www.expasy.ch/cgi-bin/sprot-search-de)
PIR: proteínas
(www.nbrf.georgetown.edu/pirwww/)
TIGR: genoma
(www.tigr.org)
Ferramentas para Assembly
9
Sequenciamento
AGGCAGATGATCAGTA
GTAGTGGCGTATCAGTA
GTACAGATGATCAGTA
AGGCAGATGATCAGTAGTGGCGTATCAGTACAGATGATCAGTA
• Métodos de sequenciamento 
geram leituras de cerca de 800 
bp.• Genomas ou moléculas de 
DNA maiores precisam ser 
fragmentada (biblioteca de 
clones)
• Fragmentos são aleatoriamente 
sequenciados por “shotgun” 
(“tiro no escuro”).
• Montagem dos fragmentos -
geração dos contigs.
• Vários contigs irão compor 
uma seqüência consenso.
Sequenciador Megabase
(cromatograma)
G é verde
C é preto
A é azul
T é vermelho
Phred/Phrap/Consed
• Usado no Projeto do 
Genoma Humano
• Desenvolvidos por 
pesquisadores sob a 
liderança de Phil
Green - Universidade 
de Washington (1998).
10
Phred/Phrap/Consed
Phred/Phrap/Consed é um pacote distribuído para: 
1. ler os traços de um cromatograma;
2. avaliar a qualidade de cada base individualmente;
3. identificar e “mascarar” seqüências de repetições (‘repeats”) e 
vetores;
4. Montagem da seqüência;
5. Visualização e edição das montagens.
Phred/Phrap/Consed
Sequenciador
Biblioteca de clones
PHRED: verifica a qualidade do 
sequenciamento de cada base em várias seqüências
PHRAP: faz a montagem dos 
fragmentos (gera o contig)
CONSED: visualização e edição 
das montagens
Phred/Phrap/Consed
Obtenção dos programas:
www.phrap.prog
• Phred e Phrap são enviados por email.
• Consed:
• É baixado da web, depois de receber uma senha de 
acesso. Para isso deve enviar o acordo de licença e 
receberá depois as instruções de como obter o Consed.
• Com o acesso liberado, obter o executável na página
http://bozeman.genome.washington.edu/consed/consed.html
11
Instalação 
• Use arquivo INSTALL para as instalações.
• Arquivo de parâmetro Phred - set enviroment para 
phredpar.dat
• Criar diretórios necessários.
• Descompactar / make
Descompactando arquivos
tar -zxvf phred-dist-acd.tar.Z (descompactando phred)
make
tar -zxvf distrib.tar.Z (descompactando phrap)
make
tar -zxvf consed_linux.tar.Z (descompactando consed)
Criando Diretórios
mkdir /result/chromat_dir
mkdir /result/phd_dir
mkdir /result/edit_dir
mkdir /usr/local/genome
mkdir /usr/local/genome/bin
mkdir /usr/local/genome/lib
Link para Perl
ln -s /usr/bin/perl /usr/local/bin
cd /usr/local/bin
ls -l
total 0
lrwxrwxrwx 1 root root 13 Feb 2 17:30 perl -> /usr/bin/perl
Copiando arquivos para diretorio genome
cp /data/bioinf/phrap/cluster /usr/local/genome/bin
cp /data/bioinf/phrap/cross_match /usr/local/genome/bin
cp /data/bioinf/phrap/loco /usr/local/genome/bin
cp /data/bioinf/phrap/phrap /usr/local/genome/bin
cp /data/bioinf/phrap/phrapview /usr/local/genome/bin
cp /data/bioinf/phrap/swat /usr/local/genome/bin
cp /data/bioinf/phred/phred /usr/local/genome/bin
cp /data/bioinf/phred/phredpar.dat /usr/local/genome/bin
make – mktrace e phd2fasta
cd /data/bioinf/consed/misc/mktrace
make
cp /data/bioinf/consed/misc/mktrace/mktrace /usr/local/genome/bin
cd /data/bioinf/consed/misc/phd2fasta
make
cp /data/bioinf/consed/misc/phd2fasta/phd2fasta /usr/local/genome/bin
12
Arquivos gerados no diretorio Consed
cd /data/bioinf/consed/scripts/
ls
ace2Fasta.perl determineReadTypes.perl removeReads
ace2Oligos.perl fasta2Phd.perl revertToUneditedRead
addReads2Consed.perl lib2Phd.perl tagRepeats.perl
catPhdFiles.perl phd2Ace.perl
transferConsensusTags.perl
countEditedBases.perl phredPhrap
chmod a+x /data/bioinf/consed/scripts/*
cp /data/bioinf/consed/scripts/* /usr/local/genome/bin
Criando diretorio
mkdir /usr/local/genome/lib/screenLibs
cp /data/bioinf/phrap/vector.seq /usr/local/genome/lib/screenLibs
Criando arquivo vazio
touch /usr/local/genome/lib/screenLibs/repeats.fasta 
Copiando arquivos
cp /data/bioinf/phred/phredpar.dat /usr/local/genome/bin
cp /data/bioinf/consed/consed_linux /usr/local/genome/bin
Colocando o caminho no profile (ou no bashrc) 
cd /etc
vi profile (Editando profile)
PATH=$PATH:/usr/local/genome/bin
export PHRED_PARAMETER_FILE=/usr/local/genome/bin/phredpar.dat