Buscar

Protein Data Bank, Vizualização de Proteínas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

Aula 7.1 
Protein Data Bank 
- Repositório de estruturas de biomoléculas 
- Ferramentas de pesquisa, visualização, tratamento e deposição de informação, está conectado 
a base de dados para genes, famílias de proteínas, classificações estruturais, etc. 
→ Formato PDB: 
Os ficheiros são identificados com um código de 4 carateres. 
Organizado em linhas identificadas com rótulos no início de cada linha. 
› Informação geral (composto, organismo, técnicas 
experimentais, referências...) 
› Coordenadas e estrutura molecular (coordenadas 
atómicas) 
› Informação do resíduo (chain ID e sequência) 
› Estrutura secundária 
› Unidades Biológicas 
Alguns contem informação sobre simetria cristalográfica 
Alguns rótulos: 
› ATOM – átomos pertencentes ao polímero biológico (id, nome, a.a., cadeia, id do a.a....) 
› HETATM – outros átomos que pertencem a resíduos que não são a.a. (Fe, HOH) 
Os átomos de Hidrogénio raramente aparecem pois têm baixa densidade ótica e por isso 
difíceis de detetar por Raio-X. As ligações a H estão implícitas, assim como ligações entre 
nucleótidos e aminoácidos e resíduos consecutivos numa cadeia. 
› CONECT – indica ligações entre outros ligandos (p.ex. Fe – S – enxofre de uma cisteína) 
→ Formato XML: 
(Extensible Markeup Language) 
Descrevem informação organizada hierarquicamente. 
Possuem identificadores do campo 
→ Formato mmCIF: 
Baseado no formato STAR, muito usado em aplicações de gráficos moleculares 
Biological Assembly 
A maioria das estruturas no Protein data Bank foram determinadas por Cristalografia de 
Raio-X. Nestes casos, o conjunto de coordenadas no PDB file são as unidades mínimas 
necessárias para recriar a estrutura cristalina – corresponde à unidade assimétrica, a partir 
da qual podemos obter a célula unidade do cristal a partir de translação e rotação. No 
entanto, estas unidades assimetricas podem não corresponder à assembleia biológica de 
proteínas oligométricas. As ligações em falta são descritas com o rótulo REMARK 350 
 
 
P.ex. human oxyhaemoglobin is a tetramer formed by 
two heterodimers. However, in PDB structure 1HHO, the 
asymmetric unit contains only one dimer. Because of this, 
this PDB file includes the information necessary to 
recreate the biologically correct oligomer. 
As transformações são descritas por: 
Aplicada a cadeia A e B 
Número de transformações 
Matriz de Rotação 
Translação 
A e B serão 1 unidade biológica 
A transformação 2 é aplicada a uma cópia das cadeias A e B para obter o tetrâmero 
Geometria da Proteína 
→ Comprimento das ligações e distância interatómica 
𝑑(𝑎, 𝑏) = √(𝑎𝑧 − 𝑏𝑧)
2 + (𝑎𝑦 − 𝑏𝑦)
2
+ (𝑎𝑥 − 𝑏𝑥)
2 
= √(𝑎 − 𝑏)𝑇(𝑎 − 𝑏) 
→ Ângulo de Ligações 𝑐𝑜𝑠𝜃 = 
(𝑎−𝑐)𝑇(𝑏−𝑐)
|𝑎−𝑐||𝑏−𝑐|
 
→ Ângulos diedros – Mede a rotação em volta das ligações moleculares; razão pela qual as proteínas se 
conseguem enrolar em tantas formas 
 Ângulo entre dois planos, cada plano formado por 3 átomos (a, b, c) - 2 que formam o 
eixo de rotação, e outro ligado a cada um dos átomos do eixo 
 Calcular a normal dos 2 vetores definidos a partir dos planos u e v: 𝑢 = 𝑎 − 𝑐 , 𝑣 = 𝑏 − 𝑐 
 𝑢 × 𝑣 = (𝑢𝑦. 𝑣𝑧 − 𝑢𝑧. 𝑣𝑦 ; 𝑢𝑧. 𝑣𝑥 − 𝑢𝑥 . 𝑣𝑧 ; 𝑢𝑥. 𝑣𝑦 − 𝑢𝑦. 𝑣𝑥) 
 𝑛𝑢𝑣 =
𝑢 ×𝑦
|𝑢 ×𝑦|
 O 𝑐𝑜𝑠𝜃 é igual ao produto interno das normais 
 Existem dois ângulos diedros para cada proteína: 
 Φ (phi) – rotação à volta da ligação entre o N e o Cα de cada resíduo de a.a. 
 Ψ (psi) – rotação entre o Cα e C de cada resíduo 
 ω – pouco relevante para a estrutura porque a ligação peptídica é muito rígida e 
por isso o ângulo varia pouco (180º) 
 Existem outros nas cadeias laterais, dependentes dos resíduos de a.a. 
→ Ramachandran Plot 
Representa cada resíduo com uma marca nas coordenadas dadas por Φ e Ψ. 
Representação visual do enrolamento do backbone, facilita a procura de anomalias. Permite 
comparar a distribuição observada de Φ e Ψ (pontos) com a distribuição teórica (considerando 
os impedimentos estéricos para rotações) ou observadas em famílias de proteínas (linhas) 
Structure Comparison 
→ Estrutura é fundamental para função e evolução da proteína 
- Estável e única (sequência dos péptidos enrola numa configuração estável) 
- Interação e função (é necessário a interação entre proteínas e outras moléculas) 
→ Estrutura é mais conservada que a sequência 
- Diferentes sequências podem evoluir para estruturas semelhantes (analogia) 
- Por comparação de estruturas semelhantes podemos encontrar relações mais distantes entre 
proteínas homólogas (ter cuidado porque estruturas semelhantes podem ser devido a evolução 
convergente ou por elementos estruturais limitados, embora seja mais comum por homologia) 
→ Mudanças na Estrutura 
- Pode haver alterações conformacionais como parte da função 
- Comparar ambas as conformações, ajuda a perceber os mecanismos de reação 
- Dentro de uma família de proteínas ocorrem diferentes variações conformacionais, 
importantes para distinguir elementos constantes e variáveis 
Raiz quadrada da soma dos quadrados das 
distâncias entre coordenadas ou raiz do 
produto interno do vetor entre dois átomos e 
ele próprio 
 
|a - c| – comprimento do vetor 
Ci-1, Ni, Cαi, Ci 
 
Ni, Cαi, Ci-1, Ci, Ni+1 
 
Cαi, Ci, Ni+1, Cαi+1 
 
→ Problemas 
- O que considerar? (todos os átomos? Backbone? Resíduos? Estrutura secundária?) 
- Apenas a forma ou também as propriedades? 
- Comparações locais ou globais? (proteínas estão normalmente organizadas em domínios e 
comparar a estrutura global pode não ter significado) 
- Quantas estruturas estamos a comparar? (Múltiplas estruturas ou a pares?) 
- Mutagéneses locais, mudanças conformacionais, famílias de proteínas... 
→ Diferentes Abordagens para comparar 
- Superposition Algorithms 
Maximiza a sobreposição entre as duas estruturas ao combinar elementos correspondentes 
Minimiza algumas medidas de semelhança geométrica para sobrepor estruturas 
- Geometric Comparison Algorithms 
Compara relações geométricas internas (distâncias e direções) com respeito a átomos, 
resíduos, fragmentos ou outros elementos estruturais. 
Requisitos 
- Pesquisa (otimizar correspondências ou sobreposições) 
- Medição (alguma medida de distância ou semelhança) 
RMSD = √
1
𝑁
. ∑ ||𝑣𝑖 − 𝑤𝑖||
2𝑁
𝑖=1 
Raiz da média das distâncias quadradas entre átomos correspondentes. 
O quadrado das distâncias penaliza sobreposições com maiores desvios, ou seja, minimizar 
o erro quadrático corresponde a uma maior verossemelhança- Há 1 solução o valor mínimo 
Para calcular: Conhecer os pontos equivalentes (vi que corresponde ao wi) obtido por 
alinhamento de sequências para encontrar correspondência de resíduos e sobrepô-las; 
depois computar o RMSD entre os pares de Cα. Ajustamos, de forma a minimizar RMSD, com 
atenção à rotação e translação. Calcular o RMSD final que nos indica um valor que descreve 
a diferença entre as estruturas 
 
Semelhança nas estruturas 
- Diferentes Situações 
 Mesmo molécula em diferentes conformações 
 Sequências semelhantes, com tamanho e estrutura semelhante 
 Moléculas parcialmente semelhantes, com boa semelhança em alguma parte na sequência 
 Sequências distantes com semelhanças estruturais 
 Alinhamento estrutural com matrizes de distâncias 
Começamos com uma tentativa de alinhamento; Sobrepor ambas as estruturas; Computar 
a matriz de distância intermolecular para todos os pares de átomos possíveis; Computar a 
matriz semelhança usando a matriz semelhança e programação dinâmica; Re-computar a 
sobreposição e repetir até convergir. Alinha sequências 
Alinhamento estrutural de relações intramoleculares 
Abordagem mais genérica. Computar distâncias ou vetores intermoleculares; Computar 
vetores que descrevam a vizinhança de cada átomo e comparar os vetores; Combinar os 
vetores descritivos e encontrar a melhor correspondência. Alinha estruturas 
- Para sequências distantes, o alinhamento desequências pode ser inadequado 
 
Aula 7.2 
Visualização de Proteínas 
→ História 
- John Kendrew – modelo da mioglobina (1958) Dificuldade em representar as estruturas complexas 
- Cyrus Levinthal – primeiro modelo de computador (1966) 
- Roger Sayle – RasMol (Raster Molecules) (1993) 
→ Convenções de Visualização 
- Cartoons de visualização de estruturas (representação simplificada) 
- CPK colours (R. Corey; L. Pauling, W. Koltun) 
- Space Filling 
- Ball and Stick 
Todas as representações são fictícias 
As visualizações moleculares representam: 
- Posições médias 
- Mobilidade (de forma a que se compreenda - proteínas movem-se a velocidades muito elevadas) 
- Atributos químicos e físicos (Carga, hidrofobicidade, superfície) 
Apps para visualização: 
- PyMol – app de open-source e grátis para propósitos não comerciais 
- UCSF Chimera – app praticamente de open-source, combinada com scripts de Python 
- APBS – servidor de visualização para propósitos mais específicos. Computa distribuições de 
carga na superfície e protonação de resíduos superficiais e o campo eletrostático que envolta a 
proteína 
→ Chimera 
- Software usado para representar estruturas moleculares, dinâmica e propriedades. 
- Menu de comandos básico 
- Comandos correspondentes da consola podem ser feitos a partir de script no Python 
Menu de Comandos: 
- File > Fetch by ID, PDB, 1DFX – Busca um structure file (unidade assimétrica) à base de dados 
PDB, com ID 1DFX 
- File > Fetch by ID, PDB (biounit), ID – Busca um structure file da unidade biológica 
- Actions > Atoms/Bonds > show; Actions > Ribbon > hide – Mostra/Esconde átomos e ligações 
- Select > Residue > HOH; Actions > Atoms/Bonds > Delete – Retira moléculas HOH 
- Select > Residue > CYS; Actions > Colour > Green – põe a verde os resíduos cisteínas 
- Presets > Interactive 1; Presets > Publication 1 – Templates para apresentação (p.ex. Interactive 
1 altera a cor do fundo e o tipo de animação, etc.) 
- Select > Chain > #0.1; Actions > Surface > show – Seleciona uma cadeia para realizar uma ação 
(p.ex. mostrar a superfície) 
Consola de Comandos 
- open pdbID:1DFX 
- open biounitID:1DFX 
- focus – centra a estrutura e altera o zoom para que a proteína ocupe o espaço todo 
- show – mostra os átomos todos 
- ~ribbon - ~ significa ‘não’; desliga os ribbons 
- del: HOH – desliga os resíduos (de água) 
- colour green: CYS – dá cor verde a todas as cisteinas 
- preset apply Interactive 1; preset apply publication 1 
- surface #0.1 
Hidrogénio 
Carbono 
Oxigénio 
Nitrogenio 
Ferro 
Automação com Python e Chimera 
- Favorável em tarefas repetitivas pois previne erros – erros são reproduzíveis e não random 
(Deve-se testar os scripts antes de utilizar) 
- É bom guardar o código de uma tarefa (podemos percorrer sempre que quisermos) 
- Documenta o processo 
- Pode ser adaptado a diferentes tarefas (p.ex. é fácil mudar de “cisteinas a verde” para azul) 
→ Python revisão 
- Variável – nome do destino que guarda uma sequência de bits 
- O tipo de variável indica como interpretar os bits 
‘texto’, número, [array], (tuplo), {dicionário key: value} 
- Para criar uma variável, guardamos o valor num nome 
- Operações 
- Soma (+), Diferença (–), Multiplicação (*), Divisão (/) 
- Expoente (**) 
- Comparação: Igual (==), Diferente (! =), Superior ou igual (>=), 
Inferior ou igual (<=) 
- Pertence (in), Negação (not) 
- Os valores em Python são objetos, o que significa 
que inclui funções para processamento da 
informação 
Em string temos .index, .upper, .split 
- The For loop 
– Interagir com os elementos da lista 
- usado quando temos de fazer a mesma coisa, várias vezes 
- cada interação do loop, a variável do loop assume um dos valores da lista 
- Interagir com um número de passos 
- A função range devolve os valores N para de 0 a N-1 
- P.ex. percorrer todos os átomos de um dos monómeros e alterar a sua 
posição 
 
Aula 8.1 
Knowledge-based Prediction 
→ Modelação por Homologia 
- Predicação da Estrutura 
- X é uma proteína com estrutura desconhecida 
- Procuramos outras proteínas com estrutura conhecida e sequência semelhante a X (ou 
partes de X) 
- Modelamos a estrutura de X a partir dos templates das outras proteínas. 
- Motivação: 
- A estrutura é importante para compreender a função, prever a interação, efeitos de 
mutações, etc. 
- Predicação computacional pode ser muito mais fácil que determinação experimental de 
estruturas 
- Porque é que a modulação por homologia funciona? 
Porque é que sequência semelhante pode indicar estrutura semelhante? 
- Se as proteínas fossem um conjunto aleatório de sequências, não poderíamos inferir que 
que por terem sequências parecidas, teriam estruturas parecidas. No entanto, nos 
organismos, as sequências das proteínas são uma amostra selecionada por Seleção Natural, 
para aquelas que são ativas e funcionais. 
- Mutações com impacto na estrutura proteína são perigosas para o organismo (as diferenças 
nas proteínas acumuladas de cada família são as que têm pouco efeito) e por isso tendem a 
ser eliminadas. 
- Sequências semelhantes indicam um ancestral comum recente e por isso uma estrutura 
semelhante (isto porque uma proteína tem muitas combinações possíveis para os mesmos 
resíduos – 200 resíduos –> 20200 combinações – obter sequências semelhantes não é 
coincidência) 
- Nível de Semelhança Mínimo 
- Abordagem Empírica (funciona se ~30%) 
- 1986, Chothia, Lesk 
- > ~40% de identidade, o RMSD ~1,2Å 
- 20-40% “Twilight” 
- < ~20% não confiável 
- 1991, Sander, Schneider 
- Homology-derived Structures of Proteins 
- Quantifica a semelhança das sequências e estruturas 
- Propôs uma curva para produzir uma base de database de estruturas secundárias 
derivadas de homologia, tendo em conta o comprimento das sequências (HSSP curve) 
- Compararam a identidade de sequência em estruturas que consideraram 
homólogas (>70% identidade ou RMSD em Cα <2.5 Å) 
- % de Identidade (t) necessária para o comprimento (L)da sequência que estamos a 
alinhar 𝑡(𝐿) = 290.15𝐿−0.562 Para L>80 → t(L) ~25% 
- 1999, Rost 
- Compara os verdadeiros e os falsos 
- Main point 
- Não há fundamento teórico para definir quanta identidade de 
sequência é necessário. 
- Os limites são empíricos (baseado em experimentos e 
estatísticas) 
- Não é um limite definido, mas mais um intervalo contínuo 
 
 True 
 False 
- Como? 
1. Encontrar os templates certos 
- Podemos procurar estruturas de proteínas com sequencias semelhantes no PDB (BLAST) 
- Usar servidor de modulação por homologia – Swiss-Model * 
- ferramentas adicionais, database mais organizada, inclui modelos de Markov, 
previsão de estrutura secundária, aspetos de acessibilidade ao solvente 
(hidrofobicidade) 
- Fornece uma estimativa da qualidade de cada template 
2. Alinhamento os templates à sequência 
- Pode ser necessário adaptar o alinhamento inicial 
p.ex. se no alinhamento houver um grande gap estrutural 
- Ao ajustar ter cuidado com: 
Resolver gaps espaciais na cadeia 
Evitar inserções ou deleções nas hélices α ou folhas β (pode 
haver cortes nas ligações de enxofre) 
Podemos alinhar com diferentes templates (exige sobrepor 
os templates primeiro) – MSA (alinhamento de várias sequências) pode ajudar 
- Deep View permite ver o alinhamento de sequências e o que representa a nível estrutural 
3. Criar a estrutura do backbone 
- Seguir o backbone do template 
Existem restrições que vamos buscar a estruturas conhecidas (distâncias entre Cαs, 
ângulos diedros na cadeia principal e secundária, etc.) 
Otimizamos a estrutura ao minimizar violações às restrições 
Zonas altamente conservadas ou mesmo idênticas à nossa sequência, não precisam de 
ser otimizadas e podem ser logo fixadas 
4. Model Loops 
- Algumas partes podem não ter a estrutura bem definida nos templates - Devido a gaps, 
mau alinhamento, falta de estrutura secundária... 
- Modeladosa partir de loop databases (Protein fragment database) 
Coincidir extremidades de fragmentos (Tentamos encontrar 
fragmentos pequenos que coincidam uns a seguir aos outros, para 
determinar a estrutura numa zona pouco definida pelos templates.) 
- Modelados por métodos Ab initio 
Cria um modelo genérico para a energia (ou potencial) em função das posições dos 
vários átomos, e depois minimiza a energia/potencial (difícil para toda a proteína, 
mas bom para os fragmentos mal definidos) 
5. Modelar as cadeias laterais 
- Em função de estruturas conhecidas (ângulos diedros, enrolamento...) 
- Bibliotecas de rotâmeros (knowledge- based) ou minimização de energia (ab initio) 
- Mais fácil no interior da proteína (há mais restrições e normalmente mais estável) do que 
na superfície (pode haver erros causados pelo contacto ao cristal) 
- Dependem do enrolamento do backbone (podem exigir alteração do mesmo) 
6. Otimização da estrutura 
- Corrigir as cadeias laterais 
- Ajustar o backbone 
- Repetir quantas vezes necessário 
7. Validação da estrutura 
- Avaliar a identidade da sequência com os templates 
- Avaliar a energia 
- Estatísticas (ângulos de ligação, comprimento de ligação, densidade atómica, 
distribuição apolar e polar...) 
Modelo de Markov – modelo 
probabilístico que permite 
caraterizar uma sequência e agrupar 
em família sem fazer alinhamento 
- Usa QMEAN Swiss-Model 
- Potenciais estatísticos (distâncias, ângulos diedros, superfície 
exposta a resíduo...) 
- concordância entre est. sec. prevista (PSIPRED) e a do modelo 
(DSSP) 
- semelhança entre a estrutura modelo e a prevista 
→ Fold Recognition 
- Não existem templates com muita semelhança à proteína 
- Reconhecimento do enrolamento por Protein Threading 
- Aproveitar correlações mais genéricas entre a sequência e a estrutura (consideramos que 
existe um número limitado de enrolamentos viáveis) 
- Analisar a vizinhança (na sequência e espacial) de cada resíduo em estruturas conhecidas e 
verificar se na sequência em análise as estruturas são compatíveis 
- Podemos agrupar estruturas conhecidas em famílias – MSA ou Modelos ocultos de Markov 
que vão além do limite das comparações de única sequência 
Ex. 1 Energia de Threading (usado no Deep View) -1997, Melo e Feytmans 
 Avalia o modelo a criar ao procurar zonas que pareçam erradas 
 Potencial de força a nível atómico 
Definiram 40 tipos de potenciais para átomos (non-H), considerando as suas 
ligações, posições e a.a. 
 Computaram para cada átomo em cada resíduo a frequência da distribuição de 
todos os átomos numa região até 10Å em estruturas conhecidas 
 Com uma estimativa da distribuição da energia, através das equações de Boltzman 
podemos encontrar uma relação entre uma estatística termodinâmica e uma medida 
de energia. 𝑃(𝑟) =
1
𝑍
𝑒−𝐹(𝑟)/𝑘𝑇 
Potencial de força a nível de aminoácidos (semelhante, mas usa apenas Cα 
Estes MFP estimam a energia da sequência enrolada? 
Energias altas podem representar zonas que não estão em conformações improváveis 
Ex. 2 The PHYRE2 server - 2015, Kelley et al 
Reúne um conjunto de homólogos da sequência (usa perfis ocultos de Markov) – 
homólogos mais distantes do que obtido por alinhamento 
Prevê a estrutura secundária (PSIPRED) 
Cria um perfil para a nossa sequência para procurar uma biblioteca de perfis de 
sequências de estruturas conhecidas que nos vão dar padrões de enrolamento 
Modela os fragmentos que faltam a partir de uma biblioteca de fragmentos 
Adiciona as cadeias laterais 
Se usar um modo intensivo: inclui uma previsão por ab initio 
 
Aula 8.2 
Python na Bioinformática 
→ Strings 
Criam-se objetos que guardam valores. 
Uma lista é um array ordenado de elementos 
- .split(...) – seprara a string onde encontrar … e guarda numa lista 
O fragmento ... é apagado (não aparece na lista) 
- .replace(… , xxx) – substitui … por xxx 
- len(nome_lista[n_frag]) -obter o comprimento dos 
fragmentos da lista 
→ Lista 
- Conjunto ordenado de elementos [... , xxx] 
- Delimitadas por uma ou três ‘ ou “ 
- Podem ser indexadas para aceder a um único elemento por posição ou fatia 
- nome_lista[index], o index começa em 0, index negativo conta do fim para o início 
- nome_lista[first : last : step] para obter intervalo de valores na lista 
 
 
 
 
- Unpacking – atribuir o mesmo número de 
variáveis e de valores 
 
 
 
 
 
→ Files 
- Para aceder a um ficheiro no python é preciso um file object, normalmento obtido por 
função open 
Lines = open(‘file_name.txt’).readlines() – as linhas são devolvidas numa lista de strings 
 
→ Dicionário 
- {key1: value1, key2: value2} 
- Cada chave é única e deve ser imutável 
- Para obter as chaves: nome_dic.keys 
- .strip() remove os espaços em branco ou os /n 
- Problemas com o script 
- Ter tudo junto num só bloco, torna-o pouco reutilizável (difícil de adaptar); É mais 
difícil de encontrar erros – não pode ser testado em partes 
→ Funções 
- Cria variáveis locais que não interferem com o resto do programa 
- Cria pequenas receitas para resolver partes do problema 
- Permite decompor problemas complexos 
→ WebLogo 
- Método gráfico para representar os padrões de uma sequência 
- Grande perda de entropia – mais certeza de haver um nucleótido

Outros materiais