Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prova Bioinfo: 1. Explique as diferenças entre o RefSeq e o GenBank. Em suma, as bases de dados primárias armazenam dados brutos e redundantes, enquanto que, as secundárias, informações não redundantes, derivadas das primárias, em que várias entradas da mesma sequência lá são mescladas, a fim de criar uma única sequência na base de dados secundária com anotações extensas derivadas de todas as informações disponíveis na sequência. Como já dito anteriormente, o GenBank é uma base de dados primária e o RefSeq, secundária. No GenBank é disponibilizada a sequência anotada de nucleotídeos e suas traduções em proteínas. O RefSeq é um banco de dados de sequências de DNA, RNA e suas proteínas, com grandes sequências de diversas espécies, apresentando registros únicos para cada biomolécula para cada organismo, de genomas às transcrições e produtos de tradução. 2. Explique as diferenças entre as matrizes Blosum e PAM. As matrizes PAM (Acetilação de mutação pontual) nos mostram a probabilidade de uma alanina alinhar-se com outra alanina. A hipótese tomada é a seleção natural, logo, o padrão de mudança não é aleatório. As matrizes BLOSUM são para regiões conservadas dentro do alinhamento de proteínas não tão similares. Comparando PAM vs. BLOSUM temos que altos valores da BLOSUM e baixos valores de PAM são matrizes mais adequadas para estudo de proteínas mais conservadas. Já baixos valores de BLOSUM e altos de PAM, para detectar proteínas distantes que se relacionam. Na PAM a mutação diminui, enquanto que na BLOSUM, a identidade. 3. Discuta sobre homologia e similaridade. A homologia remete à ancestralidade compartilhada, identidade, aos mesmos aminoácidos compartilhados e similaridade, às mesmas classes de aminoácidos. 4. Explique as razões de se utilizar a medida de e-value para avaliar os resultados do Blast. O “valor de esperança” compara resultados do alinhamento obtido com outros da base de dados. Os e-value são gerados após vários testes e correspondem ao número distinto de alinhamentos, com pontuação igual ou melhor, que se espera retornar na busca por sequências similares aleatoriamente. Quanto menor o e-value, menor o número de chances de uma determinada sequência ser alinhada aleatoriamente com outras e, portanto, mais significante é o resultado. 8. Explique como mineração de dados pode ser empregada em problemas Biológicos. A mineração de dados explora banco de dados e extrai um padrão. Em aplicações biológicas, um gene pode ser identificado através de certas sequências de nucleotídeos na fita de DNA e, a partir disso, pode-se comparar diferentes organismos em busca de homologia, por exemplo. 9. Discuta complexidade no contexto da Biologia de Sistemas. A complexidade é essencial à biologia, ao funcionamento do nosso organismo e à natureza. (remete à precisao*) - complexidade é definida como a condição de elementos de um sistema e a relação entre esses elementos em um determinado momento. As bases de dados reúnem conteúdo bruto a partir do qual é possível gerar informação e aplicá-la em determinado interesse. As bases de dados primárias armazenam os resultados experimentais, os quais podem conter alguma informação mais concreta, porém sem estarem organizados em uma determinada coleção. Existem três bancos de dados primários que contêm todos os sequenciamentos gerados até agora. São esses: GenBank, EMBL e DDBJ. As bases de dados secundárias contêm os dados curados, ou seja, armazenados em coleções, sem redundância e derivados das bases de dados primárias. Quando buscas são realizadas, o Google Scholar retorna mais resultados que o Pubmed, porém, este retorna um conjunto bem definido de periódicos, enquanto a ferramenta do Google não é tão específica quanto a isso. Os bancos de dados, como visto em aula, são úteis tanto na hora de auxiliar a pesquisa, coletando informações para serem utilizadas ou verificando se o que está sendo pesquisado já foi feito. A quantidade de informações que se pode ter acesso através desses bancos e os diversos recursos que se pode explorar nestes, fazem deles um importante aliado à ciência e une laboratórios do mundo todo. Quanto maior a nota do alinhamento, maior a probabilidade deste ser verdadeiro. Pelo esquema de notas podemos organizar dados para comparação de resultados. O esquema de cores nos mostra a polaridade dos aminoácidos, por exemplo, importante para sabermos mais sobre a função da proteína. A comparação de estruturas de proteínas pode nos fornecer dados sobre a conservação destas. Comparando proteínas ortólogas, com sequências de organismos diferentes, podemos observar como a proteína evolui. No caso das parólogas, proteínas similares do mesmo organismo, pode-se fazer o mesmo. As matrizes mostram a probabilidade de um resíduo de aminoácido ser substituído por outro durante a divergência das sequências na evolução. O algoritmo de programação dinâmica de Needleman & Wunsch (1970) relaciona duas sequências numa matriz para alinhamento global, seguindo um caminho diagonal e, se necessário, pode-se desviar o caminho verticalmente ou horizontalmente, indicando a introdução de gaps. O sistema de notas penaliza se há alinhamento errado, diminuindo o score. Já o algoritmo de Smith & Waterman (1981) é para alinhamento local, ou seja, seleciona regiões de alta similaridade entre as sequências. É um caso especial de Wunsch; quando a nota diminui muito, o algoritmo para. Comparando-se alinhamento local e global, temos que, enquanto o primeiro identifica subsequências no genoma, o segundo faz uso de filogenias para comparar substituição de aminoácidos. As alternativas ao algoritmo de Smith e Waterman são o BLAST e FASTA. O BLAST busca por pares de palavras usadas em vez de resíduos, selecionando os que tenham a nota (score - S) maior que o corte (T). A avaliação dos alinhamentos obtidos com o BLAST é feita por meio do E-value - “valor de esperança”, o qual compara resultados do alinhamento obtido com outros da base de dados. Referente ao programa Python, nesta aula, trabalhamos os conceitos de strings, tuplas, listas e dicionários. As strings são utilizadas quando precisamos de estruturas textuais, são letras, símbolos, espaços ou dígitos colocados entre aspas simples ou duplas. As tuplas são sequências ordenadas de elementos que podem ser de diferentes tipos, mas seus valores não podem ser trocados, são imutáveis. Já as listas são sequências ordenadas de elementos, os quais podem ser alterados. É possível realizar a conversão entre strings, tuplas e listas. Os dicionários constituem um meio de guardar dados e obter informações de uma maneira melhor e mais limpa, indexa o que nos interessa diretamente e podemos utilizar uma única estrutura, sem listas separadas. alinhamentos, sabemos que estes são comparações entre duas ou mais sequências biológicas e que são fundamentais para a análise destas; buscam séries de caracteres individuais que se encontram na mesma ordem nas sequências analisadas, objetivando a melhor correspondência e criando gaps para que, ao final, todas as sequências tenham o mesmo comprimento. Isto torna visualizável a similaridade e identidade, ao mesmo tempo, diminui as diferenças. BLAST (Basic Local Alignment Search Tool) é o mais importante quando se trata de alinhamento local; este algoritmo visa comparar uma sequência alvo (query) com as disponíveis nos banco de dados (target), fornecendo um valor de significância estatística associada a essa comparação de similaridade (VERLI, 2014). A ideia principal por trás da pesquisa do BLAST é que sequências homólogas provavelmente contêm uma região de similaridade curta e de alta pontuação, chamada word ou hit (W) (CHOUDHURI, 2014). O alinhamento local é representado pelos HSPs (high-scoring segment pairs). O alinhamento múltiplo utiliza duas ou mais sequências que são completamente ou parcialmente alinhadas para encontrar a melhor combinação. Presume-se a homologia de resíduos e também a posiçãoestrutural com base no alinhamento, tendo em vista que os resíduos alinhados tendem a ocupar posições correspondentes na estrutura tridimensional de cada proteína alinhada. Características dos dados biológicos: - Heterogeneidade; compostos por partes distintas - Complexidade* de relacoes; a complexidade é essencial à biologia, ao funcionamento do nosso organismo e à natureza. (remete à precisao*) - complexidade é definida como a condição de elementos de um sistema e a relação entre esses elementos em um determinado momento. - Alta variabilidade; abrange muitos elementos - Dependente de contexto; ex. Perfil de expressão gênica - Analises complexas e variadas - Níveis hierarquicos O que fazer com tantos dados biológicos?: - Já passou da fase de acúmulo de dados. Grande quantidade de dados gerados demanda análise. Os desafios são integrar o organismo e identificar os ruídos Características dos sistemas biológicos: - Integração: é um sistema composto de partes interconectadas - Ligacao: exibe uma ou mais propriedades que não seriam observadas a partir das propriedades dos componentes individuais - Emergência: observação de novos fenômenos. Ex: integração de sistemas complexos emergem propriedades - ex: viscosidade - Interferencia: como estas interações influenciam a função e o comportamento do sistema. Mineracao de dados: - Analisar relacoes entre elementos diferentes - Correlação de variáveis - Utiliza dos estudos de regra de associação Estudos de análise de grupos: - Procurar semelhancas entre elementos Métodos nao-hierarquicos: - Definir critérios para aproximar os centróides; demanda refinamento dos dados e definir quantos grupos têm nos dados. Métodos hierarquicos: - Estrutura definida dos dados Descartes: a divisão do problema em pequenas partes - Uma das posturas metodológicas mais significativas do pensamento científico contemporâneo consiste em reduzir o todo a suas partes componentes. é fruto das idéias introduzidas pelo filósofo Rene Descartes em meados do século XVII, indicando que cada problema encontrado deve ser dividido em tantas pequenas partes quanto for necessário para resolvê-lo de maneira mais parcimoniosa. neste processo tem-se uma redução da complexidade característica dos fenômenos naturais, o que pode comprometer nossa capacidade de entendê-los. - Redução de complexidade: analisa-se partes das relações do sistema; aplicação da metodologia de descartes - a BS depende de ferramentas interdisciplinares para obter, integrar e analisar diversos tipos de dados. Inclui bioinformatica e várias “omicas” Biologia de sistemas: surge da premissa da construção de uma abordagem que inclua esta complexidade, de forma sis- têmica; que interligue as diversas interações presentes e que, ao confrontá-las, consiga encontrar relações mais infor- mativas e completas. Biologia de Sistemas (BS). Essa área, pautada nos conceitos de sistema e de complexidade, en- volve um estudo sistemático de interações em um sistema biológico, buscando contribuir no entendimento de como estas interações influenciam a função e o comportamento do sistema. a grande vanta- gem da biologia de sistemas é permitir a visualização dos componentes moleculares de um sistema biológico de forma dinâmica e global. - Teoria dos Grafos: análise matemática de redes. o termo “rede” representa as interações funcionais de um sistema, enquanto que o termo “grafo” enfatiza as análises matemáticas deste sistema/ utilizados como sinônimos. - Historicamente, a teoria de grafos foi desenvolvida em 1736 pelo matemático suíço Leonard Euler na resolução do problema das sete pontes de Königsberg, atualmente co- nhecida como Kaliningrado, na Rússia. A cidade de Königsberg é atravessada pelo Rio Pregel e consiste de duas grandes ilhas que eram conectadas entre si e com as margens opostas por sete pontes (Figura 1A-6). O pro- blema apresentado a Euler consistia em descobrir como caminhar pela cidade atravessando cada ponte apenas uma vez. A técnica desenvolvida pelo matemático suíço foi adaptar o mapa de Königsberg, transfor- mando as margens e ilhas em nós e as pontes em conectores (Figura 1B-6). Euler submeteu a rede que desenvolveu a análises matemáticas, porém não encontrou solução para o problema. Contudo, a metodologia de análise de Euler foi um marco histórico na análise de problemas combinatórios, além de estabelecer o conceito de topologia que é usado em BS. - Em suas análises, a BS relaciona partes individuais de um sistema como representações gráficas de conjuntos de nós ou vértices (V), conectados entre si por conectores ou arestas (E, do inglês edge). Os nós podem representar indivíduos, proteínas ou mesmo lu- gares, enquanto que os conectores representam a conexão que está presente entre cada par de nós. Esta representação gráfica é denominada de rede. - O emprego da teoria de grafos e suas aplicações têm apresentado um crescimento explosivo devido a sua multidisciplinaridade e ao seu conceito de modelo que permite estudar um objeto específico sem negligenciar o meio em que este objeto se encontra. - Conceitos basicos de grafos: - Uma rede (ou grafo) G = (V, E) representa uma combinação de nós (V) e conectores (E) que ligam os nós. - As redes podem apresentar conectores diretos, ou seja, um conector orientado em determinada direção (exemplo a→b, b→c), sendo assim chamadas de redes direcionadas. Nos conectores E = (a, b) e E = (b, c), podemos dizer que a é ante- cessor a b, e b é antecessor a c. Da mesma forma, b é sucessor de a e c é sucessor de b. Ex: via de degradação ubiquitina-proteassoma, uma vez que não é possível reverter a degradação da proteína. - redes não direcionadas, que apresentam conectores orientados em ambas as direções (a↔b, b↔c), não sendo possível assim estabelecer antecessor ou sucessor. Ex: a reação AMP↔ADP↔ATP - Em alguns casos, podem existir dois ou mais conectores que ligam os mesmos nós na rede. Esse tipo de interação é chamado multiconector, onde diferentes informações são representadas por cada conector, caracterizando assim um multidígrafo - Redes ponderadas: Redes que apresentam nós e conectores com atributos são chamadas de redes ponderadas. O conjunto de nós e conectores pode ser apresentado em uma representação mais complexa e informativa, agregando pesos (atributos) associados aos nós e conectores. Por exemplo, pode-se representar uma rede neural onde o atributo indica a distância que um sinal neural deve percorrer em relação ao local de origem. Redes ponderadas são amplamente usadas na bioinformática, representar a quantidade e a fidelidade de informações armazenadas em bancos de dados a respeito de interaçaoes. Ex: cada grupo pode representar duas linhagens diferentes de E. coli. Para avaliar a eficiência de transformação das linhagens, estas foram divididas em quatro amostras (representadas pelos nós) e cada amostra foi incubada com diferentes plasmídeos. Os conectores apresentam os plasmídeos que obtiveram sucesso na transformação e são comuns entre as duas linhagens. - Hipergrafos: são caracterizados pela presença de hipervértices, que conectam mais de dois nós com propriedades distintas. são frequentemente usados em organizações bioquímicas, devido à intersecção de componentes com atividades em diferentes rotas metabólicas. Ex: cada cor estaria representando diferentes vias metabólicas (A, B e C). Os nós da rede indicam componentes presentes em cada uma das vias metabólicas e/ou participando de vias distintas nas regiões intersectadas. - Subredes: Geralmente, as redes biológicas são exten- sas, apresentando um grande número de nós. Contudo, análises estatísticas indicam que, dentro de uma rede maior (Figura 10A-6), podem existir redes menores que participam da composição geral e possuem maior conectivi- dade entre si quando comparados à rede maior - Estrutura das redes: - Conectividade: Também conhecida por grau de uma rede. O nó que originouo caminho é chamado de nó inicial, enquanto que o último nó do caminho é chamado de nó final. Um caminho onde o nó inicial coincide com o nó final, sem repetições de conexões intermediárias, é chamado de circuito. O comprimento de um caminho ou circuito consiste do número de conectores que pertencem ao caminho (ou circuito) ou, no caso de uma rede ponderada, pela soma dos atributos (ou pesos) dos conectores. - Uma importante análise em uma rede consiste em caracterizá-la conforme sua distribuição de caminhos geodésicos. Um caminho geodésico é definido como a via mais curta dentro de uma rede entre dois nós quaisquer - Efeito mundo pequeno: estabelece que as redes apresentam nós conectados entre si formando um caminho mais curto entre todos os nós. - Densidade: Avaliar a densidade de uma rede representa avaliar o nível de conectividade. Ex: ao analisarmos a rede de inte- ração de uma doença contagiosa, a possibilidade desta doença até então controlada tornar-se uma epidemia depende principal- mente de duas variáveis: o tipo de agente infeccioso e a alta densidade de conexões (rotas de transmissão). - Clusterização: Tendência dos nós em se agruparem dentro de uma rede. Isso significa que se um nó A se liga ao nó B,e o nó B se liga ao nó C, então há grandes chances de A se ligar a C também. Assim, a rede é composta de centenas de triângulos, ou seja, grupos de três nós conectados entre si, onde cada lateral de um triângulo pode pertencer a outro triângulo. - Resiliencia: A capacidade de uma rede de tolerar a deleção de nós - Assortatividade: A tendência de conexão que uma rede apresenta pode ser chamada de assortatividade e desassortatividade. Em uma rede é preciso considerar o padrão de correlação do grau dos nós, onde a conectivi- dade de um nó reflete nas suas possibilidades de ligação. A assortatividade significa que os nós de uma rede apresentam uma tendência a interagirem com outros nós semelhantes - mais resilientes e apresentam hubs bem conectados. Desassortatividade se os nós de uma rede interagem preferencialmente com nós diferentes dele mesmo - Propriedades da Rede: fornece informação sobre as interações e/ou componentes de um determinado sistema. Estas propriedades podem ser referentes a nós individuais, isto é, grau de nó ou node degree, ou podem contemplar a rede como um todo como é, por exemplo, o caso da modularização e do diâmetro da rede. possui papel crítico na geração de dados conclusivos e confiáveis, constituindo-se assim em redes capazes de descrever com alto grau de fidelidade um determinado modelo biológico, de identificar alvos proteicos críticos na rede ou no desenvolvimento de caminhos moleculares. - Modularidade: ou clusterização. Conceito de padrões de conectividade, onde seus elementos constituintes estão agrupados em subconjuntos altamente conectados. é um princípio de união entre diferentes tipos de elementos e conexões naturalmente formadas no meio biológico, como na interação entre indivíduos de mesma espécie. - Existem dois tipos distintos de módulos: - i) Módulo Variacional: apresenta carac- terísticas que variam entre seus componentes e são relativamente independentes de outros módulos, porém possuem um número considerável de ligações com outros módulos; - ii) Módulo Funcional: possui elementos que normalmente atuam juntos em alguma função fisiológica distinta e são semiautônomos (quasi-autonomous) de outros módulos. Esses módulos compreendem a maioria dos módulos vistos em redes biológicas. - Hubs: conceito essencial para entender a formação de um cluster em um sistema biológico é a presença de hubs. - i) party hubs, proteínas altamente ligadas dentro do seu próprio módulo, ou seja, ligadas no mesmo tempo e/ou espaço. são quase independentes de outros módulos. - ii) date hubs, que são hubs que se ligam a diferentes proteínas em diferentes módulos (inter-módulo), ou seja, diferentes tempo e/ou espaços, consequentemente apresentando um papel global na rede. Estes termos podem ainda receber denominações específicas no contexto do conceito de centralidades. Se ligam a outros modulos. - Centralidade para nós: o objetivo da análise de centralidades é procurar o elementos mais importantes na topologia geral da rede. - Grau de nó: referente à quantidade de nós adjacentes (diretamente conectados) a outro determinado nó. Esses nós que apresentam uma grande quantidade de conexões são chamados de hubs, os quais são conectados a outros hubs ou nós com menos conexões. Numa visão biológica, podemos exemplificar um hub como uma proteína que se liga a várias outras e acaba possuindo uma função regulatória importante na rede. - Betweenness: o número de caminhos mais curtos que passam por um único nó, estimando a relação entre eles. Ex: Uma proteína com alto valor de betweenness apresentaria uma elevada capacidade de interação e/ou sinalização com outras proteínas, processos biológicos ou clusters. Uma proteína com tais características é chamada de bottleneck ou gargalo. - Closeness: O caminho mais curto entre um nó n e todos os outros nós da rede, uma tendência de aproximação ou isolamento de um nó. Um alto valor de closeness indica que todos os outros nós estão próximos do nó n, enquanto que um baixo valor indicaria que os outros nós encontram-se distantes. Ex: Uma proteína com alto valor de closeness poderia ser considerada relevante para muitas proteínas, porém irrelevante para outras. Em termos biológicos, ela seria importante na regulação de muitas proteínas, porém sua atividade pode não influenciar outras. - Diâmetro: Indica a distância entre dois nós mais afastados entre si de uma rede. Um baixo diâmetro pode indicar que as proteínas de uma determinada rede possuem uma maior facilidade de se comunicar e/ou influenciar umas as outras, apontando para uma relação funcional co-evolutiva. - Edgebetweenness: Frequência de uma aresta que se coloca sobre caminhos mais curtos entre todos os pares de nós. Se uma rede contém módulos que são conectados por poucos conectores intermodulares, então os caminhos mais curtos entre os diferentes módulos devem passar por estes poucos conectores. Assim, os conectores unindo módulos terão altos valores de edgebetweenness. Em uma rede proteica uma aresta com alto valor de eB provavelmente representa o caminho mais curto de comunicação entre dois processos biológicos. - Tipos de Redes: - Aleatória: Sem distribuição preferencial. O grau dos nós segue uma distribuição de Poisson com máxima em <k> e a maioria dos nós apresentando aproximadamente o mesmo número de conexões k ≈ <k>, com grau próximo ao da média da rede. Apresentam a propriedade “mundo pequeno” e distribuição de grau ex- ponencial, sendo estatisticamente homogêneas. - Livre escala: é definida por uma lei de potenciação, o que significa que essa rede terá poucos nós altamente conectados. - Hierárquica: Combina propriedade livre de escala, alto grau de agrupamento e modularidade de uma forma interativa. Hierarquia intrínseca, sendo representada também na sua arquitetura.
Compartilhar