Bioinformática: Compreendendo o mundo biológico através da computação

•

UFTM

0

Nayne Zugolaro Donzelli

15/05/2017

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

*
BIOINFORMÁTICA
*
Bioinformática
Ciência da computação como ferramenta para um maior entendimento do mundo biológico
*
HISTÓRICO
*
O Genoma
Definição: Informação genética total carregada por uma célula ou organismo; especificamente, o DNA, que carrega esta informação. (Alberts et al.1999)
*
Bancos de Dados Biológicos
Todos os dados resultantes das análises de um projeto genoma são armazenados nos chamados bancos de dados biológicos.
*
Definição: constitui um grande conjunto de dados persistentes, geralmente associado a um software projetado para atualizar, consultar e recuperar componentes dos dados armazenados no sistema. (Bioinformatics FactSheet 2004)
Bancos de Dados Biológicos
*
A tendência é armazenar dados biológicos brutos de todos os tipos em bancos de dados públicos, com acesso aberto pela comunidade de pesquisa.
*
A internet mudou a maneira como os cientistas compartilham os dados e possibilitou que um depósito central de informações atendesse totalmente a uma comunidade de pesquisa.
*
Em vez de fazer pesquisas preliminares no laboratório, os cientistas vão primeiro aos bancos de dados;
economia de tempo
economia de recursos
*
Evolução do número (cumulativo) de genomas eucarióticos e procarióticos completamente seqüenciados e depositados em bancos de dados públicos desde 1995 até 2007
*
O que se pode descobrir sobre um gene por meio de uma busca a
um Banco de Dados?
Informação evolutiva: genes homólogos, freqüências dos alelos,
Informação genômica: localização no cromossomo, intros, regiões reguladoras, ...
Informação estrutural: estruturas da proteína correspondente, tipos de folds (grande similaridade estrutural), domínios estruturais,...
Informação de expressão: expressão específica a um dado tecido,fenótipos, doenças, ...
Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ..
*
Classificação dos bancos de dados
Primários
Deposição direta de seqüências sem qualquer processamento ou
análise (não curados). Ex: GenBank, EMBL-Bank, DDBJ, etc.
*
INSDC - International Nucleotide Sequence Database Collaboration
• Genbank (NCBI - National Center for Biotechnology Information )
• EMBL (European Molecular Biology Laboratory)
• DNA DataBank of Japan (DDBJ)
Membros do Consórcio internacional
*
Classificação dos bancos de dados
Secundários
Derivam dos primários porém com alguns tipos de análises (geralmente curados). Ex: Swiss-prot, RefSeq, Uniprot, etc.
*
Qualidade dos dados disponíveis na Web
*
Centro Nacional para a Informação Biotecnológica - NCBI
Dr. David Lipman, National Institutes of Health Director of the National Center for Biotechnology Information
*
INTERFACE
Entrez (Global Query Cross-Database Search System) = sistema integrado de busca que permite acessar diversos bancos de dados simultaneamente.
*
*
*
Busca através de uma seqüência em banco de dados
Definindo 3 termos importantes:
identidade -> refere-se à presença do mesmo ac. nucléico (nt) ou aminoácido (aa) na mesma posição em 2 seqs. alinhadas.
similaridade -> porcentagem de nt idênticos ou de aa com propriedades químicas semelhantes. (medida de qualidade do alinhamento)
homologia -> refere-se a relação evolutiva entre as seqs. Duas sequências homólogas derivam da mesma seq. ancentral.
*
Relação entre Seqüências
● Genes Ortólogos → Tem a mesma função mas ocorrem em espécies diferentes.
● Genes Parálogos → Possuem ancestral comum e existem num mesmo genoma mas com funções diferentes, são oriundos da duplicação gênica.
Hemoglobina
*
Softwares utilizados em uma busca em banco de dados
BLAST (alinhamento local)
BLAST2 (alinhamento global entre 2 seqüências)
Clustaw (alinhamento múltiplo)
FASTA
formato padrão de seqüências aceito nos softwares
*
Busca através de uma seqüência previamente estabelecida
Arquivo em FASTA
CÓDIGO DE ACESSO
DESCRIÇÃO DA SEQUENCIA
*
Alinhamento de sequências é uma operação fundamental na bioinformática
Os alinhamento são utilizados:
Para decidir se duas proteínas (ou genes) são relacionadas estruturalmente ou funcionalmente
Para identificar domínios de proteínas
Na análise de genomas
*
Busca através de uma seqüência
Comparação de duas ou mais sequências por meio de alinhamentos pode gerar:
T A T A C

T A - T G

Match
Mismatch
Gap
*
TIPOS DE ALINHAMENTOS DE SEQUENCIAS
ALINHAMENTO GLOBAL
Compara duas seqüências em toda a sua extensão;
É apropriado para comparar seqüências cujas semelhanças sejam esperadas em toda a sua extensão;
O alinhamento maximiza as regiões de semelhança e minimiza os espaçamentos
*
TIPOS DE ALINHAMENTOS DE SEQUENCIAS
ALINHAMENTO LOCAL
Procura locais de semelhança entre as seqüências sem ter de considerar todo o comprimento destas
É muito útil para fazer pesquisas em base de dados
É muito útil em situações onde não existe qualquer conhecimento sobre a semelhança entre as seqüências a comparar
*
Alinhamentos
Score - pontuação dos alinhamentos (reflete a qualidade do alinhamento)
*
Alinhamentos
E-value – significância estatística (alinhamento biologicamente provável)
Quanto > score > identidades
Quanto < e-value > identidades
* em estudos preliminares considera-se como ponto de corte valores menores do que e-5 ou e-10
*
BLAST
Basic Local Aligment Search Tool
*
A seqüência de referência foi depositada no GenBank e possui comprimento total de 471 resíduos de nucleotídeos
O total de pontos (score) do alinhamneto foi 417. O baixo valor de e ( Expect= 0.0) demonstra a grande possibilidade do alinhamento ter sido gerado por homologia e não pelo acaso.
Dos 472 nucleotídeos da seqüência de entrada (Querry), 454 foram iguais na seqüência comparativa (Subject). E foram encontrados 2 gaps no alinhamento.
Demonstra que o DNA utilizado para o alinhamento pertence a fita sense de ambas as sequencias (“plus/plus”)
Obtendo Informações Contidas nos alinhamentos- Nucleotídeos
*
A seqüência de referência foi depositada no GenBank e possui comprimento total de 148 resíduos de aminoácidos.
O total de pontos (score) do alinhamneto foi 780. O baixo valor de e ( Expect= 3e -81) demonstra a grande possibilidade do alinhamento ter sido gerado por homologia e não pelo acaso.
Dos 147 nucleotídeos da seqüência de entrada (Querry), 147 foram iguais na seqüência comparativa (Subject). Os valores de POSITIVES , demonstra que dos 147 a.a possuem 100% de similaridade entre as duas seqüências. Não foi observado gaps.
Obtendo Informações Contidas nos alinhamentos- Aminoácidos
*
As ciências ômicas tratam da análise global dos sistemas biológicos, integrando diferentes áreas do conhecimento, como a bioquímica, genética, fisiologia e computação, com o objetivo de isolar e caracterizar genes, proteínas e metabólitos, assim como estudar as interações entre eles, com base em técnicas experimentais, softwares e bancos de dados.
BIOINFORMATICA NAS CIÊNCIAS “ÔMICAS”
A bioinformática propõe novas formas de ciência baseada na experimentação in silico, sendo muito dinâmica na sua atualização e fornecendo a base para geração de novos dados e conhecimentos que podem ser aplicados na pesquisa básica e na aplicada com o desenvolvimento de novos produtos e soluções. Este processo está intimamente relacionado à inovação tecnológica, que é conseguida unindo-se a biotecnologia e a bioinformática.
*
LEITURA COMPLEMETAR
ENIAC (Electrical Numerical Integrator and Computer) foi o primeiro computador digital eletrônico de grande escala. Criado em fevereiro de 1946 pelos cientistas norte-americanos John Eckert e John Mauchly, da Electronic Control Company
Erwin Chargaff
(Czernowitz, 11 de agosto de 1905 — Nova Iorque, E.U.A., 20 de junho de 2002) foi um bioquímico austríaco emigrado para os Estados Unidos durante o período nazista. Através cuidadosa experimentação, Chargaff descobriu duas regras que ajudaram a levar à descoberta da estrutura de dupla hélice do ADN. buscaram quantificar cada um dos tipos de base nirogenada do DNA (adenina, timina, citosina e guanina) de várias espécies. Para isso utilizaram métodos de cromatografia.
Pode-se dizer que a 'ARPANet' foi a mãe da Internet. Desenvolvida pela agência Americana ARPA (Advanced Research and Projects Agency - Agência de Pesquisas em Projetos Avançados) em 1969, tinha o objetivo de conectar as bases militares e os departamentos de pesquisa do governo americano. Esta rede teve o seu berço dentro do Pentágono e foi batizada com o nome de ARPANet.
*
Evolução do número (cumulativo) de genomas eucarióticos e procarióticos
completamente seqüenciados e depositados em bancos de dados
públicos desde 1995 até 2007 (gráfico de barras) e a distribuição dos projetos
genoma segundo suas áreas de interesse (gráfico de pizza): biomedicina, evolução,
meio ambiente, biotecnologia e agricultura. Observe que há uma nítida
preferência pelo seqüenciamento de genomas bacterianos (de menor tamanho
em relação aos genomas eucarióticos e, portanto, mais fáceis de serem
analisados) e genomas com importância biomédica (42%) ou biotecnológica
(28%). Fonte: Genomes Online Database (GOLD 2008)
*
*
*