Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 IBM1029 Introdução à Bioinformática Aula 16 Profª Drª Silvana Giuliatti Departamento de Genética – Bloco G Ramal: 4503 silvana@rge.fmrp.usp.br Faculdade de Medicina Departamento de Genética Análise Microarray • Objetivo: apresentar ferramentas de estatística necessárias para análise de dados de microarray. Análise de Microarray cDNA “A” Marcado com Cy5 cDNA “B” Marcado com Cy3 Hibridização Leitura com o scanner Laser 1 Laser 2 + Análise Captura da imagem Questão Biológica Genes diferencialmente expressos Verificação biológica Experimento de Microarray Desenho experimental Análise da imagem Normalização Análise dos Dados 16-bit TIFF files Etapas Básicas da Imagem ao Arquivo 1) Arquivo de Imagem 2) Construir ou aplicar grade (grid) 3) Parte computacional • Identificar a região do spot • Calcular a intensidade • Calcular e corrigir Background 4) Controle de Qualidade 5) Arquivo de saída Análise de Microarray • Qualidade dos Dados e Subtração de Background – Os dados devem ser analisados e aqueles com baixa qualidade ou aqueles que não oferecerem informação devem ser removidos. Análise de Microarray 2 – O sinal para cada posição do array é examinado “quebrando” a área do sinal em pixels e examinando a variação entre eles para determinar a uniformidade dentro do spot. – A subtração do sinal de background é geralmente realizada através da simples subtração entre o sinal de background observado, baseando-se nas medidas feitas da vizinhanca e do sinal do spot. Analise de Microarray O Processo Aplicar a grade Determinar a região do Spot Calcular a intensidade do Spot Determinar e corrigir a intensidade do Background Análise de Microarray – Problema surge quando o sinal de background é maior que o do spot, gerando valores negativos. – Há 2 procedimentos mais usados: • O mais comum: remover aqueles genes que ficarem com intensidades negativas após a correção de background. • O menos comum: não usar o sinal de intensidade desses genes, mas substituir a intensidade observada nesses casos com a intensidade mais baixa do array. • A mais sofisticada: uso de estatística Bayesiana para estimar a medida do spot (consideração: o valor do spot deve ser sempre maior que o valor de background). Análise de Microarray • Normalização dos Dados – Os dados brutos de intensidade de sinal de cada spot no array não são diretamente comparados. – A normalização ou padronização dos dados é importante quando os pontos do microarray variam, sugerindo uma variação desigual entre os 2 marcadores num slide ou entre dois slides. – A normalização deve ser usada quando necessário para remover a influência de certos fatores, tais como variação na marcação (labels). Análise de Microarray Normalização • Assume- se: as intensidades são similares. • Problema: Nem sempre acontece. • Solução 1: Certificar-se de pontos num sistema em duas coordenadas (duas intensidades) deva ser mais ou menos centrado na diagonal . • Solução 2: Usar a normalização total das intensidades. Análise de Microarray Métodos de Normalização 1. Centralização Média/Mediana – a média/mediana da intensidade de cada chip é colocada a um mesmo nível. 2. Normalização Total da Intensidade: fator de escala determinado pela soma das intensidades . ∑ ∑ = == Narray k k Narray k k t G R N 1 1 kk ktk RR GNG = = ' ' Análise de Microarray 3 1. Centralização • Os dados são quantificados com certeza de que as médias e desvio- padrão de todas as distribuições sejam iguais. Para cada medida no array, subtrai-se a medida da média do array e divide-se pelo desvio- pardrão. Após a centralização, a média de cada array será zero e desvio-padrão será 1. Análise de Microarray 2. As Razões normalizadas são geralmente expressas em log. • Para facilitar o cálculo matemático, assim como as comparações de níveis de expressão, as razões são geralmente expressas em log. • Uma razão de log igual a 0 é um indicativo de um gene é expresso de mesma forma nas duas condições ou tratamentos. Ratio = Tg = Rg Gg Log Ratio = log2(Tg) = Rg Gg log2 Análise de Microarray – Normalização baseada em Métodos Estatísticos • Apresentação daqueles que, em sua maioria, são baseados em modelos lineares, os quais envolvem equações algébricas. • Cada valor de intensidade observada é assumido como uma soma linear de contribuições de variáveis, tais como variação de slide para slide, variação de marcador, entre outras. • As técnicas de normalização mais aplicadas são: Lowess, Loess e Normalização por Quantil. Análise de Microarray Métodos de Normalização Normalização por Regressão • Normalização por regressão: – Use regressão linear: y = ax + b – Teste a significância na interceção b. Transforme os dados. • Problema: pode não apresentar comportamento linear. Análise de Microarray • Lowess (Locally Weighted Least Square Regression) – Método no qual os dados, dentro de uma janela pequena de valores de expressão, são aproximados à uma linha reta por regressão linear. Análise de Microarray • Loess – As vezes os dados não se aproximam de uma reta, tornando o método de Lowess não apropriado. – A normalização Loess aproxima os dados de uma função polinomial complexa, como quadrática ou cúbica. Análise de Microarray 4 • Normalização por Quantil – A não linearidade observada entre canais ou arrays geralmente aparece quando um canal ou array apresenta uma distribuição estatística diferente dos outros. – Nesse método de normalização, os valores de intensidade são organizados do menor para o maior valor, preservando os nomes dos genes. – O valor mais baixo é usado para substituir o menor valor do outro canal ou array. O procedimento é repetido, de forma que todos tenham a mesma distribuição de intensidade, ou seja, a mesma média, mediana. Análise de Microarray • Detecção de Expressão de Genes – ANOVA (Teste F): estima a média e desvio-padrão de diferentes grupos de dados. • Mostra que há uma diferença, mas não revela qual tratamento ou fator é responsável pela diferençaa. – Teste t: comparações em pares de médias e desvios-padrão resultantes de diferentes tratamentos. Análise de Microarray “Clusterização” dos Dados • “Clusterização” dos dados consiste em agrupar seus dados em “clusteres” (grupos) por uma determinada semelhança. • Examplo: Bolas de diferentes cores • Uma solução intuitiva é agrupar as bolas pelas cores. • Deseja-se: usar valores numéricos para ser capaz de agrupar genes por sua expressão. Análise de Microarray • Predição de Genes que são Funcionalmente Relacionados por Análise de Expressão Gênica – “Funcionalmente relacionados” refere-se aqueles genes que são co-regulados em resposta a um dado estímulo. – Para identificar tais genes, um método é necessário para comparar as variações nas intensidades e agrupar aqueles que respondem de mesma maneira. Análise de Microarray Algoritmos de Clusterização • Um algoritmo de clusterização tenta encontrar grupos naturais de componentes (dados) baseado numa noção de similaridade sobre características que os descrevem. • Determina o centróide de um grupos de dados. • Para determinar o elemento do cluster, muitos algoritmos avaliam a distância entre um ponto e o centróide do cluster. • A saída de um algoritmo de clusterização é baseado numa descrição estatística dos centróides dos clusteres com um número de componentes em cada cluster. Análise de Microarray Centróide e Distância Centróide de um Cluster: é o ponto onde os valores dos parâmetros são a média de todos os pontos no cluster. Distância: Geralmente, a distância entre dois pontosé calculada como um valor para avaliar a similaridade entre os componentes de uma população. Análise de Microarray 5 • Alguns dos principais métodos são aqueles baseados em distâncias. – Métodos baseados em Distâncias: baseados nas diferenças de intensidades. • Os 3 cálculos de distância mais comuns: a) Coeficiente de Correlação: Coeficiente de Pearson, assume distribuição normal dos dados. b) Coeficiente de Correlação de Valor Absoluto: procedimento mais informativo. c) Distância Euclidiana: distância entre dois pontos num gráfico. Análise de Microarray Análise de Microarray • Alguns dos metodos baseados em distâncias mais conhecidos : – Clusterização Hierárquica: agrupa os de menor distância. – Clusterização k-médias: similar ao método hierárquico, mas requer do usuário a especificação de k, número de clusteres. – Mapas Auto-organizados (“Self Organising Maps” – SOM ) : similar ao método de k. Análise de Microarray Clusterização Hierárquica • Dado um conjunto de N elementos para serem agrupados e uma matriz de distância (similaridade) NxN, o processo básico da clusterização hierárquica é: 1. No início cada elemento representa um cluster, então se há N elementos, há N clusteres. 2. Determinar o par mais próximo (mais similar) e uní- los em um único cluster. 3. Computar as distâncias entre o novo cluster e o restante. 4. Repetir os passos 2 e 3 até todos os elementos terem sido agrupados em um cluster de tamanho N. Análise de Microarray 1 2 3 1 1.00 0.23 0.02 2 1.00 0.34 3 1.00 1 (2&3) 1 1.00 0.28 (2&3) 1.00 • Buscar o par similar na matriz • Unir os genes 2 3 • Atualizar a matriz 1 Análise de Microarray Clusterização Hierárquica Clusterização Hierárquica g8g1 g2 g3 g4 g5 g6 g7 g7g1 g8 g2 g3 g4 g5 g6 g7g1 g8 g4 g2 g3 g5 g6 g1 mais próximo de g8 g4 mais próximo de {g1, g8} 6 g7g1 g8 g4 g2 g3 g5 g6 g6g1 g8 g4 g2 g3 g5 g7 g6g1 g8 g4 g5 g7 g2 g3 g5 mais próximo de g7 {g5,g7} mais próximo de {g1, g4, g8} g6g1 g8 g4 g5 g7 g2 g3 Árvore Hierárquica (HCL-4) Análise de Microarray ))(,( i i i xCxd rr∑• Idéia Básica: usar centróides dos clusters (médias) para representar o cluster. • Avaliar os elementos mais próximos do centróide. Clusterização k-médias 1) Selecionar o número de clusters k. 2) Avaliar cada elemento ao centróide mais próximo. 3) Computar o novo centróide dos clusteres: 4) Repetir passos 2 e 3. SXXnXSC n n i i ∈=∑ = rrrv ,...,,/)( 1 1 1. Especifique o número de clusteres, por exemplo K = 5. 2. Randomicamente distribuir os genes nos clusteres. G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 Clusterização k-médias K-Means Clustering – 2 3. Calcular média/mediana do perfil de expressão de cada cluster. 4. Mudar os genes entre os clusteres, de forma que o gene fique num cluster com media e mediana mais próxima de seu perfil de expressão. G1 G2G3 G4 G5G6 G7 G8 G9G10 G11 G12 G13 5. Repetir os passos 3 e 4 até o final de genes ou diante de um critério de parada. 7 • SOM é similar ao método de k-médias no qual o usuário especifica um número pré-definido de clusteres – “seed”. • Entretanto, os clusteres são relacionados a outros clusteres através de uma topologia espacial. Geralmente, os clusteres são arranjados numa grade quadrada ou hexagonal. • Inicialmente, os elementos são alocados aos seus clusteres aleatoriamente. O algoritmo iterativamente recalcula os centróides dos clusteres baseado nos elementos de cada cluster assim como aqueles elementos da vizinhança, e então realoca os elementos aos clusteres. • Desde que os clusteres estão espacialmente relacionados, os clusteres vizinhos podem geralmente ser “fundidos” no final de uma iteração baseado num valor de “threshold”. SOM 1. Especifique o número de nós (clusteres) desejado e especifique uma geometria 2-D para os nós, por exemplo, retangular ou hexagonal N = Nós G = GenesG1 G6 G3 G5 G4 G2 G11 G7 G8 G10 G9 G12 G13 G14 G15 G19G17 G22 G18 G20 G16 G21 G23 G25 G24 G26 G27 G29G28 N1 N2 N3 N4 N5 N6 Mapas Auto-Organizados 2. Escolha um gene radomicamente, por exemplo, G9 3. Mova os nós na direção de G9. O nó mais próximo de G9 (N2) é o que mais se move e os outros são movidos numa variação menor. Quanto mais longe o nó estiver de N2, menos ele é movido. G1 G6 G3 G5 G4 G2 G11 G7 G8 G10 G9 G12 G13 G14G15 G19G17 G22 G18 G20 G16 G21G23 G25G24 G26 G27 G29G28 N1 N2 N3 N4 N5 N6 Opções de Vizinhança G11 G7 G8 G10 G9 N1 N2 N3 N4 N5 N6 G11 G7 G8 G10 G9 N1 N2 N3 N4 N5 N6 Vizinhança “Bolha” Vizinhança Gaussiana raio Todos se movem.Alguns se movem. 4. Passos 2 e 3 são repetidos muitas vezes. Entretanto, a cada iteração, a quantidade de nós que pode ser movida decresce. 5. Finalmente, cada nó irá ficar entre um cluster de genes e um gene será considerado dentro do cluster se sua distância ao nó do cluster for menor que a distância a outro nó. G1 G6 G3 G5 G4 G2 G11 G7 G8 G10 G9 G12 G13 G14G15 G19G17 G22 G18 G20 G16 G21G23 G25G24 G26 G27 G29G28 N1 N2 N3 N4 N5 N6 Page 200 Significance Analysis of Microarrays (SAM) SAM -- Excel -- teste t modificado -- ajusta FDR 8 Fig. 7.7 Page 202 up- regulated down- regulated esperado ob se rv ad o Análise de Microarray Análise Estatistística Análise de Dados Análise de Microarray Bancos de Dados
Compartilhar