aula16_ibm1029

•

USP-RP

Alef Janguas Da Costa

22/10/2014

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Introdução à Bioinformática

161 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1
IBM1029
Introdução à Bioinformática
Aula 16
Profª Drª Silvana Giuliatti
Departamento de Genética – Bloco G
Ramal: 4503
silvana@rge.fmrp.usp.br
Faculdade de Medicina
Departamento de Genética
Análise Microarray
• Objetivo: apresentar ferramentas de estatística
necessárias para análise de dados de 
microarray.
Análise de Microarray
cDNA “A”
Marcado com Cy5
cDNA “B”
Marcado com Cy3
Hibridização Leitura com o scanner
Laser 1 Laser 2
+
Análise Captura da imagem
Questão Biológica
Genes diferencialmente expressos
Verificação biológica
Experimento de Microarray
Desenho experimental
Análise da imagem
Normalização
Análise dos Dados
16-bit TIFF files
Etapas Básicas da Imagem ao Arquivo
1) Arquivo de Imagem
2) Construir ou aplicar grade (grid)
3) Parte computacional
• Identificar a região do spot
• Calcular a intensidade
• Calcular e corrigir Background
4) Controle de Qualidade
5) Arquivo de saída
Análise de Microarray
• Qualidade dos Dados e Subtração de 
Background
– Os dados devem ser analisados e aqueles com 
baixa qualidade ou aqueles que não oferecerem
informação devem ser removidos.
Análise de Microarray
2
– O sinal para cada posição do array é examinado
“quebrando” a área do sinal em pixels e 
examinando a variação entre eles para determinar a 
uniformidade dentro do spot.
– A subtração do sinal de background é geralmente
realizada através da simples subtração entre o sinal
de background observado, baseando-se nas
medidas feitas da vizinhanca e do sinal do spot.
Analise de Microarray
O Processo
Aplicar a grade
Determinar a região do Spot
Calcular a intensidade do Spot
Determinar e corrigir a 
intensidade do Background
Análise de Microarray
– Problema surge quando o sinal de background é
maior que o do spot, gerando valores negativos. 
– Há 2 procedimentos mais usados:
• O mais comum: remover aqueles genes que ficarem com 
intensidades negativas após a correção de background.
• O menos comum: não usar o sinal de intensidade desses
genes, mas substituir a intensidade observada nesses 
casos com a intensidade mais baixa do array.
• A mais sofisticada: uso de estatística Bayesiana para
estimar a medida do spot (consideração: o valor do spot 
deve ser sempre maior que o valor de background).
Análise de Microarray
• Normalização dos Dados
– Os dados brutos de intensidade de sinal de cada spot 
no array não são diretamente comparados.
– A normalização ou padronização dos dados é
importante quando os pontos do microarray variam, 
sugerindo uma variação desigual entre os 2 
marcadores num slide ou entre dois slides.
– A normalização deve ser usada quando necessário para 
remover a influência de certos fatores, tais como
variação na marcação (labels).
Análise de Microarray
Normalização
• Assume- se: as intensidades são similares.
• Problema: Nem sempre acontece.
• Solução 1: Certificar-se de pontos num sistema em duas 
coordenadas (duas intensidades) deva ser mais ou menos 
centrado na diagonal .
• Solução 2: Usar a normalização 
total das intensidades.
Análise de Microarray
Métodos de Normalização 
1. Centralização Média/Mediana – a média/mediana da 
intensidade de cada chip é colocada a um mesmo nível.
2. Normalização Total da Intensidade: fator de escala 
determinado pela soma das intensidades
.
∑
∑
=
== Narray
k
k
Narray
k
k
t
G
R
N
1
1 kk
ktk
RR
GNG
=
=
'
'
Análise de Microarray
3
1. Centralização
• Os dados são quantificados com certeza de que as médias e desvio-
padrão de todas as distribuições sejam iguais. Para cada medida no 
array, subtrai-se a medida da média do array e divide-se pelo desvio-
pardrão. Após a centralização, a média de cada array será zero e
desvio-padrão será 1.
Análise de Microarray
2. As Razões normalizadas são 
geralmente expressas em log.
• Para facilitar o cálculo matemático, assim como as 
comparações de níveis de expressão, as razões são 
geralmente expressas em log.
• Uma razão de log igual a 0 é um indicativo de um gene 
é expresso de mesma forma nas duas condições ou 
tratamentos.
Ratio = Tg =
Rg
Gg
Log Ratio = log2(Tg) =
Rg
Gg
log2
Análise de Microarray
– Normalização baseada em Métodos Estatísticos
• Apresentação daqueles que, em sua maioria, são
baseados em modelos lineares, os quais envolvem
equações algébricas. 
• Cada valor de intensidade observada é assumido como
uma soma linear de contribuições de variáveis, tais
como variação de slide para slide, variação de marcador,
entre outras.
• As técnicas de normalização mais aplicadas são: 
Lowess, Loess e Normalização por Quantil.
Análise de Microarray Métodos de Normalização
Normalização por Regressão
• Normalização por regressão:
– Use regressão linear: y = ax + b
– Teste a significância na 
interceção b. Transforme os 
dados.
• Problema: pode não apresentar 
comportamento linear.
Análise de Microarray
• Lowess (Locally Weighted Least Square Regression)
– Método no qual os dados, dentro de uma janela pequena
de valores de expressão, são aproximados à uma linha reta
por regressão linear.
Análise de Microarray
• Loess
– As vezes os dados não se aproximam de uma reta, 
tornando o método de Lowess não apropriado.
– A normalização Loess aproxima os dados de uma
função polinomial complexa, como quadrática ou
cúbica.
Análise de Microarray
4
• Normalização por Quantil
– A não linearidade observada entre canais ou arrays 
geralmente aparece quando um canal ou array apresenta
uma distribuição estatística diferente dos outros. 
– Nesse método de normalização, os valores de intensidade
são organizados do menor para o maior valor, preservando
os nomes dos genes.
– O valor mais baixo é usado para substituir o menor valor do 
outro canal ou array. O procedimento é repetido, de forma 
que todos tenham a mesma distribuição de intensidade, ou
seja, a mesma média, mediana.
Análise de Microarray
• Detecção de Expressão de Genes
– ANOVA (Teste F): estima a média e desvio-padrão
de diferentes grupos de dados.
• Mostra que há uma diferença, mas não revela qual
tratamento ou fator é responsável pela diferençaa. 
– Teste t: comparações em pares de médias e 
desvios-padrão resultantes de diferentes
tratamentos.
Análise de Microarray
“Clusterização” dos Dados
• “Clusterização” dos dados consiste em agrupar seus dados em “clusteres” 
(grupos) por uma determinada semelhança. 
• Examplo: Bolas de diferentes cores
• Uma solução intuitiva é agrupar as bolas pelas cores.
• Deseja-se: usar valores numéricos para ser capaz de agrupar genes por 
sua expressão. 
Análise de Microarray
• Predição de Genes que são Funcionalmente
Relacionados por Análise de Expressão Gênica
– “Funcionalmente relacionados” refere-se aqueles
genes que são co-regulados em resposta a um dado 
estímulo. 
– Para identificar tais genes, um método é necessário
para comparar as variações nas intensidades e 
agrupar aqueles que respondem de mesma maneira. 
Análise de Microarray
Algoritmos de Clusterização
• Um algoritmo de clusterização tenta encontrar grupos naturais 
de componentes (dados) baseado numa noção de similaridade 
sobre características que os descrevem. 
• Determina o centróide de um grupos de dados. 
• Para determinar o elemento do cluster, muitos algoritmos 
avaliam a distância entre um ponto e o centróide do cluster. 
• A saída de um algoritmo de clusterização é baseado numa 
descrição estatística dos centróides dos clusteres com um 
número de componentes em cada cluster. 
Análise de Microarray
Centróide e Distância
Centróide de um Cluster: é o ponto onde os valores 
dos parâmetros são a média de todos os pontos no 
cluster.
Distância: Geralmente, a distância entre dois pontosé calculada como um valor para avaliar a similaridade 
entre os componentes de uma população. 
Análise de Microarray
5
• Alguns dos principais métodos são aqueles
baseados em distâncias.
– Métodos baseados em Distâncias: baseados nas
diferenças de intensidades.
• Os 3 cálculos de distância mais comuns: 
a) Coeficiente de Correlação: Coeficiente de Pearson, 
assume distribuição normal dos dados.
b) Coeficiente de Correlação de Valor Absoluto: 
procedimento mais informativo.
c) Distância Euclidiana: distância entre dois pontos num 
gráfico.
Análise de Microarray Análise de Microarray
• Alguns dos metodos baseados em distâncias
mais conhecidos :
– Clusterização Hierárquica: agrupa os de menor
distância.
– Clusterização k-médias: similar ao método
hierárquico, mas requer do usuário a 
especificação de k, número de clusteres.
– Mapas Auto-organizados (“Self Organising 
Maps” – SOM ) : similar ao método de k.
Análise de Microarray
Clusterização Hierárquica
• Dado um conjunto de N elementos para serem agrupados e 
uma matriz de distância (similaridade) NxN, o processo básico 
da clusterização hierárquica é:
1. No início cada elemento representa um cluster, então 
se há N elementos, há N clusteres. 
2. Determinar o par mais próximo (mais similar) e uní-
los em um único cluster. 
3. Computar as distâncias entre o novo cluster e o 
restante. 
4. Repetir os passos 2 e 3 até todos os elementos 
terem sido agrupados em um cluster de tamanho N. 
Análise de Microarray
1 2 3
1 1.00 0.23 0.02
2 1.00 0.34
3 1.00
1 (2&3)
1 1.00 0.28
(2&3) 1.00
• Buscar o par 
similar na matriz
• Unir os genes
2
3
• Atualizar a matriz
1
Análise de Microarray
Clusterização Hierárquica
Clusterização Hierárquica
g8g1 g2 g3 g4 g5 g6 g7
g7g1 g8 g2 g3 g4 g5 g6
g7g1 g8 g4 g2 g3 g5 g6
g1 mais próximo de g8
g4 mais próximo de {g1, g8}
6
g7g1 g8 g4 g2 g3 g5 g6
g6g1 g8 g4 g2 g3 g5 g7
g6g1 g8 g4 g5 g7 g2 g3
g5 mais próximo de g7 
{g5,g7} mais próximo
de {g1, g4, g8} 
g6g1 g8 g4 g5 g7 g2 g3
Árvore Hierárquica
(HCL-4)
Análise de Microarray
))(,( i
i
i xCxd
rr∑• Idéia Básica: usar centróides dos clusters (médias) para 
representar o cluster.
• Avaliar os elementos mais próximos do centróide. 
Clusterização k-médias
1) Selecionar o número de clusters k. 
2) Avaliar cada elemento ao centróide mais próximo. 
3) Computar o novo centróide dos clusteres:
4) Repetir passos 2 e 3.
SXXnXSC n
n
i
i ∈=∑
=
rrrv
,...,,/)( 1
1
1. Especifique o número de clusteres, por exemplo K = 5. 
2. Randomicamente distribuir os genes nos clusteres.
G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13
Clusterização k-médias K-Means Clustering – 2
3. Calcular média/mediana do perfil de expressão de cada cluster.
4. Mudar os genes entre os clusteres, de forma que o gene fique num 
cluster com media e mediana mais próxima de seu perfil de expressão.
G1 G2G3 G4 G5G6
G7
G8 G9G10
G11
G12
G13
5. Repetir os passos 3 e 4 até o final de genes ou diante de um critério de parada. 
7
• SOM é similar ao método de k-médias no qual o 
usuário especifica um número pré-definido de 
clusteres – “seed”.
• Entretanto, os clusteres são relacionados a outros 
clusteres através de uma topologia espacial. 
Geralmente, os clusteres são arranjados numa grade 
quadrada ou hexagonal.
• Inicialmente, os elementos são alocados aos seus 
clusteres aleatoriamente. O algoritmo iterativamente 
recalcula os centróides dos clusteres baseado nos 
elementos de cada cluster assim como aqueles 
elementos da vizinhança, e então realoca os 
elementos aos clusteres. 
• Desde que os clusteres estão espacialmente 
relacionados, os clusteres vizinhos podem geralmente 
ser “fundidos” no final de uma iteração baseado num 
valor de “threshold”.
SOM
1. Especifique o número de nós (clusteres) desejado e especifique uma geometria 2-D 
para os nós, por exemplo, retangular ou hexagonal
N = Nós
G = GenesG1 G6
G3
G5
G4
G2
G11
G7
G8
G10
G9
G12 G13
G14
G15
G19G17
G22
G18
G20
G16
G21
G23
G25
G24
G26 G27
G29G28
N1 N2
N3 N4
N5 N6
Mapas Auto-Organizados
2. Escolha um gene radomicamente, por exemplo, G9
3. Mova os nós na direção de G9. O nó mais próximo de G9 (N2) é o que mais se move e 
os outros são movidos numa variação menor. Quanto mais longe o nó estiver de N2, menos
ele é movido. 
G1 G6
G3
G5
G4
G2
G11
G7 G8
G10
G9
G12 G13
G14G15
G19G17
G22
G18
G20
G16
G21G23
G25G24
G26 G27
G29G28
N1 N2
N3 N4
N5 N6
Opções de Vizinhança
G11
G7 G8
G10
G9
N1 N2
N3 N4
N5 N6
G11
G7 G8
G10
G9
N1 N2
N3 N4
N5 N6
Vizinhança
“Bolha”
Vizinhança
Gaussiana
raio
Todos se movem.Alguns se movem.
4. Passos 2 e 3 são repetidos muitas vezes. Entretanto, a cada iteração, a quantidade de nós
que pode ser movida decresce.
5. Finalmente, cada nó irá ficar entre um cluster de genes e um gene será considerado dentro
do cluster se sua distância ao nó do cluster for menor que a distância a outro nó.
G1 G6
G3
G5
G4
G2
G11
G7 G8
G10
G9
G12 G13
G14G15
G19G17
G22
G18
G20
G16
G21G23
G25G24
G26 G27
G29G28
N1 N2
N3
N4
N5
N6
Page 200
Significance Analysis of Microarrays (SAM)
SAM -- Excel
-- teste t modificado
-- ajusta FDR
8
Fig. 7.7
Page 202
up-
regulated
down-
regulated
esperado
ob
se
rv
ad
o
Análise de Microarray
Análise 
Estatistística
Análise 
de Dados
Análise de Microarray
Bancos de Dados