Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tratamento de dados, análise exploratória e método não supervisionado de classificação (PCA). Profa Dra Fabíola Manhas Verbi Pereira fabiola.verbi@unesp.br 1 FMVP PCA A Análise de Componentes Principais é uma técnica quimiométrica que reduz as dimensões originais de um determinado conjunto de dados numéricos. 2 FMVP Variável 1 Variável 2 Fundamentação da PCA PC1 PC2 PC3 3 FMVP Componentes Principais (PC) Os novos eixos (PC) são ortogonais entre si (completamente não correlacionados) São construídos em ordem decrescente da quantidade de variância que descrevem (primeiro fator descreve maior variância nos dados que o segundo...) Determinação da dimensionalidade intrínseca do conjunto de dados 4 FMVP Componentes Principais (PC) PC: Número menor que as variáveis originais (Redução de variáveis) Direção que melhor explica os dados: 1a PC Base da PCA: Encontrar autovalores e autovetores de uma matriz de variância-covariância 5 FMVP Posto de matriz, autovalores e autovetores Posto de uma matriz • Número de linhas ou colunas linearmente independentes. Autovalores e Autovetores • Cálculo de sub-sistemas muito menores para dados que apresentam muitas variáveis (dimensões) A = x Autovetor Autovalor 6 FMVP AF Fe AF Fe 297,7 7,3 0,6 -0,4 257,5 9,3 0,2 1,3 338,7 10,9 1,0 2,6 271,6 8,7 0,3 0,8 306,7 9,3 0,7 1,2 .. . .. . .. . .. . 107,5 6,3 -1,4 -1,2 97,0 5,6 -1,5 -1,7 151,7 7,4 -0,9 -0,3 141,2 7,8 -1,0 0,0 139,9 8,7 -1,0 0,8 Média 241 8 0 0 SD 98 1 1 1 Variáveis Auto. Variância e Covariância Variância (s2): Espalhamento dos dados ao redor do seu valor médio para uma única variável Covariância (Cov): Distribuição dos dados multivariados e suas relações onde 1 2 2 − = n xd s )( xxxd i −= 1 )()( − −− = n FexxAFxx COV ii 7 FMVP Cálculos Variância (s2) AFxxi − Fexxi − ))(( FexxAFxx ii −− 8 AF Fe AF Fe 297,7 7,3 0,6 -0,4 0,6 -0,4 -0,2 257,5 9,3 0,2 1,3 0,2 1,3 0,2 338,7 10,9 1,0 2,6 1,0 2,6 2,6 271,6 8,7 0,3 0,8 0,3 0,8 0,2 306,7 9,3 0,7 1,2 0,7 1,2 0,8 .. . .. . .. . .. . .. . .. . .. . 107,5 6,3 -1,4 -1,2 -1,4 -1,2 1,6 97,0 5,6 -1,5 -1,7 -1,5 -1,7 2,5 151,7 7,4 -0,9 -0,3 -0,9 -0,3 0,3 141,2 7,8 -1,0 0,0 -1,0 0,0 -0,1 139,9 8,7 -1,0 0,8 -1,0 0,8 -0,8 Média 241 8 0 0 Soma 11,8 SD 98 1 1 1 1 1 Variáveis Auto. FMVP Matriz variância e covariância COV = 11,8 29 = 0,4 AF Fe AF 1,0 0,4 Fe 0,4 1,0 COVAFFe 9 FMVP 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 S 2 F e S 2 AF Matriz variância e covariância Graficamente Cov AFFe Cov FeAF 10 FMVP 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 S 2 F e S 2 AF Matriz variância e covariância Projeção de uma elipse 11 FMVP 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 S 2 F e S 2 AF Autovalores PC1 PC2 Autovalor da PC1 Autovalor da PC2 12 FMVP 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 S 2 F e S 2 AF Autovetores (seno e cosseno) 0,86 0,92 =45o Sen = 0,707 Cos = 0,707 = - 45o Sen = -0,707 Cos = 0,707 PC2 PC1 13 FMVP Como calcular os autovalores AF Fe AF 1,0 0,4 Fe 0,4 1,0 COVAFFe Para uma matriz quadrada temos: det (COVAFFe – a.I)=0 Onde I é a matriz identidade e “a” são os autovalores. Assim teremos: 0 0,14,0 4,00,1 det = − − a a O cálculo da determinante é a diferença do produto da diagonal principal com o produto da diagonal secundária Diagonal secundária Diagonal principal 14 FMVP Como calcular os autovalores Assim teremos uma equação de segundo grau: 6,02 4,11 084,022 = = =+− a a aa %6,29100 6,04,1 6,0 a2 a referente % %4,70100 6,04,1 4,1 a1 a referente % = + = = + = Variância explicada: 15 FMVP PC1 = 0,70AFi + 0,70Fei Matriz de Scores PC2 = -0,70AFi + 0,70Fei PC1 = Sen AFi + Cos Fei PC2 = Sen AFi + Cos Fei AF Fe PC1 PC2 0,58 -0,36 0,16 -0,67 0,18 1,26 1,02 0,77 1,00 2,56 2,52 1,10 0,32 0,78 0,77 0,32 0,68 1,26 1,37 0,42 ... ... ... ... -1,37 -1,17 -1,79 0,14 -1,47 -1,73 -2,26 -0,19 -0,91 -0,28 -0,84 0,45 -1,02 0,05 -0,69 0,76 -1,03 0,78 -0,18 1,28 Dados autoescalados Scores 16 FMVP Matriz de Loadings (Pesos) Matriz de Scores: 30 linhas (amostras) e 2 colunas (PC1 e PC2) Matriz de Loadings: 2 linhas (variáveis – AF e Fe) e 2 colunas (PC1 e PC2) PC1 PC2 AF 0,707 0,707 Fe -0,707 0,707 17 FMVP Visualização dos dados - Scores -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 -4 -3 -2 -1 0 1 2 3 P C 2 ( 2 9 % ) PC1 (70%) Milho Trigo 18 FMVP Visualização dos dados - Loadings -1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 -1 -0,5 0 0,5 1 P C 2 ( 2 9 % ) PC1 (70%) AF Fe 19 FMVP Scores e Loadings -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 -4 -3 -2 -1 0 1 2 3 P C 2 ( 2 9 % ) PC1 (70%) Milho Trigo -1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 -1 -0,5 0 0,5 1 P C 2 ( 2 9 % ) PC1 (70%) AF Fe 20 FMVP 21 Dados originais ID AF Fe M1 298 7,3 M2 258 9,3 M3 339 10,9 M4 272 8,7 M5 307 9,3 M6 340 6,6 M7 289 8,4 M8 488 7,1 M9 306 7,7 M10 322 7,0 M11 285 8,3 M12 325 7,5 M13 313 9,1 M14 317 7,6 M15 398 8,3 T1 183 7,6 T2 176 7,1 T3 206 7,2 T4 75 4,4 T5 118 6,8 T6 207 8,8 T7 189 7,6 T8 223 8,0 T9 180 7,1 T10 174 8,7 T11 107 6,3 T12 97 5,6 T13 152 7,4 T14 141 7,8 T15 140 8,7 A m o s tr a s -4 -3 -2 -1 0 1 2 3 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 M15 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13 T14 T15Scores P C 2 ( 3 4 % ) PC1 (66%) -0,80 -0,40 0,00 0,40 0,80 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74 AF Fe Loadings P C 2 ( 3 4 % ) PC1 (66%) > AF < AF FMVP 22 Representação X N K t = scores p = loadings p1 p2 = t1 + t2 + ... E ETPX += FMVP 23 Cálculo dos scores e loadings via SVD SVD = Singular Value Decomposition Decomposição de valores singulares X VTSU= xx V = Loadings UxS = Scores FMVP 24 Exemplo numérico (SVD) 400 401 402 403 404 405 AmT1 0,139 0,139 0,140 0,141 0,142 0,144 AmT2 0,236 0,237 0,238 0,241 0,243 0,245 AmT3 0,352 0,354 0,357 0,360 0,364 0,367 AmT4 0,481 0,485 0,488 0,493 0,498 0,503 AmT5 0,603 0,608 0,613 0,619 0,625 0,630 Média 0,362 0,365 0,367 0,371 0,374 0,378 400 401 402 403 404 405 AmT1 -0,223 -0,225 -0,228 -0,230 -0,232 -0,234 AmT2 -0,126 -0,127 -0,129 -0,130 -0,131 -0,132 AmT3 -0,010 -0,010 -0,011 -0,011 -0,011 -0,011 AmT4 0,119 0,120 0,121 0,123 0,124 0,125 AmT5 0,241 0,243 0,246 0,248 0,250 0,252 Média 0,000 0,000 0,000 0,000 0,000 0,000 Matriz X (Espectros de 400 a 405 nm) Matriz X centrada na média FMVP 25 Matrizes U, S e V -0,601 -0,203 -0,338 -0,532 -0,447 -0,340 0,059 0,792 0,234 -0,447 -0,028 -0,098 -0,479 0,749 -0,447 0,320 0,798 -0,109 -0,220 -0,447 0,648 -0,556 0,135 -0,230 -0,447 U 0,932 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 S UxS = Scores 0,398 -0,470 0,685 -0,088 0,027 0,378 0,402 -0,165 0,106 0,565 0,045 -0,692 0,407 -0,512 -0,714 -0,014 -0,094 0,232 0,411 0,145 -0,018 -0,770 0,215 -0,414 0,414 0,457 0,046 0,029 -0,778 0,112 0,418 0,509 -0,088 0,281 0,581 0,376 V ou Loadings FMVP 26 Scores (UxS) PC1 PC2 PC3 PC4 PC5 -0,560 0,000 0,000 0,000 0,000 -0,317 0,000 0,000 0,000 0,000 -0,026 0,000 0,000 0,000 0,000 0,299 0,000 0,000 0,000 0,000 0,604 0,000 0,000 0,000 0,000 Variância 0,217 0,000 0,000 0,000 0,000 Variância Total % Var 100 0,00 0,00 0,00 0,00 0,217 Scores (UxS) A PC1 contêm 100% da informação original As demais PC’s contêm ruídos FMVP 27 Reconstruíndo a matriz X -0,601 0,000 0,000 0,000 0,000 -0,340 0,000 0,000 0,000 0,000 -0,028 0,000 0,000 0,000 0,000 0,320 0,000 0,0000,000 0,000 0,648 0,000 0,000 0,000 0,000 U 0,932 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 S 0,398 0,000 0,000 0,000 0,000 0,000 0,402 0,000 0,000 0,000 0,000 0,000 0,407 0,000 0,000 0,000 0,000 0,000 0,411 0,000 0,000 0,000 0,000 0,000 0,414 0,000 0,000 0,000 0,000 0,000 0,418 0,000 0,000 0,000 0,000 0,000 V ou Loadings FMVP 28 Reconstruíndo a matriz X -0,223 -0,225 -0,228 -0,230 -0,232 -0,234 -0,126 -0,127 -0,129 -0,130 -0,131 -0,132 -0,010 -0,010 -0,011 -0,011 -0,011 -0,011 0,119 0,120 0,121 0,123 0,124 0,125 0,240 0,243 0,246 0,248 0,250 0,253 0,139 0,139 0,139 0,141 0,142 0,144 0,236 0,237 0,238 0,241 0,243 0,245 0,352 0,354 0,357 0,360 0,364 0,367 0,481 0,485 0,488 0,493 0,498 0,503 0,603 0,607 0,613 0,619 0,625 0,630 Matriz X centrada na média - Reconstruída Matriz X - Reconstruída FMVP 29 Reconstruíndo a matriz X 0,139 0,139 0,140 0,141 0,142 0,144 0,236 0,237 0,238 0,241 0,243 0,245 0,352 0,354 0,357 0,360 0,364 0,367 0,481 0,485 0,488 0,493 0,498 0,503 0,603 0,608 0,613 0,619 0,625 0,630 Matriz X - Original 0,139 0,139 0,139 0,141 0,142 0,144 0,236 0,237 0,238 0,241 0,243 0,245 0,352 0,354 0,357 0,360 0,364 0,367 0,481 0,485 0,488 0,493 0,498 0,503 0,603 0,607 0,613 0,619 0,625 0,630 Matriz X - Reconstruída -0,000027 -0,000020 -0,000105 -0,000045 0,000006 0,000014 -0,000042 -0,000012 0,000074 0,000008 -0,000016 -0,000007 0,000011 -0,000038 -0,000072 0,000024 0,000005 -0,000012 0,000166 0,000080 0,000174 -0,000031 -0,000117 -0,000132 -0,000108 -0,000010 -0,000072 0,000045 0,000122 0,000137 Matriz de erros FMVP 30 Escolha do número de componentes principais Espectros (Vis) de Amarelo Tartrazina e Amarelo Crepúsculo (Corantes alimentícios) 350 400 450 500 550 0,000 0,200 0,400 0,600 0,800 1,000 1,200 Comprimento de onda (nm) A b s Matriz: 54 linhas e 1001 variáveis (350 a 550 nm) FMVP 31 Escolha do número de componentes principais PC1 = 81,5% PC2 = 18,4% Demais PC < 0,1% PC1 + PC2 100% PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 0 30 60 90 V a ri â n c ia e x p li c a d a ( % ) PC FMVP 32 Outlier Diagnostics Região onde amostras anômalas são encontradas FMVP 33 Distância de Mahalanobis (MD) T ikii ttSttMD )()( 1 −−= − Fr e q u ê n ci a Distância de Mahalanobis Onde, ti é o score da amostra i, é a média do vetor de scores e S é a matriz de covariância dos scores t FMVP 34 Resíduos 0,2 0,4 0,6 0,8 1,0 1,2 1,4 0 3 6 9 12 15 18 F re q ü ê n c ia Resíduos Fr e q u ê n ci a FMVP 35 Leverage (h) Posição das observações das amostras, umas relativas às outras, no espaço dos K-componentes principais Leverage baixa ➔ O objeto está perto do centro do conjunto de dados com respeito ao espaço K- dimensional. Este objeto tem pouquíssima importância no modelo gerada pela PCA Leverage alta (Perto de 1) ➔ O objeto está longe da média e isto pode ter tido uma grande influência no espaço K-dimensional. 1 1 h k FMVP Métodos supervisionados de classificação (SIMCA e kNN). Profa Dra Fabíola Manhas Verbi Pereira fabiola.verbi@unesp.br FMVP 1 FMVP Métodos de classificação Técnicas de reconhecimento Identificar semelhanças e diferenças em tipos de amostras distintos • Amostras do mesmo tipo são semelhantes • Existem diferenças entre diferentes tipos de amostras • As semelhanças e diferenças são visualizadas nas medidas utilizadas na caracterização das amostras FMVP 2 FMVP FMVP 3 FMVP Métodos de classificação Técnicas supervisionadas Deve-se saber quais amostras são semelhantes e quais são diferentes para encontrar os critérios de classificação Os critérios de discriminação são supervisionados FMVP 4 FMVP Técnicas supervisionadas e não- supervisionadas -0.2 0.0 0.2 Factor1 -0.2 -0.1 0.0 0.1 F a c to r2 Anorm.BSuP 1 Anorm.BSuP 2 Anorm.BSuP 3 Anorm.BSuP 4 Anorm.BSuP 5 Anorm.BSuP 6 Anorm.BSuP 7 Anorm.BSuP 8 BraSua - PIA 1 BraSua - PIA 2 BraSua - PIA 3 BraSua - PIA 4BraSua - PIA 5 BraSua - PIA 6 BraSua - PIA 7 BraSua - PIA 8 BraSua - PIA 9 BraSua - PIA 10 BraSua - PIA 11 BraSua - PIA 12BraSua - PIA 13 BraSua - PIA 14 BraSua - PIA 15 PCA é uma técnica não supervisionada FMVP 5 FMVP Técnicas de classificação 1 Variáveis seguem uma distribuição normal (SIMCA) Paramétricas Não consideram informações sobre a distribuição da população. Os próprios dados definem sua estrutura (kNN) Não paramétricas FMVP 6 FMVP Técnicas de classificação 2 As amostra pertencem a uma classe somente (kNN) Discriminantes As amostras podem pertencer a várias classes, a uma classe específica ou a nenhuma classe (SIMCA) Modelativas FMVP 7 FMVP Discriminante Modelativa Fronteiras podem se sobrepor FMVP 8 FMVP Técnicas de classificação 3 Estima um grau de confiança da classificação (SIMCA) Probabilísticas Não estimam um grau de certeza de uma classificação (kNN) Determinísticas FMVP 9 FMVP Etapas da classificação multivariada 1 - Modelagem 2 - Validação Seleção das amostras para o conjunto de treinamento As amostras devem ser representativas (escolha cuidadosa): • Colete os dados experimentais X • Construção do modelo Verificação do modelo com amostras que não foram incluídas no treinamento 3 - Previsão Aplicação do modelo em amostras desconhecidas FMVP 10 FMVP kNN kth Nearest Neighbor (k-ésimo Vizinho mais Próximo) Calcula-se a distância entre uma amostra desconhecida e todas as amostras do conjunto de treinamento. A atribuição a uma classe é feita por votos usando a classe de amostras mais próximas como critério FMVP 11 FMVP kNN • Calcula a distância entre todas as amostras do conjunto de treinamento no espaço N-dimensional • Os k vizinhos mais próximos de cada amostra são escolhidos para votar. Cada um dá um voto para sua classe. A classe que recebe mais votos ganha a amostra • No caso de empate, a classe com a menor distância acumulada fica com a amostra FMVP 12 FMVP kNN • As classes para amostras teste são previstas da mesma maneira: a classe é prevista com base na distância da amostra teste às k amostras mais próximas do conjunto de treinamento • Para selecionar o número ótimo de vizinhos é utilizada a validação cruzada deixando uma amostra de fora de cada vez FMVP 13 FMVP kNN Computacionalmente muito simples Vantagen Não detecta outliers, mas aloca-os nas classes conhecidas Desvantagem FMVP 14 FMVP kNN - exemplo Espectros de massa (headspace) de amostras de café Objetivo: construir modelos de classificação para verificar a qualidade do café FMVP 15 FMVP KNN – matriz de votos FMVP 16 FMVP KNN – erros 1 vizinho FMVP 17 FMVP SIMCA Soft Independent Modeling of Class Analogy Modela-se a localização e distribuição das classes, por meio do uso de Análise de Componentes Principais (PCA) FMVP 18 FMVP SIMCA • Cada classe de um conjunto de treinamento é submetida a uma análise de componentes principais • O número de componentes principais para cada classe é determinado e constrói-se uma hipercaixa envolvendo as amostras de cada classe, onde os limites das mesmas são definidos com um dado nível de confiança FMVP 19 FMVP SIMCA - exemplo Modelagem Independente Flexível por Analogia de Classe Classe 4 Classe 2 Classe 3 Classe 1 PC 1 PC 2 PC 3 ? FMVP 20 FMVP SIMCA - exemplo FMVP 21 FMVP FMVP SIMCA - exemplo 22 FMVP FMVP 1 Profa Dra Fabíola Manhas Verbi Pereira fabiola.verbi@unesp.br Métodos de calibração multivariada (PLS) FMVP Introdução a calibração multivariada Antes: • Pouca instrumentação analítica • Métodos baseados em via-úmida (reações químicas) • Resultados univariados Hoje: • Desenvolvimento da microeletrônica e informática • Instrumentação paraanálises • Resultados multivariados Transformação de medidas instrumentais em resultados que possam ser interpretados Calibração Previsão de uma informação quantitativa y, a partir de medidas X, por meio de alguma função de transferência Previsão FMVP 2 FMVP Introdução a calibração multivariada Aumento da precisão devido à utilização de um maior número de variáveis Vantagens Determinações simultâneas Determinações mesmo sem resolução Determinações mesmo na presença de interferentes!!! FMVP 3 FMVP Análise multivariada Objetivo Desenvolvimento de modelos • Previsão de propriedades de interesse Sim ou Não Espécie1, Espécie 2, Espécie 3... • Propriedade quantitativa Concentração de elementos químicos, compostos orgânicos... FMVP 4 FMVP Avanço tecnológico Instrumentação analítica • UV/Vis • Fluorescência molecular • Fluorescência de raios-X Convencional (XRF) Reflexão total (TRXRF) • Cromatografia Líquida (LC) Gasosa (GC) Alta Eficiência (HPLC) Chama (FAAS) Forno de grafite (GFAAS) Fonte contínua (CSAAS) Spray térmico (TS-FF-AAS) • Espectrometria de absorção atômica Próximo (NIR) Médio (MIR) • Infravermelho Emissão (ICPOES) Massa (ICPMS) • Plasma ótico acoplado indutivamente FMVP 5 FMVP Amostra (líquida, sólida, gasosa) Equipamento 350 400 450 500 550 0,000 0,300 0,600 0,900 1,200 A b s o rb â n c ia Comprimento de onda (nm) Y X Resposta (matriz de dados): • Cromatograma • Espectro de UV/Vis • Espectro no IR • ... Propriedades de interesse • Concentração • Umidade • Teor de gordura • ... Função Y = f(X) FMVP 6 FMVP Organização dos dados 350 400 450 500 550 0,000 0,300 0,600 0,900 1,200 A b s o rb â n c ia Comprimento de onda (nm) Espectros no UV/Vis de corantes de alimentos Concentração dos corantes Amarelo Tartrazina Amarelo Crepúsculo 1,52 2,53 3,58 2,12 ... ... 10,25 1,25 0,75 1,56 X Matriz X Matriz Y Variáveis Independentes Variáveis Dependentes Y FMVP 7 FMVP Etapas da calibração multivariada 1 - Modelagem 2 - Validação Seleção das amostras para o conjunto de calibração As amostras devem ser representativas (escolha cuidadosa): • Colete os dados experimentais X • Determine experimentalmente a propriedade de interesse (Y) por algum método de referência • Construção do modelo que correlacione X e Y Verificação do modelo com amostras que não foram incluídas na calibração 3 - Previsão Aplicação do modelo em amostras com valores desconhecidos FMVP 8 FMVP Calibração univariada Método de mínimos quadrados 9 12 15 18 200 240 280 320 A b s x 1 0 0 0 Gotas de DFC yi yi ^ ei FMVP 9 FMVP Cálculo de uma curva de calibração [Cd] Absorbância 5 0,0216 10 0,0424 15 0,0678 20 0,0886 25 0,107 baxy += − − = n X X n yX yX a i i ii ii 2 2 )( Xbyb 1−= YXXXb tt 1)( −= ou FMVP 10 FMVP X = 251 201 151 101 51 Xt = 252015105 11111 XtX = 137575 755 (XtX)-1 = 004,006,0 06,01,1 − − YXXXb tt 1)( −= XtY = 996,5 327,0 b = 00434,0 00038,0 a b 00038,000434,0 += xy FMVP 11 FMVP 0 5 10 15 20 25 0,000 0,020 0,040 0,060 0,080 0,100 0,120 A b s o rb â n c ia [Cd] 00038,000434,0 += xy FMVP 12 FMVP Calibração univariada Vantagem: Muito simples de interpretar e implementar Desvantagem: Requer seletividade completa. No caso da presença de interferentes, suas contribuições devem ser constantes e podem ser removidas. Exemplo: Construção de um modelo para previsão de uma propriedade Sinal analítico 1 (matriz X) Propriedade (matrix Y) 2 297 3 304 4 301 5 300 6 307 7 304 7 299 9 311 10 308 11 312 12 307 13 304 14 313 16 312 18 314 20 320 FMVP 13 FMVP Visualização dos dados 0 2 4 6 8 10 12 14 16 18 20 295 300 305 310 315 320 325 Matriz X M a tr iz Y Segue a Lei de Beer FMVP 14 FMVP Visualização dos dados (matrizes) 201 181 161 141 131 121 111 101 91 71 71 61 51 41 31 21 Matriz X 320 314 312 313 304 307 312 308 311 299 304 307 300 301 304 297 Matriz Y 0b 1b xy 0,1297 += 317 315 313 311 310 309 308 307 306 304 304 303 302 301 300 299 Matriz Ŷ 3 1 1 2 6 2 4 1 5 5 0 4 2 0 4 2 − − − − − − − Matriz de resíduos FMVP 15 FMVP Visualização dos dados (Real x Previsto) 295 300 305 310 315 320 325 296 298 300 302 304 306 308 310 312 314 316 318 320 Y ( p re v is ta s ) Y (reais) ^ FMVP 16 FMVP Visualização dos dados (Real x Resíduo) 295 300 305 310 315 320 325 -14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 R e s íd u o s Y (reais) FMVP 17 FMVP Sinal analítico 2 (matriz X) Propriedade (matrix Y) 15 297 5 304 15 301 20 300 10 307 20 304 30 299 15 311 25 308 20 312 35 307 45 304 30 313 40 312 45 314 40 320 O analista não ficou satisfeito (efetuou novas medidas) FMVP 18 FMVP Visualização dos dados 0 10 20 30 40 50 295 300 305 310 315 320 325 Matriz X M a tr iz Y FMVP 19 FMVP Visualização dos dados (matrizes) 401 451 401 301 451 351 201 251 151 301 201 101 201 151 51 151 Matriz X 320 314 312 313 304 307 312 308 311 299 304 307 300 301 304 297 Matriz Y 0b 1b xy 5,0294 += 314 317 314 309 317 312 304 307 302 309 304 299 304 302 297 302 Matriz Ŷ 6 3 2 4 13 5 8 1 9 10 0 8 4 1 7 5 − − − − − − − − Matriz de resíduos FMVP 20 FMVP Visualização dos dados (Real x Previsto) 295 300 305 310 315 320 325 296 298 300 302 304 306 308 310 312 314 316 318 320 Y ( p re v is ta s ) Y (reais) FMVP 21 FMVP Visualização dos dados (Real x Resíduo) 295 300 305 310 315 320 325 -14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 R e s íd u o s Y (reais) Resíduos altos quando os valores de Y são altos (heteroscedasticidade) FMVP 22 FMVP E agora? Por que não utilizar Calibração Multivariada? Em muitas aplicações, uma única medida não é suficiente para descrever um sistema ou prever uma propriedade (por exemplo, concentração de um metal) de interesse FMVP 23 FMVP Vamos trabalhar com os dois sinais analíticos (1 e 2) Sinal analítico 1 (matriz X) Sinal analítico 2 (matriz X) Propriedade (matrix Y) 2 15 297 3 5 304 4 15 301 5 20 300 6 10 307 7 20 304 7 30 299 9 15 311 10 25 308 11 20 312 12 35 307 13 45 304 14 30 313 16 40 312 18 45 314 20 40 320 FMVP 24 FMVP Visualização dos dados (matrizes) Matriz X 320 314 312 313 304 307 312 308 311 299 304 307 300 301 304 297 Matriz Y 0b 1b 21 5,00,2300 xxy −+= 40201 45181 40161 30141 45131 35121 20111 25101 1591 3071 2071 1061 2051 1541 531 1521 2b FMVP 25 FMVP 320 314 312 313 304 307 312 308 311 299 304 307 300 301 304 297 Matriz Ŷ 1,0 3,0 2,0 2,0 2,0 2,0 2,0 3,0 3,0 3,0 3,0 2,0 3,0 2,0 2,0 1,0 − − − − − − − − Matriz de resíduos Previsão e resíduos 320 314 312 313 304 307 312 308 311 299 304 307 300 301 304 297 Matriz Y FMVP 26 FMVP Visualização dos dados (Real x Previsto) 295 300 305 310 315 320 325 296 298 300 302 304 306 308 310 312 314 316 318 320 Y ( p re v is ta s ) Y (reais) FMVP 27 FMVP Visualização dos dados (Real x Resíduo) 295 300 305 310 315 320 325 -14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 R e s íd u o s Y (reais) FMVP 28 FMVP Visualização dos dados (Real x Previsto) 295 300 305 310 315 320 325 294 296 298 300 302 304 306 308 310 312 314 316 318 320 322 Y ( p re v is ta s ) Y (reais) Sinal 1 Sinal 2 Sinal 1 e 2 FMVP 29 FMVP 295 300 305 310 315 320 325 -14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 R e s íd u o s Y (reais) Sinal1 Sinal2 Sinal 1 e 2 Visualização dos dados (Real x Resíduo) FMVP 30 FMVP PLS (Regressão por mínimos quadrados parciais) • Desenvolvido no final dos anos 60 por H. Wold em Econometria • Em química: S. Wold e H. Martens noinício dos anos 80 • Boa alternativa para os métodos clássicos RLM e PCR Robusto: Os parâmetros do modelo não mudam muito quando novas amostras de calibração são adicionadas ao modelo • Baseado nas propriedades do algoritmo Nipals FMVP 31 FMVP PLS – como funciona!!! Relações externas – decomposição da matriz X X N K t = scores p = loadings p1 p2 = t1 + t2 + ... E ETPX T += FMVP 32 FMVP PLS – como funciona!!! Relações externas – decomposição da matriz Y Y N K u = scores q = loadings q1 q2 = u1 + u2 + ... E EUQY T += FMVP 33 FMVP PLS – como funciona!!! Relação interna – Encontra-se uma relação linear entre os scores de X e Y. TbU *= Coeficientes de regressão FMVP 34 FMVP PLS – Validação cruzada (Cross validation) É fundamentada na avaliação da magnitude dos erros de previsão comparando as concentrações das amostras do conjunto de calibração com as respectivas previsões quando as mesmas não participam na construção do modelo de regressão Am1 Am2 Am3 Am4 Am5 Am6 Am7 Conjunto de calibração Retira uma amostra Constrói-se o modelo de calibração com as demais Utiliza-se o modelo para prever a concentração da amostra que ficou de fora. FMVP 35 FMVP Parâmetros de avaliação do modelo Soma dos quadrados dos resíduos de previsão (PRESS, Predicted residual error sum of squares): 2 )ˆ( − ii yy Erro de previsão: )ˆ( ii yy − Valor real Valor previsto Raiz quadrada da soma dos quadrados dos resíduos de previsão (RMSEP, Root mean squared error of prediction): 2 )ˆ( n yy ii − Número de amostras do conjunto de calibração FMVP 36 FMVP Parâmetros de avaliação do modelo O processo de validação cruzada é repetido para 1, 2, 3 ... componentes principais 0 2 4 6 8 10 0 20 40 60 80 100 P re s s Número de componentes principais FMVP 37 FMVP Leverage Mede a influência de uma amostra no modelo de regressão. Pode ser interpretada geometricamente como a distância de uma amostra ao centróide do conjunto de dados. )()()( 1 1 xxXXxx n h i TT iii −−+= − Onde: :é o espectro da iésima amostra :é o espectro médio :é a matriz de variância-covariância ix x )( XX T FMVP 38 FMVP Resíduo de student Resíduo das propriedades (por exemplo, concentrações) que são calculadas. Para obter a influência de cada amostra em particular, usa-se o resíduo de Student: )1)(1( )ˆ( Re 2 ii ii i hn yy síduo −− − = iii ii hsiduo yy dentsíduodeStu − − = 1Re )ˆ( Re 2 FMVP 39 FMVP Precisão Sensibilidade m = número de réplicas feitas n = número de amostras ത𝑦𝑖 = média dos valores previstos de cada réplica ො𝑦𝑖 𝑖=1 𝑛 𝑗=1 𝑚 ො𝑦𝑖 − ത𝑦𝑖 2 𝑛(𝑚 − 1) 𝑆Ê𝑁 = 1 𝑏 𝑏 = 𝑏1 2 + 𝑏2 2 +⋯+ 𝑏𝑛 2 FMVP 40 FMVP Limites de detecção e quantificação 𝐿𝑂𝐷 = 3,3 𝑥 𝑆𝐷𝑏𝑟𝑎𝑛𝑐𝑜 𝑆Ê𝑁 𝐿𝑂𝑄 = 10 𝑥 𝑆𝐷𝑏𝑟𝑎𝑛𝑐𝑜 𝑆Ê𝑁 𝑝=1 𝑝 𝑦𝑝 − ො𝑦𝑝 − 𝑏𝑖𝑎𝑠 2 p −1 Erro de previsão (SEP, standard error of prediction): σ𝑖=1 𝐼 𝑦𝑖 − ො𝑦𝑖 2 I − 𝐴 − 1 Erro de previsão (SEC, standard error of calibration): Bias = viés = 1 𝐼 σ𝑖=1 𝐼 𝑦𝑖 − ො𝑦𝑖 FMVP 41 FMVP Desvio padrão relativo 𝑅𝑆𝐷 = 𝑅𝑀𝑆𝐸𝑃 ത𝑦 𝑥 100 Sensibilidade analítica 𝑆𝐸𝑁𝑎𝑛𝑎𝑙𝑖𝑡𝑖𝑐𝑎 = 𝑆𝐸𝑁 𝑆𝐷𝑏𝑟𝑎𝑛𝑐𝑜 FMVP 42 FMVP 1 Disciplina: Aplicações de Quimiometria Profa Dra Fabíola Manhas Verbi Pereira fabiola.verbi@unesp.br Tratamento de dados FMVP 2 Álgebra matricial básica Matriz (X): Tabela de dados com uma ou mais linhas e uma ou mais colunas (letras em negrito maiúsculas: X) Cd Cu Pb Zn 1 1,93 6,95 11,2 34,5 2 2,16 6,52 11,6 32,1 3 2,02 7,23 10,9 34,2 4 1,37 13,7 1,90 83,5 5 1,46 3,91 2,68 73,5 6 1,43 7,66 2,32 77,5 7 1,01 10,8 4,81 54,9 8 1,12 13,6 7,29 52,0 9 1,08 11,6 5,92 52,5 10 0,100 11,2 31,3 36,0 11 0,200 10,9 21,4 36,9 12 2,40 12,8 36,9 41,9 Metais (mg/kg) Solo X 12:4 12 linhas e 4 colunas FMVP 3 Cd Cu Pb Zn 1 1,93 6,95 11,2 34,5 2 2,16 6,52 11,6 32,1 3 2,02 7,23 10,9 34,2 4 1,37 13,7 1,90 83,5 5 1,46 3,91 2,68 73,5 6 1,43 7,66 2,32 77,5 7 1,01 10,8 4,81 54,9 8 1,12 13,6 7,29 52,0 9 1,08 11,6 5,92 52,5 10 0,100 11,2 31,3 36,0 11 0,200 10,9 21,4 36,9 12 2,40 12,8 36,9 41,9 Solo Metais (mg/kg) Objetos: Amostras, compostos químicos Linhas da matriz Variáveis: Características medidas das amostras (espectros, cromatogramas, propriedades físicas, concentração de espécies químicas...) Colunas da matriz Linha Amostra Coluna Variável FMVP 4 Matriz Transposta (X’): Troca de linhas por colunas 1 2 3 4 5 6 7 8 9 10 11 12 Cd 1,93 2,16 2,02 1,37 1,46 1,43 1,01 1,12 1,08 0,100 0,200 2,40 Cu 6,95 6,52 7,23 13,7 3,91 7,66 10,8 13,6 11,6 11,2 10,9 12,8 Pb 11,2 11,6 10,9 1,90 2,68 2,32 4,81 7,29 5,92 31,3 21,4 36,9 Zn 34,5 32,1 34,2 83,5 73,5 77,5 54,9 52,0 52,5 36,0 36,9 41,9 Solos Metais (mg/kg) X’ 4:12 4 linhas e 12 colunas FMVP 5 Vetor (x): Matriz com somente uma linha ou coluna 1,461,372,022,161,93x = 1,46 1,37 2,02 2,16 1,93 x'= 1 2 3 4 5 Cd 1,93 2,16 2,02 1,37 1,46 Metais (mg/kg) Solos FMVP 6 Análise de dados multivariados ➔ Definição do problema ➔ Organização dos dados ➔ Validação dos dados ➔ Visualização dos dados originais ➔ Transformação/Pré-processamento dos dados ➔ Análise exploratória dos dados FMVP 7 Análise de dados multivariados ➔ Construção de modelos ➔ Calibração/Classificação ➔ Validação dos modelos ➔ Previsões FMVP 8 Fatores a serem considerados Origem do problema: ➔ Como os dados foram gerados; ➔ Que técnicas analíticas foram utilizadas; ➔ O nível de exatidão relacionado a cada variável; ➔ Quando os dados foram coletados ➔ Já foi efetuada uma análise anterior; ➔ Existem informações anteriores que sejam pertinentes; ➔... FMVP 9 Quais dados podem ser estudados? Variáveis: ➔ Instrumento multicanal: espectros ➔ Instrumentação de separação: cromatogramas ➔ Determinações múltiplas de instrumentos específicos: testes físicos, químicos e biológicos. ➔ Resposta de análise sensorial FMVP 10 K Mg Ca Zn Fe Mn 1 21531 2620 3709 18 78 127 2 20646 1818 4357 17 345 127 3 20298 2131 4243 19 280 98 4 14476 1291 3144 12 197 72 5 24311 3117 5599 24 161 70 6 22519 2712 7500 25 1000 70 7 6630,9 523,3 3125 9 60 72 8 29585 3856 6931 62 540 118 9 9317,7 773,7 1034 7 60 53 10 8431,8 869,9 3069 10 155 111 11 14848 3237 7348 23 175 330 12 9752,9 2776 9717 21 207 82 13 11193 2250 9692 14 239 101 14 19966 1872 3832 17 366 149 15 13053 2281 4767 22 293 1258 Metais (mg/kg) Chás Visualização dos dados Concentração de alguns metais em chás (matriz: 15 x 6) FMVP 11 Visualização dos dados 350 400 450 500 550 0,000 0,300 0,600 0,900 1,200 A b s o rb â n c ia Comprimento de onda (nm) Corantes alimentícios de amarelo tartrazina e amarelo crepúsculo (matriz: 54 x 1001) FMVP 12 Correlação entre as variáveis FMVP 13 Pré-tratamento dos dados Remoção de fontes de variação indesejáveis: utiliza recursos matemáticos Transformação Aplicado às amostras (linhas da matriz X) Pré- processamento Aplicado às variáveis (colunas da matriz X) Transformação dos dados Sinal Analítico = Sinal Verdadeiro + Ruído aleatório FMVP 14 Transformação dos dados Aplicação de técnicas matemáticas às amostras visando a remoção de variações aleatórias ou sistemáticas indesejáveis que podem informações relevantes. Variações aleatórias (ruído experimental) Tratadas por meio de técnicas de alisamento (smoothing) Variações sistemáticas Reduzidas ou eliminadas por meio de correções da linha de base FMVP 15 Correções da linha de base Espectro no infravermelho Primeira derivada 400 1000 1600 2200 2800 3400 4000 0,560 0,600 0,640 0,680 A b s o rb â n c ia Número de onda (cm) 400 1000 1600 2200 2800 3400 4000 -0,0008 -0,0004 0,0000 0,0004 0,0008 P ri m e ir a d e ri v a d a Número de onda (cm) FMVP 16 Pré-processamento Linhas Colunas Dias antes Ac. Fol. FeProt. Lip. Um. Cin. Carb. do vencimento (mg/100g) (mg/100g) % % % % % M1 papel 21 a 90 dias 298 7,3 6,86 1,07 10,78 0,32 80,96 M2 papel > 91 dias 258 9,3 6,34 1,06 11,36 0,37 80,86 M3 papel 21 a 90 dias 339 10,9 6,42 0,97 11,16 0,31 81,13 M4 papel 21 a 90 dias 272 8,7 6,43 0,83 9,72 0,27 82,74 M5 papel 21 a 90 dias 307 9,3 6,60 0,73 11,64 0,29 80,73 M6 papel > 91 dias 340 6,6 6,65 2,50 11,69 0,47 78,69 M7 papel 21 a 90 dias 289 8,4 6,70 2,58 11,95 0,68 78,08 M8 papel > 91 dias 488 7,1 6,77 3,08 11,95 0,75 77,45 M9 papel 21 a 90 dias 306 7,7 6,77 2,81 11,87 0,64 77,91 M10 papel > 91 dias 322 7,0 6,60 3,23 11,71 0,80 77,65 M11 papel < 20 dias 285 8,3 6,16 2,50 11,72 0,53 79,78 M12 papel < 20 dias 325 7,5 6,16 2,58 11,71 0,42 80,27 M13 papel > 91 dias 313 9,1 6,78 3,08 12,20 0,43 78,63 M14 papel 21 a 90 dias 317 7,6 6,95 2,81 11,81 0,41 79,25 M15 papel > 91 dias 398 8,3 6,69 3,23 12,16 0,35 82,16 T1 plastico < 20 dias 183 7,6 10,35 1,21 12,94 0,63 74,28 T2 Papel < 20 dias 176 7,1 9,92 1,17 12,99 0,61 75,31 T3 Papel < 20 dias 206 7,2 10,27 1,29 13,22 0,59 74,64 T4 Papel < 20 dias 75 4,4 10,27 1,49 12,58 0,62 75,04 T5 Papel < 20 dias 118 6,8 10,32 1,43 13,23 0,62 74,39 T6 Papel < 20 dias 207 8,8 10,86 1,21 11,05 0,59 76,29 T7 Papel < 20 dias 189 7,6 10,25 1,17 11,69 0,66 76,22 T8 Papel 21 a 90 dias 223 8,0 10,25 1,29 12,54 0,43 75,49 T9 Papel < 20 dias 180 7,1 10,44 1,18 12,46 0,59 75,33 T10 Papel < 20 dias 174 8,7 10,39 1,17 12,34 0,61 75,49 T11 Papel < 20 dias 107 6,3 11,38 1,49 12,72 0,55 73,86 T12 Papel < 20 dias 97 5,6 10,45 1,48 12,66 0,55 74,85 T13 Papel 21 a 90 dias 152 7,4 10,53 1,45 12,57 0,60 74,85 T14 Papel 21 a 90 dias 141 7,8 10,09 1,58 11,82 0,64 75,87 T15 Papel 21 a 90 dias 140 8,7 10,49 1,15 12,65 0,51 75,20 A m o s tr a s Classes Variáveis ID Emb. FMVP 17 Visualização dos dados M2 M4 M6 M8 M10 M12 M14 T1 T3 T5 T7 T9 T11 T13 T15 0 250 500 V a lo re s Amostras AF Fe Prot. Lip. Um. Cin. Carb. FMVP 18 Dados originais AF Fe Prot. Lip. Um. Cin. Carb. 0 100 200 300 400 500 V a lo re s s e m p ré -p ro c e s s a m e n to Variáveis Média Mediana Média + SD Média - SD 95% dos dados > valor < valor 95% dos dados FMVP 19 Dados centrados na média AF Fe Prot. Lip. Um. Cin. Carb. -200 -100 0 100 200 300 V a lo re s c e n tr a d o s n a m é d ia Variáveis FMVP 20 Dados autoescalados AF Fe Prot. Lip. Um. Cin. Carb. -4 -3 -2 -1 0 1 2 3 V a lo re s a u to e s c a la d o s Variáveis FMVP 21 Tipos de pré-processamento Centrado na média aplicado em espectros = = n i ijj x n x 1 1 jijcmij xxx −=)( Média da variável j ( ) jx Variável j centrada na média ( ))(cmijx FMVP 22 Dados centrados na média 350 400 450 500 550 0,000 0,200 0,400 0,600 0,800 1,000 Amarelo Tartrazina A b s Comprimento de onda (nm) 350 400 450 500 550 -0,600 -0,300 0,000 0,300 0,600 V a lo re s c e n tr a d o s n a m é d ia Comprimento de onda (nm) Espectros (Vis) de Amarelo Tartrazina (Corante alimentício) Espectros originais Espectros centrado na média FMVP 23 Autoescalamento aplicado quando se quer dar a mesma importância a todas as variáveis (dados de concentração) Tipos de pré-processamento = − − = n i jijj xx n s 1 22 )( 1 1 Variância da variável j ( ) 2 js FMVP 24 Dados autoescalados 2 jj ss = Desvio padrão da variável j ( ) j jij asij s xx x − =)( js Variável j autoescalada ( ))(asijx FMVP 25 Quimiometria Conceitos, Métodos e Aplicações Márcia Miguel Castro Ferreira Cap. 02 – Preparação dos dados para análise FMVP
Compartilhar