Prévia do material em texto
Brasília-DF. Controle estatístiCo de ProCessos e Quimiometria Elaboração Maria Rosiene Antunes Arcanjo Produção Equipe Técnica de Avaliação, Revisão Linguística e Editoração Sumário APRESENTAÇÃO ................................................................................................................................. 5 ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA .................................................................... 6 INTRODUÇÃO.................................................................................................................................... 8 UNIDADE I ESTATÍSTICA BÁSICA ............................................................................................................................. 11 CAPÍTULO 1 CONCEITOS FUNDAMENTAIS EM ESTATÍSTICA ........................................................................... 11 CAPÍTULO 2 ESTATÍSTICA DESCRITIVA, PROBABILIDADE E INFERÊNCIA ESTATÍSTICA ........................................ 18 CAPÍTULO 3 MÉDIA, MODA, MEDIANA, DESVIO PADRÃO, INTERVALO DE CONFIANÇA, TESTES T NÃO PAREADO E PAREADO, TESTE Q .......................................................................... 26 UNIDADE II TRABALHANDO COM DADOS MULTIVARIADOS ..................................................................................... 35 CAPÍTULO 1 ANÁLISE EXPLORATÓRIA DE DADOS ........................................................................................ 35 CAPÍTULO 2 CONSTRUÇÃO DE MODELOS DE CALIBRAÇÃO ....................................................................... 49 MODELOS DE CLASSIFICAÇÃO E RECONHECIMENTO DE PADRÕES ........................................ 59 UNIDADE III PLANEJAMENTO EXPERIMENTAL ........................................................................................................... 68 CAPÍTULO 1 PLANEJAMENTO FATORIAL COMPLETO .................................................................................... 72 CAPÍTULO 2 PLANEJAMENTO FATORIAL FRACIONÁRIO ............................................................................... 79 CAPÍTULO 3 MODELOS DE REGRESSÃO ..................................................................................................... 85 UNIDADE IV QUIMIOMETRIA .................................................................................................................................... 90 CAPÍTULO 1 PRINCÍPIOS BÁSICOS .............................................................................................................. 94 CAPÍTULO 2 ERRO EM ANÁLISES QUÍMICAS .............................................................................................. 100 CAPÍTULO 3 VALIDAÇÃO DOS MÉTODOS QUIMIOMÉTRICOS ................................................................... 118 CAPÍTULO 4 ESTUDO DE CASOS E ARTIGOS SOBRE PLANEJAMENTO EXPERIMENTAL E QUIMIOMETRIA ........ 129 PARA (NÃO) FINALIZAR ................................................................................................................... 135 REFERÊNCIAS ................................................................................................................................ 136 5 Apresentação Caro aluno A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem necessários para o desenvolvimento do estudo com segurança e qualidade. Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela interatividade e modernidade de sua estrutura formal, adequadas à metodologia da Educação a Distância – EaD. Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos específicos da área e atuar de forma competente e conscienciosa, como convém ao profissional que busca a formação continuada para vencer os desafios que a evolução científico-tecnológica impõe ao mundo contemporâneo. Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na profissional. Utilize-a como instrumento para seu sucesso na carreira. Conselho Editorial 6 Organização do Caderno de Estudos e Pesquisa Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões para reflexão, entre outros recursos editoriais que visam tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta para aprofundar seus estudos com leituras e pesquisas complementares. A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos e Pesquisa. Provocação Textos que buscam instigar o aluno a refletir sobre determinado assunto antes mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor conteudista. Para refletir Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As reflexões são o ponto de partida para a construção de suas conclusões. Sugestão de estudo complementar Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo, discussões em fóruns ou encontros presenciais quando for o caso. Atenção Chamadas para alertar detalhes/tópicos importantes que contribuam para a síntese/conclusão do assunto abordado. 7 Saiba mais Informações complementares para elucidar a construção das sínteses/conclusões sobre o assunto abordado. Sintetizando Trecho que busca resumir informações relevantes do conteúdo, facilitando o entendimento pelo aluno sobre trechos mais complexos. Para (não) finalizar Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem ou estimula ponderações complementares sobre o módulo estudado. 8 Introdução A estatística é o ramo da ciência voltado ao estudo de ferramentas matemáticas para coleta, organização, análise e interpretação de dados numéricos para uma melhor compreensão e tomada de decisões frente a problemas, situações e fenômenos. Com ampla aplicação nas ciências exatas, naturais, econômicas e sociais, a estatística fornece uma base para a explicação da ocorrência e frequência de eventos, sua aleatoriedade, obtenção de incertezas e estimativa de previsibilidade em eventos futuros. Na área de Química, a disciplina que estuda o uso de métodos matemáticos e estatísticos para planejar experimentos de forma otimizada e fornecer o máximo de informação na análise de dados de natureza multivariada é chamada de Quimiometria. Nesse material será abordada inicialmente uma revisão que engloba os principais parâmetros estatísticos como média, moda, mediana, desvio padrão, intervalo de confiança, testes t pareado e não pareado e teste Q. Posteriormente, veremos as técnicas e metodologias para a manipulação e tratamento de dados multivariados voltados para a análise exploratória, desenvolvimento de métodos de calibração e construção de modelos de classificação para reconhecimento de padrões. Por fim, estudaremos o desenvolvimento e aplicação de planejamentos fatoriais e modelos de regressão. Veremos que a estatística não é somente construção de gráficos e o cálculo de médias, visto que as informações numéricas obtidas tem como finalidade a acumulação de informações para a tomada de decisões. Portanto, a estatística deve ser observada como um conjunto de técnicas para planejar experimentos, com consequente obtenção de dados, sua organização, análise e interpretação. Devido a estatística ser aplicada em diversas áreas do conhecimento, muitas vezes se torna difícil para os profissionais trabalharem com seus conceitos e elaborarem exemplos práticos, poishá a limitação de materiais didáticos que expressem, de modo simples e objetivo, os procedimentos aplicáveis de certas técnicas multivariadas, que só passaram a ser utilizadas, mais vezes, a partir da chegada dos computadores. É importante dizer que nos dias atuais com o auxílio de programas computacionais, consegue-se desenvolver e aplicar esse tipo de técnica mais rapidamente. O desenvolvimento tecnológico, oriundo das descobertas científicas, tem apoiado o próprio desenvolvimento científico, expandindo, a capacidade de obtenção de informações sobre acontecimentos e fenômenos analisados. Uma grande variedade de informações necessita ser processada antes de ser transformada em conhecimento. Deste modo, necessita-se cada vez mais de ferramentas estatísticas que proporcionem uma visão global do fenômeno, que aquela possível em uma abordagem univariada. 9 A denominação Análise Multivariada significa que muitos métodos e técnicas utilizam, simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados obtidos (NETO, 2004). Mas, é preciso ter atenção ao se usar essas técnicas, pois não basta a observação de conjunto de variáveis e aplicação de técnicas multivariadas, somente objetivando apresentar e valorizar a técnica. É necessário que exista uma estrutura de correlação entre as variáveis, se isso não existir deve-se utilizar outro tipo de análise, a univariada, visto que está também pode fornecer um nível satisfatório de informação. Portanto, o princípio fundamental é primeiramente saber qual conhecimento se pretender gerar com as análises. Um grande avanço relacionado ao surgimento de programas computacionais para resolução de problemas que envolvem estatísticas têm sido observados nas últimas décadas. Essas técnicas são frequentemente utilizadas no tratamento de dados analíticos na área de química, e são denominadas de Quimiometria, a qual desenvolve ferramentas computacionais que permitem a exploração dos resultados obtidos por meio de análises químicas, objetivando verificar a existência de similaridades entre as amostras que, por sua vez, correspondem às semelhanças na composição química (CORREIA; FERREIRA, 2007). Nesse contexto, esse material didático, busca tornar mais simples o aprendizado a respeito de técnicas estatísticas, que, muitas vezes, é obscuro para os alunos, pesquisadores e profissionais que as utilizam, bem como os métodos de planejamento experimentais envolvidos nesses processos. Objetivos » Conhecer e revisar os conceitos estatísticos como média, moda, mediana, desvio padrão, intervalo de confiança, testes t pareado e não pareado e teste Q. » Compreender o que são as análises exploratória de dados e sua importância em diversos processos. » Conhecer e entender as técnicas e metodologias para a manipulação e tratamento de dados univariados e multivariados. » Estudar e compreender o desenvolvimento de planejamentos fatoriais e modelos de regressão, e sua importância em distintas aplicações. » Estudar e compreender sobre o uso da Quimiometria. 10 11 UNIDADE IESTATÍSTICA BÁSICA CAPÍTULO 1 Conceitos fundamentais em estatística A estatística tem sido utilizada pelo homem desde os princípios da existência, mesmo sob formas um pouco rudimentares. No início a estatística era utilizada apenas em problemas que envolviam contagens, como por exemplo, contagens de animais ou indivíduos das tribos, isso fez com que as primeiras ideias de estatística fossem criadas. O termo estatística deriva da palavra latina status (que quer dizer “coisas de estado”), contudo, a séculos que a estatística adquiriu status de ciência, com inúmeras aplicações na maioria das áreas do conhecimento humano. É correto afirmar que não se pode realizar uma pesquisa científica sem utilizar metodologia estatística. Algumas definições importantes e comumente usadas em estatísticas são apresentadas a seguir: » Fenômeno estatístico: qualquer evento analisado, cujo estudo seja possível a aplicação do método estatístico. » Dado estatístico: dado numérico que é considerado a matéria prima sobre a qual se aplica os métodos estatísticos. » População: conjunto total de elementos que possuam pelo menos, uma característica comum. » Amostra: é uma parcela representativa da população que é avaliada objetivando a obtenção de conclusões sobre a essa população. » Parâmetros: são valores singulares que existem na população e que servem para caracterizá-la. » Estimativa: um valor aproximado do parâmetro que é calculado com o uso da amostra. 12 UNIDADE I │ ESTATÍSTICA BÁSICA » Atributo: quando os dados estatísticos exibem um caráter qualitativo, o levantamento e os estudos imprescindíveis ao tratamento desses dados são designados de estatística de atributo. » Amostragem: é o processo de escolha da amostra, sendo a parte inicial do processo. › As regras de Amostragem podem ser classificadas em duas categorias gerais: · Probabilística, amostragem na qual a seleção é aleatória, de forma que cada elemento tem igual probabilidade de ser sorteado para a amostra. · Não probabilísticas, amostragem em que há uma escolha determinada dos elementos da amostra. › Os tipos de amostragem podem ser: · Amostragem aleatória simples, neste processo, todos os elementos da população têm igual probabilidade de serem escolhidos, desde o início até completo processo de coleta. · Amostragem sistemática, trata-se de uma variação da amostragem simples ao acaso, muito conveniente quando a população está naturalmente ordenada, como fichas em um fichário ou listas telefônicas. · Amostragem estratificada, quando se possui uma população com uma certa característica heterogênea, na qual pode-se diferenciar subpopulações mais ou menos homogêneas, chamadas de estratos. » Mensuração: atribuição de um número a qualidades de um objeto ou fenômeno segundo regras pré-determinadas. » Variável: o conjunto de resultados possíveis de um fenômeno. Há quatro níveis básicos, de mensuração (quatro tipos de variáveis): nominal, ordinal, intervalar e razão. 1. Escala nominal: o nível mais simplicista das escalas de medida, sendo empregada na classificação de objetos ou fenômenos em termos de igualdade dos seus atributos e numerá-los. O exemplo mais simples é 13 ESTATÍSTICA BÁSICA │ UNIDADE I formado pela divisão em duas classes que são identificadas com os números zero ou um, variável binária (0,1). 2. Escala ordinal: empregada quando os fenômenos ou observações podem ser arranjados segundo uma ordenação, por exemplo: grandeza, preferência, importância, distância, entre outros. 3. Escala intervalar: tem todas as características de uma escala ordinal, porém os intervalos entre os valores são conhecidos e assim cada observação pode receber um valor numérico preciso. A extensão de cada intervalo sucessivo é constante. O ponto zero de uma escala intervalar é arbitrário e não indica ausência da característica medida. Exemplo: numeração dos anos, e escalas de temperatura. 4. Escala de razão: semelhante as características de uma escala de intervalo, com a vantagem de que o ponto zero representa uma origem verdadeira (zero indica ausência de fenômeno). É considerada a mais precisa de todas. Exemplo: escala métrica, idades e distância entre outras. Segundo o nível introdutório, a estatística pode ser dividida em três grandes categorias: » Estatística Descritiva, que está relacionada a descrição tabular, gráfica e paramétrica dos dados obtidos experimentalmente, por meio de procedimentos de amostragem ou de experimentos realizados. » Probabilidade e Estatística matemática, que está relacionada a ocorrência dos eventos e das variáveis aleatórias que os descrevem, fornecendo os fundamentos da teoria estatística. » Inferência Estatística, que está relacionada a estimação por intervalo e por região, os testes de hipóteses sobre parâmetros populacionais. O emprego de grandes números de dados é uma práticacomum nesta ciência e para simplificar seu manuseio, faz-se uso de variáveis. Elas podem ser classificadas em variáveis quantitativas ou numéricas e variáveis qualitativas ou atributos: » Variáveis quantitativas ou numéricas são aquelas que descrevem quantidades, ou seja, seus valores são descritos por números. Elas podem ser ainda divididas em discretas (quando assumem um número determinado de valores no campo dos reais, por exemplo, contagens) e em contínuas (em outros casos, admitem valores fracionados). O conceito de 14 UNIDADE I │ ESTATÍSTICA BÁSICA variável discreta e contínua é considerado simples, contudo, pode causar alguma confusão em tratamentos estatísticos mais elaborados. » Variáveis qualitativas ou atributos são aquelas que descrevem qualidades, ou seja, não se utiliza números para descrevê-las. Elas podem ser divididas em ordinais (se os valores agregam a ideia de ordem) e nominais (não agregam a ideia de ordem). Independentemente da situação estudada, em áreas da medicina, engenharia ou qualquer outra atividade, as etapas dos processos estatísticos são semelhantes. Na figura 1 abaixo podemos observar de forma detalhada as etapas básicas de um processo estatístico. Figura 1. Fluxograma de um processo estatístico padrão. Coleta Tabulação Apresentação Análise Direta Indireta Crítica Apuração Resumo dos dados Conclusão e interpretação Descritiva Estatística inferencial e multivariada Fonte: Adaptada de https://goo.gl/38ATrT (ESTATÍSTICA, 2018). Onde: » Coleta de dados. › Refere-se a obtenção, reunião e registro sistemático de dados, com o objetivo já pré-definido. A escolha da fonte de obtenção dos dados está diretamente relacionada ao tipo do problema, objetivos do trabalho, escala de atuação e disponibilidade de tempo e recursos. Existem as fontes primárias (levantamento direto no campo por meio de mensurações diretas ou de entrevistas aplicadas a sujeitos de interesse para a pesquisa e as fontes secundárias (publicações ou registros por outra organização). A coleta de dados secundários é feita por 15 ESTATÍSTICA BÁSICA │ UNIDADE I documentos cartográficos. Estas fontes de informação são de extrema relevância. › A coleta dos dados pode ser realizada de forma direta (quando são obtidos diretamente da fonte primária, como por exemplo os levantamentos de campo por meio de questionários) ou indireta (quando é inferida a partir dos elementos conseguidos pela coleta direta, ou por conhecimento de outros fenômenos que estejam relacionados com o fenômeno em questão). » Tabulação (Crítica dos dados e Apuração). › A crítica dos dados deve ser realizada cuidadosamente por meio de um trabalho de revisão e correção, denominado de crítica, objetivando a não ocorrência de erros que possam influenciar de maneira significativa nos resultados. › As perguntas dos questionários não entendidas, os enganos evidentes, tais como somas erradas, trocas de respostas, entre outros, são de correção fácil. Contudo, faz-se necessário, que o crítico não faça a correção por simples suposição sua, mas sim, que tenha chegado a conclusão total do engano. › O processo de apuração consiste no resumo dos dados por meio de sua contagem ou agrupamento. Por meio da apuração, é possível a condensação dos dados, obtendo-se um conjunto compacto de números, o qual possibilita diferenciar o comportamento do fenômeno na sua maioria. » Apresentação. › Organização do conjunto de dados de modo prático e racional. Essa organização é denominada de Série Estatística. Sua apresentação pode ser por tabelas ou gráficos. A apresentação utilizando tabelas, consiste em preparar os dados em linhas e colunas distribuídos de modo ordenado, de acordo com algumas regras práticas seguidas pelo Conselho Nacional de Estatística. As tabelas têm a vantagem de conseguir expor, em um só local, os resultados sobre determinado assunto, de modo a se obter uma visão geral mais rápida daquilo que se pretende analisar. Já a apresentação através de gráficos, consiste em 16 UNIDADE I │ ESTATÍSTICA BÁSICA uma apresentação geométrica dos dados, isto é, ela permite ao analista obter uma visão rápida, fácil e clara do fenômeno e sua variação. » Análise. › Obtenção de conclusões que auxiliem o pesquisador a resolver seu problema. A análise dos dados estatísticos está ligada fundamentalmente ao cálculo de medidas, cujo objetivo principal é descrever o fenômeno. Assim sendo, o conjunto de dados a ser analisado pode ser expresso por número-resumo, que evidenciam características particulares desse conjunto. › Às vezes é necessário resumir certas características das distribuições de dados por determinadas quantidades, que são denominadas comumente de medidas. Existem medidas de posição e medidas de dispersão, consideradas mais importantes no campo da aplicabilidade prática do cotidiano. Tais medidas tem como objetivo: a localização de uma distribuição e a caracterização de sua variabilidade. › As medidas de posição também chamadas de Tendência Central, são utilizadas para localizar a distribuição dos dados brutos ou das frequências sobre o eixo de variação da variável em questão. Veremos posteriormente no Capítulo 3 desta unidade os três tipos principais de medidas de posição: · Média aritmética, é obtida somando todos os valores de um conjunto de dados e dividindo o valor encontrado pelo número de dados desse conjunto. · Mediana, é uma quantidade que, como a média, também caracteriza o centro de uma distribuição pertencente a um conjunto de dados. · Moda, é uma quantidade que, como a média, também caracteriza o centro de uma distribuição, indicando a região das máximas frequências. › As medidas de dispersão ou de variabilidade são consideradas complementos das informações fornecidas pelas medidas de posição. Essas medidas servem para indicar o “quanto os dados se apresentam dispersos em torno da região central”. Deste modo, caracterizam o grau de variação existente em um conjunto de valores. Os principais tipos de medidas de dispersão são: 17 ESTATÍSTICA BÁSICA │ UNIDADE I · Amplitude, é definida como a diferença entre o maior e o menor valores do conjunto de dados. · Variância, definida como a média dos quadrados das diferenças entre os valores em relação a sua própria média. · Desvio Padrão, é definido como a raiz quadrada positiva da variância. · Coeficiente de Variação, é definido como o quociente entre o desvio padrão e a média, sendo comumente expresso em porcentagem. Caro estudante, você estudou sobre os conceitos de estatística mais comumente utilizados em distintas áreas do conhecimento. Vale ressaltar que é muito importante que outras fontes sobre o assunto abordado sejam buscadas, deste modo, sugerimos a consulta do seguinte link: http://www.portalaction.com.br/ estatistica-basica (ESTATÍSTICA BÁSICA, 2018). 18 CAPÍTULO 2 Estatística descritiva, probabilidade e inferência estatística Como dito no capítulo anterior a Estatística pode ser divididas em três categorias: Descritiva, Probabilidade e Inferência. Estatística descritiva A estatística descritiva é a etapa inicial da análise empregada para descrever e resumir os dados, objetivando facilitar a compreensão e a utilização da informação ali contida, ou seja, na Estatística Descritiva faz-se necessário a utilização de tabelas, gráficos, diagramas, distribuições de frequência e medidas descritivas a fim avaliar o formato geral da distribuição dos dados, a verificação da ocorrência de valores não típicos, a identificação de valores típicos que informem sobre o centro da distribuição e a verificação do grau de variação presente nos dados. Um dos objetivos da Estatística é resumir os valores que uma ou mais variáveis podem assumir, para que se tenha uma visão global dessas variáveis. Isto é possível por Séries Estatísticas que apresentam valores em tabelas e gráficos, fornecendo de forma maisrápida e segura informações das variáveis estudadas, permitindo assim determinações mais coerentes: Tabelas Por definição, é um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. Denomina-se Série Estatística toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local, ou da espécie (fenômeno). Em uma série estatística observa-se a existência de três fatores: o tempo, o espaço e a espécie. Conforme a variação de um desses elementos, a série estatística classifica-se em: » Série temporal, histórica ou cronológica: é a série cujos dados estão variando com o tempo. » Série geográfica, territorial ou de localidade: é a série cujos dados estão em correspondência com a região geográfica, isto é, o elemento variável é o fator geográfico (a região). 19 ESTATÍSTICA BÁSICA │ UNIDADE I » Série específica ou categórica: é a série cujos dados estão em correspondência com a espécie, isto é, variam com o fenômeno. » Séries mistas: são as combinações entre as séries anteriores constituindo novas séries denominadas séries mistas e são apresentadas em tabelas de dupla entrada. Como exemplo pode se citar uma Série Temporal- Específica, os elementos variáveis são o tempo e a espécie e o elemento fixo é o local. » Série homógrada: é aquela em que a variável descrita apresenta variação discreta ou descontínua. São séries homógradas a série temporal, a geográfica e a específica. » Série heterógrada: é aquela na qual o fenômeno ou fato apresenta gradações ou subdivisões. Esse fenômeno varia em intensidade. Exemplos: a distribuição de frequências ou seriação. É de extrema relevância saber que uma tabela nem sempre representa uma série estatística, pois pode ser um aglomerado de informações úteis sobre um determinado assunto. Fique atento! Gráficos Vale ressaltar que a apresentação gráfica é um complemento importante da apresentação em tabelas. A vantagem de um gráfico em relação a tabela está na possibilidade de uma rápida impressão visual da distribuição dos valores ou das frequências ressaltadas. Os gráficos proporcionam uma ideia a princípio mais satisfatória da concentração e dispersão dos valores, já que por meio deles os dados estatísticos são visualmente interpretáveis. Podemos dizer que os requisitos fundamentais de um gráfico são: sua simplicidade (deve possibilitar a análise rápida do fenômeno observado), clareza (deve possibilitar interpretações corretas dos valores do fenômeno), e veracidade (deve expressar a verdade sobre o fenômeno notado). Os gráficos podem ser classificados quanto: a forma e ao objetivo. Os tipos de gráficos quanto à forma são: » Diagramas: gráficos geométricos dispostos em duas dimensões. São mais usados na representação de séries estatísticas (gráficos em barras horizontais, barras verticais - colunas, barras compostas, colunas superpostas, em linhas, e em setores). 20 UNIDADE I │ ESTATÍSTICA BÁSICA » Cartogramas: é a representação sobre uma carta geográfica. São mais empregados na Geografia, História e Demografia. » Estereogramas: representam volumes e são apresentados em três dimensões. São usados comumente em representações gráficas das tabelas de dupla entrada. » Pictogramas: a representação gráfica consta de figuras representativas do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção de qualquer público, pois possui forma sugestiva. Contudo, apresentam uma visão geral do fenômeno, sendo isso uma desvantagem, já que não mostram detalhes mais específicos. Os tipos de gráficos quanto aos objetivos são: » Gráficos de informação: objetivam uma visualização rápida e clara da intensidade das categorias ou dos valores relativos ao fenômeno. São gráficos expositivos, e que procuram dispensar comentários explicativos, isto é, sendo o mais completo possível. » Gráficos de análise: objetivam fornecer informações importantes na fase de análise dos dados. Esses gráficos comumente vêm acompanhado de uma tabela e um texto onde é destacado os pontos principais revelados pelo gráfico ou pela tabela. Distribuição de frequências e gráficos Uma forma eficiente de sumarização se faz necessário para muitos dados. Uma das formas comumente utilizada para resumir e apresentar dados é por meio de tabelas de distribuição de frequências, podendo ser de dois tipos: » Classificação simples: representadas por tabelas de frequências relacionadas a uma variável. As características dessas tabelas variam de acordo com o tipo de variável em estudo, podendo do tipo categórica ou do tipo numérica contínua. » Classificação cruzada: existem algumas situações em que é realizado um estudo de duas ou mais variáveis ao mesmo tempo. Com isso, surgem as distribuições conjuntas de frequências, isto é, relacionadas a duas variáveis, numéricas ou categóricas. 21 ESTATÍSTICA BÁSICA │ UNIDADE I As distribuições de frequências podem ser também representadas graficamente de duas formas diferentes: » Histograma, consiste em um conjunto de retângulos contíguos cuja base é igual à amplitude do intervalo e a altura proporcional à frequência das respectivas classes). » Polígono de frequências, que é constituído por segmentos de retas que unem os pontos cujas coordenadas são o ponto médio e a frequência de cada classe. É importante mencionar também as medidas descritivas, que objetiva a redução de um conjunto de dados observados (numéricos) a um pequeno grupo de valores que deve fornecer toda a informação relevante relacionadas a esses dados. Estas medidas podem ser classificadas em quatro grupos distintos: » Medidas de localização: indicam um ponto central, está localizada a maioria das observações. As medidas mais utilizadas são a média aritmética, a mediana e a moda. » Medidas separatrizes: indicam limites para proporções de observações em um conjunto, podendo ser utilizadas para construir medidas de dispersão. » Medidas de variação ou de dispersão: informam sobre a variabilidade dos dados. As medidas mais utilizadas são: a amplitude total, a variância, o desvio padrão e o coeficiente de variação. » Medidas de formato: informam sobre o modo como os valores se distribuem. As medidas mais utilizadas e precisas são as medidas de assimetria, que indicam se a maior proporção de valores está no centro ou nas extremidades, e as medidas de curtose, que descrevem grau de achatamento da distribuição. É importante para o estudo da Estatística como ciência, o conhecimento detalhado sobre seus fundamentos, dessa forma indicamos uma leitura complementar sobre a Estatística Descritiva com exemplicações a seguir: https://fenix.tecnico. ulisboa.pt/downloadFile/3779573118035/Estatistica_Descritiva_2008_09.pdf (ESTATÍSTICA DESCRITIVA, 2018). 22 UNIDADE I │ ESTATÍSTICA BÁSICA Probabilidade A probabilidade tem por finalidade descrever os fenômenos aleatórios, isto é, aqueles em que está presente a incerteza. Há dois tipos de modelos matemáticos: » Modelos Determinísticos: é apresentado como um modelo que estipule que as condições sob as quais um experimento seja realizado, possam determinar o resultado do experimento. O modelo determinístico necessita do uso de parâmetros pré-definidos em equações que definem processos precisos. » Modelos Não Determinísticos ou Probabilísticos: trazem informações sobre a chance ou probabilidade de os acontecimentos ocorrerem. Os conceitos básicos em probabilidade são experimentos aleatórios, espaço amostral e eventos. » Experimento aleatório (W): qualquer processo aleatório, que produza observações, e os resultados surgem ao acaso, podendo haver repetições no futuro. » Espaço amostral (S): é o conjunto de resultados possíveis, de um experimento aleatório. O número de elementos pode ser: finito (número limitado de elementos) e infinito (número ilimitado de elementos). » Evento: um evento (E) é qualquer subconjunto de um espaço amostral(S). No conceito empírico de probabilidade temos que o principal problema da probabilidade consiste na atribuição de um número a cada evento (E), o qual avaliará quão possível será a ocorrência de “E”, quando o experimento for realizado. Uma maneira de resolver a questão seria a determinação da frequência relativa do evento E (fr(E)): ( ) r númerodeocorrências doeventof E númeroderepetições doexperimento = Sendo assim, a probabilidade pode ser definida como: ( ) aP E a b = + No conceito clássica (“A priori”) de probabilidade temos que se existe “a” resultados possíveis favoráveis a ocorrência de um evento “E” e “b” resultados possíveis não favoráveis, sendo os mesmos mutuamente excludentes, então teremos: 23 ESTATÍSTICA BÁSICA │ UNIDADE I No conceito axiomática de probabilidade, define-se como seja (W) um experimento, seja (S) um espaço amostral associado a (W). A cada evento (E) associa-se um número real representado por P(E) e denominaremos de probabilidade de E, satisfazendo algumas propriedades que são conhecidas como axiomas da teoria da probabilidade. Os axiomas, algumas vezes, se inspiram em resultados experimentais de forma que a probabilidade possa ser confirmada experimentalmente. Caro estudante, o que reportamos acima foi apenas um pouco do amplo conteúdo sobre probabilidade que você poderá encontrar em outras fontes de consulta. Sugerimos como uma dessas fontes, o site a seguir:< http://www.portalaction. com.br/probabilidades/introducao-probabilidade > (PROBABILIDADE, 2018). Esperamos que possa se aprofundar mais nesse assunto. Inferência estatística Por definição, é um processo de raciocínio indutivo, em que se procuram tirar conclusões indo do particular, para o geral. É um tipo de raciocínio contrário ao tipo de raciocínio matemático, essencialmente dedutivo. É empregado quando o objetivo é o estudo de uma população, avaliando apenas alguns elementos dessa população, isto é, uma amostra. Por exemplo, em uma pesquisa científica, geralmente, o processo ocorre da seguinte maneira: são feitos levantamentos amostrais e experimentos são realizados com amostras, porém o pesquisador não quer suas conclusões limitadas à amostra com a qual trabalhou, ao contrário, o objetivo é expandir os resultados que obteve para toda a população. Dessa forma, o pesquisador quer fazer inferência. A Figura 2 apresenta esquematicamente como é o processo de inferência. Figura 2. Processo de Inferência Estatística. População Amostra Amostragem Resultados Inferência Fonte: Adaptada de https://goo.gl/VPheQv. Observando a figura 2 podemos chegar a seguinte explicação: para poder generalizar as conclusões obtidas da amostra para a população, é necessário que a amostra seja representativa da população e não somente que os dados sejam descritos bem. 24 UNIDADE I │ ESTATÍSTICA BÁSICA Isto significa que a amostra deve possuir as mesmas características básicas da população relacionadas às variáveis que se deseja pesquisar. A partir disso surgiu o conceito de erro provável. A possibilidade de erro é inerente ao processo de inferência, isto é, toda vez que se estuda uma população a partir de uma amostra, existe a possibilidade de se cometer algum tipo de erro de conclusão final. A maior aplicação da Inferência Estatística é fornecer métodos que admitam quantificar esse erro provável. Alguns conceitos fundamentais da Inferência Estatística foram estudados no capítulo 1, como, população, amostra e amostragem. Existem dois tipos de Inferência: estimação de parâmetros e testes de hipóteses: A estimação de parâmetros é realizada com o auxílio de um estimador, isto é, de uma fórmula que descreve o modo de calcularmos o valor de determinado parâmetro populacional. A estimação pode ser dividida em duas partes, estimação por pontos e estimação por intervalos. » Na estimação por ponto o objetivo é usar a informação amostral e apriorística para se calcular um valor que seria, em certo sentido, nossa melhor avaliação quanto ao valor de fato do parâmetro em questão. Na estimativa por intervalo utiliza-se a mesma informação com a finalidade de se produzir um intervalo que contenha o valor verdadeiro do parâmetro com algum nível de probabilidade. Como um intervalo está plenamente caracterizado por seus limites, a estimação de um intervalo equivale à estimação de seus limites. » Enquanto o teste de hipótese é um procedimento estatístico em que se busca verificar uma hipótese a respeito da população, no sentido de aceitá-la ou rejeitá-la, partindo de dados amostrais, baseados na teoria das probabilidades. Existem as hipóteses subjacentes, são aquelas informações que não se almeja que sejam expostas a testes. E as hipóteses testáveis que consistem em suposições remanescentes que devem ser testadas. O teste de hipótese é composto de três passos fundamentais: definição das hipóteses, estabelecimento dos limites entre as regiões de aceitação e rejeição e a obtenção do valor amostral do teste estatístico. Para garantir a independência entre os elementos da amostra, as escolhas devem ser feitas com reposição. Como os valores que compõem a amostra são aleatórios, qualquer função (total, média, variância, entre outros) dos elementos da amostra será também uma variável aleatória. Como as estatísticas são funções de variáveis aleatórias, também são variáveis aleatórias e, consequentemente, terão alguma distribuição de 25 ESTATÍSTICA BÁSICA │ UNIDADE I probabilidade com média, variância. A distribuição de probabilidade de uma estatística é chamada de distribuição amostral. Dessa forma, a inferência estatística visa inferir para a população a partir da amostra. Assim, todas as informações que temos sobre a população são advindas da amostra, isto é, trabalhamos efetivamente com estatísticas, que são variáveis aleatórias. Deste modo, é extremamente necessário que conheçamos as distribuições amostrais dessas estatísticas. A média da amostra () é a estatística mais utilizada devido suas propriedades interessantes. A Inferência Estatística é baseada em estatísticas amostrais. A chave para resolver as questões de Inferência Estatística consiste na caracterização probabilística da estatística amostral utilizada, identificando a distribuição de probabilidades da estatística amostral em causa e apurando os parâmetros importantes dessa distribuição. O uso generalizado da distribuição normal na estatística deve-se ao Teorema Central do Limite. Esse teorema apresenta três propriedades básicas: » A média da distribuição amostral é igual à média da população, e igual à média de uma amostra quando o tamanho da amostra tende ao infinito (segundo Lei dos Grandes Números). » A forma da distribuição amostral tende a assumir a forma de sino à medida que se aumenta o tamanho da amostra, e aproximadamente normal, independente da forma da distribuição da população. » A forma da distribuição amostral cresce em altura e decresce em dispersão à medida que o tamanho da amostra cresce. Consideremos uma população com média µ e desvio padrão σ, e selecionamos várias amostras de tamanho n. Para cada uma dessas amostras pode-se calcular a respectiva média. Pelo Teorema Central do Limite, a distribuição das médias destas amostras tende para uma distribuição normal com média µ (igual à média da população) e com desvio padrão. O desvio padrão da distribuição das médias amostrais recebe o nome de erro padrão da média. A Inferência Estatística é uma das áreas da Estatísticas mais utilizadas, contudo, é necessário que exista um aprofundamento sobre esse assunto. Assim, sugerimos que você, estudante, busque mais sobre esse tema e para ajudá-lo indicamos a consulta do seguinte arquivo disponível em:< https://goo.gl/4fm5VW> (INFERÊNCIA, 2018). 26 CAPÍTULO 3 Média, moda, mediana, desvio padrão, intervalo de confiança, testes t não pareado e pareado, teste Q Suponhamos que um analista de controle de qualidade de uma indústriaalimentícia queira determinar a concentração de cálcio em um determinado lote de bebida láctea, e faça a coleta aleatória de 3 embalagens desse mesmo lote para análise. Os resultados das análises (feitas em 5 réplicas) são mostrados na Tabela 1. Tabela 1. Resultados de concentração de Ca (em mg/g) para análise de 5 amostras de bebidas lácteas (n=3). Amostra Réplica 1 Réplica 2 Réplica 3 Réplica 4 Réplica 5 A 1,56 1,62 1,58 1,62 1,54 B 1,52 1,53 1,54 1,55 1,58 C 1,56 1,56 1,58 1,53 1,57 Fonte: Adaptado de Miller e Miller (2010). A partir dos resultados obtidos, podemos comparar eles utilizando parâmetros estatísticos que os relacionam a uma tendência central. A média aritmética ( é o valor numérico significativo que mostra que se concentram os dados combinados de uma dada distribuição, e pode ser obtida pela razão entre o somatório dos valores individuais () referentes ao conjunto de dados desejado () e o número de medidas (n), segundo (MILLER; MILLER, 2010): ixx n ∑ = Considerando os dados da tabela 1, podemos obter a média para cada uma das amostras. Para a amostra A, temos que = 1,56 + 1,62 + 1,58 + 1,62 + 1,54 = 7,92 e n = 5 (réplicas), obtendo-se assim um valor de = 7,92 / 5 = 1,58. De maneira análoga podemos obter os valores médios para as amostras B ( = 1,54) e C ( = 1,56). Note ainda que também podemos obter o valor médio para todo o conjunto de dados, sendo nesse caso = 23,44, n = 15 (5 réplicas de 3 amostras) e = 1,56. Note que quanto maior o número de réplicas, maior a proximidade do valor tido como verdadeiro (valor real da amostra) e maior a confiabilidade do resultado. A moda é definida como o(s) valor(es) que ocorrem com maior frequência dentro de um conjunto de dados amostral. Como esse parâmetro não é obtido por meio de uma fórmula específica como a média, para calculá-lo basta observar o conjunto de dados e 27 ESTATÍSTICA BÁSICA │ UNIDADE I verificar o valor que mais aparece. Considerando as amostras A e C individualmente, os valores de moda são 1,62 (amostra A) e 1,56 (amostra C), visto que cada um deles aparece um maior número de vezes (duas em cada conjunto). Para a amostra B, não há valores repetidos e, portanto, não há moda. Considerando agora o conjunto que engloba todas as amostras (n=15), temos dois valores de moda, 1,56 e 1,58, sendo assim, podemos dizer que este conjunto é bimodal. A mediana é caracterizada como resultado da divisão do conjunto de dados em dois subconjuntos de mesmo tamanho (metade menor e maior), ou seja, divide o conjunto ao meio. Em termos práticos, a mediana é obtida rearranjando-se os dados de forma crescente. Considerando a amostra A, temos o conjunto rearranjado como: {1,54, 1,56, 1,58, 1,62, 1,62}. Como nesse caso o número de dados é ímpar, o resultado da divisão desse conjunto ao meio é 1,58 (valor 1, valor 2, mediana, valor 4, valor 5). Suponhamos agora que o conjunto de dados seja par e dado pelo descarte do último valor, ou seja, {1,54, 1,56, 1,58, 1,62}. Nesse caso os valores que dividem o conjunto ao meio são 1,56 e 1,58, sendo a mediana obtida pela média dos valores ((1,56 + 1,58)/2), ou seja, 1,57. Se considerarmos o conjunto completo de dados (com n=15) teremos: {1,52, 1,53, 1,53, 1,54, 1,54, 1,55, 1,56, 1,56, 1,56, 1,57, 1,58, 1,58, 1,58, 1,62, 1,62}, sendo a mediana o 8º valor, ou seja, 1,56. Na determinação do grau de dispersão entre os dados de um conjunto, utilizamos o cálculo do desvio padrão (s) em torno de uma média. O desvio padrão é um parâmetro que sugere o quanto um conjunto de dados é uniforme, e quanto mais próximo de 0, mais homogêneos são os dados. De maneira genérica, o desvio padrão é dado pela raiz quadrada da relação entre somatório das diferenças entre os valores individuais ( )ix e médio ( )x ( ao quadrado ( )( )2ii x x−∑ e o número de dados menos um (n-1), de acordo com a relação (MILLER; MILLER, 2010): ( )2 2 1 ii x x s n − = − ∑ Observando os dados contidos na Tabela 1, o desvio padrão obtido para a amostra A, como mostrado na Tabela 2 é: 28 UNIDADE I │ ESTATÍSTICA BÁSICA Tabela 2. Dados (n=5) para o cálculo do desvio padrão (s) para a amostra A. Réplicas da amostra A (x i ) Média ( )x )−i(x x 2−i(x x) ( ) 2−∑ ii x x Desvio padrão (s) 1,56 1,58 -0,02 0,0004 0,0052 ( )2 2 1 ii x x s n − = − ∑ 0,0052 5 1 s = − 0,036s = 1,62 0,04 0,0016 1,58 0 0 1,62 0,04 0,0016 1,54 -0,04 0,0016 Fonte: adaptado de Miller e Miller (2010). Semelhantemente podemos obter os valores de desvio padrão para as amostras B (s = 0,023), C (s = 0,019), assim como todos os dados da Tabela 1 (s = 0,030). Comparando- se os desvios padrão para as 3 amostras, podemos inferir que os resultados para a amostra C apresentam os menores valores e, portanto, são mais homogêneos. Quando analisamos uma série de resultados experimentais, podemos descrever se o comportamento de fenômenos segue um determinado padrão. Para isso, utilizamos distribuições de probabilidades, sendo a distribuição normal uma das mais utilizadas. A distribuição normal (ou gaussiana) considera a frequência de ocorrência de um determinado dado numérico e pode ser facilmente verificada por gráfico do tipo histograma. Como exemplo, consideremos que a determinação de Ca na bebida láctea tenha sido realizada em 100 réplicas (n=100) e que obtemos as seguintes frequências de resultados: 1,52 (4x), 1,53 (5x), 1,54 (15x), 1,56 (62x), 1,58 (10x), 1,62(3x) e 1,63 (1x). Colocando esses resultados na forma de histograma, temos o gráfico de barras representado na Figura 3. Podemos assumir que a média populacional ( )x ( nos dá uma estimativa do valor tido como verdadeiro para a análise (μ), ou seja, μ = x . De maneira análoga, o desvio padrão dessa população (σ) é dado por ( )22 /ix nσ µ= ∑ − , sendo importante considerar que nesse caso utilizamos n e não n-1 como descrito para o cálculo do desvio padrão de uma amostra (s). Note que o rearranjo dos dados na forma de um gráfico de dispersão gera uma curva com formato de sino (curva gaussiana) sendo o ápice do pico o valor médio de μ = 1,56 e o desvio padrão calculado de σ = 0,02. 29 ESTATÍSTICA BÁSICA │ UNIDADE I Figura 3. Histograma e gráfico de distribuição normal. 0 10 20 40 30 50 60 70 1,52 1,53 1,54 1,56 1,58 1,62 1,63 Fr eq uê nc ia Concentração de Ca (mg/g) 0 10 20 40 30 50 60 70 1,5 1,52 1,54 1,56 1,58 1,6 1,64 1,62 Concentração de Ca (mg/g) Fr eq uê nc ia Fonte: Adaptado de Miller; Miller (2010). Na distribuição normal, aproximadamente 68% dos valores populacionais estão situados entre a média (μ) ± 1 desvio padrão (σ), 95% dos valores entre a média (μ) ± 2 desvios padrão (σ) e 99,7% dos valores entre a média (μ) ± 3 desvios padrão (σ), como ilustrado na Figura 4. No nosso exemplo prático, isso significa dizer que 68% dos valores estão entre 1,54 -1,58 (1,56 ± 0,02), 95% dos valores entre estão entre 1,52 -1,60 (1,56 ± 0,04) e 99,7% dos valores entre 1,50 -1,62 (1,56 ± 0,06). Figura 4. Propriedades da distribuição normal. µ - 1σ µ + 1σ µ - 2σ µ + 2σ µ - 3σ µ + 3σ 68% 95% 99,7 % Fonte: Adaptado de Miller; Miller (2010). Uma vez definida a tendência central (média) e observando a dispersão dos pontos em torno dela, isto é, o desvio padrão, determina-se que uma faixa de confiabilidade em torno da média na qual há maior probabilidade de o valor verdadeiro estar incluso. Quando assumimos uma distribuição normal, essa faixa é denominada intervalo de confiança (IC) e os extremos dessa são denominados limites de confiança. A amplitude do intervalo de confiança irá depender do quão certos queremos estar sobre a inclusão do valor verdadeiro, além do tamanho da amostra utilizado no processo. O nível de confiança geralmente situa-se entre 90% e 99%, sendo que valores abaixo desse nível apresentam baixa confiabilidade e valores acima, embora sejam associados a elevada confiança, geram intervalos muito largos ou requerem grandes amostraspopulacionais, o que pode inviabilizar o processo e elevar o custo. O nível de confiança mais utilizado 30 UNIDADE I │ ESTATÍSTICA BÁSICA em cálculos é o de 95%. Em termos práticos, isso significa que se você coletar 100 amostras populacionais e calcular 95% de intervalos de confiança, você esperaria que 95 destes contivessem o parâmetro em estudo (geralmente a média) e em 5 deles não, o que gera um erro de inferência de 5%. Quando trabalhamos com uma larga quantidade de amostras, os limites do intervalo de confiança podem ser calculados segundo (MILLER; MILLER, 2010): zsx n ± onde ( é o valor médio, z o coeficiente de confiança, s o desvio padrão da média e n o tamanho da amostra. O valor de z depende do nível de confiança escolhido, sendo z95% = 1,96 e z99% = 2,58. Quando uma pequena quantidade de amostras é submetida à análise, os limites de confiança são modificados e baseados na estatística t, segundo: ( )1 n t s x n −± onde nesse caso o valor de t depende não apenas do nível de confiança como também do tamanho da amostra, sendo o grau de liberdade dado por n-1. Na Tabela 3 são apresentados alguns valores de t para distintos graus de liberdade e níveis de confiança. Na literatura ainda podem ser encontrados outros valores tabelados (MILLER; MILLER, 2010). Note que quanto maior a população amostral, mais os valores de t se aproximam dos valores de z (1,96 para 95% e 2,58 para 99% de confiança) Tabela 3. Valores de t para diferentes níveis de confiança e graus de liberdade. Graus de liberdade (n-1) Valores de t para níveis de confiança de 90% 95% 99% 1 6,31 12,7 63,66 2 2,92 4,30 9,93 3 2,35 3,18 5,84 4 2,13 2,78 4,60 5 2,02 2,57 4,03 10 1,81 2,23 3,17 50 1,68 2,09 2,68 100 1,66 1,98 2,63 Fonte: Adaptado de Miller; Miller (2010). Retomemos agora o exemplo do Ca em bebidas lácteas e utilizemos os dados da Tabela 1 para o cálculo dos limites e intervalos de confiança para as amostras A, B e C a níveis de 95 e 99%. A Tabela 4, resume um exemplo de cálculo para esses parâmetros. Note que a população amostral é pequena, sendo então adotada a abordagem com valores de 31 ESTATÍSTICA BÁSICA │ UNIDADE I t, e que também temos 5 réplicas, logo, o número de graus de liberdade (n-1) é igual a 4 e o valor de t95% = 2,78 e t99% = 4,60. É importante verificar que em cada caso, quanto menor o desvio padrão, menor o intervalo de confiança e que quanto maior o nível de confiança, mais amplo o intervalo. Tabela 4. Exemplo de cálculo de intervalo de confiança utilizando os dados da tabela 1. Amostra Média ( )x Desvio padrão (s) Limite inferior ( )1−− n t s x n Limite superior ( )1−+ n t s x n Intervalo de confiança (IC) 95 % de confiança A 1,58 0,036 1,54 1,62 1,54 < µ <1,62 B 1,54 0,023 1,51 1,57 1,51 < µ <1,57 C 1,56 0,019 1,54 1,58 1,54 < µ <1,58 99 % de confiança A 1,58 0,036 1,65 1,51 1,51 < µ <1,65 B 1,54 0,023 1,59 1,49 1,49 < µ <1,59 C 1,56 0,019 1,52 1,60 1,52 < µ <1,60 Fonte: Adaptado de Miller e Miller (2010). Considerando ainda o problema do analista de controle de qualidade da indústria alimentícia, muitas vezes precisamos comparar o resultado determinado via análise química com um valor de referência, tido como valor verdadeiro, a fim de verificar se os resultados são significativamente semelhantes ou diferentes estatisticamente. Esse procedimento pode auxiliar o analista em tomadas de decisão, como por exemplo rejeitar ou não um determinado lote de produto que não apresenta conformidade. Para a comparação de médias, lançamos mão de testes de significância, sendo um dos mais empregados o teste t de Student. Esse teste quando aplicado tem por finalidade a comparação de médias com um valor verdadeiro (teste t não pareado) ou de comparação de duas médias não independentes (teste t pareado). No teste t, assumimos uma distribuição normal, com variância desconhecida e formulamos as chamadas hipóteses, que são definidas como sendo suposições quanto ao valor de um parâmetro populacional ou afirmação a respeito de sua natureza. As hipóteses são caracterizadas como nula (H0) que é a hipótese a ser testada e alternativa (H1) que é a hipótese contrária a H0. Considerando nosso exemplo para o cálcio, suponhamos que o valor verdadeiro seja μ = 1,56 mg/g Ca e que um conjunto de 5 análises (n=5) nos forneceu uma média = 1,55 e um desvio padrão = 0,02. Podemos então formular como hipótese nula que a média de resultados de análise ( é estatisticamente semelhante ao valor verdadeiro, ou seja H0 = 1,56, e como hipóteses alternativas que o ele seja menor (H1 < 1,56), maior (H1 > 1,56) ou diferente (H1 ≠ 1,56). Quando consideramos os valores 32 UNIDADE I │ ESTATÍSTICA BÁSICA menores ou maiores individualmente, as hipóteses são denominadas unilaterais e para valores diferentes, consideramos ambos os lados (maior e menor que 1,56), sendo esse chamado de bilateral. Normalmente, a hipótese nula é rejeitada P = 0,05, isto é, se a probabilidade P de ocorrer diferenças significativas for de até 5%, desta forma, obtendo- se um nível de confiança de 95%. Aplicando-se o teste t não pareado, calculamos então o valor de t (em módulo), segundo: calculado xt s n µ− = Substituindo-se os valores informados, temos um valor de tcalculado igual a 1,118. O valor de t calculado pode ser comparado com o valor de tcrítico que é disposto em tabelas como exemplificado na Tabela 3. Nesse caso, o valor de tcrítico é de 2,78 para 4 graus de liberdade (n-1) e com nível de confiança = 95%. Se tcalculado < tcrítico então a hipótese nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística em comparação ao valor verdadeiro, e se tcalculado > tcrítico, H0 é rejeitada e os resultados são diferentes estatisticamente a um nível de 95% de confiança. Consideremos agora que a amostra do exemplo anterior que foi analisada no laboratório da própria planta da indústria, que a média foi de 1x = 1,55 e o desvio padrão s1 = 0,02 (n=5), tenha sido enviada para um segundo laboratório credenciado, e que este obteve como resultados para um conjunto de 7 análises (n=7) uma média 2x = 1,53 e um desvio padrão s2=0,03. Nesse caso, podemos comparar as médias e desvios de cada laboratório e dizer se são semelhantes ou não estatisticamente utilizando o teste t pareado. Dessa forma, consideramos que a hipótese nula (H0) é de que os resultados interlaboratoriais são semelhantes 2 2( )x x= e como hipótese alternativa (H1) que são diferentes 2 2( )x x≠ . Devemos nos atentar também ao fato de que os tamanhos de amostra são diferentes (n1 = 5 e n2 = 7) e que os desvios são diferentes (s1 ≠ s2). Se os desvios não forem muito diferentes, podemos combiná-los de acordo com: ( ) ( )2 21 1 2 2 1 2 1 1 2 n s n s S n n − + − = + − No nosso exemplo, o valor calculado de desvio agrupado é S = {[(5-1) x (0,02)2 + (7-1) x (0,03)2]/(5+7-2)}, ou S = 0,07. Na determinação do valor de tcalculado, podemos aplicar a relação seguinte (em módulo): 1 2 2 1 2 1 1 calculado x xt S n n − = + 33 ESTATÍSTICA BÁSICA │ UNIDADE I Substituindo-se os valores informados, temos um valor de tcalculado igual a 0,488. O valor de t calculado pode ser comparado com o valor de tcrítico, sendo o número de graus liberdade igual a n1 + n2 – 2. No nosso exemplo, para 10 graus de liberdade temos o valor de tcrítico = de 2,23 a um nível de 95% de confiança. Como tcalculado < tcrítico então a hipótese nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística entre as duas médias de resultados. Todos nós estamos familiarizados com o termo “um ponto fora da curva” quando descrevemos um comportamento considerado anormal frente a uma tendência. Nas ciências experimentais, podemos nos deparar muitas vezes com um dado discrepante e que pode gerar resultados subestimados ou superestimados com erros maiores. Para descobrir se um outlier (resultado inesperado) deve ser mantido no conjuntode dados ou descartado, podemos aplicar o teste Q. Esse teste é bastante popular devido a sua simplicidade e deve ser aplicado a dados provenientes de uma mesma população, assumindo também uma distribuição normal dos erros. O valor de Qcalculado pode ser obtido (em módulo) segundo: calculado valor suspeito valor mais próximoQ valor maior valor menor − = − O valor de Qcalculado é então comparado com o de Qcrítico, conforme apresentado na Tabela 5 para diferente tamanho de amostra e níveis de confiança. Tabela 5. Valores de Q para diferentes níveis de confiança e tamanho da amostra. Tamanho da amostra (n) Valores de Q para níveis de confiança de 90% 95% 99% 3 0,941 0,970 0,994 4 0,765 0,829 0,926 5 0,642 0,710 0,821 6 0,560 0,625 0,740 7 0,507 0,568 0,680 10 0,412 0,466 0,568 20 0,300 0,342 0,425 30 0,260 0,298 0,372 Fonte: Adaptado de Miller e Miller (2010). Consideremos como exemplo o seguinte conjunto de resultados {0,402, 0,410, 0,400, 0,360, 0,401, 0,412, 0,407}, temos uma média de 0,399 e um desvio padrão de 0,018. Nesse caso, o valor 0,360 é o suspeito de ser discrepante, 0,400 é o mais próximo do mesmo e os valores máximo e mínimo são de 0,412 e 0,360, respectivamente. Aplicando o teste Q, temos o valor calculado dado por Qcalculado = (0,360 – 0,400) / (0,412-0,360) = 0,769. Com um tamanho de amostra de 7 e para um nível de confiança = 95%, o valor 34 UNIDADE I │ ESTATÍSTICA BÁSICA de Qcrítico é igual a 0,568. Assim como ocorre para o teste t, como o valor crítico é maior que o valor calculado, o resultado suspeito deve ser rejeitado. Note que ao rejeitarmos o resultado, nossa nova média é de 0,405 e o desvio de 0,005, os quais traduzem de maneira mais fiel o comportamento do conjunto de dados. Caro estudante, você estudou nesta unidade sobre alguns conceitos de estatística básica, pois o planejamento experimental depende fortemente do entendimento destes princípios. Com isso, sugerimos que consulte o link a seguir para um aprofundamento detalhado deste assunto: https://www. measureevaluation.org/resources/training/capacity-building-resources/data- quality-portuguese/moduloII_capa.pdf (NOÇÕES DE ESTATÍSTICA, 2018). 35 UNIDADE II TRABALHANDO COM DADOS MULTIVARIADOS CAPÍTULO 1 Análise exploratória de dados A estatística descritiva pode ser dividida entre métodos univariados e multivariados. A análise univariada descreve as características e comportamentos de dados e resultados quando se analisa uma única variável separadamente. Porém, muitos são os casos em que temos múltiplas variáveis dependentes e independentes, o que consequentemente faz com que outros métodos multivariados para explorar a influência e a inter- relação entre cada uma delas sejam utilizados. Devido à complexidade da análise de dados multivariados, vários softwares como Mathlab, Unscrumbler, Pirouette, SIMCA, Statistica (pagos), Octave e Scilab (livres) podem ser utilizados para análises exploratórias, construção de modelos e planejamento experimental. Em virtude disso, os métodos a seguir descritos serão abordados apenas em termos de seus fundamentos básicos e alguns exemplos práticos. A análise exploratória de dados é uma abordagem estatística empregada no reconhecimento de regularidades e padrões de um conjunto de dados multivariado para retirar as informações mais importantes, encontrando tendências, agrupando conjuntos de acordo com similaridades e detectando comportamentos anômalos. Com o advento da microeletrônica e o desenvolvimento de computadores com capacidade de extrair e armazenar uma grande quantidade de dados em um intervalo de tempo breve, faz-se necessário o emprego de ferramentas matemáticas e estatísticas para o processamento desses dados e obtenção de informações valiosas sobre o problema em estudo, auxiliando assim em uma futura tomada de decisões (FERREIRA et al., 1999). Método da análise de componentes principais (PCA) A análise de componentes principais (PCA, do inglês Principal Component Analysis) é um método que utiliza a projeção de dados multivariados e visa a transformação 36 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS deles de modo a reduzir sua dimensão e deixar mais evidentes as informações mais relevantes. Essa metodologia é bastante útil na identificação de diferenças entre as variáveis e visualização de comportamentos atípicos em determinadas amostras, o que é especialmente útil em processos de controle de qualidade industriais. Um exemplo prático que melhor ilustra um método de projeção é a fotografia. Considerando uma paisagem, temos um espaço tridimensional (3 variáveis – altura, largura e profundidade) que é projetado num espaço bidimensional (papel) contendo menos variáveis que o conjunto de informações original. Nesse caso, dizemos que ocorre uma compressão controlada dos dados (perda de informações) mas que nos fornece uma melhor compreensão dos mesmos (FERREIRA, 2015). Suponhamos que o nosso analista da indústria de laticínios tenha determinado a concentração de cálcio em uma bebida utilizando um método instrumental de análise chamado espectrometria de emissão atômica, e que tenha avaliado os comprimentos de onda (λ) de 393,3 nm e 422,6 nm. para amostras com concentração crescente de Ca. A Tabela 6 ilustra os resultados obtidos, e é possível verificar que nesse caso temos duas variáveis (λ1 e λ2) e que essas são intrinsicamente dependentes apenas a concentração. Tabela 6. Resultados para determinação espectrométrica de Ca. Concentração de Ca (mg/L) Intensidade de sinal para λ1 (393 nm) Intensidade de sinal para λ2 (422 nm) 1 1005 2090 2 2030 3900 5 5003 9020 10 11070 20970 20 20100 39200 25 24200 50900 Fonte: Adaptado de Miller e Miller (2010). Um gráfico de relação entre as variáveis intensidade para λ1 vs. intensidade para λ2 poderia ser representado por uma série de pontos bidimensional (Figura 5). Note que o gráfico obtido utilizando os dados da Tabela 6, apresenta comportamento linear e uma boa correlação entre os pontos (R2 = 0,9986), indicando assim uma correlação entre as variáveis estudadas (λ1 e λ2). Tendo então, variáveis que se correlacionam, pode- se combiná-las e agrupá-las para comprimir os dados e reduzir a o número menor de novas variáveis que ainda podem trazer informações significativas. Essas novas variáveis combinadas são chamadas de componentes principais. 37 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Figura 5. Gráfico de intensidades de sinal para Ca em 393 e 422 nm a partir de dados da Tabela 5. R² = 0,9986 0 10000 20000 30000 40000 50000 60000 0 5000 10000 15000 20000 25000 30000 In te ns id ad e (4 22 n m ) Intensidade (393 nm) Fonte: Adaptado de Miller e Miller (2010). As componentes principais apresentam como característica intrínseca o fato de serem ortogonais e não se correlacionarem entre si, visto que a informação presente em cada uma delas é única. Além disso, cada uma das componentes principais descreve uma quantidade de informação dos dados originais. A primeira (PC1) descreve a direção de máxima variância dos dados originais e a segunda (PC2), descreve a máxima variância dos dados na direção ortogonal a PC1. As componentes posteriores são ortogonais às anteriores, descrevendo assim a variância restante. O número de componentes principais que é adequado para descrever um determinado sistema é chamado de posto químico do conjunto de dados. Após definir o número de PCs e de determinar o posto químico, os dados podem ser projetados num novo sistema (FERREIRA, 2015). Para facilitar a visualização, procederemos um tratamento matemático chamado “centrar na média” (CM), significa dizer que a média de um conjunto de dados de uma variável é calculada e então subtraída de cada um dos elementos. Outro tratamento bastante empregado é o “autoescalamento” (AE), após centrado na média, o valor resultante é dividido pelo desvio padrão referente àquela coluna de dados, o queauxilia a tornar mais evidente a correlação entre as variáveis (FERREIRA et al., 1999). Quando trabalhamos com métodos multivariados, é interessante organizar os dados em uma forma mais fácil de realizar os cálculos. Quando coletados, os dados podem ser organizados em um arranjo de “I” linhas e “J” colunas, chamado de matriz X, em que cada linha corresponde a uma amostra e cada coluna uma variável estudada. Dessa forma, podemos dizer por exemplo que 1Ix é o valor para a I-ésima linha e primeira coluna, 4 jx o valor para a J-ésima coluna da quarta linha e o valor para a I-ésima linha e J-ésima coluna. 38 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS [ ] 11 12 11 21 22 22 31 32 33 1 2 3 4 41 42 44 1 2 T J T J T J JT J T I I IJI x x x x x x x x x x x x x x x × × × = = = × × × × … × × … … … … × X Cada amostra i (x1J, x2J ... xIJ) pode ser associada a um vetor-linha (), composto pelos J valores de medidas realizados para os parâmetros estudados para aquela amostra. Esse vetor pode ser associado a um ponto no espaço com dimensão igual a J. De maneira análoga, para cada variável j (xI1, xI2 ... xIJ) pode-se associar um vetor (xj) a um ponto no espaço com dimensão I (FERREIRA et al., 1999). Note que a representação de matriz é usualmente feita na forma de coluna e que a matriz-linha gerada é a transposta (T) da matriz para determinada coluna. [ ] 1 2 3 1 2 3 4 j j jT i i i i iJ j j Ij x x x x x x x x x × = × = Consideremos agora que nosso analista da indústria de laticínios tenha determinado a concentração de cálcio e de magnésio em matéria prima de leite por medidas de titulação em 6 amostras. Os resultados são descritos na Tabela 7. Tabela 7. Resultados para determinação de Ca e Mg em leite e tratamentos matemáticos de centragem na média (CM) e autoescalamento (AE). Amostra [Ca] (mg/L) [Mg] (mg/L) [Ca] CM [Mg] CM [Ca] AE [Mg] AE A 1,52 0,76 -2,375 -1,193 -1,35 -1,36 B 2,56 1,29 -1,335 -0,663 -0,76 -0,75 C 3,48 1,75 -0,415 -0,203 -0,24 -0,23 D 4,21 2,11 0,315 0,157 0,18 0,18 E 5,28 2,66 1,385 0,707 0,79 0,80 F 6,32 3,15 2,425 1,197 1,38 1,36 Média 3,90 1,95 - - - - Desv. Pad. - - 1,76 0,88 - - Fonte: Adaptado de Miller e Miller (2010). 39 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II No nosso exemplo, a matriz X é composta por 6 amostras (linhas) e 2 variáveis (colunas), ou seja, 6x2. Dessa forma, podemos reescrever os dados da Tabela 6 em termos de matrizes dos dados originais (X), centrados na média (Xcm) e autoescalados (Xae), como descrito abaixo: 1,52 0,76 2,375 1,193 1,35 1,36 2,56 1,29 1,335 0,663 0,76 0,75 3,48 1,75 0,415 0,203 0,24 0,23 4,21 2,11 0,315 0,157 0,18 0,18 5,28 2,66 1,385 0,707 6,32 3,15 2,425 1,197 − − − − − − − − − − − − = = = cm aeX X X 0,79 0,80 1,38 1,36 A Figura 6 mostra o gráfico de correlação entre os dados originais, centrados na média e autoescalados. Figura 6. Gráficos de correlação para os dados da Tabela 7. 2 3 4 5 6 7 1 1,5 2 2,5 3 3,5 C on ce nt ra çã o de C a Concentração de Mg Dados originais -3 -2 -1 0 1 2 3 -1,5 -1 -0,5 0 0,5 1 1,5 C on ce nt ra çã o de C a Concentração de Mg Centrado na média Autoescalado 2 3 4 5 6 7 1 1,5 2 2,5 3 3,5 C on ce nt ra çã o de C a Concentração de Mg Dados originais -3 -2 -1 0 1 2 3 -1,5 -1 -0,5 0 0,5 1 1,5 C on ce nt ra çã o de C a Concentração de Mg Centrado na média Autoescalado Fonte: Adaptado de Miller e Miller (2010). 40 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS A análise de componentes principais utilizando o software, nos fornece duas novas variáveis, a PC1 e PC2. A primeira tem como característica apresentar o maior espalhamento dos pontos ao longo do eixo e a segunda descreve a informação restante dos dados em termos de variância. A representação gráfica das componentes principais se encontra na Figura 7. Para melhorar a visualização das componentes, podemos rotacionar os dados de modo que a PC1 se torne o eixo x e a PC2 o eixo y. Figura 7. Gráficos de PCA para as 6 amostras de leite analisadas. C on ce nt ra çã o de M g -0,2 -0,15 -0,1 -0,05 0 0,05 0,1 0,15 0,2 -3 -2 -1 0 1 2 3 PC 2 PC1 Fonte: Ferreira, (2015). É importante notar que nesse caso, o gráfico de PCA com as variáveis combinadas linearmente e as coordenadas de seus pontos são distintas das dos gráficos de correlação entre as variáveis originais mostradas. No gráfico PC1 x PC2, as novas coordenadas são chamadas de “scores” e os coeficientes de combinação linear (ou seja, o quanto cada variável antiga contribui no gráfico), chamados de “loadings”. Na prática, os scores nos fornecem a composição das componentes principais em relação às amostras e os loadings a composição das componentes principais em relação às variáveis. Esse conjunto de parâmetros nos possibilita estimar a influência de cada variável em cada amostra 41 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II individual. O cálculo de scores e loadings pode ser realizado por diferentes métodos, sendo um dos mais usados o de decomposição por valores singulares (SVD). Como exemplo prático podemos destacar um trabalho de tese de doutorado sobre adulteração de leite (SANTOS, 2013). A autora avaliou a adulteração de leite com água, soro, leite sintético, urina sintética e peróxido de hidrogênio, além de misturas de adulterantes em vários níveis (presença de 5 a 50% de adulterante), constituindo ao todo mais de 1.000 amostras de leite. Foram avaliados como respostas 10 variáveis diferentes, todas relacionadas à análise de imagens digitais, e foi aplicada então uma PCA para avaliar sobreposições e/ou tendências de separação entre as amostras. A Figura 8 mostra um gráfico de scores para amostras de leite sem adulteração e adulterados em vários níveis. Verifica-se que há um agrupamento das amostras de acordo com o teor de adulteração: grupo 1 com 50% de adulteração (símbolos brancos), grupo 2 com 35% de adulteração (símbolos cinza escuro), grupo 3 com 5-25% de adulteração (símbolos cinza-claros) e amostras não adulteradas (preto). Verifica-se que não foi possível a distinção entre o tipo de adulterante empregado e que as classes de amostras com 5, 15 e 25% de alteração se sobrepuseram, indicando similaridade. Figura 8. Gráfico de scores para amostras de leite com e sem adulteração. Fonte: SANTOS, (2013). É importante verificar que a PC1 explica 77% das variâncias do conjunto de dados e a PC2 17%, sendo que juntas essas informações constituem cerca de 94% do conjunto de dados original. No gráfico de loadings (Figura 9), é possível observar quais variáveis são mais significativas para separação e/ou agrupamento das amostras. 42 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS Nota-se que as variáveis V, B, L, R, G, r e g (loadings positivos para PC1) apresentaram valores maiores para essas variáveis em leites não adulterados ou com 5-25% de adulteração do que em leites adulterados com 35 e 50%. Figura 9. Gráfico de loadings para amostras de leite com e sem adulteração. Fonte: SANTOS, (2013). Caro estudante, mantenha-se atento a leitura desse capítulo, são assuntos de extrema relevância para entendimentos futuros, sugerimos como leitura que consulte o seguinte link que fala um pouco mais sobre PCA: https://goo. gl/2PZwdt (PCA, 2018). Análise hierárquica de agrupamentos (HCA) A análise hierárquica de agrupamentos (HCA, do inglês Hierarchical Cluster Analysis) é um método hierárquico, ou seja, constituído por um arranjo de itens (objetos, valores, categorias etc.) que são representados como estando “acima”, “abaixo” ou “no mesmo nível” um do outro. A HCA é considerada um método aglomerativopois considera cada objeto como um grupo unitário que vai se unindo por similaridade a outros até chegar a um grupo mais amplo. A matriz inicial de dados é processada e dimensionalmente reduzida pelo agrupamento por pares semelhantes sucessivos, até que a reunião de todos os grupos chegue a um único grupo. A HCA é feita com a finalidade de traduzir os dados em um espaço bidimensional de maneira a destacar amostras com alguma similaridade (de uma mesma classe) e maximizar as diferenças entre amostras de grupos diferentes. https://goo.gl/2PZwdt https://goo.gl/2PZwdt 43 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Os resultados são apresentados em uma árvore hierárquica denominada dendograma, um gráfico bidimensional que agrupo amostras ou variáveis de acordo com seu grau de similaridade. (CORREIA; FERREIRA, 2007). Para decidir quais objetos devem ser combinados ou onde um agrupamento deve ser dividido é necessária uma medida de similaridade entre os conjuntos. Isso é alcançado pelo uso de uma métrica (medida de distância entre pares de observações) apropriada e um critério de ligação que especifica a diferença dos conjuntos em função das distâncias. Como exemplo, podemos observar na Figura 10 um conjunto de dados e o agrupamento na forma de dendograma de acordo com as distâncias entre as amostras, onde é possível verificar que inicialmente temos 6 amostras (A, B, C, D, E e F) formando 6 grupos unitários. Figura 10. Dados organizados por distância e agrupamento na forma de dendograma. Fonte: Adaptado de Correia; Ferreira, (2007). Como os pares A-C e B-E apresentam menores distâncias entre si, são agrupados para formarem os grupos AC e BE. Já as amostras F e D ainda se mantém distantes do restante, dessa forma o número de grupos é igual a 4 (AC, BE, D e F). O grupo BE encontra-se agora mais próximo de F e pode ser agrupado no grupo BEF, reduzindo o número de grupos para 3 (AC, BEF e D). Posteriormente, o grupo BEF se localiza mais próximo de AC do que de D, portanto o novo grupo formado é o ABCEF, e completando o grupo dados, temos o grupo unitário D. Por fim, todos os grupos se unem totalizando o conjunto de dados ABCDEF. Considerando o conjunto de dados do exemplo, podemos inferir sobre algumas condições básicas para o cálculo da distância entre dois pontos (espaço métrico). Supondo os conjuntos A e C, podemos dizer que a distância entre A e C (dAC) é igual à distância entre C e A (dCA), ou seja dAC = dCA, e que elas devem ser maiores ou iguais a zero, não podendo ser negativas. Se a dAC = 0, significa que A=C. Considerando agora 44 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS as distâncias entre A, B e C, devemos utilizar um conceito em métrica chamado de “desigualdade triangular”, que diz que o comprimento de um dos lados do triângulo (por exemplo dAB), deve ser menor ou igual à soma dos outros dois lados (dAC e dBC), o que significa dizer que o caminho A-B é mais curto do que a soma dos caminhos AC e BC (FERREIRA, 2015). Dentre os vários métodos para atribuição métrica, abordaremos a seguir os mais utilizados como a distância Euclidiana e distância Manhattan. A distância Euclidiana é possivelmente a mais comum e empregada em métrica e é a distância entre dois pontos que pode ser expressa em termos do teorema de Pitágoras. A distância Euclidiana entre os pontos A = (a1, a2, a3,..., an) e E = (e1, e2, e3,..., en) do nosso exemplo da Figura 8 em um espaço n-dimensional, é dada por: ( ) ( ) ( )2 2 21 1 2 2AB n nd a e a e a e= − + − +…+ − Onde an e en são os valores da n-ésima coordenada para A e E. Considerando um espaço bidimensional, temos que a distância entre os pontos A = (ax, ay) e E = (ex, ey) é: ( ) ( )22AB x x y yd a e a e= − + − A grande limitação da distância Euclidiana está no fato de que ela varia com a mudança de escala dos dados. É importante considerar também que essa distância pode ser descrita em termos de vetores em um espaço dimensional. A distância de Manhattan utiliza a abordagem de que a distância entre dois pontos é igual à soma das diferenças absolutas de suas coordenadas. Essa medida é também conhecida como a métrica do taxi, por analogia com um táxi que deve contornar os quarteirões em seu caminho para chegar ao destino. Dessa maneira, a distância entre os pontos A e E (dAE) do nosso exemplo da Figura 10 é igual à soma das distâncias dAB + dBE ou dAC + dCE. A Figura 11 exemplifica a distância as métricas Euclidiana (em amarelo) e Manhattan (em laranja, roxo ou verde) para a distância entre P e Q. A distância Euclidiana calculada nesse caso é dPQ = 8,5, enquanto para a distância Manhattan dPQ = 12, independentemente do caminho adotado. 45 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Figura 11. Exemplos de distância Euclidiana (amarelo) e Manhattan (laranja, verde e rosa) entre os pontos P e Q. Fonte: Ferreira (2015). Podemos identificar e agrupar as amostras de acordo com suas similaridades, quando a distância entre os pares de amostras for definida. Após o primeiro agrupamento, calcula-se novamente a distância entre os grupos restantes para que o processo se repita. Cada repetição produz grupos já definidos e que permanecem unidos seguindo a hierarquia. O resultado final após o agrupamento das amostras, pode ser expresso na forma de um dendograma, os comprimentos das ramificações mostram as distâncias entre os grupos. Para facilitar o escalonamento, utilizamos a normalização por índice de similaridade de modo que as distâncias se situem entre 0 e 1. Isso significa que quanto mais próximo de 0 o índice for, menor a similaridade das amostras e o inverso acontece quanto mais próximo de 1, ou seja, maior será similaridade. Considerando os grupos P e Q, o índice de similaridade (S) pode ser obtido através de: 1 PQ max d S d = − Onde dPQ é a distância entre os pontos a serem considerados para agrupamento e dmax a distância entre os dois grupos mais afastados do conjunto. Dentre os diversos métodos para agrupamento hierárquico, estudaremos mais a fundo o do vizinho mais próximo, do vizinho mais distante e da média utilizando 3 grupos (A, B e C) sendo os grupos A e B constituídos por 1 amostra cada (a e b) e o grupo C por duas amostras (c1 e c2) como destacado na Figura 12 (FERREIRA, 2015). 46 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS Figura 12. Exemplos de agrupamentos pelos métodos do vizinho mais próximo e vizinho mais distante. Conjunto de dados originais Agrupamento por vizinho mais próximo Agrupamento por vizinho mais distante Fonte: Adaptado de Ferreira (2015). O método do vizinho mais próximo é o método mais simples de agrupamento, sendo a distância entre dois grupos dada pela menor distância entre todos os constituintes de cada grupo. Nesse caso, como os grupos A e B são unitários, temos que a distância entre os grupos é igual à distância entre as próprias amostras constituintes (dAB = dab). Considerando os outros grupos com relação a C (A e C; B e C), a distância entre eles será a menor entre suas amostras pertencentes, ou seja, dAC = min (dac1, dac2) e dBC = min (dbc1, dbc2). Observando a Figura 10, verifica-se que dac1 < dac2 e dbc2 < dbc1, logo dAC = dac1 e dBC = dbc2. Uma vez obtidas as distâncias, observamos que dBC < dAC < dAB, logo o par mais próximo irá gerar um novo grupo, BC no caso. Em seguida, calcula-se a distância entre o grupo restante (A) e o recém-formado (BC), de modo que dA(BC) = min (dAB, dAC) = min (dab, dac1, dac2), sendo a distância mínima dac1. Esse método possui como característica o fato de as distâncias entre os grupos se relacionarem com as distâncias entre as amostras, gerando agrupamentos mais espalhados e com menores índices de similaridade. O método do vizinho mais distante é um método semelhante ao anterior com a diferença que as distâncias entre os grupos são calculada pela maior distância entre os constituintes. Utilizando o mesmo exemplo anterior, a relação de C com os outros grupos(A e C; B e C) a distância entre eles agora é dada por maior distância entre suas amostras pertencentes, ou seja, dAC = max (dac1, dac2) e dBC = max (dbc1, dbc2). Como dac2 > dac1 e dbc1 > dbc2, temos que dAC = dac2 e dBC = dbc1. Comparando-se as distâncias máximas (dAB < dBC < dAC), o agrupamento será realizado com a menor distância, ou seja, o grupo formado será o AB. Em seguida, calcula-se a distância entre o grupo restante (C) e o recém-formado (AB), de maneira análoga. Esse método destaca-se por formar agrupamentos mais próximos, visto que a distância é calculada com base na maior diferença entre os constituintes. 47 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II O método da média é baseado no cálculo da média ponderada entre os grupos. Como dAB = dab e não necessita de cálculo, podemos calcular dAC e dBC por meio de média aritmética simples: 1 2 1 2 2 2 ac ac bc bc AC BC d d d dd d+ += = E os cálculos do agrupamento BC podem ser feitos a partir de: ( ) 1 2 1 2 2 2 2 2 4 4 ac ac ab AB AC ab ac ac BC A d ddd d d d dd + + = = = + + É importante ressaltar que embora o grupo C tenha mais amostras do que os grupos A e B, isso não foi considerado nos cálculos. O método da média pode admitir também pesos de diferentes proporções (média ponderadas), o que é especialmente útil no caso de grupos com tamanhos diferentes. Nesse caso, o cálculo do agrupamento seria: ( ) 1 2 3 3 3 C ab ac acB AB ACBC A B C B C n d d dnd d d n n n n = + = + + + + Sendo nB e nC os pesos para os conjuntos B e C, e no exemplo nB = 1 e nC = 2. É importante notar que no caso sem ponderações, o termo “dab” possui um peso 1/2 e os termos envolvendo o conjunto C (dac1 e dac2) um peso 1/4. Quando utilizamos a ponderação por tamanho dos conjuntos, o termo “dab” diminui o peso para 1/3 e os termos “dac1” e “dac2” aumentam para 1/3 com relação ao caso anterior. Reconhece-se que já se esperava esse resultado, visto que os conjuntos A e B possuem 1 amostra e o conjunto C, 2 amostras, sendo assim os termos envolvendo C apresentam maior impacto sobre a distância calculada. Por fim, após calculadas as distâncias e agrupamentos, geramos o gráfico dendograma como mostrado na Figura 13. Nesse exemplo temos 10 amostras diferentes que são agrupadas inicialmente nos grupos A, B, C, D, E e F após a primeira interação. Em seguida, as amostras procedem os agrupamentos por similaridade até formarem os novos grupos A, BC, D e EF. Nas etapas seguintes são formados os grupos A, BC e DEF primeiramente e depois A e BCDEF, sendo esses dois grupos finais unidos no grupo ABCDEF. Um dendograma com ramos mais alargados e distantes (Figura 13a) mostra baixa eficiência na separação dos grupos. Nesse caso, a maioria das amostras apresenta um índice de similaridade próximo de 0,5 no primeiro agrupamento e os agrupamentos seguintes se dão em índices ainda menores. Um dendograma com ramos mais estreitos (Figura 13b) é mais desejável visto que demonstra boa diferenciação entre os grupos. Nesse caso, a maioria dos grupos formados apresenta elevada similaridade visto que o agrupamento se dá em índices maiores (FERREIRA, 2015). 48 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS Figura 13. Exemplos de dendogramas gerados por HCA. 1,0 0,75 0,5 0,25 0 A B ABCDEF BC C B C D E F D DEF E EF F 1,0 0,75 0,5 0,25 0 a b c d e f g h i j (a) A B BC ABCDEF BCDEF D DEF E EF F a b c d e f g h i j (b) Fonte: FERREIRA, (2015). Como conclusão, podemos afirmar que a análise exploratória de dados por análise de componentes principais (PCA) e a análise hierárquica de agrupamentos (HCA) são bastante úteis para a análise preliminar de dados brutos, onde é possível obter informações que visem a identificação agrupamentos de amostras, a verificação de amostras apresentam comportamento anômalo, a definição de variáveis que são mais significativas e qual a correlação entre as diversas variáveis. Ambas as técnicas de análise multivariada podem ser aplicadas de maneia independente e fornecer informações complementares sobre um determinado conjunto de dados. Visto que tanto o PCA como o HCA são utilizados para análises preliminares de dados brutos, convém aprofundar seus conhecimentos um pouco mais em HCA, já que no tópico anterior sugerimos uma leitura sobre PCA, agora também fazemos o mesmo para HCA. Então, não deixe de acessar o seguinte conteúdo: https://goo.gl/RTCgnr (HCA, 2018). 49 CAPÍTULO 2 Construção de modelos de calibração Um dos principais objetivos na análise multivariada de dados é o de criar modelos estatísticos capazes de investigar as relações entre as variáveis e estimar quantitativamente uma determinada propriedade do sistema em estudo. Uma das metodologias mais utilizadas para a construção de modelos de calibração é a chamada “soft modeling”, uma quantidade consideravelmente elevada de medidas experimentais é realizada para que o modelo empírico construído englobe grande parte das variáveis e fontes de erros do sistema e possibilite a previsão de comportamento de uma determinada amostra analisada posteriormente. Para compreensão melhor da metodologia de calibração, tomemos um exemplo clássico na indústria de alimentos: a determinação de sódio em produtos finais utilizando a técnica de espectrometria de absorção atômica. Nesse caso queremos correlacionar a resposta fornecida pelo instrumento (por exemplo, a absorbância) com a concentração de sódio em uma determinada amostra. Essa relação não é absolutamente conhecida pois depende do instrumento utilizado, das condições dele naquele determinado dia, de fatores ambientais e outros, sendo então necessária a calibração do mesmo. O processo de calibração consiste em analisar uma série de amostras de referência (padrões) com concentrações conhecidas do elemento, de modo que a resposta instrumental obtida possa ser correlacionada com a variação da concentração da espécie. A partir disso, construímos um modelo de regressão (curva de calibração) que possa ser adequadamente empregado na análise de amostras com concentração desconhecida de sódio. A Figura 14 mostra um exemplo de um procedimento instrumental de análise utilizando um método de calibração. Nesse caso, verificamos que a relação entre absorbância (A) e concentração (CNa) é linear e que a expressão matemática que melhor descreve o modelo de regressão é A = 0,05.CNa. Graficamente o ajuste é representado pela curva em vermelho. Se para a análise de uma determinada amostra desconhecida, o instrumento nos dá um valor de absorbância de 0,3, podemos utilizar o modelo de regressão para calcular a concentração, sendo essa, portanto igual a 6 mg/L de sódio. 50 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS Figura 14. Exemplos de calibração via regressão linear para determinação de sódio. Fonte: Ferreira, (2015). É importante dizer que, na construção de um modelo matemático de calibração, lançamos mão de dois conjuntos de dados. O primeiro contém as respostas fornecidas pelo instrumento para uma série de amostras padrão analisadas (variável independente), sendo esse o chamado conjunto de calibração. O segundo conjunto está relacionado com alguma propriedade do sistema que se deseja saber (variável dependente). Essa(s) propriedade(s) podem ser a concentração de uma espécie, o teor de proteína de um alimento, seu teor de água etc. O objetivo da modelização é expressar matematicamente o valor da propriedade desejada em função do que se é medido em laboratório (FERREIRA, 2015). Idealmente, as amostras de referência utilizadas no conjunto de calibração são preparadas por mistura adequada de substâncias puras (padrões) de concentração perfeitamente conhecida. Porém, na maioria dos casos, as amostras são bastante complexas e difíceis de serem sintetizadas em laboratório de modo a traduzirem a real composição naturaldelas. Nesse caso, um número grande de amostras é coletado e analisado por um outro método de referência com o menor erro possível (idealmente menor do que 5%). Isso é fundamental para um bom desempenho do método de calibração ao estabelecer uma boa concordância entre os valores estimados por calibração 51 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II e os valores realmente mensurados por análise. Além disso, o conjunto de calibração precisa ter um tamanho (nº de amostras) suficientemente alto para ser representativo e possibilitar previsões futuras com maior precisão. Outro fator importante é a faixa de variação de concentração que o modelo engloba. Suponhamos que em análises de molhos prontos produzidos por uma indústria, o teor de sódio geralmente varie entre 480 e 720 mg para cada 100g do produto. Sendo assim, o conjunto de calibração deve englobar amostras com concentração menores de 480 mg Na e maiores que 720 mg Na, ainda que essas situações sejam atípicas. Esses tipos de amostras são importantes para a construção do modelo, visto que ele deve capaz de detectar amostras anômalas e que possam por exemplo indicar falhas no processo de produção. Além disso, é desejável que as amostras estejam bem distribuídas ao longo de todo o intervalo de concentração. Suponhamos que temos um conjunto de 50 amostras, sendo que 42 delas se encontrem na faixa de 450 a 550 mg de Na e apenas 8 na faixa de 550 a 750 mg de Na. Nesse caso o modelo gerado irá prever com melhor precisão uma amostra que se situe na faixa de menor concentração de sódio. Uma vez gerado o modelo, devemos validá-lo, ou seja, verificar se o desempenho se encaixa adequadamente ao que deveria ser aplicado em termos de capacidade de predição. O uso prolongado de um determinado modelo de previsão deve ser cuidadosamente testado pois mudanças instrumentais, materiais e de processo produtivo podem ocorrer esporadicamente, afetando assim a capacidade do modelo. Calibração univariada Os modelos mais simples de calibração são obtidos por calibração univariada. Para melhor exemplificar, retomemos o exemplo da determinação de cálcio em bebida láctea por espectrometria de emissão atômica, onde os resultados foram descritos na Tabela 5. Nesse exemplo, verificamos a relação linear da intensidade de luz emitida por uma amostra analisada em função da concentração das espécies emitentes. Considerando apenas os resultados para o comprimento de onda de 393 nm, podemos obter um gráfico de intensidade de emissão (eixo y) contra concentração de Ca (eixo x), como mostrado na Figura 15. 52 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS Figura 15. Gráfico de intensidade de emissão vs. concentração de cálcio para os dados da Tabela 5. y = 976,69x + 312,77 R² = 0,9968 0 5000 10000 15000 20000 25000 30000 0 5 10 15 20 25 30 In te ns id ad e de e m is sã o Concentração de Ca (mg/L) Fonte: Adaptado de Miller e Miller (2010). A expressão matemática que relaciona os sinais de intensidade medidos (In) com a concentração (Cn) para um conjunto de N amostras é chamada de curvas de calibração e pode ser descrita por: 0 1 , 1, 2, 3, 4,n n nl b b C e onden N= + + = … O termo (b0 + b1Cn) pode ser descrito como a intensidade de emissão estimada (Ȋn) pelo modelo de ajuste da curva e a diferença entre as intensidades medida e estimada (In- Ȋn) nos dá o resíduo (en). Quando aplicamos o modelo de regressão dos mínimos quadrados, utilizamos a soma dos quadrados dos resíduos (SQres) a fim de minimizá-los segundo: 2 1 N res n n SQ e = =∑ Nesse caso, assume-se que as repetições de medidas da variável dependente (intensidade de sinal) apresentam valores distribuídos ao longo da média e que não há erro associado à variável independente (concentração). A SQres é minimizada quando igualada a 0 e a derivação de sua equação gera um modelo linear como a reta mostrada na Figura 13, os valores estimados de b0 e b1 (e podem ser obtidos (FERREIRA, 2015). É importante considerar que as equações apresentadas acima podem ser representadas em termos de matrizes e vetores como abordado no capítulo sobre PCA, entretanto, não iremos utilizar essa abordagem no momento. O modelo gerado nos fornece a equação: I = 976,69 C + 312,77. A Tabela 8 mostra as intensidades de emissão medidas (In, vide Tabela 5), estimadas (Ȋn, segundo o modelo linear proposto) e os resíduos (en). Note que ao realizarmos o ajuste pelos mínimos quadrados, a soma de todos os resíduos é igual a 0. 53 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Tabela 8. Intensidades de sinal medidas, estimadas e resíduos associados. Concentração de Ca Intensidade de emissão medida (I) Intensidade de emissão estimada (Ȋ) Resíduo (I - Ȋ) 1 1005 1289 -284 2 2030 2266 -236 5 5003 5196 -193 10 11070 10080 990 20 20100 19847 253 25 24200 24730 -530 Fonte: Adaptado de Miller e Miller (2010). Um dos parâmetros desse ajuste linear é o coeficiente angular (ou inclinação) da reta, também conhecida como sensibilidade da curva 1( )b , visto que nos dá a razão entre a variação da mudança da variável dependente, ou seja, a intensidade de emissão, em relação a uma variação da variável independente, ou seja, a concentração da espécie. Para o nosso exemplo, a sensibilidade é dada por: 1 ISEN b C ∆ = = ∆ É importante considerar que quanto maior a sensibilidade, maior será a mudança da intensidade de sinal frente a uma pequena variação na concentração. Analogamente, a baixa sensibilidade indica uma pequena variação de I quando variamos a concentração. No nosso exemplo, o valor de sensibilidade calculado foi de 976,68 L/mg. O coeficiente linear (ou intercepto) é outro parâmetro da reta e indica o deslocamento da curva 1( )b com relação ao zero. Idealmente, esperamos que o sinal de emissão medido seja nulo quando a concentração da espécie é igual a zero, porém muitos são os casos em que a presença de interferentes ou desvios instrumentais ocorram, gerando uma determinada intensidade de sinal mesmo na ausência da espécie. No nosso exemplo, o valor de intercepto calculado foi de 312,77. Analisando a Figura 13, notamos uma alta correlação entre as variáveis, sendo o coeficiente de correlação (R2) igual a 0,9968. Quanto mais próximo da unidade, melhor o ajuste e quanto mais próximo de zero, menor a correlação entre as variáveis. Calibração multivariada: regressão linear múltipla (MRL) e regressão por componentes principais (PCR) Como vimos anteriormente um dos métodos de calibração mais utilizados são os métodos univariados (onde para cada amostra de calibração, tem-se uma medida 54 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS instrumental), contudo apesar desses métodos serem relativamente de fácil aplicação, validação e se encontrarem em maior número descritos na literatura, sua aplicação é limitada a ocorrências em que a grandeza é medida de modo direto no sistema (exemplo: absorbância de um composto orgânico), sendo livre de outras substâncias ou elementos que possam interferir entre sua relação linear com a propriedade de interesse. Uma das maiores áreas de estudo da quimiometria relacionadas à química analítica inclui a calibração multivariada. A análise de dados por meio da calibração multivariada permite o estudo de sistemas com várias espécies presentes. Calibração pode ser entendida como a relação quantitativa entre a resposta do aparelho e a concentração do analito que se quer determinar (HOPKE, 2003). Segundo Geladi (2003), as indústrias precisam de quatro fatores principais: respostas rápidas, análises não destrutivas, e a combinação entre ferramentas quimiométricas e técnicas espectroscópicas, principalmente em processos quimiométricos abrangendo calibração multivariada, é considerado o ideal para acompanhamento assim como, do controle de qualidade de produtos. Os modelos clássicos de quantificação não são considerados suficientes para sistemas complexos, devido à quantidadede dados que podem ser obtidos a partir de um espectro. Para que estes modelos apresentem bons resultados é necessário que sejam utilizadas apenas amostras simples (compostos puros ou misturas binárias) e que a banda espectral selecionada não sofra outra influência, a não ser do próprio analito, garantindo assim, uma relação linear entre a concentração e o sinal. Deste modo, a utilização de modelos de calibração multivariada para a obtenção de dados quantitativos apresenta diversas de vantagens, pois podem ser empregados em sistemas complexos proporcionando bons resultados (BRO, 2003). A disposição do conjunto de dados em análises multivariadas é normalmente apresentada em forma de matriz, ou seja, teremos as linhas desta matriz que representam o conjunto das amostras e as colunas, que representam o conjunto das variáveis medidas. A matriz é representada como um gráfico no espaço multidimensional, no qual cada variável medida está relacionada a uma dimensão do espaço e cada amostra corresponde a um ponto no espaço. Deste modo, o processo geral de calibração é constituído por três etapas: calibração, validação e previsão: » Na etapa de calibração é estabelecido um modelo matemático, resultante da relação da matriz de dados das variáveis medidas (matriz X, por exemplo, espectros no infravermelho), com a matriz de dados das características de interesse estabelecidos por meio de um método de referência (matriz Y). 55 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II » Na etapa de validação, o modelo é analisado empregando-se ferramentas estatísticas de diagnóstico. » Em seguida, aplica-se o modelo validado na previsão de propriedades das amostras desconhecidas, que possuam a mesma natureza das amostras do conjunto de calibração, vindo do seu sinal espectral. Nos métodos de Calibração Multivariada teremos duas ou mais respostas instrumentais relacionadas com a propriedade de interesse. A grande vantagem desses métodos é que permitem análises na presença de interferentes, no entanto, estes precisam também estar presentes nas amostras de calibração. Diversos modelos de calibração multivariada vêm sendo empregados, como: Regressão Linear Múltipla (MLR), Regressão por Componentes Principais (PCR) e Regressão por Mínimos Quadrados Parciais (PLS). Tais modelos vem apresentando ótimos resultados, com ampla aplicação em áreas diversas. Apesar disso, sua aceitação e implementação ainda sofre restrições em alguns setores devido às exigências de validação (exemplo: áreas farmacêuticas e médicas). Essa validação é realizada por figuras de mérito, que são figuras que asseguram que o modelo multivariado indicado é confiável e atende às especificações impostas pela indústria e órgãos de fiscalização nacionais e internacionais como: United States Pharmacopoeia (USP), International Conference on Harmonisation’s (ICH), American Society for Testing and Materials (ASTM), Instituto Nacional de Metrologia, Normalização e Qualidade Industrial (INMETRO), Agência Nacional de Vigilância Sanitária (ANVISA), entre outros. Como lido anteriormente, uma diversidade de métodos de regressão podem ser utilizados em química analítica para a construção de modelos de calibração multivariada, dentre eles, chamaremos sua atenção para os métodos de primeira ordem mais empregados: Regressão Linear Múltipla (MLR, do inglês, Multiple Linear Regression) e Regressão por Componentes Principais (PCR, do inglês, Principal Components Regression). Regressão Linear Múltipla (MLR) O modelo mais simples em calibração multivariada consiste na resolução de um sistema de equações lineares em uma regressão linear múltipla (MLR), contudo, o MLR possui dois problemas que limitam sua aplicação (BRERETON, 2000): 1. O número de amostras deve ser igual ou superior ao número de variáveis, já que o modelo consiste na resolução de equações lineares simultâneas. Quando o número de variáveis é superior ao número de amostras, ou vice-versa, o sistema de equações a ser resolvido torna-se indeterminado. 56 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS 2. Na resolução por mínimos quadrados a matriz (XTX), não possui inversa, pois sua correlação entre as variáveis é alta. Na construção de um modelo MLR cada variável dependente, isto é cada vetor Ycal da matriz, é expressa como uma combinação linear das variáveis independentes da matriz Xcal e um vetor, bMLR, que contém os coeficientes de regressão, dado pela seguinte equação: = +cal cal MLRY X b e O vetor bMLR dos coeficientes lineares é estimado, na etapa de calibração, empregando o critério dos “Mínimos Quadrados” que tornar mínimo o vetor dos resíduos (e = Ycal – XcalbMLR) e pode ser calculado por: ( ) 1−= T TMLR cal cal cal calb X X X X Y Onde: os índices sobrescritos -1 e T representam a inversão e transposição de uma matriz ou vetor, respectivamente. Para a previsão do valor da concentração ou do parâmetro de interesse em uma amostra não conhecida, podemos estimar que: desc Desc MLRY X b e= + Regressão por componentes principais (PCR) Buscando solucionar os empecilhos exibidos pela MLR, surgiu como alternativa a regressão por componentes principais (PCR). Neste método de regressão utiliza-se a análise de componentes principais (PCA, do inglês, Principal Component Analysis) como a técnica de ortogonalização baseada em mudança de base vetorial. Este procedimento resolve os dois principais problemas da MLR citados anteriormente, uma vez que a PCA pode ser empregada para a redução do número original de variáveis sem acarretar na perda significativa de informação resolvendo, assim, o problema de existência de alta colinearidade entre as colunas de X e a necessidade de um número excessivo de amostras para a construção do modelo por MLR (OTTO, 2007). O método da regressão dos componentes principais usa as variações espectrais para realizar o cálculo das equações de calibração. Considerando que as variações mais significativas no conjunto de calibração são as mudanças no espectro em relação às diferentes concentrações das amostras, podemos então calcular um conjunto que simule as mudanças nas absorbâncias em todo o espectro. Essas variações são denominadas de autovetores e as constantes utilizadas para multiplicar os espectros são denominadas 57 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II de scores. Para calcular os autovetores do espectro utiliza-se o método de análise dos componentes principais (PCA, Principal Components Analysis). A PCA consiste de um método matemático de tratamento dos dados que envolve cálculos de álgebra linear com os seguintes objetivos: 1) visualizar e simplificar a estrutura complexa dos dados, 2) modelar os dados, 3) empregar seleção de variáveis e encontrar similaridades entre amostras, 4) detectar amostras anômalas e 5) reduzir a dimensionalidade dos dados sem que haja perda da informação relevante. Na PCA a matriz de dados original X de dimensão mxp é decomposta em uma soma de matrizes as quais são produto de duas matrizes (ou vetores), a matriz T de scores e a matriz transposta Pt dos loadings, além da matriz de erro E – correspondente a parte não modelada da matriz X (equações abaixo). 1 2 3 1 1 2 2 3 3 n t t t t n n X M M M M E X T P T P T P T P E = + + +…+ + = + + +…+ + Assim sendo, a primeira componente principal (PC1), é definida na direção de máxima variância (ou dispersão dos dados) de um conjunto de dados, enquanto a segunda componente principal (PC2) constitui uma descrição da máxima variância no espaço da primeira componente principal, e assim por diante. Ou seja, a variância total é explicada pelas primeiras componentes principais descritas em ordem decrescente. Cada componente principal é responsável por uma parcela de contribuição ou uma fração de variância dos dados, estando em um sistema de coordenadas ortogonais entre si, não existindo correlação entre elas. Dessa forma, os scores expressam as coordenadas das amostras nos novos eixos, eos loadings expressam o peso ou a contribuição de cada variável original relacionada a cada componente principal (BERNADINO, 2011). Caro estudante, entre os métodos de obtenção de scores e loadings também podemos mencionar a decomposição por valores singulares (SVD, do inglês Singular Value Decomposition) e o algoritmo NIPALS (do inglês, Nonlinear Iterative Partial Least Squares). Para aprofundar seus conhecimentos nesses assuntos, sugerimos que consultem os seguintes links, para SVD < https://goo. gl/KtLtmR > (SVD, 2018) e para NIPALS < https://goo.gl/dy9yUG > (NIPALS, 2018). Uma das desvantagens do PCR, acontece quando o produto de interesse tem um sinal muito fraco (quanto analisado), e este sinal não influencia significativamente na composição das primeiras componentes principais, fazendo-se necessário o aumento do número de componentes na construção do modelo. 58 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS Vale ressaltar que, é de extrema importância a escolha do número de variáveis a serem incluídas no modelo, com o objetivo de reduzir perdas de informações significativas. Segundo Roggo et al. (2007), cada componente apresenta uma fração da variação total contida nos dados, tornando assim, possível a determinação do número ótimo de componentes a serem compreendidos na regressão. 59 CAPÍTULO 3 Modelos de classificação e reconhecimento de padrões É notável que os seres humanos conseguem distinguir com facilidade as diferenças e semelhanças entre os objetos, como formas ou cores. Contudo, essa característica fica limitada quanto maior for a quantidade de objetos a serem considerados. Semelhante a isso, quando tratamos de dados químicos, com um número alto de conjunto de dados, as técnicas de Reconhecimento de Padrão (RP) utilizam o mesmo conceito, procurando encontrar as similaridades e dissimilaridades no conjunto de amostras que foram submetidas a algum estudo (GONZÁLEZ, 2007). As técnicas de Reconhecimento de Padrão RP são divididas em supervisionada (estudaremos neste capítulo) e não supervisionada (HCA, análise por agrupamento hierárquico e PCA, análise de componentes principais, como visto em capítulos anteriores), de acordo com a utilização a priori de informações sobre as amostras que constituem o conjunto para construção do modelo. HCA e PCA admitem a visualização gráfica de todo o conjunto de dados, mesmo se o número de amostras e variáveis for elevado. A utilização desses algoritmos objetiva principalmente o aumento da compreensão do conjunto de dados, analisando a presença/ausência de agrupamentos naturais entre as amostras. Ambos podem ser classificados como: exploratórios ou não supervisionados, pois nenhuma informação com relação à identidade das amostras é considerada. As técnicas de reconhecimento de padrões são usadas na identificação das diferenças e semelhanças em distintas amostras, comparando-as entre si, fundamentando-se nas suposições abaixo: » amostras que possuem o mesmo tipo são semelhantes; » existem diferenças entre distintos tipos de amostras; » as semelhanças e diferenças podem ser percebidas nas medidas empregadas na caracterização das amostras. As técnicas de classificação são divididas em três categorias, segundo as suposições empregadas para a construção dos modelos (MASSART et al., 1997): » Técnicas paramétricas: paramétricas (neste caso, as variáveis possuem uma distribuição normal, satisfazendo as condições para o número de graus de liberdade e a homogeneidade da matriz de variância 60 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS (covariância)) e não paramétricas (neste caso, não consideram a informação da distribuição da população como nas paramétricas). » Técnicas discriminantes: neste caso, as amostras pertencem a apenas uma classe, estando incluídas nestas, as modelativas que podem pertencer a nenhuma classe, uma classe ou várias classes ao mesmo tempo. » Técnicas probabilísticas: fazem a estimativa do grau de confiança da classificação, incluídas nestas, temos as determinísticas, que não estimam um grau de certeza de uma classificação. Técnicas de reconhecimento de padrões supervisionadas podem ser utilizadas em uma ampla variedade de dados químicos para diferentes fins, como: identificação de perfis, impressões digitais, detecção de falsificação, avaliação da qualidade dos alimentos e interpretação de dados (LAVINE, 2000). São encontrados diversos métodos de Reconhecimento de Padrões Supervisionado destacando a Modelagem Independente e Flexível por Analogia de Classes (SIMCA, do inglês Soft Independent Modeling of Class Analogy) e o Método do K-ésimo vizinho mais próximo (KNN, do inglês Kth Nearest Neighbor). Método da regra dos K-vizinhos mais próximo (KNN) O KNN é o algoritmo de aprendizado com fundamentos em instâncias mais conhecido e com ampla utilização. Esse aprendizado é fundamentado na aplicação direta do conceito de similaridade. Isso significa dizer que, uma função de similaridade comunica ao algoritmo o quão próximas duas instâncias estão. Isso pode parecer simples, no entanto há uma enorme complexidade na escolha da função de similaridade, notadamente em situações que algumas das propriedades são peculiares. Como exemplo temos, a classificação de pessoas e uma das propriedades a ser analisada fosse a cor do cabelo, não é evidente o que a distância significaria nesse contexto. Na determinação da classificação de um elemento que não pertença ao conjunto de treinamento, o classificador KNN procura K elementos do conjunto de treinamento que estejam mais próximos deste elemento que não é conhecido, isto é, que possuam a menor distância. Estes K elementos são denominados de K-vizinhos mais próximos. As classes desses K vizinhos é então analisada e a classe mais frequente será atribuída à classe do elemento não conhecido (Figura 16). 61 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Figura 16. K-ésimos vizinhos mais próximos da amostra teste. Fonte: Adaptado de https://goo.gl/HYdx4k (KNN, 2018). O exemplo da figura 16 acima apresenta como ocorre a validação desse modelo: novas amostras podem ser classificadas do mesmo modo. A classe de uma amostra teste é classificada baseada na sua distância às K amostras mais próximas do conjunto de testes. Ela será colocada na classe mais votada. Abaixo encontram-se as métricas comumente utilizada no cálculo de distância entre dois pontos. Seja X= (x1, x2, ..., xn) e Y= (y1, y2, ... , yn) dois pontos do n ℜn. A distância Euclidiana entre X e Y é dada da seguinte maneira: ( ) ( ) ( ) ( )2 2 21 1 2 2, = − + − +…+ −n nd x y x y x y x y A distância Manhattan entre X e Y é dada da seguinte maneira: ( ) 1 1 2 2, = − + − +…+ −n nd x y x y x y x y A distância Minkowski entre X e Y é dada da seguinte maneira: ( ) ( ) 1 1 1 2 2, , = − + − +…+ − ∈ q q q q n nd x y x y x y x y onde q N Esta distância é a generalização das duas distâncias anteriores: quando q = 1, esta distância pode ser representada pela distância de Manhattan e quando q = 2, pela distância Euclidiana. KNN é um classificador com apenas um parâmetro livre (o número de K-vizinhos), controlado pelo usuário visando a obtenção de uma melhor classificação. De acordo com Matos (2008), uma das vantagens conhecidas do classificador KNN é que, quando 62 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS o conjunto de testes é considerado grande ou representativo, ele cria uma fronteira de decisão que se molda à forma de distribuição dos dados de treinamento, permitindo a obtenção de taxas de acertos satisfatórias. Como exemplo de classificação KNN, podemos observar a figura 17 abaixo, tem-se duas propriedades, três classes e dois pontos não conhecidos 1 e 2. Faz-se necessário a classificação destes dois pontos por meio 7 vizinhos mais próximos. Avaliando a classe predominante dos 7 vizinhos mais próximos, o ponto desconhecido 1 será classificado como um ponto pertencente a classe B e o ponto desconhecido2 como um ponto pertencente a classe A. Este processo de classificação por ser cansativo, apresenta uma variação mais rápida deste algoritmo, em que ocorre a seleção de pontos que estão dentro de uma hiper-esfera de raio R (escolhido pelo usuário), sendo a classe predominante dentro desta hiper-esfera, a classe do ponto desconhecido. A desvantagem deste processo é que pode haver hiper-esfera sem ponto nenhum. A figura 17 mostra como seriam o processo da hiper-esfera. Figura 17. Classificação pelo método KNN. Fonte: Gnecco et al. (2005). A vantagem desta técnica de aprendizado é que em vez de ser feita a estimação da função objetivo uma única vez para todo o espaço de exemplos, ela pode estimá-la localmente e de modo diferente para cada novo caso a ser classificado. Outra vantagem consiste na facilidade de testes, considerados simples e rápidos, já que o treinamento consiste somente no armazenamento das instâncias. Tais técnicas são adequadas a domínios numéricos, nos quais o conceito de distância tem um sentido mais concreto. 63 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Figura 18. Classificação pelo método da regra dos KNN. Fonte: Gnecco et al. (2005). Assim, podemos concluir que: 1. Os vizinhos dos pontos não conhecidos 1 e 2 são os pontos pertencentes ao círculo centrado no ponto desconhecido 1 e 2, respectivamente. 2. O ponto não conhecido 1 será classificado como um ponto que pertence a classe B, devido a existência de 5 pontos incluídos ou parcialmente incluídos no círculo centrado no ponto não conhecido 1. 3. O ponto não conhecido 2 será classificado como um ponto que pertence a classe A, devido a existência de apenas um ponto da classe A incluído no círculo centrado no ponto não conhecido 2. Modelagem independente flexível por analogias de classe (SIMCA) Este método foi utilizado pela primeira vez por Svante Wold (1974), no qual se admiti que os valores medidos para um grupo de amostras semelhantes tenderão para uma distribuição uniforme e modelável. Aumentando o número de amostras, essa distribuição deverá ficar cada vez mais uniforme. As características principais deste método são: » cada classe do conjunto de testes deve ser submetida a uma análise de componentes principais; 64 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS » determinação do número de PCs necessário para descrição de cada classe. » Construção de uma hipercaixa que envolve as amostras de cada classe, no qual as limitações das mesmas são definidas com um dado nível de confiança e uma vez obtidas as fronteiras de cada classe, faz-se a determinação se há superposição entre elas. » A capacidade de discriminação dos modelos SIMCA em diferenciar as classes é dada pela “distância entre classes” e pelos “resíduos entre classes”. » A atribuição de uma amostra teste a uma determinada classe é fundamentada na projeção dela, no espaço dos escores e sua distância das fronteiras da classe em específico. Isto é repetido para todas as classes e no final, se os modelos não tiverem capacidade de discriminação suficiente, a amostra pode ser considerada membro de mais de uma classe. Pode ocorrer também da amostra ser anômala em relação ao conjunto de testes, desse modo, não pertencendo a nenhuma das classes. A Modelagem Independente e Flexível por Analogia de Classe (SIMCA) é a mais empregada dos métodos de modelagem de classe. Em SIMCA, cada categoria é modelada de forma independente utilizando PCA e pode ser descrita por um número distinto de componentes principais (PCs). O número de PCs para cada classe no conjunto de testes pode ser determinado por validação cruzada. Deste modo, um número suficiente de componentes principais é mantido, como sendo o responsável pela maior parte da variação dentro de cada classe, ainda que assegurando uma elevada relação sinal-ruído sem inclusão no modelo de classe das chamadas componentes principais secundárias ou que contenham apenas ruído (LAVINE, 2000). Portanto, o SIMCA é um método quimiométrico probabilístico e modelativo baseando- se na análise por componentes principais, para cada classe de amostras, cria-se um modelo PCA separadamente, são construídos envelopes em torno de cada classe de amostra de acordo com as componentes principais que melhor agrupam as classes (CAMO,2008), como mostrado na Figura 19 abaixo. 65 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Figura 19. Modelo SIMCA de classificação. Fonte: Adaptado de LIU; HE; SUN, (2009). O agrupamento das classes é realizado por meio do cálculo da distância da amostra ao modelo, Si (variância residual para cada amostra de uma dada classe) e S0 (variância residual total), conforme as equações abaixo (CAMO, 2008; INÁCIO, 2010): ( ) ( )( ) 2 1 2 1 1 0 1 = = = = − = − − − ∑ ∑ ∑ P Iji i N P Iji j e S P A e S N A P A Onde: N = número de espectros (ou amostras) usados no modelo. A = número de componentes principais. P = número de variáveis (ou comprimentos de onda). i e j = índices das amostras e variáveis, respectivamente. Após o cálculo das variâncias residuais, faz-se a aplicação do teste F (Fischer) para verificar a posição da amostra no modelo, conforme a seguinte equação: ( ) 2 2 0 / 1= − −iSF N A S xN Este valor deve ser comparado com um valor crítico de F (tabelado), relacionado com um determinado nível de probabilidade e graus de liberdade. O julgamento da classificação das amostras é realizado do seguinte modo: 66 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS 1. Nível de probabilidade (0,1 – 1,0): amostra pertence ao modelo. 2. Nível de probabilidade (< 0,05): amostra não pertence ao modelo. 3. Nível de probabilidade (0,05 – 0,1): amostra “outliers”. O SIMCA apresenta os resultados no formato de tabela, são apresentadas com asteriscos, as amostras que são classificadas e a que classe pertencem. Na construção do modelo podem ocorrer dois tipos de erros: 1. Erro Tipo I: amostra pertence a mais de uma classe; 2. Erro Tipo II: amostra não pertence a classes conhecidas (“outliers”). Caro estudante, saiba que os primeiros estudos utilizando o reconhecimento de padrões foram propostos no final da década de 1970. Amostras de vinho da uva Pinot Noir, provenientes da França e dos Estados Unidos, foram diferenciadas por composição química elementar e da análise de algumas substâncias orgânicas. Com isso, os resultados analíticos foram avaliados utilizando-se ferramentas quimiométricas de reconhecimento de padrões, corroborando com a combinação entre a química analítica e a quimiometria, viabilizando a identificação da origem geográfica das amostras de vinho. Isso envolve a autenticação de alimentos que é uma área de pesquisa já estabelecida, que objetiva o desenvolvimento dos procedimentos no controle e segurança da qualidade dos produtos agroindustriais, a partir das informações sobre composição química. As questões relacionadas com a autenticação de alimentos têm despertado amplo interesse devido aos problemas de adulteração, contaminação e utilização indevida de organismos geneticamente modificados. Adicionalmente, faz-se necessário a obtenção de informações confiáveis a respeito da composição química nos rótulos dos produtos industrializados, garantindo sua qualidade. Alguns estudos encontrados na literatura analisam produtos tipicamente brasileiros, como cachaça (CARDOSO et al., 2004) e café (FERNANDES et al., 2005). Dessa forma, o desenvolvimento de novas metodologias analíticas e o aprimoramento de ferramentas estatísticas para tratamento de quantidades crescentes de dados, consequentemente, favorecem o desempenho do químico na área de reconhecimento de padrões. 67 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Caro estudante, caso você queira ter uma abordagem mais aprofundada sobre as bases teóricas desse assunto que não foram abordadas aqui, consulte o seguinte link: < https://goo.gl/PY9p4t> (MÉTODOS DE CLASSIFICAÇÃO, 2018). 68UNIDADE IIIPLANEJAMENTO EXPERIMENTAL O aumento da necessidade da otimização de produtos e processos, faz com que exista a minimização de custos e tempos, e a maximização de rendimentos, produtividades e qualidade de produtos, levando os profissionais de distintas formações a buscarem metodologias sistemáticas de planejamento de experimentos. Entretanto, para que a metodologia usada em planejamento alcance os objetivos esperados, faz-se necessário uma integração entre o processo, a estatística e o bom senso (Figura 20). Figura 20. Interação entre o conhecimento do processo, a estatística e o bom senso. Processo Estatística Bom Senso ]Fonte: Adaptado de Rodrigues e Lemma, (2009). Estudos recentes mostram que o modo científico apropriado para realizar um experimento seja o de variar um fator por vez, permanecendo fixos os outros fatores, não é necessariamente o ideal. Isto porque esta metodologia requer a realização de muitos experimentos, e isso não possibilita identificar se o efeito pode ser atribuído a um ou outro fator que foi mudado ou a uma combinação particular dos conjuntos de fatores considerados constantes. Por conseguinte, para ter confiança nos resultados obtidos, acrescentam-se mais experimentos. Deste modo, esta metodologia não pode ser utilizada nesta pesquisa que necessita avaliar o efeito de muitos parâmetros e variáveis, o que exigiria uma quantidade muito elevada de experimentos. O planejamento experimental (também denominado de delineamento experimental), pode ser representado por um conjunto de ensaios estabelecido com critérios científicos e estatísticos, visando avaliar a determinação da influência de diversas variáveis nos 69 PLANEJAMENTO EXPERIMENTAL │ UNIDADE III resultados de um determinado sistema (BUTTON, 2005). Assim, a determinação do número ótimo de experimentos conduz à obtenção de resultados com um dado grau de confiança, sendo esse objetivo principal dividido em outros objetivos específicos de acordo com o propósito dos ensaios: » determinação das variáveis que mais influenciam nos resultados; » atribuição de valores às variáveis influentes buscando a otimizar dos resultados; » atribuição de valores às variáveis influentes buscando a minimização da variabilidade dos resultados; » atribuição dos valores às variáveis influentes buscando a minimização da influência de variáveis incontroláveis. O emprego dos métodos estatísticos de planejamento experimental permite entre outras vantagens: » diminuir o número de ensaios sem prejudicar a qualidade da informação; » o estudo ao mesmo tempo de várias variáveis, separando seus efeitos; » a determinação da confiabilidade dos resultados; » a realização da pesquisa em etapas, com acréscimo de novos ensaios quando necessário; » a seleção das variáveis que influenciam em um dado processo que possui número reduzido de ensaios; » o processo estudado pode ser representado por expressões matemáticas e suas conclusões a partir de resultados qualitativos. Com isso, é extremamente relevante ressaltar que o planejamento experimental é um instrumento de engenharia importantíssimo para melhoria de processos já existentes, assim como no desenvolvimento de novos processos. A utilização dessas técnicas de modo adequado no desenvolvimento do processo permite: uma produção melhorada, uma redução da variabilidade de resultados, assim como, uma redução nos tempos de análise e nos custos envolvidos. O planejamento experimental sugere o estudo de variáveis por meio de análise multivariada. Tal metodologia permite não só identificar as variáveis que influenciam positivamente ou negativamente as respostas desejadas, assim como, na influência 70 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL exercida pela interação entre elas, permitindo a otimização do sistema ou processo sob análise. A análise univariada não permite verificação das interações entre variáveis, uma vez que estas são estudadas uma de cada vez (RODRIGUES; LEMMA, 2015). O planejamento experimental deve ser fundamentado em uma metodologia estatística a fim de que os resultados possam ser avaliados por meio de métodos estatísticos, levando assim a conclusões objetivas. Para a definição dos ensaios em um planejamento experimental, podemos citar três técnicas fundamentais: 1. Réplicas: consiste na repetição de um ensaio sob condições predeterminadas, para obtenção da estimativa do erro experimental e como esse erro influência nos resultados dos ensaios e ainda, se esses resultados são diferentes estatisticamente. Também é possível, verificar a influência de uma dada variável sobre o comportamento de um processo, quando a comparação é feita pela média das amostras. 2. Aleatorização (ou randomização): consiste na sequência dos ensaios aleatória, sendo a seleção dos materiais utilizados nesses ensaios também aleatória. Ao fazer uso de uma sequência aleatória (por exemplo: 8, 5, 9, 1, 12, 3, 7, 4 e 11) os erros experimentais por causa de alguma variável não controlável seriam distribuídos ao longo de todo o procedimento, aleatorizando-o e permitindo sua análise estatística. 3. Blocos: consiste na realização dos experimentos com precisão elevada, com redução da influência de variáveis não controláveis. Um bloco é uma parte do material experimental que possui como atributo o fato de ser mais homogêneo que o conjunto completo do material avaliado. O uso de blocos abrange comparações entre as condições de interesse na experimentação dentro de cada bloco. Na análise com blocos, a aleatorização é limitada à sequência de ensaios interna dos blocos e não ao conjunto total de ensaios. Caro estudante, o avanço de um planejamento de experimentos dependerá na maior parte, de como este é estruturado e como será realizado, assim como a compreensão dos seus objetivos antes de qualquer ação para executá-lo. Montgomery (2012) relatou um roteiro para elaboração de um planejamento de experimentos, composto pelas seguintes etapas utilizadas em estudos atuais: 1. Identificação e definição do problema: depende na maior parte, da experiência já adquirida no estudo de processos análogos; 71 PLANEJAMENTO EXPERIMENTAL │ UNIDADE III 2. Seleção dos fatores e dos níveis: é importante verificar como essas variáveis serão controladas nos níveis escolhidos e como eles serão medidos. Por exemplo, quando se deseja averiguar a influência de uma variável específica, deve haver a redução do número de níveis, além da manutenção das outras variáveis influentes em níveis tão constantes quanto possível; 3. Seleção da variável resposta: o critério para essa escolha é de que o erro experimental de medida da variável de resposta seja mínimo, admitindo a análise estatística dos dados, com um número mínimo de réplicas; 4. Seleção do planejamento experimental: a seleção do planejamento envolve o tamanho da amostra (número de repetições), a sequência de execução dos ensaios, necessidade de aleatorização ou do emprego de blocos. 5. Realização do experimento: é de extrema importância monitorar e controlar o processo, para assegurar que tudo esteja sendo realizado segundo o planejamento estabelecido e para que exista a validade experimental dele. 6. Análise dos resultados: faz-se uso de métodos estatísticos, buscando conclusões objetivas. É importante compreender que, não é possível afirmar se uma dada variável apresenta ou não um dado efeito, esses métodos garantem apenas a confiabilidade e a validade dos resultados, de maneira que se possa fazer a determinação do erro associado nas conclusões. 7. Conclusões: admitirão que decisões sejam adotadas a respeito do processo avaliado em estudo. Uma documentação com o uso de gráficos e tabelas permite que se exibam os resultados obtidos, a análise efetuada, assim como, futuras repetições da metodologia empregada, caso necessite. 72 CAPÍTULO 1 Planejamento fatorial completo Para executar um planejamento fatorial faz-senecessário em primeiro lugar determinar os níveis em que cada fator será analisado, isto significa dizer que, haverá uma seleção dos valores dos fatores que serão empregados. Em um planejamento fatorial faz-se necessário a execução de experimentos para todas as possíveis combinações dos níveis dos fatores. Cada experimento, no qual o sistema é submetido, é considerado um ensaio experimental. Por exemplo, possuindo 4 níveis num fator e 3 no outro, serão necessários 4x3 = 12 ensaios distintos, e o planejamento é denominado de fatorial 4x3. Geralmente, se houver n1 níveis do fator 1, n2 do fator 2, ..., e nk do fator k, o planejamento será um fatorial n1x n2x ...xnk de experimentos. Este é considerado o número mínimo para que se realize um planejamento fatorial completo. A repetição dos ensaios pode ser realizada, objetivando a obtenção de uma estimativa do erro experimental, o que consequentemente aumenta o número total de experimentos. Havendo k fatores, ou seja, k variáveis controladas pelo experimentador, o planejamento de dois níveis irá requerer a realização de 2x2x...x2 = 2k ensaios distintos, sendo denominado assim de planejamento fatorial 2k (BARROS NETO, SCARMÍNIO, BRUNS, 2010). A Figura 21 apresenta um dado número de fatores F1, F2,...Fk, atuando sobre o sistema estudado, produzindo as respostas R1,R2,...Rk. O sistema é representado por uma função não conhecida que atua sobre as variáveis de entrada (os fatores) e como saída produz às respostas. Figura 21. Representação de um sistema ligando fatores às respostas. Sistema F 1 F 2 F k ... R 1 R 2 R k ... Fonte: Adaptado de Barros Neto; Scarminio; Bruns, (2010). 73 PLANEJAMENTO EXPERIMENTAL │ UNIDADE III Caro estudante, abaixo é apesentado algumas definições importantes em planejamento de experimentos, caso você ainda tenha dúvidas: » Fatores ou variáveis independentes: são condições que podem sofrer variações no sistema, como, a concentração de reagentes, força iônica, pH, temperatura, pressão, entre outros. » Níveis: é a faixa de variação que um fator poderá sofrer. » Resposta ou variável dependente: é a variável de interesse e que sofre a influência dos diferentes fatores ou variáveis independentes. A seguir é apresentado um exemplo para ilustrar a execução e a avaliação dos resultados de um planejamento fatorial completo. A partir deste exemplo, serão apresentados alguns conceitos fundamentais que depois poderão ser utilizados em planejamentos envolvendo um número de fatores qualquer. Planejamento fatorial 22 Exemplo: estudar os efeitos do aumento da temperatura e da mudança de catalisador sobre o rendimento de uma reação, mostrando como realizar um planejamento fatorial 22 e como avaliar os resultados gerados. Os níveis escolhidos foram: 40 ºC e 60 ºC para a temperatura, e A e B para o catalisador. Para realizar o planejamento 22, devemos realizar ensaios e registrar as respostas observadas (os rendimentos, neste caso) em todas as quatro possíveis combinações dos níveis escolhidos: (40°C, A), (40°C, B), (60°C, A) e (60°C, B). A lista dessas combinações, é apresentada na Tabela 9, juntamente com os rendimentos alcançados nos experimentos. Note que todos os ensaios foram realizados em duplicata, produzindo no total oito respostas. Com isto, podemos fazer a estimativa do erro experimental de uma resposta em particular. A extensão desse erro é importante para decidirmos se existem ou não efeitos significativos que possamos atribuir à ação dos fatores. Cálculos dos efeitos Observando a Tabela 9, quando usamos o catalisador A e aumentamos a temperatura de 40°C para 60°C (ensaios 1 e 2), o rendimento médio aumenta de 59% para 90%, ou seja, um aumento de 31%. Quando o catalisador é do tipo B (ensaios 3 e 4), o rendimento aumenta apenas 68 - 54 =14%. Isso mostra que o efeito da temperatura, isto é, o que acontece com o rendimento da reação quando elevamos a temperatura de 74 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL 40°C para 60°C, depende do nível em que o catalisador está. O efeito do catalisador, por sua vez, também depende do nível da temperatura. A 40°C (ensaios 1 e 3) a mudança de catalisador diminui o rendimento médio em 5%. A 60°C (ensaios 2 e 4), a redução passa a ser de 22%. Quando o efeito de uma variável depende do nível de outra, como neste exemplo, dizemos que as duas variáveis interagem, e podemos calcular o valor do efeito de interação entre elas. Tabela 9. Resultado de um planejamento fatorial 22. Ensaio Temperatura (ºC) Catalisador Rendimento (%) Média 1 40 A 57 61 59 2 60 A 92 88 90 3 40 B 55 53 54 4 60 B 66 70 68 Fonte: Barros Neto; Scarmínio; Bruns, (2010). Por definição, o efeito principal da temperatura é a média dos efeitos da temperatura nos dois níveis do catalisador. Usando a letra T para representar esse efeito, e sendo yi a resposta média observada no i-ésimo ensaio, podemos escrever: ( ) ( ) ( ) ( ) 2 1 4 3 2 90 59 68 54 31 14 22,5% 2 2 y y y y T T − + − = − + − + = = = Este valor sugere que o rendimento da reação aumenta 22,5%, em média, quando a temperatura passa de 40 °C (nível inferior) para 60 °C (nível superior). Esta conclusão, contudo, não está completa, pois há uma interação entre a temperatura e o catalisador, fazendo-se necessário uma interpretação dos efeitos dos dois fatores juntos, para não deixar dúvidas sobre a interação que existe entre eles. Podemos reescrever a equação abaixo como a diferença entre duas médias: 1 32 4 2 2 y yy yT ++ = − Como y2 e y4 pertencem ao nível (+) e y1 e y3 pertencem ao nível (-) do fator temperatura, observamos que o efeito principal T é a diferença entre a resposta média no nível superior e a resposta média no nível inferior desse fator: T y y+ −= − 75 PLANEJAMENTO EXPERIMENTAL │ UNIDADE III A expressão acima vale para qualquer efeito principal em um planejamento fatorial completo de dois níveis e pode ser considerada como uma alternativa de efeito principal. Para o catalisador, na nossa escolha de sinais, o nível superior corresponde aos ensaios 3 e 4 e o inferior aos ensaios 1 e 2. O efeito principal do catalisador se dará utilizando a equação anterior: 3 4 1 4 13,5% 2 2 y y y yC y y+ − + + = − = − = − O efeito notado é negativo: quando trocamos o catalisador A pelo catalisador B o rendimento cai 13,5%. Se por outro lado, na seleção de sinais tivéssemos invertido as posições e colocado o catalisador A, ao invés do B, no nível superior, o efeito calculado teria sido C = +13,5%. Contudo, na prática, a conclusão seria a mesma: há uma diferença entre os rendimentos obtidos com os dois catalisadores, e os resultados do catalisador B são, em média, 13,5% mais baixos. Não havendo essa interação, o efeito da temperatura deverá ser o mesmo com qualquer catalisador. O efeito da temperatura é +31% com o catalisador do tipo A, mas cai para +14% quando usamos o tipo B. Como na ausência de interação esses dois valores deveriam ser idênticos, podemos tomar a diferença entre eles como uma medida da interação entre os fatores T e C. Por definição, então, a metade da diferença é o efeito de interação entre os dois fatores. Usando TxC para representar esse efeito, temos: 14 31 8,5% 2 TxC TC −= = = − Identificando as respostas segundo os ensaios em que foram obtidas, temos: 4 3 2 32 1 1 4 2 2 2 2 y y y yy y y yTC − +− + = − = − As equações anteriores mostram que para calcular qualquer efeito utilizamos todas as respostas observadas. Vale lembrar que, cada efeito é a diferença de duas médias, ou seja, metade das observações colabora para uma das médias, e a outra metade aparece na outra média. Interpretação geométrica dos efeitos Uma interpretação geométrica aos efeitos que foram calculados pode ser apresentada. Para isto, representamos o planejamento experimental num sistema cartesiano, com um eixo para cada fator. Os quatro ensaiossão colocados nos vértices de um quadrado. Os efeitos principais são as diferenças médias entre valores localizados em arestas opostas e perpendiculares ao eixo do fator correspondente. Já o efeito de interação, é o 76 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL contraste entre as duas diagonais, considerando-se positiva a diagonal que liga o ensaio (- -) ao ensaio (++). Figura 22. Interpretação geométrica dos efeitos em um planejamento 22. y y y y + - C at al is ad or (+ ) (-) (+ ) (-) Temperatura y y y y + - C at al is ad or (+ ) (-) (+ ) (-) Temperatura y y y y + - C at al is ad or (+ ) (-) (+ ) (-) Temperatura Fonte: Barros Neto; Scarmínio; Bruns, (2010). Estimativa de erro Os ensaios da Tabela 9 foram realizados em duplicata, para a estimação do erro experimental, e avaliação dos efeitos significativos estatisticamente, contudo é preciso que a réplica seja uma repetição autêntica de todos os testes realizados. Este ponto é importante porque, se as repetições forem feitas inadequadamente, os erros irão parecer menores do que na realidade são, e isso pode gerar efeitos significativos que não existem. Como foram realizadas em duplicatas nas observações individuais, a estimativa combinada da variância de uma observação individual pode ser obtida por: 22 / 2 y σ σ= Usando o valor da estimativa de s2=6,5 no lugar de σ2, podemos obter uma estimativa com 4o graus de liberdade, do erro padrão de um efeito desse experimento: ( ) 2 1,80% 2 s efeito σ= = Interpretação dos resultados A Tabela 10 contém os resultados da análise dos dados da Tabela 9, incluindo o rendimento médio global, que também é uma combinação linear de todas as observações. É importante ressaltar que apenas os efeitos calculados que são significativamente 77 PLANEJAMENTO EXPERIMENTAL │ UNIDADE III diferentes de zero são considerados. Aplicando o critério de que só consideraremos estatisticamente significativo, com 95% de confiança, um efeito cujo valor seja superior a t4 x s(efeito) =2,776 x1,8% = 5,0%, vemos que todos eles são significativos. Tabela 10. Efeitos calculados para o planejamento fatorial 22 da Tabela 8. Média global 67,75 ± 0,9 Efeitos principais: T C 22,5 ± 1,8 -13,5 ± 1,8 Efeito de interação TC - 8,5 ± 1,8 Fonte: Fonte: Barros Neto; Scarmínio; Bruns, (2010). Como o efeito de interação é significativo, os principais efeitos devem ser interpretados juntos, com isso traça-se um diagrama contendo as respostas médias em todas as combinações de níveis das variáveis (Figura 23). Figura 23. Diagrama para interpretação dos resultados. +31 -5 +14 54 90 59 68 -22 C at al is ad or B A 60 40 Temperatura Fonte: Barros Neto; Scarmínio; Bruns, (2010). Portanto, podemos concluir que: » Aumentando a temperatura, aumentamos também o rendimento da reação, sendo esse efeito mais visível com o uso do catalisador A do que com o uso do catalisador B (+31% contra +14%). 78 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL » O rendimento da reação sofre redução se alteramos o catalisador A pelo catalisador B, e esse efeito é visivelmente mais significativo a 60 °C do que a 40 °C ( -22% contra -5%). » Os maiores rendimentos (90%, em média) foram obtidos utilizando o catalisador A e sob temperatura de 60°C. Sobre o assunto discutido neste capítulo podemos encontrar ainda muito o que estudar. Então, para que você possa compreender melhor sobre planejamentos fatoriais completos, sugerimos a consulta ao seguinte link: < https://goo.gl/ q9CheV> (PLANEJAMENTO FATORIAL, 2018). 79 CAPÍTULO 2 Planejamento fatorial fracionário Os planejamentos experimentais são planejamentos fatoriais, isto é, as influências de todas as variáveis experimentais de interesse são analisadas, e do mesmo modo, os efeitos de interação entre elas sobre a resposta ou respostas sob análise. Estudando- se as variáveis em pelo menos dois níveis pode-se determinar os efeitos destas sobre as respostas de interesse. Um planejamento fatorial constituído de 2k experimentos, apresenta uma combinação de k variáveis em dois níveis. Quanto maior o número de variáveis investigadas, maior será o número de experimentos necessários para realizar um planejamento fatorial completo (BARROS NETO; SCARMÍNIO; BRUNS, 2010). Uma alternativa de minimizar o número de experimentos realizados é a utilização de planejamentos fatoriais fracionários, ao invés dos fatoriais completos relatados anteriormente. O fundamento de um projeto fatorial fracionário está baseado em utilizar o fato de que um projeto fatorial é ortogonal e que a interações de mais altas não são significativas, isto é, utilizam-se as interações de mais alta ordem para blocar fatores extras. Portanto, a fração é considerada um subgrupo, de todas as combinações possíveis de serem feitas. A análise dos fatoriais fracionários é direta e, em função de sua estrutura, a utilização de um fatorial fracionário não impede a possibilidade de uma complementação posterior de todo o experimento fatorial. Em um experimento fatorial completo, existem 2k tentativas experimentais. Na análise de um fatorial completo, temos a média geral, k efeitos, principais (2k - k - 1) efeitos de interações. Os 2k experimentos podem ser empregados para fornecer estimativas independentes de todos os 2k efeitos. Enquanto em um fatorial fracionário (a fração 1/2p), haverá apenas 2k-p experimentos, logo, somente 2k-p estimativas independentes são possíveis. No planejamento de planos fracionários (isto é, na seleção do subgrupo ideal do total das 2k combinações), o objetivo é manter cada uma das 2k-p estimativas o mais o mais independente possível, isso significa dizer que, faz-se necessário manter as estimativas dos efeitos principais e, ainda, as interações de segunda ordem sem tendências. Na Tabela 11 é mostrado um exemplo do número de tratamentos dos fatoriais completo e fracionado, para diferentes valores de p, sendo p a ordem de redução do fatorial completo. 80 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL Tabela 11. Número de tratamentos para k fatores com dois níveis (completo e fracionário). k Fatorial 2k Fatorial 2k-1 Fatorial 2k-2 Fatorial 2k-3 2 4 2 1 - 3 8 4 2 1 4 16 8 4 2 5 32 16 8 4 Fonte: Adaptada de Barros Neto, Scarmínio, Bruns, (2010). Logo chegamos a seguinte conclusão: o tamanho da fração influenciará no possível número de efeitos estimados e, consequentemente, no número de experimentos a serem realizados (RODRIGUES; LEMMA, 2015). Um planejamento fatorial fracionado 25-1 terá metade dos experimentos de um planejamento fatorial completo 25 a serem realizados pois serão realizados 24 = 16 experimentos ao invés de 25 = 32 experimentos no planejamento fatorial completo. Montgomery (2012) ressalta justificativas para a utilização das técnicas de experimentos fatoriais fracionados: » A dispersão dos efeitos, isto é, quando vários fatores de controle são avaliados, é provável que o processo sofra influência apenas de alguns efeitos principais e de interação de ordem inferior. » A propriedade de projeção: neste caso, os experimentos fatoriais fracionados podem ser delineados em matrizes maiores, construídas a partir de um subconjunto de fatores significativos. » A experimentação sequencial: ocorre quando é possível fazer a combinação das corridas de dois ou mais experimentos fatoriais fracionados. Os planejamentos fatoriais completos e, principalmente, os fatoriais fracionários, podem ser empregados na triagem e na determinação das variáveis significativas que influenciam um determinado processo. Utilizando a metodologia de análise de superfície de resposta é possível encontrar valores que irão produzir a melhor resposta desejada. Esta metodologia é baseada na criação de modelos matemáticos que descrevem o sistema estudado (TEÓFILO; FERREIRA, 2006). 81 PLANEJAMENTO EXPERIMENTAL │ UNIDADE IIIPlanejamento fatorial 2k-1 Vamos considerar o experimento fatorial: 23-1, isto é, a fração um meio do 23 (8 tratamentos). Assim, só realizaremos 4 tratamentos: 3 3 1 3 1 21 2 2 2 2 2 4 2 − −= = = = A tabela 12 abaixo apresenta os sinais de + e – para o fatorial 23. Tabela 12. Sinais (+ e -) para o planejamento fatorial 23. Tratamentos Efeitos fatoriais I A B C AB AC BC ABC a + + - - - - + + b + - + - - + - + c + - - + + - - + abc + + + + + + + + ab + + + - + - - - ac + + - + - + - - bc + - + + - - + - (1) + - - - + + + - Fonte: Montgomery (2012). As rodadas dos planejamentos 23-1 resultam em três graus de liberdade associados aos efeitos principais. Pela tabela 12, obtemos as estimativas dos efeitos principais: ( ) ( ) ( ) 1 2 1 2 1 2 A a b c abc B la b c abc C a b c abc = − − + = + − + = − − + + As estimativas das interações também podem ser obtidas a partir da tabela 12. ( )1 2 BC a b c abc= − − + O mesmo ocorre com AC e AB. Assim, a combinação linear de observações na coluna A, lA dá a estimativa de A + BC. Analogamente, lB, dá a estimativa de B + AC e lC, a estimativa de C + AB. Dois ou mais efeitos que tenham essa característica são denominados de aliases. No planejamento 23-1, A e BC são aliases, bem como B e AC, e C e AB. Os aliases são resultado direto da replicação fracionada. 82 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL Se um ou mais fatores de uma fração um meio podem ser omitidos, o planejamento se projetará em um planejamento fatorial completo. Se considerarmos que no máximo dois ou três fatores são importantes, o planejamento 23-1 é um planejamento satisfatório para identificar os fatores significantes, resultando em um experimento mais forte nos fatores ativos que permanecem. As resoluções dos planejamentos fatoriais fracionados ocorrem de acordo com o padrão de aliases que produzem: 1. Planejamento de resolução III: nestes planejamentos, nenhum efeito principal é aliase de qualquer outro efeito p, principal, mas os efeitos principais são aliases das interações de dois fatores, as interações de dois fatores podem ser aliases uma das outras. O planejamento 23-1 com I = ABC é de resolução III. Usualmente utiliza-se numeral romano subscrito para indicar a resolução de planejamento, assim a fração um meio é um planejamento 2III3-1. 2. Planejamento de resolução IV: nesses planejamentos, nenhum efeito principal é aliase de qualquer outro efeito principal e nem de interações de dois fatores, mas as interações de dois fatores são consideradas aliases uma das outras. O planejamento 24-1 com I = ABCD é de resolução 2IV4-1. 3. Planejamento de resolução 5: neste tipo de planejamento, nem o efeito principal e nem a interação de dois fatores é aliase de qualquer outro efeito principal ou interação de dois fatores, mas as interações de dois fatores são aliases das interações de três fatores. Algumas precauções devem ser ressaltadas para obtenção do máximo de informação na realização do planejamento fatorial. Dentre elas, estar a necessidade de realizar repetições de alguns ensaios a fim de estimar o erro experimental. É importante que as replicatas sejam repetições autênticas, representando adequadamente o espaço experimental no qual o planejamento fatorial foi desenvolvido. Outra precaução refere-se à realização dos experimentos: todos os ensaios e replicatas previstos no desenvolvimento do fatorial devem ser realizados de forma aleatória. Estas precauções visam evitar distorções estatísticas que possam comprometer a qualidade dos resultados obtidos e dos efeitos calculados para as variáveis estudadas (BRASIL et al., 2007). 83 PLANEJAMENTO EXPERIMENTAL │ UNIDADE III A metodologia de resposta (ou RSM, de response Surface Methodology) é uma técnica de otimização com base em planejamento fatoriais, que foi introduzida por G.E.P. Box nos anos 1950, e que tem sido utilizada desde então apresentando resultados satisfatórios na modelagem de diversos processos industriais. As superfícies de respostas são utilizadas quando as variáveis de resposta são influenciadas por muitas variáveis independentes e o objetivo é otimizar essas respostas, tendo duas etapas distintas e importantes (BARROS NETO; SCARMÍNIO, BRUNS, 2010): 1) Modelagem: repetições tantas vezes quantas forem necessárias, visando atingir uma região ótima da superfície investida. Normalmente é feita com ajuste de modelos simples (lineares ou quadráticos) as respostas obtidas com planejamentos fatoriais. 2) Deslocamento: máxima inclinação de um determinado modelo, ou seja, é a trajetória na qual a resposta varia de forma mais pronunciada. Exemplificamos temos: o rendimento de um determinado processo é função de dois fatores, x1 e x2, sendo ɛ o erro observado ou o ruído na resposta y: ( )1 2,y f x x ε= + O primeiro passo na utilização da metodologia de superfície de resposta é determinar a relação matemática entre a variável de resposta e as variáveis independentes. Se esse polinômio de menor grau ajustar bem a resposta, a função é então dada por um modelo denominado de modelo de primeira ordem: 0 1 1 2 2 k kY x x xβ β β β ε= + + +…+ + Se houver curvatura no sistema, então o modelo de segunda ordem ou quadrático deve ser utilizado como apresentado na equação abaixo: 2 0 1 1 k k j j ij i j jj jj i j j Y x x x xβ β β β ε = < = = + + ∑ + +∑ ∑ ∑ A metodologia do uso de superfície de resposta é sequencial, ou seja, quando se está longe do ponto ótimo de resposta, o modelo de primeira ordem é ajustado bem aos dados. Todavia, quando se objetiva otimizar, procura-se uma estratégica eficiente de rapidamente se encontrar as condições operacionais ideais que levem a isso. Uma vez encontrada a possível região que o ótimo está, um modelo de segunda ordem deve ser adotado. Para obter mais conhecimento sobre este assunto, acesse: <https://goo.gl/rvrwtc>. 84 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL Para aumentar seus conhecimentos sobre os assuntos estudados neste capítulo, sugerimos a consulta ao seguinte link, que apresenta um arquivo específico sobre isto, elaborado pelos Professores Marcus Antônio Viana Duarte e Tatiana Meola: https://goo.gl/qWgJKx (PLANEJAMENTO FRACIONADO, 2018) que traz mais detalhes sobre os conceitos apresentados nesta unidade assim como vários outros exemplos. Lembre-se de procurar por mais informações sobre esse assunto para aprofundamento do tema estudado. 85 CAPÍTULO 3 Modelos de regressão Os planejamentos fatoriais 2k podem ser avaliados por meio de Modelos Lineares Gerais. O uso da regressão pode ser considerado como uma alternativa didática para o ensino de planejamento experimental, já que a regressão utilizada o conceito de variável dependente (correspondente à variável resposta para o DOE) e as variáveis independentes (correspondentes aos fatores controlados). As relações entre prováveis causas e o efeito tornam-se mais óbvias nos modelos de regressão. A escolha de um modelo de regressão deve ser realizada de modo que a escolher as variáveis que sejam significativas para o modelo. Com isso, o método dos melhores subconjuntos podem ser empregado, o qual consiste na avaliação de todos os possíveis modelos de regressão para determinação do conjunto de variáveis independentes que formarão o modelo final (LEVINE, 2008). Este método pode ser feito utilizando o Teste Fparcial. A escolha de novas variáveis independentes para o modelo de regressão pode ser feita comparando-se dois modelos aninhados (dois modelos são considerados aninhados se um modelo possui todos os termos do segundo modelo e pelo menos um termo a mais). O modelo com mais termos é denominado de modelo completo ou integral e o mais simples é chamado de modelo reduzido ou restrito (MENDENHALL; SINCICH, 2012). No desenvolvimento de um modelo de regressão múltipla, apenas aquelas variáveis independentes que diminuam significativamente o erro ao prever o valor de uma variável dependente deveser empregada. Logo, se uma variável independente não melhorar essa previsão, exclui-se ela do modelo (LEVINE, 2008). O teste Fparcial é um método alternativo para determinar a contribuição de uma variável independente em um modelo. Esse método envolve a análise da contribuição dada por cada nova variável independente para a soma dos quadrados da regressão, depois que todas as outras variáveis independentes forem contidas no modelo. Sendo que a nova variável independente só é incluída no modelo se houver melhoras significativamente no mesmo (LEVINE, 2008). Segundo Mendenhall e Sincich (2012), neste teste a hipótese nula e a hipótese alternativa são construídas para testar a contribuição da(s) variável(is) βg+1, βg+2...βk para o modelo. 86 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL No modelo completo temos: ( ) 0 1 1 1 1 g g g g k k E y X X X X β β β β β+ + = + +…+ +…+ No modelo reduzido temos: ( ) 0 1 1 1 1 g g g g k k E y X X X X β β β β β+ + = + +…+ +…+ De acordo com isso temos o seguinte: - H0:βg+1 = βg+2 = ...+βk = 0 as variáveis adicionadas não aperfeiçoam significativamente o modelo. - H1:βg+1 ≠ βg+2 ≠ ... ≠βk = 0 pelo menos umas das variáveis é diferente de zero, assim sendo essas variáveis aperfeiçoam significativamente o modelo. O Teste Fparcial pode ser calculado utilizando-se o Coeficiente de Determinação, conforme fórmula a seguir: ( ) ( ) ( ) ( )( ) 2 2 2 / 1 / 1 c r parcial c R R k g F R n k − − = − − + Onde: » 2rR = Coeficiente de Determinação R2 do modelo reduzido; » 2cR = Coeficiente de Determinação R2 do modelo completo; » k+1 = Número de parâmetros no modelo completo incluindo β0; » k - g = Número de parâmetros adicionados sendo testados em H0; » n = Tamanho total da amostra. O coeficiente de determinação é igual à soma dos quadrados da regressão (variação explicada pelo modelo de regressão) dividida pela soma total dos quadrados (variação total existente no modelo de regressão). Logo, o coeficiente de determinação mede a proporção da variação na variável dependente que é explicada pelas variáveis independentes. Valores próximos a ±1 sugerem uma forte relação linear (LEVINE, 2008). Ele é calculado pela seguinte fórmula: 87 PLANEJAMENTO EXPERIMENTAL │ UNIDADE III A distribuição F é utilizada para verificar a validade da hipótese nula. Rejeita-se a mesma se o nível de significância observado ou valor-p for menor do que o nível de significância (α) estabelecido. Geralmente, utiliza-se o valor de 1% ou 5% para o nível de significância. O teste consiste na comparação entre o valor de Fparcial e o valor de Ftabelado ou Fα,v1,v2: ( ) ( )( ) 1 2 , 1, 2 0 ; ; 1 , parcial v v nível de significância v k g graus deliberdadedonumerador v n k graus deliberdadedodenominador Se F F rejeita se Hα α = = − = − + > − Exemplificando temos: um experimento fatorial 2k com três fatores, com o seguinte modelo completo: ( ) ( ) ( ) 1 2 3 12 13 23 123 ; ; 1 2 ; 1 3 ; 2 3 . 1 , 2 X X X Fatores X interaçãoentreos fatores e X interaçãoentre so fatores e X interaçãoentreos fatores e Termos deinteraçãode segundaordem X interaçãoentreos fatores → → ( ) 3 .e Termos deinteraçãodeterceiraordem→ Deste modo, teremos a seguinte equação de regressão: ( ) 0 1 1 2 2 3 3 4 12 5 13 6 23 7 123E y X X X X X X Xβ β β β β β β β= + + + + + + + Onde: » 1 1 2 2 3 3X X Xβ β β+ + são os termos dos efeitos principais; » 4 12 5 13 6 23X X Xβ β β+ + são os termos dos efeitos de interação de segunda ordem; » 7 123Xβ são os termos dos efeitos de interação de terceira ordem. Algumas relações algébricas entre correlação e regressão existem para o esclarecimento dos seus verdadeiros significados, assim como, suas limitações (BARROS, 2001). Suponhamos que X e y sejam variáveis aleatórias e que, seja apropriado a definição de um coeficiente de correlação entre elas, dado por: ( ), 1 i i x y xy xx yy X X y y s s S r X y N S S − − ∑ = = − 88 UNIDADE III │ PLANEJAMENTO EXPERIMENTAL Enquanto a estimativa de β1 é dada por: 1 xy xx S S β = Combinando as duas equações anteriores, temos uma relação entre o coeficiente angular da reta de regressão β1, e o coeficiente de correlação entre as duas variáveis, r(X,y): ( ) ( )1 1, ,yy y xx x S S r X y ou r X y S S β β= = onde Sy e Sx são os desvios padrão das variáveis y e X, respectivamente. Mesmo assim, β1 e r(X,y) continuam tendo significados diferentes. O coeficiente de correlação, como sabemos, é uma medida da associação linear existente entre as variáveis X e y, ambas supostamente aleatórias. O valor do coeficiente angular β1 representa a variação em y correspondente à variação de uma unidade em X, isto é, a derivada dy/dX. Para um modelo linear, podemos relacionar o coeficiente de determinação, e o coeficiente de correlação r(X,y). Para isso, reescrevemos R2 como: ( ) ( ) ( ) ( ) 2 2 2 2 2 2 2 , , iR T i yy xx xx yy y ySQR SQ y y S SR r X y S S R r X y ∑ − = = ∑ − = = O valor de R pode ser explicado como um coeficiente de correlação, no entanto, não entre as variáveis X e y (BARROS NETO; SCARMÍNIO; BRUNS, 2010). Pode-se demonstrar que em qualquer circunstância, para qualquer regressão linear com quaisquer números de variáveis, R é o coeficiente de correlação entre as respostas observadas e os valores previstos pelo modelo ajustado: ( ),R r y y= Esta relação é legítima, pois tanto os valores observados quanto os valores previstos são variáveis aleatórias. O valor de R, que é chamado de coeficiente de correlação múltipla, nunca é negativo, ele é o maior valor da correlação que uma combinação linear das variáveis independentes, na forma apontada pelo modelo, pode ter com os valores de y observados. Galdamez e Carpinetti (2004) reportaram as principais ferramentas de um planejamento experimental, e estas são apresentadas no Quadro 1. 89 PLANEJAMENTO EXPERIMENTAL │ UNIDADE III Quadro 1. Principais ferramentas de um planejamento experimental. Ferramentas Características Planejamento fatorial Seu uso ocorre quando todas as combinações dos níveis dos fatores de controle são realizadas. Planejamento fatorial 2k Técnica com dois níveis e 2k número de combinações de k fatores. Planejamento fracionado 2k-p Seu uso ocorre quando há diversos fatores de controle e não é viável para os pesquisadores a realização de todas as combinações dos experimentos. Metodologia de superfície de resposta Metodologias de planejamento e análise de experimentos usadas na modelagem matemática de respostas. Planejamento fatorial 2k, com pontos centrais Metodologia que consiste em adicionar um ponto de experimentação no nível intermediário aos níveis avaliados para os k fatores de controle. Gráficos 1. Gráficos de efeitos principais: mostram a variação média das respostas em função da mudança no nível de um fator, sendo os outros fatores mantidos constantes. 2. Gráficos de efeitos de interação: fazem a descrição da variação média de um fator em função dos níveis de outros fatores. 3. Gráfico de probabilidade normal é empregado nas situações em que não há a repetição de um experimento e é importante obter uma estimativa independente do erro experimental para julgar a importância dos efeitos principais e de interação. Fonte: Adaptado de Galdamez e Carpinetti (2004). Caro estudante sugerimos a consulta ao seguinte link para aprofundamento dos conhecimentos discutidos neste capítulo: https://goo.gl/3131cn (ANÁLISE DE REGRESSÃO, 2018). 90 UNIDADE IVQUIMIOMETRIA A Quimiometria é uma área da Química extremamente difundida e muito útil na extração de informações dos mais variados sistemas químicos. Além da pesquisa básica, a indústria química utiliza a análise multivariada para otimizar seus processos e, nesse contexto, formar profissionais com o conhecimento necessário é muito importante para o desenvolvimento do setor no país.A Quimiometria pode ser conceituada como uma área da química que utiliza métodos matemáticos e estatísticos para: » Planejar ou fazer escolhas de procedimentos ótimos de medidas e experimentos. » Extrair o máximo da informação química relevante, ou seja, otimizar o processo da análise dos dados. Outra definição também proposta para Quimiometria é como uma ciência que relaciona medidas realizadas em um sistema ou processo químico, ao estado do sistema utilizando métodos matemáticos e/ou estatísticos. Figura 24. Correlação da Quimiometria com a Química, Matemática e Estatística. QUÍMICA MATEMÁTICA ESTATÍSTICA QUIMIOMETRIA Fonte: autora. A quimiometria engloba todo um processo no qual os dados (por exemplo, números em uma tabela) são transformados em informações usadas para tomar decisões. Para cumprir tais objetivos, os estudos quimiométricos utilizam-se de ferramentas matemáticas aplicadas em softwares. Isto se faz necessário devido à grande complexidade em realizar tais cálculos à mão. Veremos a seguir sobre os fundamentos e seus princípios. 91 QUIMIOMETRIA │ UNIDADE IV A quimiometria pode ser entendida como a junção da química e da estatística a fim de análise de dados de origem química. Ou seja, é o tratamento de dados químicos pelos olhos da estatística, utilizando-se de métodos matemáticos. A quimiometria possui uma grande abrangência na variedade de dados no qual pode ser aplicada, indo desde dados de cinética e equilíbrio químico à otimização de sínteses orgânicas. Esta ferramenta pode ser utilizada tanto em laboratórios de pesquisa quanto na indústria, no controle e monitoramento de processos. A quimiometria está ligada à outras disciplinas dentro da química como a química orgânica, físico-química e química teórica, quanto outras áreas dos estudos das exatas como engenharia, matemática e estatística. Figura 25. Correlação da quimiometria com as diversas disciplinas acadêmicas. Química orgânica Quimiometria Química analítica Química Teórica e físico- química Estatística Computação Engenharia Biologia Indústria Alimento s M at em át ic a Fonte: Adaptado de Brereton (2003). Histórico A utilização das ferramentas de quimiometria começaram tardiamente. Os registros das primeiras utilizações de estatística multivariada se deram na primeira metade do século XX, pois a partir dele, por volta da década de 1970, a presença de microprocessadores e microcomputadores se popularizou nos laboratórios químicos (SENA; POPPI, 2010). Conhecidamente, os pioneiros na área de quimiometria são os professores Bruce Kowalski, da Universidade de Washington, Estados Unidos e Svante Wold, da Universidade de Umea, Suécia. 92 UNIDADE IV │ QUIMIOMETRIA Desenho experimental O desenho experimental existe para se otimizar tempo de laboratório, uso de reagente entre outros fatores envolvidos dentro de um projeto em química. Para tanto, é necessário a aplicação de regras estatísticas formais que muitas vezes não são ensinadas nos cursos tradicionais. Um projeto estatístico formal pode levar semanas para ser preparado antes de dar início à parte experimental e estes experimentos, por sua vez, podem ser realizados rapidamente. Devido a isso, muitos professores e alunos não possuem o hábito do desenho experimental. Porém, a maioria dos experimentos do mundo real são caros. Se pegarmos o exemplo da otimização de condições de uma síntese orgânica, testar compostos em um estudo QSAR, ou melhorar a separação cromatográfica de isômeros pode levar dias ou meses, mas é essencial para a otimização do tempo. Existem várias razões pelas quais o químico pode ser mais produtivo se ele entender a base do desenho experimental, incluindo as quatro áreas principais a seguir: » Triagem: a triagem envolve experimentos que indicam quais fatores são mais importantes para o sucesso de um processo. Como exemplo temos um estudo de uma reação química onde se varia a proporção de solventes, concentração de reagentes, temperatura e pH. Nestes casos são muitos fatores envolvidos e devem ser analisados quais aqueles que podem ser descartados e aqueles que devem ser estudados com mais detalhes. Para tal, existem ferramentas como o planejamento fatorial ou Plackett- Burman (SENA; POPPI, 2010). » Otimização: a otimização é uma das ferramentais mais aplicadas em química. Ela é necessária para se verificar, por exemplo, um rendimento de síntese ou uma purificação. O método Simplex é um dos mais aplicados para esta função. » Economia de tempo: na indústria, esta é uma das principais motivações para o desenho experimental. A partir de dados estruturais, de moléculas existentes, é possível prever um pequeno número de compostos para testes adicionais, representativos de um conjunto maior de moléculas. Isso permite uma enorme economia de tempo. Os modelos estatísticos mais utilizados são o fatorial fracionário, Taguchi e Plackett-Burman. 93 QUIMIOMETRIA │ UNIDADE IV Como visto anteriormente, existem diversas aplicações de um desenho ou planejamento experimental. Um exemplo é a otimização do rendimento de uma reação em função da concentração de reagente. A representação deste experimento é dada na Figura 26. O gráfico de contorno é desconhecido de antemão, porém, o pesquisador deseja determinar o pH e a concentração (em mM) que fornece as melhores condições de reação. Dentro de 0,2 de uma unidade de pH e concentração, o pH ótimo é 4,4 e a concentração de 1,0 mM. Muitos experimentalistas começarão adivinhando um dos fatores, como a concentração, e então encontrarão o melhor pH nessa concentração (SENA e POPPI, 2010). Figura 26. Representação gráfica do planejamento experimental que são estudados três fatores: rendimento, concentração e pH. 0,2 0,6 1,0 1,4 1,8 2,6 2,2 3,0 3,6 4,2 4,8 5,4 6,0 Concentração pH Re nd im en to Fonte: Adaptado de Sena e Poppi (2010). 94 CAPÍTULO 1 Princípios básicos Graus de liberdade Graus de liberdade, em estatística, pode ser entendido como a quantidade de informação que os dados gerados fornecem para se estimar os valores de parâmetros desconhecidos, e calcular a variabilidade dessas estimativas. O grau de liberdade é determinado pelo número de observações da amostra e o número de parâmetros do modelo escolhido. A maioria dos experimentos resulta em algum tipo de modelo, que é uma maneira matemática de relacionar uma resposta experimental ao valor ou estado de vários fatores. Um exemplo de modelo é o rendimento de uma reação e os fatores interferentes são pH e temperatura. Em diversos trabalhos dentro da química, é importante equilibrar o número de experimentos únicos com o número de repetições. Cada réplica experimental nos fornece um grau de liberdade para se medir os erros experimentais. A Figura 27 exemplifica os níveis dos graus de liberdade Figura 27. Níveis de graus de liberdade. Número de experimentos (N) Número de parâmetros (P) Graus remanescentes de liberdade (N-P) Número de replicatas (R) Número de graus de liberdade para testar o modelo (D=N-P-R) Fonte: Adaptado de Sena e Poppi (2010). Cada réplica fornece um grau de liberdade para medir erros experimentais. Uma boa regra é que o número de réplicas (R) deve ser semelhante ao número de graus de 95 QUIMIOMETRIA │ UNIDADE IV liberdade para a falta de ajuste (D), a menos que exista uma razão para se estudar um aspecto do sistema de preferência para outro. Análise de variância e comparação de erros A experimentação científica tem por objetivo responder o quanto um determinado fator pode ser significativo. A seguir, serão apresentadas maneiras de fornecer informações numéricas que permitam indicar os graus de liberdade experimentais para determinar o significado de um dado fator. Quando se tenta realizar um ajuste matemático em determinado modelo experimental e esse não se encaixa nos parâmetros estabelecidos, pode-se dizer que o termo de interceptaçãopode ser comparado como o erro de replicação. Esses erros são chamados de variâncias. Se a falta de ajuste for muito maior do que o erro replicado, este é significativo, sendo o termo de interceptação levado em consideração. Para uma melhor compreensão tomemos o exemplo citado por Brereton (2003). Dois conjuntos de dados chamados de A e B são mostrados nas figuras abaixo: Figura 28. Gráfico da altura do pico versus concentração, conjunto de dados A. Al tu ra d o pi co Concentração (mM) Fonte: BRERETON (2003). 96 UNIDADE IV │ QUIMIOMETRIA Figura 29. Gráfico da altura do pico versus concentração, conjunto de dados B. Al tu ra d o pi co Concentração (mM) Fonte: BRERETON (2003). Existe um termo significativo de interceptação para esses dois conjuntos de dados? Tabela 13. Informações numéricos dos conjuntos de dados A e B. Concentração A B 1 3803 4797 1 3276 3878 2 5181 6342 3 6948 9186 3 8762 10136 4 10672 12257 4 8266 13252 5 13032 14656 6 15021 17681 6 16426 15071 Fonte: Brereton, (2003). Para se responder à pergunta citada mais acima, o primeiro passo é determinar o número de graus de liberdade para cada experimento. Para cada experimentos: » N (número total de experimentos) igual à 10; » R (número de replicatas) igual à 4, medidos nas concentrações 1, 3, 4 e 6 mM. Os modelos podem ser determinados sem a interceptação na forma de y = bx ou com a interceptação na forma y = b0 + b1x. 97 QUIMIOMETRIA │ UNIDADE IV No primeiro caso, D = N – R – 1 = 5; No segundo caso, D = N – R – 1 = 5. O erro total de replicação pode ser obtido observando a diferença entre as respostas sob concentrações experimentais idênticas. Para os dados na Tabela 13, as replicatas são realizadas para as concentrações de 1, 3, 4 e 6 mM. Uma maneira simples de determinar esse erro é mostrado abaixo: 1. Faça a leitura média em cada nível ou concentração replicada; 2. Determine as diferenças entre essa média e a leitura verdadeira para cada medida replicada; 3. Em seguida, calcule a soma dos quadrados dessas diferenças (observe que a soma será sempre zero). Este procedimento pode ser visto na tabela abaixo: Tabela 14. Cálculo de erros para o conjunto de dados A, modelo incluindo interceptação. Erro replicado Concentração Absorbância Replicata Diferença Diferença elevada ao quadradoMédia 1 3803 0,263 0,069 1 3276 3540 -0,263 0,069 2 5181 3 6948 0,907 0,822 3 8762 7855 -0,907 0,822 4 10672 1,203 1,448 4 8266 9469 -1,203 1,448 5 13032 6 15021 -0,702 0,493 6 16426 15724 0,702 0,493 Soma do erro de replicação ao quadrada 5,665 Erro global (dados ajustados usando calibração univariada) Concentração Absorbância Dado ajustado Diferença Diferença elevada ao quadrado 1 3803 3048 0,755 0,570 1 3276 3048 0,229 0,052 2 5181 5484 -0,304 0,092 3 6948 7921 -0,972 0,945 3 8762 7921 0,841 0,708 4 10672 10357 0,315 0,100 98 UNIDADE IV │ QUIMIOMETRIA 4 8266 10357 -2,091 4,372 5 13032 12793 0,238 0,057 6 15021 15230 -0,209 0,044 6 16426 15230 1,196 1,431 Total erro ao quadrado 8370 Fonte: Brereton (2003). Algebricamente, a soma dos quadrados é definida como: ( ) 1 2 1 rep i S yi yi = = −∑ Onde yi é a resposta média em cada condição experimental única. A soma total de erro residual dos quadrados é simplesmente a soma da diferença quadrada entre as leituras observadas e aquelas previstas usando um modelo de melhor ajuste. O uso do ANOVA é generalizado e baseia-se nessas ideias simples. Normalmente, dois erros médios são comparados, por exemplo, um devido à replicação e outro devido à falta de ajuste, embora quaisquer dois erros ou variâncias possam ser comparados (BRERETON, 2003). É importante reconhecer que a reprodutibilidade da reação tem uma influência sobre o significado aparente também. Se houver um grande erro de replicação, alguns fatores significativos podem ser perdidos (BRERETON, 2003). Avaliação da significância Dentro da avaliação de significância existem diversos métodos como o teste T de Student e o teste-F. Cada um possui sua metodologia matemática de aplicação que serão discutidos a seguir. Teste T de Student O teste T de Student pode ser utilizado quando são realizados muitos experimentos. Existem muitas aplicações diversas para este teste, porém no contexto de analisar a significância dos fatores em experimentos planejados, os seguintes passos são utilizados: 1. Cálculo da matriz (D’D)-1. Esta será uma matriz quadrada com dimensões iguais ao número de parâmetros no modelo; 2. Calcular a soma dos quadrados dos erros entre os dados previstos e os dados observados; 99 QUIMIOMETRIA │ UNIDADE IV 3. Tomar a média da soma dos quadrados dos erros (dividida pelo número de graus de liberdade disponíveis para teste de regressão); 4. Para cada um dos parâmetros P, pegar o número apropriado da diagonal da matriz obtida na etapa 1; 5. Para cada coeficiente, b, calcule bt sv = . Quanto maior essa proporção, mais significativo é o coeficiente. Essa proporção é usada para o teste-t; 6. A significância estatística é obtida a partir de uma distribuição t-bicaudal. Teste-F O teste F é uma outra forma de avaliação da significância. Um uso comum deste teste é juntamente com o ANOVA, e pergunta como uma variância significativa (ou soma média de quadrados) é relativa a outra; tipicamente, quão significativa a falta de ajuste é comparada com o erro replicado. Para se aplicar o teste-F é necessário determinar o quadrado médio da falta de ajuste para replicar os erros e verificar o tamanho deste número. Tabelas de distribuição F são comumente apresentadas em vários níveis de probabilidade. Um exemplo de tabela 15 de distribuição F é mostrado abaixo. Tabela 15. Distribuição F com V1 graus de liberdade no numerador e V2 graus no denominador. V1 → 1 2 3 4 5 V2 ↓ 1 161.45 199.50 215.71 224.58 230.16 2 18.51 19.00 19.16 19.25 19.30 3 10.13 9.55 9.28 9.12 9.01 4 7.71 6.94 6.59 6.39 6.26 5 6.61 5.79 5.41 5.19 5.05 Fonte: https://www.ime.unicamp.br/~cnaber/tabela_F_1.pdf (DISTRIBUIÇÃO, 2019). Caro estudante, a tabela completa apresentada acima pode ser acessada no site: <https://www.ime.unicamp.br/~cnaber/tabela_F_1.pdf> (DISTRIBUIÇÃO, 2019). 100 CAPÍTULO 2 Erro em análises químicas Introdução Quando realizamos experimentos, incluindo nas áreas de exatas como em biológicas, as medidas realizadas são passíveis de erros e incertezas. As fontes de erros dentro das análises químicas podem ocorrer por duas grandes varáveis: erros cometidos pelo analista técnico como padronizações ou calibrações malfeitas ou por erros inerentes à amostra como alguma característica do material analisado. Destes fatos, torna-se impossível que uma análise química seja completamente isenta de erros, porém existem medidas que devem ser tomadas para que estes sejam minimizados completamente. Todas as medidas analíticas são influenciadas por fatores de incerteza, gerando neste sentido o que é chamado de dispersão dos dados. A dispersão de dados nada mais é do que resultados gerados não seguindo um padrão determinado. Tomemos por exemplo a Tabela 16. Nela são apresentados dados de concentração de um corante e as medidas de absorbância de 6 replicatas experimentais. Tabela 16. Concentração de um determinado corante e as medidas de absorbância obtidas em 6 replicatas experimentais. Absorbância n1 n2 n3 n4 n5 n6 Concentração (µM) 0,05 0,15 0,12 0,13 0,16 0,18 0,33 0,1 0,25 0,32 0,27 0,33 0,17 0,34 1,0 0,53 0,67 0,49 0,59 0,87 0,52 Fonte: autora. Podemos notar que os dados que estão destacados em negritos são muito discrepantes da tendência que seguem os demais dados da mesma categoria. Ou seja, na linha em que temos a concentração de 0,05 µM, os dados de leitura da absorbância ficam dentro dos limites de 0,12 a 0,18, sendo o dado 0,33 disperso de tais resultados. Já para a concentração de 0,1 µM, os limites ficam entre 0,25 a 0,34, sendo o valor de 0,17 fora 101 QUIMIOMETRIA│ UNIDADE IV desta tendência. Finalmente, para a concentração de 1,0 µM, os limites observados estão entre 0,49 a 0,67, com o valor de 0,87 fora da tendência. Conceitos de precisão e exatidão Os conceitos de precisão e exatidão precisam estar bem estabelecidos para que se compreenda os erros em uma medida analítica: » A exatidão representa o quanto a medição está em concordância com o valor verdadeiro de uma grandeza. » A precisão, por outro lado, indica a concordância entre vários resultados obtidos da mesma forma. A precisão é determinada medindo-se a replicata dos experimentos. Para se compreender melhor os conceitos de exatidão e precisão, observe a Figura 30. Figura 30. Representação esquemática dos conceitos de precisão e exatidão. Precisão: não Exatidão: não Precisão: sim Exatidão: não Precisão: não Exatidão: sim Precisão: sim Exatidão: sim Fonte: http://1.bp.blogspot.com/-qxu2t0ZMtfM/USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/Quadro+Comparativo_ Precis%C3%A3o_Exatid%C3%A3o.png (PRECISÃO, 2019). » No primeiro alvo, os dados estão dispersos sendo pouco preciso e pouco exato. » No segundo alvo, verifica-se que os dados têm boa precisão, porém estão longe do centro. Este fato significa que são pouco exatos. » No terceiro alvo, os dados estão próximos do centro, porém não precisamente. » No quarto alvo, verifica-se que os dados estão próximos ao valor esperado e no centro desejado. 102 UNIDADE IV │ QUIMIOMETRIA Erro de uma medida analítica Matematicamente, o erro absoluto de uma medida analítica é definido como a diferença entre o valor medido e o valor verdadeiro de uma determinada grandeza (BACCAN et al., 1979): = − vE X X Onde: » E = Erro absoluto. » X = Valor medido. » Xv = Valor verdadeiro. O sinal do erro absoluto é mantido pois, o sinal de negativo, indica que o resultado experimental é menor do que o valor aceito; o sinal positivo, indica que este valor está maior do que o aceito. O erro de uma análise pode ser descrito em termos relativos, sendo calculado pela relação: r v EE X = Onde: » Er = Erro relativo » O erro relativo é adimensional, sendo representado em partes por 100 ou partes por 1000. Abaixo podem ser observados alguns exemplos de erros relativos: 1. O teor verdadeiro de fluoreto em uma amostra é de 43,3%, porém, o resultado encontrado após uma análise foi de 42,5%. Calcule o erro absoluto e o erro relativo do resultado desta análise. ( ) 42,5 43,3 0,8% Erroabsoluto absoluto= − =− Expressa-se a palavra absoluto para que não ocorra confusão com o erro relativo, que também é expresso em porcentagem. ( )0,8 1 00 1,8 % 43,3 Errorelativo x relativo−= =− 103 QUIMIOMETRIA │ UNIDADE IV 2. O valor verdadeiro da concentração de uma solução de HCl é de 0,2003 M e o valor encontrado após uma titulação foi de 0,2100. Calcular o erro absoluto e o erro relativo. ( ) 0, 2100 0,2003 0,0097 Erroabsoluto M absoluto= − = Neste caso, o valor absoluto é expresso em molaridade. ( )0,0097 1 00 4,84 % 0,2003 Errorelativo x relativo= = Tipos de erros As análises químicas podem ser afetadas, basicamente, por dois tipos de erros. Um deles é chamado de erro aleatório ou indeterminado, que faz com que os dados sejam distribuídos de uma forma simétrica em torno de um valor médio (SKOOG, 2006). O erro aleatório reflete-se na sua precisão. O segundo tipo de erro é chamado de erro sistêmico ou determinado. Este tipo de erro faz a média de um conjunto de dados ser diferente do valor aceito. Geralmente, o erro sistêmico nas replicatas faz com que os resultados sejam muito baixos ou altos. Um terceiro tipo de erro, chamado de erro grosseiro, ocorre de forma ocasional e pode causar tanto baixa ou aumento dos resultados. Esses erros são frequentemente causados por erro humano. Os erros grosseiros levam à ocorrência dos chamados valores anômalos, resultados que se diferem de todos os outros dados de um conjunto de replicatas experimentais. Erros sistemáticos Os chamados erros sistemáticos possuem valor definido e aquilo que o causa é identificável. Ambos são da mesma ordem de grandeza e réplicas para medidas realizadas de formas semelhantes (SKOOG, 2006). Este tipo de erro leva à uma mesma categoria no conjunto de resultados. Fontes de erros sistêmicos Os erros sistêmicos podem ter diversas origens. Para cada origem existe uma determinada denominação do erro sistêmico: 104 UNIDADE IV │ QUIMIOMETRIA » Erros instrumentais: são os erros causados por falhas de um instrumento. Este não está atuando conforme suas especificações, por falhas nas calibrações ou condições inadequadas de uso. Exemplo: desnivelamento de balanças. » Erros de métodos: este tipo de erro ocorre quando uma determinada metodologia é utilizada erroneamente segundo o comportamento químico ou físico de uma determinada amostra. Exemplo: medidas de viscosidade de semissólidos em viscosímetro de vidro. » Erros pessoais: os erros pessoais estão ligados exclusivamente com a má gestão de pessoal. Ele ocorre pela falta de cuidado, atenção ou limitação do analista. Exemplo: Má limpeza de balanças analíticas. Erros instrumentais Todos os dispositivos de medidas são passíveis de erros instrumentais sistêmicos. Aqui temos como exemplos vidrarias como pipetas, buretas, provetas (Figura 31). Estes tipos de vidraria podem dispensar quantidades levemente diferentes das indicadas em suas graduações. Figura 31. A) Pipeta graduada; B) bureta. A B Fonte: a) https://is.gd/8fhASI (PIPETA, 2019); b) https://is.gd/lIxWKK (BURETA, 2019). A principal causa de erros nas dispensações de líquidos são originados pelo aquecimento da vidraria. Estas são calibradas para atuarem em temperatura ambiente, porém, em processos de lavagem e secagem em estufas, perdem sua confiabilidade analítica. https://is.gd/8fhASI 105 QUIMIOMETRIA │ UNIDADE IV Além disso, a adequação da vidraria a ser utilizada para o material químico analisado é de extrema importância. Por exemplo, deve-se evitar a intercambiação de vidrarias utilizadas para aliquotagem de bases fortes e outros reagentes. As bases são capazes de corroer o vidro e se depositarem nos poros originados (Figura 32). Figura 32. Esquema da superfície do vidro corroída por base. Nota-se que ao se utilizar outras substâncias químicas, estas podem se acumular nos poros interferindo nas análises. Poros formados pela corrosão por base Substâncias químicas acumuladas nos poros Superfície do vidro Fonte: autora. Os equipamentos eletrônicos também são passíveis de erros instrumentais sistemáticos. Tais erros podem ter diversas origens como a má calibração, perda de voltagem de uma bateria, variações de temperatura nos componentes eletrônicos, corrosão de eletrodo entre outros. Em muitos desses casos, os erros são facilmente detectados e corrigidos. Erros de métodos Dentre todos os tipos de erros, os erros de métodos são os mais difíceis de serem detectados e corrigidos. Este tipo de erro é originado pela má adequação das reações aos quais uma análise é baseada ou pelo comportamento químico e físico do analito. Alguns exemplos dessas fontes de erros são a lentidão de algumas reações, a instabilidade de determinadas espécies químicas, o não término de uma reação, ocorrência da formação de subprodutos originados de reações paralelas dentro de um mesmo meio reacional e inespecificidade de alguns reagentes. Um exemplo prático deste tipo de erro são as titulações ácido-base. Os indicadores de pH utilizados neste teste analítico exige um excesso de reagente para que o ponto de viragem seja observado. Este erro é então limitado ao próprio método de titulação. Na Figura 33 é observado um exemplo genérico de titulação ácido-base. 106 UNIDADE IV │ QUIMIOMETRIA Figura 33. Exemplo genérico de uma titulação ácido-base. Para que ocorra o ponto de viragem é necessário a adição em excesso do reagente titulante. Antes do ponto de viragemApós o ponto de viragem com excesso de reagente titulante Fonte: Adaptado de http://quimicadashotoko.blogspot.com/2013/05/titulacao.html (TITULAÇÃO, 2019). Erros pessoais Determinadas medidas analíticas, ainda hoje, dependem da observação e julgamento de um analista. Devido a isso, existe a possibilidade de ocorrência de erros específicos ao analista. Um exemplo clássico de erro pessoal é o erro de paralaxe. Quando se utiliza, por exemplo, uma proveta é necessário que a pessoa que está medindo determinado volume esteja com os olhos no mesmo nível da vidraria. Por efeitos ópticos, se a vidraria estiver no campo de visão mais alto ou mais baixo que os olhos do analista, será medido um volume errado pois o menisco não estará adequadamente posicionado (Figura 34). 107 QUIMIOMETRIA │ UNIDADE IV Figura 34. Exemplo de erros pessoais. A forma que a proveta é posicionada frente ao olho do analista irá interferir no valor a ser medido. Acerto do menisco: A: soluções incolores B: soluções coradas A B A B C 0 A: posição correta para acertar o menisco B e C: posições incorretas Fonte: Adaptado de https://is.gd/OByPAD (PROVETA, 2019). Um outro erro bastante comum ocorre nas titulações. A cor do ponto de viragem dos indicadores pode ser observada diferentemente para cada analista. Um analista que é insensível a mudanças de coloração tende a usar um excesso de reagente. Uma das grandes causas dos erros pessoais está ligado ao prejulgamento do analista. Quando se realiza uma análise, por melhor que este analista seja, existe uma tendência de se estimar leituras na direção da melhoria da precisão da análise. De forma inconsciente, faz-se que os resultados se mantenham próximos ao valor esperado. Contribuições dos erros sistemáticos nos resultados analíticos São dois os tipos de erros sistemáticos que podem interferir dentro dos resultados analíticos: os erros sistemáticos constantes e os erros sistemáticos proporcionais. https://is.gd/OByPAD 108 UNIDADE IV │ QUIMIOMETRIA Nos erros constantes, o tamanho do erro permanece o mesmo quando a quantidade média varia. Neste tipo de erro, este permanece constante em relação ao tamanho da amostra, porém o erro relativo varia com o tamanho amostral. Já nos erros proporcionais, estes aumentam ou diminuem de acordo com o tamanho da amostra, sendo o erro absoluto variando de acordo com a dimensão da amostra, porém o erro relativo se mantem constante independentemente da variação do tamanho da amostra estudada. Erros constantes Para a melhor compreensão do que é um erro constante, acompanhe o exemplo a seguir: » 80 mg de precipitado de cloreto de prata é perdido pela lavagem com 100 mL de solução de lavagem. Se a massa total de precipitado de cloreto de prata é de 800 mg, o erro relativo é dado por: 0,8 1 00 0,1% 800 Erro relativo x = − = − Se a massa total do precipitado de cloreto de prata fosse de 50 mg e tivéssemos a mesma quantidade de perda, o erro relativo seria de – 1,0%, ou seja, o efeito do erro constante é aumentado à medida que a quantidade média diminui. Erros proporcionais Tomemos um exemplo que ajuda a exemplificar os erros proporcionais: » A determinação de cobre é realizada a partir da reação do cobre (II) com o iodeto de potássio formando iodo. A quantidade de iodo é medida, sendo proporcional à quantidade de cobre. Caso a amostra esteja contaminada com ferro (III), este também promove a liberação do iodo do iodeto de potássio. Os resultados aparecerão com quantidades maiores de iodo que por consequência serão atribuídos ao cobre (SKOOG, 2006). Neste caso, a dimensão do erro é atribuída à fração contaminante, o que independe do tamanho da amostra. Se por exemplo, a quantidade de amostra for quadruplicada, a quantidade de iodo liberado pela amostra também será quadruplicada. 109 QUIMIOMETRIA │ UNIDADE IV Como realizar a detecção de erros sistemáticos instrumentais, pessoais e de método? Basicamente, a calibração é a melhor fonte para determinar e corrigir os erros sistemáticos. Esta deve ser realizada periodicamente pois os equipamentos sofrem com o desgaste, corrosão ou manutenção inadequada. Já nos casos de erros sistemáticos pessoais, este pode ser minimizado com as boas práticas de laboratório. Escolher sempre a melhor metodologia, levando-se em consideração as limitações do analista e registrar no caderno de laboratório as leituras realizadas são as principais medidas que devem ser tomadas. Para os erros sistemáticos de métodos são utilizadas análises por materiais de referência padrão (do inglês Standard Reference Materials – SRMs) para se estimar a tendência de um método analítico ou análises por referência. Os materiais de referências padrão são vendidos pelo National Institute os Standards and Technology (NIST) e são certificados quando a conter concentrações específicas para um ou mais analito (SKOOG, 2006). Além disso, estes materiais podem ser obtidos por meio de síntese, sendo preparados cuidadosamente com quantidades exatas e reagentes da mais alta pureza. Figura 35. Exemplo de material de referência padrão do NIST. Padrão de Vitamina D em soro humano nível 1. Fonte: https://is.gd/k9HVr0 (PADRÃO DE VITAMINA, 2019). As análises por materiais padrão podem fornecer resultados diferentes do valor aceito. É necessário então estabelecer se a diferença ocorre devido aos erros sistemáticos ou aos erros aleatórios. Nas análises independentes, quando as amostras padrão não estão disponíveis, é utilizado um segundo método analítico independente e confiável. Este método 110 UNIDADE IV │ QUIMIOMETRIA independente deve diferir do método estudado, minimizando a possibilidade de algum fator comum da amostra interferir nos dois métodos. Erros aleatórios ou indeterminados Todas as medidas analíticas contêm erros aleatórios. Tais erros não podem ser totalmente eliminados e, na maioria das vezes, são as fontes de incerteza de uma determinação analítica. As variáveis chamadas de incontroláveis são as responsáveis pelos erros aleatórios, sendo praticamente impossível de identificá-las. Aquelas identificáveis são impossíveis de medir pois são extremamente pequenas e não podem ser detectadas individualmente. O acúmulo das incertezas individuais faz com que as medidas flutuem aleatoriamente em torno da média do conjunto de dados (Figura 36). Figura 36. Esquema de medidas geradas por variáveis incontroláveis. As medidas flutuam em torno da média, sendo neste caso, uma medida precisa, porém, inexata. Fonte: Adaptado de http://1.bp.blogspot.com/-qxu2t0ZMtfM/USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/ Quadro+Comparativo_Precis%C3%A3o_Exatid%C3%A3o.png (PRECISÃO, 2019). Os erros indeterminados podem ser submetidos a tratamentos estatísticos permitindo saber qual o valor mais provável e a precisão de uma série de medidas. Os erros indeterminados seguem a lei de distribuição normal de Gauss (BACCAN, 1979). Tratamentos estatísticos de erros aleatórios Pode-se utilizar métodos estatísticos para se avaliar erros aleatórios. Os métodos estatísticos não inserem nenhuma nova informação ao conjunto de dados, apenas revela as informações contidas neles. 111 QUIMIOMETRIA │ UNIDADE IV Primeiramente é necessário relembrar os conceitos de amostras e populações já apresentados em capítulos anteriores. A população é a coleção de todas as medidas de interesse para o analista enquanto a amostra é um subconjunto de medidas selecionadas a partir da população (SKOOG, 2006). A Figura 37 exemplifica de forma esquemática os conceitos de amostras e populações. Figura 37. Esquema dos conceitos de amostra e população. Amostra. população Fonte: https://is.gd/aGe3Vs (POPULAÇÃO, 2019). A população deve ser muito bem definida pelo analista, podendo ser classificada em finita e real ou hipotética ou conceitual. Um exemplo de população real são indivíduos que serão coletadas amostras de sangue. No caso da população conceitual umexemplo é parte de um reservatório de água para se determinar a dureza da água de toda uma cidade. Curva de distribuição norma de Gauss A variáveis seguem a lei de Gauss quando se pode tomar todos os valores de a , com a probabilidade dada pela equação: ( )2 2 1 22 iXY e µ σσ π − = − Onde: » Y = Probabilidade de ocorrência de um valor Xi da variável X. » µ = média da população. https://is.gd/aGe3Vs 112 UNIDADE IV │ QUIMIOMETRIA »» σ = desvio padrão. » O termo (Xi - µ) 2 é o desvio de Xi em relação à média. A representação gráfica da lei de Gauss pode ser observada na Figura 38. Figura 38. Representação gráfica da lei de Gauss. 0 - + Fonte: https://is.gd/WAaO7f (GAUSS, 2019). Observando a figura pode-se notar que: » o valor mais provável é a média aritmética de todos os valores; » tanto os desvios negativos como os positivos são igualmente prováveis; » desvios pequenos são mais prováveis que desvios grandes. Propriedades das curvas de Gauss As curvas Gaussianas apresentam propriedades muito interessantes que são especialmente importantes nos estudos estatísticos. A equação da curva gaussiana é expressa como: ( ) 2 22 2 xey σµ σ π − − = Onde: » X = variável aleatória. » µ = média. »» σ = desvio padrão. »» σ2 = variância. 113 QUIMIOMETRIA │ UNIDADE IV Sua representação gráfica pode ser observada na Figura 39: Figura 39. Gráfico de distribuição normal. Fonte: https://is.gd/PUS2cS (CURVA, 2019). Nos estudos estatísticos é importante saber a diferença entre a média de uma amostra e a média da população, assim como o conceito de mediana. A média da amostra é a média aritmética de uma amostra limitada retirada de uma população. Ela é definida como a soma dos valores medidos dividida pela soma dos valores medidos dividida pelo número de medidas (SKOOG, 2006). A média pode ser calculada segundo a fórmula: ( ) 2 22 2 xey σµ σ π − − = Onde: » Xi = valores individuais de x. » N = quantidade de replicatas experimentais. Já a mediana pode ser entendida como o resultado central de replicatas de dados de acordo com uma sequência crescente ou decrescente. Para uma melhor compreensão do significado da mediana e da média observe o exemplo a seguir: » Um analista farmacêutico fez uma série de medições de massas de comprimidos. Ela obteve os seguintes resultados (Tabela 17): 114 UNIDADE IV │ QUIMIOMETRIA Tabela 17. Resultados da pesagem de amostras de comprimidos. Amostra 1 2 3 4 5 6 7 8 9 10 11 Massa 1,023 1,053 1,047 1,032 1,012 1,065 1,098 1,058 1,063 1,054 1,087 Fonte: autora. Se colocarmos em ordem crescente de massas, verificaremos que a massa que está na posição 6 é a mediana das massas dos comprimidos. Isso porque esta massa está localizada de forma central dentro do conjunto de replicatas obtidas (Tabela 18). Tabela 18. Resultados da pesagem de amostras de comprimidos em ordem crescente. Amostra 1 2 3 4 5 6 7 8 9 10 11 Massa (g) 1,012 1,023 1,032 1,047 1,053 1,054 1,058 1,063 1,065 1,087 1,098 Fonte: autora. Já a média é obtida pela somatória das massas das amostras e dividida pela quantidade de n experimentais: ( ) 2 22 2 xey σµ σ π − − = Nos casos em que as replicatas amostrais são em número par, o procedimento para achar a mediana segue como o exemplo abaixo: Tabela 19. Resultados da pesagem de amostras de comprimidos. Amostra 1 2 3 4 5 6 7 8 9 10 Massa 1,023 1,053 1,047 1,032 1,012 1,065 1,098 1,058 1,063 1,054 Fonte: autora. Após o ordenamento dos dados, faz-se a média dos dois valores que se encontram na posição central. 11,592 1,053 11 x g= = Tabela 20. Resultados da pesagem de amostras de comprimidos em ordem crescente destacando a mediana do conjunto de dados pares. Amostra 1 2 3 4 5 6 7 8 9 10 Massa (g) 1,012 1,023 1,032 1,047 1,053 1,054 1,058 1,063 1,065 1,098 1,0535 Fonte: autora. 115 QUIMIOMETRIA │ UNIDADE IV A média neste caso será obtida da mesma forma do exemplo anterior: 1,050 1,050 10 x g= = A média da população, por outro lado, é considerada a média verdadeira para a população. Esta é expressa segundo a fórmula: 1 N ii x N µ ==∑ Onde: » µ = média da população. » N = número total de medidas da população. Desvio padrão de uma população O desvio padrão de uma população (σ) é dado pela equação: 1 N ii x N µ ==∑ Onde: »» σ = desvio padrão. » N = número de dados que compõem uma população. » µ = média da população. O desvio padrão pode ser entendido como uma medida de dispersão dentro de uma média de população em que existe uma variável aleatória. Na Figura 40 é apresentado uma Gaussiana com distribuição normal perfeita, os desvios indicam que os dados obtidos são homogêneos. 116 UNIDADE IV │ QUIMIOMETRIA Figura 40. Exemplo de gráfico com distribuição normal perfeita. -1 +1 Média Fonte: Adaptado de https://is.gd/DjdNDR (DESVIO, 2019). Na Tabela 21 consta a probabilidade de ocorrência de desvios em termos de desvios , baseado na frequência de distribuição normal (com probabilidade de 99,7%). Tabela 21. Probabilidade de ocorrência de desvios (99,7%) em termos de desvios , baseado na frequência de distribuição normal. ( ) ixz µ σ − = Probabilidade de um desvio numericamente (±) maior que z 0,00 1,00 0,10 0,92 0,20 0,84 0,30 0,76 0,40 0,69 0,50 0,62 0,60 0,55 0,70 0,48 0,80 0,42 0,90 0,37 1,0 0,32 1,5 0,13 2,0 0,046 2,5 0,012 3,0 0,0027 4,0 0,00006 5,0 0,0000006 Fonte: BACCAN, 1979. 117 QUIMIOMETRIA │ UNIDADE IV Um outro termo importante dentro dos estudos estatísticos é o quadrado do desvio padrão (σ2) chamado de variância. A variância pode ser entendida como o desvio quadrático médio da média e é expressa pela equação: ( )22 1 N ii x N µ σ = − = ∑ Onde: »» σ2 = variância. » N = número de dados que compõem uma população. » µ = média da população. Para uma melhor fixação, considere o exemplo a seguir retirado de Baccan (1979): » Sabe-se que o teor de cálcio em um composto pode variar entre 50 a 60%. Após uma série de análises, determinou-se que o desvio padrão relativo à determinação de teor de cálcio é de 3,0 partes por mil. Se o valor de uma análise isolada foi de 55,3% em Ca2+, qual o intervalo que deve estar o valor verdadeiro do teor de cálcio nessa amostra, com uma probabilidade de 99,7%, assumindo-se que não ocorra erros determinados. Segundo a Tabela 15, com uma probabilidade de erro de 99,7%, o valor de z é igual a 3. O intervalo em que deve estar a média da população é dado por µ = x ± 3σ. Calcula-se então o valor de σ, desvio padrão absoluto, a partir do desvio padrão relativo: ( ) 1 000 3,0 55,3 3,0 55,3 0,17% 1000 x x absoluto σ σ = = = Então, 3 3 0,17 0,51%xσ = = ( )55,3 0,51%vx = ± O valor verdadeiro deve estar no intervalo de 54,79% a 58,81%, com 99,7% de probabilidade. Pode-se dizer que, com certeza, o valor verdadeiro está neste intervalo. 118 CAPÍTULO 3 Validação dos métodos quimiométricos Todos os laboratórios devem atender aos requisitos estabelecidos pela Norma ABNT NBR ISO/IEC 17025 relacionados à seleção de métodos de ensaios, desenvolvimento de métodos de ensaio pelo laboratório, aplicação de métodos normalizados e validação de métodos. É importante que os laboratórios disponham de meios e critérios que permitam a comprovação, por meio do processo de validação, que os métodos de ensaios realizados pelo laboratório conduzem a resultados confiáveis e de qualidade (INMETRO, 2018). Ao empregar métodos normalizados, o laboratório em questão deverá demonstrar que possui as condições necessárias de operação e que está dentro dos padrões existentes em suas instalações para a implantação do método. Para realizar a implantação dos métodos normalizados, o laboratório deverá, obrigatoriamente, analisar e estudar os parâmetros referentes aos processos de recuperação/tendência e precisão, a faixa de trabalho, limite de quantificação (LQ) e limite de detecção (LD), devendo comprovar que os parâmetrosde validação estejam adequados ao uso pretendido. Este tipo de análise é também conhecido como verificação. Nos casos em que o método normalizado for modificado ou desenvolvido um novo método, o laboratório deverá garantir que as características de desempenho do método seguem os requisitos de operação analítica. Nos métodos, normalizado ou não, e em laboratórios em desenvolvimento, existem uma série de critérios que devem ser avaliados visando a garantia de adequação do método à uma determinada aplicação, sendo de responsabilidade do laboratório a definição de parâmetros de validação que apresentem a adequação especificas do método. Assim, o laboratório deverá validar os métodos para comprovar a eficácia para determinada aplicação: » métodos não normalizados; » métodos criados/desenvolvidos pelo próprio laboratório; » métodos normalizados empregados fora dos escopos do qual forma concebidos; » amplificação e modificação de métodos normalizados. 119 QUIMIOMETRIA │ UNIDADE IV O processo de validação dever compreender as necessidades de determinada aplicação ou área de atuação, sendo de responsabilidade do laboratório a emissão de um relatório descrevendo os resultados obtidos, bem como, o procedimento empregado para validação e um parecer sobre a viabilidade do método. Além disso, todos os equipamentos e instrumentos deverão estar dentro das especificações, com funcionamentos corretos e devidamente calibrados. O responsável pela condução dos estudos deverá possuir a competência necessária na área e possuir conhecimento suficiente sendo capaz de tomar decisões importantes ao longo do processo. Planejamento e execução da validação Para a execução do processo de validação é importante desenvolver um planejamento para que cada etapa seja efetuada com eficácia. Desta maneira, para elaboração do planejamento sugere-se a seguir a seguinte sequência de trabalho (INMETRO, 2018): » definir o objetivo e escopo do método; » definição de parâmetros de desempenho; » definir as bases de aceitação de cada parâmetro de desempenho; » analisar se as características de desempenho dos equipamentos são compatíveis com o exigido pelo método de estudo; » qualificar os materiais; » programar os experimentos de validação, assim como, os tratamentos estatísticos; » executar os experimentos de validação; » análise crítica dos resultados obtidos levando em consideração os critérios de aceitação; » analisar e concluir se o método está dentro dos parâmetros do uso pretendido. Após o procedimento, os resultados devem ser documentados e registrados de maneira organizada para que sejam acessíveis a todos envolvidos. 120 UNIDADE IV │ QUIMIOMETRIA Parâmetros de desempenho Os parâmetros de desempenho devem ser descritos de maneira clara no item referente ao procedimento sendo necessário incluir no relatório de validação os seguintes itens (INMETRO, 2018): » seletividade; » linearidade/faixa de trabalho/faixa linear de trabalho/sensibilidade; » limite de detecção (LD); » limite de quantificação (LQ); » tendência/recuperação; » precisão (repetibilidade, precisão intermediária e reprodutibilidade); » robustez (este procedimento é opcional sendo realizado antes da validação do método, normalmente na etapa de otimização). Seletividade A seletividade é caracterizada pelo grau que um método pode quantificar o analito em presença de outros analitos, matrizes ou material com alto potencial de interferência. Quando um método produz respostas para vários analitos e permite a distinção entre eles, este método é denominado seletivo (INMETRO,2018). De modo geral, os experimentos para validação de seletividade descrita na literatura envolvem ensaios utilizando padrões ou materiais de referência, amostras com e sem o analito e análises em relação a capacidade de identificação do analito em presença de interferentes. Nos casos em que não existe a disponibilidade de interferentes, alguns autores orientam realizar ensaios de avaliação da habilidade de medição do analito por outros métodos, técnicas ou por variações de condições do equipamento. A seletividade deverá ser assegurada pois a linearidade, tendência e a precisão serão seriamente comprometidas. Em alguns casos, a matriz da amostra pode conter possíveis interferentes e que influenciam no desempenho da medição, podendo aumentar ou diminuir o sinal e assim comprometer os resultados. Além disso, a magnitude desse efeito está relacionada a 121 QUIMIOMETRIA │ UNIDADE IV concentração e assim, no estudo de seletividade é preciso verificar a existência de efeito de matriz. O procedimento utilizado para as medidas de efeito de matriz é dependente da disponibilidade do analito, da matriz na ausência de analito e de amostras de referência nas concentrações de interesse. A Tabela 18 apresentou algumas vias de estudos que podem ser conduzidos no processo de medidas de matriz: Linearidade/faixa de trabalho/faixa linear de trabalho/sensibilidade A linearidade de um procedimento analítico está relacionada a sua habilidade, em uma determinada faixa, em obter resultados que são proporcionais à concentração do analito presente na amostra (INMETRO, 2018). Faixa de trabalho em um processo analítico está relacionado ao intervalor entre a menor e maior concentração de analito presente na amostra para um determinado procedimento que apresentou um nível aceitável de precisão, exatidão e linearidade. A faixa linear de trabalho é por interferência a faixa de concentração do analito em que os resultados do método são proporcionais à sua concentração. A sensibilidade analítica é a mudança na resposta do instrumento relacionado a variação na quantidade medida (inclinação da curva analítica). Para determinar a faixa de trabalho em um experimento é preciso escolher uma faixa preliminar que deverá abranger a faixa de aplicação para o qual os estudos serão desenvolvidos e a concentração mais esperada da amostra deverá se possível, situar-se no centro da faixa de trabalho. O processo de quantificação exige o conhecimento da relação entre a resposta medida e a concentração do analito, que permite obter a linearidade por meio da padronização interna ou externa. Limites de detecção (LD) Em um procedimento analítico, o limite de detecção caracteriza-se pela menor quantidade de analito detectada na amostra, sem necessariamente, ser quantificada no ensaio. Quando são realizadas medidas em amostras com concentração baixa de analito ou de uma propriedade, como por exemplo, em análises de traços é importante 122 UNIDADE IV │ QUIMIOMETRIA saber qual a menor concentração do analito ou de alguma propriedade que possa ser identificada pelo método. Em um procedimento analítico, o limite de detecção pode variar em função do tipo de amostra, sendo necessário assegurar que todas as etapas do método sejam incluídas na determinação aliados aos ensaios qualitativos. Existem algumas modalidades para verificar o limite de detecção, dentre os quais podemos destacar: » Avaliação/percepção visual: a determinação do limite de detecção é realizada pela análise de amostras com concentrações ou propriedades conhecidas do analito, dentro de um nível mínimo de confiança; » Relação sinal/ruído: este tipo de abordagem pode ser aplicado, somente, para procedimentos que apresente ruído de linha base, sendo determinada a partir da comparação dos sinais medidos entre amostras com baixa concentração do analito e o ruído dos brancos de amostra. O método analítico deve ser especificado e o LD deve ser expresso para cada analito utilizando as unidades apropriadas, conforme preconizado no método em questão. Além disso, a matriz da amostra utilizada na determinação do LD deve ser devidamente identificada. Após a definição do LD por meio de uma das abordagens destacadas, ou por outra abordagem descrita em documentos nacionais ou internacionais, é preciso confirmar por meio de análises de amostras independentescom o mesmo nível de concentração/ propriedade do LD. Sempre que necessário, é importante adotar o número de seis replicatas, sendo que caso alguma das replicatas não seja detectada, indica que o LD determinado por ter sido subestimado necessitando a sua reavaliação. Limites de Quantificação (LQ) O Limite de Quantificação (LD) de um determinado procedimento analítico individual está relacionado a menor quantidade de analito que pode ser quantificado em níveis aceitáveis de precisão e exatidão em uma amostra. Em termos práticos, o LQ corresponde ao padrão de calibração de menor concentração (excluindo o branco). Após a determinação desse limite, é preciso averiguar, com testes de amostras independentes no mesmo nível de concentração/propriedade do LQ, se a recuperação/ tendência e a precisão são satisfatórias. Sempre que necessário, adota-se um número de 123 QUIMIOMETRIA │ UNIDADE IV seis replicatas, pois o limite de quantificação é extremamente importante em métodos quantitativos. Existem algumas modalidades para verificar o limite de quantificação, dentre os quais podemos destacar: » Avaliação/percepção visual: é a percepção da resposta da concentração do analito ou propriedade observada. O LQ pode ser determinado pela análise de amostras com concentrações ou propriedades conhecidas do analito a partir do estabelecimento do nível mínimo de quantificação. De modo geral, são realizadas diluições sucessivas até a identificação da menor concentração/menor valor de propriedade que pode ser quantificado com confiança; » Relação sinal/ruído: da mesma maneira que o LD, esta abordagem pode ser aplicada, somente, para análises que apresentem ruído de linha base. Esta modalidade permite a comparação dos sinais medidos de amostras com baixas concentrações do analito e de ruídos dos brancos de amostra, sendo possível determinar a quantidade mínima de detecção com confiança. A relação sinal/ruído estimada para o LQ é de 10:1, sendo possível adotar relações de 6:1 e 5:1, em função do método. É importante salientar que a região do ruído do branco deve ser a mesma do sinal medido. Tendência/Recuperação Os processos utilizados para avaliação de tendência de um método geralmente são: » Materiais de Referência Certificados (MRC); » comparações Inter laboratoriais; » comparação com método de referência ou método validado; » ensaios de recuperação. A tendência de uma análise é a combinação de uma série de resultados com erros aleatórios e sistemáticos. Desta maneira, a determinação da tendência em relação aos valores de referência é importante para que seja estabelecido a rastreabilidade aos padrões conhecidos. 124 UNIDADE IV │ QUIMIOMETRIA É possível expressar a tendência como recuperação analítica por meio da seguinte expressão: x100% valor observado valor esperado Materiais de referência certificados Os materiais de referência certificados devem, sempre que possível, ser utilizados nos procedimentos de validação de um método de ensaio. O MRC possui um valor de concentração, ou de outra grandeza, com o valor de incerteza associado. Dessa maneira, é importante que durante a validação seja fornecido o MRC por órgãos competentes, conforme descrito na NIT DICLA-030. A utilização correta do MRC baseia-se na sua análise para avaliar o desempenho do método, avaliando a tendência dos valores obtidos pelo laboratório (média e o desvio padrão amostral de uma série de ensaios em replicata), em comparação aos valores certificados do material de referência. A comparação leva diversos critérios de decisão, como por exemplo: » Erro relativo: avaliação da exatidão do método por cálculo de porcentagem; » Erro normalizado: é a subestimação da incerteza em um determinado intervalo de resultados. Nos casos em que o valor obtido não estiver dentro do intervalo de aceitação em relação ao valor certificado, o laboratório deverá buscar as possíveis causas desse desvio e eliminá-las. Ensaios de recuperação As medidas de recuperação do analito podem ser realizadas pela análise de amostras fortificadas com concentrações conhecidas do analito, sendo possível fortificá-las com pelo menos três concentrações (baixa, média e alta) na faixa de uso. No entanto, a limitação dessa metodologia está no fato de que o analito pode não estar na mesma forma que o presente na amostra, podendo gerar respostas de detecção excessivamente otimistas de recuperação. 125 QUIMIOMETRIA │ UNIDADE IV A taxa de recuperação pode ser calculada pela seguinte equação: ( ) 1 2 % x100 3 C CRecuperação C − = Onde: » C1: concentração do analito na amostra fortificada; » C2: concentração do analito na amostra não fortificada; » C3: concentração do analito adicionado à amostra fortificada. Os laboratórios devem estabelecer critérios de aceitação para recuperação respeitando as normas da legislação aplicadas às áreas de atuação, como por exemplo, a área ambiental. Geralmente, as normas estão atreladas aos valores de concentração. A Tabela 22 apresenta os critérios sugeridos pela AOAC (Association of Official Analytical Chemists): Tabela 22. Critérios de recuperação. Analito, % Fração Mássica (C) Unidade Recuperação média, % 100 1 100% 98 – 102 10 10-1 10% 98 – 102 1 10-2 1% 97 – 103 0,1 10-3 0,1% 95 – 105 0,01 10-4 100 ppm (mg/kg) 90 – 107 0,001 10-5 10 ppm (mg/kg) 80 – 110 0,0001 10-6 1 ppm (mg/kg) 80 – 110 0,00001 10-7 100 ppb (μg/kg) 80 – 110 0,000001 10-8 10 ppb (μg/kg) 60 –115 0,0000001 10-9 1 ppb (μg/kg) 40 –120 Fonte: INMETRO, 2018. Comparação com método de referência O processo de comparação com método de referência consiste na conferência dos resultados obtidos um método a ser validado com os resultados obtidos pelo método de referência validado. O objetivo desta comparação é analisar o grau de proximidade dos resultados obtidos pelos dois métodos permitindo a avaliação de sua exatidão. Os estudos são desenvolvidos em replicata empregando os dois métodos, em separado, utilizando a mesma amostra em todas as faixas de concentração aplicadas para validação 126 UNIDADE IV │ QUIMIOMETRIA do método. Existem várias técnicas de comparação, dentre as quais se pode destacar o teste de hipótese e o planejamento de experimentos. No teste de hipótese aplica-se o Teste F primeiro para avaliar se as variâncias possuem valores estatísticos iguais ou diferentes. O teste T (Student) é aplicado em seguida para analisar as médias dos resultados e se são estatisticamente iguais. Precisão Em algumas circunstâncias específicas de medidas a precisão pode ser expressa por três meios: » Repetibilidade: são medidas dentro de um conjunto de condições que incluem o mesmo procedimento de medição, operadores, sistema de medição, condições de operação e local dentro de um curto período. Os resultados deste processo podem ser expressos quantitativamente em termos da característica da dispersão dos resultados podendo ser determinados a partir da análise de padrões, materiais de referência ou adição de analito ao branco da amostra, em várias concentrações na faixa de trabalho; » Precisão intermediária: é relacionada à precisão analisada nas mesmas condições do procedimento de medição, local e medições repetidas no mesmo objeto, ou objetos similares, ao longo de um período extenso permitindo a inclusão de outras condições submetidas às mudanças. Neste tipo de estudo é preciso definir quais condições serão variadas, como por exemplo, diferentes analistas, equipamentos e tempo; » Reprodutibilidade: apesar de não ser um componente de validação de método a reprodutibilidade é importante quando um laboratório busca a verificação de desempenho de seus métodos em relação às informações de validação em comparação Inter laboratorial. Robustez A robustez é um parâmetro que indica a capacidade do método não ser afetado por pequenas variações de fatores de execução do método, proporcionando um fator de confiança do método durante aplicaçõesde rotina. É um parâmetro opcional nos estudos de validação, sendo comumente, associado aos estudos de otimização. 127 QUIMIOMETRIA │ UNIDADE IV A determinação de robustez de um método de ensaio pode ser baseada, por exemplo, no planejamento de Youden (2002/657/EC) ou Plackett-Burman (SERGENT, 2007). São estudos que permite ordenar a influência de cada variável nos resultados e transmite maior confiança ao método em relação a sua precisão. Comparações Inter laboratoriais Segundo a norma ABNT NBR ISO/IEC 17043 existe uma distinção do uso de comparações Inter laboratoriais destinado aos ensaios de proficiência para determinação de desempenho do laboratório, e para outros propósitos, como por exemplo: » estabelecimento da eficácia e comparabilidade de novos métodos de ensaio ou de medição; » acompanhamento de método estabelecido; » determinação de características de desempenho de um método. Durante o processo de comparação Inter laboratorial, caso não seja alcançado as condições ideais é preciso efetuar planos de ações corretivas que permitem a verificação das causas e reavaliação do ensaio. Os requisitos de participação de laboratórios acreditados em ensaios de proficiência estão descritos na NIT DICLA-026. Acompanhamento do desempenho do método validado Após a validação do método, é necessária a implantação dos procedimentos de controle de qualidade que visam acompanhar o desempenho do método ao longo da rotina do laboratório. Os procedimentos que podem ser aplicados para esta finalidade são o uso de materiais de referência certificados (MEC), materiais de referência secundário, participação em comparação Inter laboratoriais, realização de ensaios replicados, reensaios de itens retidos entre outros. Vale ressaltar que esses controles contemplem as principais características da validação (recuperação/tendência, precisão e limite de detecção/ quantificação) e podem ser acompanhados por meio de gráficos de controle. 128 UNIDADE IV │ QUIMIOMETRIA Revalidação do método » Alteração no desempenho do método: nos casos em que os controles de qualidade apresentar perda de desempenho do método ou as ações corretivas não atenderem às expectativas esperadas, o método deverá ser reavaliado para que o seu novo desempenho seja conhecido; » Alteração no procedimento analítico de método: após as alterações no procedimento analítico, o laboratório deverá realizar um estudo estatístico para analisar se a alteração influência nos resultados do ensaio, sendo que nos casos em que as alterações proporcionem alterações significativas, o método deverá ser reavaliado. Caro aluno é importante que você busque um pouco mais sobre esse assunto. Para auxiliá-lo sugerimos que acessem o seguinte link para leitura completa da NIT DICLA-030 e NIT DICLA-026: <https://is.gd/BjGYlI> (ACREDITAÇÃO DE LABORATÓRIOS, 2019). 129 CAPÍTULO 4 Estudo de casos e artigos sobre planejamento experimental e Quimiometria Nesse capítulo, discutiremos alguns estudos de casos (levando em consideração os assuntos discutidos ao longo das unidades anteriores) e artigos (publicações que apresentam e discutem pesquisas realizadas nas mais diversas áreas do conhecimento) referentes a utilização de planejamento experimental. Casos em planejamento experimental Caso 1: planejamento fatorial e superfície de resposta empregado na otimização de um método Voltamétrico para a determinação de Ag(I) usando um eletrodo de pasta de nanotubos de carbono. Vicentini et al. (2011), estudaram a utilização conjunta de ferramentas eletroquímicas e quimiométricas para contextualização do planejamento fatorial para a abordagem das disciplinas de análise instrumental e/ou planejamento e análise de experimentos em química eletroanalítica. Os autores descreveram o desenvolvimento de um eletrodo de pasta de nanotubos de carbono funcionalizados (FCNPE, Functionalized Carbon Nanotubes Paste Electrode) para a determinação de íons Ag(I), utilizando-se a técnica de voltametria de redissolução anódica. O emprego do planejamento fatorial foi realizado com visando obter uma maior intensidade de resposta (corrente) para íons Ag(I), levando a um aumento do sinal analítico. A metodologia usada pelos autores foi a seguinte: » Os experimentos eletroquímicos foram realizados em uma célula de compartimento único de 15 mL (vidro Pyrex). » Nas determinações foi utilizado um sistema de três eletrodos, sendo que o eletrodo de trabalho foi o de pasta de nanotubos de carbono funcionalizados (FCNPE), o de referência, um eletrodo de Ag/AgCl (KCl 3 mol L-1) e o auxiliar, um eletrodo de platina. » As medidas eletroquímicas foram executadas com um potenciostato/ galvanostato gerenciado pelo programa computacional GPES 4.9. 130 UNIDADE IV │ QUIMIOMETRIA » As medidas de pH das soluções foram realizadas com um pHmetro digital. » Os cálculos matemáticos dos modelos empíricos gerados foram realizados no programa computacional Excel® da Microsoft. O planejamento fatorial foi elaborado para a determinação de íons Ag(I). Primeiramente foi realizado um planejamento fatorial completo para avaliar três variáveis da voltametria linear de redissolução: tempo de pré-concentração, potencial de pré-concentração e velocidade de varredura. Estas variáveis foram estudadas em dois níveis, sendo realizado um planejamento 23 (total de 8 experimentos). Os experimentos foram efetuados de forma aleatória para evitar erros sistemáticos e a resposta monitorada foi a intensidade de corrente. A Tabela 23 mostra os fatores estudados e seus respectivos níveis. Selecionadas as variáveis, os autores realizaram um planejamento fatorial composto central 22 + ponto central (PC) + estrela. Neste tipo de planejamento, as variáveis são estudadas em um número maior de níveis e, desta forma, viabiliza o estabelecimento de um modelo empírico e a geração de uma superfície de resposta, que permite estabelecer as melhores condições de trabalho. Tabela 23. Níveis reais e codificados das variáveis estudadas. Variáveis Nível (-) Nível (+) Tempo de pré-concentração 30s 200s Potencial de pré-concentração -0,1 V -0,5 V Velocidade de varredura 15 mV s-1 80 mV s-1 Fonte: Vicentini et al. (2011). Com os dados do planejamento foi construída a Tabela ANOVA (Analysis of Variance) e, em seguida, a superfície de resposta e o gráfico de contorno. Os autores observaram que os resultados obtidos no planejamento fatorial 23 mostraram que as variáveis tempo de pré-concentração e velocidade de varredura foram as apresentaram os maiores efeitos. Já a variável potencial de pré-concentração não apresentou efeitos primários ou de interação significativos ao nível de confiança de 95%. Desta forma, esta variável foi fixada em um valor conveniente para as futuras análises. Estabeleceu-se neste caso o maior nível (-0,5 V), devido ao íon Ag(I) apresentar um melhor perfil voltamétrico. As duas variáveis mais significativas foram submetidas a um planejamento fatorial 22 + PC + estrela. Neste planejamento cada variável foi estudada em 5 níveis diferentes. Estes níveis foram normalizados entre -√–2 e + √–2. Os dados do novo planejamento foram submetidos à análise de variância (ANOVA). 131 QUIMIOMETRIA │ UNIDADE IV Os autores verificaram que o modelo para análise da corrente apresentou um bom ajuste. No caso da razão entre a MQFaj e a MQEP, o teste F mostrou que estas duas médias quadráticas são estatisticamente iguais com um Fcalculado < Ftabelado. Além disso, as MQR e MQr se mostraram estatisticamente diferentes (o modelo é significativo) com um Fcalculado > Ftabelado. Em ambos os casos o nível de confiança utilizado foi de 95%. O valor de r2 foi igual a 0,982 (razão entre as SQR e SQT). Depois da execução de todos os experimentos foi obtida uma equação de segunda ordem: 2 2 0 1 2 3 4 5Y b b t b V b t b V b tV= + + + + + onde y é a variável dependente (corrente), bi são os coeficientes para t (tempo de pré-concentração) e V (velocidadede varredura) e tV é a interação entre tempo de pré-concentração e velocidade de varredura. Para o cálculo dos coeficientes (bi), foi empregado mínimos quadrados: ( ) 1 'b X X X y−′= onde b é o vetor com coeficientes (bi), X é a matriz com os parâmetros normalizados e y é um vetor com a resposta experimental. Após aplicar o teste t (com 4 graus de liberdade), foi verificado que quatro coeficientes foram significativos ao nível de confiança de 95%. Assim foi possível obter a equação ajustada que rege o modelo: 2 232,70 9,92 8,03 4,91Y t t V= + − − Os autores concluíram que o eletrodo proposto pode ser empregado para a determinação de Ag(I) presente em águas naturais no intervalo de 7,92 x 10-7 a 1,07 x 10-5 mol L-1. Além disso, o procedimento proposto é de baixo custo, simples e não necessita de nenhum tipo de tratamento especial da amostra podendo ser aplicado em laboratórios de análise de rotina ou mesmo in loco, com o emprego de instrumentação portátil. Caso 2: Utilização do planejamento experimental para otimização de um procedimento voltamétrico para determinação simultânea das concentrações dos metais Zn, Cd, Pb e Cu livres em água de coco. Rosa, Rodrigues e Ferreira (2016) aplicaram o planejamento fatorial e superfície de resposta para otimizar as variáveis da SWASV (do inglês, Square-wave anodic stripping voltammetry), tais como a concentração do eletrólito suporte; potencial e tempo de pré-concentração; frequência, amplitude e incremento da onda quadrada, objetivando a determinação simultânea de Zn, Cd, Pb e Cu livres de forma direta na água de coco usando o eletrodo de DDB (eletrodo de diamante dopado com boro). 132 UNIDADE IV │ QUIMIOMETRIA A metodologia usada pelos autores foi a seguinte: » Os experimentos eletroquímicos foram realizados usando um analisador voltamétrico 797Computrace da Metrohm®. Um eletrodo auxiliar de fio de platina foi usado em conjunto com um eletrodo de referência de Ag/AgCl (KCl 3,0 mol L−1) e com um eletrodo de trabalho de diamante dopado com boro (DDB/8000 ppm) com um filme de área geométrica de 0,23 cm2. Para a otimização das variáveis na etapa de pré-concentração, estabeleceu cinco níveis para as variáveis potencial (E) e tempo (t), sendo que o nível zero foi de -1,45 V para a variável E e 135 s para t. A tabela 24 apresenta a otimização de duas variáveis com base na matriz do planejamento composto central. Tabela 24. Matriz do planejamento composto central para a otimização das variáveis apresentada pelos autores. Ensaio E (V) t (s) Reposta unificada 1 -1,49 (-1) 61 (-1) 1,185 Planejamento fatorial 2 -1,41 (+1) 61 (-1) 0,828 3 -1,49 (-1) 209 (+1) 3,393 4 -1,41 (+1) 209 (+1) 2,591 5 -1,45 (0) 135 (0) 2,361 Ponto central 6 -1,51 (-1,41) 135 (0) 2,882 Pontos axiais 7 -1,39 (+1,41) 135 (0) 1,873 8 -1,45 (0) 30 (-1,41) 0,623 9 -1,45 (0) 240 (+1,41) 3,477 10 -1,45 (0) 135 (0) 2,433 Repetições do ponto central 11 -1,45 (0) 135 (0) 2,236 Fonte: Rosa, Rodrigues e Ferreira (2016). O modelo polinomial quadrático que descreve uma relação entre as variáveis otimizadas E e t com a resposta (corrente de pico) foi estabelecida na Equação 1 a partir da matriz de planejamento CCD. Os ensaios eletroanalíticos foram realizados aleatoriamente para não haver erros estatísticos associados. A equação abaixo apresenta o modelo algébrico usado para otimização das variáveis x1(E), x2(t). ( ) ( ) ( ) ( ) ( )2 20 1 1 2 2 3 1 4 2 5 1 2Y b b x b x b x b x b x x= + + + + + Sendo b0 o valor da média dos pontos centrais e b1 até b5 os coeficientes do modelo a serem determinados. Os coeficientes da equação do modelo foram obtidos por meio da seguinte equação: 133 QUIMIOMETRIA │ UNIDADE IV ( ) 11 'b X X X Y−= A equação obtida para o modelo de otimização de E e t foi: ( ) ( ) ( ) ( ) ( ) 2 2 0,090 0,055 0,065 0,055 0,066 0,078 2,343 0,323 0,037 1,000 0, 200 0,200 Y E E t t tE ± ± ± ± ± ± = − − + − − Os autores concluíram que a partir dos pontos otimizados foi possível quantificar zinco e cobre livres em amostra de água coco natural e industrializada. Os valores encontrados para as concentrações de Cu na amostra natural foi (6,8 ± 0,9) μg L-1. No entanto, não foi possível determinar a concentração de Zn sendo, portanto, menor que o LD. Por outro lado, a concentração de Zn e Cu na amostra industrializada foi de (85,6 ± 4,2) μg L-1 e (7,7 ± 0,6) μg L-1 respectivamente. Artigos em planejamento experimental Agrupamos aqui alguns artigos divulgados recentemente nos mais diversos periódicos científicos, com a finalidade que sejam usados como forma de acrescentar aos conhecimentos obtidos até aqui. Sugerimos que, além desses artigos, você busque mais esclarecimentos sobre os assuntos estudados ao longo das unidades passadas. Quadro 2. Artigos sobre o uso de planejamentos experimental. Título Autores Assuntos abordados Multivariate optimization techniques in analytical chemistry - an overview Ferreira et al, (2018) Multivariada Superficie de resposta Química analitica An experimental design approach for the separation of thorium from rare earth elements Altaş et al, (2018) Oxalato de amônia Analise de variância Coeficiente de correlação Factorial experimental design intended for the optimization of the alumina purification conditions Brahmi et al, (2018) Otimização Planejamento fatorial completo Use of principal component analysis (PCA) and hierarchical cluster analysis (HCA) for multivariate association between bioactive compounds and functional properties in foods: A critical perspective Granato et al, (2018) PCA, HCA KNN, SIMCA Compostos bioativos Investigation of the impact of trace elements on anaerobic volatile fatty acid degradation using a fractional factorial experimental design Jiang et al, (2017) Planejamento fatorial Elementos traços Coeficiente de regressão Simultaneous spectrophotometric quantification of dinitrobenzene isomers in water samples using multivariate calibration methods Lu et al, (2016) Calibração multivariada Espectometria Optimizing the synthesis of cobalt aluminate pigment using fractional factorial design Gomes et al, (2015) Planejamento fatorial fracionado 134 UNIDADE IV │ QUIMIOMETRIA A statistical prediction of density and hardness of biodegradable mechanically alloyed Mg–Zn alloy using fractional factorial design Salleh et al, (2015) Planejamento fatorial fracionado Análise de regressão Experimental design and multiple response optimization. Using the desirability function in analytical methods development Candioti et al, (2014) Múltiplas respostas Superficie de resposta Processo de separação Multivariate calibration Forina; Lanteri; Casale, (2007) Calibração multivariada Modelos de regressão Fonte: autora. Existem ainda muitos outros artigos como os listados acima que podem ser acessados por meio dos seguintes portais: » Science Direct: http://www.sciencedirect.com/ (SCIENCE DIRECT, 2019). » Portal de periódicos CAPES/MEC: <http://www.periodicos.capes.gov. br/> (PORTAL DE PERIÓDICOS CAPES/MEC, 2018). » Google acadêmico: <https://scholar.google.com.br/> (GOOGLE ACADÊMICO, 2018). http://www.sciencedirect.com/ http://www.periodicos.capes.gov.br/ http://www.periodicos.capes.gov.br/ https://scholar.google.com.br/ 135 Para (não) Finalizar Em decorrência das necessidades da sociedade moderna, a pesquisa científica tem promovido grandes avanços em todos os campos da ciência, provocando um aumento cada dia mais crescente de dados e informações, sendo que para a devida exploração e consequentemente, correto entendimento, a aplicação de ferramentas estatísticas torna-se indispensável (PEREIRA-FILHO et al., 2002). Na pesquisa, as ideias com frequência acabam surgindo antes da tecnologia necessária para realizá-las. Isso aconteceu e acontece na maioria dos ramos da Química que a teoria indica que para a resolução de um dado problema alguns cálculos são exigidos. Com isso veio a quimiometria que se iniciouna primeira metade da década de 1970, mas só se firmou definitivamente quando o computador começou a ser utilizado em laboratório. Contudo, há quem afirme que a combinação de química com estatística começou com as pesquisas do químico cervejeiro, Student, o do famoso teste t. Com o aparecimento da quimiometria, a utilização de experimentos estatisticamente planejados aumentou drasticamente em diversas áreas de pesquisa no Brasil, sobretudo na Química, Engenharia Química, Engenharia de Alimentos e Biotecnologia. Por outro lado, a utilização das técnicas quimiométricas de planejamento não ficou limitada somente às atividades acadêmicas, indústrias como Petrobras, Nitroquímica, Pirelli, Braskem, Clariant e Unilever do Brasil têm utilizado técnicas de planejamento e otimização de experimentos. O Instituto de Informação Científica, mostrou que, dos 4099 trabalhos científicos localizados com a palavra chave “factorial design”, 225 (5,5%) tiveram participação de autor(es) brasileiro(s). Dos 3617 trabalhos com a palavra-chave “response surface”, 137 (3,8%) foram realizados, de forma parcial, no Brasil (MARQUES, 2004). As novas tendências nesse ramo atualmente são o uso de métodos para dados de ordem superiores. Esses dados chamados de ordem superior são produzidos por instrumentação acoplada, como cromatografia a gás/espectrometria de massa (GC/ MS) e espectrometria de excitação/emissão. Nesta categoria, os métodos empregados no Brasil compreendem os modelos de Tucker, a calibração multivariada de ordem superior e o PARAFAC (Parallel Factor Analysis), que pode ser utilizado para resolução de curvas para dados de ordem superior e para análise exploratória e sua classificação. Atualmente, os grupos de pesquisas e desenvolvimento em quimiometria mais atuantes do Brasil estão em Campinas (por ex., os grupos dos Profs. Ronei J. Poppi e Márcia M. C. Ferreira) e Londrina (Profa. Ieda S. Scarminio) (BARROS NETO; SCARMINIO; BRUNS, 2006). 136 Referências ACREDITAÇÃO DE LABORATÓRIOS. Disponível em: <https://is.gd/BjGYlI>. Acesso em 3 junho 2019. ALTAŞ, Y.; TEL, H.; İNAN, S.; SERT, Ş.; ÇETINKAYA, B.; SENGÜL, S.; ÖZKAN, B. An experimental design approach for the separation of thorium from rare earth elements. Hydrometallurgy, v. 178, 2018. ANÁLISE DE REGRESSÃO. Disponível em: <http://w3.ufsm.br/jpa/CCeTI/ regress%E3oc.pdf>. Acesso em: 18 junho 2018. BACCAN, N. et al. Química analítica quantitativa elementar. Campinas: Editora Edgard Blücher Ltda., 1979. BARROS NETO, B. B.; SCARMÍNIO, I. S.; BRUNS, R. E. 25 anos de quimiometria no Brasil. Química Nova, v. 29, 2006. BARROS NETO, B. B.; SCARMÍNIO, I. S.; BRUNS, R. E. Como fazer experimentos. Campinas: Editora Unicamp, 4ª edição, 2010. BERNADINO, N. D. Degradação de corantes e aglutinantes: Efeito da composição do microambiente. 2011. 155f. Dissertação (Mestrado em Química) - Programa de Pós- Graduação em Química, USP, São Paulo, 2011. BRAHMI, M.; BA, M.; HIDRI, Y.; HASSEN, A. Factorial experimental design intended for the optimization of the alumina purification Conditions. Journal of Molecular Structure, v. 1157, 2018. BRASIL, J. L.; VAGHETTI, J. C. P.; ROYER, B.; SANTOS, A. A.; SIMON, N. M.; PAVAN, S. A.; DIAS, S. L. P.; LIMA, E. C. Planejamento estatístico de experimentos como uma ferramenta para otimização das condições de biossorção de Cu(II) em batelada utilizando-se casca de nozes pecã como biossorvente. Química Nova, v. 30, 2007. BRERETON, R. G. Chemometrics: Data Analysis for the Laboratory and Chemical Plant. Bristol: Wiley, 2003. BRERETON, R.G.; Introduction to multivariate calibration in analytical chemistry. Analyst, v. 11, 2000. BRO, R. Analytica Chimica Acta. v. 500, 2003. 137 REFERÊNCIAS BURETA. Disponível em: <https://is.gd/lIxWKK>. Acesso em: 26 maio 2019. BUTTON S. T. Metodologia Para Planejamento Experimental e Análise de Resultados. Campinas – SP. 2005. CAMO Software AS. The Unscrambler Program Operation: the Unscrambler User Manual. Disponível em: <www.camo.com>. Acesso em: 25 abril 2018. CANDIOTI, L. V.; ZAN, M. M. Z.; CÁMARA, M. S.; GOICOECHEA, H. C. Experimental design and multiple response optimization. Using the desirability function in analytical methods development. Talanta, v. 124, 2014. CARDOSO, D. R.; ANDRADE-SOBRINHO, L. G.; LEITE-NETO, A. F.; RECHE, R. V.; ISIQUE, W. D.; FERREIRA, M. M. C.; LIMA-NETO, B. S.; FRANCO, D. W.; Comparison between cachaça and rum using pattern recognition methods. Journal of Agricultural and Food Chemistry, v. 52, 2004. CORREIA, P. R. M.; FERREIRA, M. M. C. Reconhecimento de padrões por métodos não supervisionados: explorando procedimentos quimiométricos para tratamento de dados analíticos. Química Nova, v. 30, 2007. CURVA. Disponível em: <https://is.gd/PUS2cS>. Acesso em: 2 jun. 2019. DESVIO. Disponível em: <https://is.gd/DjdNDR>. Acesso em: 2 jun. 2019. DISTRIBUIÇÃO. Disponível em: <https://www.ime.unicamp.br/~cnaber/tabela_F_1. pdf>. Acesso em: 13 maio 2019. ESTATÍSTICA BÁSICA. Disponível em: <http://www.portalaction.com.br/estatistica- basica>. Acesso em: 19 julho 2018. ESTATÍSTICA DESCRITIVA. Disponível em: <https://fenix.tecnico.ulisboa.pt/ downloadFile/3779573118035/Estatistica_Descritiva_2008_09.pdf>. Acesso em: 19 julho 2018. ESTATÍSTICA. Disponível em: <https://goo.gl/38ATrT>. Acesso em: 19 de julho 2018. FERNANDES, A. P.; SANTOS, M. C.; LEMOS, S. G.; FERREIRA, M. M. C.; NOGUEIRA, A. R. A.; NÓBREGA, J. A.; Pattern recognition applied to mineral characterization of Brazilian coffees and sugar-cane spirits. Spectrochimica Acta Part B: Atomic Spectroscopy, v. 60, 2005. FERREIRA, M. M. C. Quimiometria: Conceitos, métodos e aplicações. Campinas: Editora Unicamp, 2015. 138 REFERÊNCIAS FERREIRA, M. M. C.; ANTUNES, A. M.; MELGO, M. S.; VOLPE, P. L. O. Quimiometria I: calibração multivariada, um tutorial. Química nova, v. 5, 1999. FERREIRA, S. L. C.; LEMOS, V. A.; CARVALHO, V. S.; SILVA, E. G. P.; QUEIROZ, A. F. S.; FELIX, C. S. A.; SILVA, D. L. F.; DOURADO, G. B.; OLIVEIRA, R. V. Multivariate optimization techniques in analytical chemistry - an overview. Microchemical Journal, v. 140, 2018. FORINA, M.; LANTERI, S.; CASALE, M. Multivariate calibration. Journal of Chromatography A. v. 1158, 2007. GALDAMEZ, E. V. C.; CARPINETTI, L. C. R. Aplicação das técnicas de planejamento e análise de experimentos no processo de injeção plástica. Gestão e Produção, v.11, 2004. GAUSS. Disponível em: <https://is.gd/WAaO7f>. Acesso em: 1 junho 2019. GELADI, P. Chemometrics in spectroscopy. Part 1. Classical chemometrics. Spectrochimica Acta Part B: Atomic Spectroscopy, v. 58, 2003. GNECCO, B. B. MORAES, R. M.; MACHADO, L. S.; CABRAL, M. C. Um Sistema de Visualização Imersivo e Interativo de Apoio ao Ensino de Classificação de Imagens, disponível em <http://www.di.ufpb.br/liliane/publicacoes/wrv2001-cave- final.pdf>, Acesso em: 25 abril 2018. GOMES, Y. F.; MEDEIROS, P. N.; BOMIO, M. R. D.; SANTOS, I. M. G.; PASKOCIMAS, C. A.; NASCIMENTO, R. M.; MOTTA, F. V. Optimizing the synthesis of cobalt aluminate pigment using fractional factorial design. Ceramics International, v. 41, 2015. GONZÁLEZ, A. G., Use and misuse of supervised pattern recognition methods for interpreting compositional data. Journal of Chromatography A, v.1158, 2007. GOOGLE ACADÊMICO. Disponível em: < https://scholar.google.com.br/>. Acesso em 19 julho 2018. GRANATO, D.; SANTOS, J. S.; ESCHER, G. B.; FERREIRA, B. L.; MAGGIO, R. M. Use of principal component analysis (PCA) and hierarchical cluster analysis (HCA) for multivariate association between bioactive compounds and functional properties in foods: A critical perspective. Trends in Food Science & Technology, v.72, 2018. HCA. Disponível em: <http://joinqui.qui.ufmg.br/2010/download/MC15-2.pdf>. Acesso em: 10 junho 2018. HOPKE, P. K. The evolution of chemometrics. Analytica Chimica Acta, v. 500, 2003. 139 REFERÊNCIAS INÁCIO, M. R. C. Ferramentas quimiométricas aplicadas à classificaçãode amostras de leite em pó e quantificação de proteínas. 2010. 119 f. Dissertação (Mestrado em Química) - Programa de Pós-Graduação em Química, Universidade Federal do Rio Grande do Norte, Natal, RN. 2010. INFERÊNCIA. Disponível em: <https://goo.gl/4fm5VW>. Acesso em 19 julho 2018. INMETRO, Orientação sobre validação de métodos analíticos, DOQ-CGCRE-008 Revisão 7 – Junho 2018. JIANG, Y.; ZHANG, Y.; BANKS, C.; HEAVEN, S.; LONGHURST, P. Investigation of the impact of trace elements on anaerobic volatile fatty acid degradation using a fractional factorial experimental design. Water Research. v.125, 2017. KNN. Disponível em: <https://goo.gl/HYdx4k>. Acesso em: 13 junho 2018. LAVINE, B. K. Encyclopedia of analytical chemistry. Chichester: Wiley, 2000. LEVINE, D.M. Estatística: teoria e aplicações usando Microsoft Excel em português. Rio de Janeiro: LTC - Livros Técnicos e Científicos, 2008. LIU, F.; HE, Y.; SUN, G. Determination of Protein Content of Auricularia auricula Using Near Infrared Spectroscopy Combined with Linear and Nonlinear Calibrations. Journal of Agricultural and Food Chemistry, v. 57, 2009. LU, T.; YUAN, Y.; JIAO, Y.; WEN, Z.; WANG, L.; ZHAO, Y.; ZHANG, Y.; LI, M.; PU, X.; MARQUES, F. Indicadores: uma prova de qualidade. Pesquisa FAPESP, São Paulo, n. 102, 2004. MASSART, D. L.; VANDEGINSTE, B. G. M.; BUYDENS, L. M. C.; DE JONG, S.; LEWI, P. J.; SMEYERS-VERBEKE, J. Handbook of Chemometrics and Qualimetrics, Part A. Amsterdam: Elsevier, 1997. MATOS, F. M. S. Reconhecimento de faces utilizando a transformada cosseno discreta. 2008. 94f. Dissertação (Mestrado curso de informática) - Departamento de Informática, Universidade Federal da Paraíba, João Pessoa, 2008. MENDENHALL, W.; SINCICH, T. Second course in statistics: regression analysis. Prentice Hall, 7th Edition, 2012. MÉTODOS DE CLASSIFICAÇÃO. Disponível em: <https://goo.gl/PY9p4t>. Acesso em: 19 junho 2018. 140 REFERÊNCIAS MILLER, J. N.; MILLER, J. C. Statistics and Chemometrics for Analytical Chemistry, 6a edição, New York: Prentice Hall, 2010. MONTGOMERY, D. C. Design and analysis of experiments. 8th Edition. John Wiley & Sons. NETO, M. M. J. Estatística multivariada. Revista de Filosofia e Ensino. Núcleo de Estudos e Pesquisas sobre o Ensino de Filosofia - NESEF, 2004. NIPALS. Disponível em: <https://goo.gl/dy9yUG >. Acesso em: 12 junho 2018. NOÇÕES DE ESTATÍSTICA. Disponível em: <https://www.measureevaluation.org/ resources/training/capacity-building-resources/data-quality-portuguese/moduloII_ capa.pdf>. Acesso em: 19 julho 2018. OTTO, M. Chemometrics – Statistics and Computer Application in Analytical Chemistry, 2ª ed, New York: Wiley, 2007. PADRÃO DE VITAMINA. Disponível em: <https://is.gd/k9HVr0>.. Acesso em: 30 maio 2019. PCA. Disponível em: < https://goo.gl/2PZwdt>. Acesso em: 10 junho 2018. PEREIRA-FILHO, E. R., POPPI, R. J.; ARRUDA, M. A. Z. Employment of factorial design for optimization of pirolisys and atomization temperatures for Al, Cd, Mo and Pb determination by ETAAS. Química Nova, v. 25, 2002. PIPETA. Disponível em: <https://is.gd/8fhASI>. Acesso em 26 maio 2019. PLANEJAMENTO FATORIAL. Disponível em: < https://anselmo.quimica.ufg.br/ up/56/o/DOE_03_Planejamentos_Fatoriais_-_Completo.pdf>. Acesso em: 15 junho 2018. PLANEJAMENTO FRACIONADO. Disponível em: < https://goo.gl/qWgJKx>. Acesso em: 18 junho 2018. POPULAÇÃO. Disponível em: <https://is.gd/aGe3Vs>. Acesso em: 1 junho 2019. PORTAL DE PERIÓDICOS CAPES/MEC. Disponível em: <http://www.periodicos. capes.gov.br/>. Acesso em 19 julho 2018. PRECISÃO. Disponível em: < http://1.bp.blogspot.com/-qxu2t0ZMtfM/ USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/Quadro+Comparativo_ Precis%C3%A3o_Exatid%C3%A3o.png>. Acesso em: 15 maio 2019. 141 REFERÊNCIAS PROBABILIDADE. Disponível em: <http://www.portalaction.com.br/probabilidades/ introducao-probabilidade>. Acesso em: 19 julho 2018. PROVETA. Disponível em: <https://is.gd/OByPAD>. Acesso em: 29 maio 2019. RODRIGUES, M. I.; LEMMA, A. F. Experimental design and process optimization. Boca Raton: CRC Press, 2015. ROGGO, Y.; CHALUS, P.; MAURER, L.; LEMA-MARTINEZ, C.; EDMOND, A.; JENT, N. A review of near infrared spectroscopy and chemometrics in pharmaceutical technologies. Journal of Pharmaceutical and Biomedical Analysis, v. 44, 2007. ROSA, T. R.; RODRIGUES, J. G. A.; FERREIRA, R. Q. Uso do planejamento experimental para otimização de um procedimento voltamétrico para determinação simultânea das concentrações dos metais Zn, Cd, Pb e Cu livres em água de coco. Química Nova, v. 39, 2016. SALLEH, M. E.; ZUHAILAWATI, H.; RAMAKRISHNAN, S.; GEPREEL, M. A. A statistical prediction of density and hardness of biodegradable mechanically alloyed Mg–Zn alloy using fractional factorial design. Journal of Alloys and Compounds, v. 644, 2015. SANTOS, P. M. Aplicação de imagens digitais e técnicas espectroanalíticas combinadas com quimiometria para detecção e quantificação de adulteração em leite bovino. 2013. 79f. Tese (Doutorado em Ciências) - Departamento de Química - Programa de pós-graduação em Química. Universidade Federal de São Carlos, São Carlos: UFSCar, 2013. SCIENCE DIRECT. Disponível em: <http://www.sciencedirect.com/>. Acesso em: 19 julho 2018. SENA, M. M.; POPPI, R. J. Introdução à quimiometria: Como explorar grandes conjuntos de dados químicos. 2010. Disponível em: <http://joinqui.qui.ufmg.br/2010/ download/MC15-1.pdf>. Acesso em: 13 mai. 2019. SERGENT, M. Statistical design: Chemometrics. Journal of Chemometrics, 2007. SKOOG, D. et al. Fundamentos de química analítica. São Paulo: Editora Thomson, 2006. SVD. Disponível em: < https://goo.gl/KtLtmR >. Acesso em: 12 jun. 2018. 142 REFERÊNCIAS TEÓFILO, R. F.; FERREIRA, M. M. C. Quimiometria II: planilhas eletrônicas para cálculos de planejamentos experimentais, um tutorial. Química Nova, v. 29, 2006. TITULAÇÃO. Disponível em: < http://quimicadashotoko.blogspot.com/2013/05/ titulacao.html >. Acesso em: 29 mai. 2019. VICENTINI, F. C.; FIGUEIREDO-FILHO, L. C. S.; JANEGITZ, B. C.; ALINE SANTIAGO, A.; PEREIRA-FILHO, E. R.; FATIBELLO-FILHO, O. Planejamento fatorial e superfície de resposta: otimização de um método voltamétrico para a determinação de Ag(I) empregando um eletrodo de pasta de nanotubos de carbono. Química Nova, v. 34, 2011. XU, T. Simultaneous spectrophotometric quantification of dinitrobenzene isomers in water samples using multivariate calibration methods. Chemometrics and Intelligent Laboratory Systems, v. 154, 2016. _Hlk11683939 _Hlk519751218 _Hlk11684379 _Hlk512682088 _Hlk11684766 _Hlk512682694 _Hlk11686070 _Hlk518286596 _Hlk11686051 _Hlk514250221 _Hlk11686762 _Hlk518287146 _Hlk11686928 _Hlk514250026 _Hlk11687124 _Hlk535847380 _Hlk11687509 _Hlk11687745 _Hlk535848725 _Hlk11688454 _Hlk518287460 _Hlk512339659 _Hlk514249611 bau0050 Apresentação Organização do Caderno de Estudos e Pesquisa Introdução Unidade I Estatística Básica Capítulo 1 Conceitos fundamentais em estatística Capítulo 2 Estatística descritiva, probabilidade e inferência estatística Capítulo 3 Média, moda, mediana, desvio padrão, intervalo de confiança, testes t não pareado e pareado, teste Q Unidade II Trabalhando Com Dados Multivariados Capítulo 1 Análise exploratória de dados Capítulo 2 Construção de modelos de calibração Modelos de classificação e reconhecimento de padrões Unidade III Planejamento Experimental Capítulo 1 Planejamento fatorial completo Capítulo 2 Planejamento fatorial fracionário Capítulo 3 Modelos de regressão Unidade IV Quimiometria Capítulo 1 Princípios básicos Capítulo 2 Erro em análises químicas Capítulo 3 Validação dos métodos quimiométricos Capítulo 4 Estudo de casos e artigos sobre planejamento experimental e Quimiometria Para (não) Finalizar Referências