Prévia do material em texto
Brasília-DF.
Controle estatístiCo de ProCessos
e Quimiometria
Elaboração
Maria Rosiene Antunes Arcanjo
Produção
Equipe Técnica de Avaliação, Revisão Linguística e Editoração
Sumário
APRESENTAÇÃO ................................................................................................................................. 5
ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA .................................................................... 6
INTRODUÇÃO.................................................................................................................................... 8
UNIDADE I
ESTATÍSTICA BÁSICA ............................................................................................................................. 11
CAPÍTULO 1
CONCEITOS FUNDAMENTAIS EM ESTATÍSTICA ........................................................................... 11
CAPÍTULO 2
ESTATÍSTICA DESCRITIVA, PROBABILIDADE E INFERÊNCIA ESTATÍSTICA ........................................ 18
CAPÍTULO 3
MÉDIA, MODA, MEDIANA, DESVIO PADRÃO, INTERVALO DE CONFIANÇA,
TESTES T NÃO PAREADO E PAREADO, TESTE Q .......................................................................... 26
UNIDADE II
TRABALHANDO COM DADOS MULTIVARIADOS ..................................................................................... 35
CAPÍTULO 1
ANÁLISE EXPLORATÓRIA DE DADOS ........................................................................................ 35
CAPÍTULO 2
CONSTRUÇÃO DE MODELOS DE CALIBRAÇÃO ....................................................................... 49
MODELOS DE CLASSIFICAÇÃO E RECONHECIMENTO DE PADRÕES ........................................ 59
UNIDADE III
PLANEJAMENTO EXPERIMENTAL ........................................................................................................... 68
CAPÍTULO 1
PLANEJAMENTO FATORIAL COMPLETO .................................................................................... 72
CAPÍTULO 2
PLANEJAMENTO FATORIAL FRACIONÁRIO ............................................................................... 79
CAPÍTULO 3
MODELOS DE REGRESSÃO ..................................................................................................... 85
UNIDADE IV
QUIMIOMETRIA .................................................................................................................................... 90
CAPÍTULO 1
PRINCÍPIOS BÁSICOS .............................................................................................................. 94
CAPÍTULO 2
ERRO EM ANÁLISES QUÍMICAS .............................................................................................. 100
CAPÍTULO 3
VALIDAÇÃO DOS MÉTODOS QUIMIOMÉTRICOS ................................................................... 118
CAPÍTULO 4
ESTUDO DE CASOS E ARTIGOS SOBRE PLANEJAMENTO EXPERIMENTAL E QUIMIOMETRIA ........ 129
PARA (NÃO) FINALIZAR ................................................................................................................... 135
REFERÊNCIAS ................................................................................................................................ 136
5
Apresentação
Caro aluno
A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se
entendem necessários para o desenvolvimento do estudo com segurança e qualidade.
Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela
interatividade e modernidade de sua estrutura formal, adequadas à metodologia da
Educação a Distância – EaD.
Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade
dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos
específicos da área e atuar de forma competente e conscienciosa, como convém
ao profissional que busca a formação continuada para vencer os desafios que a
evolução científico-tecnológica impõe ao mundo contemporâneo.
Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo
a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na
profissional. Utilize-a como instrumento para seu sucesso na carreira.
Conselho Editorial
6
Organização do Caderno
de Estudos e Pesquisa
Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em
capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos
básicos, com questões para reflexão, entre outros recursos editoriais que visam tornar
sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta para
aprofundar seus estudos com leituras e pesquisas complementares.
A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto antes
mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor
conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita
sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante
que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As
reflexões são o ponto de partida para a construção de suas conclusões.
Sugestão de estudo complementar
Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo,
discussões em fóruns ou encontros presenciais quando for o caso.
Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam para a
síntese/conclusão do assunto abordado.
7
Saiba mais
Informações complementares para elucidar a construção das sínteses/conclusões
sobre o assunto abordado.
Sintetizando
Trecho que busca resumir informações relevantes do conteúdo, facilitando o
entendimento pelo aluno sobre trechos mais complexos.
Para (não) finalizar
Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem
ou estimula ponderações complementares sobre o módulo estudado.
8
Introdução
A estatística é o ramo da ciência voltado ao estudo de ferramentas matemáticas para
coleta, organização, análise e interpretação de dados numéricos para uma melhor
compreensão e tomada de decisões frente a problemas, situações e fenômenos. Com
ampla aplicação nas ciências exatas, naturais, econômicas e sociais, a estatística fornece
uma base para a explicação da ocorrência e frequência de eventos, sua aleatoriedade,
obtenção de incertezas e estimativa de previsibilidade em eventos futuros. Na área de
Química, a disciplina que estuda o uso de métodos matemáticos e estatísticos para
planejar experimentos de forma otimizada e fornecer o máximo de informação na
análise de dados de natureza multivariada é chamada de Quimiometria.
Nesse material será abordada inicialmente uma revisão que engloba os principais
parâmetros estatísticos como média, moda, mediana, desvio padrão, intervalo de
confiança, testes t pareado e não pareado e teste Q. Posteriormente, veremos as técnicas
e metodologias para a manipulação e tratamento de dados multivariados voltados
para a análise exploratória, desenvolvimento de métodos de calibração e construção
de modelos de classificação para reconhecimento de padrões. Por fim, estudaremos o
desenvolvimento e aplicação de planejamentos fatoriais e modelos de regressão.
Veremos que a estatística não é somente construção de gráficos e o cálculo de médias,
visto que as informações numéricas obtidas tem como finalidade a acumulação de
informações para a tomada de decisões. Portanto, a estatística deve ser observada como
um conjunto de técnicas para planejar experimentos, com consequente obtenção de
dados, sua organização, análise e interpretação.
Devido a estatística ser aplicada em diversas áreas do conhecimento, muitas vezes
se torna difícil para os profissionais trabalharem com seus conceitos e elaborarem
exemplos práticos, poishá a limitação de materiais didáticos que expressem, de modo
simples e objetivo, os procedimentos aplicáveis de certas técnicas multivariadas,
que só passaram a ser utilizadas, mais vezes, a partir da chegada dos computadores.
É importante dizer que nos dias atuais com o auxílio de programas computacionais,
consegue-se desenvolver e aplicar esse tipo de técnica mais rapidamente.
O desenvolvimento tecnológico, oriundo das descobertas científicas, tem apoiado
o próprio desenvolvimento científico, expandindo, a capacidade de obtenção de
informações sobre acontecimentos e fenômenos analisados. Uma grande variedade
de informações necessita ser processada antes de ser transformada em conhecimento.
Deste modo, necessita-se cada vez mais de ferramentas estatísticas que proporcionem
uma visão global do fenômeno, que aquela possível em uma abordagem univariada.
9
A denominação Análise Multivariada significa que muitos métodos e técnicas utilizam,
simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados
obtidos (NETO, 2004).
Mas, é preciso ter atenção ao se usar essas técnicas, pois não basta a observação de
conjunto de variáveis e aplicação de técnicas multivariadas, somente objetivando
apresentar e valorizar a técnica. É necessário que exista uma estrutura de correlação
entre as variáveis, se isso não existir deve-se utilizar outro tipo de análise, a univariada,
visto que está também pode fornecer um nível satisfatório de informação.
Portanto, o princípio fundamental é primeiramente saber qual conhecimento se
pretender gerar com as análises.
Um grande avanço relacionado ao surgimento de programas computacionais para
resolução de problemas que envolvem estatísticas têm sido observados nas últimas
décadas. Essas técnicas são frequentemente utilizadas no tratamento de dados
analíticos na área de química, e são denominadas de Quimiometria, a qual desenvolve
ferramentas computacionais que permitem a exploração dos resultados obtidos por
meio de análises químicas, objetivando verificar a existência de similaridades entre
as amostras que, por sua vez, correspondem às semelhanças na composição química
(CORREIA; FERREIRA, 2007).
Nesse contexto, esse material didático, busca tornar mais simples o aprendizado
a respeito de técnicas estatísticas, que, muitas vezes, é obscuro para os alunos,
pesquisadores e profissionais que as utilizam, bem como os métodos de planejamento
experimentais envolvidos nesses processos.
Objetivos
» Conhecer e revisar os conceitos estatísticos como média, moda, mediana,
desvio padrão, intervalo de confiança, testes t pareado e não pareado e
teste Q.
» Compreender o que são as análises exploratória de dados e sua importância
em diversos processos.
» Conhecer e entender as técnicas e metodologias para a manipulação e
tratamento de dados univariados e multivariados.
» Estudar e compreender o desenvolvimento de planejamentos fatoriais e
modelos de regressão, e sua importância em distintas aplicações.
» Estudar e compreender sobre o uso da Quimiometria.
10
11
UNIDADE IESTATÍSTICA BÁSICA
CAPÍTULO 1
Conceitos fundamentais em estatística
A estatística tem sido utilizada pelo homem desde os princípios da existência, mesmo
sob formas um pouco rudimentares. No início a estatística era utilizada apenas em
problemas que envolviam contagens, como por exemplo, contagens de animais ou
indivíduos das tribos, isso fez com que as primeiras ideias de estatística fossem criadas.
O termo estatística deriva da palavra latina status (que quer dizer “coisas de estado”),
contudo, a séculos que a estatística adquiriu status de ciência, com inúmeras aplicações
na maioria das áreas do conhecimento humano. É correto afirmar que não se pode
realizar uma pesquisa científica sem utilizar metodologia estatística. Algumas definições
importantes e comumente usadas em estatísticas são apresentadas a seguir:
» Fenômeno estatístico: qualquer evento analisado, cujo estudo seja
possível a aplicação do método estatístico.
» Dado estatístico: dado numérico que é considerado a matéria prima sobre
a qual se aplica os métodos estatísticos.
» População: conjunto total de elementos que possuam pelo menos, uma
característica comum.
» Amostra: é uma parcela representativa da população que é avaliada
objetivando a obtenção de conclusões sobre a essa população.
» Parâmetros: são valores singulares que existem na população e que
servem para caracterizá-la.
» Estimativa: um valor aproximado do parâmetro que é calculado com o
uso da amostra.
12
UNIDADE I │ ESTATÍSTICA BÁSICA
» Atributo: quando os dados estatísticos exibem um caráter qualitativo, o
levantamento e os estudos imprescindíveis ao tratamento desses dados
são designados de estatística de atributo.
» Amostragem: é o processo de escolha da amostra, sendo a parte inicial
do processo.
› As regras de Amostragem podem ser classificadas em duas categorias
gerais:
· Probabilística, amostragem na qual a seleção é aleatória, de forma
que cada elemento tem igual probabilidade de ser sorteado para a
amostra.
· Não probabilísticas, amostragem em que há uma escolha
determinada dos elementos da amostra.
› Os tipos de amostragem podem ser:
· Amostragem aleatória simples, neste processo, todos os elementos
da população têm igual probabilidade de serem escolhidos, desde o
início até completo processo de coleta.
· Amostragem sistemática, trata-se de uma variação da amostragem
simples ao acaso, muito conveniente quando a população está
naturalmente ordenada, como fichas em um fichário ou listas
telefônicas.
· Amostragem estratificada, quando se possui uma população com
uma certa característica heterogênea, na qual pode-se diferenciar
subpopulações mais ou menos homogêneas, chamadas de estratos.
» Mensuração: atribuição de um número a qualidades de um objeto ou
fenômeno segundo regras pré-determinadas.
» Variável: o conjunto de resultados possíveis de um fenômeno.
Há quatro níveis básicos, de mensuração (quatro tipos de variáveis): nominal, ordinal,
intervalar e razão.
1. Escala nominal: o nível mais simplicista das escalas de medida, sendo
empregada na classificação de objetos ou fenômenos em termos de
igualdade dos seus atributos e numerá-los. O exemplo mais simples é
13
ESTATÍSTICA BÁSICA │ UNIDADE I
formado pela divisão em duas classes que são identificadas com os
números zero ou um, variável binária (0,1).
2. Escala ordinal: empregada quando os fenômenos ou observações
podem ser arranjados segundo uma ordenação, por exemplo: grandeza,
preferência, importância, distância, entre outros.
3. Escala intervalar: tem todas as características de uma escala ordinal,
porém os intervalos entre os valores são conhecidos e assim cada
observação pode receber um valor numérico preciso. A extensão de cada
intervalo sucessivo é constante. O ponto zero de uma escala intervalar
é arbitrário e não indica ausência da característica medida. Exemplo:
numeração dos anos, e escalas de temperatura.
4. Escala de razão: semelhante as características de uma escala de intervalo,
com a vantagem de que o ponto zero representa uma origem verdadeira
(zero indica ausência de fenômeno). É considerada a mais precisa de
todas. Exemplo: escala métrica, idades e distância entre outras.
Segundo o nível introdutório, a estatística pode ser dividida em três grandes categorias:
» Estatística Descritiva, que está relacionada a descrição tabular, gráfica
e paramétrica dos dados obtidos experimentalmente, por meio de
procedimentos de amostragem ou de experimentos realizados.
» Probabilidade e Estatística matemática, que está relacionada a ocorrência
dos eventos e das variáveis aleatórias que os descrevem, fornecendo os
fundamentos da teoria estatística.
» Inferência Estatística, que está relacionada a estimação por intervalo e
por região, os testes de hipóteses sobre parâmetros populacionais.
O emprego de grandes números de dados é uma práticacomum nesta ciência e para
simplificar seu manuseio, faz-se uso de variáveis. Elas podem ser classificadas em
variáveis quantitativas ou numéricas e variáveis qualitativas ou atributos:
» Variáveis quantitativas ou numéricas são aquelas que descrevem
quantidades, ou seja, seus valores são descritos por números. Elas
podem ser ainda divididas em discretas (quando assumem um número
determinado de valores no campo dos reais, por exemplo, contagens) e em
contínuas (em outros casos, admitem valores fracionados). O conceito de
14
UNIDADE I │ ESTATÍSTICA BÁSICA
variável discreta e contínua é considerado simples, contudo, pode causar
alguma confusão em tratamentos estatísticos mais elaborados.
» Variáveis qualitativas ou atributos são aquelas que descrevem qualidades,
ou seja, não se utiliza números para descrevê-las. Elas podem ser divididas
em ordinais (se os valores agregam a ideia de ordem) e nominais (não
agregam a ideia de ordem).
Independentemente da situação estudada, em áreas da medicina, engenharia ou
qualquer outra atividade, as etapas dos processos estatísticos são semelhantes. Na
figura 1 abaixo podemos observar de forma detalhada as etapas básicas de um processo
estatístico.
Figura 1. Fluxograma de um processo estatístico padrão.
Coleta
Tabulação
Apresentação
Análise
Direta
Indireta
Crítica
Apuração
Resumo
dos dados
Conclusão e
interpretação
Descritiva
Estatística
inferencial e
multivariada
Fonte: Adaptada de https://goo.gl/38ATrT (ESTATÍSTICA, 2018).
Onde:
» Coleta de dados.
› Refere-se a obtenção, reunião e registro sistemático de dados, com o
objetivo já pré-definido. A escolha da fonte de obtenção dos dados está
diretamente relacionada ao tipo do problema, objetivos do trabalho,
escala de atuação e disponibilidade de tempo e recursos. Existem
as fontes primárias (levantamento direto no campo por meio de
mensurações diretas ou de entrevistas aplicadas a sujeitos de interesse
para a pesquisa e as fontes secundárias (publicações ou registros
por outra organização). A coleta de dados secundários é feita por
15
ESTATÍSTICA BÁSICA │ UNIDADE I
documentos cartográficos. Estas fontes de informação são de extrema
relevância.
› A coleta dos dados pode ser realizada de forma direta (quando
são obtidos diretamente da fonte primária, como por exemplo os
levantamentos de campo por meio de questionários) ou indireta
(quando é inferida a partir dos elementos conseguidos pela coleta
direta, ou por conhecimento de outros fenômenos que estejam
relacionados com o fenômeno em questão).
» Tabulação (Crítica dos dados e Apuração).
› A crítica dos dados deve ser realizada cuidadosamente por meio de um
trabalho de revisão e correção, denominado de crítica, objetivando a
não ocorrência de erros que possam influenciar de maneira significativa
nos resultados.
› As perguntas dos questionários não entendidas, os enganos evidentes,
tais como somas erradas, trocas de respostas, entre outros, são de
correção fácil. Contudo, faz-se necessário, que o crítico não faça a
correção por simples suposição sua, mas sim, que tenha chegado a
conclusão total do engano.
› O processo de apuração consiste no resumo dos dados por meio de
sua contagem ou agrupamento. Por meio da apuração, é possível
a condensação dos dados, obtendo-se um conjunto compacto de
números, o qual possibilita diferenciar o comportamento do fenômeno
na sua maioria.
» Apresentação.
› Organização do conjunto de dados de modo prático e racional. Essa
organização é denominada de Série Estatística. Sua apresentação
pode ser por tabelas ou gráficos. A apresentação utilizando tabelas,
consiste em preparar os dados em linhas e colunas distribuídos de
modo ordenado, de acordo com algumas regras práticas seguidas
pelo Conselho Nacional de Estatística. As tabelas têm a vantagem de
conseguir expor, em um só local, os resultados sobre determinado
assunto, de modo a se obter uma visão geral mais rápida daquilo que
se pretende analisar. Já a apresentação através de gráficos, consiste em
16
UNIDADE I │ ESTATÍSTICA BÁSICA
uma apresentação geométrica dos dados, isto é, ela permite ao analista
obter uma visão rápida, fácil e clara do fenômeno e sua variação.
» Análise.
› Obtenção de conclusões que auxiliem o pesquisador a resolver seu
problema. A análise dos dados estatísticos está ligada fundamentalmente
ao cálculo de medidas, cujo objetivo principal é descrever o fenômeno.
Assim sendo, o conjunto de dados a ser analisado pode ser expresso
por número-resumo, que evidenciam características particulares desse
conjunto.
› Às vezes é necessário resumir certas características das distribuições
de dados por determinadas quantidades, que são denominadas
comumente de medidas. Existem medidas de posição e medidas de
dispersão, consideradas mais importantes no campo da aplicabilidade
prática do cotidiano. Tais medidas tem como objetivo: a localização de
uma distribuição e a caracterização de sua variabilidade.
› As medidas de posição também chamadas de Tendência Central,
são utilizadas para localizar a distribuição dos dados brutos ou das
frequências sobre o eixo de variação da variável em questão. Veremos
posteriormente no Capítulo 3 desta unidade os três tipos principais de
medidas de posição:
· Média aritmética, é obtida somando todos os valores de um conjunto
de dados e dividindo o valor encontrado pelo número de dados
desse conjunto.
· Mediana, é uma quantidade que, como a média, também caracteriza
o centro de uma distribuição pertencente a um conjunto de dados.
· Moda, é uma quantidade que, como a média, também caracteriza
o centro de uma distribuição, indicando a região das máximas
frequências.
› As medidas de dispersão ou de variabilidade são consideradas
complementos das informações fornecidas pelas medidas de posição.
Essas medidas servem para indicar o “quanto os dados se apresentam
dispersos em torno da região central”. Deste modo, caracterizam o
grau de variação existente em um conjunto de valores. Os principais
tipos de medidas de dispersão são:
17
ESTATÍSTICA BÁSICA │ UNIDADE I
· Amplitude, é definida como a diferença entre o maior e o menor
valores do conjunto de dados.
· Variância, definida como a média dos quadrados das diferenças
entre os valores em relação a sua própria média.
· Desvio Padrão, é definido como a raiz quadrada positiva da variância.
· Coeficiente de Variação, é definido como o quociente entre o desvio
padrão e a média, sendo comumente expresso em porcentagem.
Caro estudante, você estudou sobre os conceitos de estatística mais comumente
utilizados em distintas áreas do conhecimento. Vale ressaltar que é muito
importante que outras fontes sobre o assunto abordado sejam buscadas, deste
modo, sugerimos a consulta do seguinte link: http://www.portalaction.com.br/
estatistica-basica (ESTATÍSTICA BÁSICA, 2018).
18
CAPÍTULO 2
Estatística descritiva, probabilidade e
inferência estatística
Como dito no capítulo anterior a Estatística pode ser divididas em três categorias:
Descritiva, Probabilidade e Inferência.
Estatística descritiva
A estatística descritiva é a etapa inicial da análise empregada para descrever e resumir
os dados, objetivando facilitar a compreensão e a utilização da informação ali contida,
ou seja, na Estatística Descritiva faz-se necessário a utilização de tabelas, gráficos,
diagramas, distribuições de frequência e medidas descritivas a fim avaliar o formato
geral da distribuição dos dados, a verificação da ocorrência de valores não típicos,
a identificação de valores típicos que informem sobre o centro da distribuição e a
verificação do grau de variação presente nos dados.
Um dos objetivos da Estatística é resumir os valores que uma ou mais variáveis podem
assumir, para que se tenha uma visão global dessas variáveis. Isto é possível por Séries
Estatísticas que apresentam valores em tabelas e gráficos, fornecendo de forma maisrápida e segura informações das variáveis estudadas, permitindo assim determinações
mais coerentes:
Tabelas
Por definição, é um quadro que resume um conjunto de dados dispostos segundo
linhas e colunas de maneira sistemática. Denomina-se Série Estatística toda tabela que
apresenta a distribuição de um conjunto de dados estatísticos em função da época, do
local, ou da espécie (fenômeno). Em uma série estatística observa-se a existência de três
fatores: o tempo, o espaço e a espécie. Conforme a variação de um desses elementos, a
série estatística classifica-se em:
» Série temporal, histórica ou cronológica: é a série cujos dados estão
variando com o tempo.
» Série geográfica, territorial ou de localidade: é a série cujos dados estão
em correspondência com a região geográfica, isto é, o elemento variável é
o fator geográfico (a região).
19
ESTATÍSTICA BÁSICA │ UNIDADE I
» Série específica ou categórica: é a série cujos dados estão em
correspondência com a espécie, isto é, variam com o fenômeno.
» Séries mistas: são as combinações entre as séries anteriores constituindo
novas séries denominadas séries mistas e são apresentadas em tabelas
de dupla entrada. Como exemplo pode se citar uma Série Temporal-
Específica, os elementos variáveis são o tempo e a espécie e o elemento
fixo é o local.
» Série homógrada: é aquela em que a variável descrita apresenta variação
discreta ou descontínua. São séries homógradas a série temporal, a
geográfica e a específica.
» Série heterógrada: é aquela na qual o fenômeno ou fato apresenta
gradações ou subdivisões. Esse fenômeno varia em intensidade.
Exemplos: a distribuição de frequências ou seriação.
É de extrema relevância saber que uma tabela nem sempre representa uma
série estatística, pois pode ser um aglomerado de informações úteis sobre um
determinado assunto. Fique atento!
Gráficos
Vale ressaltar que a apresentação gráfica é um complemento importante da apresentação
em tabelas. A vantagem de um gráfico em relação a tabela está na possibilidade de
uma rápida impressão visual da distribuição dos valores ou das frequências ressaltadas.
Os gráficos proporcionam uma ideia a princípio mais satisfatória da concentração e
dispersão dos valores, já que por meio deles os dados estatísticos são visualmente
interpretáveis. Podemos dizer que os requisitos fundamentais de um gráfico são: sua
simplicidade (deve possibilitar a análise rápida do fenômeno observado), clareza (deve
possibilitar interpretações corretas dos valores do fenômeno), e veracidade (deve
expressar a verdade sobre o fenômeno notado).
Os gráficos podem ser classificados quanto: a forma e ao objetivo.
Os tipos de gráficos quanto à forma são:
» Diagramas: gráficos geométricos dispostos em duas dimensões. São
mais usados na representação de séries estatísticas (gráficos em barras
horizontais, barras verticais - colunas, barras compostas, colunas
superpostas, em linhas, e em setores).
20
UNIDADE I │ ESTATÍSTICA BÁSICA
» Cartogramas: é a representação sobre uma carta geográfica. São mais
empregados na Geografia, História e Demografia.
» Estereogramas: representam volumes e são apresentados em três
dimensões. São usados comumente em representações gráficas das
tabelas de dupla entrada.
» Pictogramas: a representação gráfica consta de figuras representativas
do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção
de qualquer público, pois possui forma sugestiva. Contudo, apresentam
uma visão geral do fenômeno, sendo isso uma desvantagem, já que não
mostram detalhes mais específicos.
Os tipos de gráficos quanto aos objetivos são:
» Gráficos de informação: objetivam uma visualização rápida e clara da
intensidade das categorias ou dos valores relativos ao fenômeno. São
gráficos expositivos, e que procuram dispensar comentários explicativos,
isto é, sendo o mais completo possível.
» Gráficos de análise: objetivam fornecer informações importantes na fase
de análise dos dados. Esses gráficos comumente vêm acompanhado de
uma tabela e um texto onde é destacado os pontos principais revelados
pelo gráfico ou pela tabela.
Distribuição de frequências e gráficos
Uma forma eficiente de sumarização se faz necessário para muitos dados. Uma das
formas comumente utilizada para resumir e apresentar dados é por meio de tabelas de
distribuição de frequências, podendo ser de dois tipos:
» Classificação simples: representadas por tabelas de frequências
relacionadas a uma variável. As características dessas tabelas variam de
acordo com o tipo de variável em estudo, podendo do tipo categórica ou
do tipo numérica contínua.
» Classificação cruzada: existem algumas situações em que é realizado um
estudo de duas ou mais variáveis ao mesmo tempo. Com isso, surgem
as distribuições conjuntas de frequências, isto é, relacionadas a duas
variáveis, numéricas ou categóricas.
21
ESTATÍSTICA BÁSICA │ UNIDADE I
As distribuições de frequências podem ser também representadas graficamente de duas
formas diferentes:
» Histograma, consiste em um conjunto de retângulos contíguos cuja base
é igual à amplitude do intervalo e a altura proporcional à frequência das
respectivas classes).
» Polígono de frequências, que é constituído por segmentos de retas que
unem os pontos cujas coordenadas são o ponto médio e a frequência de
cada classe.
É importante mencionar também as medidas descritivas, que objetiva a redução de um
conjunto de dados observados (numéricos) a um pequeno grupo de valores que deve
fornecer toda a informação relevante relacionadas a esses dados. Estas medidas podem
ser classificadas em quatro grupos distintos:
» Medidas de localização: indicam um ponto central, está localizada
a maioria das observações. As medidas mais utilizadas são a média
aritmética, a mediana e a moda.
» Medidas separatrizes: indicam limites para proporções de observações
em um conjunto, podendo ser utilizadas para construir medidas de
dispersão.
» Medidas de variação ou de dispersão: informam sobre a variabilidade dos
dados. As medidas mais utilizadas são: a amplitude total, a variância, o
desvio padrão e o coeficiente de variação.
» Medidas de formato: informam sobre o modo como os valores se
distribuem. As medidas mais utilizadas e precisas são as medidas de
assimetria, que indicam se a maior proporção de valores está no centro
ou nas extremidades, e as medidas de curtose, que descrevem grau de
achatamento da distribuição.
É importante para o estudo da Estatística como ciência, o conhecimento detalhado
sobre seus fundamentos, dessa forma indicamos uma leitura complementar
sobre a Estatística Descritiva com exemplicações a seguir: https://fenix.tecnico.
ulisboa.pt/downloadFile/3779573118035/Estatistica_Descritiva_2008_09.pdf
(ESTATÍSTICA DESCRITIVA, 2018).
22
UNIDADE I │ ESTATÍSTICA BÁSICA
Probabilidade
A probabilidade tem por finalidade descrever os fenômenos aleatórios, isto é, aqueles
em que está presente a incerteza. Há dois tipos de modelos matemáticos:
» Modelos Determinísticos: é apresentado como um modelo que estipule
que as condições sob as quais um experimento seja realizado, possam
determinar o resultado do experimento. O modelo determinístico
necessita do uso de parâmetros pré-definidos em equações que definem
processos precisos.
» Modelos Não Determinísticos ou Probabilísticos: trazem informações
sobre a chance ou probabilidade de os acontecimentos ocorrerem.
Os conceitos básicos em probabilidade são experimentos aleatórios, espaço amostral e
eventos.
» Experimento aleatório (W): qualquer processo aleatório, que produza
observações, e os resultados surgem ao acaso, podendo haver repetições
no futuro.
» Espaço amostral (S): é o conjunto de resultados possíveis, de um
experimento aleatório. O número de elementos pode ser: finito (número
limitado de elementos) e infinito (número ilimitado de elementos).
» Evento: um evento (E) é qualquer subconjunto de um espaço amostral(S).
No conceito empírico de probabilidade temos que o principal problema da probabilidade
consiste na atribuição de um número a cada evento (E), o qual avaliará quão possível
será a ocorrência de “E”, quando o experimento for realizado. Uma maneira de resolver
a questão seria a determinação da frequência relativa do evento E (fr(E)):
( )
r
númerodeocorrências doeventof E
númeroderepetições doexperimento
=
Sendo assim, a probabilidade pode ser definida como:
( ) aP E
a b
=
+
No conceito clássica (“A priori”) de probabilidade temos que se existe “a” resultados
possíveis favoráveis a ocorrência de um evento “E” e “b” resultados possíveis não
favoráveis, sendo os mesmos mutuamente excludentes, então teremos:
23
ESTATÍSTICA BÁSICA │ UNIDADE I
No conceito axiomática de probabilidade, define-se como seja (W) um experimento,
seja (S) um espaço amostral associado a (W). A cada evento (E) associa-se um número
real representado por P(E) e denominaremos de probabilidade de E, satisfazendo
algumas propriedades que são conhecidas como axiomas da teoria da probabilidade.
Os axiomas, algumas vezes, se inspiram em resultados experimentais de forma que a
probabilidade possa ser confirmada experimentalmente.
Caro estudante, o que reportamos acima foi apenas um pouco do amplo conteúdo
sobre probabilidade que você poderá encontrar em outras fontes de consulta.
Sugerimos como uma dessas fontes, o site a seguir:< http://www.portalaction.
com.br/probabilidades/introducao-probabilidade > (PROBABILIDADE, 2018).
Esperamos que possa se aprofundar mais nesse assunto.
Inferência estatística
Por definição, é um processo de raciocínio indutivo, em que se procuram tirar conclusões
indo do particular, para o geral. É um tipo de raciocínio contrário ao tipo de raciocínio
matemático, essencialmente dedutivo. É empregado quando o objetivo é o estudo
de uma população, avaliando apenas alguns elementos dessa população, isto é, uma
amostra. Por exemplo, em uma pesquisa científica, geralmente, o processo ocorre da
seguinte maneira: são feitos levantamentos amostrais e experimentos são realizados
com amostras, porém o pesquisador não quer suas conclusões limitadas à amostra com
a qual trabalhou, ao contrário, o objetivo é expandir os resultados que obteve para toda
a população. Dessa forma, o pesquisador quer fazer inferência. A Figura 2 apresenta
esquematicamente como é o processo de inferência.
Figura 2. Processo de Inferência Estatística.
População Amostra
Amostragem
Resultados
Inferência
Fonte: Adaptada de https://goo.gl/VPheQv.
Observando a figura 2 podemos chegar a seguinte explicação: para poder generalizar
as conclusões obtidas da amostra para a população, é necessário que a amostra seja
representativa da população e não somente que os dados sejam descritos bem.
24
UNIDADE I │ ESTATÍSTICA BÁSICA
Isto significa que a amostra deve possuir as mesmas características básicas da população
relacionadas às variáveis que se deseja pesquisar. A partir disso surgiu o conceito de
erro provável. A possibilidade de erro é inerente ao processo de inferência, isto é, toda
vez que se estuda uma população a partir de uma amostra, existe a possibilidade de
se cometer algum tipo de erro de conclusão final. A maior aplicação da Inferência
Estatística é fornecer métodos que admitam quantificar esse erro provável. Alguns
conceitos fundamentais da Inferência Estatística foram estudados no capítulo 1, como,
população, amostra e amostragem.
Existem dois tipos de Inferência: estimação de parâmetros e testes de hipóteses:
A estimação de parâmetros é realizada com o auxílio de um estimador, isto é, de uma
fórmula que descreve o modo de calcularmos o valor de determinado parâmetro
populacional. A estimação pode ser dividida em duas partes, estimação por pontos e
estimação por intervalos.
» Na estimação por ponto o objetivo é usar a informação amostral e
apriorística para se calcular um valor que seria, em certo sentido, nossa
melhor avaliação quanto ao valor de fato do parâmetro em questão. Na
estimativa por intervalo utiliza-se a mesma informação com a finalidade
de se produzir um intervalo que contenha o valor verdadeiro do parâmetro
com algum nível de probabilidade. Como um intervalo está plenamente
caracterizado por seus limites, a estimação de um intervalo equivale à
estimação de seus limites.
» Enquanto o teste de hipótese é um procedimento estatístico em que
se busca verificar uma hipótese a respeito da população, no sentido de
aceitá-la ou rejeitá-la, partindo de dados amostrais, baseados na teoria
das probabilidades. Existem as hipóteses subjacentes, são aquelas
informações que não se almeja que sejam expostas a testes. E as hipóteses
testáveis que consistem em suposições remanescentes que devem ser
testadas. O teste de hipótese é composto de três passos fundamentais:
definição das hipóteses, estabelecimento dos limites entre as regiões de
aceitação e rejeição e a obtenção do valor amostral do teste estatístico.
Para garantir a independência entre os elementos da amostra, as escolhas devem ser
feitas com reposição. Como os valores que compõem a amostra são aleatórios, qualquer
função (total, média, variância, entre outros) dos elementos da amostra será também
uma variável aleatória. Como as estatísticas são funções de variáveis aleatórias,
também são variáveis aleatórias e, consequentemente, terão alguma distribuição de
25
ESTATÍSTICA BÁSICA │ UNIDADE I
probabilidade com média, variância. A distribuição de probabilidade de uma estatística
é chamada de distribuição amostral.
Dessa forma, a inferência estatística visa inferir para a população a partir da amostra.
Assim, todas as informações que temos sobre a população são advindas da amostra,
isto é, trabalhamos efetivamente com estatísticas, que são variáveis aleatórias. Deste
modo, é extremamente necessário que conheçamos as distribuições amostrais dessas
estatísticas. A média da amostra () é a estatística mais utilizada devido suas propriedades
interessantes.
A Inferência Estatística é baseada em estatísticas amostrais. A chave para resolver
as questões de Inferência Estatística consiste na caracterização probabilística
da estatística amostral utilizada, identificando a distribuição de probabilidades
da estatística amostral em causa e apurando os parâmetros importantes dessa
distribuição.
O uso generalizado da distribuição normal na estatística deve-se ao Teorema Central do
Limite. Esse teorema apresenta três propriedades básicas:
» A média da distribuição amostral é igual à média da população, e igual à
média de uma amostra quando o tamanho da amostra tende ao infinito
(segundo Lei dos Grandes Números).
» A forma da distribuição amostral tende a assumir a forma de sino à
medida que se aumenta o tamanho da amostra, e aproximadamente
normal, independente da forma da distribuição da população.
» A forma da distribuição amostral cresce em altura e decresce em dispersão
à medida que o tamanho da amostra cresce.
Consideremos uma população com média µ e desvio padrão σ, e selecionamos várias
amostras de tamanho n. Para cada uma dessas amostras pode-se calcular a respectiva
média. Pelo Teorema Central do Limite, a distribuição das médias destas amostras
tende para uma distribuição normal com média µ (igual à média da população) e com
desvio padrão. O desvio padrão da distribuição das médias amostrais recebe o nome de
erro padrão da média.
A Inferência Estatística é uma das áreas da Estatísticas mais utilizadas, contudo, é
necessário que exista um aprofundamento sobre esse assunto. Assim, sugerimos
que você, estudante, busque mais sobre esse tema e para ajudá-lo indicamos
a consulta do seguinte arquivo disponível em:< https://goo.gl/4fm5VW>
(INFERÊNCIA, 2018).
26
CAPÍTULO 3
Média, moda, mediana, desvio padrão,
intervalo de confiança, testes t não
pareado e pareado, teste Q
Suponhamos que um analista de controle de qualidade de uma indústriaalimentícia
queira determinar a concentração de cálcio em um determinado lote de bebida láctea,
e faça a coleta aleatória de 3 embalagens desse mesmo lote para análise. Os resultados
das análises (feitas em 5 réplicas) são mostrados na Tabela 1.
Tabela 1. Resultados de concentração de Ca (em mg/g) para análise de 5 amostras de bebidas lácteas (n=3).
Amostra Réplica 1 Réplica 2 Réplica 3 Réplica 4 Réplica 5
A 1,56 1,62 1,58 1,62 1,54
B 1,52 1,53 1,54 1,55 1,58
C 1,56 1,56 1,58 1,53 1,57
Fonte: Adaptado de Miller e Miller (2010).
A partir dos resultados obtidos, podemos comparar eles utilizando parâmetros
estatísticos que os relacionam a uma tendência central. A média aritmética ( é o valor
numérico significativo que mostra que se concentram os dados combinados de uma
dada distribuição, e pode ser obtida pela razão entre o somatório dos valores individuais
() referentes ao conjunto de dados desejado () e o número de medidas (n), segundo
(MILLER; MILLER, 2010):
ixx
n
∑
=
Considerando os dados da tabela 1, podemos obter a média para cada uma das amostras.
Para a amostra A, temos que = 1,56 + 1,62 + 1,58 + 1,62 + 1,54 = 7,92 e n = 5 (réplicas),
obtendo-se assim um valor de = 7,92 / 5 = 1,58. De maneira análoga podemos obter
os valores médios para as amostras B ( = 1,54) e C ( = 1,56). Note ainda que também
podemos obter o valor médio para todo o conjunto de dados, sendo nesse caso = 23,44,
n = 15 (5 réplicas de 3 amostras) e = 1,56. Note que quanto maior o número de réplicas,
maior a proximidade do valor tido como verdadeiro (valor real da amostra) e maior a
confiabilidade do resultado.
A moda é definida como o(s) valor(es) que ocorrem com maior frequência dentro de
um conjunto de dados amostral. Como esse parâmetro não é obtido por meio de uma
fórmula específica como a média, para calculá-lo basta observar o conjunto de dados e
27
ESTATÍSTICA BÁSICA │ UNIDADE I
verificar o valor que mais aparece. Considerando as amostras A e C individualmente,
os valores de moda são 1,62 (amostra A) e 1,56 (amostra C), visto que cada um deles
aparece um maior número de vezes (duas em cada conjunto). Para a amostra B, não
há valores repetidos e, portanto, não há moda. Considerando agora o conjunto que
engloba todas as amostras (n=15), temos dois valores de moda, 1,56 e 1,58, sendo assim,
podemos dizer que este conjunto é bimodal.
A mediana é caracterizada como resultado da divisão do conjunto de dados em dois
subconjuntos de mesmo tamanho (metade menor e maior), ou seja, divide o conjunto
ao meio. Em termos práticos, a mediana é obtida rearranjando-se os dados de forma
crescente. Considerando a amostra A, temos o conjunto rearranjado como: {1,54, 1,56,
1,58, 1,62, 1,62}. Como nesse caso o número de dados é ímpar, o resultado da divisão
desse conjunto ao meio é 1,58 (valor 1, valor 2, mediana, valor 4, valor 5). Suponhamos
agora que o conjunto de dados seja par e dado pelo descarte do último valor, ou seja,
{1,54, 1,56, 1,58, 1,62}. Nesse caso os valores que dividem o conjunto ao meio são 1,56
e 1,58, sendo a mediana obtida pela média dos valores ((1,56 + 1,58)/2), ou seja, 1,57.
Se considerarmos o conjunto completo de dados (com n=15) teremos: {1,52, 1,53, 1,53,
1,54, 1,54, 1,55, 1,56, 1,56, 1,56, 1,57, 1,58, 1,58, 1,58, 1,62, 1,62}, sendo a mediana o 8º
valor, ou seja, 1,56.
Na determinação do grau de dispersão entre os dados de um conjunto, utilizamos o
cálculo do desvio padrão (s) em torno de uma média. O desvio padrão é um parâmetro
que sugere o quanto um conjunto de dados é uniforme, e quanto mais próximo de 0,
mais homogêneos são os dados. De maneira genérica, o desvio padrão é dado pela raiz
quadrada da relação entre somatório das diferenças entre os valores individuais ( )ix
e médio ( )x ( ao quadrado ( )( )2ii x x−∑ e o número de dados menos um (n-1), de acordo
com a relação (MILLER; MILLER, 2010):
( )2
2
1
ii
x x
s
n
−
=
−
∑
Observando os dados contidos na Tabela 1, o desvio padrão obtido para a amostra A,
como mostrado na Tabela 2 é:
28
UNIDADE I │ ESTATÍSTICA BÁSICA
Tabela 2. Dados (n=5) para o cálculo do desvio padrão (s) para a amostra A.
Réplicas da
amostra A (x
i
)
Média
( )x )−i(x x
2−i(x x) ( )
2−∑ ii x x Desvio padrão (s)
1,56
1,58
-0,02 0,0004
0,0052
( )2
2
1
ii
x x
s
n
−
=
−
∑
0,0052
5 1
s =
−
0,036s =
1,62 0,04 0,0016
1,58 0 0
1,62 0,04 0,0016
1,54 -0,04 0,0016
Fonte: adaptado de Miller e Miller (2010).
Semelhantemente podemos obter os valores de desvio padrão para as amostras B (s =
0,023), C (s = 0,019), assim como todos os dados da Tabela 1 (s = 0,030). Comparando-
se os desvios padrão para as 3 amostras, podemos inferir que os resultados para a
amostra C apresentam os menores valores e, portanto, são mais homogêneos.
Quando analisamos uma série de resultados experimentais, podemos descrever se o
comportamento de fenômenos segue um determinado padrão. Para isso, utilizamos
distribuições de probabilidades, sendo a distribuição normal uma das mais utilizadas.
A distribuição normal (ou gaussiana) considera a frequência de ocorrência de um
determinado dado numérico e pode ser facilmente verificada por gráfico do tipo
histograma. Como exemplo, consideremos que a determinação de Ca na bebida láctea
tenha sido realizada em 100 réplicas (n=100) e que obtemos as seguintes frequências
de resultados: 1,52 (4x), 1,53 (5x), 1,54 (15x), 1,56 (62x), 1,58 (10x), 1,62(3x) e 1,63
(1x). Colocando esses resultados na forma de histograma, temos o gráfico de barras
representado na Figura 3. Podemos assumir que a média populacional ( )x ( nos dá
uma estimativa do valor tido como verdadeiro para a análise (μ), ou seja, μ = x . De
maneira análoga, o desvio padrão dessa população (σ) é dado por ( )22 /ix nσ µ= ∑ − , sendo
importante considerar que nesse caso utilizamos n e não n-1 como descrito para o cálculo
do desvio padrão de uma amostra (s). Note que o rearranjo dos dados na forma de um
gráfico de dispersão gera uma curva com formato de sino (curva gaussiana) sendo o
ápice do pico o valor médio de μ = 1,56 e o desvio padrão calculado de σ = 0,02.
29
ESTATÍSTICA BÁSICA │ UNIDADE I
Figura 3. Histograma e gráfico de distribuição normal.
0
10
20
40
30
50
60
70
1,52 1,53 1,54 1,56 1,58 1,62 1,63
Fr
eq
uê
nc
ia
Concentração de Ca (mg/g)
0
10
20
40
30
50
60
70
1,5 1,52 1,54 1,56 1,58 1,6 1,64 1,62
Concentração de Ca (mg/g)
Fr
eq
uê
nc
ia
Fonte: Adaptado de Miller; Miller (2010).
Na distribuição normal, aproximadamente 68% dos valores populacionais estão
situados entre a média (μ) ± 1 desvio padrão (σ), 95% dos valores entre a média (μ)
± 2 desvios padrão (σ) e 99,7% dos valores entre a média (μ) ± 3 desvios padrão (σ),
como ilustrado na Figura 4. No nosso exemplo prático, isso significa dizer que 68% dos
valores estão entre 1,54 -1,58 (1,56 ± 0,02), 95% dos valores entre estão entre 1,52 -1,60
(1,56 ± 0,04) e 99,7% dos valores entre 1,50 -1,62 (1,56 ± 0,06).
Figura 4. Propriedades da distribuição normal.
µ - 1σ µ + 1σ µ - 2σ µ + 2σ µ - 3σ µ + 3σ
68% 95% 99,7
%
Fonte: Adaptado de Miller; Miller (2010).
Uma vez definida a tendência central (média) e observando a dispersão dos pontos em
torno dela, isto é, o desvio padrão, determina-se que uma faixa de confiabilidade em
torno da média na qual há maior probabilidade de o valor verdadeiro estar incluso.
Quando assumimos uma distribuição normal, essa faixa é denominada intervalo de
confiança (IC) e os extremos dessa são denominados limites de confiança. A amplitude
do intervalo de confiança irá depender do quão certos queremos estar sobre a inclusão
do valor verdadeiro, além do tamanho da amostra utilizado no processo. O nível de
confiança geralmente situa-se entre 90% e 99%, sendo que valores abaixo desse nível
apresentam baixa confiabilidade e valores acima, embora sejam associados a elevada
confiança, geram intervalos muito largos ou requerem grandes amostraspopulacionais,
o que pode inviabilizar o processo e elevar o custo. O nível de confiança mais utilizado
30
UNIDADE I │ ESTATÍSTICA BÁSICA
em cálculos é o de 95%. Em termos práticos, isso significa que se você coletar 100
amostras populacionais e calcular 95% de intervalos de confiança, você esperaria que
95 destes contivessem o parâmetro em estudo (geralmente a média) e em 5 deles não,
o que gera um erro de inferência de 5%.
Quando trabalhamos com uma larga quantidade de amostras, os limites do intervalo de
confiança podem ser calculados segundo (MILLER; MILLER, 2010):
zsx
n
±
onde ( é o valor médio, z o coeficiente de confiança, s o desvio padrão da média e n o
tamanho da amostra. O valor de z depende do nível de confiança escolhido, sendo z95% =
1,96 e z99% = 2,58. Quando uma pequena quantidade de amostras é submetida à análise,
os limites de confiança são modificados e baseados na estatística t, segundo:
( )1 n
t s
x
n
−±
onde nesse caso o valor de t depende não apenas do nível de confiança como também
do tamanho da amostra, sendo o grau de liberdade dado por n-1. Na Tabela 3 são
apresentados alguns valores de t para distintos graus de liberdade e níveis de confiança.
Na literatura ainda podem ser encontrados outros valores tabelados (MILLER; MILLER,
2010). Note que quanto maior a população amostral, mais os valores de t se aproximam
dos valores de z (1,96 para 95% e 2,58 para 99% de confiança)
Tabela 3. Valores de t para diferentes níveis de confiança e graus de liberdade.
Graus de
liberdade (n-1)
Valores de t para níveis de confiança de
90% 95% 99%
1 6,31 12,7 63,66
2 2,92 4,30 9,93
3 2,35 3,18 5,84
4 2,13 2,78 4,60
5 2,02 2,57 4,03
10 1,81 2,23 3,17
50 1,68 2,09 2,68
100 1,66 1,98 2,63
Fonte: Adaptado de Miller; Miller (2010).
Retomemos agora o exemplo do Ca em bebidas lácteas e utilizemos os dados da Tabela
1 para o cálculo dos limites e intervalos de confiança para as amostras A, B e C a níveis
de 95 e 99%. A Tabela 4, resume um exemplo de cálculo para esses parâmetros. Note
que a população amostral é pequena, sendo então adotada a abordagem com valores de
31
ESTATÍSTICA BÁSICA │ UNIDADE I
t, e que também temos 5 réplicas, logo, o número de graus de liberdade (n-1) é igual a
4 e o valor de t95% = 2,78 e t99% = 4,60. É importante verificar que em cada caso, quanto
menor o desvio padrão, menor o intervalo de confiança e que quanto maior o nível de
confiança, mais amplo o intervalo.
Tabela 4. Exemplo de cálculo de intervalo de confiança utilizando os dados da tabela 1.
Amostra
Média
( )x
Desvio padrão
(s)
Limite inferior
( )1−− n
t s
x
n
Limite superior
( )1−+ n
t s
x
n
Intervalo de
confiança (IC)
95 % de confiança
A 1,58 0,036 1,54 1,62 1,54 < µ <1,62
B 1,54 0,023 1,51 1,57 1,51 < µ <1,57
C 1,56 0,019 1,54 1,58 1,54 < µ <1,58
99 % de confiança
A 1,58 0,036 1,65 1,51 1,51 < µ <1,65
B 1,54 0,023 1,59 1,49 1,49 < µ <1,59
C 1,56 0,019 1,52 1,60 1,52 < µ <1,60
Fonte: Adaptado de Miller e Miller (2010).
Considerando ainda o problema do analista de controle de qualidade da indústria
alimentícia, muitas vezes precisamos comparar o resultado determinado via análise
química com um valor de referência, tido como valor verdadeiro, a fim de verificar se
os resultados são significativamente semelhantes ou diferentes estatisticamente. Esse
procedimento pode auxiliar o analista em tomadas de decisão, como por exemplo
rejeitar ou não um determinado lote de produto que não apresenta conformidade.
Para a comparação de médias, lançamos mão de testes de significância, sendo um
dos mais empregados o teste t de Student. Esse teste quando aplicado tem por
finalidade a comparação de médias com um valor verdadeiro (teste t não pareado)
ou de comparação de duas médias não independentes (teste t pareado). No teste t,
assumimos uma distribuição normal, com variância desconhecida e formulamos as
chamadas hipóteses, que são definidas como sendo suposições quanto ao valor de um
parâmetro populacional ou afirmação a respeito de sua natureza. As hipóteses são
caracterizadas como nula (H0) que é a hipótese a ser testada e alternativa (H1) que é a
hipótese contrária a H0. Considerando nosso exemplo para o cálcio, suponhamos que
o valor verdadeiro seja μ = 1,56 mg/g Ca e que um conjunto de 5 análises (n=5) nos
forneceu uma média = 1,55 e um desvio padrão = 0,02. Podemos então formular como
hipótese nula que a média de resultados de análise ( é estatisticamente semelhante ao
valor verdadeiro, ou seja H0 = 1,56, e como hipóteses alternativas que o ele seja menor
(H1 < 1,56), maior (H1 > 1,56) ou diferente (H1 ≠ 1,56). Quando consideramos os valores
32
UNIDADE I │ ESTATÍSTICA BÁSICA
menores ou maiores individualmente, as hipóteses são denominadas unilaterais e para
valores diferentes, consideramos ambos os lados (maior e menor que 1,56), sendo esse
chamado de bilateral. Normalmente, a hipótese nula é rejeitada P = 0,05, isto é, se a
probabilidade P de ocorrer diferenças significativas for de até 5%, desta forma, obtendo-
se um nível de confiança de 95%. Aplicando-se o teste t não pareado, calculamos
então o valor de t (em módulo), segundo:
calculado
xt s
n
µ−
=
Substituindo-se os valores informados, temos um valor de tcalculado igual a 1,118. O valor
de t calculado pode ser comparado com o valor de tcrítico que é disposto em tabelas
como exemplificado na Tabela 3. Nesse caso, o valor de tcrítico é de 2,78 para 4 graus
de liberdade (n-1) e com nível de confiança = 95%. Se tcalculado < tcrítico então a hipótese
nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística em
comparação ao valor verdadeiro, e se tcalculado > tcrítico, H0 é rejeitada e os resultados são
diferentes estatisticamente a um nível de 95% de confiança.
Consideremos agora que a amostra do exemplo anterior que foi analisada no laboratório
da própria planta da indústria, que a média foi de 1x = 1,55 e o desvio padrão s1 = 0,02
(n=5), tenha sido enviada para um segundo laboratório credenciado, e que este obteve
como resultados para um conjunto de 7 análises (n=7) uma média 2x = 1,53 e um desvio
padrão s2=0,03. Nesse caso, podemos comparar as médias e desvios de cada laboratório
e dizer se são semelhantes ou não estatisticamente utilizando o teste t pareado. Dessa
forma, consideramos que a hipótese nula (H0) é de que os resultados interlaboratoriais
são semelhantes 2 2( )x x= e como hipótese alternativa (H1) que são diferentes 2 2( )x x≠
. Devemos nos atentar também ao fato de que os tamanhos de amostra são diferentes
(n1 = 5 e n2 = 7) e que os desvios são diferentes (s1 ≠ s2). Se os desvios não forem muito
diferentes, podemos combiná-los de acordo com:
( ) ( )2 21 1 2 2
1 2
1 1
2
n s n s
S
n n
− + −
=
+ −
No nosso exemplo, o valor calculado de desvio agrupado é S = {[(5-1) x (0,02)2 + (7-1) x
(0,03)2]/(5+7-2)}, ou S = 0,07. Na determinação do valor de tcalculado, podemos aplicar a
relação seguinte (em módulo):
1 2
2
1 2
1 1
calculado
x xt
S
n n
−
=
+
33
ESTATÍSTICA BÁSICA │ UNIDADE I
Substituindo-se os valores informados, temos um valor de tcalculado igual a 0,488. O
valor de t calculado pode ser comparado com o valor de tcrítico, sendo o número de graus
liberdade igual a n1 + n2 – 2. No nosso exemplo, para 10 graus de liberdade temos o valor
de tcrítico = de 2,23 a um nível de 95% de confiança. Como tcalculado < tcrítico então a hipótese
nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística entre as
duas médias de resultados.
Todos nós estamos familiarizados com o termo “um ponto fora da curva” quando
descrevemos um comportamento considerado anormal frente a uma tendência. Nas
ciências experimentais, podemos nos deparar muitas vezes com um dado discrepante
e que pode gerar resultados subestimados ou superestimados com erros maiores. Para
descobrir se um outlier (resultado inesperado) deve ser mantido no conjuntode dados
ou descartado, podemos aplicar o teste Q. Esse teste é bastante popular devido a sua
simplicidade e deve ser aplicado a dados provenientes de uma mesma população,
assumindo também uma distribuição normal dos erros. O valor de Qcalculado pode ser
obtido (em módulo) segundo:
calculado
valor suspeito valor mais próximoQ
valor maior valor menor
−
=
−
O valor de Qcalculado é então comparado com o de Qcrítico, conforme apresentado na Tabela
5 para diferente tamanho de amostra e níveis de confiança.
Tabela 5. Valores de Q para diferentes níveis de confiança e tamanho da amostra.
Tamanho da
amostra (n)
Valores de Q para níveis de confiança de
90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
10 0,412 0,466 0,568
20 0,300 0,342 0,425
30 0,260 0,298 0,372
Fonte: Adaptado de Miller e Miller (2010).
Consideremos como exemplo o seguinte conjunto de resultados {0,402, 0,410, 0,400,
0,360, 0,401, 0,412, 0,407}, temos uma média de 0,399 e um desvio padrão de 0,018.
Nesse caso, o valor 0,360 é o suspeito de ser discrepante, 0,400 é o mais próximo do
mesmo e os valores máximo e mínimo são de 0,412 e 0,360, respectivamente. Aplicando
o teste Q, temos o valor calculado dado por Qcalculado = (0,360 – 0,400) / (0,412-0,360)
= 0,769. Com um tamanho de amostra de 7 e para um nível de confiança = 95%, o valor
34
UNIDADE I │ ESTATÍSTICA BÁSICA
de Qcrítico é igual a 0,568. Assim como ocorre para o teste t, como o valor crítico é maior
que o valor calculado, o resultado suspeito deve ser rejeitado. Note que ao rejeitarmos
o resultado, nossa nova média é de 0,405 e o desvio de 0,005, os quais traduzem de
maneira mais fiel o comportamento do conjunto de dados.
Caro estudante, você estudou nesta unidade sobre alguns conceitos de
estatística básica, pois o planejamento experimental depende fortemente
do entendimento destes princípios. Com isso, sugerimos que consulte o link
a seguir para um aprofundamento detalhado deste assunto: https://www.
measureevaluation.org/resources/training/capacity-building-resources/data-
quality-portuguese/moduloII_capa.pdf (NOÇÕES DE ESTATÍSTICA, 2018).
35
UNIDADE II
TRABALHANDO
COM DADOS
MULTIVARIADOS
CAPÍTULO 1
Análise exploratória de dados
A estatística descritiva pode ser dividida entre métodos univariados e multivariados. A
análise univariada descreve as características e comportamentos de dados e resultados
quando se analisa uma única variável separadamente. Porém, muitos são os casos em
que temos múltiplas variáveis dependentes e independentes, o que consequentemente
faz com que outros métodos multivariados para explorar a influência e a inter-
relação entre cada uma delas sejam utilizados. Devido à complexidade da análise
de dados multivariados, vários softwares como Mathlab, Unscrumbler, Pirouette,
SIMCA, Statistica (pagos), Octave e Scilab (livres) podem ser utilizados para análises
exploratórias, construção de modelos e planejamento experimental. Em virtude disso,
os métodos a seguir descritos serão abordados apenas em termos de seus fundamentos
básicos e alguns exemplos práticos.
A análise exploratória de dados é uma abordagem estatística empregada no
reconhecimento de regularidades e padrões de um conjunto de dados multivariado
para retirar as informações mais importantes, encontrando tendências, agrupando
conjuntos de acordo com similaridades e detectando comportamentos anômalos. Com
o advento da microeletrônica e o desenvolvimento de computadores com capacidade
de extrair e armazenar uma grande quantidade de dados em um intervalo de tempo
breve, faz-se necessário o emprego de ferramentas matemáticas e estatísticas para o
processamento desses dados e obtenção de informações valiosas sobre o problema em
estudo, auxiliando assim em uma futura tomada de decisões (FERREIRA et al., 1999).
Método da análise de componentes principais
(PCA)
A análise de componentes principais (PCA, do inglês Principal Component Analysis)
é um método que utiliza a projeção de dados multivariados e visa a transformação
36
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
deles de modo a reduzir sua dimensão e deixar mais evidentes as informações mais
relevantes. Essa metodologia é bastante útil na identificação de diferenças entre as
variáveis e visualização de comportamentos atípicos em determinadas amostras, o que
é especialmente útil em processos de controle de qualidade industriais.
Um exemplo prático que melhor ilustra um método de projeção é a fotografia.
Considerando uma paisagem, temos um espaço tridimensional (3 variáveis – altura,
largura e profundidade) que é projetado num espaço bidimensional (papel) contendo
menos variáveis que o conjunto de informações original. Nesse caso, dizemos que ocorre
uma compressão controlada dos dados (perda de informações) mas que nos fornece
uma melhor compreensão dos mesmos (FERREIRA, 2015).
Suponhamos que o nosso analista da indústria de laticínios tenha determinado a
concentração de cálcio em uma bebida utilizando um método instrumental de análise
chamado espectrometria de emissão atômica, e que tenha avaliado os comprimentos de
onda (λ) de 393,3 nm e 422,6 nm. para amostras com concentração crescente de Ca. A
Tabela 6 ilustra os resultados obtidos, e é possível verificar que nesse caso temos duas
variáveis (λ1 e λ2) e que essas são intrinsicamente dependentes apenas a concentração.
Tabela 6. Resultados para determinação espectrométrica de Ca.
Concentração de Ca
(mg/L)
Intensidade de sinal para λ1
(393 nm)
Intensidade de sinal para λ2
(422 nm)
1 1005 2090
2 2030 3900
5 5003 9020
10 11070 20970
20 20100 39200
25 24200 50900
Fonte: Adaptado de Miller e Miller (2010).
Um gráfico de relação entre as variáveis intensidade para λ1 vs. intensidade para λ2
poderia ser representado por uma série de pontos bidimensional (Figura 5). Note que o
gráfico obtido utilizando os dados da Tabela 6, apresenta comportamento linear e uma
boa correlação entre os pontos (R2 = 0,9986), indicando assim uma correlação entre
as variáveis estudadas (λ1 e λ2). Tendo então, variáveis que se correlacionam, pode-
se combiná-las e agrupá-las para comprimir os dados e reduzir a o número menor
de novas variáveis que ainda podem trazer informações significativas. Essas novas
variáveis combinadas são chamadas de componentes principais.
37
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 5. Gráfico de intensidades de sinal para Ca em 393 e 422 nm a partir de dados da Tabela 5.
R² = 0,9986
0
10000
20000
30000
40000
50000
60000
0 5000 10000 15000 20000 25000 30000
In
te
ns
id
ad
e
(4
22
n
m
)
Intensidade (393 nm)
Fonte: Adaptado de Miller e Miller (2010).
As componentes principais apresentam como característica intrínseca o fato de serem
ortogonais e não se correlacionarem entre si, visto que a informação presente em cada
uma delas é única. Além disso, cada uma das componentes principais descreve uma
quantidade de informação dos dados originais. A primeira (PC1) descreve a direção de
máxima variância dos dados originais e a segunda (PC2), descreve a máxima variância
dos dados na direção ortogonal a PC1. As componentes posteriores são ortogonais
às anteriores, descrevendo assim a variância restante. O número de componentes
principais que é adequado para descrever um determinado sistema é chamado de posto
químico do conjunto de dados. Após definir o número de PCs e de determinar o posto
químico, os dados podem ser projetados num novo sistema (FERREIRA, 2015).
Para facilitar a visualização, procederemos um tratamento matemático chamado
“centrar na média” (CM), significa dizer que a média de um conjunto de dados de uma
variável é calculada e então subtraída de cada um dos elementos. Outro tratamento
bastante empregado é o “autoescalamento” (AE), após centrado na média, o valor
resultante é dividido pelo desvio padrão referente àquela coluna de dados, o queauxilia
a tornar mais evidente a correlação entre as variáveis (FERREIRA et al., 1999).
Quando trabalhamos com métodos multivariados, é interessante organizar os dados
em uma forma mais fácil de realizar os cálculos. Quando coletados, os dados podem
ser organizados em um arranjo de “I” linhas e “J” colunas, chamado de matriz X, em
que cada linha corresponde a uma amostra e cada coluna uma variável estudada. Dessa
forma, podemos dizer por exemplo que 1Ix é o valor para a I-ésima linha e primeira
coluna, 4 jx o valor para a J-ésima coluna da quarta linha e o valor para a I-ésima linha
e J-ésima coluna.
38
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
[ ]
11 12 11
21 22 22
31 32 33
1 2 3 4
41 42 44
1 2
T
J
T
J
T
J
JT
J
T
I I IJI
x x x
x x x
x x x
x x x
x x x
×
×
×
= = = × × × × … ×
×
… … … …
×
X
Cada amostra i (x1J, x2J ... xIJ) pode ser associada a um vetor-linha (), composto pelos J
valores de medidas realizados para os parâmetros estudados para aquela amostra. Esse
vetor pode ser associado a um ponto no espaço com dimensão igual a J. De maneira
análoga, para cada variável j (xI1, xI2 ... xIJ) pode-se associar um vetor (xj) a um ponto no
espaço com dimensão I (FERREIRA et al., 1999). Note que a representação de matriz é
usualmente feita na forma de coluna e que a matriz-linha gerada é a transposta (T) da
matriz para determinada coluna.
[ ]
1
2
3
1 2 3
4
j
j
jT
i i i i iJ j
j
Ij
x
x
x
x x x x
x
x
× = × =
Consideremos agora que nosso analista da indústria de laticínios tenha determinado
a concentração de cálcio e de magnésio em matéria prima de leite por medidas de
titulação em 6 amostras. Os resultados são descritos na Tabela 7.
Tabela 7. Resultados para determinação de Ca e Mg em leite e tratamentos matemáticos de centragem na
média (CM) e autoescalamento (AE).
Amostra
[Ca]
(mg/L)
[Mg] (mg/L)
[Ca]
CM
[Mg] CM [Ca] AE [Mg]
AE
A 1,52 0,76 -2,375 -1,193 -1,35 -1,36
B 2,56 1,29 -1,335 -0,663 -0,76 -0,75
C 3,48 1,75 -0,415 -0,203 -0,24 -0,23
D 4,21 2,11 0,315 0,157 0,18 0,18
E 5,28 2,66 1,385 0,707 0,79 0,80
F 6,32 3,15 2,425 1,197 1,38 1,36
Média 3,90 1,95 - - - -
Desv. Pad. - - 1,76 0,88 - -
Fonte: Adaptado de Miller e Miller (2010).
39
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
No nosso exemplo, a matriz X é composta por 6 amostras (linhas) e 2 variáveis
(colunas), ou seja, 6x2. Dessa forma, podemos reescrever os dados da Tabela 6 em
termos de matrizes dos dados originais (X), centrados na média (Xcm) e autoescalados
(Xae), como descrito abaixo:
1,52 0,76 2,375 1,193 1,35 1,36
2,56 1,29 1,335 0,663 0,76 0,75
3,48 1,75 0,415 0,203 0,24 0,23
4,21 2,11 0,315 0,157 0,18 0,18
5,28 2,66 1,385 0,707
6,32 3,15 2,425 1,197
− − − −
− − − −
− − − −
= = =
cm aeX X X
0,79 0,80
1,38 1,36
A Figura 6 mostra o gráfico de correlação entre os dados originais, centrados na média
e autoescalados.
Figura 6. Gráficos de correlação para os dados da Tabela 7.
2
3
4
5
6
7
1 1,5 2 2,5 3 3,5
C
on
ce
nt
ra
çã
o
de
C
a
Concentração de Mg
Dados originais
-3
-2
-1
0
1
2
3
-1,5 -1 -0,5 0 0,5 1 1,5
C
on
ce
nt
ra
çã
o
de
C
a
Concentração de Mg
Centrado na média Autoescalado
2
3
4
5
6
7
1 1,5 2 2,5 3 3,5
C
on
ce
nt
ra
çã
o
de
C
a
Concentração de Mg
Dados originais
-3
-2
-1
0
1
2
3
-1,5 -1 -0,5 0 0,5 1 1,5
C
on
ce
nt
ra
çã
o
de
C
a
Concentração de Mg
Centrado na média Autoescalado
Fonte: Adaptado de Miller e Miller (2010).
40
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
A análise de componentes principais utilizando o software, nos fornece duas novas
variáveis, a PC1 e PC2. A primeira tem como característica apresentar o maior
espalhamento dos pontos ao longo do eixo e a segunda descreve a informação restante
dos dados em termos de variância. A representação gráfica das componentes principais
se encontra na Figura 7. Para melhorar a visualização das componentes, podemos
rotacionar os dados de modo que a PC1 se torne o eixo x e a PC2 o eixo y.
Figura 7. Gráficos de PCA para as 6 amostras de leite analisadas.
C
on
ce
nt
ra
çã
o
de
M
g
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
0,2
-3 -2 -1 0 1 2 3
PC
2
PC1
Fonte: Ferreira, (2015).
É importante notar que nesse caso, o gráfico de PCA com as variáveis combinadas
linearmente e as coordenadas de seus pontos são distintas das dos gráficos de correlação
entre as variáveis originais mostradas. No gráfico PC1 x PC2, as novas coordenadas são
chamadas de “scores” e os coeficientes de combinação linear (ou seja, o quanto cada
variável antiga contribui no gráfico), chamados de “loadings”. Na prática, os scores nos
fornecem a composição das componentes principais em relação às amostras e os loadings
a composição das componentes principais em relação às variáveis. Esse conjunto de
parâmetros nos possibilita estimar a influência de cada variável em cada amostra
41
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
individual. O cálculo de scores e loadings pode ser realizado por diferentes métodos,
sendo um dos mais usados o de decomposição por valores singulares (SVD). Como
exemplo prático podemos destacar um trabalho de tese de doutorado sobre adulteração
de leite (SANTOS, 2013). A autora avaliou a adulteração de leite com água, soro, leite
sintético, urina sintética e peróxido de hidrogênio, além de misturas de adulterantes
em vários níveis (presença de 5 a 50% de adulterante), constituindo ao todo mais de
1.000 amostras de leite. Foram avaliados como respostas 10 variáveis diferentes, todas
relacionadas à análise de imagens digitais, e foi aplicada então uma PCA para avaliar
sobreposições e/ou tendências de separação entre as amostras. A Figura 8 mostra um
gráfico de scores para amostras de leite sem adulteração e adulterados em vários níveis.
Verifica-se que há um agrupamento das amostras de acordo com o teor de adulteração:
grupo 1 com 50% de adulteração (símbolos brancos), grupo 2 com 35% de adulteração
(símbolos cinza escuro), grupo 3 com 5-25% de adulteração (símbolos cinza-claros) e
amostras não adulteradas (preto). Verifica-se que não foi possível a distinção entre o
tipo de adulterante empregado e que as classes de amostras com 5, 15 e 25% de alteração
se sobrepuseram, indicando similaridade.
Figura 8. Gráfico de scores para amostras de leite com e sem adulteração.
Fonte: SANTOS, (2013).
É importante verificar que a PC1 explica 77% das variâncias do conjunto de dados e a
PC2 17%, sendo que juntas essas informações constituem cerca de 94% do conjunto
de dados original. No gráfico de loadings (Figura 9), é possível observar quais
variáveis são mais significativas para separação e/ou agrupamento das amostras.
42
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Nota-se que as variáveis V, B, L, R, G, r e g (loadings positivos para PC1) apresentaram
valores maiores para essas variáveis em leites não adulterados ou com 5-25% de
adulteração do que em leites adulterados com 35 e 50%.
Figura 9. Gráfico de loadings para amostras de leite com e sem adulteração.
Fonte: SANTOS, (2013).
Caro estudante, mantenha-se atento a leitura desse capítulo, são assuntos
de extrema relevância para entendimentos futuros, sugerimos como leitura
que consulte o seguinte link que fala um pouco mais sobre PCA: https://goo.
gl/2PZwdt (PCA, 2018).
Análise hierárquica de agrupamentos (HCA)
A análise hierárquica de agrupamentos (HCA, do inglês Hierarchical Cluster Analysis)
é um método hierárquico, ou seja, constituído por um arranjo de itens (objetos, valores,
categorias etc.) que são representados como estando “acima”, “abaixo” ou “no mesmo
nível” um do outro. A HCA é considerada um método aglomerativopois considera cada
objeto como um grupo unitário que vai se unindo por similaridade a outros até chegar
a um grupo mais amplo. A matriz inicial de dados é processada e dimensionalmente
reduzida pelo agrupamento por pares semelhantes sucessivos, até que a reunião de
todos os grupos chegue a um único grupo.
A HCA é feita com a finalidade de traduzir os dados em um espaço bidimensional
de maneira a destacar amostras com alguma similaridade (de uma mesma classe) e
maximizar as diferenças entre amostras de grupos diferentes.
https://goo.gl/2PZwdt
https://goo.gl/2PZwdt
43
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Os resultados são apresentados em uma árvore hierárquica denominada dendograma,
um gráfico bidimensional que agrupo amostras ou variáveis de acordo com seu grau
de similaridade. (CORREIA; FERREIRA, 2007). Para decidir quais objetos devem ser
combinados ou onde um agrupamento deve ser dividido é necessária uma medida de
similaridade entre os conjuntos. Isso é alcançado pelo uso de uma métrica (medida de
distância entre pares de observações) apropriada e um critério de ligação que especifica
a diferença dos conjuntos em função das distâncias. Como exemplo, podemos observar
na Figura 10 um conjunto de dados e o agrupamento na forma de dendograma de
acordo com as distâncias entre as amostras, onde é possível verificar que inicialmente
temos 6 amostras (A, B, C, D, E e F) formando 6 grupos unitários.
Figura 10. Dados organizados por distância e agrupamento na forma de dendograma.
Fonte: Adaptado de Correia; Ferreira, (2007).
Como os pares A-C e B-E apresentam menores distâncias entre si, são agrupados
para formarem os grupos AC e BE. Já as amostras F e D ainda se mantém distantes
do restante, dessa forma o número de grupos é igual a 4 (AC, BE, D e F). O grupo BE
encontra-se agora mais próximo de F e pode ser agrupado no grupo BEF, reduzindo o
número de grupos para 3 (AC, BEF e D). Posteriormente, o grupo BEF se localiza mais
próximo de AC do que de D, portanto o novo grupo formado é o ABCEF, e completando
o grupo dados, temos o grupo unitário D. Por fim, todos os grupos se unem totalizando
o conjunto de dados ABCDEF.
Considerando o conjunto de dados do exemplo, podemos inferir sobre algumas
condições básicas para o cálculo da distância entre dois pontos (espaço métrico).
Supondo os conjuntos A e C, podemos dizer que a distância entre A e C (dAC) é igual à
distância entre C e A (dCA), ou seja dAC = dCA, e que elas devem ser maiores ou iguais a
zero, não podendo ser negativas. Se a dAC = 0, significa que A=C. Considerando agora
44
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
as distâncias entre A, B e C, devemos utilizar um conceito em métrica chamado de
“desigualdade triangular”, que diz que o comprimento de um dos lados do triângulo
(por exemplo dAB), deve ser menor ou igual à soma dos outros dois lados (dAC e dBC), o
que significa dizer que o caminho A-B é mais curto do que a soma dos caminhos AC e
BC (FERREIRA, 2015).
Dentre os vários métodos para atribuição métrica, abordaremos a seguir os mais
utilizados como a distância Euclidiana e distância Manhattan. A distância Euclidiana é
possivelmente a mais comum e empregada em métrica e é a distância entre dois pontos
que pode ser expressa em termos do teorema de Pitágoras. A distância Euclidiana entre
os pontos A = (a1, a2, a3,..., an) e E = (e1, e2, e3,..., en) do nosso exemplo da Figura 8 em
um espaço n-dimensional, é dada por:
( ) ( ) ( )2 2 21 1 2 2AB n nd a e a e a e= − + − +…+ −
Onde an e en são os valores da n-ésima coordenada para A e E. Considerando um espaço
bidimensional, temos que a distância entre os pontos A = (ax, ay) e E = (ex, ey) é:
( ) ( )22AB x x y yd a e a e= − + −
A grande limitação da distância Euclidiana está no fato de que ela varia com a mudança
de escala dos dados. É importante considerar também que essa distância pode ser
descrita em termos de vetores em um espaço dimensional. A distância de Manhattan
utiliza a abordagem de que a distância entre dois pontos é igual à soma das diferenças
absolutas de suas coordenadas. Essa medida é também conhecida como a métrica do
taxi, por analogia com um táxi que deve contornar os quarteirões em seu caminho para
chegar ao destino. Dessa maneira, a distância entre os pontos A e E (dAE) do nosso
exemplo da Figura 10 é igual à soma das distâncias dAB + dBE ou dAC + dCE. A Figura 11
exemplifica a distância as métricas Euclidiana (em amarelo) e Manhattan (em laranja,
roxo ou verde) para a distância entre P e Q. A distância Euclidiana calculada nesse
caso é dPQ = 8,5, enquanto para a distância Manhattan dPQ = 12, independentemente do
caminho adotado.
45
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 11. Exemplos de distância Euclidiana (amarelo) e Manhattan (laranja, verde e rosa) entre os pontos P e Q.
Fonte: Ferreira (2015).
Podemos identificar e agrupar as amostras de acordo com suas similaridades, quando
a distância entre os pares de amostras for definida. Após o primeiro agrupamento,
calcula-se novamente a distância entre os grupos restantes para que o processo se
repita. Cada repetição produz grupos já definidos e que permanecem unidos seguindo
a hierarquia. O resultado final após o agrupamento das amostras, pode ser expresso na
forma de um dendograma, os comprimentos das ramificações mostram as distâncias
entre os grupos. Para facilitar o escalonamento, utilizamos a normalização por índice
de similaridade de modo que as distâncias se situem entre 0 e 1. Isso significa que
quanto mais próximo de 0 o índice for, menor a similaridade das amostras e o inverso
acontece quanto mais próximo de 1, ou seja, maior será similaridade. Considerando os
grupos P e Q, o índice de similaridade (S) pode ser obtido através de:
1 PQ
max
d
S
d
= −
Onde dPQ é a distância entre os pontos a serem considerados para agrupamento e dmax a
distância entre os dois grupos mais afastados do conjunto. Dentre os diversos métodos
para agrupamento hierárquico, estudaremos mais a fundo o do vizinho mais próximo,
do vizinho mais distante e da média utilizando 3 grupos (A, B e C) sendo os grupos A e
B constituídos por 1 amostra cada (a e b) e o grupo C por duas amostras (c1 e c2) como
destacado na Figura 12 (FERREIRA, 2015).
46
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 12. Exemplos de agrupamentos pelos métodos do vizinho mais próximo e vizinho mais distante.
Conjunto de dados originais Agrupamento por vizinho
mais próximo
Agrupamento por vizinho
mais distante
Fonte: Adaptado de Ferreira (2015).
O método do vizinho mais próximo é o método mais simples de agrupamento, sendo
a distância entre dois grupos dada pela menor distância entre todos os constituintes
de cada grupo. Nesse caso, como os grupos A e B são unitários, temos que a distância
entre os grupos é igual à distância entre as próprias amostras constituintes (dAB = dab).
Considerando os outros grupos com relação a C (A e C; B e C), a distância entre eles
será a menor entre suas amostras pertencentes, ou seja, dAC = min (dac1, dac2) e dBC =
min (dbc1, dbc2). Observando a Figura 10, verifica-se que dac1 < dac2 e dbc2 < dbc1, logo dAC
= dac1 e dBC = dbc2. Uma vez obtidas as distâncias, observamos que dBC < dAC < dAB, logo
o par mais próximo irá gerar um novo grupo, BC no caso. Em seguida, calcula-se a
distância entre o grupo restante (A) e o recém-formado (BC), de modo que dA(BC) = min
(dAB, dAC) = min (dab, dac1, dac2), sendo a distância mínima dac1. Esse método possui como
característica o fato de as distâncias entre os grupos se relacionarem com as distâncias
entre as amostras, gerando agrupamentos mais espalhados e com menores índices de
similaridade.
O método do vizinho mais distante é um método semelhante ao anterior com a
diferença que as distâncias entre os grupos são calculada pela maior distância entre
os constituintes. Utilizando o mesmo exemplo anterior, a relação de C com os outros
grupos(A e C; B e C) a distância entre eles agora é dada por maior distância entre
suas amostras pertencentes, ou seja, dAC = max (dac1, dac2) e dBC = max (dbc1, dbc2). Como
dac2 > dac1 e dbc1 > dbc2, temos que dAC = dac2 e dBC = dbc1. Comparando-se as distâncias
máximas (dAB < dBC < dAC), o agrupamento será realizado com a menor distância, ou
seja, o grupo formado será o AB. Em seguida, calcula-se a distância entre o grupo
restante (C) e o recém-formado (AB), de maneira análoga. Esse método destaca-se por
formar agrupamentos mais próximos, visto que a distância é calculada com base na
maior diferença entre os constituintes.
47
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
O método da média é baseado no cálculo da média ponderada entre os grupos. Como dAB
= dab e não necessita de cálculo, podemos calcular dAC e dBC por meio de média aritmética
simples:
1 2 1 2
2 2
ac ac bc bc
AC BC
d d d dd d+ += =
E os cálculos do agrupamento BC podem ser feitos a partir de:
( )
1 2
1 2
2
2 2 2 4 4
ac ac
ab
AB AC ab ac ac
BC A
d ddd d d d dd
+
+
= = = + +
É importante ressaltar que embora o grupo C tenha mais amostras do que os grupos A
e B, isso não foi considerado nos cálculos. O método da média pode admitir também
pesos de diferentes proporções (média ponderadas), o que é especialmente útil no caso
de grupos com tamanhos diferentes. Nesse caso, o cálculo do agrupamento seria:
( )
1 2
3 3 3
C ab ac acB
AB ACBC A
B C B C
n d d dnd d d
n n n n
= + = + +
+ +
Sendo nB e nC os pesos para os conjuntos B e C, e no exemplo nB = 1 e nC = 2. É importante
notar que no caso sem ponderações, o termo “dab” possui um peso 1/2 e os termos
envolvendo o conjunto C (dac1 e dac2) um peso 1/4. Quando utilizamos a ponderação por
tamanho dos conjuntos, o termo “dab” diminui o peso para 1/3 e os termos “dac1” e “dac2”
aumentam para 1/3 com relação ao caso anterior. Reconhece-se que já se esperava esse
resultado, visto que os conjuntos A e B possuem 1 amostra e o conjunto C, 2 amostras,
sendo assim os termos envolvendo C apresentam maior impacto sobre a distância
calculada.
Por fim, após calculadas as distâncias e agrupamentos, geramos o gráfico dendograma
como mostrado na Figura 13. Nesse exemplo temos 10 amostras diferentes que são
agrupadas inicialmente nos grupos A, B, C, D, E e F após a primeira interação. Em
seguida, as amostras procedem os agrupamentos por similaridade até formarem os
novos grupos A, BC, D e EF. Nas etapas seguintes são formados os grupos A, BC e DEF
primeiramente e depois A e BCDEF, sendo esses dois grupos finais unidos no grupo
ABCDEF. Um dendograma com ramos mais alargados e distantes (Figura 13a) mostra
baixa eficiência na separação dos grupos. Nesse caso, a maioria das amostras apresenta
um índice de similaridade próximo de 0,5 no primeiro agrupamento e os agrupamentos
seguintes se dão em índices ainda menores. Um dendograma com ramos mais estreitos
(Figura 13b) é mais desejável visto que demonstra boa diferenciação entre os grupos.
Nesse caso, a maioria dos grupos formados apresenta elevada similaridade visto que o
agrupamento se dá em índices maiores (FERREIRA, 2015).
48
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 13. Exemplos de dendogramas gerados por HCA.
1,0 0,75 0,5 0,25 0
A B
ABCDEF
BC
C
B
C
D
E
F
D
DEF E
EF
F
1,0 0,75 0,5 0,25 0
a
b
c
d
e
f
g
h
i
j
(a)
A
B
BC
ABCDEF
BCDEF
D
DEF E
EF
F
a
b
c
d
e
f
g
h
i
j
(b)
Fonte: FERREIRA, (2015).
Como conclusão, podemos afirmar que a análise exploratória de dados por análise
de componentes principais (PCA) e a análise hierárquica de agrupamentos (HCA)
são bastante úteis para a análise preliminar de dados brutos, onde é possível obter
informações que visem a identificação agrupamentos de amostras, a verificação de
amostras apresentam comportamento anômalo, a definição de variáveis que são mais
significativas e qual a correlação entre as diversas variáveis. Ambas as técnicas de análise
multivariada podem ser aplicadas de maneia independente e fornecer informações
complementares sobre um determinado conjunto de dados.
Visto que tanto o PCA como o HCA são utilizados para análises preliminares
de dados brutos, convém aprofundar seus conhecimentos um pouco mais em
HCA, já que no tópico anterior sugerimos uma leitura sobre PCA, agora também
fazemos o mesmo para HCA. Então, não deixe de acessar o seguinte conteúdo:
https://goo.gl/RTCgnr (HCA, 2018).
49
CAPÍTULO 2
Construção de modelos de calibração
Um dos principais objetivos na análise multivariada de dados é o de criar modelos
estatísticos capazes de investigar as relações entre as variáveis e estimar quantitativamente
uma determinada propriedade do sistema em estudo. Uma das metodologias mais
utilizadas para a construção de modelos de calibração é a chamada “soft modeling”,
uma quantidade consideravelmente elevada de medidas experimentais é realizada para
que o modelo empírico construído englobe grande parte das variáveis e fontes de erros
do sistema e possibilite a previsão de comportamento de uma determinada amostra
analisada posteriormente.
Para compreensão melhor da metodologia de calibração, tomemos um exemplo clássico
na indústria de alimentos: a determinação de sódio em produtos finais utilizando a
técnica de espectrometria de absorção atômica. Nesse caso queremos correlacionar a
resposta fornecida pelo instrumento (por exemplo, a absorbância) com a concentração
de sódio em uma determinada amostra. Essa relação não é absolutamente conhecida
pois depende do instrumento utilizado, das condições dele naquele determinado dia, de
fatores ambientais e outros, sendo então necessária a calibração do mesmo.
O processo de calibração consiste em analisar uma série de amostras de referência
(padrões) com concentrações conhecidas do elemento, de modo que a resposta
instrumental obtida possa ser correlacionada com a variação da concentração da espécie.
A partir disso, construímos um modelo de regressão (curva de calibração) que possa ser
adequadamente empregado na análise de amostras com concentração desconhecida de
sódio. A Figura 14 mostra um exemplo de um procedimento instrumental de análise
utilizando um método de calibração. Nesse caso, verificamos que a relação entre
absorbância (A) e concentração (CNa) é linear e que a expressão matemática que melhor
descreve o modelo de regressão é A = 0,05.CNa. Graficamente o ajuste é representado
pela curva em vermelho. Se para a análise de uma determinada amostra desconhecida,
o instrumento nos dá um valor de absorbância de 0,3, podemos utilizar o modelo de
regressão para calcular a concentração, sendo essa, portanto igual a 6 mg/L de sódio.
50
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 14. Exemplos de calibração via regressão linear para determinação de sódio.
Fonte: Ferreira, (2015).
É importante dizer que, na construção de um modelo matemático de calibração,
lançamos mão de dois conjuntos de dados. O primeiro contém as respostas
fornecidas pelo instrumento para uma série de amostras padrão analisadas (variável
independente), sendo esse o chamado conjunto de calibração. O segundo conjunto
está relacionado com alguma propriedade do sistema que se deseja saber (variável
dependente). Essa(s) propriedade(s) podem ser a concentração de uma espécie, o teor
de proteína de um alimento, seu teor de água etc. O objetivo da modelização é expressar
matematicamente o valor da propriedade desejada em função do que se é medido em
laboratório (FERREIRA, 2015).
Idealmente, as amostras de referência utilizadas no conjunto de calibração são
preparadas por mistura adequada de substâncias puras (padrões) de concentração
perfeitamente conhecida. Porém, na maioria dos casos, as amostras são bastante
complexas e difíceis de serem sintetizadas em laboratório de modo a traduzirem a real
composição naturaldelas. Nesse caso, um número grande de amostras é coletado e
analisado por um outro método de referência com o menor erro possível (idealmente
menor do que 5%). Isso é fundamental para um bom desempenho do método de
calibração ao estabelecer uma boa concordância entre os valores estimados por calibração
51
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
e os valores realmente mensurados por análise. Além disso, o conjunto de calibração
precisa ter um tamanho (nº de amostras) suficientemente alto para ser representativo
e possibilitar previsões futuras com maior precisão. Outro fator importante é a faixa
de variação de concentração que o modelo engloba. Suponhamos que em análises de
molhos prontos produzidos por uma indústria, o teor de sódio geralmente varie entre
480 e 720 mg para cada 100g do produto. Sendo assim, o conjunto de calibração deve
englobar amostras com concentração menores de 480 mg Na e maiores que 720 mg Na,
ainda que essas situações sejam atípicas. Esses tipos de amostras são importantes para
a construção do modelo, visto que ele deve capaz de detectar amostras anômalas e que
possam por exemplo indicar falhas no processo de produção.
Além disso, é desejável que as amostras estejam bem distribuídas ao longo de todo o
intervalo de concentração. Suponhamos que temos um conjunto de 50 amostras, sendo
que 42 delas se encontrem na faixa de 450 a 550 mg de Na e apenas 8 na faixa de 550
a 750 mg de Na. Nesse caso o modelo gerado irá prever com melhor precisão uma
amostra que se situe na faixa de menor concentração de sódio. Uma vez gerado o modelo,
devemos validá-lo, ou seja, verificar se o desempenho se encaixa adequadamente ao
que deveria ser aplicado em termos de capacidade de predição. O uso prolongado de
um determinado modelo de previsão deve ser cuidadosamente testado pois mudanças
instrumentais, materiais e de processo produtivo podem ocorrer esporadicamente,
afetando assim a capacidade do modelo.
Calibração univariada
Os modelos mais simples de calibração são obtidos por calibração univariada. Para melhor
exemplificar, retomemos o exemplo da determinação de cálcio em bebida láctea por
espectrometria de emissão atômica, onde os resultados foram descritos na Tabela 5. Nesse
exemplo, verificamos a relação linear da intensidade de luz emitida por uma amostra
analisada em função da concentração das espécies emitentes. Considerando apenas
os resultados para o comprimento de onda de 393 nm, podemos obter um gráfico de
intensidade de emissão (eixo y) contra concentração de Ca (eixo x), como mostrado na
Figura 15.
52
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 15. Gráfico de intensidade de emissão vs. concentração de cálcio para os dados da Tabela 5.
y = 976,69x + 312,77
R² = 0,9968
0
5000
10000
15000
20000
25000
30000
0 5 10 15 20 25 30
In
te
ns
id
ad
e
de
e
m
is
sã
o
Concentração de Ca (mg/L)
Fonte: Adaptado de Miller e Miller (2010).
A expressão matemática que relaciona os sinais de intensidade medidos (In) com a
concentração (Cn) para um conjunto de N amostras é chamada de curvas de calibração
e pode ser descrita por:
0 1 , 1, 2, 3, 4,n n nl b b C e onden N= + + = …
O termo (b0 + b1Cn) pode ser descrito como a intensidade de emissão estimada (Ȋn)
pelo modelo de ajuste da curva e a diferença entre as intensidades medida e estimada
(In- Ȋn) nos dá o resíduo (en). Quando aplicamos o modelo de regressão dos mínimos
quadrados, utilizamos a soma dos quadrados dos resíduos (SQres) a fim de minimizá-los
segundo:
2
1
N
res n
n
SQ e
=
=∑
Nesse caso, assume-se que as repetições de medidas da variável dependente
(intensidade de sinal) apresentam valores distribuídos ao longo da média e que não
há erro associado à variável independente (concentração). A SQres é minimizada
quando igualada a 0 e a derivação de sua equação gera um modelo linear como a
reta mostrada na Figura 13, os valores estimados de b0 e b1 (e podem ser obtidos
(FERREIRA, 2015). É importante considerar que as equações apresentadas acima
podem ser representadas em termos de matrizes e vetores como abordado no
capítulo sobre PCA, entretanto, não iremos utilizar essa abordagem no momento. O
modelo gerado nos fornece a equação: I = 976,69 C + 312,77. A Tabela 8 mostra as
intensidades de emissão medidas (In, vide Tabela 5), estimadas (Ȋn, segundo o modelo
linear proposto) e os resíduos (en). Note que ao realizarmos o ajuste pelos mínimos
quadrados, a soma de todos os resíduos é igual a 0.
53
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Tabela 8. Intensidades de sinal medidas, estimadas e resíduos associados.
Concentração de Ca
Intensidade de emissão
medida (I)
Intensidade de emissão
estimada (Ȋ)
Resíduo
(I - Ȋ)
1 1005 1289 -284
2 2030 2266 -236
5 5003 5196 -193
10 11070 10080 990
20 20100
19847 253
25 24200 24730 -530
Fonte: Adaptado de Miller e Miller (2010).
Um dos parâmetros desse ajuste linear é o coeficiente angular (ou inclinação) da reta,
também conhecida como sensibilidade da curva 1( )b , visto que nos dá a razão entre a
variação da mudança da variável dependente, ou seja, a intensidade de emissão, em
relação a uma variação da variável independente, ou seja, a concentração da espécie.
Para o nosso exemplo, a sensibilidade é dada por:
1
ISEN b
C
∆
= =
∆
É importante considerar que quanto maior a sensibilidade, maior será a mudança da
intensidade de sinal frente a uma pequena variação na concentração. Analogamente, a
baixa sensibilidade indica uma pequena variação de I quando variamos a concentração.
No nosso exemplo, o valor de sensibilidade calculado foi de 976,68 L/mg. O coeficiente
linear (ou intercepto) é outro parâmetro da reta e indica o deslocamento da curva
1( )b
com relação ao zero.
Idealmente, esperamos que o sinal de emissão medido seja nulo quando a concentração
da espécie é igual a zero, porém muitos são os casos em que a presença de interferentes
ou desvios instrumentais ocorram, gerando uma determinada intensidade de sinal
mesmo na ausência da espécie. No nosso exemplo, o valor de intercepto calculado foi de
312,77. Analisando a Figura 13, notamos uma alta correlação entre as variáveis, sendo o
coeficiente de correlação (R2) igual a 0,9968. Quanto mais próximo da unidade, melhor
o ajuste e quanto mais próximo de zero, menor a correlação entre as variáveis.
Calibração multivariada: regressão linear
múltipla (MRL) e regressão por componentes
principais (PCR)
Como vimos anteriormente um dos métodos de calibração mais utilizados são os
métodos univariados (onde para cada amostra de calibração, tem-se uma medida
54
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
instrumental), contudo apesar desses métodos serem relativamente de fácil aplicação,
validação e se encontrarem em maior número descritos na literatura, sua aplicação é
limitada a ocorrências em que a grandeza é medida de modo direto no sistema (exemplo:
absorbância de um composto orgânico), sendo livre de outras substâncias ou elementos
que possam interferir entre sua relação linear com a propriedade de interesse.
Uma das maiores áreas de estudo da quimiometria relacionadas à química analítica
inclui a calibração multivariada. A análise de dados por meio da calibração multivariada
permite o estudo de sistemas com várias espécies presentes. Calibração pode ser
entendida como a relação quantitativa entre a resposta do aparelho e a concentração
do analito que se quer determinar (HOPKE, 2003).
Segundo Geladi (2003), as indústrias precisam de quatro fatores principais: respostas
rápidas, análises não destrutivas, e a combinação entre ferramentas quimiométricas e
técnicas espectroscópicas, principalmente em processos quimiométricos abrangendo
calibração multivariada, é considerado o ideal para acompanhamento assim como, do
controle de qualidade de produtos.
Os modelos clássicos de quantificação não são considerados suficientes para sistemas
complexos, devido à quantidadede dados que podem ser obtidos a partir de um
espectro. Para que estes modelos apresentem bons resultados é necessário que sejam
utilizadas apenas amostras simples (compostos puros ou misturas binárias) e que a
banda espectral selecionada não sofra outra influência, a não ser do próprio analito,
garantindo assim, uma relação linear entre a concentração e o sinal. Deste modo, a
utilização de modelos de calibração multivariada para a obtenção de dados quantitativos
apresenta diversas de vantagens, pois podem ser empregados em sistemas complexos
proporcionando bons resultados (BRO, 2003).
A disposição do conjunto de dados em análises multivariadas é normalmente apresentada
em forma de matriz, ou seja, teremos as linhas desta matriz que representam o conjunto
das amostras e as colunas, que representam o conjunto das variáveis medidas. A matriz
é representada como um gráfico no espaço multidimensional, no qual cada variável
medida está relacionada a uma dimensão do espaço e cada amostra corresponde a um
ponto no espaço. Deste modo, o processo geral de calibração é constituído por três
etapas: calibração, validação e previsão:
» Na etapa de calibração é estabelecido um modelo matemático, resultante
da relação da matriz de dados das variáveis medidas (matriz X, por
exemplo, espectros no infravermelho), com a matriz de dados das
características de interesse estabelecidos por meio de um método de
referência (matriz Y).
55
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
» Na etapa de validação, o modelo é analisado empregando-se ferramentas
estatísticas de diagnóstico.
» Em seguida, aplica-se o modelo validado na previsão de propriedades das
amostras desconhecidas, que possuam a mesma natureza das amostras
do conjunto de calibração, vindo do seu sinal espectral.
Nos métodos de Calibração Multivariada teremos duas ou mais respostas instrumentais
relacionadas com a propriedade de interesse. A grande vantagem desses métodos é que
permitem análises na presença de interferentes, no entanto, estes precisam também
estar presentes nas amostras de calibração. Diversos modelos de calibração multivariada
vêm sendo empregados, como: Regressão Linear Múltipla (MLR), Regressão por
Componentes Principais (PCR) e Regressão por Mínimos Quadrados Parciais (PLS).
Tais modelos vem apresentando ótimos resultados, com ampla aplicação em áreas
diversas. Apesar disso, sua aceitação e implementação ainda sofre restrições em alguns
setores devido às exigências de validação (exemplo: áreas farmacêuticas e médicas). Essa
validação é realizada por figuras de mérito, que são figuras que asseguram que o modelo
multivariado indicado é confiável e atende às especificações impostas pela indústria e
órgãos de fiscalização nacionais e internacionais como: United States Pharmacopoeia
(USP), International Conference on Harmonisation’s (ICH), American Society for
Testing and Materials (ASTM), Instituto Nacional de Metrologia, Normalização e
Qualidade Industrial (INMETRO), Agência Nacional de Vigilância Sanitária (ANVISA),
entre outros.
Como lido anteriormente, uma diversidade de métodos de regressão podem ser utilizados
em química analítica para a construção de modelos de calibração multivariada, dentre
eles, chamaremos sua atenção para os métodos de primeira ordem mais empregados:
Regressão Linear Múltipla (MLR, do inglês, Multiple Linear Regression) e Regressão
por Componentes Principais (PCR, do inglês, Principal Components Regression).
Regressão Linear Múltipla (MLR)
O modelo mais simples em calibração multivariada consiste na resolução de um sistema
de equações lineares em uma regressão linear múltipla (MLR), contudo, o MLR possui
dois problemas que limitam sua aplicação (BRERETON, 2000):
1. O número de amostras deve ser igual ou superior ao número de variáveis,
já que o modelo consiste na resolução de equações lineares simultâneas.
Quando o número de variáveis é superior ao número de amostras, ou
vice-versa, o sistema de equações a ser resolvido torna-se indeterminado.
56
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
2. Na resolução por mínimos quadrados a matriz (XTX), não possui inversa,
pois sua correlação entre as variáveis é alta.
Na construção de um modelo MLR cada variável dependente, isto é cada vetor Ycal da
matriz, é expressa como uma combinação linear das variáveis independentes da matriz
Xcal e um vetor, bMLR, que contém os coeficientes de regressão, dado pela seguinte
equação:
= +cal cal MLRY X b e
O vetor bMLR dos coeficientes lineares é estimado, na etapa de calibração, empregando
o critério dos “Mínimos Quadrados” que tornar mínimo o vetor dos resíduos (e = Ycal –
XcalbMLR) e pode ser calculado por:
( ) 1−= T TMLR cal cal cal calb X X X X Y
Onde: os índices sobrescritos -1 e T representam a inversão e transposição de uma
matriz ou vetor, respectivamente.
Para a previsão do valor da concentração ou do parâmetro de interesse em uma amostra
não conhecida, podemos estimar que:
desc Desc MLRY X b e= +
Regressão por componentes principais (PCR)
Buscando solucionar os empecilhos exibidos pela MLR, surgiu como alternativa a
regressão por componentes principais (PCR). Neste método de regressão utiliza-se a
análise de componentes principais (PCA, do inglês, Principal Component Analysis) como
a técnica de ortogonalização baseada em mudança de base vetorial. Este procedimento
resolve os dois principais problemas da MLR citados anteriormente, uma vez que a
PCA pode ser empregada para a redução do número original de variáveis sem acarretar
na perda significativa de informação resolvendo, assim, o problema de existência de
alta colinearidade entre as colunas de X e a necessidade de um número excessivo de
amostras para a construção do modelo por MLR (OTTO, 2007).
O método da regressão dos componentes principais usa as variações espectrais para
realizar o cálculo das equações de calibração. Considerando que as variações mais
significativas no conjunto de calibração são as mudanças no espectro em relação às
diferentes concentrações das amostras, podemos então calcular um conjunto que simule
as mudanças nas absorbâncias em todo o espectro. Essas variações são denominadas de
autovetores e as constantes utilizadas para multiplicar os espectros são denominadas
57
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
de scores. Para calcular os autovetores do espectro utiliza-se o método de análise dos
componentes principais (PCA, Principal Components Analysis).
A PCA consiste de um método matemático de tratamento dos dados que envolve
cálculos de álgebra linear com os seguintes objetivos: 1) visualizar e simplificar a
estrutura complexa dos dados, 2) modelar os dados, 3) empregar seleção de variáveis e
encontrar similaridades entre amostras, 4) detectar amostras anômalas e 5) reduzir a
dimensionalidade dos dados sem que haja perda da informação relevante.
Na PCA a matriz de dados original X de dimensão mxp é decomposta em uma soma de
matrizes as quais são produto de duas matrizes (ou vetores), a matriz T de scores e a
matriz transposta Pt dos loadings, além da matriz de erro E – correspondente a parte
não modelada da matriz X (equações abaixo).
1 2 3
1 1 2 2 3 3
n
t t t t
n n
X M M M M E
X T P T P T P T P E
= + + +…+ +
= + + +…+ +
Assim sendo, a primeira componente principal (PC1), é definida na direção de máxima
variância (ou dispersão dos dados) de um conjunto de dados, enquanto a segunda
componente principal (PC2) constitui uma descrição da máxima variância no espaço
da primeira componente principal, e assim por diante. Ou seja, a variância total é
explicada pelas primeiras componentes principais descritas em ordem decrescente.
Cada componente principal é responsável por uma parcela de contribuição ou uma
fração de variância dos dados, estando em um sistema de coordenadas ortogonais entre
si, não existindo correlação entre elas. Dessa forma, os scores expressam as coordenadas
das amostras nos novos eixos, eos loadings expressam o peso ou a contribuição de cada
variável original relacionada a cada componente principal (BERNADINO, 2011).
Caro estudante, entre os métodos de obtenção de scores e loadings também
podemos mencionar a decomposição por valores singulares (SVD, do inglês
Singular Value Decomposition) e o algoritmo NIPALS (do inglês, Nonlinear
Iterative Partial Least Squares). Para aprofundar seus conhecimentos nesses
assuntos, sugerimos que consultem os seguintes links, para SVD < https://goo.
gl/KtLtmR > (SVD, 2018) e para NIPALS < https://goo.gl/dy9yUG > (NIPALS, 2018).
Uma das desvantagens do PCR, acontece quando o produto de interesse tem um
sinal muito fraco (quanto analisado), e este sinal não influencia significativamente na
composição das primeiras componentes principais, fazendo-se necessário o aumento
do número de componentes na construção do modelo.
58
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Vale ressaltar que, é de extrema importância a escolha do número de variáveis a serem
incluídas no modelo, com o objetivo de reduzir perdas de informações significativas.
Segundo Roggo et al. (2007), cada componente apresenta uma fração da variação
total contida nos dados, tornando assim, possível a determinação do número ótimo de
componentes a serem compreendidos na regressão.
59
CAPÍTULO 3
Modelos de classificação e
reconhecimento de padrões
É notável que os seres humanos conseguem distinguir com facilidade as diferenças
e semelhanças entre os objetos, como formas ou cores. Contudo, essa característica
fica limitada quanto maior for a quantidade de objetos a serem considerados.
Semelhante a isso, quando tratamos de dados químicos, com um número alto de
conjunto de dados, as técnicas de Reconhecimento de Padrão (RP) utilizam o mesmo
conceito, procurando encontrar as similaridades e dissimilaridades no conjunto de
amostras que foram submetidas a algum estudo (GONZÁLEZ, 2007). As técnicas de
Reconhecimento de Padrão RP são divididas em supervisionada (estudaremos neste
capítulo) e não supervisionada (HCA, análise por agrupamento hierárquico e PCA,
análise de componentes principais, como visto em capítulos anteriores), de acordo com
a utilização a priori de informações sobre as amostras que constituem o conjunto para
construção do modelo. HCA e PCA admitem a visualização gráfica de todo o conjunto
de dados, mesmo se o número de amostras e variáveis for elevado. A utilização desses
algoritmos objetiva principalmente o aumento da compreensão do conjunto de dados,
analisando a presença/ausência de agrupamentos naturais entre as amostras. Ambos
podem ser classificados como: exploratórios ou não supervisionados, pois nenhuma
informação com relação à identidade das amostras é considerada.
As técnicas de reconhecimento de padrões são usadas na identificação das diferenças
e semelhanças em distintas amostras, comparando-as entre si, fundamentando-se nas
suposições abaixo:
» amostras que possuem o mesmo tipo são semelhantes;
» existem diferenças entre distintos tipos de amostras;
» as semelhanças e diferenças podem ser percebidas nas medidas
empregadas na caracterização das amostras.
As técnicas de classificação são divididas em três categorias, segundo as suposições
empregadas para a construção dos modelos (MASSART et al., 1997):
» Técnicas paramétricas: paramétricas (neste caso, as variáveis possuem
uma distribuição normal, satisfazendo as condições para o número
de graus de liberdade e a homogeneidade da matriz de variância
60
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
(covariância)) e não paramétricas (neste caso, não consideram a
informação da distribuição da população como nas paramétricas).
» Técnicas discriminantes: neste caso, as amostras pertencem a apenas uma
classe, estando incluídas nestas, as modelativas que podem pertencer a
nenhuma classe, uma classe ou várias classes ao mesmo tempo.
» Técnicas probabilísticas: fazem a estimativa do grau de confiança da
classificação, incluídas nestas, temos as determinísticas, que não estimam
um grau de certeza de uma classificação.
Técnicas de reconhecimento de padrões supervisionadas podem ser utilizadas em uma
ampla variedade de dados químicos para diferentes fins, como: identificação de perfis,
impressões digitais, detecção de falsificação, avaliação da qualidade dos alimentos e
interpretação de dados (LAVINE, 2000).
São encontrados diversos métodos de Reconhecimento de Padrões Supervisionado
destacando a Modelagem Independente e Flexível por Analogia de Classes (SIMCA,
do inglês Soft Independent Modeling of Class Analogy) e o Método do K-ésimo vizinho
mais próximo (KNN, do inglês Kth Nearest Neighbor).
Método da regra dos K-vizinhos mais próximo
(KNN)
O KNN é o algoritmo de aprendizado com fundamentos em instâncias mais conhecido e
com ampla utilização. Esse aprendizado é fundamentado na aplicação direta do conceito
de similaridade. Isso significa dizer que, uma função de similaridade comunica ao
algoritmo o quão próximas duas instâncias estão. Isso pode parecer simples, no entanto
há uma enorme complexidade na escolha da função de similaridade, notadamente
em situações que algumas das propriedades são peculiares. Como exemplo temos, a
classificação de pessoas e uma das propriedades a ser analisada fosse a cor do cabelo,
não é evidente o que a distância significaria nesse contexto.
Na determinação da classificação de um elemento que não pertença ao conjunto de
treinamento, o classificador KNN procura K elementos do conjunto de treinamento
que estejam mais próximos deste elemento que não é conhecido, isto é, que possuam
a menor distância. Estes K elementos são denominados de K-vizinhos mais próximos.
As classes desses K vizinhos é então analisada e a classe mais frequente será atribuída
à classe do elemento não conhecido (Figura 16).
61
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 16. K-ésimos vizinhos mais próximos da amostra teste.
Fonte: Adaptado de https://goo.gl/HYdx4k (KNN, 2018).
O exemplo da figura 16 acima apresenta como ocorre a validação desse modelo: novas
amostras podem ser classificadas do mesmo modo. A classe de uma amostra teste é
classificada baseada na sua distância às K amostras mais próximas do conjunto de
testes. Ela será colocada na classe mais votada.
Abaixo encontram-se as métricas comumente utilizada no cálculo de distância entre
dois pontos.
Seja X= (x1, x2, ..., xn) e Y= (y1, y2, ... , yn) dois pontos do n ℜn.
A distância Euclidiana entre X e Y é dada da seguinte maneira:
( ) ( ) ( ) ( )2 2 21 1 2 2, = − + − +…+ −n nd x y x y x y x y
A distância Manhattan entre X e Y é dada da seguinte maneira:
( ) 1 1 2 2, = − + − +…+ −n nd x y x y x y x y
A distância Minkowski entre X e Y é dada da seguinte maneira:
( ) ( )
1
1 1 2 2, , = − + − +…+ − ∈
q q q q
n nd x y x y x y x y onde q N
Esta distância é a generalização das duas distâncias anteriores: quando q = 1, esta
distância pode ser representada pela distância de Manhattan e quando q = 2, pela
distância Euclidiana.
KNN é um classificador com apenas um parâmetro livre (o número de K-vizinhos),
controlado pelo usuário visando a obtenção de uma melhor classificação. De acordo
com Matos (2008), uma das vantagens conhecidas do classificador KNN é que, quando
62
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
o conjunto de testes é considerado grande ou representativo, ele cria uma fronteira de
decisão que se molda à forma de distribuição dos dados de treinamento, permitindo a
obtenção de taxas de acertos satisfatórias.
Como exemplo de classificação KNN, podemos observar a figura 17 abaixo, tem-se
duas propriedades, três classes e dois pontos não conhecidos 1 e 2. Faz-se necessário a
classificação destes dois pontos por meio 7 vizinhos mais próximos.
Avaliando a classe predominante dos 7 vizinhos mais próximos, o ponto desconhecido
1 será classificado como um ponto pertencente a classe B e o ponto desconhecido2
como um ponto pertencente a classe A. Este processo de classificação por ser cansativo,
apresenta uma variação mais rápida deste algoritmo, em que ocorre a seleção de
pontos que estão dentro de uma hiper-esfera de raio R (escolhido pelo usuário), sendo
a classe predominante dentro desta hiper-esfera, a classe do ponto desconhecido. A
desvantagem deste processo é que pode haver hiper-esfera sem ponto nenhum. A figura
17 mostra como seriam o processo da hiper-esfera.
Figura 17. Classificação pelo método KNN.
Fonte: Gnecco et al. (2005).
A vantagem desta técnica de aprendizado é que em vez de ser feita a estimação da função
objetivo uma única vez para todo o espaço de exemplos, ela pode estimá-la localmente
e de modo diferente para cada novo caso a ser classificado. Outra vantagem consiste
na facilidade de testes, considerados simples e rápidos, já que o treinamento consiste
somente no armazenamento das instâncias. Tais técnicas são adequadas a domínios
numéricos, nos quais o conceito de distância tem um sentido mais concreto.
63
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 18. Classificação pelo método da regra dos KNN.
Fonte: Gnecco et al. (2005).
Assim, podemos concluir que:
1. Os vizinhos dos pontos não conhecidos 1 e 2 são os pontos pertencentes
ao círculo centrado no ponto desconhecido 1 e 2, respectivamente.
2. O ponto não conhecido 1 será classificado como um ponto que pertence
a classe B, devido a existência de 5 pontos incluídos ou parcialmente
incluídos no círculo centrado no ponto não conhecido 1.
3. O ponto não conhecido 2 será classificado como um ponto que pertence a
classe A, devido a existência de apenas um ponto da classe A incluído no
círculo centrado no ponto não conhecido 2.
Modelagem independente flexível por
analogias de classe (SIMCA)
Este método foi utilizado pela primeira vez por Svante Wold (1974), no qual se admiti
que os valores medidos para um grupo de amostras semelhantes tenderão para
uma distribuição uniforme e modelável. Aumentando o número de amostras, essa
distribuição deverá ficar cada vez mais uniforme. As características principais deste
método são:
» cada classe do conjunto de testes deve ser submetida a uma análise de
componentes principais;
64
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
» determinação do número de PCs necessário para descrição de cada classe.
» Construção de uma hipercaixa que envolve as amostras de cada classe,
no qual as limitações das mesmas são definidas com um dado nível
de confiança e uma vez obtidas as fronteiras de cada classe, faz-se a
determinação se há superposição entre elas.
» A capacidade de discriminação dos modelos SIMCA em diferenciar
as classes é dada pela “distância entre classes” e pelos “resíduos entre
classes”.
» A atribuição de uma amostra teste a uma determinada classe é
fundamentada na projeção dela, no espaço dos escores e sua distância das
fronteiras da classe em específico. Isto é repetido para todas as classes e no
final, se os modelos não tiverem capacidade de discriminação suficiente,
a amostra pode ser considerada membro de mais de uma classe. Pode
ocorrer também da amostra ser anômala em relação ao conjunto de
testes, desse modo, não pertencendo a nenhuma das classes.
A Modelagem Independente e Flexível por Analogia de Classe (SIMCA) é a mais
empregada dos métodos de modelagem de classe. Em SIMCA, cada categoria é modelada
de forma independente utilizando PCA e pode ser descrita por um número distinto
de componentes principais (PCs). O número de PCs para cada classe no conjunto de
testes pode ser determinado por validação cruzada. Deste modo, um número suficiente
de componentes principais é mantido, como sendo o responsável pela maior parte da
variação dentro de cada classe, ainda que assegurando uma elevada relação sinal-ruído
sem inclusão no modelo de classe das chamadas componentes principais secundárias
ou que contenham apenas ruído (LAVINE, 2000).
Portanto, o SIMCA é um método quimiométrico probabilístico e modelativo baseando-
se na análise por componentes principais, para cada classe de amostras, cria-se um
modelo PCA separadamente, são construídos envelopes em torno de cada classe de
amostra de acordo com as componentes principais que melhor agrupam as classes
(CAMO,2008), como mostrado na Figura 19 abaixo.
65
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 19. Modelo SIMCA de classificação.
Fonte: Adaptado de LIU; HE; SUN, (2009).
O agrupamento das classes é realizado por meio do cálculo da distância da amostra ao
modelo, Si (variância residual para cada amostra de uma dada classe) e S0 (variância
residual total), conforme as equações abaixo (CAMO, 2008; INÁCIO, 2010):
( )
( )( )
2
1
2
1 1
0 1
=
= =
=
−
=
− − −
∑
∑ ∑
P
Iji
i
N P
Iji j
e
S
P A
e
S
N A P A
Onde:
N = número de espectros (ou amostras) usados no modelo.
A = número de componentes principais.
P = número de variáveis (ou comprimentos de onda).
i e j = índices das amostras e variáveis, respectivamente.
Após o cálculo das variâncias residuais, faz-se a aplicação do teste F (Fischer) para
verificar a posição da amostra no modelo, conforme a seguinte equação:
( )
2
2
0
/ 1= − −iSF N A
S xN
Este valor deve ser comparado com um valor crítico de F (tabelado), relacionado com um
determinado nível de probabilidade e graus de liberdade. O julgamento da classificação
das amostras é realizado do seguinte modo:
66
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
1. Nível de probabilidade (0,1 – 1,0): amostra pertence ao modelo.
2. Nível de probabilidade (< 0,05): amostra não pertence ao modelo.
3. Nível de probabilidade (0,05 – 0,1): amostra “outliers”.
O SIMCA apresenta os resultados no formato de tabela, são apresentadas com asteriscos,
as amostras que são classificadas e a que classe pertencem. Na construção do modelo
podem ocorrer dois tipos de erros:
1. Erro Tipo I: amostra pertence a mais de uma classe;
2. Erro Tipo II: amostra não pertence a classes conhecidas (“outliers”).
Caro estudante, saiba que os primeiros estudos utilizando o reconhecimento de
padrões foram propostos no final da década de 1970. Amostras de vinho da uva
Pinot Noir, provenientes da França e dos Estados Unidos, foram diferenciadas
por composição química elementar e da análise de algumas substâncias
orgânicas. Com isso, os resultados analíticos foram avaliados utilizando-se
ferramentas quimiométricas de reconhecimento de padrões, corroborando
com a combinação entre a química analítica e a quimiometria, viabilizando a
identificação da origem geográfica das amostras de vinho.
Isso envolve a autenticação de alimentos que é uma área de pesquisa já
estabelecida, que objetiva o desenvolvimento dos procedimentos no controle e
segurança da qualidade dos produtos agroindustriais, a partir das informações
sobre composição química. As questões relacionadas com a autenticação de
alimentos têm despertado amplo interesse devido aos problemas de adulteração,
contaminação e utilização indevida de organismos geneticamente modificados.
Adicionalmente, faz-se necessário a obtenção de informações confiáveis a
respeito da composição química nos rótulos dos produtos industrializados,
garantindo sua qualidade.
Alguns estudos encontrados na literatura analisam produtos tipicamente
brasileiros, como cachaça (CARDOSO et al., 2004) e café (FERNANDES et al.,
2005). Dessa forma, o desenvolvimento de novas metodologias analíticas e o
aprimoramento de ferramentas estatísticas para tratamento de quantidades
crescentes de dados, consequentemente, favorecem o desempenho do químico
na área de reconhecimento de padrões.
67
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Caro estudante, caso você queira ter uma abordagem mais aprofundada sobre as
bases teóricas desse assunto que não foram abordadas aqui, consulte o seguinte
link: < https://goo.gl/PY9p4t> (MÉTODOS DE CLASSIFICAÇÃO, 2018).
68UNIDADE IIIPLANEJAMENTO
EXPERIMENTAL
O aumento da necessidade da otimização de produtos e processos, faz com que exista
a minimização de custos e tempos, e a maximização de rendimentos, produtividades
e qualidade de produtos, levando os profissionais de distintas formações a buscarem
metodologias sistemáticas de planejamento de experimentos. Entretanto, para que a
metodologia usada em planejamento alcance os objetivos esperados, faz-se necessário
uma integração entre o processo, a estatística e o bom senso (Figura 20).
Figura 20. Interação entre o conhecimento do processo, a estatística e o bom senso.
Processo Estatística
Bom Senso
]Fonte: Adaptado de Rodrigues e Lemma, (2009).
Estudos recentes mostram que o modo científico apropriado para realizar um
experimento seja o de variar um fator por vez, permanecendo fixos os outros fatores,
não é necessariamente o ideal. Isto porque esta metodologia requer a realização de
muitos experimentos, e isso não possibilita identificar se o efeito pode ser atribuído a
um ou outro fator que foi mudado ou a uma combinação particular dos conjuntos de
fatores considerados constantes. Por conseguinte, para ter confiança nos resultados
obtidos, acrescentam-se mais experimentos. Deste modo, esta metodologia não pode
ser utilizada nesta pesquisa que necessita avaliar o efeito de muitos parâmetros e
variáveis, o que exigiria uma quantidade muito elevada de experimentos.
O planejamento experimental (também denominado de delineamento experimental),
pode ser representado por um conjunto de ensaios estabelecido com critérios científicos
e estatísticos, visando avaliar a determinação da influência de diversas variáveis nos
69
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
resultados de um determinado sistema (BUTTON, 2005). Assim, a determinação do
número ótimo de experimentos conduz à obtenção de resultados com um dado grau
de confiança, sendo esse objetivo principal dividido em outros objetivos específicos de
acordo com o propósito dos ensaios:
» determinação das variáveis que mais influenciam nos resultados;
» atribuição de valores às variáveis influentes buscando a otimizar dos
resultados;
» atribuição de valores às variáveis influentes buscando a minimização da
variabilidade dos resultados;
» atribuição dos valores às variáveis influentes buscando a minimização da
influência de variáveis incontroláveis.
O emprego dos métodos estatísticos de planejamento experimental permite entre
outras vantagens:
» diminuir o número de ensaios sem prejudicar a qualidade da informação;
» o estudo ao mesmo tempo de várias variáveis, separando seus efeitos;
» a determinação da confiabilidade dos resultados;
» a realização da pesquisa em etapas, com acréscimo de novos ensaios
quando necessário;
» a seleção das variáveis que influenciam em um dado processo que possui
número reduzido de ensaios;
» o processo estudado pode ser representado por expressões matemáticas
e suas conclusões a partir de resultados qualitativos.
Com isso, é extremamente relevante ressaltar que o planejamento experimental é um
instrumento de engenharia importantíssimo para melhoria de processos já existentes,
assim como no desenvolvimento de novos processos. A utilização dessas técnicas de
modo adequado no desenvolvimento do processo permite: uma produção melhorada,
uma redução da variabilidade de resultados, assim como, uma redução nos tempos de
análise e nos custos envolvidos.
O planejamento experimental sugere o estudo de variáveis por meio de análise
multivariada. Tal metodologia permite não só identificar as variáveis que influenciam
positivamente ou negativamente as respostas desejadas, assim como, na influência
70
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
exercida pela interação entre elas, permitindo a otimização do sistema ou processo sob
análise. A análise univariada não permite verificação das interações entre variáveis,
uma vez que estas são estudadas uma de cada vez (RODRIGUES; LEMMA, 2015).
O planejamento experimental deve ser fundamentado em uma metodologia estatística
a fim de que os resultados possam ser avaliados por meio de métodos estatísticos,
levando assim a conclusões objetivas. Para a definição dos ensaios em um planejamento
experimental, podemos citar três técnicas fundamentais:
1. Réplicas: consiste na repetição de um ensaio sob condições
predeterminadas, para obtenção da estimativa do erro experimental e
como esse erro influência nos resultados dos ensaios e ainda, se esses
resultados são diferentes estatisticamente. Também é possível, verificar a
influência de uma dada variável sobre o comportamento de um processo,
quando a comparação é feita pela média das amostras.
2. Aleatorização (ou randomização): consiste na sequência dos ensaios
aleatória, sendo a seleção dos materiais utilizados nesses ensaios também
aleatória. Ao fazer uso de uma sequência aleatória (por exemplo: 8, 5, 9,
1, 12, 3, 7, 4 e 11) os erros experimentais por causa de alguma variável
não controlável seriam distribuídos ao longo de todo o procedimento,
aleatorizando-o e permitindo sua análise estatística.
3. Blocos: consiste na realização dos experimentos com precisão elevada,
com redução da influência de variáveis não controláveis. Um bloco é
uma parte do material experimental que possui como atributo o fato
de ser mais homogêneo que o conjunto completo do material avaliado.
O uso de blocos abrange comparações entre as condições de interesse
na experimentação dentro de cada bloco. Na análise com blocos, a
aleatorização é limitada à sequência de ensaios interna dos blocos e não
ao conjunto total de ensaios.
Caro estudante, o avanço de um planejamento de experimentos dependerá
na maior parte, de como este é estruturado e como será realizado, assim como
a compreensão dos seus objetivos antes de qualquer ação para executá-lo.
Montgomery (2012) relatou um roteiro para elaboração de um planejamento de
experimentos, composto pelas seguintes etapas utilizadas em estudos atuais:
1. Identificação e definição do problema: depende na maior parte, da
experiência já adquirida no estudo de processos análogos;
71
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
2. Seleção dos fatores e dos níveis: é importante verificar como essas
variáveis serão controladas nos níveis escolhidos e como eles serão
medidos. Por exemplo, quando se deseja averiguar a influência de
uma variável específica, deve haver a redução do número de níveis,
além da manutenção das outras variáveis influentes em níveis tão
constantes quanto possível;
3. Seleção da variável resposta: o critério para essa escolha é de que o
erro experimental de medida da variável de resposta seja mínimo,
admitindo a análise estatística dos dados, com um número mínimo
de réplicas;
4. Seleção do planejamento experimental: a seleção do planejamento
envolve o tamanho da amostra (número de repetições), a sequência de
execução dos ensaios, necessidade de aleatorização ou do emprego
de blocos.
5. Realização do experimento: é de extrema importância monitorar e
controlar o processo, para assegurar que tudo esteja sendo realizado
segundo o planejamento estabelecido e para que exista a validade
experimental dele.
6. Análise dos resultados: faz-se uso de métodos estatísticos, buscando
conclusões objetivas. É importante compreender que, não é possível
afirmar se uma dada variável apresenta ou não um dado efeito, esses
métodos garantem apenas a confiabilidade e a validade dos resultados,
de maneira que se possa fazer a determinação do erro associado nas
conclusões.
7. Conclusões: admitirão que decisões sejam adotadas a respeito do
processo avaliado em estudo. Uma documentação com o uso de
gráficos e tabelas permite que se exibam os resultados obtidos, a
análise efetuada, assim como, futuras repetições da metodologia
empregada, caso necessite.
72
CAPÍTULO 1
Planejamento fatorial completo
Para executar um planejamento fatorial faz-senecessário em primeiro lugar determinar
os níveis em que cada fator será analisado, isto significa dizer que, haverá uma seleção
dos valores dos fatores que serão empregados. Em um planejamento fatorial faz-se
necessário a execução de experimentos para todas as possíveis combinações dos níveis
dos fatores. Cada experimento, no qual o sistema é submetido, é considerado um ensaio
experimental. Por exemplo, possuindo 4 níveis num fator e 3 no outro, serão necessários
4x3 = 12 ensaios distintos, e o planejamento é denominado de fatorial 4x3. Geralmente,
se houver n1 níveis do fator 1, n2 do fator 2, ..., e nk do fator k, o planejamento será
um fatorial n1x n2x ...xnk de experimentos. Este é considerado o número mínimo
para que se realize um planejamento fatorial completo. A repetição dos ensaios pode
ser realizada, objetivando a obtenção de uma estimativa do erro experimental, o que
consequentemente aumenta o número total de experimentos.
Havendo k fatores, ou seja, k variáveis controladas pelo experimentador, o planejamento
de dois níveis irá requerer a realização de 2x2x...x2 = 2k ensaios distintos, sendo
denominado assim de planejamento fatorial 2k (BARROS NETO, SCARMÍNIO, BRUNS,
2010).
A Figura 21 apresenta um dado número de fatores F1, F2,...Fk, atuando sobre o sistema
estudado, produzindo as respostas R1,R2,...Rk. O sistema é representado por uma função
não conhecida que atua sobre as variáveis de entrada (os fatores) e como saída produz
às respostas.
Figura 21. Representação de um sistema ligando fatores às respostas.
Sistema
F
1
F
2
F
k
...
R
1
R
2
R
k
...
Fonte: Adaptado de Barros Neto; Scarminio; Bruns, (2010).
73
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
Caro estudante, abaixo é apesentado algumas definições importantes em
planejamento de experimentos, caso você ainda tenha dúvidas:
» Fatores ou variáveis independentes: são condições que podem sofrer
variações no sistema, como, a concentração de reagentes, força iônica,
pH, temperatura, pressão, entre outros.
» Níveis: é a faixa de variação que um fator poderá sofrer.
» Resposta ou variável dependente: é a variável de interesse e que sofre
a influência dos diferentes fatores ou variáveis independentes.
A seguir é apresentado um exemplo para ilustrar a execução e a avaliação dos resultados
de um planejamento fatorial completo. A partir deste exemplo, serão apresentados
alguns conceitos fundamentais que depois poderão ser utilizados em planejamentos
envolvendo um número de fatores qualquer.
Planejamento fatorial 22
Exemplo: estudar os efeitos do aumento da temperatura e da mudança de catalisador
sobre o rendimento de uma reação, mostrando como realizar um planejamento fatorial
22 e como avaliar os resultados gerados.
Os níveis escolhidos foram: 40 ºC e 60 ºC para a temperatura, e A e B para o catalisador.
Para realizar o planejamento 22, devemos realizar ensaios e registrar as respostas
observadas (os rendimentos, neste caso) em todas as quatro possíveis combinações
dos níveis escolhidos: (40°C, A), (40°C, B), (60°C, A) e (60°C, B). A lista dessas
combinações, é apresentada na Tabela 9, juntamente com os rendimentos alcançados
nos experimentos. Note que todos os ensaios foram realizados em duplicata, produzindo
no total oito respostas. Com isto, podemos fazer a estimativa do erro experimental de
uma resposta em particular. A extensão desse erro é importante para decidirmos se
existem ou não efeitos significativos que possamos atribuir à ação dos fatores.
Cálculos dos efeitos
Observando a Tabela 9, quando usamos o catalisador A e aumentamos a temperatura
de 40°C para 60°C (ensaios 1 e 2), o rendimento médio aumenta de 59% para 90%,
ou seja, um aumento de 31%. Quando o catalisador é do tipo B (ensaios 3 e 4), o
rendimento aumenta apenas 68 - 54 =14%. Isso mostra que o efeito da temperatura,
isto é, o que acontece com o rendimento da reação quando elevamos a temperatura de
74
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
40°C para 60°C, depende do nível em que o catalisador está. O efeito do catalisador, por
sua vez, também depende do nível da temperatura. A 40°C (ensaios 1 e 3) a mudança
de catalisador diminui o rendimento médio em 5%. A 60°C (ensaios 2 e 4), a redução
passa a ser de 22%. Quando o efeito de uma variável depende do nível de outra, como
neste exemplo, dizemos que as duas variáveis interagem, e podemos calcular o valor do
efeito de interação entre elas.
Tabela 9. Resultado de um planejamento fatorial 22.
Ensaio Temperatura (ºC) Catalisador Rendimento (%) Média
1 40 A 57 61 59
2 60 A 92 88 90
3 40 B 55 53 54
4 60 B 66 70 68
Fonte: Barros Neto; Scarmínio; Bruns, (2010).
Por definição, o efeito principal da temperatura é a média dos efeitos da temperatura
nos dois níveis do catalisador. Usando a letra T para representar esse efeito, e sendo yi
a resposta média observada no i-ésimo ensaio, podemos escrever:
( ) ( )
( ) ( )
2 1 4 3
2
90 59 68 54 31 14 22,5%
2 2
y y y y
T
T
− + −
=
− + − +
= = =
Este valor sugere que o rendimento da reação aumenta 22,5%, em média, quando a
temperatura passa de 40 °C (nível inferior) para 60 °C (nível superior). Esta conclusão,
contudo, não está completa, pois há uma interação entre a temperatura e o catalisador,
fazendo-se necessário uma interpretação dos efeitos dos dois fatores juntos, para não
deixar dúvidas sobre a interação que existe entre eles.
Podemos reescrever a equação abaixo como a diferença entre duas médias:
1 32 4
2 2
y yy yT ++ = −
Como y2 e y4 pertencem ao nível (+) e y1 e y3 pertencem ao nível (-) do fator temperatura,
observamos que o efeito principal T é a diferença entre a resposta média no nível
superior e a resposta média no nível inferior desse fator:
T y y+ −= −
75
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
A expressão acima vale para qualquer efeito principal em um planejamento fatorial
completo de dois níveis e pode ser considerada como uma alternativa de efeito
principal. Para o catalisador, na nossa escolha de sinais, o nível superior corresponde
aos ensaios 3 e 4 e o inferior aos ensaios 1 e 2. O efeito principal do catalisador se
dará utilizando a equação anterior:
3 4 1 4 13,5%
2 2
y y y yC y y+ −
+ + = − = − = −
O efeito notado é negativo: quando trocamos o catalisador A pelo catalisador B o
rendimento cai 13,5%. Se por outro lado, na seleção de sinais tivéssemos invertido as
posições e colocado o catalisador A, ao invés do B, no nível superior, o efeito calculado
teria sido C = +13,5%. Contudo, na prática, a conclusão seria a mesma: há uma diferença
entre os rendimentos obtidos com os dois catalisadores, e os resultados do catalisador B
são, em média, 13,5% mais baixos. Não havendo essa interação, o efeito da temperatura
deverá ser o mesmo com qualquer catalisador. O efeito da temperatura é +31% com o
catalisador do tipo A, mas cai para +14% quando usamos o tipo B. Como na ausência
de interação esses dois valores deveriam ser idênticos, podemos tomar a diferença
entre eles como uma medida da interação entre os fatores T e C. Por definição, então,
a metade da diferença é o efeito de interação entre os dois fatores. Usando TxC para
representar esse efeito, temos:
14 31 8,5%
2
TxC TC −= = = −
Identificando as respostas segundo os ensaios em que foram obtidas, temos:
4 3 2 32 1 1 4
2 2 2 2
y y y yy y y yTC − +− + = − = −
As equações anteriores mostram que para calcular qualquer efeito utilizamos todas as
respostas observadas. Vale lembrar que, cada efeito é a diferença de duas médias, ou
seja, metade das observações colabora para uma das médias, e a outra metade aparece
na outra média.
Interpretação geométrica dos efeitos
Uma interpretação geométrica aos efeitos que foram calculados pode ser apresentada.
Para isto, representamos o planejamento experimental num sistema cartesiano, com
um eixo para cada fator. Os quatro ensaiossão colocados nos vértices de um quadrado.
Os efeitos principais são as diferenças médias entre valores localizados em arestas
opostas e perpendiculares ao eixo do fator correspondente. Já o efeito de interação, é o
76
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
contraste entre as duas diagonais, considerando-se positiva a diagonal que liga o ensaio
(- -) ao ensaio (++).
Figura 22. Interpretação geométrica dos efeitos em um planejamento 22.
y
y
y
y
+
-
C
at
al
is
ad
or
(+
)
(-)
(+
)
(-) Temperatura
y
y
y
y
+
-
C
at
al
is
ad
or
(+
)
(-)
(+
)
(-) Temperatura
y
y
y
y
+
-
C
at
al
is
ad
or
(+
)
(-)
(+
)
(-) Temperatura
Fonte: Barros Neto; Scarmínio; Bruns, (2010).
Estimativa de erro
Os ensaios da Tabela 9 foram realizados em duplicata, para a estimação do erro
experimental, e avaliação dos efeitos significativos estatisticamente, contudo é preciso
que a réplica seja uma repetição autêntica de todos os testes realizados. Este ponto
é importante porque, se as repetições forem feitas inadequadamente, os erros irão
parecer menores do que na realidade são, e isso pode gerar efeitos significativos que
não existem. Como foram realizadas em duplicatas nas observações individuais, a
estimativa combinada da variância de uma observação individual pode ser obtida por:
22 / 2
y
σ σ=
Usando o valor da estimativa de s2=6,5 no lugar de σ2, podemos obter uma estimativa
com 4o graus de liberdade, do erro padrão de um efeito desse experimento:
( )
2
1,80%
2
s efeito σ= =
Interpretação dos resultados
A Tabela 10 contém os resultados da análise dos dados da Tabela 9, incluindo o
rendimento médio global, que também é uma combinação linear de todas as observações.
É importante ressaltar que apenas os efeitos calculados que são significativamente
77
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
diferentes de zero são considerados. Aplicando o critério de que só consideraremos
estatisticamente significativo, com 95% de confiança, um efeito cujo valor seja superior
a t4 x s(efeito) =2,776 x1,8% = 5,0%, vemos que todos eles são significativos.
Tabela 10. Efeitos calculados para o planejamento fatorial 22 da Tabela 8.
Média global
67,75 ± 0,9
Efeitos principais:
T
C
22,5 ± 1,8
-13,5 ± 1,8
Efeito de interação
TC - 8,5 ± 1,8
Fonte: Fonte: Barros Neto; Scarmínio; Bruns, (2010).
Como o efeito de interação é significativo, os principais efeitos devem ser interpretados
juntos, com isso traça-se um diagrama contendo as respostas médias em todas as
combinações de níveis das variáveis (Figura 23).
Figura 23. Diagrama para interpretação dos resultados.
+31
-5
+14
54
90 59
68
-22
C
at
al
is
ad
or
B
A
60 40 Temperatura
Fonte: Barros Neto; Scarmínio; Bruns, (2010).
Portanto, podemos concluir que:
» Aumentando a temperatura, aumentamos também o rendimento da
reação, sendo esse efeito mais visível com o uso do catalisador A do que
com o uso do catalisador B (+31% contra +14%).
78
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
» O rendimento da reação sofre redução se alteramos o catalisador A pelo
catalisador B, e esse efeito é visivelmente mais significativo a 60 °C do
que a 40 °C ( -22% contra -5%).
» Os maiores rendimentos (90%, em média) foram obtidos utilizando o
catalisador A e sob temperatura de 60°C.
Sobre o assunto discutido neste capítulo podemos encontrar ainda muito o que
estudar. Então, para que você possa compreender melhor sobre planejamentos
fatoriais completos, sugerimos a consulta ao seguinte link: < https://goo.gl/
q9CheV> (PLANEJAMENTO FATORIAL, 2018).
79
CAPÍTULO 2
Planejamento fatorial fracionário
Os planejamentos experimentais são planejamentos fatoriais, isto é, as influências de
todas as variáveis experimentais de interesse são analisadas, e do mesmo modo, os
efeitos de interação entre elas sobre a resposta ou respostas sob análise. Estudando-
se as variáveis em pelo menos dois níveis pode-se determinar os efeitos destas sobre
as respostas de interesse. Um planejamento fatorial constituído de 2k experimentos,
apresenta uma combinação de k variáveis em dois níveis. Quanto maior o número de
variáveis investigadas, maior será o número de experimentos necessários para realizar
um planejamento fatorial completo (BARROS NETO; SCARMÍNIO; BRUNS, 2010).
Uma alternativa de minimizar o número de experimentos realizados é a utilização
de planejamentos fatoriais fracionários, ao invés dos fatoriais completos relatados
anteriormente.
O fundamento de um projeto fatorial fracionário está baseado em utilizar o fato de que
um projeto fatorial é ortogonal e que a interações de mais altas não são significativas,
isto é, utilizam-se as interações de mais alta ordem para blocar fatores extras. Portanto,
a fração é considerada um subgrupo, de todas as combinações possíveis de serem feitas.
A análise dos fatoriais fracionários é direta e, em função de sua estrutura, a utilização de
um fatorial fracionário não impede a possibilidade de uma complementação posterior
de todo o experimento fatorial.
Em um experimento fatorial completo, existem 2k tentativas experimentais. Na análise
de um fatorial completo, temos a média geral, k efeitos, principais (2k - k - 1) efeitos
de interações. Os 2k experimentos podem ser empregados para fornecer estimativas
independentes de todos os 2k efeitos. Enquanto em um fatorial fracionário (a fração
1/2p), haverá apenas 2k-p experimentos, logo, somente 2k-p estimativas independentes
são possíveis. No planejamento de planos fracionários (isto é, na seleção do subgrupo
ideal do total das 2k combinações), o objetivo é manter cada uma das 2k-p estimativas
o mais o mais independente possível, isso significa dizer que, faz-se necessário manter
as estimativas dos efeitos principais e, ainda, as interações de segunda ordem sem
tendências. Na Tabela 11 é mostrado um exemplo do número de tratamentos dos
fatoriais completo e fracionado, para diferentes valores de p, sendo p a ordem de
redução do fatorial completo.
80
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
Tabela 11. Número de tratamentos para k fatores com dois níveis (completo e fracionário).
k Fatorial 2k Fatorial 2k-1 Fatorial 2k-2 Fatorial 2k-3
2 4 2 1 -
3 8 4 2 1
4 16 8 4 2
5 32 16 8 4
Fonte: Adaptada de Barros Neto, Scarmínio, Bruns, (2010).
Logo chegamos a seguinte conclusão: o tamanho da fração influenciará no possível
número de efeitos estimados e, consequentemente, no número de experimentos a
serem realizados (RODRIGUES; LEMMA, 2015). Um planejamento fatorial fracionado
25-1 terá metade dos experimentos de um planejamento fatorial completo 25 a serem
realizados pois serão realizados 24 = 16 experimentos ao invés de 25 = 32 experimentos
no planejamento fatorial completo.
Montgomery (2012) ressalta justificativas para a utilização das técnicas de experimentos
fatoriais fracionados:
» A dispersão dos efeitos, isto é, quando vários fatores de controle são
avaliados, é provável que o processo sofra influência apenas de alguns
efeitos principais e de interação de ordem inferior.
» A propriedade de projeção: neste caso, os experimentos fatoriais
fracionados podem ser delineados em matrizes maiores, construídas a
partir de um subconjunto de fatores significativos.
» A experimentação sequencial: ocorre quando é possível fazer a combinação
das corridas de dois ou mais experimentos fatoriais fracionados.
Os planejamentos fatoriais completos e, principalmente, os fatoriais fracionários,
podem ser empregados na triagem e na determinação das variáveis significativas que
influenciam um determinado processo. Utilizando a metodologia de análise de superfície
de resposta é possível encontrar valores que irão produzir a melhor resposta desejada.
Esta metodologia é baseada na criação de modelos matemáticos que descrevem o
sistema estudado (TEÓFILO; FERREIRA, 2006).
81
PLANEJAMENTO EXPERIMENTAL │ UNIDADE IIIPlanejamento fatorial 2k-1
Vamos considerar o experimento fatorial: 23-1, isto é, a fração um meio do 23 (8
tratamentos). Assim, só realizaremos 4 tratamentos:
3 3 1 3 1 21 2 2 2 2 2 4
2
− −= = = =
A tabela 12 abaixo apresenta os sinais de + e – para o fatorial 23.
Tabela 12. Sinais (+ e -) para o planejamento fatorial 23.
Tratamentos
Efeitos fatoriais
I A B C AB AC BC ABC
a + + - - - - + +
b + - + - - + - +
c + - - + + - - +
abc + + + + + + + +
ab + + + - + - - -
ac + + - + - + - -
bc + - + + - - + -
(1) + - - - + + + -
Fonte: Montgomery (2012).
As rodadas dos planejamentos 23-1 resultam em três graus de liberdade associados aos
efeitos principais. Pela tabela 12, obtemos as estimativas dos efeitos principais:
( )
( )
( )
1
2
1
2
1
2
A a b c abc
B la b c abc
C a b c abc
= − − +
= + − +
= − − + +
As estimativas das interações também podem ser obtidas a partir da tabela 12.
( )1
2
BC a b c abc= − − +
O mesmo ocorre com AC e AB.
Assim, a combinação linear de observações na coluna A, lA dá a estimativa de A + BC.
Analogamente, lB, dá a estimativa de B + AC e lC, a estimativa de C + AB. Dois ou mais
efeitos que tenham essa característica são denominados de aliases. No planejamento
23-1, A e BC são aliases, bem como B e AC, e C e AB. Os aliases são resultado direto da
replicação fracionada.
82
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
Se um ou mais fatores de uma fração um meio podem ser omitidos, o planejamento se
projetará em um planejamento fatorial completo. Se considerarmos que no máximo
dois ou três fatores são importantes, o planejamento 23-1 é um planejamento satisfatório
para identificar os fatores significantes, resultando em um experimento mais forte nos
fatores ativos que permanecem.
As resoluções dos planejamentos fatoriais fracionados ocorrem de acordo com o padrão
de aliases que produzem:
1. Planejamento de resolução III: nestes planejamentos, nenhum efeito
principal é aliase de qualquer outro efeito p, principal, mas os efeitos
principais são aliases das interações de dois fatores, as interações de dois
fatores podem ser aliases uma das outras. O planejamento 23-1 com I =
ABC é de resolução III. Usualmente utiliza-se numeral romano subscrito
para indicar a resolução de planejamento, assim a fração um meio é um
planejamento 2III3-1.
2. Planejamento de resolução IV: nesses planejamentos, nenhum
efeito principal é aliase de qualquer outro efeito principal e nem
de interações de dois fatores, mas as interações de dois fatores são
consideradas aliases uma das outras. O planejamento 24-1 com I =
ABCD é de resolução 2IV4-1.
3. Planejamento de resolução 5: neste tipo de planejamento, nem o efeito
principal e nem a interação de dois fatores é aliase de qualquer outro
efeito principal ou interação de dois fatores, mas as interações de dois
fatores são aliases das interações de três fatores.
Algumas precauções devem ser ressaltadas para obtenção do máximo de informação
na realização do planejamento fatorial. Dentre elas, estar a necessidade de realizar
repetições de alguns ensaios a fim de estimar o erro experimental. É importante que
as replicatas sejam repetições autênticas, representando adequadamente o espaço
experimental no qual o planejamento fatorial foi desenvolvido. Outra precaução
refere-se à realização dos experimentos: todos os ensaios e replicatas previstos no
desenvolvimento do fatorial devem ser realizados de forma aleatória. Estas precauções
visam evitar distorções estatísticas que possam comprometer a qualidade dos resultados
obtidos e dos efeitos calculados para as variáveis estudadas (BRASIL et al., 2007).
83
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
A metodologia de resposta (ou RSM, de response Surface Methodology) é uma
técnica de otimização com base em planejamento fatoriais, que foi introduzida
por G.E.P. Box nos anos 1950, e que tem sido utilizada desde então apresentando
resultados satisfatórios na modelagem de diversos processos industriais. As
superfícies de respostas são utilizadas quando as variáveis de resposta são
influenciadas por muitas variáveis independentes e o objetivo é otimizar essas
respostas, tendo duas etapas distintas e importantes (BARROS NETO; SCARMÍNIO,
BRUNS, 2010):
1) Modelagem: repetições tantas vezes quantas forem necessárias, visando
atingir uma região ótima da superfície investida. Normalmente é feita com
ajuste de modelos simples (lineares ou quadráticos) as respostas obtidas com
planejamentos fatoriais.
2) Deslocamento: máxima inclinação de um determinado modelo, ou seja, é a
trajetória na qual a resposta varia de forma mais pronunciada.
Exemplificamos temos: o rendimento de um determinado processo é função de
dois fatores, x1 e x2, sendo ɛ o erro observado ou o ruído na resposta y:
( )1 2,y f x x ε= +
O primeiro passo na utilização da metodologia de superfície de resposta é
determinar a relação matemática entre a variável de resposta e as variáveis
independentes. Se esse polinômio de menor grau ajustar bem a resposta, a
função é então dada por um modelo denominado de modelo de primeira ordem:
0 1 1 2 2 k kY x x xβ β β β ε= + + +…+ +
Se houver curvatura no sistema, então o modelo de segunda ordem ou
quadrático deve ser utilizado como apresentado na equação abaixo:
2
0 1 1
k k
j j ij i j jj jj i j j
Y x x x xβ β β β ε
= < =
= + + ∑ + +∑ ∑ ∑
A metodologia do uso de superfície de resposta é sequencial, ou seja, quando
se está longe do ponto ótimo de resposta, o modelo de primeira ordem é
ajustado bem aos dados. Todavia, quando se objetiva otimizar, procura-se uma
estratégica eficiente de rapidamente se encontrar as condições operacionais
ideais que levem a isso. Uma vez encontrada a possível região que o ótimo está,
um modelo de segunda ordem deve ser adotado. Para obter mais conhecimento
sobre este assunto, acesse: <https://goo.gl/rvrwtc>.
84
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
Para aumentar seus conhecimentos sobre os assuntos estudados neste capítulo,
sugerimos a consulta ao seguinte link, que apresenta um arquivo específico
sobre isto, elaborado pelos Professores Marcus Antônio Viana Duarte e Tatiana
Meola: https://goo.gl/qWgJKx (PLANEJAMENTO FRACIONADO, 2018) que traz
mais detalhes sobre os conceitos apresentados nesta unidade assim como vários
outros exemplos.
Lembre-se de procurar por mais informações sobre esse assunto para
aprofundamento do tema estudado.
85
CAPÍTULO 3
Modelos de regressão
Os planejamentos fatoriais 2k podem ser avaliados por meio de Modelos Lineares
Gerais. O uso da regressão pode ser considerado como uma alternativa didática para
o ensino de planejamento experimental, já que a regressão utilizada o conceito de
variável dependente (correspondente à variável resposta para o DOE) e as variáveis
independentes (correspondentes aos fatores controlados). As relações entre prováveis
causas e o efeito tornam-se mais óbvias nos modelos de regressão.
A escolha de um modelo de regressão deve ser realizada de modo que a escolher as
variáveis que sejam significativas para o modelo. Com isso, o método dos melhores
subconjuntos podem ser empregado, o qual consiste na avaliação de todos os possíveis
modelos de regressão para determinação do conjunto de variáveis independentes que
formarão o modelo final (LEVINE, 2008). Este método pode ser feito utilizando o Teste
Fparcial.
A escolha de novas variáveis independentes para o modelo de regressão pode ser feita
comparando-se dois modelos aninhados (dois modelos são considerados aninhados
se um modelo possui todos os termos do segundo modelo e pelo menos um termo a
mais). O modelo com mais termos é denominado de modelo completo ou integral e o
mais simples é chamado de modelo reduzido ou restrito (MENDENHALL; SINCICH,
2012). No desenvolvimento de um modelo de regressão múltipla, apenas aquelas
variáveis independentes que diminuam significativamente o erro ao prever o valor de
uma variável dependente deveser empregada. Logo, se uma variável independente não
melhorar essa previsão, exclui-se ela do modelo (LEVINE, 2008).
O teste Fparcial é um método alternativo para determinar a contribuição de uma variável
independente em um modelo. Esse método envolve a análise da contribuição dada por
cada nova variável independente para a soma dos quadrados da regressão, depois que
todas as outras variáveis independentes forem contidas no modelo. Sendo que a nova
variável independente só é incluída no modelo se houver melhoras significativamente
no mesmo (LEVINE, 2008). Segundo Mendenhall e Sincich (2012), neste teste a
hipótese nula e a hipótese alternativa são construídas para testar a contribuição da(s)
variável(is) βg+1, βg+2...βk para o modelo.
86
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
No modelo completo temos:
( ) 0 1 1
1 1
g g
g g k k
E y X X
X X
β β β
β β+ +
= + +…+
+…+
No modelo reduzido temos:
( ) 0 1 1
1 1
g g
g g k k
E y X X
X X
β β β
β β+ +
= + +…+
+…+
De acordo com isso temos o seguinte:
- H0:βg+1 = βg+2 = ...+βk = 0 as variáveis adicionadas não aperfeiçoam significativamente
o modelo.
- H1:βg+1 ≠ βg+2 ≠ ... ≠βk = 0 pelo menos umas das variáveis é diferente de zero, assim
sendo essas variáveis aperfeiçoam significativamente o modelo.
O Teste Fparcial pode ser calculado utilizando-se o Coeficiente de Determinação, conforme
fórmula a seguir:
( ) ( )
( ) ( )( )
2 2
2
/
1 / 1
c r
parcial
c
R R k g
F
R n k
− −
=
− − +
Onde:
» 2rR = Coeficiente de Determinação R2 do modelo reduzido;
» 2cR = Coeficiente de Determinação R2 do modelo completo;
» k+1 = Número de parâmetros no modelo completo incluindo β0;
» k - g = Número de parâmetros adicionados sendo testados em H0;
» n = Tamanho total da amostra.
O coeficiente de determinação é igual à soma dos quadrados da regressão (variação
explicada pelo modelo de regressão) dividida pela soma total dos quadrados (variação
total existente no modelo de regressão). Logo, o coeficiente de determinação mede
a proporção da variação na variável dependente que é explicada pelas variáveis
independentes. Valores próximos a ±1 sugerem uma forte relação linear (LEVINE,
2008). Ele é calculado pela seguinte fórmula:
87
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
A distribuição F é utilizada para verificar a validade da hipótese nula. Rejeita-se a
mesma se o nível de significância observado ou valor-p for menor do que o nível de
significância (α) estabelecido. Geralmente, utiliza-se o valor de 1% ou 5% para o nível de
significância. O teste consiste na comparação entre o valor de Fparcial e o valor de Ftabelado
ou Fα,v1,v2:
( )
( )( )
1
2
, 1, 2 0
; ;
1
, parcial v v
nível de significância v k g graus deliberdadedonumerador
v n k graus deliberdadedodenominador
Se F F rejeita se Hα
α = = −
= − +
> −
Exemplificando temos: um experimento fatorial 2k com três fatores, com o seguinte
modelo completo:
( ) ( )
( )
1 2 3
12 13
23
123
; ;
1 2 ; 1 3 ;
2 3 .
1 , 2
X X X Fatores
X interaçãoentreos fatores e X interaçãoentre so fatores e
X interaçãoentreos fatores e Termos deinteraçãode segundaordem
X interaçãoentreos fatores
→
→
( ) 3 .e Termos deinteraçãodeterceiraordem→
Deste modo, teremos a seguinte equação de regressão:
( ) 0 1 1 2 2 3 3 4 12 5 13 6 23 7 123E y X X X X X X Xβ β β β β β β β= + + + + + + +
Onde:
» 1 1 2 2 3 3X X Xβ β β+ + são os termos dos efeitos principais;
» 4 12 5 13 6 23X X Xβ β β+ + são os termos dos efeitos de interação de segunda
ordem;
» 7 123Xβ são os termos dos efeitos de interação de terceira ordem.
Algumas relações algébricas entre correlação e regressão existem para o esclarecimento
dos seus verdadeiros significados, assim como, suas limitações (BARROS, 2001).
Suponhamos que X e y sejam variáveis aleatórias e que, seja apropriado a definição de
um coeficiente de correlação entre elas, dado por:
( ),
1
i i
x y xy
xx yy
X X y y
s s S
r X y
N S S
− −
∑ = =
−
88
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
Enquanto a estimativa de β1 é dada por:
1
xy
xx
S
S
β =
Combinando as duas equações anteriores, temos uma relação entre o coeficiente angular
da reta de regressão β1, e o coeficiente de correlação entre as duas variáveis, r(X,y):
( ) ( )1 1, ,yy y
xx x
S S
r X y ou r X y
S S
β β= =
onde Sy e Sx são os desvios padrão das variáveis y e X, respectivamente. Mesmo assim,
β1 e r(X,y) continuam tendo significados diferentes. O coeficiente de correlação, como
sabemos, é uma medida da associação linear existente entre as variáveis X e y, ambas
supostamente aleatórias. O valor do coeficiente angular β1 representa a variação em y
correspondente à variação de uma unidade em X, isto é, a derivada dy/dX.
Para um modelo linear, podemos relacionar o coeficiente de determinação, e o coeficiente
de correlação r(X,y). Para isso, reescrevemos R2 como:
( )
( )
( )
( )
2
2
2
2 2
2 2
,
,
iR
T i
yy xx
xx yy
y ySQR
SQ y y
S SR r X y
S S
R r X y
∑ −
= =
∑ −
=
=
O valor de R pode ser explicado como um coeficiente de correlação, no entanto, não entre
as variáveis X e y (BARROS NETO; SCARMÍNIO; BRUNS, 2010). Pode-se demonstrar
que em qualquer circunstância, para qualquer regressão linear com quaisquer números
de variáveis, R é o coeficiente de correlação entre as respostas observadas e os valores
previstos pelo modelo ajustado:
( ),R r y y=
Esta relação é legítima, pois tanto os valores observados quanto os valores previstos são
variáveis aleatórias. O valor de R, que é chamado de coeficiente de correlação múltipla,
nunca é negativo, ele é o maior valor da correlação que uma combinação linear das
variáveis independentes, na forma apontada pelo modelo, pode ter com os valores de y
observados.
Galdamez e Carpinetti (2004) reportaram as principais ferramentas de um planejamento
experimental, e estas são apresentadas no Quadro 1.
89
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
Quadro 1. Principais ferramentas de um planejamento experimental.
Ferramentas Características
Planejamento fatorial Seu uso ocorre quando todas as combinações dos níveis dos fatores de controle são realizadas.
Planejamento fatorial 2k Técnica com dois níveis e 2k número de combinações de k fatores.
Planejamento fracionado
2k-p
Seu uso ocorre quando há diversos fatores de controle e não é viável para os pesquisadores a realização de todas as
combinações dos experimentos.
Metodologia de superfície
de resposta
Metodologias de planejamento e análise de experimentos usadas na modelagem matemática de respostas.
Planejamento fatorial 2k,
com pontos centrais
Metodologia que consiste em adicionar um ponto de experimentação no nível intermediário aos níveis avaliados para
os k fatores de controle.
Gráficos
1. Gráficos de efeitos principais: mostram a variação média das respostas em função da mudança no nível de um
fator, sendo os outros fatores mantidos constantes.
2. Gráficos de efeitos de interação: fazem a descrição da variação média de um fator em função dos níveis de outros
fatores.
3. Gráfico de probabilidade normal é empregado nas situações em que não há a repetição de um experimento e é
importante obter uma estimativa independente do erro experimental para julgar a importância dos efeitos principais e
de interação.
Fonte: Adaptado de Galdamez e Carpinetti (2004).
Caro estudante sugerimos a consulta ao seguinte link para aprofundamento dos
conhecimentos discutidos neste capítulo: https://goo.gl/3131cn (ANÁLISE DE
REGRESSÃO, 2018).
90
UNIDADE IVQUIMIOMETRIA
A Quimiometria é uma área da Química extremamente difundida e muito útil na
extração de informações dos mais variados sistemas químicos. Além da pesquisa básica,
a indústria química utiliza a análise multivariada para otimizar seus processos e, nesse
contexto, formar profissionais com o conhecimento necessário é muito importante para
o desenvolvimento do setor no país.A Quimiometria pode ser conceituada como uma área da química que utiliza métodos
matemáticos e estatísticos para:
» Planejar ou fazer escolhas de procedimentos ótimos de medidas e experimentos.
» Extrair o máximo da informação química relevante, ou seja, otimizar o processo
da análise dos dados.
Outra definição também proposta para Quimiometria é como uma ciência que relaciona
medidas realizadas em um sistema ou processo químico, ao estado do sistema utilizando
métodos matemáticos e/ou estatísticos.
Figura 24. Correlação da Quimiometria com a Química, Matemática e Estatística.
QUÍMICA MATEMÁTICA
ESTATÍSTICA
QUIMIOMETRIA
Fonte: autora.
A quimiometria engloba todo um processo no qual os dados (por exemplo, números em
uma tabela) são transformados em informações usadas para tomar decisões. Para cumprir
tais objetivos, os estudos quimiométricos utilizam-se de ferramentas matemáticas
aplicadas em softwares. Isto se faz necessário devido à grande complexidade em realizar
tais cálculos à mão. Veremos a seguir sobre os fundamentos e seus princípios.
91
QUIMIOMETRIA │ UNIDADE IV
A quimiometria pode ser entendida como a junção da química e da estatística a fim de
análise de dados de origem química. Ou seja, é o tratamento de dados químicos pelos
olhos da estatística, utilizando-se de métodos matemáticos.
A quimiometria possui uma grande abrangência na variedade de dados no qual pode
ser aplicada, indo desde dados de cinética e equilíbrio químico à otimização de sínteses
orgânicas.
Esta ferramenta pode ser utilizada tanto em laboratórios de pesquisa quanto na
indústria, no controle e monitoramento de processos.
A quimiometria está ligada à outras disciplinas dentro da química como a química
orgânica, físico-química e química teórica, quanto outras áreas dos estudos das exatas
como engenharia, matemática e estatística.
Figura 25. Correlação da quimiometria com as diversas disciplinas acadêmicas.
Química
orgânica
Quimiometria
Química
analítica
Química
Teórica e físico-
química
Estatística
Computação
Engenharia
Biologia
Indústria
Alimento
s M
at
em
át
ic
a
Fonte: Adaptado de Brereton (2003).
Histórico
A utilização das ferramentas de quimiometria começaram tardiamente. Os registros das
primeiras utilizações de estatística multivariada se deram na primeira metade do século
XX, pois a partir dele, por volta da década de 1970, a presença de microprocessadores
e microcomputadores se popularizou nos laboratórios químicos (SENA; POPPI, 2010).
Conhecidamente, os pioneiros na área de quimiometria são os professores Bruce
Kowalski, da Universidade de Washington, Estados Unidos e Svante Wold, da
Universidade de Umea, Suécia.
92
UNIDADE IV │ QUIMIOMETRIA
Desenho experimental
O desenho experimental existe para se otimizar tempo de laboratório, uso de reagente
entre outros fatores envolvidos dentro de um projeto em química. Para tanto, é
necessário a aplicação de regras estatísticas formais que muitas vezes não são ensinadas
nos cursos tradicionais.
Um projeto estatístico formal pode levar semanas para ser preparado antes de dar
início à parte experimental e estes experimentos, por sua vez, podem ser realizados
rapidamente. Devido a isso, muitos professores e alunos não possuem o hábito do
desenho experimental. Porém, a maioria dos experimentos do mundo real são caros.
Se pegarmos o exemplo da otimização de condições de uma síntese orgânica, testar
compostos em um estudo QSAR, ou melhorar a separação cromatográfica de isômeros
pode levar dias ou meses, mas é essencial para a otimização do tempo.
Existem várias razões pelas quais o químico pode ser mais produtivo se ele entender a
base do desenho experimental, incluindo as quatro áreas principais a seguir:
» Triagem: a triagem envolve experimentos que indicam quais fatores são
mais importantes para o sucesso de um processo. Como exemplo temos
um estudo de uma reação química onde se varia a proporção de solventes,
concentração de reagentes, temperatura e pH. Nestes casos são muitos
fatores envolvidos e devem ser analisados quais aqueles que podem
ser descartados e aqueles que devem ser estudados com mais detalhes.
Para tal, existem ferramentas como o planejamento fatorial ou Plackett-
Burman (SENA; POPPI, 2010).
» Otimização: a otimização é uma das ferramentais mais aplicadas em
química. Ela é necessária para se verificar, por exemplo, um rendimento
de síntese ou uma purificação. O método Simplex é um dos mais aplicados
para esta função.
» Economia de tempo: na indústria, esta é uma das principais motivações
para o desenho experimental. A partir de dados estruturais, de moléculas
existentes, é possível prever um pequeno número de compostos para
testes adicionais, representativos de um conjunto maior de moléculas.
Isso permite uma enorme economia de tempo. Os modelos estatísticos
mais utilizados são o fatorial fracionário, Taguchi e Plackett-Burman.
93
QUIMIOMETRIA │ UNIDADE IV
Como visto anteriormente, existem diversas aplicações de um desenho ou planejamento
experimental. Um exemplo é a otimização do rendimento de uma reação em função da
concentração de reagente.
A representação deste experimento é dada na Figura 26. O gráfico de contorno
é desconhecido de antemão, porém, o pesquisador deseja determinar o pH e a
concentração (em mM) que fornece as melhores condições de reação. Dentro de 0,2
de uma unidade de pH e concentração, o pH ótimo é 4,4 e a concentração de 1,0 mM.
Muitos experimentalistas começarão adivinhando um dos fatores, como a concentração,
e então encontrarão o melhor pH nessa concentração (SENA e POPPI, 2010).
Figura 26. Representação gráfica do planejamento experimental que são estudados três fatores:
rendimento, concentração e pH.
0,2 0,6 1,0 1,4 1,8 2,6 2,2
3,0
3,6
4,2
4,8
5,4
6,0
Concentração
pH
Re
nd
im
en
to
Fonte: Adaptado de Sena e Poppi (2010).
94
CAPÍTULO 1
Princípios básicos
Graus de liberdade
Graus de liberdade, em estatística, pode ser entendido como a quantidade de informação
que os dados gerados fornecem para se estimar os valores de parâmetros desconhecidos,
e calcular a variabilidade dessas estimativas. O grau de liberdade é determinado pelo
número de observações da amostra e o número de parâmetros do modelo escolhido.
A maioria dos experimentos resulta em algum tipo de modelo, que é uma maneira
matemática de relacionar uma resposta experimental ao valor ou estado de vários
fatores. Um exemplo de modelo é o rendimento de uma reação e os fatores interferentes
são pH e temperatura.
Em diversos trabalhos dentro da química, é importante equilibrar o número de
experimentos únicos com o número de repetições. Cada réplica experimental nos fornece
um grau de liberdade para se medir os erros experimentais. A Figura 27 exemplifica os
níveis dos graus de liberdade
Figura 27. Níveis de graus de liberdade.
Número de experimentos
(N)
Número de parâmetros
(P)
Graus remanescentes de
liberdade
(N-P)
Número de replicatas
(R)
Número de graus de
liberdade para testar o
modelo
(D=N-P-R)
Fonte: Adaptado de Sena e Poppi (2010).
Cada réplica fornece um grau de liberdade para medir erros experimentais. Uma boa
regra é que o número de réplicas (R) deve ser semelhante ao número de graus de
95
QUIMIOMETRIA │ UNIDADE IV
liberdade para a falta de ajuste (D), a menos que exista uma razão para se estudar um
aspecto do sistema de preferência para outro.
Análise de variância e comparação de erros
A experimentação científica tem por objetivo responder o quanto um determinado fator
pode ser significativo. A seguir, serão apresentadas maneiras de fornecer informações
numéricas que permitam indicar os graus de liberdade experimentais para determinar
o significado de um dado fator.
Quando se tenta realizar um ajuste matemático em determinado modelo experimental
e esse não se encaixa nos parâmetros estabelecidos, pode-se dizer que o termo de
interceptaçãopode ser comparado como o erro de replicação. Esses erros são chamados
de variâncias. Se a falta de ajuste for muito maior do que o erro replicado, este é
significativo, sendo o termo de interceptação levado em consideração.
Para uma melhor compreensão tomemos o exemplo citado por Brereton (2003).
Dois conjuntos de dados chamados de A e B são mostrados nas figuras abaixo:
Figura 28. Gráfico da altura do pico versus concentração, conjunto de dados A.
Al
tu
ra
d
o
pi
co
Concentração (mM)
Fonte: BRERETON (2003).
96
UNIDADE IV │ QUIMIOMETRIA
Figura 29. Gráfico da altura do pico versus concentração, conjunto de dados B.
Al
tu
ra
d
o
pi
co
Concentração (mM)
Fonte: BRERETON (2003).
Existe um termo significativo de interceptação para esses dois conjuntos de dados?
Tabela 13. Informações numéricos dos conjuntos de dados A e B.
Concentração A B
1 3803 4797
1 3276 3878
2 5181 6342
3 6948 9186
3 8762 10136
4 10672 12257
4 8266 13252
5 13032 14656
6 15021 17681
6 16426 15071
Fonte: Brereton, (2003).
Para se responder à pergunta citada mais acima, o primeiro passo é determinar o
número de graus de liberdade para cada experimento.
Para cada experimentos:
» N (número total de experimentos) igual à 10;
» R (número de replicatas) igual à 4, medidos nas concentrações 1, 3, 4 e 6
mM.
Os modelos podem ser determinados sem a interceptação na forma de y = bx ou com a
interceptação na forma y = b0 + b1x.
97
QUIMIOMETRIA │ UNIDADE IV
No primeiro caso, D = N – R – 1 = 5;
No segundo caso, D = N – R – 1 = 5.
O erro total de replicação pode ser obtido observando a diferença entre as respostas sob
concentrações experimentais idênticas. Para os dados na Tabela 13, as replicatas são
realizadas para as concentrações de 1, 3, 4 e 6 mM. Uma maneira simples de determinar
esse erro é mostrado abaixo:
1. Faça a leitura média em cada nível ou concentração replicada;
2. Determine as diferenças entre essa média e a leitura verdadeira para cada
medida replicada;
3. Em seguida, calcule a soma dos quadrados dessas diferenças (observe
que a soma será sempre zero).
Este procedimento pode ser visto na tabela abaixo:
Tabela 14. Cálculo de erros para o conjunto de dados A, modelo incluindo interceptação.
Erro replicado
Concentração
Absorbância
Replicata
Diferença
Diferença
elevada ao
quadradoMédia
1 3803 0,263 0,069
1 3276 3540 -0,263 0,069
2 5181
3 6948 0,907 0,822
3 8762 7855 -0,907 0,822
4 10672 1,203 1,448
4 8266 9469 -1,203 1,448
5 13032
6 15021 -0,702 0,493
6 16426 15724 0,702 0,493
Soma do erro de replicação ao quadrada 5,665
Erro global (dados ajustados usando calibração univariada)
Concentração Absorbância Dado ajustado Diferença Diferença
elevada ao
quadrado
1 3803 3048 0,755 0,570
1 3276 3048 0,229 0,052
2 5181 5484 -0,304 0,092
3 6948 7921 -0,972 0,945
3 8762 7921 0,841 0,708
4 10672 10357 0,315 0,100
98
UNIDADE IV │ QUIMIOMETRIA
4 8266 10357 -2,091 4,372
5 13032 12793 0,238 0,057
6 15021 15230 -0,209 0,044
6 16426 15230 1,196 1,431
Total erro ao quadrado 8370
Fonte: Brereton (2003).
Algebricamente, a soma dos quadrados é definida como:
( )
1
2
1
rep
i
S yi yi
=
= −∑
Onde yi é a resposta média em cada condição experimental única.
A soma total de erro residual dos quadrados é simplesmente a soma da diferença
quadrada entre as leituras observadas e aquelas previstas usando um modelo de melhor
ajuste. O uso do ANOVA é generalizado e baseia-se nessas ideias simples. Normalmente,
dois erros médios são comparados, por exemplo, um devido à replicação e outro devido
à falta de ajuste, embora quaisquer dois erros ou variâncias possam ser comparados
(BRERETON, 2003).
É importante reconhecer que a reprodutibilidade da reação tem uma influência sobre o
significado aparente também. Se houver um grande erro de replicação, alguns fatores
significativos podem ser perdidos (BRERETON, 2003).
Avaliação da significância
Dentro da avaliação de significância existem diversos métodos como o teste T de
Student e o teste-F. Cada um possui sua metodologia matemática de aplicação que
serão discutidos a seguir.
Teste T de Student
O teste T de Student pode ser utilizado quando são realizados muitos experimentos.
Existem muitas aplicações diversas para este teste, porém no contexto de analisar a
significância dos fatores em experimentos planejados, os seguintes passos são utilizados:
1. Cálculo da matriz (D’D)-1. Esta será uma matriz quadrada com dimensões
iguais ao número de parâmetros no modelo;
2. Calcular a soma dos quadrados dos erros entre os dados previstos e os
dados observados;
99
QUIMIOMETRIA │ UNIDADE IV
3. Tomar a média da soma dos quadrados dos erros (dividida pelo número
de graus de liberdade disponíveis para teste de regressão);
4. Para cada um dos parâmetros P, pegar o número apropriado da diagonal
da matriz obtida na etapa 1;
5. Para cada coeficiente, b, calcule
bt
sv
= . Quanto maior essa proporção,
mais significativo é o coeficiente. Essa proporção é usada para o teste-t;
6. A significância estatística é obtida a partir de uma distribuição t-bicaudal.
Teste-F
O teste F é uma outra forma de avaliação da significância. Um uso comum deste teste
é juntamente com o ANOVA, e pergunta como uma variância significativa (ou soma
média de quadrados) é relativa a outra; tipicamente, quão significativa a falta de ajuste
é comparada com o erro replicado.
Para se aplicar o teste-F é necessário determinar o quadrado médio da falta de ajuste
para replicar os erros e verificar o tamanho deste número. Tabelas de distribuição F são
comumente apresentadas em vários níveis de probabilidade. Um exemplo de tabela 15
de distribuição F é mostrado abaixo.
Tabela 15. Distribuição F com V1 graus de liberdade no numerador e V2 graus no denominador.
V1 → 1 2 3 4 5
V2 ↓
1 161.45 199.50 215.71 224.58 230.16
2 18.51 19.00 19.16 19.25 19.30
3 10.13 9.55 9.28 9.12 9.01
4 7.71 6.94 6.59 6.39 6.26
5 6.61 5.79 5.41 5.19 5.05
Fonte: https://www.ime.unicamp.br/~cnaber/tabela_F_1.pdf (DISTRIBUIÇÃO, 2019).
Caro estudante, a tabela completa apresentada acima pode ser acessada no site:
<https://www.ime.unicamp.br/~cnaber/tabela_F_1.pdf> (DISTRIBUIÇÃO, 2019).
100
CAPÍTULO 2
Erro em análises químicas
Introdução
Quando realizamos experimentos, incluindo nas áreas de exatas como em biológicas, as
medidas realizadas são passíveis de erros e incertezas.
As fontes de erros dentro das análises químicas podem ocorrer por duas grandes
varáveis: erros cometidos pelo analista técnico como padronizações ou calibrações
malfeitas ou por erros inerentes à amostra como alguma característica do material
analisado.
Destes fatos, torna-se impossível que uma análise química seja completamente
isenta de erros, porém existem medidas que devem ser tomadas para que estes sejam
minimizados completamente.
Todas as medidas analíticas são influenciadas por fatores de incerteza, gerando neste
sentido o que é chamado de dispersão dos dados.
A dispersão de dados nada mais é do que resultados gerados não seguindo um padrão
determinado. Tomemos por exemplo a Tabela 16. Nela são apresentados dados de
concentração de um corante e as medidas de absorbância de 6 replicatas experimentais.
Tabela 16. Concentração de um determinado corante e as medidas de absorbância obtidas em 6 replicatas
experimentais.
Absorbância n1 n2 n3 n4 n5 n6
Concentração (µM)
0,05 0,15 0,12 0,13 0,16 0,18 0,33
0,1 0,25 0,32 0,27 0,33 0,17 0,34
1,0 0,53 0,67 0,49 0,59 0,87 0,52
Fonte: autora.
Podemos notar que os dados que estão destacados em negritos são muito discrepantes
da tendência que seguem os demais dados da mesma categoria. Ou seja, na linha em
que temos a concentração de 0,05 µM, os dados de leitura da absorbância ficam dentro
dos limites de 0,12 a 0,18, sendo o dado 0,33 disperso de tais resultados. Já para a
concentração de 0,1 µM, os limites ficam entre 0,25 a 0,34, sendo o valor de 0,17 fora
101
QUIMIOMETRIA│ UNIDADE IV
desta tendência. Finalmente, para a concentração de 1,0 µM, os limites observados
estão entre 0,49 a 0,67, com o valor de 0,87 fora da tendência.
Conceitos de precisão e exatidão
Os conceitos de precisão e exatidão precisam estar bem estabelecidos para que se
compreenda os erros em uma medida analítica:
» A exatidão representa o quanto a medição está em concordância com o
valor verdadeiro de uma grandeza.
» A precisão, por outro lado, indica a concordância entre vários resultados
obtidos da mesma forma. A precisão é determinada medindo-se a
replicata dos experimentos.
Para se compreender melhor os conceitos de exatidão e precisão, observe a Figura 30.
Figura 30. Representação esquemática dos conceitos de precisão e exatidão.
Precisão: não
Exatidão: não
Precisão: sim
Exatidão: não
Precisão: não
Exatidão: sim
Precisão: sim
Exatidão: sim
Fonte: http://1.bp.blogspot.com/-qxu2t0ZMtfM/USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/Quadro+Comparativo_
Precis%C3%A3o_Exatid%C3%A3o.png (PRECISÃO, 2019).
» No primeiro alvo, os dados estão dispersos sendo pouco preciso e pouco
exato.
» No segundo alvo, verifica-se que os dados têm boa precisão, porém estão
longe do centro. Este fato significa que são pouco exatos.
» No terceiro alvo, os dados estão próximos do centro, porém não
precisamente.
» No quarto alvo, verifica-se que os dados estão próximos ao valor esperado
e no centro desejado.
102
UNIDADE IV │ QUIMIOMETRIA
Erro de uma medida analítica
Matematicamente, o erro absoluto de uma medida analítica é definido como a diferença
entre o valor medido e o valor verdadeiro de uma determinada grandeza (BACCAN et
al., 1979):
= − vE X X
Onde:
» E = Erro absoluto.
» X = Valor medido.
» Xv = Valor verdadeiro.
O sinal do erro absoluto é mantido pois, o sinal de negativo, indica que o resultado
experimental é menor do que o valor aceito; o sinal positivo, indica que este valor está
maior do que o aceito.
O erro de uma análise pode ser descrito em termos relativos, sendo calculado pela
relação:
r
v
EE
X
=
Onde:
» Er = Erro relativo
» O erro relativo é adimensional, sendo representado em partes por 100 ou
partes por 1000.
Abaixo podem ser observados alguns exemplos de erros relativos:
1. O teor verdadeiro de fluoreto em uma amostra é de 43,3%, porém,
o resultado encontrado após uma análise foi de 42,5%. Calcule o erro
absoluto e o erro relativo do resultado desta análise.
( ) 42,5 43,3 0,8% Erroabsoluto absoluto= − =−
Expressa-se a palavra absoluto para que não ocorra confusão com o erro relativo,
que também é expresso em porcentagem.
( )0,8 1 00 1,8 %
43,3
Errorelativo x relativo−= =−
103
QUIMIOMETRIA │ UNIDADE IV
2. O valor verdadeiro da concentração de uma solução de HCl é de 0,2003
M e o valor encontrado após uma titulação foi de 0,2100. Calcular o erro
absoluto e o erro relativo.
( ) 0, 2100 0,2003 0,0097 Erroabsoluto M absoluto= − =
Neste caso, o valor absoluto é expresso em molaridade.
( )0,0097 1 00 4,84 %
0,2003
Errorelativo x relativo= =
Tipos de erros
As análises químicas podem ser afetadas, basicamente, por dois tipos de erros. Um
deles é chamado de erro aleatório ou indeterminado, que faz com que os dados sejam
distribuídos de uma forma simétrica em torno de um valor médio (SKOOG, 2006). O
erro aleatório reflete-se na sua precisão.
O segundo tipo de erro é chamado de erro sistêmico ou determinado. Este tipo de erro
faz a média de um conjunto de dados ser diferente do valor aceito. Geralmente, o erro
sistêmico nas replicatas faz com que os resultados sejam muito baixos ou altos.
Um terceiro tipo de erro, chamado de erro grosseiro, ocorre de forma ocasional e
pode causar tanto baixa ou aumento dos resultados. Esses erros são frequentemente
causados por erro humano.
Os erros grosseiros levam à ocorrência dos chamados valores anômalos, resultados que
se diferem de todos os outros dados de um conjunto de replicatas experimentais.
Erros sistemáticos
Os chamados erros sistemáticos possuem valor definido e aquilo que o causa é
identificável. Ambos são da mesma ordem de grandeza e réplicas para medidas
realizadas de formas semelhantes (SKOOG, 2006). Este tipo de erro leva à uma mesma
categoria no conjunto de resultados.
Fontes de erros sistêmicos
Os erros sistêmicos podem ter diversas origens. Para cada origem existe uma
determinada denominação do erro sistêmico:
104
UNIDADE IV │ QUIMIOMETRIA
» Erros instrumentais: são os erros causados por falhas de um instrumento.
Este não está atuando conforme suas especificações, por falhas nas
calibrações ou condições inadequadas de uso. Exemplo: desnivelamento
de balanças.
» Erros de métodos: este tipo de erro ocorre quando uma determinada
metodologia é utilizada erroneamente segundo o comportamento
químico ou físico de uma determinada amostra. Exemplo: medidas de
viscosidade de semissólidos em viscosímetro de vidro.
» Erros pessoais: os erros pessoais estão ligados exclusivamente com a má
gestão de pessoal. Ele ocorre pela falta de cuidado, atenção ou limitação
do analista. Exemplo: Má limpeza de balanças analíticas.
Erros instrumentais
Todos os dispositivos de medidas são passíveis de erros instrumentais sistêmicos. Aqui
temos como exemplos vidrarias como pipetas, buretas, provetas (Figura 31). Estes tipos
de vidraria podem dispensar quantidades levemente diferentes das indicadas em suas
graduações.
Figura 31. A) Pipeta graduada; B) bureta.
A B
Fonte: a) https://is.gd/8fhASI (PIPETA, 2019); b) https://is.gd/lIxWKK (BURETA, 2019).
A principal causa de erros nas dispensações de líquidos são originados pelo aquecimento
da vidraria. Estas são calibradas para atuarem em temperatura ambiente, porém, em
processos de lavagem e secagem em estufas, perdem sua confiabilidade analítica.
https://is.gd/8fhASI
105
QUIMIOMETRIA │ UNIDADE IV
Além disso, a adequação da vidraria a ser utilizada para o material químico analisado
é de extrema importância. Por exemplo, deve-se evitar a intercambiação de vidrarias
utilizadas para aliquotagem de bases fortes e outros reagentes. As bases são capazes de
corroer o vidro e se depositarem nos poros originados (Figura 32).
Figura 32. Esquema da superfície do vidro corroída por base. Nota-se que ao se utilizar outras substâncias
químicas, estas podem se acumular nos poros interferindo nas análises.
Poros
formados pela
corrosão por
base
Substâncias
químicas
acumuladas nos
poros
Superfície do
vidro
Fonte: autora.
Os equipamentos eletrônicos também são passíveis de erros instrumentais sistemáticos.
Tais erros podem ter diversas origens como a má calibração, perda de voltagem de uma
bateria, variações de temperatura nos componentes eletrônicos, corrosão de eletrodo
entre outros. Em muitos desses casos, os erros são facilmente detectados e corrigidos.
Erros de métodos
Dentre todos os tipos de erros, os erros de métodos são os mais difíceis de serem
detectados e corrigidos.
Este tipo de erro é originado pela má adequação das reações aos quais uma análise é
baseada ou pelo comportamento químico e físico do analito. Alguns exemplos dessas
fontes de erros são a lentidão de algumas reações, a instabilidade de determinadas
espécies químicas, o não término de uma reação, ocorrência da formação de subprodutos
originados de reações paralelas dentro de um mesmo meio reacional e inespecificidade
de alguns reagentes.
Um exemplo prático deste tipo de erro são as titulações ácido-base. Os indicadores de
pH utilizados neste teste analítico exige um excesso de reagente para que o ponto de
viragem seja observado. Este erro é então limitado ao próprio método de titulação. Na
Figura 33 é observado um exemplo genérico de titulação ácido-base.
106
UNIDADE IV │ QUIMIOMETRIA
Figura 33. Exemplo genérico de uma titulação ácido-base. Para que ocorra o ponto de viragem é necessário a
adição em excesso do reagente titulante.
Antes do ponto
de viragemApós o ponto de
viragem com
excesso de
reagente titulante
Fonte: Adaptado de http://quimicadashotoko.blogspot.com/2013/05/titulacao.html (TITULAÇÃO, 2019).
Erros pessoais
Determinadas medidas analíticas, ainda hoje, dependem da observação e julgamento
de um analista. Devido a isso, existe a possibilidade de ocorrência de erros específicos
ao analista.
Um exemplo clássico de erro pessoal é o erro de paralaxe. Quando se utiliza, por
exemplo, uma proveta é necessário que a pessoa que está medindo determinado volume
esteja com os olhos no mesmo nível da vidraria. Por efeitos ópticos, se a vidraria estiver
no campo de visão mais alto ou mais baixo que os olhos do analista, será medido um
volume errado pois o menisco não estará adequadamente posicionado (Figura 34).
107
QUIMIOMETRIA │ UNIDADE IV
Figura 34. Exemplo de erros pessoais. A forma que a proveta é posicionada frente ao olho do analista irá interferir
no valor a ser medido.
Acerto do menisco: A: soluções incolores B: soluções
coradas
A B
A B C
0
A: posição correta para acertar o menisco
B e C: posições incorretas
Fonte: Adaptado de https://is.gd/OByPAD (PROVETA, 2019).
Um outro erro bastante comum ocorre nas titulações. A cor do ponto de viragem dos
indicadores pode ser observada diferentemente para cada analista. Um analista que é
insensível a mudanças de coloração tende a usar um excesso de reagente.
Uma das grandes causas dos erros pessoais está ligado ao prejulgamento do analista.
Quando se realiza uma análise, por melhor que este analista seja, existe uma tendência
de se estimar leituras na direção da melhoria da precisão da análise. De forma
inconsciente, faz-se que os resultados se mantenham próximos ao valor esperado.
Contribuições dos erros sistemáticos nos
resultados analíticos
São dois os tipos de erros sistemáticos que podem interferir dentro dos resultados
analíticos: os erros sistemáticos constantes e os erros sistemáticos proporcionais.
https://is.gd/OByPAD
108
UNIDADE IV │ QUIMIOMETRIA
Nos erros constantes, o tamanho do erro permanece o mesmo quando a quantidade
média varia. Neste tipo de erro, este permanece constante em relação ao tamanho da
amostra, porém o erro relativo varia com o tamanho amostral.
Já nos erros proporcionais, estes aumentam ou diminuem de acordo com o tamanho da
amostra, sendo o erro absoluto variando de acordo com a dimensão da amostra, porém
o erro relativo se mantem constante independentemente da variação do tamanho da
amostra estudada.
Erros constantes
Para a melhor compreensão do que é um erro constante, acompanhe o exemplo a seguir:
» 80 mg de precipitado de cloreto de prata é perdido pela lavagem com 100
mL de solução de lavagem. Se a massa total de precipitado de cloreto de
prata é de 800 mg, o erro relativo é dado por:
0,8 1 00 0,1%
800
Erro relativo x = − = −
Se a massa total do precipitado de cloreto de prata fosse de 50 mg e tivéssemos a mesma
quantidade de perda, o erro relativo seria de – 1,0%, ou seja, o efeito do erro constante
é aumentado à medida que a quantidade média diminui.
Erros proporcionais
Tomemos um exemplo que ajuda a exemplificar os erros proporcionais:
» A determinação de cobre é realizada a partir da reação do cobre (II) com o
iodeto de potássio formando iodo. A quantidade de iodo é medida, sendo
proporcional à quantidade de cobre. Caso a amostra esteja contaminada
com ferro (III), este também promove a liberação do iodo do iodeto de
potássio. Os resultados aparecerão com quantidades maiores de iodo que
por consequência serão atribuídos ao cobre (SKOOG, 2006).
Neste caso, a dimensão do erro é atribuída à fração contaminante, o que independe do
tamanho da amostra. Se por exemplo, a quantidade de amostra for quadruplicada, a
quantidade de iodo liberado pela amostra também será quadruplicada.
109
QUIMIOMETRIA │ UNIDADE IV
Como realizar a detecção de erros sistemáticos
instrumentais, pessoais e de método?
Basicamente, a calibração é a melhor fonte para determinar e corrigir os erros
sistemáticos. Esta deve ser realizada periodicamente pois os equipamentos sofrem com
o desgaste, corrosão ou manutenção inadequada.
Já nos casos de erros sistemáticos pessoais, este pode ser minimizado com as boas
práticas de laboratório. Escolher sempre a melhor metodologia, levando-se em
consideração as limitações do analista e registrar no caderno de laboratório as leituras
realizadas são as principais medidas que devem ser tomadas.
Para os erros sistemáticos de métodos são utilizadas análises por materiais de referência
padrão (do inglês Standard Reference Materials – SRMs) para se estimar a tendência
de um método analítico ou análises por referência.
Os materiais de referências padrão são vendidos pelo National Institute os Standards
and Technology (NIST) e são certificados quando a conter concentrações específicas
para um ou mais analito (SKOOG, 2006). Além disso, estes materiais podem ser obtidos
por meio de síntese, sendo preparados cuidadosamente com quantidades exatas e
reagentes da mais alta pureza.
Figura 35. Exemplo de material de referência padrão do NIST. Padrão de Vitamina D em soro humano nível 1.
Fonte: https://is.gd/k9HVr0 (PADRÃO DE VITAMINA, 2019).
As análises por materiais padrão podem fornecer resultados diferentes do valor aceito.
É necessário então estabelecer se a diferença ocorre devido aos erros sistemáticos ou
aos erros aleatórios.
Nas análises independentes, quando as amostras padrão não estão disponíveis,
é utilizado um segundo método analítico independente e confiável. Este método
110
UNIDADE IV │ QUIMIOMETRIA
independente deve diferir do método estudado, minimizando a possibilidade de algum
fator comum da amostra interferir nos dois métodos.
Erros aleatórios ou indeterminados
Todas as medidas analíticas contêm erros aleatórios. Tais erros não podem ser totalmente
eliminados e, na maioria das vezes, são as fontes de incerteza de uma determinação
analítica.
As variáveis chamadas de incontroláveis são as responsáveis pelos erros aleatórios,
sendo praticamente impossível de identificá-las. Aquelas identificáveis são impossíveis
de medir pois são extremamente pequenas e não podem ser detectadas individualmente.
O acúmulo das incertezas individuais faz com que as medidas flutuem aleatoriamente
em torno da média do conjunto de dados (Figura 36).
Figura 36. Esquema de medidas geradas por variáveis incontroláveis. As medidas flutuam em torno da média,
sendo neste caso, uma medida precisa, porém, inexata.
Fonte: Adaptado de http://1.bp.blogspot.com/-qxu2t0ZMtfM/USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/
Quadro+Comparativo_Precis%C3%A3o_Exatid%C3%A3o.png (PRECISÃO, 2019).
Os erros indeterminados podem ser submetidos a tratamentos estatísticos permitindo
saber qual o valor mais provável e a precisão de uma série de medidas. Os erros
indeterminados seguem a lei de distribuição normal de Gauss (BACCAN, 1979).
Tratamentos estatísticos de erros aleatórios
Pode-se utilizar métodos estatísticos para se avaliar erros aleatórios. Os métodos
estatísticos não inserem nenhuma nova informação ao conjunto de dados, apenas
revela as informações contidas neles.
111
QUIMIOMETRIA │ UNIDADE IV
Primeiramente é necessário relembrar os conceitos de amostras e populações já
apresentados em capítulos anteriores.
A população é a coleção de todas as medidas de interesse para o analista enquanto a
amostra é um subconjunto de medidas selecionadas a partir da população (SKOOG,
2006). A Figura 37 exemplifica de forma esquemática os conceitos de amostras e
populações.
Figura 37. Esquema dos conceitos de amostra e população.
Amostra.
população
Fonte: https://is.gd/aGe3Vs (POPULAÇÃO, 2019).
A população deve ser muito bem definida pelo analista, podendo ser classificada em
finita e real ou hipotética ou conceitual. Um exemplo de população real são indivíduos
que serão coletadas amostras de sangue. No caso da população conceitual umexemplo
é parte de um reservatório de água para se determinar a dureza da água de toda uma
cidade.
Curva de distribuição norma de Gauss
A variáveis seguem a lei de Gauss quando se pode tomar todos os valores de a , com a
probabilidade dada pela equação:
( )2
2
1
22
iXY e
µ
σσ π
−
= −
Onde:
» Y = Probabilidade de ocorrência de um valor Xi da variável X.
» µ = média da população.
https://is.gd/aGe3Vs
112
UNIDADE IV │ QUIMIOMETRIA
»» σ = desvio padrão.
» O termo (Xi - µ)
2 é o desvio de Xi em relação à média.
A representação gráfica da lei de Gauss pode ser observada na Figura 38.
Figura 38. Representação gráfica da lei de Gauss.
0 - +
Fonte: https://is.gd/WAaO7f (GAUSS, 2019).
Observando a figura pode-se notar que:
» o valor mais provável é a média aritmética de todos os valores;
» tanto os desvios negativos como os positivos são igualmente prováveis;
» desvios pequenos são mais prováveis que desvios grandes.
Propriedades das curvas de Gauss
As curvas Gaussianas apresentam propriedades muito interessantes que são
especialmente importantes nos estudos estatísticos.
A equação da curva gaussiana é expressa como:
( )
2
22
2
xey
σµ
σ π
− −
=
Onde:
» X = variável aleatória.
» µ = média.
»» σ = desvio padrão.
»» σ2 = variância.
113
QUIMIOMETRIA │ UNIDADE IV
Sua representação gráfica pode ser observada na Figura 39:
Figura 39. Gráfico de distribuição normal.
Fonte: https://is.gd/PUS2cS (CURVA, 2019).
Nos estudos estatísticos é importante saber a diferença entre a média de uma amostra
e a média da população, assim como o conceito de mediana.
A média da amostra é a média aritmética de uma amostra limitada retirada de uma
população. Ela é definida como a soma dos valores medidos dividida pela soma dos
valores medidos dividida pelo número de medidas (SKOOG, 2006). A média pode ser
calculada segundo a fórmula:
( )
2
22
2
xey
σµ
σ π
− −
=
Onde:
» Xi = valores individuais de x.
» N = quantidade de replicatas experimentais.
Já a mediana pode ser entendida como o resultado central de replicatas de dados de
acordo com uma sequência crescente ou decrescente.
Para uma melhor compreensão do significado da mediana e da média observe o exemplo
a seguir:
» Um analista farmacêutico fez uma série de medições de massas de
comprimidos. Ela obteve os seguintes resultados (Tabela 17):
114
UNIDADE IV │ QUIMIOMETRIA
Tabela 17. Resultados da pesagem de amostras de comprimidos.
Amostra 1 2 3 4 5 6 7 8 9 10 11
Massa 1,023 1,053 1,047 1,032 1,012 1,065 1,098 1,058 1,063 1,054 1,087
Fonte: autora.
Se colocarmos em ordem crescente de massas, verificaremos que a massa que está
na posição 6 é a mediana das massas dos comprimidos. Isso porque esta massa está
localizada de forma central dentro do conjunto de replicatas obtidas (Tabela 18).
Tabela 18. Resultados da pesagem de amostras de comprimidos em ordem crescente.
Amostra 1 2 3 4 5 6 7 8 9 10 11
Massa (g) 1,012 1,023 1,032 1,047 1,053 1,054 1,058 1,063 1,065 1,087 1,098
Fonte: autora.
Já a média é obtida pela somatória das massas das amostras e dividida pela quantidade
de n experimentais:
( )
2
22
2
xey
σµ
σ π
− −
=
Nos casos em que as replicatas amostrais são em número par, o procedimento para
achar a mediana segue como o exemplo abaixo:
Tabela 19. Resultados da pesagem de amostras de comprimidos.
Amostra 1 2 3 4 5 6 7 8 9 10
Massa 1,023 1,053 1,047 1,032 1,012 1,065 1,098 1,058 1,063 1,054
Fonte: autora.
Após o ordenamento dos dados, faz-se a média dos dois valores que se encontram na
posição central.
11,592 1,053
11
x g= =
Tabela 20. Resultados da pesagem de amostras de comprimidos em ordem crescente destacando a mediana
do conjunto de dados pares.
Amostra 1 2 3 4 5 6 7 8 9 10
Massa (g) 1,012 1,023 1,032 1,047 1,053 1,054 1,058 1,063 1,065 1,098
1,0535
Fonte: autora.
115
QUIMIOMETRIA │ UNIDADE IV
A média neste caso será obtida da mesma forma do exemplo anterior:
1,050 1,050
10
x g= =
A média da população, por outro lado, é considerada a média verdadeira para a
população. Esta é expressa segundo a fórmula:
1
N
ii
x
N
µ ==∑
Onde:
» µ = média da população.
» N = número total de medidas da população.
Desvio padrão de uma população
O desvio padrão de uma população (σ) é dado pela equação:
1
N
ii
x
N
µ ==∑
Onde:
»» σ = desvio padrão.
» N = número de dados que compõem uma população.
» µ = média da população.
O desvio padrão pode ser entendido como uma medida de dispersão dentro de uma
média de população em que existe uma variável aleatória. Na Figura 40 é apresentado
uma Gaussiana com distribuição normal perfeita, os desvios indicam que os dados
obtidos são homogêneos.
116
UNIDADE IV │ QUIMIOMETRIA
Figura 40. Exemplo de gráfico com distribuição normal perfeita.
-1 +1
Média
Fonte: Adaptado de https://is.gd/DjdNDR (DESVIO, 2019).
Na Tabela 21 consta a probabilidade de ocorrência de desvios em termos de desvios ,
baseado na frequência de distribuição normal (com probabilidade de 99,7%).
Tabela 21. Probabilidade de ocorrência de desvios (99,7%) em termos de desvios , baseado na frequência de
distribuição normal.
( ) ixz µ
σ
−
= Probabilidade de um desvio numericamente (±) maior que z
0,00 1,00
0,10 0,92
0,20 0,84
0,30 0,76
0,40 0,69
0,50 0,62
0,60 0,55
0,70 0,48
0,80 0,42
0,90 0,37
1,0 0,32
1,5 0,13
2,0 0,046
2,5 0,012
3,0 0,0027
4,0 0,00006
5,0 0,0000006
Fonte: BACCAN, 1979.
117
QUIMIOMETRIA │ UNIDADE IV
Um outro termo importante dentro dos estudos estatísticos é o quadrado do desvio
padrão (σ2) chamado de variância. A variância pode ser entendida como o desvio
quadrático médio da média e é expressa pela equação:
( )22 1
N
ii
x
N
µ
σ =
−
= ∑
Onde:
»» σ2 = variância.
» N = número de dados que compõem uma população.
» µ = média da população.
Para uma melhor fixação, considere o exemplo a seguir retirado de Baccan (1979):
» Sabe-se que o teor de cálcio em um composto pode variar entre 50 a 60%.
Após uma série de análises, determinou-se que o desvio padrão relativo à
determinação de teor de cálcio é de 3,0 partes por mil. Se o valor de uma
análise isolada foi de 55,3% em Ca2+, qual o intervalo que deve estar o
valor verdadeiro do teor de cálcio nessa amostra, com uma probabilidade
de 99,7%, assumindo-se que não ocorra erros determinados.
Segundo a Tabela 15, com uma probabilidade de erro de 99,7%, o valor de z é igual a 3.
O intervalo em que deve estar a média da população é dado por µ = x ± 3σ.
Calcula-se então o valor de σ, desvio padrão absoluto, a partir do desvio padrão relativo:
( )
1 000 3,0
55,3
3,0 55,3 0,17%
1000
x
x absoluto
σ
σ
=
= =
Então, 3 3 0,17 0,51%xσ = =
( )55,3 0,51%vx = ±
O valor verdadeiro deve estar no intervalo de 54,79% a 58,81%, com 99,7% de
probabilidade. Pode-se dizer que, com certeza, o valor verdadeiro está neste intervalo.
118
CAPÍTULO 3
Validação dos métodos quimiométricos
Todos os laboratórios devem atender aos requisitos estabelecidos pela Norma ABNT
NBR ISO/IEC 17025 relacionados à seleção de métodos de ensaios, desenvolvimento
de métodos de ensaio pelo laboratório, aplicação de métodos normalizados e validação
de métodos. É importante que os laboratórios disponham de meios e critérios que
permitam a comprovação, por meio do processo de validação, que os métodos de
ensaios realizados pelo laboratório conduzem a resultados confiáveis e de qualidade
(INMETRO, 2018).
Ao empregar métodos normalizados, o laboratório em questão deverá demonstrar que
possui as condições necessárias de operação e que está dentro dos padrões existentes
em suas instalações para a implantação do método.
Para realizar a implantação dos métodos normalizados, o laboratório deverá,
obrigatoriamente, analisar e estudar os parâmetros referentes aos processos de
recuperação/tendência e precisão, a faixa de trabalho, limite de quantificação (LQ) e
limite de detecção (LD), devendo comprovar que os parâmetrosde validação estejam
adequados ao uso pretendido. Este tipo de análise é também conhecido como verificação.
Nos casos em que o método normalizado for modificado ou desenvolvido um novo
método, o laboratório deverá garantir que as características de desempenho do método
seguem os requisitos de operação analítica. Nos métodos, normalizado ou não, e
em laboratórios em desenvolvimento, existem uma série de critérios que devem ser
avaliados visando a garantia de adequação do método à uma determinada aplicação,
sendo de responsabilidade do laboratório a definição de parâmetros de validação que
apresentem a adequação especificas do método.
Assim, o laboratório deverá validar os métodos para comprovar a eficácia para
determinada aplicação:
» métodos não normalizados;
» métodos criados/desenvolvidos pelo próprio laboratório;
» métodos normalizados empregados fora dos escopos do qual forma
concebidos;
» amplificação e modificação de métodos normalizados.
119
QUIMIOMETRIA │ UNIDADE IV
O processo de validação dever compreender as necessidades de determinada aplicação
ou área de atuação, sendo de responsabilidade do laboratório a emissão de um relatório
descrevendo os resultados obtidos, bem como, o procedimento empregado para validação
e um parecer sobre a viabilidade do método. Além disso, todos os equipamentos e
instrumentos deverão estar dentro das especificações, com funcionamentos corretos
e devidamente calibrados. O responsável pela condução dos estudos deverá possuir
a competência necessária na área e possuir conhecimento suficiente sendo capaz de
tomar decisões importantes ao longo do processo.
Planejamento e execução da validação
Para a execução do processo de validação é importante desenvolver um planejamento
para que cada etapa seja efetuada com eficácia. Desta maneira, para elaboração do
planejamento sugere-se a seguir a seguinte sequência de trabalho (INMETRO, 2018):
» definir o objetivo e escopo do método;
» definição de parâmetros de desempenho;
» definir as bases de aceitação de cada parâmetro de desempenho;
» analisar se as características de desempenho dos equipamentos são
compatíveis com o exigido pelo método de estudo;
» qualificar os materiais;
» programar os experimentos de validação, assim como, os tratamentos
estatísticos;
» executar os experimentos de validação;
» análise crítica dos resultados obtidos levando em consideração os critérios
de aceitação;
» analisar e concluir se o método está dentro dos parâmetros do uso
pretendido.
Após o procedimento, os resultados devem ser documentados e registrados de maneira
organizada para que sejam acessíveis a todos envolvidos.
120
UNIDADE IV │ QUIMIOMETRIA
Parâmetros de desempenho
Os parâmetros de desempenho devem ser descritos de maneira clara no item referente
ao procedimento sendo necessário incluir no relatório de validação os seguintes itens
(INMETRO, 2018):
» seletividade;
» linearidade/faixa de trabalho/faixa linear de trabalho/sensibilidade;
» limite de detecção (LD);
» limite de quantificação (LQ);
» tendência/recuperação;
» precisão (repetibilidade, precisão intermediária e reprodutibilidade);
» robustez (este procedimento é opcional sendo realizado antes da validação
do método, normalmente na etapa de otimização).
Seletividade
A seletividade é caracterizada pelo grau que um método pode quantificar o analito em
presença de outros analitos, matrizes ou material com alto potencial de interferência.
Quando um método produz respostas para vários analitos e permite a distinção entre
eles, este método é denominado seletivo (INMETRO,2018).
De modo geral, os experimentos para validação de seletividade descrita na literatura
envolvem ensaios utilizando padrões ou materiais de referência, amostras com e sem o
analito e análises em relação a capacidade de identificação do analito em presença de
interferentes. Nos casos em que não existe a disponibilidade de interferentes, alguns
autores orientam realizar ensaios de avaliação da habilidade de medição do analito por
outros métodos, técnicas ou por variações de condições do equipamento.
A seletividade deverá ser assegurada pois a linearidade, tendência e a precisão serão
seriamente comprometidas.
Em alguns casos, a matriz da amostra pode conter possíveis interferentes e que
influenciam no desempenho da medição, podendo aumentar ou diminuir o sinal e assim
comprometer os resultados. Além disso, a magnitude desse efeito está relacionada a
121
QUIMIOMETRIA │ UNIDADE IV
concentração e assim, no estudo de seletividade é preciso verificar a existência de efeito
de matriz.
O procedimento utilizado para as medidas de efeito de matriz é dependente da
disponibilidade do analito, da matriz na ausência de analito e de amostras de referência
nas concentrações de interesse. A Tabela 18 apresentou algumas vias de estudos que
podem ser conduzidos no processo de medidas de matriz:
Linearidade/faixa de trabalho/faixa linear de
trabalho/sensibilidade
A linearidade de um procedimento analítico está relacionada a sua habilidade, em
uma determinada faixa, em obter resultados que são proporcionais à concentração do
analito presente na amostra (INMETRO, 2018).
Faixa de trabalho em um processo analítico está relacionado ao intervalor entre a
menor e maior concentração de analito presente na amostra para um determinado
procedimento que apresentou um nível aceitável de precisão, exatidão e linearidade.
A faixa linear de trabalho é por interferência a faixa de concentração do analito em que
os resultados do método são proporcionais à sua concentração.
A sensibilidade analítica é a mudança na resposta do instrumento relacionado a variação
na quantidade medida (inclinação da curva analítica).
Para determinar a faixa de trabalho em um experimento é preciso escolher uma faixa
preliminar que deverá abranger a faixa de aplicação para o qual os estudos serão
desenvolvidos e a concentração mais esperada da amostra deverá se possível, situar-se
no centro da faixa de trabalho.
O processo de quantificação exige o conhecimento da relação entre a resposta medida
e a concentração do analito, que permite obter a linearidade por meio da padronização
interna ou externa.
Limites de detecção (LD)
Em um procedimento analítico, o limite de detecção caracteriza-se pela menor
quantidade de analito detectada na amostra, sem necessariamente, ser quantificada
no ensaio. Quando são realizadas medidas em amostras com concentração baixa de
analito ou de uma propriedade, como por exemplo, em análises de traços é importante
122
UNIDADE IV │ QUIMIOMETRIA
saber qual a menor concentração do analito ou de alguma propriedade que possa ser
identificada pelo método.
Em um procedimento analítico, o limite de detecção pode variar em função do tipo de
amostra, sendo necessário assegurar que todas as etapas do método sejam incluídas na
determinação aliados aos ensaios qualitativos.
Existem algumas modalidades para verificar o limite de detecção, dentre os quais
podemos destacar:
» Avaliação/percepção visual: a determinação do limite de detecção é
realizada pela análise de amostras com concentrações ou propriedades
conhecidas do analito, dentro de um nível mínimo de confiança;
» Relação sinal/ruído: este tipo de abordagem pode ser aplicado, somente,
para procedimentos que apresente ruído de linha base, sendo determinada
a partir da comparação dos sinais medidos entre amostras com baixa
concentração do analito e o ruído dos brancos de amostra.
O método analítico deve ser especificado e o LD deve ser expresso para cada analito
utilizando as unidades apropriadas, conforme preconizado no método em questão.
Além disso, a matriz da amostra utilizada na determinação do LD deve ser devidamente
identificada.
Após a definição do LD por meio de uma das abordagens destacadas, ou por outra
abordagem descrita em documentos nacionais ou internacionais, é preciso confirmar
por meio de análises de amostras independentescom o mesmo nível de concentração/
propriedade do LD. Sempre que necessário, é importante adotar o número de seis
replicatas, sendo que caso alguma das replicatas não seja detectada, indica que o LD
determinado por ter sido subestimado necessitando a sua reavaliação.
Limites de Quantificação (LQ)
O Limite de Quantificação (LD) de um determinado procedimento analítico individual
está relacionado a menor quantidade de analito que pode ser quantificado em
níveis aceitáveis de precisão e exatidão em uma amostra. Em termos práticos, o LQ
corresponde ao padrão de calibração de menor concentração (excluindo o branco).
Após a determinação desse limite, é preciso averiguar, com testes de amostras
independentes no mesmo nível de concentração/propriedade do LQ, se a recuperação/
tendência e a precisão são satisfatórias. Sempre que necessário, adota-se um número de
123
QUIMIOMETRIA │ UNIDADE IV
seis replicatas, pois o limite de quantificação é extremamente importante em métodos
quantitativos.
Existem algumas modalidades para verificar o limite de quantificação, dentre os quais
podemos destacar:
» Avaliação/percepção visual: é a percepção da resposta da concentração
do analito ou propriedade observada. O LQ pode ser determinado pela
análise de amostras com concentrações ou propriedades conhecidas do
analito a partir do estabelecimento do nível mínimo de quantificação.
De modo geral, são realizadas diluições sucessivas até a identificação
da menor concentração/menor valor de propriedade que pode ser
quantificado com confiança;
» Relação sinal/ruído: da mesma maneira que o LD, esta abordagem pode
ser aplicada, somente, para análises que apresentem ruído de linha
base. Esta modalidade permite a comparação dos sinais medidos de
amostras com baixas concentrações do analito e de ruídos dos brancos
de amostra, sendo possível determinar a quantidade mínima de detecção
com confiança. A relação sinal/ruído estimada para o LQ é de 10:1, sendo
possível adotar relações de 6:1 e 5:1, em função do método. É importante
salientar que a região do ruído do branco deve ser a mesma do sinal
medido.
Tendência/Recuperação
Os processos utilizados para avaliação de tendência de um método geralmente são:
» Materiais de Referência Certificados (MRC);
» comparações Inter laboratoriais;
» comparação com método de referência ou método validado;
» ensaios de recuperação.
A tendência de uma análise é a combinação de uma série de resultados com erros
aleatórios e sistemáticos. Desta maneira, a determinação da tendência em relação aos
valores de referência é importante para que seja estabelecido a rastreabilidade aos
padrões conhecidos.
124
UNIDADE IV │ QUIMIOMETRIA
É possível expressar a tendência como recuperação analítica por meio da seguinte
expressão:
x100%
valor observado
valor esperado
Materiais de referência certificados
Os materiais de referência certificados devem, sempre que possível, ser utilizados
nos procedimentos de validação de um método de ensaio. O MRC possui um valor de
concentração, ou de outra grandeza, com o valor de incerteza associado. Dessa maneira,
é importante que durante a validação seja fornecido o MRC por órgãos competentes,
conforme descrito na NIT DICLA-030.
A utilização correta do MRC baseia-se na sua análise para avaliar o desempenho do
método, avaliando a tendência dos valores obtidos pelo laboratório (média e o desvio
padrão amostral de uma série de ensaios em replicata), em comparação aos valores
certificados do material de referência. A comparação leva diversos critérios de decisão,
como por exemplo:
» Erro relativo: avaliação da exatidão do método por cálculo de porcentagem;
» Erro normalizado: é a subestimação da incerteza em um determinado
intervalo de resultados.
Nos casos em que o valor obtido não estiver dentro do intervalo de aceitação em relação
ao valor certificado, o laboratório deverá buscar as possíveis causas desse desvio e
eliminá-las.
Ensaios de recuperação
As medidas de recuperação do analito podem ser realizadas pela análise de amostras
fortificadas com concentrações conhecidas do analito, sendo possível fortificá-las com
pelo menos três concentrações (baixa, média e alta) na faixa de uso. No entanto, a
limitação dessa metodologia está no fato de que o analito pode não estar na mesma
forma que o presente na amostra, podendo gerar respostas de detecção excessivamente
otimistas de recuperação.
125
QUIMIOMETRIA │ UNIDADE IV
A taxa de recuperação pode ser calculada pela seguinte equação:
( ) 1 2 % x100
3
C CRecuperação
C
− =
Onde:
» C1: concentração do analito na amostra fortificada;
» C2: concentração do analito na amostra não fortificada;
» C3: concentração do analito adicionado à amostra fortificada.
Os laboratórios devem estabelecer critérios de aceitação para recuperação respeitando
as normas da legislação aplicadas às áreas de atuação, como por exemplo, a área
ambiental. Geralmente, as normas estão atreladas aos valores de concentração. A
Tabela 22 apresenta os critérios sugeridos pela AOAC (Association of Official Analytical
Chemists):
Tabela 22. Critérios de recuperação.
Analito, % Fração Mássica (C) Unidade Recuperação média, %
100 1 100% 98 – 102
10 10-1 10% 98 – 102
1 10-2 1% 97 – 103
0,1 10-3 0,1% 95 – 105
0,01 10-4 100 ppm (mg/kg) 90 – 107
0,001 10-5 10 ppm (mg/kg) 80 – 110
0,0001 10-6 1 ppm (mg/kg) 80 – 110
0,00001 10-7 100 ppb (μg/kg) 80 – 110
0,000001 10-8 10 ppb (μg/kg) 60 –115
0,0000001 10-9 1 ppb (μg/kg) 40 –120
Fonte: INMETRO, 2018.
Comparação com método de referência
O processo de comparação com método de referência consiste na conferência dos
resultados obtidos um método a ser validado com os resultados obtidos pelo método de
referência validado. O objetivo desta comparação é analisar o grau de proximidade dos
resultados obtidos pelos dois métodos permitindo a avaliação de sua exatidão.
Os estudos são desenvolvidos em replicata empregando os dois métodos, em separado,
utilizando a mesma amostra em todas as faixas de concentração aplicadas para validação
126
UNIDADE IV │ QUIMIOMETRIA
do método. Existem várias técnicas de comparação, dentre as quais se pode destacar o
teste de hipótese e o planejamento de experimentos.
No teste de hipótese aplica-se o Teste F primeiro para avaliar se as variâncias possuem
valores estatísticos iguais ou diferentes. O teste T (Student) é aplicado em seguida para
analisar as médias dos resultados e se são estatisticamente iguais.
Precisão
Em algumas circunstâncias específicas de medidas a precisão pode ser expressa por
três meios:
» Repetibilidade: são medidas dentro de um conjunto de condições que
incluem o mesmo procedimento de medição, operadores, sistema de
medição, condições de operação e local dentro de um curto período.
Os resultados deste processo podem ser expressos quantitativamente
em termos da característica da dispersão dos resultados podendo ser
determinados a partir da análise de padrões, materiais de referência ou
adição de analito ao branco da amostra, em várias concentrações na faixa
de trabalho;
» Precisão intermediária: é relacionada à precisão analisada nas mesmas
condições do procedimento de medição, local e medições repetidas no
mesmo objeto, ou objetos similares, ao longo de um período extenso
permitindo a inclusão de outras condições submetidas às mudanças.
Neste tipo de estudo é preciso definir quais condições serão variadas,
como por exemplo, diferentes analistas, equipamentos e tempo;
» Reprodutibilidade: apesar de não ser um componente de validação de
método a reprodutibilidade é importante quando um laboratório busca a
verificação de desempenho de seus métodos em relação às informações
de validação em comparação Inter laboratorial.
Robustez
A robustez é um parâmetro que indica a capacidade do método não ser afetado por
pequenas variações de fatores de execução do método, proporcionando um fator de
confiança do método durante aplicaçõesde rotina. É um parâmetro opcional nos
estudos de validação, sendo comumente, associado aos estudos de otimização.
127
QUIMIOMETRIA │ UNIDADE IV
A determinação de robustez de um método de ensaio pode ser baseada, por exemplo, no
planejamento de Youden (2002/657/EC) ou Plackett-Burman (SERGENT, 2007). São
estudos que permite ordenar a influência de cada variável nos resultados e transmite
maior confiança ao método em relação a sua precisão.
Comparações Inter laboratoriais
Segundo a norma ABNT NBR ISO/IEC 17043 existe uma distinção do uso de comparações
Inter laboratoriais destinado aos ensaios de proficiência para determinação de
desempenho do laboratório, e para outros propósitos, como por exemplo:
» estabelecimento da eficácia e comparabilidade de novos métodos de
ensaio ou de medição;
» acompanhamento de método estabelecido;
» determinação de características de desempenho de um método.
Durante o processo de comparação Inter laboratorial, caso não seja alcançado as
condições ideais é preciso efetuar planos de ações corretivas que permitem a verificação
das causas e reavaliação do ensaio. Os requisitos de participação de laboratórios
acreditados em ensaios de proficiência estão descritos na NIT DICLA-026.
Acompanhamento do desempenho do
método validado
Após a validação do método, é necessária a implantação dos procedimentos de controle
de qualidade que visam acompanhar o desempenho do método ao longo da rotina do
laboratório.
Os procedimentos que podem ser aplicados para esta finalidade são o uso de materiais
de referência certificados (MEC), materiais de referência secundário, participação em
comparação Inter laboratoriais, realização de ensaios replicados, reensaios de itens
retidos entre outros. Vale ressaltar que esses controles contemplem as principais
características da validação (recuperação/tendência, precisão e limite de detecção/
quantificação) e podem ser acompanhados por meio de gráficos de controle.
128
UNIDADE IV │ QUIMIOMETRIA
Revalidação do método
» Alteração no desempenho do método: nos casos em que os controles
de qualidade apresentar perda de desempenho do método ou as ações
corretivas não atenderem às expectativas esperadas, o método deverá ser
reavaliado para que o seu novo desempenho seja conhecido;
» Alteração no procedimento analítico de método: após as alterações no
procedimento analítico, o laboratório deverá realizar um estudo estatístico
para analisar se a alteração influência nos resultados do ensaio, sendo que
nos casos em que as alterações proporcionem alterações significativas, o
método deverá ser reavaliado.
Caro aluno é importante que você busque um pouco mais sobre esse assunto.
Para auxiliá-lo sugerimos que acessem o seguinte link para leitura completa
da NIT DICLA-030 e NIT DICLA-026: <https://is.gd/BjGYlI> (ACREDITAÇÃO DE
LABORATÓRIOS, 2019).
129
CAPÍTULO 4
Estudo de casos e artigos sobre
planejamento experimental e
Quimiometria
Nesse capítulo, discutiremos alguns estudos de casos (levando em consideração
os assuntos discutidos ao longo das unidades anteriores) e artigos (publicações que
apresentam e discutem pesquisas realizadas nas mais diversas áreas do conhecimento)
referentes a utilização de planejamento experimental.
Casos em planejamento experimental
Caso 1: planejamento fatorial e superfície de resposta empregado na otimização de um
método Voltamétrico para a determinação de Ag(I) usando um eletrodo de pasta de
nanotubos de carbono.
Vicentini et al. (2011), estudaram a utilização conjunta de ferramentas eletroquímicas
e quimiométricas para contextualização do planejamento fatorial para a abordagem
das disciplinas de análise instrumental e/ou planejamento e análise de experimentos
em química eletroanalítica. Os autores descreveram o desenvolvimento de um eletrodo
de pasta de nanotubos de carbono funcionalizados (FCNPE, Functionalized Carbon
Nanotubes Paste Electrode) para a determinação de íons Ag(I), utilizando-se a técnica
de voltametria de redissolução anódica. O emprego do planejamento fatorial foi
realizado com visando obter uma maior intensidade de resposta (corrente) para íons
Ag(I), levando a um aumento do sinal analítico.
A metodologia usada pelos autores foi a seguinte:
» Os experimentos eletroquímicos foram realizados em uma célula de
compartimento único de 15 mL (vidro Pyrex).
» Nas determinações foi utilizado um sistema de três eletrodos, sendo
que o eletrodo de trabalho foi o de pasta de nanotubos de carbono
funcionalizados (FCNPE), o de referência, um eletrodo de Ag/AgCl (KCl
3 mol L-1) e o auxiliar, um eletrodo de platina.
» As medidas eletroquímicas foram executadas com um potenciostato/
galvanostato gerenciado pelo programa computacional GPES 4.9.
130
UNIDADE IV │ QUIMIOMETRIA
» As medidas de pH das soluções foram realizadas com um pHmetro digital.
» Os cálculos matemáticos dos modelos empíricos gerados foram realizados
no programa computacional Excel® da Microsoft.
O planejamento fatorial foi elaborado para a determinação de íons Ag(I). Primeiramente
foi realizado um planejamento fatorial completo para avaliar três variáveis da voltametria
linear de redissolução: tempo de pré-concentração, potencial de pré-concentração e
velocidade de varredura. Estas variáveis foram estudadas em dois níveis, sendo realizado
um planejamento 23 (total de 8 experimentos). Os experimentos foram efetuados de
forma aleatória para evitar erros sistemáticos e a resposta monitorada foi a intensidade
de corrente. A Tabela 23 mostra os fatores estudados e seus respectivos níveis.
Selecionadas as variáveis, os autores realizaram um planejamento fatorial composto
central 22 + ponto central (PC) + estrela. Neste tipo de planejamento, as variáveis são
estudadas em um número maior de níveis e, desta forma, viabiliza o estabelecimento de
um modelo empírico e a geração de uma superfície de resposta, que permite estabelecer
as melhores condições de trabalho.
Tabela 23. Níveis reais e codificados das variáveis estudadas.
Variáveis Nível (-) Nível (+)
Tempo de pré-concentração 30s 200s
Potencial de pré-concentração -0,1 V -0,5 V
Velocidade de varredura 15 mV s-1 80 mV s-1
Fonte: Vicentini et al. (2011).
Com os dados do planejamento foi construída a Tabela ANOVA (Analysis of Variance)
e, em seguida, a superfície de resposta e o gráfico de contorno.
Os autores observaram que os resultados obtidos no planejamento fatorial 23
mostraram que as variáveis tempo de pré-concentração e velocidade de varredura
foram as apresentaram os maiores efeitos. Já a variável potencial de pré-concentração
não apresentou efeitos primários ou de interação significativos ao nível de confiança
de 95%. Desta forma, esta variável foi fixada em um valor conveniente para as futuras
análises. Estabeleceu-se neste caso o maior nível (-0,5 V), devido ao íon Ag(I) apresentar
um melhor perfil voltamétrico.
As duas variáveis mais significativas foram submetidas a um planejamento fatorial 22
+ PC + estrela. Neste planejamento cada variável foi estudada em 5 níveis diferentes.
Estes níveis foram normalizados entre -√–2 e + √–2. Os dados do novo planejamento
foram submetidos à análise de variância (ANOVA).
131
QUIMIOMETRIA │ UNIDADE IV
Os autores verificaram que o modelo para análise da corrente apresentou um bom
ajuste. No caso da razão entre a MQFaj e a MQEP, o teste F mostrou que estas duas
médias quadráticas são estatisticamente iguais com um Fcalculado < Ftabelado. Além disso, as MQR
e MQr se mostraram estatisticamente diferentes (o modelo é significativo) com um Fcalculado
> Ftabelado. Em ambos os casos o nível de confiança utilizado foi de 95%. O valor de r2 foi
igual a 0,982 (razão entre as SQR e SQT).
Depois da execução de todos os experimentos foi obtida uma equação de segunda
ordem:
2 2
0 1 2 3 4 5Y b b t b V b t b V b tV= + + + + +
onde y é a variável dependente (corrente), bi são os coeficientes para t (tempo de
pré-concentração) e V (velocidadede varredura) e tV é a interação entre tempo de
pré-concentração e velocidade de varredura. Para o cálculo dos coeficientes (bi), foi
empregado mínimos quadrados:
( ) 1 'b X X X y−′=
onde b é o vetor com coeficientes (bi), X é a matriz com os parâmetros normalizados e y é
um vetor com a resposta experimental. Após aplicar o teste t (com 4 graus de liberdade),
foi verificado que quatro coeficientes foram significativos ao nível de confiança de 95%.
Assim foi possível obter a equação ajustada que rege o modelo:
2 232,70 9,92 8,03 4,91Y t t V= + − −
Os autores concluíram que o eletrodo proposto pode ser empregado para a determinação
de Ag(I) presente em águas naturais no intervalo de 7,92 x 10-7 a 1,07 x 10-5 mol L-1. Além
disso, o procedimento proposto é de baixo custo, simples e não necessita de nenhum
tipo de tratamento especial da amostra podendo ser aplicado em laboratórios de análise
de rotina ou mesmo in loco, com o emprego de instrumentação portátil.
Caso 2: Utilização do planejamento experimental para otimização de um procedimento
voltamétrico para determinação simultânea das concentrações dos metais Zn, Cd, Pb e
Cu livres em água de coco.
Rosa, Rodrigues e Ferreira (2016) aplicaram o planejamento fatorial e superfície de
resposta para otimizar as variáveis da SWASV (do inglês, Square-wave anodic stripping
voltammetry), tais como a concentração do eletrólito suporte; potencial e tempo de
pré-concentração; frequência, amplitude e incremento da onda quadrada, objetivando
a determinação simultânea de Zn, Cd, Pb e Cu livres de forma direta na água de coco
usando o eletrodo de DDB (eletrodo de diamante dopado com boro).
132
UNIDADE IV │ QUIMIOMETRIA
A metodologia usada pelos autores foi a seguinte:
» Os experimentos eletroquímicos foram realizados usando um analisador
voltamétrico 797Computrace da Metrohm®. Um eletrodo auxiliar de
fio de platina foi usado em conjunto com um eletrodo de referência de
Ag/AgCl (KCl 3,0 mol L−1) e com um eletrodo de trabalho de diamante
dopado com boro (DDB/8000 ppm) com um filme de área geométrica de
0,23 cm2.
Para a otimização das variáveis na etapa de pré-concentração, estabeleceu cinco níveis
para as variáveis potencial (E) e tempo (t), sendo que o nível zero foi de -1,45 V para a
variável E e 135 s para t. A tabela 24 apresenta a otimização de duas variáveis com base
na matriz do planejamento composto central.
Tabela 24. Matriz do planejamento composto central para a otimização das variáveis
apresentada pelos autores.
Ensaio E (V) t (s) Reposta unificada
1 -1,49 (-1) 61 (-1) 1,185
Planejamento fatorial
2 -1,41 (+1) 61 (-1) 0,828
3 -1,49 (-1) 209 (+1) 3,393
4 -1,41 (+1) 209 (+1) 2,591
5 -1,45 (0) 135 (0) 2,361 Ponto central
6 -1,51 (-1,41) 135 (0) 2,882
Pontos axiais
7 -1,39 (+1,41) 135 (0) 1,873
8 -1,45 (0) 30 (-1,41) 0,623
9 -1,45 (0) 240 (+1,41) 3,477
10 -1,45 (0) 135 (0) 2,433
Repetições do ponto central
11 -1,45 (0) 135 (0) 2,236
Fonte: Rosa, Rodrigues e Ferreira (2016).
O modelo polinomial quadrático que descreve uma relação entre as variáveis otimizadas
E e t com a resposta (corrente de pico) foi estabelecida na Equação 1 a partir da matriz
de planejamento CCD. Os ensaios eletroanalíticos foram realizados aleatoriamente para
não haver erros estatísticos associados. A equação abaixo apresenta o modelo algébrico
usado para otimização das variáveis x1(E), x2(t).
( ) ( ) ( ) ( ) ( )2 20 1 1 2 2 3 1 4 2 5 1 2Y b b x b x b x b x b x x= + + + + +
Sendo b0 o valor da média dos pontos centrais e b1 até b5 os coeficientes do modelo a
serem determinados. Os coeficientes da equação do modelo foram obtidos por meio da
seguinte equação:
133
QUIMIOMETRIA │ UNIDADE IV
( ) 11 'b X X X Y−=
A equação obtida para o modelo de otimização de E e t foi:
( ) ( ) ( ) ( )
( )
2 2
0,090 0,055 0,065 0,055 0,066
0,078
2,343 0,323 0,037 1,000 0, 200
0,200
Y E E t t
tE
± ± ± ± ±
±
= − − + −
−
Os autores concluíram que a partir dos pontos otimizados foi possível quantificar zinco
e cobre livres em amostra de água coco natural e industrializada. Os valores encontrados
para as concentrações de Cu na amostra natural foi (6,8 ± 0,9) μg L-1. No entanto, não
foi possível determinar a concentração de Zn sendo, portanto, menor que o LD. Por
outro lado, a concentração de Zn e Cu na amostra industrializada foi de (85,6 ± 4,2) μg
L-1 e (7,7 ± 0,6) μg L-1 respectivamente.
Artigos em planejamento experimental
Agrupamos aqui alguns artigos divulgados recentemente nos mais diversos periódicos
científicos, com a finalidade que sejam usados como forma de acrescentar aos
conhecimentos obtidos até aqui. Sugerimos que, além desses artigos, você busque mais
esclarecimentos sobre os assuntos estudados ao longo das unidades passadas.
Quadro 2. Artigos sobre o uso de planejamentos experimental.
Título Autores Assuntos abordados
Multivariate optimization techniques in analytical chemistry
- an overview
Ferreira et al, (2018)
Multivariada
Superficie de resposta
Química analitica
An experimental design approach for the separation of
thorium from rare earth elements
Altaş et al, (2018)
Oxalato de amônia
Analise de variância
Coeficiente de correlação
Factorial experimental design intended for the optimization
of the alumina purification conditions
Brahmi et al, (2018)
Otimização
Planejamento fatorial completo
Use of principal component analysis (PCA) and hierarchical
cluster analysis (HCA) for multivariate association between
bioactive compounds and functional properties in foods: A
critical perspective
Granato et al, (2018)
PCA, HCA
KNN, SIMCA
Compostos bioativos
Investigation of the impact of trace elements on anaerobic
volatile fatty acid degradation using a fractional factorial
experimental design
Jiang et al, (2017)
Planejamento fatorial
Elementos traços
Coeficiente de regressão
Simultaneous spectrophotometric quantification of
dinitrobenzene isomers in water samples using multivariate
calibration methods
Lu et al, (2016)
Calibração multivariada
Espectometria
Optimizing the synthesis of cobalt aluminate pigment using
fractional factorial design
Gomes et al, (2015)
Planejamento fatorial fracionado
134
UNIDADE IV │ QUIMIOMETRIA
A statistical prediction of density and hardness of
biodegradable mechanically alloyed Mg–Zn alloy using
fractional factorial design
Salleh et al, (2015)
Planejamento fatorial fracionado
Análise de regressão
Experimental design and multiple response optimization.
Using the desirability function in analytical methods
development
Candioti et al, (2014)
Múltiplas respostas
Superficie de resposta
Processo de separação
Multivariate calibration Forina; Lanteri; Casale, (2007)
Calibração multivariada
Modelos de regressão
Fonte: autora.
Existem ainda muitos outros artigos como os listados acima que podem ser acessados
por meio dos seguintes portais:
» Science Direct: http://www.sciencedirect.com/ (SCIENCE DIRECT,
2019).
» Portal de periódicos CAPES/MEC: <http://www.periodicos.capes.gov.
br/> (PORTAL DE PERIÓDICOS CAPES/MEC, 2018).
» Google acadêmico: <https://scholar.google.com.br/> (GOOGLE
ACADÊMICO, 2018).
http://www.sciencedirect.com/
http://www.periodicos.capes.gov.br/
http://www.periodicos.capes.gov.br/
https://scholar.google.com.br/
135
Para (não) Finalizar
Em decorrência das necessidades da sociedade moderna, a pesquisa científica tem
promovido grandes avanços em todos os campos da ciência, provocando um aumento
cada dia mais crescente de dados e informações, sendo que para a devida exploração
e consequentemente, correto entendimento, a aplicação de ferramentas estatísticas
torna-se indispensável (PEREIRA-FILHO et al., 2002).
Na pesquisa, as ideias com frequência acabam surgindo antes da tecnologia necessária
para realizá-las. Isso aconteceu e acontece na maioria dos ramos da Química que a
teoria indica que para a resolução de um dado problema alguns cálculos são exigidos.
Com isso veio a quimiometria que se iniciouna primeira metade da década de 1970,
mas só se firmou definitivamente quando o computador começou a ser utilizado em
laboratório. Contudo, há quem afirme que a combinação de química com estatística
começou com as pesquisas do químico cervejeiro, Student, o do famoso teste t.
Com o aparecimento da quimiometria, a utilização de experimentos estatisticamente
planejados aumentou drasticamente em diversas áreas de pesquisa no Brasil,
sobretudo na Química, Engenharia Química, Engenharia de Alimentos e Biotecnologia.
Por outro lado, a utilização das técnicas quimiométricas de planejamento não ficou
limitada somente às atividades acadêmicas, indústrias como Petrobras, Nitroquímica,
Pirelli, Braskem, Clariant e Unilever do Brasil têm utilizado técnicas de planejamento
e otimização de experimentos. O Instituto de Informação Científica, mostrou que,
dos 4099 trabalhos científicos localizados com a palavra chave “factorial design”,
225 (5,5%) tiveram participação de autor(es) brasileiro(s). Dos 3617 trabalhos com a
palavra-chave “response surface”, 137 (3,8%) foram realizados, de forma parcial, no
Brasil (MARQUES, 2004).
As novas tendências nesse ramo atualmente são o uso de métodos para dados de
ordem superiores. Esses dados chamados de ordem superior são produzidos por
instrumentação acoplada, como cromatografia a gás/espectrometria de massa (GC/
MS) e espectrometria de excitação/emissão. Nesta categoria, os métodos empregados
no Brasil compreendem os modelos de Tucker, a calibração multivariada de ordem
superior e o PARAFAC (Parallel Factor Analysis), que pode ser utilizado para resolução
de curvas para dados de ordem superior e para análise exploratória e sua classificação.
Atualmente, os grupos de pesquisas e desenvolvimento em quimiometria mais atuantes
do Brasil estão em Campinas (por ex., os grupos dos Profs. Ronei J. Poppi e Márcia
M. C. Ferreira) e Londrina (Profa. Ieda S. Scarminio) (BARROS NETO; SCARMINIO;
BRUNS, 2006).
136
Referências
ACREDITAÇÃO DE LABORATÓRIOS. Disponível em: <https://is.gd/BjGYlI>. Acesso
em 3 junho 2019.
ALTAŞ, Y.; TEL, H.; İNAN, S.; SERT, Ş.; ÇETINKAYA, B.; SENGÜL, S.; ÖZKAN, B. An
experimental design approach for the separation of thorium from rare earth elements.
Hydrometallurgy, v. 178, 2018.
ANÁLISE DE REGRESSÃO. Disponível em: <http://w3.ufsm.br/jpa/CCeTI/
regress%E3oc.pdf>. Acesso em: 18 junho 2018.
BACCAN, N. et al. Química analítica quantitativa elementar. Campinas: Editora
Edgard Blücher Ltda., 1979.
BARROS NETO, B. B.; SCARMÍNIO, I. S.; BRUNS, R. E. 25 anos de quimiometria no
Brasil. Química Nova, v. 29, 2006.
BARROS NETO, B. B.; SCARMÍNIO, I. S.; BRUNS, R. E. Como fazer experimentos.
Campinas: Editora Unicamp, 4ª edição, 2010.
BERNADINO, N. D. Degradação de corantes e aglutinantes: Efeito da composição
do microambiente. 2011. 155f. Dissertação (Mestrado em Química) - Programa de Pós-
Graduação em Química, USP, São Paulo, 2011.
BRAHMI, M.; BA, M.; HIDRI, Y.; HASSEN, A. Factorial experimental design intended
for the optimization of the alumina purification Conditions. Journal of Molecular
Structure, v. 1157, 2018.
BRASIL, J. L.; VAGHETTI, J. C. P.; ROYER, B.; SANTOS, A. A.; SIMON, N. M.; PAVAN,
S. A.; DIAS, S. L. P.; LIMA, E. C. Planejamento estatístico de experimentos como
uma ferramenta para otimização das condições de biossorção de Cu(II) em batelada
utilizando-se casca de nozes pecã como biossorvente. Química Nova, v. 30, 2007.
BRERETON, R. G. Chemometrics: Data Analysis for the Laboratory and Chemical
Plant. Bristol: Wiley, 2003.
BRERETON, R.G.; Introduction to multivariate calibration in analytical chemistry.
Analyst, v. 11, 2000.
BRO, R. Analytica Chimica Acta. v. 500, 2003.
137
REFERÊNCIAS
BURETA. Disponível em: <https://is.gd/lIxWKK>. Acesso em: 26 maio 2019.
BUTTON S. T. Metodologia Para Planejamento Experimental e Análise de
Resultados. Campinas – SP. 2005.
CAMO Software AS. The Unscrambler Program Operation: the Unscrambler
User Manual. Disponível em: <www.camo.com>. Acesso em: 25 abril 2018.
CANDIOTI, L. V.; ZAN, M. M. Z.; CÁMARA, M. S.; GOICOECHEA, H. C. Experimental
design and multiple response optimization. Using the desirability function in analytical
methods development. Talanta, v. 124, 2014.
CARDOSO, D. R.; ANDRADE-SOBRINHO, L. G.; LEITE-NETO, A. F.; RECHE,
R. V.; ISIQUE, W. D.; FERREIRA, M. M. C.; LIMA-NETO, B. S.; FRANCO, D. W.;
Comparison between cachaça and rum using pattern recognition methods. Journal of
Agricultural and Food Chemistry, v. 52, 2004.
CORREIA, P. R. M.; FERREIRA, M. M. C. Reconhecimento de padrões por métodos
não supervisionados: explorando procedimentos quimiométricos para tratamento de
dados analíticos. Química Nova, v. 30, 2007.
CURVA. Disponível em: <https://is.gd/PUS2cS>. Acesso em: 2 jun. 2019.
DESVIO. Disponível em: <https://is.gd/DjdNDR>. Acesso em: 2 jun. 2019.
DISTRIBUIÇÃO. Disponível em: <https://www.ime.unicamp.br/~cnaber/tabela_F_1.
pdf>. Acesso em: 13 maio 2019.
ESTATÍSTICA BÁSICA. Disponível em: <http://www.portalaction.com.br/estatistica-
basica>. Acesso em: 19 julho 2018.
ESTATÍSTICA DESCRITIVA. Disponível em: <https://fenix.tecnico.ulisboa.pt/
downloadFile/3779573118035/Estatistica_Descritiva_2008_09.pdf>. Acesso em: 19
julho 2018.
ESTATÍSTICA. Disponível em: <https://goo.gl/38ATrT>. Acesso em: 19 de julho 2018.
FERNANDES, A. P.; SANTOS, M. C.; LEMOS, S. G.; FERREIRA, M. M. C.; NOGUEIRA,
A. R. A.; NÓBREGA, J. A.; Pattern recognition applied to mineral characterization
of Brazilian coffees and sugar-cane spirits. Spectrochimica Acta Part B: Atomic
Spectroscopy, v. 60, 2005.
FERREIRA, M. M. C. Quimiometria: Conceitos, métodos e aplicações. Campinas:
Editora Unicamp, 2015.
138
REFERÊNCIAS
FERREIRA, M. M. C.; ANTUNES, A. M.; MELGO, M. S.; VOLPE, P. L. O. Quimiometria
I: calibração multivariada, um tutorial. Química nova, v. 5, 1999.
FERREIRA, S. L. C.; LEMOS, V. A.; CARVALHO, V. S.; SILVA, E. G. P.; QUEIROZ, A. F. S.; FELIX, C.
S. A.; SILVA, D. L. F.; DOURADO, G. B.; OLIVEIRA, R. V. Multivariate optimization techniques
in analytical chemistry - an overview. Microchemical Journal, v. 140, 2018.
FORINA, M.; LANTERI, S.; CASALE, M. Multivariate calibration. Journal of
Chromatography A. v. 1158, 2007.
GALDAMEZ, E. V. C.; CARPINETTI, L. C. R. Aplicação das técnicas de planejamento
e análise de experimentos no processo de injeção plástica. Gestão e Produção, v.11,
2004.
GAUSS. Disponível em: <https://is.gd/WAaO7f>. Acesso em: 1 junho 2019.
GELADI, P. Chemometrics in spectroscopy. Part 1. Classical chemometrics.
Spectrochimica Acta Part B: Atomic Spectroscopy, v. 58, 2003.
GNECCO, B. B. MORAES, R. M.; MACHADO, L. S.; CABRAL, M. C. Um Sistema de
Visualização Imersivo e Interativo de Apoio ao Ensino de Classificação de
Imagens, disponível em <http://www.di.ufpb.br/liliane/publicacoes/wrv2001-cave-
final.pdf>, Acesso em: 25 abril 2018.
GOMES, Y. F.; MEDEIROS, P. N.; BOMIO, M. R. D.; SANTOS, I. M. G.; PASKOCIMAS,
C. A.; NASCIMENTO, R. M.; MOTTA, F. V. Optimizing the synthesis of cobalt aluminate
pigment using fractional factorial design. Ceramics International, v. 41, 2015.
GONZÁLEZ, A. G., Use and misuse of supervised pattern recognition methods for
interpreting compositional data. Journal of Chromatography A, v.1158, 2007.
GOOGLE ACADÊMICO. Disponível em: < https://scholar.google.com.br/>. Acesso em
19 julho 2018.
GRANATO, D.; SANTOS, J. S.; ESCHER, G. B.; FERREIRA, B. L.; MAGGIO, R. M.
Use of principal component analysis (PCA) and hierarchical cluster analysis (HCA) for
multivariate association between bioactive compounds and functional properties in
foods: A critical perspective. Trends in Food Science & Technology, v.72, 2018.
HCA. Disponível em: <http://joinqui.qui.ufmg.br/2010/download/MC15-2.pdf>.
Acesso em: 10 junho 2018.
HOPKE, P. K. The evolution of chemometrics. Analytica Chimica Acta, v. 500, 2003.
139
REFERÊNCIAS
INÁCIO, M. R. C. Ferramentas quimiométricas aplicadas à classificaçãode
amostras de leite em pó e quantificação de proteínas. 2010. 119 f. Dissertação
(Mestrado em Química) - Programa de Pós-Graduação em Química, Universidade
Federal do Rio Grande do Norte, Natal, RN. 2010.
INFERÊNCIA. Disponível em: <https://goo.gl/4fm5VW>. Acesso em 19 julho 2018.
INMETRO, Orientação sobre validação de métodos analíticos, DOQ-CGCRE-008
Revisão 7 – Junho 2018.
JIANG, Y.; ZHANG, Y.; BANKS, C.; HEAVEN, S.; LONGHURST, P. Investigation of the
impact of trace elements on anaerobic volatile fatty acid degradation using a fractional
factorial experimental design. Water Research. v.125, 2017.
KNN. Disponível em: <https://goo.gl/HYdx4k>. Acesso em: 13 junho 2018.
LAVINE, B. K. Encyclopedia of analytical chemistry. Chichester: Wiley, 2000.
LEVINE, D.M. Estatística: teoria e aplicações usando Microsoft Excel em português.
Rio de Janeiro: LTC - Livros Técnicos e Científicos, 2008.
LIU, F.; HE, Y.; SUN, G. Determination of Protein Content of Auricularia auricula
Using Near Infrared Spectroscopy Combined with Linear and Nonlinear Calibrations.
Journal of Agricultural and Food Chemistry, v. 57, 2009.
LU, T.; YUAN, Y.; JIAO, Y.; WEN, Z.; WANG, L.; ZHAO, Y.; ZHANG, Y.; LI, M.; PU, X.;
MARQUES, F. Indicadores: uma prova de qualidade. Pesquisa FAPESP, São Paulo,
n. 102, 2004.
MASSART, D. L.; VANDEGINSTE, B. G. M.; BUYDENS, L. M. C.; DE JONG, S.; LEWI,
P. J.; SMEYERS-VERBEKE, J. Handbook of Chemometrics and Qualimetrics,
Part A. Amsterdam: Elsevier, 1997.
MATOS, F. M. S. Reconhecimento de faces utilizando a transformada cosseno
discreta. 2008. 94f. Dissertação (Mestrado curso de informática) - Departamento de
Informática, Universidade Federal da Paraíba, João Pessoa, 2008.
MENDENHALL, W.; SINCICH, T. Second course in statistics: regression analysis.
Prentice Hall, 7th Edition, 2012.
MÉTODOS DE CLASSIFICAÇÃO. Disponível em: <https://goo.gl/PY9p4t>. Acesso
em: 19 junho 2018.
140
REFERÊNCIAS
MILLER, J. N.; MILLER, J. C. Statistics and Chemometrics for Analytical
Chemistry, 6a edição, New York: Prentice Hall, 2010.
MONTGOMERY, D. C. Design and analysis of experiments. 8th Edition. John
Wiley & Sons.
NETO, M. M. J. Estatística multivariada. Revista de Filosofia e Ensino. Núcleo de
Estudos e Pesquisas sobre o Ensino de Filosofia - NESEF, 2004.
NIPALS. Disponível em: <https://goo.gl/dy9yUG >. Acesso em: 12 junho 2018.
NOÇÕES DE ESTATÍSTICA. Disponível em: <https://www.measureevaluation.org/
resources/training/capacity-building-resources/data-quality-portuguese/moduloII_
capa.pdf>. Acesso em: 19 julho 2018.
OTTO, M. Chemometrics – Statistics and Computer Application in Analytical
Chemistry, 2ª ed, New York: Wiley, 2007.
PADRÃO DE VITAMINA. Disponível em: <https://is.gd/k9HVr0>.. Acesso em: 30
maio 2019.
PCA. Disponível em: < https://goo.gl/2PZwdt>. Acesso em: 10 junho 2018.
PEREIRA-FILHO, E. R., POPPI, R. J.; ARRUDA, M. A. Z. Employment of factorial
design for optimization of pirolisys and atomization temperatures for Al, Cd, Mo and
Pb determination by ETAAS. Química Nova, v. 25, 2002.
PIPETA. Disponível em: <https://is.gd/8fhASI>. Acesso em 26 maio 2019.
PLANEJAMENTO FATORIAL. Disponível em: < https://anselmo.quimica.ufg.br/
up/56/o/DOE_03_Planejamentos_Fatoriais_-_Completo.pdf>. Acesso em: 15 junho
2018.
PLANEJAMENTO FRACIONADO. Disponível em: < https://goo.gl/qWgJKx>. Acesso
em: 18 junho 2018.
POPULAÇÃO. Disponível em: <https://is.gd/aGe3Vs>. Acesso em: 1 junho 2019.
PORTAL DE PERIÓDICOS CAPES/MEC. Disponível em: <http://www.periodicos.
capes.gov.br/>. Acesso em 19 julho 2018.
PRECISÃO. Disponível em: < http://1.bp.blogspot.com/-qxu2t0ZMtfM/
USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/Quadro+Comparativo_
Precis%C3%A3o_Exatid%C3%A3o.png>. Acesso em: 15 maio 2019.
141
REFERÊNCIAS
PROBABILIDADE. Disponível em: <http://www.portalaction.com.br/probabilidades/
introducao-probabilidade>. Acesso em: 19 julho 2018.
PROVETA. Disponível em: <https://is.gd/OByPAD>. Acesso em: 29 maio 2019.
RODRIGUES, M. I.; LEMMA, A. F. Experimental design and process
optimization. Boca Raton: CRC Press, 2015.
ROGGO, Y.; CHALUS, P.; MAURER, L.; LEMA-MARTINEZ, C.; EDMOND, A.; JENT,
N. A review of near infrared spectroscopy and chemometrics in pharmaceutical
technologies. Journal of Pharmaceutical and Biomedical Analysis, v. 44, 2007.
ROSA, T. R.; RODRIGUES, J. G. A.; FERREIRA, R. Q. Uso do planejamento experimental
para otimização de um procedimento voltamétrico para determinação simultânea das
concentrações dos metais Zn, Cd, Pb e Cu livres em água de coco. Química Nova, v.
39, 2016.
SALLEH, M. E.; ZUHAILAWATI, H.; RAMAKRISHNAN, S.; GEPREEL, M. A. A
statistical prediction of density and hardness of biodegradable mechanically alloyed
Mg–Zn alloy using fractional factorial design. Journal of Alloys and Compounds,
v. 644, 2015.
SANTOS, P. M. Aplicação de imagens digitais e técnicas espectroanalíticas
combinadas com quimiometria para detecção e quantificação de adulteração
em leite bovino. 2013. 79f. Tese (Doutorado em Ciências) - Departamento de Química
- Programa de pós-graduação em Química. Universidade Federal de São Carlos, São
Carlos: UFSCar, 2013.
SCIENCE DIRECT. Disponível em: <http://www.sciencedirect.com/>. Acesso em: 19
julho 2018.
SENA, M. M.; POPPI, R. J. Introdução à quimiometria: Como explorar grandes
conjuntos de dados químicos. 2010. Disponível em: <http://joinqui.qui.ufmg.br/2010/
download/MC15-1.pdf>. Acesso em: 13 mai. 2019.
SERGENT, M. Statistical design: Chemometrics. Journal of Chemometrics, 2007.
SKOOG, D. et al. Fundamentos de química analítica. São Paulo: Editora Thomson,
2006.
SVD. Disponível em: < https://goo.gl/KtLtmR >. Acesso em: 12 jun. 2018.
142
REFERÊNCIAS
TEÓFILO, R. F.; FERREIRA, M. M. C. Quimiometria II: planilhas eletrônicas para
cálculos de planejamentos experimentais, um tutorial. Química Nova, v. 29, 2006.
TITULAÇÃO. Disponível em: < http://quimicadashotoko.blogspot.com/2013/05/
titulacao.html >. Acesso em: 29 mai. 2019.
VICENTINI, F. C.; FIGUEIREDO-FILHO, L. C. S.; JANEGITZ, B. C.; ALINE SANTIAGO,
A.; PEREIRA-FILHO, E. R.; FATIBELLO-FILHO, O. Planejamento fatorial e superfície
de resposta: otimização de um método voltamétrico para a determinação de Ag(I)
empregando um eletrodo de pasta de nanotubos de carbono. Química Nova, v. 34,
2011.
XU, T. Simultaneous spectrophotometric quantification of dinitrobenzene isomers
in water samples using multivariate calibration methods. Chemometrics and
Intelligent Laboratory Systems, v. 154, 2016.
_Hlk11683939
_Hlk519751218
_Hlk11684379
_Hlk512682088
_Hlk11684766
_Hlk512682694
_Hlk11686070
_Hlk518286596
_Hlk11686051
_Hlk514250221
_Hlk11686762
_Hlk518287146
_Hlk11686928
_Hlk514250026
_Hlk11687124
_Hlk535847380
_Hlk11687509
_Hlk11687745
_Hlk535848725
_Hlk11688454
_Hlk518287460
_Hlk512339659
_Hlk514249611
bau0050
Apresentação
Organização do Caderno de Estudos e Pesquisa
Introdução
Unidade I
Estatística Básica
Capítulo 1
Conceitos fundamentais em estatística
Capítulo 2
Estatística descritiva, probabilidade e inferência estatística
Capítulo 3
Média, moda, mediana, desvio padrão, intervalo de confiança, testes t não pareado e pareado, teste Q
Unidade II
Trabalhando Com Dados Multivariados
Capítulo 1
Análise exploratória de dados
Capítulo 2
Construção de modelos de calibração
Modelos de classificação e reconhecimento de padrões
Unidade III
Planejamento Experimental
Capítulo 1
Planejamento fatorial completo
Capítulo 2
Planejamento fatorial fracionário
Capítulo 3
Modelos de regressão
Unidade IV
Quimiometria
Capítulo 1
Princípios básicos
Capítulo 2
Erro em análises químicas
Capítulo 3
Validação dos métodos quimiométricos
Capítulo 4
Estudo de casos e artigos sobre planejamento experimental e Quimiometria
Para (não) Finalizar
Referências