Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Brasília-DF. 
Controle estatístiCo de ProCessos 
e Quimiometria
Elaboração
Maria Rosiene Antunes Arcanjo
Produção
Equipe Técnica de Avaliação, Revisão Linguística e Editoração
Sumário
APRESENTAÇÃO ................................................................................................................................. 5
ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA .................................................................... 6
INTRODUÇÃO.................................................................................................................................... 8
UNIDADE I
ESTATÍSTICA BÁSICA ............................................................................................................................. 11
CAPÍTULO 1
CONCEITOS FUNDAMENTAIS EM ESTATÍSTICA ........................................................................... 11
CAPÍTULO 2
ESTATÍSTICA DESCRITIVA, PROBABILIDADE E INFERÊNCIA ESTATÍSTICA ........................................ 18
CAPÍTULO 3
MÉDIA, MODA, MEDIANA, DESVIO PADRÃO, INTERVALO DE CONFIANÇA, 
TESTES T NÃO PAREADO E PAREADO, TESTE Q .......................................................................... 26
UNIDADE II
TRABALHANDO COM DADOS MULTIVARIADOS ..................................................................................... 35
CAPÍTULO 1
ANÁLISE EXPLORATÓRIA DE DADOS ........................................................................................ 35
CAPÍTULO 2
CONSTRUÇÃO DE MODELOS DE CALIBRAÇÃO ....................................................................... 49
MODELOS DE CLASSIFICAÇÃO E RECONHECIMENTO DE PADRÕES ........................................ 59
UNIDADE III
PLANEJAMENTO EXPERIMENTAL ........................................................................................................... 68
CAPÍTULO 1
PLANEJAMENTO FATORIAL COMPLETO .................................................................................... 72
CAPÍTULO 2
PLANEJAMENTO FATORIAL FRACIONÁRIO ............................................................................... 79
CAPÍTULO 3
MODELOS DE REGRESSÃO ..................................................................................................... 85
UNIDADE IV
QUIMIOMETRIA .................................................................................................................................... 90
CAPÍTULO 1
PRINCÍPIOS BÁSICOS .............................................................................................................. 94
CAPÍTULO 2
ERRO EM ANÁLISES QUÍMICAS .............................................................................................. 100
CAPÍTULO 3
VALIDAÇÃO DOS MÉTODOS QUIMIOMÉTRICOS ................................................................... 118
CAPÍTULO 4
ESTUDO DE CASOS E ARTIGOS SOBRE PLANEJAMENTO EXPERIMENTAL E QUIMIOMETRIA ........ 129
PARA (NÃO) FINALIZAR ................................................................................................................... 135
REFERÊNCIAS ................................................................................................................................ 136
5
Apresentação
Caro aluno
A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se 
entendem necessários para o desenvolvimento do estudo com segurança e qualidade. 
Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela 
interatividade e modernidade de sua estrutura formal, adequadas à metodologia da 
Educação a Distância – EaD.
Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade 
dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos 
específicos da área e atuar de forma competente e conscienciosa, como convém 
ao profissional que busca a formação continuada para vencer os desafios que a 
evolução científico-tecnológica impõe ao mundo contemporâneo.
Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo 
a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na 
profissional. Utilize-a como instrumento para seu sucesso na carreira.
Conselho Editorial
6
Organização do Caderno 
de Estudos e Pesquisa
Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em 
capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos 
básicos, com questões para reflexão, entre outros recursos editoriais que visam tornar 
sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta para 
aprofundar seus estudos com leituras e pesquisas complementares.
A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos 
Cadernos de Estudos e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto antes 
mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor 
conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita 
sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante 
que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As 
reflexões são o ponto de partida para a construção de suas conclusões.
Sugestão de estudo complementar
Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo, 
discussões em fóruns ou encontros presenciais quando for o caso.
Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam para a 
síntese/conclusão do assunto abordado.
7
Saiba mais
Informações complementares para elucidar a construção das sínteses/conclusões 
sobre o assunto abordado.
Sintetizando
Trecho que busca resumir informações relevantes do conteúdo, facilitando o 
entendimento pelo aluno sobre trechos mais complexos.
Para (não) finalizar
Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem 
ou estimula ponderações complementares sobre o módulo estudado.
8
Introdução
A estatística é o ramo da ciência voltado ao estudo de ferramentas matemáticas para 
coleta, organização, análise e interpretação de dados numéricos para uma melhor 
compreensão e tomada de decisões frente a problemas, situações e fenômenos. Com 
ampla aplicação nas ciências exatas, naturais, econômicas e sociais, a estatística fornece 
uma base para a explicação da ocorrência e frequência de eventos, sua aleatoriedade, 
obtenção de incertezas e estimativa de previsibilidade em eventos futuros. Na área de 
Química, a disciplina que estuda o uso de métodos matemáticos e estatísticos para 
planejar experimentos de forma otimizada e fornecer o máximo de informação na 
análise de dados de natureza multivariada é chamada de Quimiometria.
Nesse material será abordada inicialmente uma revisão que engloba os principais 
parâmetros estatísticos como média, moda, mediana, desvio padrão, intervalo de 
confiança, testes t pareado e não pareado e teste Q. Posteriormente, veremos as técnicas 
e metodologias para a manipulação e tratamento de dados multivariados voltados 
para a análise exploratória, desenvolvimento de métodos de calibração e construção 
de modelos de classificação para reconhecimento de padrões. Por fim, estudaremos o 
desenvolvimento e aplicação de planejamentos fatoriais e modelos de regressão.
Veremos que a estatística não é somente construção de gráficos e o cálculo de médias, 
visto que as informações numéricas obtidas tem como finalidade a acumulação de 
informações para a tomada de decisões. Portanto, a estatística deve ser observada como 
um conjunto de técnicas para planejar experimentos, com consequente obtenção de 
dados, sua organização, análise e interpretação. 
Devido a estatística ser aplicada em diversas áreas do conhecimento, muitas vezes 
se torna difícil para os profissionais trabalharem com seus conceitos e elaborarem 
exemplos práticos, poishá a limitação de materiais didáticos que expressem, de modo 
simples e objetivo, os procedimentos aplicáveis de certas técnicas multivariadas, 
que só passaram a ser utilizadas, mais vezes, a partir da chegada dos computadores. 
É importante dizer que nos dias atuais com o auxílio de programas computacionais, 
consegue-se desenvolver e aplicar esse tipo de técnica mais rapidamente.
O desenvolvimento tecnológico, oriundo das descobertas científicas, tem apoiado 
o próprio desenvolvimento científico, expandindo, a capacidade de obtenção de 
informações sobre acontecimentos e fenômenos analisados. Uma grande variedade 
de informações necessita ser processada antes de ser transformada em conhecimento. 
Deste modo, necessita-se cada vez mais de ferramentas estatísticas que proporcionem 
uma visão global do fenômeno, que aquela possível em uma abordagem univariada. 
9
A denominação Análise Multivariada significa que muitos métodos e técnicas utilizam, 
simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados 
obtidos (NETO, 2004). 
Mas, é preciso ter atenção ao se usar essas técnicas, pois não basta a observação de 
conjunto de variáveis e aplicação de técnicas multivariadas, somente objetivando 
apresentar e valorizar a técnica. É necessário que exista uma estrutura de correlação 
entre as variáveis, se isso não existir deve-se utilizar outro tipo de análise, a univariada, 
visto que está também pode fornecer um nível satisfatório de informação. 
Portanto, o princípio fundamental é primeiramente saber qual conhecimento se 
pretender gerar com as análises. 
Um grande avanço relacionado ao surgimento de programas computacionais para 
resolução de problemas que envolvem estatísticas têm sido observados nas últimas 
décadas. Essas técnicas são frequentemente utilizadas no tratamento de dados 
analíticos na área de química, e são denominadas de Quimiometria, a qual desenvolve 
ferramentas computacionais que permitem a exploração dos resultados obtidos por 
meio de análises químicas, objetivando verificar a existência de similaridades entre 
as amostras que, por sua vez, correspondem às semelhanças na composição química 
(CORREIA; FERREIRA, 2007). 
Nesse contexto, esse material didático, busca tornar mais simples o aprendizado 
a respeito de técnicas estatísticas, que, muitas vezes, é obscuro para os alunos, 
pesquisadores e profissionais que as utilizam, bem como os métodos de planejamento 
experimentais envolvidos nesses processos. 
Objetivos 
 » Conhecer e revisar os conceitos estatísticos como média, moda, mediana, 
desvio padrão, intervalo de confiança, testes t pareado e não pareado e 
teste Q.
 » Compreender o que são as análises exploratória de dados e sua importância 
em diversos processos.
 » Conhecer e entender as técnicas e metodologias para a manipulação e 
tratamento de dados univariados e multivariados.
 » Estudar e compreender o desenvolvimento de planejamentos fatoriais e 
modelos de regressão, e sua importância em distintas aplicações. 
 » Estudar e compreender sobre o uso da Quimiometria.
10
11
UNIDADE IESTATÍSTICA BÁSICA
CAPÍTULO 1
Conceitos fundamentais em estatística
A estatística tem sido utilizada pelo homem desde os princípios da existência, mesmo 
sob formas um pouco rudimentares. No início a estatística era utilizada apenas em 
problemas que envolviam contagens, como por exemplo, contagens de animais ou 
indivíduos das tribos, isso fez com que as primeiras ideias de estatística fossem criadas. 
O termo estatística deriva da palavra latina status (que quer dizer “coisas de estado”), 
contudo, a séculos que a estatística adquiriu status de ciência, com inúmeras aplicações 
na maioria das áreas do conhecimento humano. É correto afirmar que não se pode 
realizar uma pesquisa científica sem utilizar metodologia estatística. Algumas definições 
importantes e comumente usadas em estatísticas são apresentadas a seguir:
 » Fenômeno estatístico: qualquer evento analisado, cujo estudo seja 
possível a aplicação do método estatístico. 
 » Dado estatístico: dado numérico que é considerado a matéria prima sobre 
a qual se aplica os métodos estatísticos.
 » População: conjunto total de elementos que possuam pelo menos, uma 
característica comum.
 » Amostra: é uma parcela representativa da população que é avaliada 
objetivando a obtenção de conclusões sobre a essa população.
 » Parâmetros: são valores singulares que existem na população e que 
servem para caracterizá-la.
 » Estimativa: um valor aproximado do parâmetro que é calculado com o 
uso da amostra.
12
UNIDADE I │ ESTATÍSTICA BÁSICA
 » Atributo: quando os dados estatísticos exibem um caráter qualitativo, o 
levantamento e os estudos imprescindíveis ao tratamento desses dados 
são designados de estatística de atributo.
 » Amostragem: é o processo de escolha da amostra, sendo a parte inicial 
do processo.
 › As regras de Amostragem podem ser classificadas em duas categorias 
gerais: 
 · Probabilística, amostragem na qual a seleção é aleatória, de forma 
que cada elemento tem igual probabilidade de ser sorteado para a 
amostra.
 · Não probabilísticas, amostragem em que há uma escolha 
determinada dos elementos da amostra. 
 › Os tipos de amostragem podem ser: 
 · Amostragem aleatória simples, neste processo, todos os elementos 
da população têm igual probabilidade de serem escolhidos, desde o 
início até completo processo de coleta.
 · Amostragem sistemática, trata-se de uma variação da amostragem 
simples ao acaso, muito conveniente quando a população está 
naturalmente ordenada, como fichas em um fichário ou listas 
telefônicas.
 · Amostragem estratificada, quando se possui uma população com 
uma certa característica heterogênea, na qual pode-se diferenciar 
subpopulações mais ou menos homogêneas, chamadas de estratos.
 » Mensuração: atribuição de um número a qualidades de um objeto ou 
fenômeno segundo regras pré-determinadas. 
 » Variável: o conjunto de resultados possíveis de um fenômeno.
Há quatro níveis básicos, de mensuração (quatro tipos de variáveis): nominal, ordinal, 
intervalar e razão.
1. Escala nominal: o nível mais simplicista das escalas de medida, sendo 
empregada na classificação de objetos ou fenômenos em termos de 
igualdade dos seus atributos e numerá-los. O exemplo mais simples é 
13
ESTATÍSTICA BÁSICA │ UNIDADE I
formado pela divisão em duas classes que são identificadas com os 
números zero ou um, variável binária (0,1).
2. Escala ordinal: empregada quando os fenômenos ou observações 
podem ser arranjados segundo uma ordenação, por exemplo: grandeza, 
preferência, importância, distância, entre outros.
3. Escala intervalar: tem todas as características de uma escala ordinal, 
porém os intervalos entre os valores são conhecidos e assim cada 
observação pode receber um valor numérico preciso. A extensão de cada 
intervalo sucessivo é constante. O ponto zero de uma escala intervalar 
é arbitrário e não indica ausência da característica medida. Exemplo: 
numeração dos anos, e escalas de temperatura.
4. Escala de razão: semelhante as características de uma escala de intervalo, 
com a vantagem de que o ponto zero representa uma origem verdadeira 
(zero indica ausência de fenômeno). É considerada a mais precisa de 
todas. Exemplo: escala métrica, idades e distância entre outras. 
Segundo o nível introdutório, a estatística pode ser dividida em três grandes categorias:
 » Estatística Descritiva, que está relacionada a descrição tabular, gráfica 
e paramétrica dos dados obtidos experimentalmente, por meio de 
procedimentos de amostragem ou de experimentos realizados. 
 » Probabilidade e Estatística matemática, que está relacionada a ocorrência 
dos eventos e das variáveis aleatórias que os descrevem, fornecendo os 
fundamentos da teoria estatística. 
 » Inferência Estatística, que está relacionada a estimação por intervalo e 
por região, os testes de hipóteses sobre parâmetros populacionais. 
O emprego de grandes números de dados é uma práticacomum nesta ciência e para 
simplificar seu manuseio, faz-se uso de variáveis. Elas podem ser classificadas em 
variáveis quantitativas ou numéricas e variáveis qualitativas ou atributos:
 » Variáveis quantitativas ou numéricas são aquelas que descrevem 
quantidades, ou seja, seus valores são descritos por números. Elas 
podem ser ainda divididas em discretas (quando assumem um número 
determinado de valores no campo dos reais, por exemplo, contagens) e em 
contínuas (em outros casos, admitem valores fracionados). O conceito de 
14
UNIDADE I │ ESTATÍSTICA BÁSICA
variável discreta e contínua é considerado simples, contudo, pode causar 
alguma confusão em tratamentos estatísticos mais elaborados.
 » Variáveis qualitativas ou atributos são aquelas que descrevem qualidades, 
ou seja, não se utiliza números para descrevê-las. Elas podem ser divididas 
em ordinais (se os valores agregam a ideia de ordem) e nominais (não 
agregam a ideia de ordem).
Independentemente da situação estudada, em áreas da medicina, engenharia ou 
qualquer outra atividade, as etapas dos processos estatísticos são semelhantes. Na 
figura 1 abaixo podemos observar de forma detalhada as etapas básicas de um processo 
estatístico. 
Figura 1. Fluxograma de um processo estatístico padrão.
 
 
Coleta 
Tabulação 
Apresentação 
Análise 
Direta 
Indireta 
Crítica 
Apuração 
Resumo 
dos dados 
Conclusão e 
interpretação 
Descritiva 
Estatística 
inferencial e 
multivariada 
Fonte: Adaptada de https://goo.gl/38ATrT (ESTATÍSTICA, 2018).
Onde:
 » Coleta de dados.
 › Refere-se a obtenção, reunião e registro sistemático de dados, com o 
objetivo já pré-definido. A escolha da fonte de obtenção dos dados está 
diretamente relacionada ao tipo do problema, objetivos do trabalho, 
escala de atuação e disponibilidade de tempo e recursos. Existem 
as fontes primárias (levantamento direto no campo por meio de 
mensurações diretas ou de entrevistas aplicadas a sujeitos de interesse 
para a pesquisa e as fontes secundárias (publicações ou registros 
por outra organização). A coleta de dados secundários é feita por 
15
ESTATÍSTICA BÁSICA │ UNIDADE I
documentos cartográficos. Estas fontes de informação são de extrema 
relevância.
 › A coleta dos dados pode ser realizada de forma direta (quando 
são obtidos diretamente da fonte primária, como por exemplo os 
levantamentos de campo por meio de questionários) ou indireta 
(quando é inferida a partir dos elementos conseguidos pela coleta 
direta, ou por conhecimento de outros fenômenos que estejam 
relacionados com o fenômeno em questão).
 » Tabulação (Crítica dos dados e Apuração).
 › A crítica dos dados deve ser realizada cuidadosamente por meio de um 
trabalho de revisão e correção, denominado de crítica, objetivando a 
não ocorrência de erros que possam influenciar de maneira significativa 
nos resultados.
 › As perguntas dos questionários não entendidas, os enganos evidentes, 
tais como somas erradas, trocas de respostas, entre outros, são de 
correção fácil. Contudo, faz-se necessário, que o crítico não faça a 
correção por simples suposição sua, mas sim, que tenha chegado a 
conclusão total do engano.
 › O processo de apuração consiste no resumo dos dados por meio de 
sua contagem ou agrupamento. Por meio da apuração, é possível 
a condensação dos dados, obtendo-se um conjunto compacto de 
números, o qual possibilita diferenciar o comportamento do fenômeno 
na sua maioria.
 » Apresentação.
 › Organização do conjunto de dados de modo prático e racional. Essa 
organização é denominada de Série Estatística. Sua apresentação 
pode ser por tabelas ou gráficos. A apresentação utilizando tabelas, 
consiste em preparar os dados em linhas e colunas distribuídos de 
modo ordenado, de acordo com algumas regras práticas seguidas 
pelo Conselho Nacional de Estatística. As tabelas têm a vantagem de 
conseguir expor, em um só local, os resultados sobre determinado 
assunto, de modo a se obter uma visão geral mais rápida daquilo que 
se pretende analisar. Já a apresentação através de gráficos, consiste em 
16
UNIDADE I │ ESTATÍSTICA BÁSICA
uma apresentação geométrica dos dados, isto é, ela permite ao analista 
obter uma visão rápida, fácil e clara do fenômeno e sua variação.
 » Análise.
 › Obtenção de conclusões que auxiliem o pesquisador a resolver seu 
problema. A análise dos dados estatísticos está ligada fundamentalmente 
ao cálculo de medidas, cujo objetivo principal é descrever o fenômeno. 
Assim sendo, o conjunto de dados a ser analisado pode ser expresso 
por número-resumo, que evidenciam características particulares desse 
conjunto.
 › Às vezes é necessário resumir certas características das distribuições 
de dados por determinadas quantidades, que são denominadas 
comumente de medidas. Existem medidas de posição e medidas de 
dispersão, consideradas mais importantes no campo da aplicabilidade 
prática do cotidiano. Tais medidas tem como objetivo: a localização de 
uma distribuição e a caracterização de sua variabilidade.
 › As medidas de posição também chamadas de Tendência Central, 
são utilizadas para localizar a distribuição dos dados brutos ou das 
frequências sobre o eixo de variação da variável em questão. Veremos 
posteriormente no Capítulo 3 desta unidade os três tipos principais de 
medidas de posição: 
 · Média aritmética, é obtida somando todos os valores de um conjunto 
de dados e dividindo o valor encontrado pelo número de dados 
desse conjunto.
 · Mediana, é uma quantidade que, como a média, também caracteriza 
o centro de uma distribuição pertencente a um conjunto de dados. 
 · Moda, é uma quantidade que, como a média, também caracteriza 
o centro de uma distribuição, indicando a região das máximas 
frequências.
 › As medidas de dispersão ou de variabilidade são consideradas 
complementos das informações fornecidas pelas medidas de posição. 
Essas medidas servem para indicar o “quanto os dados se apresentam 
dispersos em torno da região central”. Deste modo, caracterizam o 
grau de variação existente em um conjunto de valores. Os principais 
tipos de medidas de dispersão são:
17
ESTATÍSTICA BÁSICA │ UNIDADE I
 · Amplitude, é definida como a diferença entre o maior e o menor 
valores do conjunto de dados.
 · Variância, definida como a média dos quadrados das diferenças 
entre os valores em relação a sua própria média. 
 · Desvio Padrão, é definido como a raiz quadrada positiva da variância. 
 · Coeficiente de Variação, é definido como o quociente entre o desvio 
padrão e a média, sendo comumente expresso em porcentagem.
Caro estudante, você estudou sobre os conceitos de estatística mais comumente 
utilizados em distintas áreas do conhecimento. Vale ressaltar que é muito 
importante que outras fontes sobre o assunto abordado sejam buscadas, deste 
modo, sugerimos a consulta do seguinte link: http://www.portalaction.com.br/
estatistica-basica (ESTATÍSTICA BÁSICA, 2018).
18
CAPÍTULO 2
Estatística descritiva, probabilidade e 
inferência estatística
Como dito no capítulo anterior a Estatística pode ser divididas em três categorias: 
Descritiva, Probabilidade e Inferência. 
Estatística descritiva
A estatística descritiva é a etapa inicial da análise empregada para descrever e resumir 
os dados, objetivando facilitar a compreensão e a utilização da informação ali contida, 
ou seja, na Estatística Descritiva faz-se necessário a utilização de tabelas, gráficos, 
diagramas, distribuições de frequência e medidas descritivas a fim avaliar o formato 
geral da distribuição dos dados, a verificação da ocorrência de valores não típicos, 
a identificação de valores típicos que informem sobre o centro da distribuição e a 
verificação do grau de variação presente nos dados.
Um dos objetivos da Estatística é resumir os valores que uma ou mais variáveis podem 
assumir, para que se tenha uma visão global dessas variáveis. Isto é possível por Séries 
Estatísticas que apresentam valores em tabelas e gráficos, fornecendo de forma maisrápida e segura informações das variáveis estudadas, permitindo assim determinações 
mais coerentes: 
Tabelas
Por definição, é um quadro que resume um conjunto de dados dispostos segundo 
linhas e colunas de maneira sistemática. Denomina-se Série Estatística toda tabela que 
apresenta a distribuição de um conjunto de dados estatísticos em função da época, do 
local, ou da espécie (fenômeno). Em uma série estatística observa-se a existência de três 
fatores: o tempo, o espaço e a espécie. Conforme a variação de um desses elementos, a 
série estatística classifica-se em:
 » Série temporal, histórica ou cronológica: é a série cujos dados estão 
variando com o tempo.
 » Série geográfica, territorial ou de localidade: é a série cujos dados estão 
em correspondência com a região geográfica, isto é, o elemento variável é 
o fator geográfico (a região).
19
ESTATÍSTICA BÁSICA │ UNIDADE I
 » Série específica ou categórica: é a série cujos dados estão em 
correspondência com a espécie, isto é, variam com o fenômeno.
 » Séries mistas: são as combinações entre as séries anteriores constituindo 
novas séries denominadas séries mistas e são apresentadas em tabelas 
de dupla entrada. Como exemplo pode se citar uma Série Temporal-
Específica, os elementos variáveis são o tempo e a espécie e o elemento 
fixo é o local.
 » Série homógrada: é aquela em que a variável descrita apresenta variação 
discreta ou descontínua. São séries homógradas a série temporal, a 
geográfica e a específica.
 » Série heterógrada: é aquela na qual o fenômeno ou fato apresenta 
gradações ou subdivisões. Esse fenômeno varia em intensidade. 
Exemplos: a distribuição de frequências ou seriação.
É de extrema relevância saber que uma tabela nem sempre representa uma 
série estatística, pois pode ser um aglomerado de informações úteis sobre um 
determinado assunto. Fique atento!
Gráficos
Vale ressaltar que a apresentação gráfica é um complemento importante da apresentação 
em tabelas. A vantagem de um gráfico em relação a tabela está na possibilidade de 
uma rápida impressão visual da distribuição dos valores ou das frequências ressaltadas. 
Os gráficos proporcionam uma ideia a princípio mais satisfatória da concentração e 
dispersão dos valores, já que por meio deles os dados estatísticos são visualmente 
interpretáveis. Podemos dizer que os requisitos fundamentais de um gráfico são: sua 
simplicidade (deve possibilitar a análise rápida do fenômeno observado), clareza (deve 
possibilitar interpretações corretas dos valores do fenômeno), e veracidade (deve 
expressar a verdade sobre o fenômeno notado).
Os gráficos podem ser classificados quanto: a forma e ao objetivo. 
Os tipos de gráficos quanto à forma são: 
 » Diagramas: gráficos geométricos dispostos em duas dimensões. São 
mais usados na representação de séries estatísticas (gráficos em barras 
horizontais, barras verticais - colunas, barras compostas, colunas 
superpostas, em linhas, e em setores).
20
UNIDADE I │ ESTATÍSTICA BÁSICA
 » Cartogramas: é a representação sobre uma carta geográfica. São mais 
empregados na Geografia, História e Demografia.
 » Estereogramas: representam volumes e são apresentados em três 
dimensões. São usados comumente em representações gráficas das 
tabelas de dupla entrada.
 » Pictogramas: a representação gráfica consta de figuras representativas 
do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção 
de qualquer público, pois possui forma sugestiva. Contudo, apresentam 
uma visão geral do fenômeno, sendo isso uma desvantagem, já que não 
mostram detalhes mais específicos. 
Os tipos de gráficos quanto aos objetivos são:
 » Gráficos de informação: objetivam uma visualização rápida e clara da 
intensidade das categorias ou dos valores relativos ao fenômeno. São 
gráficos expositivos, e que procuram dispensar comentários explicativos, 
isto é, sendo o mais completo possível.
 » Gráficos de análise: objetivam fornecer informações importantes na fase 
de análise dos dados. Esses gráficos comumente vêm acompanhado de 
uma tabela e um texto onde é destacado os pontos principais revelados 
pelo gráfico ou pela tabela.
Distribuição de frequências e gráficos
Uma forma eficiente de sumarização se faz necessário para muitos dados. Uma das 
formas comumente utilizada para resumir e apresentar dados é por meio de tabelas de 
distribuição de frequências, podendo ser de dois tipos: 
 » Classificação simples: representadas por tabelas de frequências 
relacionadas a uma variável. As características dessas tabelas variam de 
acordo com o tipo de variável em estudo, podendo do tipo categórica ou 
do tipo numérica contínua.
 » Classificação cruzada: existem algumas situações em que é realizado um 
estudo de duas ou mais variáveis ao mesmo tempo. Com isso, surgem 
as distribuições conjuntas de frequências, isto é, relacionadas a duas 
variáveis, numéricas ou categóricas.
21
ESTATÍSTICA BÁSICA │ UNIDADE I
As distribuições de frequências podem ser também representadas graficamente de duas 
formas diferentes: 
 » Histograma, consiste em um conjunto de retângulos contíguos cuja base 
é igual à amplitude do intervalo e a altura proporcional à frequência das 
respectivas classes).
 » Polígono de frequências, que é constituído por segmentos de retas que 
unem os pontos cujas coordenadas são o ponto médio e a frequência de 
cada classe. 
É importante mencionar também as medidas descritivas, que objetiva a redução de um 
conjunto de dados observados (numéricos) a um pequeno grupo de valores que deve 
fornecer toda a informação relevante relacionadas a esses dados. Estas medidas podem 
ser classificadas em quatro grupos distintos:
 » Medidas de localização: indicam um ponto central, está localizada 
a maioria das observações. As medidas mais utilizadas são a média 
aritmética, a mediana e a moda.
 » Medidas separatrizes: indicam limites para proporções de observações 
em um conjunto, podendo ser utilizadas para construir medidas de 
dispersão.
 » Medidas de variação ou de dispersão: informam sobre a variabilidade dos 
dados. As medidas mais utilizadas são: a amplitude total, a variância, o 
desvio padrão e o coeficiente de variação.
 » Medidas de formato: informam sobre o modo como os valores se 
distribuem. As medidas mais utilizadas e precisas são as medidas de 
assimetria, que indicam se a maior proporção de valores está no centro 
ou nas extremidades, e as medidas de curtose, que descrevem grau de 
achatamento da distribuição.
É importante para o estudo da Estatística como ciência, o conhecimento detalhado 
sobre seus fundamentos, dessa forma indicamos uma leitura complementar 
sobre a Estatística Descritiva com exemplicações a seguir: https://fenix.tecnico.
ulisboa.pt/downloadFile/3779573118035/Estatistica_Descritiva_2008_09.pdf 
(ESTATÍSTICA DESCRITIVA, 2018).
22
UNIDADE I │ ESTATÍSTICA BÁSICA
Probabilidade
A probabilidade tem por finalidade descrever os fenômenos aleatórios, isto é, aqueles 
em que está presente a incerteza. Há dois tipos de modelos matemáticos:
 » Modelos Determinísticos: é apresentado como um modelo que estipule 
que as condições sob as quais um experimento seja realizado, possam 
determinar o resultado do experimento. O modelo determinístico 
necessita do uso de parâmetros pré-definidos em equações que definem 
processos precisos.
 » Modelos Não Determinísticos ou Probabilísticos: trazem informações 
sobre a chance ou probabilidade de os acontecimentos ocorrerem. 
Os conceitos básicos em probabilidade são experimentos aleatórios, espaço amostral e 
eventos.
 » Experimento aleatório (W): qualquer processo aleatório, que produza 
observações, e os resultados surgem ao acaso, podendo haver repetições 
no futuro. 
 » Espaço amostral (S): é o conjunto de resultados possíveis, de um 
experimento aleatório. O número de elementos pode ser: finito (número 
limitado de elementos) e infinito (número ilimitado de elementos). 
 » Evento: um evento (E) é qualquer subconjunto de um espaço amostral(S).
No conceito empírico de probabilidade temos que o principal problema da probabilidade 
consiste na atribuição de um número a cada evento (E), o qual avaliará quão possível 
será a ocorrência de “E”, quando o experimento for realizado. Uma maneira de resolver 
a questão seria a determinação da frequência relativa do evento E (fr(E)):
( ) 
 r
númerodeocorrências doeventof E
númeroderepetições doexperimento
=
Sendo assim, a probabilidade pode ser definida como: 
( ) aP E
a b
=
+
No conceito clássica (“A priori”) de probabilidade temos que se existe “a” resultados 
possíveis favoráveis a ocorrência de um evento “E” e “b” resultados possíveis não 
favoráveis, sendo os mesmos mutuamente excludentes, então teremos:
23
ESTATÍSTICA BÁSICA │ UNIDADE I
No conceito axiomática de probabilidade, define-se como seja (W) um experimento, 
seja (S) um espaço amostral associado a (W). A cada evento (E) associa-se um número 
real representado por P(E) e denominaremos de probabilidade de E, satisfazendo 
algumas propriedades que são conhecidas como axiomas da teoria da probabilidade. 
Os axiomas, algumas vezes, se inspiram em resultados experimentais de forma que a 
probabilidade possa ser confirmada experimentalmente.
Caro estudante, o que reportamos acima foi apenas um pouco do amplo conteúdo 
sobre probabilidade que você poderá encontrar em outras fontes de consulta. 
Sugerimos como uma dessas fontes, o site a seguir:< http://www.portalaction.
com.br/probabilidades/introducao-probabilidade > (PROBABILIDADE, 2018). 
Esperamos que possa se aprofundar mais nesse assunto.
Inferência estatística
Por definição, é um processo de raciocínio indutivo, em que se procuram tirar conclusões 
indo do particular, para o geral. É um tipo de raciocínio contrário ao tipo de raciocínio 
matemático, essencialmente dedutivo. É empregado quando o objetivo é o estudo 
de uma população, avaliando apenas alguns elementos dessa população, isto é, uma 
amostra. Por exemplo, em uma pesquisa científica, geralmente, o processo ocorre da 
seguinte maneira: são feitos levantamentos amostrais e experimentos são realizados 
com amostras, porém o pesquisador não quer suas conclusões limitadas à amostra com 
a qual trabalhou, ao contrário, o objetivo é expandir os resultados que obteve para toda 
a população. Dessa forma, o pesquisador quer fazer inferência. A Figura 2 apresenta 
esquematicamente como é o processo de inferência.
Figura 2. Processo de Inferência Estatística.
 
 
População Amostra 
Amostragem 
Resultados 
Inferência 
Fonte: Adaptada de https://goo.gl/VPheQv.
Observando a figura 2 podemos chegar a seguinte explicação: para poder generalizar 
as conclusões obtidas da amostra para a população, é necessário que a amostra seja 
representativa da população e não somente que os dados sejam descritos bem. 
24
UNIDADE I │ ESTATÍSTICA BÁSICA
Isto significa que a amostra deve possuir as mesmas características básicas da população 
relacionadas às variáveis que se deseja pesquisar. A partir disso surgiu o conceito de 
erro provável. A possibilidade de erro é inerente ao processo de inferência, isto é, toda 
vez que se estuda uma população a partir de uma amostra, existe a possibilidade de 
se cometer algum tipo de erro de conclusão final. A maior aplicação da Inferência 
Estatística é fornecer métodos que admitam quantificar esse erro provável. Alguns 
conceitos fundamentais da Inferência Estatística foram estudados no capítulo 1, como, 
população, amostra e amostragem.
Existem dois tipos de Inferência: estimação de parâmetros e testes de hipóteses:
A estimação de parâmetros é realizada com o auxílio de um estimador, isto é, de uma 
fórmula que descreve o modo de calcularmos o valor de determinado parâmetro 
populacional. A estimação pode ser dividida em duas partes, estimação por pontos e 
estimação por intervalos. 
 » Na estimação por ponto o objetivo é usar a informação amostral e 
apriorística para se calcular um valor que seria, em certo sentido, nossa 
melhor avaliação quanto ao valor de fato do parâmetro em questão. Na 
estimativa por intervalo utiliza-se a mesma informação com a finalidade 
de se produzir um intervalo que contenha o valor verdadeiro do parâmetro 
com algum nível de probabilidade. Como um intervalo está plenamente 
caracterizado por seus limites, a estimação de um intervalo equivale à 
estimação de seus limites.
 » Enquanto o teste de hipótese é um procedimento estatístico em que 
se busca verificar uma hipótese a respeito da população, no sentido de 
aceitá-la ou rejeitá-la, partindo de dados amostrais, baseados na teoria 
das probabilidades. Existem as hipóteses subjacentes, são aquelas 
informações que não se almeja que sejam expostas a testes. E as hipóteses 
testáveis que consistem em suposições remanescentes que devem ser 
testadas. O teste de hipótese é composto de três passos fundamentais: 
definição das hipóteses, estabelecimento dos limites entre as regiões de 
aceitação e rejeição e a obtenção do valor amostral do teste estatístico.
Para garantir a independência entre os elementos da amostra, as escolhas devem ser 
feitas com reposição. Como os valores que compõem a amostra são aleatórios, qualquer 
função (total, média, variância, entre outros) dos elementos da amostra será também 
uma variável aleatória. Como as estatísticas são funções de variáveis aleatórias, 
também são variáveis aleatórias e, consequentemente, terão alguma distribuição de 
25
ESTATÍSTICA BÁSICA │ UNIDADE I
probabilidade com média, variância. A distribuição de probabilidade de uma estatística 
é chamada de distribuição amostral.
Dessa forma, a inferência estatística visa inferir para a população a partir da amostra. 
Assim, todas as informações que temos sobre a população são advindas da amostra, 
isto é, trabalhamos efetivamente com estatísticas, que são variáveis aleatórias. Deste 
modo, é extremamente necessário que conheçamos as distribuições amostrais dessas 
estatísticas. A média da amostra () é a estatística mais utilizada devido suas propriedades 
interessantes.
A Inferência Estatística é baseada em estatísticas amostrais. A chave para resolver 
as questões de Inferência Estatística consiste na caracterização probabilística 
da estatística amostral utilizada, identificando a distribuição de probabilidades 
da estatística amostral em causa e apurando os parâmetros importantes dessa 
distribuição.
O uso generalizado da distribuição normal na estatística deve-se ao Teorema Central do 
Limite. Esse teorema apresenta três propriedades básicas: 
 » A média da distribuição amostral é igual à média da população, e igual à 
média de uma amostra quando o tamanho da amostra tende ao infinito 
(segundo Lei dos Grandes Números). 
 » A forma da distribuição amostral tende a assumir a forma de sino à 
medida que se aumenta o tamanho da amostra, e aproximadamente 
normal, independente da forma da distribuição da população. 
 » A forma da distribuição amostral cresce em altura e decresce em dispersão 
à medida que o tamanho da amostra cresce.
Consideremos uma população com média µ e desvio padrão σ, e selecionamos várias 
amostras de tamanho n. Para cada uma dessas amostras pode-se calcular a respectiva 
média. Pelo Teorema Central do Limite, a distribuição das médias destas amostras 
tende para uma distribuição normal com média µ (igual à média da população) e com 
desvio padrão. O desvio padrão da distribuição das médias amostrais recebe o nome de 
erro padrão da média.
A Inferência Estatística é uma das áreas da Estatísticas mais utilizadas, contudo, é 
necessário que exista um aprofundamento sobre esse assunto. Assim, sugerimos 
que você, estudante, busque mais sobre esse tema e para ajudá-lo indicamos 
a consulta do seguinte arquivo disponível em:< https://goo.gl/4fm5VW> 
(INFERÊNCIA, 2018).
26
CAPÍTULO 3
Média, moda, mediana, desvio padrão, 
intervalo de confiança, testes t não 
pareado e pareado, teste Q
Suponhamos que um analista de controle de qualidade de uma indústriaalimentícia 
queira determinar a concentração de cálcio em um determinado lote de bebida láctea, 
e faça a coleta aleatória de 3 embalagens desse mesmo lote para análise. Os resultados 
das análises (feitas em 5 réplicas) são mostrados na Tabela 1.
Tabela 1. Resultados de concentração de Ca (em mg/g) para análise de 5 amostras de bebidas lácteas (n=3).
Amostra Réplica 1 Réplica 2 Réplica 3 Réplica 4 Réplica 5
A 1,56 1,62 1,58 1,62 1,54
B 1,52 1,53 1,54 1,55 1,58
C 1,56 1,56 1,58 1,53 1,57
Fonte: Adaptado de Miller e Miller (2010).
A partir dos resultados obtidos, podemos comparar eles utilizando parâmetros 
estatísticos que os relacionam a uma tendência central. A média aritmética ( é o valor 
numérico significativo que mostra que se concentram os dados combinados de uma 
dada distribuição, e pode ser obtida pela razão entre o somatório dos valores individuais 
() referentes ao conjunto de dados desejado () e o número de medidas (n), segundo 
(MILLER; MILLER, 2010):
 ixx
n
∑
=
Considerando os dados da tabela 1, podemos obter a média para cada uma das amostras. 
Para a amostra A, temos que = 1,56 + 1,62 + 1,58 + 1,62 + 1,54 = 7,92 e n = 5 (réplicas), 
obtendo-se assim um valor de = 7,92 / 5 = 1,58. De maneira análoga podemos obter 
os valores médios para as amostras B ( = 1,54) e C ( = 1,56). Note ainda que também 
podemos obter o valor médio para todo o conjunto de dados, sendo nesse caso = 23,44, 
n = 15 (5 réplicas de 3 amostras) e = 1,56. Note que quanto maior o número de réplicas, 
maior a proximidade do valor tido como verdadeiro (valor real da amostra) e maior a 
confiabilidade do resultado.
A moda é definida como o(s) valor(es) que ocorrem com maior frequência dentro de 
um conjunto de dados amostral. Como esse parâmetro não é obtido por meio de uma 
fórmula específica como a média, para calculá-lo basta observar o conjunto de dados e 
27
ESTATÍSTICA BÁSICA │ UNIDADE I
verificar o valor que mais aparece. Considerando as amostras A e C individualmente, 
os valores de moda são 1,62 (amostra A) e 1,56 (amostra C), visto que cada um deles 
aparece um maior número de vezes (duas em cada conjunto). Para a amostra B, não 
há valores repetidos e, portanto, não há moda. Considerando agora o conjunto que 
engloba todas as amostras (n=15), temos dois valores de moda, 1,56 e 1,58, sendo assim, 
podemos dizer que este conjunto é bimodal.
A mediana é caracterizada como resultado da divisão do conjunto de dados em dois 
subconjuntos de mesmo tamanho (metade menor e maior), ou seja, divide o conjunto 
ao meio. Em termos práticos, a mediana é obtida rearranjando-se os dados de forma 
crescente. Considerando a amostra A, temos o conjunto rearranjado como: {1,54, 1,56, 
1,58, 1,62, 1,62}. Como nesse caso o número de dados é ímpar, o resultado da divisão 
desse conjunto ao meio é 1,58 (valor 1, valor 2, mediana, valor 4, valor 5). Suponhamos 
agora que o conjunto de dados seja par e dado pelo descarte do último valor, ou seja, 
{1,54, 1,56, 1,58, 1,62}. Nesse caso os valores que dividem o conjunto ao meio são 1,56 
e 1,58, sendo a mediana obtida pela média dos valores ((1,56 + 1,58)/2), ou seja, 1,57. 
Se considerarmos o conjunto completo de dados (com n=15) teremos: {1,52, 1,53, 1,53, 
1,54, 1,54, 1,55, 1,56, 1,56, 1,56, 1,57, 1,58, 1,58, 1,58, 1,62, 1,62}, sendo a mediana o 8º 
valor, ou seja, 1,56. 
Na determinação do grau de dispersão entre os dados de um conjunto, utilizamos o 
cálculo do desvio padrão (s) em torno de uma média. O desvio padrão é um parâmetro 
que sugere o quanto um conjunto de dados é uniforme, e quanto mais próximo de 0, 
mais homogêneos são os dados. De maneira genérica, o desvio padrão é dado pela raiz 
quadrada da relação entre somatório das diferenças entre os valores individuais ( )ix 
e médio ( )x ( ao quadrado ( )( )2ii x x−∑ e o número de dados menos um (n-1), de acordo 
com a relação (MILLER; MILLER, 2010):
( )2
2 
1
ii
x x
s
n
−
=
−
∑
Observando os dados contidos na Tabela 1, o desvio padrão obtido para a amostra A, 
como mostrado na Tabela 2 é:
28
UNIDADE I │ ESTATÍSTICA BÁSICA
Tabela 2. Dados (n=5) para o cálculo do desvio padrão (s) para a amostra A.
Réplicas da 
amostra A (x
i
)
Média
( )x )−i(x x
2−i(x x) ( )
2−∑ ii x x Desvio padrão (s)
1,56
1,58
-0,02 0,0004
0,0052
( )2
2
1
ii
x x
s
n
−
=
−
∑
0,0052 
5 1
s =
−
0,036s =
1,62 0,04 0,0016
1,58 0 0
1,62 0,04 0,0016
1,54 -0,04 0,0016
 
Fonte: adaptado de Miller e Miller (2010).
Semelhantemente podemos obter os valores de desvio padrão para as amostras B (s = 
0,023), C (s = 0,019), assim como todos os dados da Tabela 1 (s = 0,030). Comparando-
se os desvios padrão para as 3 amostras, podemos inferir que os resultados para a 
amostra C apresentam os menores valores e, portanto, são mais homogêneos. 
Quando analisamos uma série de resultados experimentais, podemos descrever se o 
comportamento de fenômenos segue um determinado padrão. Para isso, utilizamos 
distribuições de probabilidades, sendo a distribuição normal uma das mais utilizadas. 
A distribuição normal (ou gaussiana) considera a frequência de ocorrência de um 
determinado dado numérico e pode ser facilmente verificada por gráfico do tipo 
histograma. Como exemplo, consideremos que a determinação de Ca na bebida láctea 
tenha sido realizada em 100 réplicas (n=100) e que obtemos as seguintes frequências 
de resultados: 1,52 (4x), 1,53 (5x), 1,54 (15x), 1,56 (62x), 1,58 (10x), 1,62(3x) e 1,63 
(1x). Colocando esses resultados na forma de histograma, temos o gráfico de barras 
representado na Figura 3. Podemos assumir que a média populacional ( )x ( nos dá 
uma estimativa do valor tido como verdadeiro para a análise (μ), ou seja, μ = x . De 
maneira análoga, o desvio padrão dessa população (σ) é dado por ( )22 /ix nσ µ= ∑ − , sendo 
importante considerar que nesse caso utilizamos n e não n-1 como descrito para o cálculo 
do desvio padrão de uma amostra (s). Note que o rearranjo dos dados na forma de um 
gráfico de dispersão gera uma curva com formato de sino (curva gaussiana) sendo o 
ápice do pico o valor médio de μ = 1,56 e o desvio padrão calculado de σ = 0,02.
29
ESTATÍSTICA BÁSICA │ UNIDADE I
Figura 3. Histograma e gráfico de distribuição normal.
 
 
0 
10 
20 
40 
30 
50 
60 
70 
1,52 1,53 1,54 1,56 1,58 1,62 1,63 
Fr
eq
uê
nc
ia
 
Concentração de Ca (mg/g) 
0 
10 
20 
40 
30 
50 
60 
70 
1,5 1,52 1,54 1,56 1,58 1,6 1,64 1,62 
Concentração de Ca (mg/g) 
Fr
eq
uê
nc
ia
 
Fonte: Adaptado de Miller; Miller (2010). 
Na distribuição normal, aproximadamente 68% dos valores populacionais estão 
situados entre a média (μ) ± 1 desvio padrão (σ), 95% dos valores entre a média (μ) 
± 2 desvios padrão (σ) e 99,7% dos valores entre a média (μ) ± 3 desvios padrão (σ), 
como ilustrado na Figura 4. No nosso exemplo prático, isso significa dizer que 68% dos 
valores estão entre 1,54 -1,58 (1,56 ± 0,02), 95% dos valores entre estão entre 1,52 -1,60 
(1,56 ± 0,04) e 99,7% dos valores entre 1,50 -1,62 (1,56 ± 0,06).
Figura 4. Propriedades da distribuição normal.
 
 
µ - 1σ µ + 1σ µ - 2σ µ + 2σ µ - 3σ µ + 3σ 
68% 95% 99,7
% 
Fonte: Adaptado de Miller; Miller (2010).
Uma vez definida a tendência central (média) e observando a dispersão dos pontos em 
torno dela, isto é, o desvio padrão, determina-se que uma faixa de confiabilidade em 
torno da média na qual há maior probabilidade de o valor verdadeiro estar incluso. 
Quando assumimos uma distribuição normal, essa faixa é denominada intervalo de 
confiança (IC) e os extremos dessa são denominados limites de confiança. A amplitude 
do intervalo de confiança irá depender do quão certos queremos estar sobre a inclusão 
do valor verdadeiro, além do tamanho da amostra utilizado no processo. O nível de 
confiança geralmente situa-se entre 90% e 99%, sendo que valores abaixo desse nível 
apresentam baixa confiabilidade e valores acima, embora sejam associados a elevada 
confiança, geram intervalos muito largos ou requerem grandes amostraspopulacionais, 
o que pode inviabilizar o processo e elevar o custo. O nível de confiança mais utilizado 
30
UNIDADE I │ ESTATÍSTICA BÁSICA
em cálculos é o de 95%. Em termos práticos, isso significa que se você coletar 100 
amostras populacionais e calcular 95% de intervalos de confiança, você esperaria que 
95 destes contivessem o parâmetro em estudo (geralmente a média) e em 5 deles não, 
o que gera um erro de inferência de 5%. 
Quando trabalhamos com uma larga quantidade de amostras, os limites do intervalo de 
confiança podem ser calculados segundo (MILLER; MILLER, 2010):
 zsx
n
±
onde ( é o valor médio, z o coeficiente de confiança, s o desvio padrão da média e n o 
tamanho da amostra. O valor de z depende do nível de confiança escolhido, sendo z95% = 
1,96 e z99% = 2,58. Quando uma pequena quantidade de amostras é submetida à análise, 
os limites de confiança são modificados e baseados na estatística t, segundo:
( )1 n
t s
x
n
−±
onde nesse caso o valor de t depende não apenas do nível de confiança como também 
do tamanho da amostra, sendo o grau de liberdade dado por n-1. Na Tabela 3 são 
apresentados alguns valores de t para distintos graus de liberdade e níveis de confiança. 
Na literatura ainda podem ser encontrados outros valores tabelados (MILLER; MILLER, 
2010). Note que quanto maior a população amostral, mais os valores de t se aproximam 
dos valores de z (1,96 para 95% e 2,58 para 99% de confiança)
Tabela 3. Valores de t para diferentes níveis de confiança e graus de liberdade.
Graus de 
liberdade (n-1)
Valores de t para níveis de confiança de
90% 95% 99%
1 6,31 12,7 63,66
2 2,92 4,30 9,93
3 2,35 3,18 5,84
4 2,13 2,78 4,60
5 2,02 2,57 4,03
10 1,81 2,23 3,17
50 1,68 2,09 2,68
100 1,66 1,98 2,63
 
Fonte: Adaptado de Miller; Miller (2010).
Retomemos agora o exemplo do Ca em bebidas lácteas e utilizemos os dados da Tabela 
1 para o cálculo dos limites e intervalos de confiança para as amostras A, B e C a níveis 
de 95 e 99%. A Tabela 4, resume um exemplo de cálculo para esses parâmetros. Note 
que a população amostral é pequena, sendo então adotada a abordagem com valores de 
31
ESTATÍSTICA BÁSICA │ UNIDADE I
t, e que também temos 5 réplicas, logo, o número de graus de liberdade (n-1) é igual a 
4 e o valor de t95% = 2,78 e t99% = 4,60. É importante verificar que em cada caso, quanto 
menor o desvio padrão, menor o intervalo de confiança e que quanto maior o nível de 
confiança, mais amplo o intervalo. 
Tabela 4. Exemplo de cálculo de intervalo de confiança utilizando os dados da tabela 1.
Amostra
Média
( )x
Desvio padrão 
(s)
Limite inferior
( )1−− n
t s
x 
n
Limite superior
( )1−+ n
t s
x 
n
Intervalo de 
confiança (IC)
95 % de confiança
A 1,58 0,036 1,54 1,62 1,54 < µ <1,62
B 1,54 0,023 1,51 1,57 1,51 < µ <1,57
C 1,56 0,019 1,54 1,58 1,54 < µ <1,58
99 % de confiança
A 1,58 0,036 1,65 1,51 1,51 < µ <1,65
B 1,54 0,023 1,59 1,49 1,49 < µ <1,59
C 1,56 0,019 1,52 1,60 1,52 < µ <1,60
 
Fonte: Adaptado de Miller e Miller (2010).
Considerando ainda o problema do analista de controle de qualidade da indústria 
alimentícia, muitas vezes precisamos comparar o resultado determinado via análise 
química com um valor de referência, tido como valor verdadeiro, a fim de verificar se 
os resultados são significativamente semelhantes ou diferentes estatisticamente. Esse 
procedimento pode auxiliar o analista em tomadas de decisão, como por exemplo 
rejeitar ou não um determinado lote de produto que não apresenta conformidade. 
Para a comparação de médias, lançamos mão de testes de significância, sendo um 
dos mais empregados o teste t de Student. Esse teste quando aplicado tem por 
finalidade a comparação de médias com um valor verdadeiro (teste t não pareado) 
ou de comparação de duas médias não independentes (teste t pareado). No teste t, 
assumimos uma distribuição normal, com variância desconhecida e formulamos as 
chamadas hipóteses, que são definidas como sendo suposições quanto ao valor de um 
parâmetro populacional ou afirmação a respeito de sua natureza. As hipóteses são 
caracterizadas como nula (H0) que é a hipótese a ser testada e alternativa (H1) que é a 
hipótese contrária a H0. Considerando nosso exemplo para o cálcio, suponhamos que 
o valor verdadeiro seja μ = 1,56 mg/g Ca e que um conjunto de 5 análises (n=5) nos 
forneceu uma média = 1,55 e um desvio padrão = 0,02. Podemos então formular como 
hipótese nula que a média de resultados de análise ( é estatisticamente semelhante ao 
valor verdadeiro, ou seja H0 = 1,56, e como hipóteses alternativas que o ele seja menor 
(H1 < 1,56), maior (H1 > 1,56) ou diferente (H1 ≠ 1,56). Quando consideramos os valores 
32
UNIDADE I │ ESTATÍSTICA BÁSICA
menores ou maiores individualmente, as hipóteses são denominadas unilaterais e para 
valores diferentes, consideramos ambos os lados (maior e menor que 1,56), sendo esse 
chamado de bilateral. Normalmente, a hipótese nula é rejeitada P = 0,05, isto é, se a 
probabilidade P de ocorrer diferenças significativas for de até 5%, desta forma, obtendo-
se um nível de confiança de 95%. Aplicando-se o teste t não pareado, calculamos 
então o valor de t (em módulo), segundo:
 calculado
xt s
n
µ−
=
Substituindo-se os valores informados, temos um valor de tcalculado igual a 1,118. O valor 
de t calculado pode ser comparado com o valor de tcrítico que é disposto em tabelas 
como exemplificado na Tabela 3. Nesse caso, o valor de tcrítico é de 2,78 para 4 graus 
de liberdade (n-1) e com nível de confiança = 95%. Se tcalculado < tcrítico então a hipótese 
nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística em 
comparação ao valor verdadeiro, e se tcalculado > tcrítico, H0 é rejeitada e os resultados são 
diferentes estatisticamente a um nível de 95% de confiança.
Consideremos agora que a amostra do exemplo anterior que foi analisada no laboratório 
da própria planta da indústria, que a média foi de 1x = 1,55 e o desvio padrão s1 = 0,02 
(n=5), tenha sido enviada para um segundo laboratório credenciado, e que este obteve 
como resultados para um conjunto de 7 análises (n=7) uma média 2x = 1,53 e um desvio 
padrão s2=0,03. Nesse caso, podemos comparar as médias e desvios de cada laboratório 
e dizer se são semelhantes ou não estatisticamente utilizando o teste t pareado. Dessa 
forma, consideramos que a hipótese nula (H0) é de que os resultados interlaboratoriais 
são semelhantes 2 2( )x x= e como hipótese alternativa (H1) que são diferentes 2 2( )x x≠
. Devemos nos atentar também ao fato de que os tamanhos de amostra são diferentes 
(n1 = 5 e n2 = 7) e que os desvios são diferentes (s1 ≠ s2). Se os desvios não forem muito 
diferentes, podemos combiná-los de acordo com:
( ) ( )2 21 1 2 2
1 2
1 1 
 
2
n s n s
S
n n
− + −
=
+ −
No nosso exemplo, o valor calculado de desvio agrupado é S = {[(5-1) x (0,02)2 + (7-1) x 
(0,03)2]/(5+7-2)}, ou S = 0,07. Na determinação do valor de tcalculado, podemos aplicar a 
relação seguinte (em módulo):
1 2
 
2
1 2
 
1 1
calculado
x xt
S
n n
−
=
 
+ 
 
33
ESTATÍSTICA BÁSICA │ UNIDADE I
Substituindo-se os valores informados, temos um valor de tcalculado igual a 0,488. O 
valor de t calculado pode ser comparado com o valor de tcrítico, sendo o número de graus 
liberdade igual a n1 + n2 – 2. No nosso exemplo, para 10 graus de liberdade temos o valor 
de tcrítico = de 2,23 a um nível de 95% de confiança. Como tcalculado < tcrítico então a hipótese 
nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística entre as 
duas médias de resultados.
Todos nós estamos familiarizados com o termo “um ponto fora da curva” quando 
descrevemos um comportamento considerado anormal frente a uma tendência. Nas 
ciências experimentais, podemos nos deparar muitas vezes com um dado discrepante 
e que pode gerar resultados subestimados ou superestimados com erros maiores. Para 
descobrir se um outlier (resultado inesperado) deve ser mantido no conjuntode dados 
ou descartado, podemos aplicar o teste Q. Esse teste é bastante popular devido a sua 
simplicidade e deve ser aplicado a dados provenientes de uma mesma população, 
assumindo também uma distribuição normal dos erros. O valor de Qcalculado pode ser 
obtido (em módulo) segundo:
 
 
 calculado
valor suspeito valor mais próximoQ
valor maior valor menor
−
=
−
O valor de Qcalculado é então comparado com o de Qcrítico, conforme apresentado na Tabela 
5 para diferente tamanho de amostra e níveis de confiança.
Tabela 5. Valores de Q para diferentes níveis de confiança e tamanho da amostra.
Tamanho da 
amostra (n)
Valores de Q para níveis de confiança de
90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
10 0,412 0,466 0,568
20 0,300 0,342 0,425
30 0,260 0,298 0,372
 
Fonte: Adaptado de Miller e Miller (2010).
Consideremos como exemplo o seguinte conjunto de resultados {0,402, 0,410, 0,400, 
0,360, 0,401, 0,412, 0,407}, temos uma média de 0,399 e um desvio padrão de 0,018. 
Nesse caso, o valor 0,360 é o suspeito de ser discrepante, 0,400 é o mais próximo do 
mesmo e os valores máximo e mínimo são de 0,412 e 0,360, respectivamente. Aplicando 
o teste Q, temos o valor calculado dado por Qcalculado = (0,360 – 0,400) / (0,412-0,360) 
= 0,769. Com um tamanho de amostra de 7 e para um nível de confiança = 95%, o valor 
34
UNIDADE I │ ESTATÍSTICA BÁSICA
de Qcrítico é igual a 0,568. Assim como ocorre para o teste t, como o valor crítico é maior 
que o valor calculado, o resultado suspeito deve ser rejeitado. Note que ao rejeitarmos 
o resultado, nossa nova média é de 0,405 e o desvio de 0,005, os quais traduzem de 
maneira mais fiel o comportamento do conjunto de dados.
Caro estudante, você estudou nesta unidade sobre alguns conceitos de 
estatística básica, pois o planejamento experimental depende fortemente 
do entendimento destes princípios. Com isso, sugerimos que consulte o link 
a seguir para um aprofundamento detalhado deste assunto: https://www.
measureevaluation.org/resources/training/capacity-building-resources/data-
quality-portuguese/moduloII_capa.pdf (NOÇÕES DE ESTATÍSTICA, 2018).
35
UNIDADE II
TRABALHANDO 
COM DADOS 
MULTIVARIADOS
CAPÍTULO 1
Análise exploratória de dados
A estatística descritiva pode ser dividida entre métodos univariados e multivariados. A 
análise univariada descreve as características e comportamentos de dados e resultados 
quando se analisa uma única variável separadamente. Porém, muitos são os casos em 
que temos múltiplas variáveis dependentes e independentes, o que consequentemente 
faz com que outros métodos multivariados para explorar a influência e a inter-
relação entre cada uma delas sejam utilizados. Devido à complexidade da análise 
de dados multivariados, vários softwares como Mathlab, Unscrumbler, Pirouette, 
SIMCA, Statistica (pagos), Octave e Scilab (livres) podem ser utilizados para análises 
exploratórias, construção de modelos e planejamento experimental. Em virtude disso, 
os métodos a seguir descritos serão abordados apenas em termos de seus fundamentos 
básicos e alguns exemplos práticos.
A análise exploratória de dados é uma abordagem estatística empregada no 
reconhecimento de regularidades e padrões de um conjunto de dados multivariado 
para retirar as informações mais importantes, encontrando tendências, agrupando 
conjuntos de acordo com similaridades e detectando comportamentos anômalos. Com 
o advento da microeletrônica e o desenvolvimento de computadores com capacidade 
de extrair e armazenar uma grande quantidade de dados em um intervalo de tempo 
breve, faz-se necessário o emprego de ferramentas matemáticas e estatísticas para o 
processamento desses dados e obtenção de informações valiosas sobre o problema em 
estudo, auxiliando assim em uma futura tomada de decisões (FERREIRA et al., 1999).
Método da análise de componentes principais 
(PCA)
A análise de componentes principais (PCA, do inglês Principal Component Analysis) 
é um método que utiliza a projeção de dados multivariados e visa a transformação 
36
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
deles de modo a reduzir sua dimensão e deixar mais evidentes as informações mais 
relevantes. Essa metodologia é bastante útil na identificação de diferenças entre as 
variáveis e visualização de comportamentos atípicos em determinadas amostras, o que 
é especialmente útil em processos de controle de qualidade industriais.
Um exemplo prático que melhor ilustra um método de projeção é a fotografia. 
Considerando uma paisagem, temos um espaço tridimensional (3 variáveis – altura, 
largura e profundidade) que é projetado num espaço bidimensional (papel) contendo 
menos variáveis que o conjunto de informações original. Nesse caso, dizemos que ocorre 
uma compressão controlada dos dados (perda de informações) mas que nos fornece 
uma melhor compreensão dos mesmos (FERREIRA, 2015). 
Suponhamos que o nosso analista da indústria de laticínios tenha determinado a 
concentração de cálcio em uma bebida utilizando um método instrumental de análise 
chamado espectrometria de emissão atômica, e que tenha avaliado os comprimentos de 
onda (λ) de 393,3 nm e 422,6 nm. para amostras com concentração crescente de Ca. A 
Tabela 6 ilustra os resultados obtidos, e é possível verificar que nesse caso temos duas 
variáveis (λ1 e λ2) e que essas são intrinsicamente dependentes apenas a concentração.
Tabela 6. Resultados para determinação espectrométrica de Ca.
Concentração de Ca 
(mg/L)
Intensidade de sinal para λ1 
(393 nm)
Intensidade de sinal para λ2 
(422 nm)
1 1005 2090
2 2030 3900
5 5003 9020
10 11070 20970
20 20100 39200
25 24200 50900
 
Fonte: Adaptado de Miller e Miller (2010).
Um gráfico de relação entre as variáveis intensidade para λ1 vs. intensidade para λ2 
poderia ser representado por uma série de pontos bidimensional (Figura 5). Note que o 
gráfico obtido utilizando os dados da Tabela 6, apresenta comportamento linear e uma 
boa correlação entre os pontos (R2 = 0,9986), indicando assim uma correlação entre 
as variáveis estudadas (λ1 e λ2). Tendo então, variáveis que se correlacionam, pode-
se combiná-las e agrupá-las para comprimir os dados e reduzir a o número menor 
de novas variáveis que ainda podem trazer informações significativas. Essas novas 
variáveis combinadas são chamadas de componentes principais.
37
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 5. Gráfico de intensidades de sinal para Ca em 393 e 422 nm a partir de dados da Tabela 5.
 
 
R² = 0,9986
0
10000
20000
30000
40000
50000
60000
0 5000 10000 15000 20000 25000 30000
In
te
ns
id
ad
e 
(4
22
 n
m
)
Intensidade (393 nm)
Fonte: Adaptado de Miller e Miller (2010).
As componentes principais apresentam como característica intrínseca o fato de serem 
ortogonais e não se correlacionarem entre si, visto que a informação presente em cada 
uma delas é única. Além disso, cada uma das componentes principais descreve uma 
quantidade de informação dos dados originais. A primeira (PC1) descreve a direção de 
máxima variância dos dados originais e a segunda (PC2), descreve a máxima variância 
dos dados na direção ortogonal a PC1. As componentes posteriores são ortogonais 
às anteriores, descrevendo assim a variância restante. O número de componentes 
principais que é adequado para descrever um determinado sistema é chamado de posto 
químico do conjunto de dados. Após definir o número de PCs e de determinar o posto 
químico, os dados podem ser projetados num novo sistema (FERREIRA, 2015).
Para facilitar a visualização, procederemos um tratamento matemático chamado 
“centrar na média” (CM), significa dizer que a média de um conjunto de dados de uma 
variável é calculada e então subtraída de cada um dos elementos. Outro tratamento 
bastante empregado é o “autoescalamento” (AE), após centrado na média, o valor 
resultante é dividido pelo desvio padrão referente àquela coluna de dados, o queauxilia 
a tornar mais evidente a correlação entre as variáveis (FERREIRA et al., 1999). 
Quando trabalhamos com métodos multivariados, é interessante organizar os dados 
em uma forma mais fácil de realizar os cálculos. Quando coletados, os dados podem 
ser organizados em um arranjo de “I” linhas e “J” colunas, chamado de matriz X, em 
que cada linha corresponde a uma amostra e cada coluna uma variável estudada. Dessa 
forma, podemos dizer por exemplo que 1Ix é o valor para a I-ésima linha e primeira 
coluna, 4 jx o valor para a J-ésima coluna da quarta linha e o valor para a I-ésima linha 
e J-ésima coluna.
38
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
[ ]
11 12 11
21 22 22
31 32 33
1 2 3 4
41 42 44
1 2
 
T
J
T
J
T
J
JT
J
T
I I IJI
x x x
x x x
x x x
x x x
x x x
 ×  
   ×   
   ×
= = = × × × × … ×   
×   
   … … … …
   
×      






X
Cada amostra i (x1J, x2J ... xIJ) pode ser associada a um vetor-linha (), composto pelos J 
valores de medidas realizados para os parâmetros estudados para aquela amostra. Esse 
vetor pode ser associado a um ponto no espaço com dimensão igual a J. De maneira 
análoga, para cada variável j (xI1, xI2 ... xIJ) pode-se associar um vetor (xj) a um ponto no 
espaço com dimensão I (FERREIRA et al., 1999). Note que a representação de matriz é 
usualmente feita na forma de coluna e que a matriz-linha gerada é a transposta (T) da 
matriz para determinada coluna.
[ ]
1
2
3
1 2 3
4
 
j
j
jT
i i i i iJ j
j
Ij
x
x
x
x x x x
x
x
 
 
 
 
× = × = 
 
 
 
  


Consideremos agora que nosso analista da indústria de laticínios tenha determinado 
a concentração de cálcio e de magnésio em matéria prima de leite por medidas de 
titulação em 6 amostras. Os resultados são descritos na Tabela 7.
Tabela 7. Resultados para determinação de Ca e Mg em leite e tratamentos matemáticos de centragem na 
média (CM) e autoescalamento (AE).
Amostra
[Ca] 
(mg/L)
[Mg] (mg/L)
[Ca] 
CM
[Mg] CM [Ca] AE [Mg]
AE
A 1,52 0,76 -2,375 -1,193 -1,35 -1,36
B 2,56 1,29 -1,335 -0,663 -0,76 -0,75
C 3,48 1,75 -0,415 -0,203 -0,24 -0,23
D 4,21 2,11 0,315 0,157 0,18 0,18
E 5,28 2,66 1,385 0,707 0,79 0,80
F 6,32 3,15 2,425 1,197 1,38 1,36
Média 3,90 1,95 - - - -
Desv. Pad. - - 1,76 0,88 - -
 
Fonte: Adaptado de Miller e Miller (2010).
39
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
No nosso exemplo, a matriz X é composta por 6 amostras (linhas) e 2 variáveis 
(colunas), ou seja, 6x2. Dessa forma, podemos reescrever os dados da Tabela 6 em 
termos de matrizes dos dados originais (X), centrados na média (Xcm) e autoescalados 
(Xae), como descrito abaixo:
1,52 0,76 2,375 1,193 1,35 1,36
2,56 1,29 1,335 0,663 0,76 0,75
3,48 1,75 0,415 0,203 0,24 0,23
4,21 2,11 0,315 0,157 0,18 0,18
5,28 2,66 1,385 0,707
6,32 3,15 2,425 1,197
− − − −   
   − − − −   
   − − − −
= = =   
   
   
   
   
cm aeX X X
0,79 0,80
1,38 1,36
 
 
 
 
 
 
 
 
 
A Figura 6 mostra o gráfico de correlação entre os dados originais, centrados na média 
e autoescalados.
Figura 6. Gráficos de correlação para os dados da Tabela 7.
 
 
2
3
4
5
6
7
1 1,5 2 2,5 3 3,5
C
on
ce
nt
ra
çã
o 
de
 C
a
Concentração de Mg
Dados originais
-3
-2
-1
0
1
2
3
-1,5 -1 -0,5 0 0,5 1 1,5
C
on
ce
nt
ra
çã
o 
de
 C
a
Concentração de Mg
Centrado na média Autoescalado
 
 
2
3
4
5
6
7
1 1,5 2 2,5 3 3,5
C
on
ce
nt
ra
çã
o 
de
 C
a
Concentração de Mg
Dados originais
-3
-2
-1
0
1
2
3
-1,5 -1 -0,5 0 0,5 1 1,5
C
on
ce
nt
ra
çã
o 
de
 C
a
Concentração de Mg
Centrado na média Autoescalado
Fonte: Adaptado de Miller e Miller (2010).
40
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
A análise de componentes principais utilizando o software, nos fornece duas novas 
variáveis, a PC1 e PC2. A primeira tem como característica apresentar o maior 
espalhamento dos pontos ao longo do eixo e a segunda descreve a informação restante 
dos dados em termos de variância. A representação gráfica das componentes principais 
se encontra na Figura 7. Para melhorar a visualização das componentes, podemos 
rotacionar os dados de modo que a PC1 se torne o eixo x e a PC2 o eixo y. 
Figura 7. Gráficos de PCA para as 6 amostras de leite analisadas.
 
 
C
on
ce
nt
ra
çã
o 
de
 M
g 
 
 
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
0,2
-3 -2 -1 0 1 2 3
PC
2
PC1
Fonte: Ferreira, (2015).
É importante notar que nesse caso, o gráfico de PCA com as variáveis combinadas 
linearmente e as coordenadas de seus pontos são distintas das dos gráficos de correlação 
entre as variáveis originais mostradas. No gráfico PC1 x PC2, as novas coordenadas são 
chamadas de “scores” e os coeficientes de combinação linear (ou seja, o quanto cada 
variável antiga contribui no gráfico), chamados de “loadings”. Na prática, os scores nos 
fornecem a composição das componentes principais em relação às amostras e os loadings 
a composição das componentes principais em relação às variáveis. Esse conjunto de 
parâmetros nos possibilita estimar a influência de cada variável em cada amostra 
41
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
individual. O cálculo de scores e loadings pode ser realizado por diferentes métodos, 
sendo um dos mais usados o de decomposição por valores singulares (SVD). Como 
exemplo prático podemos destacar um trabalho de tese de doutorado sobre adulteração 
de leite (SANTOS, 2013). A autora avaliou a adulteração de leite com água, soro, leite 
sintético, urina sintética e peróxido de hidrogênio, além de misturas de adulterantes 
em vários níveis (presença de 5 a 50% de adulterante), constituindo ao todo mais de 
1.000 amostras de leite. Foram avaliados como respostas 10 variáveis diferentes, todas 
relacionadas à análise de imagens digitais, e foi aplicada então uma PCA para avaliar 
sobreposições e/ou tendências de separação entre as amostras. A Figura 8 mostra um 
gráfico de scores para amostras de leite sem adulteração e adulterados em vários níveis. 
Verifica-se que há um agrupamento das amostras de acordo com o teor de adulteração: 
grupo 1 com 50% de adulteração (símbolos brancos), grupo 2 com 35% de adulteração 
(símbolos cinza escuro), grupo 3 com 5-25% de adulteração (símbolos cinza-claros) e 
amostras não adulteradas (preto). Verifica-se que não foi possível a distinção entre o 
tipo de adulterante empregado e que as classes de amostras com 5, 15 e 25% de alteração 
se sobrepuseram, indicando similaridade.
Figura 8. Gráfico de scores para amostras de leite com e sem adulteração.
Fonte: SANTOS, (2013).
É importante verificar que a PC1 explica 77% das variâncias do conjunto de dados e a 
PC2 17%, sendo que juntas essas informações constituem cerca de 94% do conjunto 
de dados original. No gráfico de loadings (Figura 9), é possível observar quais 
variáveis são mais significativas para separação e/ou agrupamento das amostras. 
42
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Nota-se que as variáveis V, B, L, R, G, r e g (loadings positivos para PC1) apresentaram 
valores maiores para essas variáveis em leites não adulterados ou com 5-25% de 
adulteração do que em leites adulterados com 35 e 50%.
Figura 9. Gráfico de loadings para amostras de leite com e sem adulteração.
Fonte: SANTOS, (2013).
Caro estudante, mantenha-se atento a leitura desse capítulo, são assuntos 
de extrema relevância para entendimentos futuros, sugerimos como leitura 
que consulte o seguinte link que fala um pouco mais sobre PCA: https://goo.
gl/2PZwdt (PCA, 2018).
Análise hierárquica de agrupamentos (HCA)
A análise hierárquica de agrupamentos (HCA, do inglês Hierarchical Cluster Analysis) 
é um método hierárquico, ou seja, constituído por um arranjo de itens (objetos, valores, 
categorias etc.) que são representados como estando “acima”, “abaixo” ou “no mesmo 
nível” um do outro. A HCA é considerada um método aglomerativopois considera cada 
objeto como um grupo unitário que vai se unindo por similaridade a outros até chegar 
a um grupo mais amplo. A matriz inicial de dados é processada e dimensionalmente 
reduzida pelo agrupamento por pares semelhantes sucessivos, até que a reunião de 
todos os grupos chegue a um único grupo.
A HCA é feita com a finalidade de traduzir os dados em um espaço bidimensional 
de maneira a destacar amostras com alguma similaridade (de uma mesma classe) e 
maximizar as diferenças entre amostras de grupos diferentes. 
https://goo.gl/2PZwdt
https://goo.gl/2PZwdt
43
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Os resultados são apresentados em uma árvore hierárquica denominada dendograma, 
um gráfico bidimensional que agrupo amostras ou variáveis de acordo com seu grau 
de similaridade. (CORREIA; FERREIRA, 2007). Para decidir quais objetos devem ser 
combinados ou onde um agrupamento deve ser dividido é necessária uma medida de 
similaridade entre os conjuntos. Isso é alcançado pelo uso de uma métrica (medida de 
distância entre pares de observações) apropriada e um critério de ligação que especifica 
a diferença dos conjuntos em função das distâncias. Como exemplo, podemos observar 
na Figura 10 um conjunto de dados e o agrupamento na forma de dendograma de 
acordo com as distâncias entre as amostras, onde é possível verificar que inicialmente 
temos 6 amostras (A, B, C, D, E e F) formando 6 grupos unitários.
Figura 10. Dados organizados por distância e agrupamento na forma de dendograma.
Fonte: Adaptado de Correia; Ferreira, (2007).
Como os pares A-C e B-E apresentam menores distâncias entre si, são agrupados 
para formarem os grupos AC e BE. Já as amostras F e D ainda se mantém distantes 
do restante, dessa forma o número de grupos é igual a 4 (AC, BE, D e F). O grupo BE 
encontra-se agora mais próximo de F e pode ser agrupado no grupo BEF, reduzindo o 
número de grupos para 3 (AC, BEF e D). Posteriormente, o grupo BEF se localiza mais 
próximo de AC do que de D, portanto o novo grupo formado é o ABCEF, e completando 
o grupo dados, temos o grupo unitário D. Por fim, todos os grupos se unem totalizando 
o conjunto de dados ABCDEF.
Considerando o conjunto de dados do exemplo, podemos inferir sobre algumas 
condições básicas para o cálculo da distância entre dois pontos (espaço métrico). 
Supondo os conjuntos A e C, podemos dizer que a distância entre A e C (dAC) é igual à 
distância entre C e A (dCA), ou seja dAC = dCA, e que elas devem ser maiores ou iguais a 
zero, não podendo ser negativas. Se a dAC = 0, significa que A=C. Considerando agora 
44
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
as distâncias entre A, B e C, devemos utilizar um conceito em métrica chamado de 
“desigualdade triangular”, que diz que o comprimento de um dos lados do triângulo 
(por exemplo dAB), deve ser menor ou igual à soma dos outros dois lados (dAC e dBC), o 
que significa dizer que o caminho A-B é mais curto do que a soma dos caminhos AC e 
BC (FERREIRA, 2015).
Dentre os vários métodos para atribuição métrica, abordaremos a seguir os mais 
utilizados como a distância Euclidiana e distância Manhattan. A distância Euclidiana é 
possivelmente a mais comum e empregada em métrica e é a distância entre dois pontos 
que pode ser expressa em termos do teorema de Pitágoras. A distância Euclidiana entre 
os pontos A = (a1, a2, a3,..., an) e E = (e1, e2, e3,..., en) do nosso exemplo da Figura 8 em 
um espaço n-dimensional, é dada por:
( ) ( ) ( )2 2 21 1 2 2AB n nd a e a e a e= − + − +…+ −
Onde an e en são os valores da n-ésima coordenada para A e E. Considerando um espaço 
bidimensional, temos que a distância entre os pontos A = (ax, ay) e E = (ex, ey) é:
( ) ( )22AB x x y yd a e a e= − + −
A grande limitação da distância Euclidiana está no fato de que ela varia com a mudança 
de escala dos dados. É importante considerar também que essa distância pode ser 
descrita em termos de vetores em um espaço dimensional. A distância de Manhattan 
utiliza a abordagem de que a distância entre dois pontos é igual à soma das diferenças 
absolutas de suas coordenadas. Essa medida é também conhecida como a métrica do 
taxi, por analogia com um táxi que deve contornar os quarteirões em seu caminho para 
chegar ao destino. Dessa maneira, a distância entre os pontos A e E (dAE) do nosso 
exemplo da Figura 10 é igual à soma das distâncias dAB + dBE ou dAC + dCE. A Figura 11 
exemplifica a distância as métricas Euclidiana (em amarelo) e Manhattan (em laranja, 
roxo ou verde) para a distância entre P e Q. A distância Euclidiana calculada nesse 
caso é dPQ = 8,5, enquanto para a distância Manhattan dPQ = 12, independentemente do 
caminho adotado.
45
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 11. Exemplos de distância Euclidiana (amarelo) e Manhattan (laranja, verde e rosa) entre os pontos P e Q.
Fonte: Ferreira (2015).
Podemos identificar e agrupar as amostras de acordo com suas similaridades, quando 
a distância entre os pares de amostras for definida. Após o primeiro agrupamento, 
calcula-se novamente a distância entre os grupos restantes para que o processo se 
repita. Cada repetição produz grupos já definidos e que permanecem unidos seguindo 
a hierarquia. O resultado final após o agrupamento das amostras, pode ser expresso na 
forma de um dendograma, os comprimentos das ramificações mostram as distâncias 
entre os grupos. Para facilitar o escalonamento, utilizamos a normalização por índice 
de similaridade de modo que as distâncias se situem entre 0 e 1. Isso significa que 
quanto mais próximo de 0 o índice for, menor a similaridade das amostras e o inverso 
acontece quanto mais próximo de 1, ou seja, maior será similaridade. Considerando os 
grupos P e Q, o índice de similaridade (S) pode ser obtido através de:
1 PQ
max
d
S
d
= −
Onde dPQ é a distância entre os pontos a serem considerados para agrupamento e dmax a 
distância entre os dois grupos mais afastados do conjunto. Dentre os diversos métodos 
para agrupamento hierárquico, estudaremos mais a fundo o do vizinho mais próximo, 
do vizinho mais distante e da média utilizando 3 grupos (A, B e C) sendo os grupos A e 
B constituídos por 1 amostra cada (a e b) e o grupo C por duas amostras (c1 e c2) como 
destacado na Figura 12 (FERREIRA, 2015). 
46
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 12. Exemplos de agrupamentos pelos métodos do vizinho mais próximo e vizinho mais distante.
 
 
Conjunto de dados originais Agrupamento por vizinho 
mais próximo 
Agrupamento por vizinho 
mais distante 
Fonte: Adaptado de Ferreira (2015).
O método do vizinho mais próximo é o método mais simples de agrupamento, sendo 
a distância entre dois grupos dada pela menor distância entre todos os constituintes 
de cada grupo. Nesse caso, como os grupos A e B são unitários, temos que a distância 
entre os grupos é igual à distância entre as próprias amostras constituintes (dAB = dab). 
Considerando os outros grupos com relação a C (A e C; B e C), a distância entre eles 
será a menor entre suas amostras pertencentes, ou seja, dAC = min (dac1, dac2) e dBC = 
min (dbc1, dbc2). Observando a Figura 10, verifica-se que dac1 < dac2 e dbc2 < dbc1, logo dAC 
= dac1 e dBC = dbc2. Uma vez obtidas as distâncias, observamos que dBC < dAC < dAB, logo 
o par mais próximo irá gerar um novo grupo, BC no caso. Em seguida, calcula-se a 
distância entre o grupo restante (A) e o recém-formado (BC), de modo que dA(BC) = min 
(dAB, dAC) = min (dab, dac1, dac2), sendo a distância mínima dac1. Esse método possui como 
característica o fato de as distâncias entre os grupos se relacionarem com as distâncias 
entre as amostras, gerando agrupamentos mais espalhados e com menores índices de 
similaridade.
O método do vizinho mais distante é um método semelhante ao anterior com a 
diferença que as distâncias entre os grupos são calculada pela maior distância entre 
os constituintes. Utilizando o mesmo exemplo anterior, a relação de C com os outros 
grupos(A e C; B e C) a distância entre eles agora é dada por maior distância entre 
suas amostras pertencentes, ou seja, dAC = max (dac1, dac2) e dBC = max (dbc1, dbc2). Como 
dac2 > dac1 e dbc1 > dbc2, temos que dAC = dac2 e dBC = dbc1. Comparando-se as distâncias 
máximas (dAB < dBC < dAC), o agrupamento será realizado com a menor distância, ou 
seja, o grupo formado será o AB. Em seguida, calcula-se a distância entre o grupo 
restante (C) e o recém-formado (AB), de maneira análoga. Esse método destaca-se por 
formar agrupamentos mais próximos, visto que a distância é calculada com base na 
maior diferença entre os constituintes. 
47
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
O método da média é baseado no cálculo da média ponderada entre os grupos. Como dAB 
= dab e não necessita de cálculo, podemos calcular dAC e dBC por meio de média aritmética 
simples:
1 2 1 2 
2 2
ac ac bc bc
AC BC
d d d dd d+ += =
E os cálculos do agrupamento BC podem ser feitos a partir de:
( )
1 2
1 2
 
2 
2 2 2 4 4
ac ac
ab
AB AC ab ac ac
BC A
d ddd d d d dd
+
+
= = = + +
É importante ressaltar que embora o grupo C tenha mais amostras do que os grupos A 
e B, isso não foi considerado nos cálculos. O método da média pode admitir também 
pesos de diferentes proporções (média ponderadas), o que é especialmente útil no caso 
de grupos com tamanhos diferentes. Nesse caso, o cálculo do agrupamento seria: 
( )
1 2
 3 3 3
C ab ac acB
AB ACBC A
B C B C
n d d dnd d d
n n n n
= + = + +
+ +
Sendo nB e nC os pesos para os conjuntos B e C, e no exemplo nB = 1 e nC = 2. É importante 
notar que no caso sem ponderações, o termo “dab” possui um peso 1/2 e os termos 
envolvendo o conjunto C (dac1 e dac2) um peso 1/4. Quando utilizamos a ponderação por 
tamanho dos conjuntos, o termo “dab” diminui o peso para 1/3 e os termos “dac1” e “dac2” 
aumentam para 1/3 com relação ao caso anterior. Reconhece-se que já se esperava esse 
resultado, visto que os conjuntos A e B possuem 1 amostra e o conjunto C, 2 amostras, 
sendo assim os termos envolvendo C apresentam maior impacto sobre a distância 
calculada.
Por fim, após calculadas as distâncias e agrupamentos, geramos o gráfico dendograma 
como mostrado na Figura 13. Nesse exemplo temos 10 amostras diferentes que são 
agrupadas inicialmente nos grupos A, B, C, D, E e F após a primeira interação. Em 
seguida, as amostras procedem os agrupamentos por similaridade até formarem os 
novos grupos A, BC, D e EF. Nas etapas seguintes são formados os grupos A, BC e DEF 
primeiramente e depois A e BCDEF, sendo esses dois grupos finais unidos no grupo 
ABCDEF. Um dendograma com ramos mais alargados e distantes (Figura 13a) mostra 
baixa eficiência na separação dos grupos. Nesse caso, a maioria das amostras apresenta 
um índice de similaridade próximo de 0,5 no primeiro agrupamento e os agrupamentos 
seguintes se dão em índices ainda menores. Um dendograma com ramos mais estreitos 
(Figura 13b) é mais desejável visto que demonstra boa diferenciação entre os grupos. 
Nesse caso, a maioria dos grupos formados apresenta elevada similaridade visto que o 
agrupamento se dá em índices maiores (FERREIRA, 2015).
48
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 13. Exemplos de dendogramas gerados por HCA.
 
 
1,0 0,75 0,5 0,25 0 
A B 
ABCDEF 
BC 
C 
B
C 
D
E
F 
D 
DEF E 
EF 
F 
1,0 0,75 0,5 0,25 0 
a 
 
b 
 
c 
 
d 
 
e 
 
f 
 
g 
 
h 
 
i 
 
j 
(a) 
A 
B 
BC 
ABCDEF 
BCDEF 
D 
DEF E 
EF 
F 
a 
 
b 
 
c 
 
d 
 
e 
 
f 
 
g 
 
h 
 
i 
 
j 
(b) 
Fonte: FERREIRA, (2015).
Como conclusão, podemos afirmar que a análise exploratória de dados por análise 
de componentes principais (PCA) e a análise hierárquica de agrupamentos (HCA) 
são bastante úteis para a análise preliminar de dados brutos, onde é possível obter 
informações que visem a identificação agrupamentos de amostras, a verificação de 
amostras apresentam comportamento anômalo, a definição de variáveis que são mais 
significativas e qual a correlação entre as diversas variáveis. Ambas as técnicas de análise 
multivariada podem ser aplicadas de maneia independente e fornecer informações 
complementares sobre um determinado conjunto de dados.
Visto que tanto o PCA como o HCA são utilizados para análises preliminares 
de dados brutos, convém aprofundar seus conhecimentos um pouco mais em 
HCA, já que no tópico anterior sugerimos uma leitura sobre PCA, agora também 
fazemos o mesmo para HCA. Então, não deixe de acessar o seguinte conteúdo: 
https://goo.gl/RTCgnr (HCA, 2018).
49
CAPÍTULO 2
Construção de modelos de calibração
Um dos principais objetivos na análise multivariada de dados é o de criar modelos 
estatísticos capazes de investigar as relações entre as variáveis e estimar quantitativamente 
uma determinada propriedade do sistema em estudo. Uma das metodologias mais 
utilizadas para a construção de modelos de calibração é a chamada “soft modeling”, 
uma quantidade consideravelmente elevada de medidas experimentais é realizada para 
que o modelo empírico construído englobe grande parte das variáveis e fontes de erros 
do sistema e possibilite a previsão de comportamento de uma determinada amostra 
analisada posteriormente. 
Para compreensão melhor da metodologia de calibração, tomemos um exemplo clássico 
na indústria de alimentos: a determinação de sódio em produtos finais utilizando a 
técnica de espectrometria de absorção atômica. Nesse caso queremos correlacionar a 
resposta fornecida pelo instrumento (por exemplo, a absorbância) com a concentração 
de sódio em uma determinada amostra. Essa relação não é absolutamente conhecida 
pois depende do instrumento utilizado, das condições dele naquele determinado dia, de 
fatores ambientais e outros, sendo então necessária a calibração do mesmo. 
O processo de calibração consiste em analisar uma série de amostras de referência 
(padrões) com concentrações conhecidas do elemento, de modo que a resposta 
instrumental obtida possa ser correlacionada com a variação da concentração da espécie. 
A partir disso, construímos um modelo de regressão (curva de calibração) que possa ser 
adequadamente empregado na análise de amostras com concentração desconhecida de 
sódio. A Figura 14 mostra um exemplo de um procedimento instrumental de análise 
utilizando um método de calibração. Nesse caso, verificamos que a relação entre 
absorbância (A) e concentração (CNa) é linear e que a expressão matemática que melhor 
descreve o modelo de regressão é A = 0,05.CNa. Graficamente o ajuste é representado 
pela curva em vermelho. Se para a análise de uma determinada amostra desconhecida, 
o instrumento nos dá um valor de absorbância de 0,3, podemos utilizar o modelo de 
regressão para calcular a concentração, sendo essa, portanto igual a 6 mg/L de sódio.
50
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 14. Exemplos de calibração via regressão linear para determinação de sódio.
Fonte: Ferreira, (2015).
É importante dizer que, na construção de um modelo matemático de calibração, 
lançamos mão de dois conjuntos de dados. O primeiro contém as respostas 
fornecidas pelo instrumento para uma série de amostras padrão analisadas (variável 
independente), sendo esse o chamado conjunto de calibração. O segundo conjunto 
está relacionado com alguma propriedade do sistema que se deseja saber (variável 
dependente). Essa(s) propriedade(s) podem ser a concentração de uma espécie, o teor 
de proteína de um alimento, seu teor de água etc. O objetivo da modelização é expressar 
matematicamente o valor da propriedade desejada em função do que se é medido em 
laboratório (FERREIRA, 2015).
Idealmente, as amostras de referência utilizadas no conjunto de calibração são 
preparadas por mistura adequada de substâncias puras (padrões) de concentração 
perfeitamente conhecida. Porém, na maioria dos casos, as amostras são bastante 
complexas e difíceis de serem sintetizadas em laboratório de modo a traduzirem a real 
composição naturaldelas. Nesse caso, um número grande de amostras é coletado e 
analisado por um outro método de referência com o menor erro possível (idealmente 
menor do que 5%). Isso é fundamental para um bom desempenho do método de 
calibração ao estabelecer uma boa concordância entre os valores estimados por calibração 
51
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
e os valores realmente mensurados por análise. Além disso, o conjunto de calibração 
precisa ter um tamanho (nº de amostras) suficientemente alto para ser representativo 
e possibilitar previsões futuras com maior precisão. Outro fator importante é a faixa 
de variação de concentração que o modelo engloba. Suponhamos que em análises de 
molhos prontos produzidos por uma indústria, o teor de sódio geralmente varie entre 
480 e 720 mg para cada 100g do produto. Sendo assim, o conjunto de calibração deve 
englobar amostras com concentração menores de 480 mg Na e maiores que 720 mg Na, 
ainda que essas situações sejam atípicas. Esses tipos de amostras são importantes para 
a construção do modelo, visto que ele deve capaz de detectar amostras anômalas e que 
possam por exemplo indicar falhas no processo de produção. 
Além disso, é desejável que as amostras estejam bem distribuídas ao longo de todo o 
intervalo de concentração. Suponhamos que temos um conjunto de 50 amostras, sendo 
que 42 delas se encontrem na faixa de 450 a 550 mg de Na e apenas 8 na faixa de 550 
a 750 mg de Na. Nesse caso o modelo gerado irá prever com melhor precisão uma 
amostra que se situe na faixa de menor concentração de sódio. Uma vez gerado o modelo, 
devemos validá-lo, ou seja, verificar se o desempenho se encaixa adequadamente ao 
que deveria ser aplicado em termos de capacidade de predição. O uso prolongado de 
um determinado modelo de previsão deve ser cuidadosamente testado pois mudanças 
instrumentais, materiais e de processo produtivo podem ocorrer esporadicamente, 
afetando assim a capacidade do modelo.
Calibração univariada
Os modelos mais simples de calibração são obtidos por calibração univariada. Para melhor 
exemplificar, retomemos o exemplo da determinação de cálcio em bebida láctea por 
espectrometria de emissão atômica, onde os resultados foram descritos na Tabela 5. Nesse 
exemplo, verificamos a relação linear da intensidade de luz emitida por uma amostra 
analisada em função da concentração das espécies emitentes. Considerando apenas 
os resultados para o comprimento de onda de 393 nm, podemos obter um gráfico de 
intensidade de emissão (eixo y) contra concentração de Ca (eixo x), como mostrado na 
Figura 15.
52
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 15. Gráfico de intensidade de emissão vs. concentração de cálcio para os dados da Tabela 5.
 
 
y = 976,69x + 312,77
R² = 0,9968
0
5000
10000
15000
20000
25000
30000
0 5 10 15 20 25 30
In
te
ns
id
ad
e 
de
 e
m
is
sã
o
Concentração de Ca (mg/L)
Fonte: Adaptado de Miller e Miller (2010).
A expressão matemática que relaciona os sinais de intensidade medidos (In) com a 
concentração (Cn) para um conjunto de N amostras é chamada de curvas de calibração 
e pode ser descrita por:
0 1 , 1, 2, 3, 4,n n nl b b C e onden N= + + = …
O termo (b0 + b1Cn) pode ser descrito como a intensidade de emissão estimada (Ȋn) 
pelo modelo de ajuste da curva e a diferença entre as intensidades medida e estimada 
(In- Ȋn) nos dá o resíduo (en). Quando aplicamos o modelo de regressão dos mínimos 
quadrados, utilizamos a soma dos quadrados dos resíduos (SQres) a fim de minimizá-los 
segundo:
2
1
N
res n
n
SQ e
=
=∑
Nesse caso, assume-se que as repetições de medidas da variável dependente 
(intensidade de sinal) apresentam valores distribuídos ao longo da média e que não 
há erro associado à variável independente (concentração). A SQres é minimizada 
quando igualada a 0 e a derivação de sua equação gera um modelo linear como a 
reta mostrada na Figura 13, os valores estimados de b0 e b1 (e podem ser obtidos 
(FERREIRA, 2015). É importante considerar que as equações apresentadas acima 
podem ser representadas em termos de matrizes e vetores como abordado no 
capítulo sobre PCA, entretanto, não iremos utilizar essa abordagem no momento. O 
modelo gerado nos fornece a equação: I = 976,69 C + 312,77. A Tabela 8 mostra as 
intensidades de emissão medidas (In, vide Tabela 5), estimadas (Ȋn, segundo o modelo 
linear proposto) e os resíduos (en). Note que ao realizarmos o ajuste pelos mínimos 
quadrados, a soma de todos os resíduos é igual a 0.
53
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Tabela 8. Intensidades de sinal medidas, estimadas e resíduos associados.
Concentração de Ca
Intensidade de emissão 
medida (I)
Intensidade de emissão 
estimada (Ȋ)
Resíduo 
(I - Ȋ)
1 1005 1289 -284
2 2030 2266 -236
5 5003 5196 -193
10 11070 10080 990
20 20100
19847 253
25 24200 24730 -530
 
Fonte: Adaptado de Miller e Miller (2010).
Um dos parâmetros desse ajuste linear é o coeficiente angular (ou inclinação) da reta, 
também conhecida como sensibilidade da curva 1( )b , visto que nos dá a razão entre a 
variação da mudança da variável dependente, ou seja, a intensidade de emissão, em 
relação a uma variação da variável independente, ou seja, a concentração da espécie. 
Para o nosso exemplo, a sensibilidade é dada por:

1 
ISEN b
C
∆
= =
∆
É importante considerar que quanto maior a sensibilidade, maior será a mudança da 
intensidade de sinal frente a uma pequena variação na concentração. Analogamente, a 
baixa sensibilidade indica uma pequena variação de I quando variamos a concentração. 
No nosso exemplo, o valor de sensibilidade calculado foi de 976,68 L/mg. O coeficiente 
linear (ou intercepto) é outro parâmetro da reta e indica o deslocamento da curva 
1( )b 
com relação ao zero. 
Idealmente, esperamos que o sinal de emissão medido seja nulo quando a concentração 
da espécie é igual a zero, porém muitos são os casos em que a presença de interferentes 
ou desvios instrumentais ocorram, gerando uma determinada intensidade de sinal 
mesmo na ausência da espécie. No nosso exemplo, o valor de intercepto calculado foi de 
312,77. Analisando a Figura 13, notamos uma alta correlação entre as variáveis, sendo o 
coeficiente de correlação (R2) igual a 0,9968. Quanto mais próximo da unidade, melhor 
o ajuste e quanto mais próximo de zero, menor a correlação entre as variáveis. 
Calibração multivariada: regressão linear 
múltipla (MRL) e regressão por componentes 
principais (PCR)
Como vimos anteriormente um dos métodos de calibração mais utilizados são os 
métodos univariados (onde para cada amostra de calibração, tem-se uma medida 
54
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
instrumental), contudo apesar desses métodos serem relativamente de fácil aplicação, 
validação e se encontrarem em maior número descritos na literatura, sua aplicação é 
limitada a ocorrências em que a grandeza é medida de modo direto no sistema (exemplo: 
absorbância de um composto orgânico), sendo livre de outras substâncias ou elementos 
que possam interferir entre sua relação linear com a propriedade de interesse.
Uma das maiores áreas de estudo da quimiometria relacionadas à química analítica 
inclui a calibração multivariada. A análise de dados por meio da calibração multivariada 
permite o estudo de sistemas com várias espécies presentes. Calibração pode ser 
entendida como a relação quantitativa entre a resposta do aparelho e a concentração 
do analito que se quer determinar (HOPKE, 2003).
Segundo Geladi (2003), as indústrias precisam de quatro fatores principais: respostas 
rápidas, análises não destrutivas, e a combinação entre ferramentas quimiométricas e 
técnicas espectroscópicas, principalmente em processos quimiométricos abrangendo 
calibração multivariada, é considerado o ideal para acompanhamento assim como, do 
controle de qualidade de produtos. 
Os modelos clássicos de quantificação não são considerados suficientes para sistemas 
complexos, devido à quantidadede dados que podem ser obtidos a partir de um 
espectro. Para que estes modelos apresentem bons resultados é necessário que sejam 
utilizadas apenas amostras simples (compostos puros ou misturas binárias) e que a 
banda espectral selecionada não sofra outra influência, a não ser do próprio analito, 
garantindo assim, uma relação linear entre a concentração e o sinal. Deste modo, a 
utilização de modelos de calibração multivariada para a obtenção de dados quantitativos 
apresenta diversas de vantagens, pois podem ser empregados em sistemas complexos 
proporcionando bons resultados (BRO, 2003). 
A disposição do conjunto de dados em análises multivariadas é normalmente apresentada 
em forma de matriz, ou seja, teremos as linhas desta matriz que representam o conjunto 
das amostras e as colunas, que representam o conjunto das variáveis medidas. A matriz 
é representada como um gráfico no espaço multidimensional, no qual cada variável 
medida está relacionada a uma dimensão do espaço e cada amostra corresponde a um 
ponto no espaço. Deste modo, o processo geral de calibração é constituído por três 
etapas: calibração, validação e previsão:
 » Na etapa de calibração é estabelecido um modelo matemático, resultante 
da relação da matriz de dados das variáveis medidas (matriz X, por 
exemplo, espectros no infravermelho), com a matriz de dados das 
características de interesse estabelecidos por meio de um método de 
referência (matriz Y).
55
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
 » Na etapa de validação, o modelo é analisado empregando-se ferramentas 
estatísticas de diagnóstico. 
 » Em seguida, aplica-se o modelo validado na previsão de propriedades das 
amostras desconhecidas, que possuam a mesma natureza das amostras 
do conjunto de calibração, vindo do seu sinal espectral.
Nos métodos de Calibração Multivariada teremos duas ou mais respostas instrumentais 
relacionadas com a propriedade de interesse. A grande vantagem desses métodos é que 
permitem análises na presença de interferentes, no entanto, estes precisam também 
estar presentes nas amostras de calibração. Diversos modelos de calibração multivariada 
vêm sendo empregados, como: Regressão Linear Múltipla (MLR), Regressão por 
Componentes Principais (PCR) e Regressão por Mínimos Quadrados Parciais (PLS). 
Tais modelos vem apresentando ótimos resultados, com ampla aplicação em áreas 
diversas. Apesar disso, sua aceitação e implementação ainda sofre restrições em alguns 
setores devido às exigências de validação (exemplo: áreas farmacêuticas e médicas). Essa 
validação é realizada por figuras de mérito, que são figuras que asseguram que o modelo 
multivariado indicado é confiável e atende às especificações impostas pela indústria e 
órgãos de fiscalização nacionais e internacionais como: United States Pharmacopoeia 
(USP), International Conference on Harmonisation’s (ICH), American Society for 
Testing and Materials (ASTM), Instituto Nacional de Metrologia, Normalização e 
Qualidade Industrial (INMETRO), Agência Nacional de Vigilância Sanitária (ANVISA), 
entre outros. 
Como lido anteriormente, uma diversidade de métodos de regressão podem ser utilizados 
em química analítica para a construção de modelos de calibração multivariada, dentre 
eles, chamaremos sua atenção para os métodos de primeira ordem mais empregados: 
Regressão Linear Múltipla (MLR, do inglês, Multiple Linear Regression) e Regressão 
por Componentes Principais (PCR, do inglês, Principal Components Regression).
Regressão Linear Múltipla (MLR)
O modelo mais simples em calibração multivariada consiste na resolução de um sistema 
de equações lineares em uma regressão linear múltipla (MLR), contudo, o MLR possui 
dois problemas que limitam sua aplicação (BRERETON, 2000): 
1. O número de amostras deve ser igual ou superior ao número de variáveis, 
já que o modelo consiste na resolução de equações lineares simultâneas. 
Quando o número de variáveis é superior ao número de amostras, ou 
vice-versa, o sistema de equações a ser resolvido torna-se indeterminado. 
56
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
2. Na resolução por mínimos quadrados a matriz (XTX), não possui inversa, 
pois sua correlação entre as variáveis é alta. 
Na construção de um modelo MLR cada variável dependente, isto é cada vetor Ycal da 
matriz, é expressa como uma combinação linear das variáveis independentes da matriz 
Xcal e um vetor, bMLR, que contém os coeficientes de regressão, dado pela seguinte 
equação:
= +cal cal MLRY X b e
O vetor bMLR dos coeficientes lineares é estimado, na etapa de calibração, empregando 
o critério dos “Mínimos Quadrados” que tornar mínimo o vetor dos resíduos (e = Ycal – 
XcalbMLR) e pode ser calculado por:
( ) 1−= T TMLR cal cal cal calb X X X X Y
Onde: os índices sobrescritos -1 e T representam a inversão e transposição de uma 
matriz ou vetor, respectivamente. 
Para a previsão do valor da concentração ou do parâmetro de interesse em uma amostra 
não conhecida, podemos estimar que:
desc Desc MLRY X b e= +
Regressão por componentes principais (PCR)
Buscando solucionar os empecilhos exibidos pela MLR, surgiu como alternativa a 
regressão por componentes principais (PCR). Neste método de regressão utiliza-se a 
análise de componentes principais (PCA, do inglês, Principal Component Analysis) como 
a técnica de ortogonalização baseada em mudança de base vetorial. Este procedimento 
resolve os dois principais problemas da MLR citados anteriormente, uma vez que a 
PCA pode ser empregada para a redução do número original de variáveis sem acarretar 
na perda significativa de informação resolvendo, assim, o problema de existência de 
alta colinearidade entre as colunas de X e a necessidade de um número excessivo de 
amostras para a construção do modelo por MLR (OTTO, 2007).
O método da regressão dos componentes principais usa as variações espectrais para 
realizar o cálculo das equações de calibração. Considerando que as variações mais 
significativas no conjunto de calibração são as mudanças no espectro em relação às 
diferentes concentrações das amostras, podemos então calcular um conjunto que simule 
as mudanças nas absorbâncias em todo o espectro. Essas variações são denominadas de 
autovetores e as constantes utilizadas para multiplicar os espectros são denominadas 
57
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
de scores. Para calcular os autovetores do espectro utiliza-se o método de análise dos 
componentes principais (PCA, Principal Components Analysis). 
A PCA consiste de um método matemático de tratamento dos dados que envolve 
cálculos de álgebra linear com os seguintes objetivos: 1) visualizar e simplificar a 
estrutura complexa dos dados, 2) modelar os dados, 3) empregar seleção de variáveis e 
encontrar similaridades entre amostras, 4) detectar amostras anômalas e 5) reduzir a 
dimensionalidade dos dados sem que haja perda da informação relevante.
Na PCA a matriz de dados original X de dimensão mxp é decomposta em uma soma de 
matrizes as quais são produto de duas matrizes (ou vetores), a matriz T de scores e a 
matriz transposta Pt dos loadings, além da matriz de erro E – correspondente a parte 
não modelada da matriz X (equações abaixo). 
1 2 3
1 1 2 2 3 3
n
t t t t
n n
X M M M M E
X T P T P T P T P E
= + + +…+ +
= + + +…+ +
Assim sendo, a primeira componente principal (PC1), é definida na direção de máxima 
variância (ou dispersão dos dados) de um conjunto de dados, enquanto a segunda 
componente principal (PC2) constitui uma descrição da máxima variância no espaço 
da primeira componente principal, e assim por diante. Ou seja, a variância total é 
explicada pelas primeiras componentes principais descritas em ordem decrescente. 
Cada componente principal é responsável por uma parcela de contribuição ou uma 
fração de variância dos dados, estando em um sistema de coordenadas ortogonais entre 
si, não existindo correlação entre elas. Dessa forma, os scores expressam as coordenadas 
das amostras nos novos eixos, eos loadings expressam o peso ou a contribuição de cada 
variável original relacionada a cada componente principal (BERNADINO, 2011). 
Caro estudante, entre os métodos de obtenção de scores e loadings também 
podemos mencionar a decomposição por valores singulares (SVD, do inglês 
Singular Value Decomposition) e o algoritmo NIPALS (do inglês, Nonlinear 
Iterative Partial Least Squares). Para aprofundar seus conhecimentos nesses 
assuntos, sugerimos que consultem os seguintes links, para SVD < https://goo.
gl/KtLtmR > (SVD, 2018) e para NIPALS < https://goo.gl/dy9yUG > (NIPALS, 2018). 
Uma das desvantagens do PCR, acontece quando o produto de interesse tem um 
sinal muito fraco (quanto analisado), e este sinal não influencia significativamente na 
composição das primeiras componentes principais, fazendo-se necessário o aumento 
do número de componentes na construção do modelo.
58
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Vale ressaltar que, é de extrema importância a escolha do número de variáveis a serem 
incluídas no modelo, com o objetivo de reduzir perdas de informações significativas. 
Segundo Roggo et al. (2007), cada componente apresenta uma fração da variação 
total contida nos dados, tornando assim, possível a determinação do número ótimo de 
componentes a serem compreendidos na regressão.
59
CAPÍTULO 3
Modelos de classificação e 
reconhecimento de padrões
É notável que os seres humanos conseguem distinguir com facilidade as diferenças 
e semelhanças entre os objetos, como formas ou cores. Contudo, essa característica 
fica limitada quanto maior for a quantidade de objetos a serem considerados. 
Semelhante a isso, quando tratamos de dados químicos, com um número alto de 
conjunto de dados, as técnicas de Reconhecimento de Padrão (RP) utilizam o mesmo 
conceito, procurando encontrar as similaridades e dissimilaridades no conjunto de 
amostras que foram submetidas a algum estudo (GONZÁLEZ, 2007). As técnicas de 
Reconhecimento de Padrão RP são divididas em supervisionada (estudaremos neste 
capítulo) e não supervisionada (HCA, análise por agrupamento hierárquico e PCA, 
análise de componentes principais, como visto em capítulos anteriores), de acordo com 
a utilização a priori de informações sobre as amostras que constituem o conjunto para 
construção do modelo. HCA e PCA admitem a visualização gráfica de todo o conjunto 
de dados, mesmo se o número de amostras e variáveis for elevado. A utilização desses 
algoritmos objetiva principalmente o aumento da compreensão do conjunto de dados, 
analisando a presença/ausência de agrupamentos naturais entre as amostras. Ambos 
podem ser classificados como: exploratórios ou não supervisionados, pois nenhuma 
informação com relação à identidade das amostras é considerada.
As técnicas de reconhecimento de padrões são usadas na identificação das diferenças 
e semelhanças em distintas amostras, comparando-as entre si, fundamentando-se nas 
suposições abaixo: 
 » amostras que possuem o mesmo tipo são semelhantes; 
 » existem diferenças entre distintos tipos de amostras; 
 » as semelhanças e diferenças podem ser percebidas nas medidas 
empregadas na caracterização das amostras. 
As técnicas de classificação são divididas em três categorias, segundo as suposições 
empregadas para a construção dos modelos (MASSART et al., 1997): 
 » Técnicas paramétricas: paramétricas (neste caso, as variáveis possuem 
uma distribuição normal, satisfazendo as condições para o número 
de graus de liberdade e a homogeneidade da matriz de variância 
60
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
(covariância)) e não paramétricas (neste caso, não consideram a 
informação da distribuição da população como nas paramétricas).
 » Técnicas discriminantes: neste caso, as amostras pertencem a apenas uma 
classe, estando incluídas nestas, as modelativas que podem pertencer a 
nenhuma classe, uma classe ou várias classes ao mesmo tempo. 
 » Técnicas probabilísticas: fazem a estimativa do grau de confiança da 
classificação, incluídas nestas, temos as determinísticas, que não estimam 
um grau de certeza de uma classificação.
Técnicas de reconhecimento de padrões supervisionadas podem ser utilizadas em uma 
ampla variedade de dados químicos para diferentes fins, como: identificação de perfis, 
impressões digitais, detecção de falsificação, avaliação da qualidade dos alimentos e 
interpretação de dados (LAVINE, 2000). 
São encontrados diversos métodos de Reconhecimento de Padrões Supervisionado 
destacando a Modelagem Independente e Flexível por Analogia de Classes (SIMCA, 
do inglês Soft Independent Modeling of Class Analogy) e o Método do K-ésimo vizinho 
mais próximo (KNN, do inglês Kth Nearest Neighbor).
Método da regra dos K-vizinhos mais próximo 
(KNN)
O KNN é o algoritmo de aprendizado com fundamentos em instâncias mais conhecido e 
com ampla utilização. Esse aprendizado é fundamentado na aplicação direta do conceito 
de similaridade. Isso significa dizer que, uma função de similaridade comunica ao 
algoritmo o quão próximas duas instâncias estão. Isso pode parecer simples, no entanto 
há uma enorme complexidade na escolha da função de similaridade, notadamente 
em situações que algumas das propriedades são peculiares. Como exemplo temos, a 
classificação de pessoas e uma das propriedades a ser analisada fosse a cor do cabelo, 
não é evidente o que a distância significaria nesse contexto.
Na determinação da classificação de um elemento que não pertença ao conjunto de 
treinamento, o classificador KNN procura K elementos do conjunto de treinamento 
que estejam mais próximos deste elemento que não é conhecido, isto é, que possuam 
a menor distância. Estes K elementos são denominados de K-vizinhos mais próximos. 
As classes desses K vizinhos é então analisada e a classe mais frequente será atribuída 
à classe do elemento não conhecido (Figura 16). 
61
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 16. K-ésimos vizinhos mais próximos da amostra teste.
Fonte: Adaptado de https://goo.gl/HYdx4k (KNN, 2018).
O exemplo da figura 16 acima apresenta como ocorre a validação desse modelo: novas 
amostras podem ser classificadas do mesmo modo. A classe de uma amostra teste é 
classificada baseada na sua distância às K amostras mais próximas do conjunto de 
testes. Ela será colocada na classe mais votada.
Abaixo encontram-se as métricas comumente utilizada no cálculo de distância entre 
dois pontos.
Seja X= (x1, x2, ..., xn) e Y= (y1, y2, ... , yn) dois pontos do n ℜn.
A distância Euclidiana entre X e Y é dada da seguinte maneira:
( ) ( ) ( ) ( )2 2 21 1 2 2, = − + − +…+ −n nd x y x y x y x y
A distância Manhattan entre X e Y é dada da seguinte maneira:
( ) 1 1 2 2, = − + − +…+ −n nd x y x y x y x y
A distância Minkowski entre X e Y é dada da seguinte maneira:
( ) ( )
1
1 1 2 2, , = − + − +…+ − ∈
q q q q
n nd x y x y x y x y onde q N
Esta distância é a generalização das duas distâncias anteriores: quando q = 1, esta 
distância pode ser representada pela distância de Manhattan e quando q = 2, pela 
distância Euclidiana.
KNN é um classificador com apenas um parâmetro livre (o número de K-vizinhos), 
controlado pelo usuário visando a obtenção de uma melhor classificação. De acordo 
com Matos (2008), uma das vantagens conhecidas do classificador KNN é que, quando 
62
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
o conjunto de testes é considerado grande ou representativo, ele cria uma fronteira de 
decisão que se molda à forma de distribuição dos dados de treinamento, permitindo a 
obtenção de taxas de acertos satisfatórias.
Como exemplo de classificação KNN, podemos observar a figura 17 abaixo, tem-se 
duas propriedades, três classes e dois pontos não conhecidos 1 e 2. Faz-se necessário a 
classificação destes dois pontos por meio 7 vizinhos mais próximos.
Avaliando a classe predominante dos 7 vizinhos mais próximos, o ponto desconhecido 
1 será classificado como um ponto pertencente a classe B e o ponto desconhecido2 
como um ponto pertencente a classe A. Este processo de classificação por ser cansativo, 
apresenta uma variação mais rápida deste algoritmo, em que ocorre a seleção de 
pontos que estão dentro de uma hiper-esfera de raio R (escolhido pelo usuário), sendo 
a classe predominante dentro desta hiper-esfera, a classe do ponto desconhecido. A 
desvantagem deste processo é que pode haver hiper-esfera sem ponto nenhum. A figura 
17 mostra como seriam o processo da hiper-esfera. 
Figura 17. Classificação pelo método KNN.
Fonte: Gnecco et al. (2005).
A vantagem desta técnica de aprendizado é que em vez de ser feita a estimação da função 
objetivo uma única vez para todo o espaço de exemplos, ela pode estimá-la localmente 
e de modo diferente para cada novo caso a ser classificado. Outra vantagem consiste 
na facilidade de testes, considerados simples e rápidos, já que o treinamento consiste 
somente no armazenamento das instâncias. Tais técnicas são adequadas a domínios 
numéricos, nos quais o conceito de distância tem um sentido mais concreto.
63
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 18. Classificação pelo método da regra dos KNN.
Fonte: Gnecco et al. (2005).
Assim, podemos concluir que:
1. Os vizinhos dos pontos não conhecidos 1 e 2 são os pontos pertencentes 
ao círculo centrado no ponto desconhecido 1 e 2, respectivamente. 
2. O ponto não conhecido 1 será classificado como um ponto que pertence 
a classe B, devido a existência de 5 pontos incluídos ou parcialmente 
incluídos no círculo centrado no ponto não conhecido 1. 
3. O ponto não conhecido 2 será classificado como um ponto que pertence a 
classe A, devido a existência de apenas um ponto da classe A incluído no 
círculo centrado no ponto não conhecido 2.
Modelagem independente flexível por 
analogias de classe (SIMCA)
Este método foi utilizado pela primeira vez por Svante Wold (1974), no qual se admiti 
que os valores medidos para um grupo de amostras semelhantes tenderão para 
uma distribuição uniforme e modelável. Aumentando o número de amostras, essa 
distribuição deverá ficar cada vez mais uniforme. As características principais deste 
método são:
 » cada classe do conjunto de testes deve ser submetida a uma análise de 
componentes principais;
64
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
 » determinação do número de PCs necessário para descrição de cada classe. 
 » Construção de uma hipercaixa que envolve as amostras de cada classe, 
no qual as limitações das mesmas são definidas com um dado nível 
de confiança e uma vez obtidas as fronteiras de cada classe, faz-se a 
determinação se há superposição entre elas.
 » A capacidade de discriminação dos modelos SIMCA em diferenciar 
as classes é dada pela “distância entre classes” e pelos “resíduos entre 
classes”. 
 » A atribuição de uma amostra teste a uma determinada classe é 
fundamentada na projeção dela, no espaço dos escores e sua distância das 
fronteiras da classe em específico. Isto é repetido para todas as classes e no 
final, se os modelos não tiverem capacidade de discriminação suficiente, 
a amostra pode ser considerada membro de mais de uma classe. Pode 
ocorrer também da amostra ser anômala em relação ao conjunto de 
testes, desse modo, não pertencendo a nenhuma das classes.
A Modelagem Independente e Flexível por Analogia de Classe (SIMCA) é a mais 
empregada dos métodos de modelagem de classe. Em SIMCA, cada categoria é modelada 
de forma independente utilizando PCA e pode ser descrita por um número distinto 
de componentes principais (PCs). O número de PCs para cada classe no conjunto de 
testes pode ser determinado por validação cruzada. Deste modo, um número suficiente 
de componentes principais é mantido, como sendo o responsável pela maior parte da 
variação dentro de cada classe, ainda que assegurando uma elevada relação sinal-ruído 
sem inclusão no modelo de classe das chamadas componentes principais secundárias 
ou que contenham apenas ruído (LAVINE, 2000).
Portanto, o SIMCA é um método quimiométrico probabilístico e modelativo baseando-
se na análise por componentes principais, para cada classe de amostras, cria-se um 
modelo PCA separadamente, são construídos envelopes em torno de cada classe de 
amostra de acordo com as componentes principais que melhor agrupam as classes 
(CAMO,2008), como mostrado na Figura 19 abaixo.
65
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 19. Modelo SIMCA de classificação.
Fonte: Adaptado de LIU; HE; SUN, (2009).
O agrupamento das classes é realizado por meio do cálculo da distância da amostra ao 
modelo, Si (variância residual para cada amostra de uma dada classe) e S0 (variância 
residual total), conforme as equações abaixo (CAMO, 2008; INÁCIO, 2010): 
( )
( )( )
2
1
2
1 1
0 1
=
= =
=
−
=
− − −
∑
∑ ∑
P
Iji
i
N P
Iji j
e
S
P A
e
S
N A P A
Onde:
N = número de espectros (ou amostras) usados no modelo.
A = número de componentes principais.
P = número de variáveis (ou comprimentos de onda).
i e j = índices das amostras e variáveis, respectivamente. 
Após o cálculo das variâncias residuais, faz-se a aplicação do teste F (Fischer) para 
verificar a posição da amostra no modelo, conforme a seguinte equação:
( )
2
2
0
/ 1= − −iSF N A
S xN
Este valor deve ser comparado com um valor crítico de F (tabelado), relacionado com um 
determinado nível de probabilidade e graus de liberdade. O julgamento da classificação 
das amostras é realizado do seguinte modo:
66
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
1. Nível de probabilidade (0,1 – 1,0): amostra pertence ao modelo. 
2. Nível de probabilidade (< 0,05): amostra não pertence ao modelo.
3. Nível de probabilidade (0,05 – 0,1): amostra “outliers”.
O SIMCA apresenta os resultados no formato de tabela, são apresentadas com asteriscos, 
as amostras que são classificadas e a que classe pertencem. Na construção do modelo 
podem ocorrer dois tipos de erros: 
1. Erro Tipo I: amostra pertence a mais de uma classe; 
2. Erro Tipo II: amostra não pertence a classes conhecidas (“outliers”). 
Caro estudante, saiba que os primeiros estudos utilizando o reconhecimento de 
padrões foram propostos no final da década de 1970. Amostras de vinho da uva 
Pinot Noir, provenientes da França e dos Estados Unidos, foram diferenciadas 
por composição química elementar  e da análise de algumas substâncias 
orgânicas. Com isso, os resultados analíticos foram avaliados utilizando-se 
ferramentas quimiométricas de reconhecimento de padrões, corroborando 
com a combinação entre a química analítica e a quimiometria, viabilizando a 
identificação da origem geográfica das amostras de vinho.
Isso envolve a autenticação de alimentos que é uma área de pesquisa já 
estabelecida, que objetiva o desenvolvimento dos procedimentos no controle e 
segurança da qualidade dos produtos agroindustriais, a partir das informações 
sobre composição química. As questões relacionadas com a autenticação de 
alimentos têm despertado amplo interesse devido aos problemas de adulteração, 
contaminação e utilização indevida de organismos geneticamente modificados. 
Adicionalmente, faz-se necessário a obtenção de informações confiáveis a 
respeito da composição química nos rótulos dos produtos industrializados, 
garantindo sua qualidade. 
Alguns estudos encontrados na literatura analisam produtos tipicamente 
brasileiros, como cachaça (CARDOSO et al., 2004)  e café (FERNANDES et al., 
2005). Dessa forma, o desenvolvimento de novas metodologias analíticas e o 
aprimoramento de ferramentas estatísticas para tratamento de quantidades 
crescentes de dados, consequentemente, favorecem o desempenho do químico 
na área de reconhecimento de padrões. 
67
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Caro estudante, caso você queira ter uma abordagem mais aprofundada sobre as 
bases teóricas desse assunto que não foram abordadas aqui, consulte o seguinte 
link: < https://goo.gl/PY9p4t> (MÉTODOS DE CLASSIFICAÇÃO, 2018).
68UNIDADE IIIPLANEJAMENTO 
EXPERIMENTAL
O aumento da necessidade da otimização de produtos e processos, faz com que exista 
a minimização de custos e tempos, e a maximização de rendimentos, produtividades 
e qualidade de produtos, levando os profissionais de distintas formações a buscarem 
metodologias sistemáticas de planejamento de experimentos. Entretanto, para que a 
metodologia usada em planejamento alcance os objetivos esperados, faz-se necessário 
uma integração entre o processo, a estatística e o bom senso (Figura 20).
Figura 20. Interação entre o conhecimento do processo, a estatística e o bom senso.
 
 
Processo Estatística 
Bom Senso 
]Fonte: Adaptado de Rodrigues e Lemma, (2009).
Estudos recentes mostram que o modo científico apropriado para realizar um 
experimento seja o de variar um fator por vez, permanecendo fixos os outros fatores, 
não é necessariamente o ideal. Isto porque esta metodologia requer a realização de 
muitos experimentos, e isso não possibilita identificar se o efeito pode ser atribuído a 
um ou outro fator que foi mudado ou a uma combinação particular dos conjuntos de 
fatores considerados constantes. Por conseguinte, para ter confiança nos resultados 
obtidos, acrescentam-se mais experimentos. Deste modo, esta metodologia não pode 
ser utilizada nesta pesquisa que necessita avaliar o efeito de muitos parâmetros e 
variáveis, o que exigiria uma quantidade muito elevada de experimentos. 
O planejamento experimental (também denominado de delineamento experimental), 
pode ser representado por um conjunto de ensaios estabelecido com critérios científicos 
e estatísticos, visando avaliar a determinação da influência de diversas variáveis nos 
69
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
resultados de um determinado sistema (BUTTON, 2005). Assim, a determinação do 
número ótimo de experimentos conduz à obtenção de resultados com um dado grau 
de confiança, sendo esse objetivo principal dividido em outros objetivos específicos de 
acordo com o propósito dos ensaios: 
 » determinação das variáveis que mais influenciam nos resultados; 
 » atribuição de valores às variáveis influentes buscando a otimizar dos 
resultados; 
 » atribuição de valores às variáveis influentes buscando a minimização da 
variabilidade dos resultados; 
 » atribuição dos valores às variáveis influentes buscando a minimização da 
influência de variáveis incontroláveis. 
O emprego dos métodos estatísticos de planejamento experimental permite entre 
outras vantagens: 
 » diminuir o número de ensaios sem prejudicar a qualidade da informação; 
 » o estudo ao mesmo tempo de várias variáveis, separando seus efeitos; 
 » a determinação da confiabilidade dos resultados; 
 » a realização da pesquisa em etapas, com acréscimo de novos ensaios 
quando necessário;
 » a seleção das variáveis que influenciam em um dado processo que possui 
número reduzido de ensaios; 
 » o processo estudado pode ser representado por expressões matemáticas 
e suas conclusões a partir de resultados qualitativos.
Com isso, é extremamente relevante ressaltar que o planejamento experimental é um 
instrumento de engenharia importantíssimo para melhoria de processos já existentes, 
assim como no desenvolvimento de novos processos. A utilização dessas técnicas de 
modo adequado no desenvolvimento do processo permite: uma produção melhorada, 
uma redução da variabilidade de resultados, assim como, uma redução nos tempos de 
análise e nos custos envolvidos.
O planejamento experimental sugere o estudo de variáveis por meio de análise 
multivariada. Tal metodologia permite não só identificar as variáveis que influenciam 
positivamente ou negativamente as respostas desejadas, assim como, na influência 
70
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
exercida pela interação entre elas, permitindo a otimização do sistema ou processo sob 
análise. A análise univariada não permite verificação das interações entre variáveis, 
uma vez que estas são estudadas uma de cada vez (RODRIGUES; LEMMA, 2015).
O planejamento experimental deve ser fundamentado em uma metodologia estatística 
a fim de que os resultados possam ser avaliados por meio de métodos estatísticos, 
levando assim a conclusões objetivas. Para a definição dos ensaios em um planejamento 
experimental, podemos citar três técnicas fundamentais: 
1. Réplicas: consiste na repetição de um ensaio sob condições 
predeterminadas, para obtenção da estimativa do erro experimental e 
como esse erro influência nos resultados dos ensaios e ainda, se esses 
resultados são diferentes estatisticamente. Também é possível, verificar a 
influência de uma dada variável sobre o comportamento de um processo, 
quando a comparação é feita pela média das amostras.
2. Aleatorização (ou randomização): consiste na sequência dos ensaios 
aleatória, sendo a seleção dos materiais utilizados nesses ensaios também 
aleatória. Ao fazer uso de uma sequência aleatória (por exemplo: 8, 5, 9, 
1, 12, 3, 7, 4 e 11) os erros experimentais por causa de alguma variável 
não controlável seriam distribuídos ao longo de todo o procedimento, 
aleatorizando-o e permitindo sua análise estatística.
3. Blocos: consiste na realização dos experimentos com precisão elevada, 
com redução da influência de variáveis não controláveis. Um bloco é 
uma parte do material experimental que possui como atributo o fato 
de ser mais homogêneo que o conjunto completo do material avaliado. 
O uso de blocos abrange comparações entre as condições de interesse 
na experimentação dentro de cada bloco. Na análise com blocos, a 
aleatorização é limitada à sequência de ensaios interna dos blocos e não 
ao conjunto total de ensaios.
Caro estudante, o avanço de um planejamento de experimentos dependerá 
na maior parte, de como este é estruturado e como será realizado, assim como 
a compreensão dos seus objetivos antes de qualquer ação para executá-lo. 
Montgomery (2012) relatou um roteiro para elaboração de um planejamento de 
experimentos, composto pelas seguintes etapas utilizadas em estudos atuais:
1. Identificação e definição do problema: depende na maior parte, da 
experiência já adquirida no estudo de processos análogos;
71
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
2. Seleção dos fatores e dos níveis: é importante verificar como essas 
variáveis serão controladas nos níveis escolhidos e como eles serão 
medidos. Por exemplo, quando se deseja averiguar a influência de 
uma variável específica, deve haver a redução do número de níveis, 
além da manutenção das outras variáveis influentes em níveis tão 
constantes quanto possível;
3. Seleção da variável resposta: o critério para essa escolha é de que o 
erro experimental de medida da variável de resposta seja mínimo, 
admitindo a análise estatística dos dados, com um número mínimo 
de réplicas;
4. Seleção do planejamento experimental: a seleção do planejamento 
envolve o tamanho da amostra (número de repetições), a sequência de 
execução dos ensaios, necessidade de aleatorização ou do emprego 
de blocos.
5. Realização do experimento: é de extrema importância monitorar e 
controlar o processo, para assegurar que tudo esteja sendo realizado 
segundo o planejamento estabelecido e para que exista a validade 
experimental dele.
6. Análise dos resultados: faz-se uso de métodos estatísticos, buscando 
conclusões objetivas. É importante compreender que, não é possível 
afirmar se uma dada variável apresenta ou não um dado efeito, esses 
métodos garantem apenas a confiabilidade e a validade dos resultados, 
de maneira que se possa fazer a determinação do erro associado nas 
conclusões.
7. Conclusões: admitirão que decisões sejam adotadas a respeito do 
processo avaliado em estudo. Uma documentação com o uso de 
gráficos e tabelas permite que se exibam os resultados obtidos, a 
análise efetuada, assim como, futuras repetições da metodologia 
empregada, caso necessite.
72
CAPÍTULO 1
Planejamento fatorial completo
Para executar um planejamento fatorial faz-senecessário em primeiro lugar determinar 
os níveis em que cada fator será analisado, isto significa dizer que, haverá uma seleção 
dos valores dos fatores que serão empregados. Em um planejamento fatorial faz-se 
necessário a execução de experimentos para todas as possíveis combinações dos níveis 
dos fatores. Cada experimento, no qual o sistema é submetido, é considerado um ensaio 
experimental. Por exemplo, possuindo 4 níveis num fator e 3 no outro, serão necessários 
4x3 = 12 ensaios distintos, e o planejamento é denominado de fatorial 4x3. Geralmente, 
se houver n1 níveis do fator 1, n2 do fator 2, ..., e nk do fator k, o planejamento será 
um fatorial n1x n2x ...xnk de experimentos. Este é considerado o número mínimo 
para que se realize um planejamento fatorial completo. A repetição dos ensaios pode 
ser realizada, objetivando a obtenção de uma estimativa do erro experimental, o que 
consequentemente aumenta o número total de experimentos.
Havendo k fatores, ou seja, k variáveis controladas pelo experimentador, o planejamento 
de dois níveis irá requerer a realização de 2x2x...x2 = 2k ensaios distintos, sendo 
denominado assim de planejamento fatorial 2k (BARROS NETO, SCARMÍNIO, BRUNS, 
2010).
A Figura 21 apresenta um dado número de fatores F1, F2,...Fk, atuando sobre o sistema 
estudado, produzindo as respostas R1,R2,...Rk. O sistema é representado por uma função 
não conhecida que atua sobre as variáveis de entrada (os fatores) e como saída produz 
às respostas.
Figura 21. Representação de um sistema ligando fatores às respostas.
 
 
Sistema 
F
1
 
F
2
 
F
k
 
... 
R
1
 
R
2
 
R
k
 
... 
Fonte: Adaptado de Barros Neto; Scarminio; Bruns, (2010).
73
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
Caro estudante, abaixo é apesentado algumas definições importantes em 
planejamento de experimentos, caso você ainda tenha dúvidas:
 » Fatores ou variáveis independentes: são condições que podem sofrer 
variações no sistema, como, a concentração de reagentes, força iônica, 
pH, temperatura, pressão, entre outros. 
 » Níveis: é a faixa de variação que um fator poderá sofrer.
 » Resposta ou variável dependente: é a variável de interesse e que sofre 
a influência dos diferentes fatores ou variáveis independentes.
A seguir é apresentado um exemplo para ilustrar a execução e a avaliação dos resultados 
de um planejamento fatorial completo. A partir deste exemplo, serão apresentados 
alguns conceitos fundamentais que depois poderão ser utilizados em planejamentos 
envolvendo um número de fatores qualquer.
Planejamento fatorial 22
Exemplo: estudar os efeitos do aumento da temperatura e da mudança de catalisador 
sobre o rendimento de uma reação, mostrando como realizar um planejamento fatorial 
22 e como avaliar os resultados gerados.
Os níveis escolhidos foram: 40 ºC e 60 ºC para a temperatura, e A e B para o catalisador. 
Para realizar o planejamento 22, devemos realizar ensaios e registrar as respostas 
observadas (os rendimentos, neste caso) em todas as quatro possíveis combinações 
dos níveis escolhidos: (40°C, A), (40°C, B), (60°C, A) e (60°C, B). A lista dessas 
combinações, é apresentada na Tabela 9, juntamente com os rendimentos alcançados 
nos experimentos. Note que todos os ensaios foram realizados em duplicata, produzindo 
no total oito respostas. Com isto, podemos fazer a estimativa do erro experimental de 
uma resposta em particular. A extensão desse erro é importante para decidirmos se 
existem ou não efeitos significativos que possamos atribuir à ação dos fatores.
Cálculos dos efeitos
Observando a Tabela 9, quando usamos o catalisador A e aumentamos a temperatura 
de 40°C para 60°C (ensaios 1 e 2), o rendimento médio aumenta de 59% para 90%, 
ou seja, um aumento de 31%. Quando o catalisador é do tipo B (ensaios 3 e 4), o 
rendimento aumenta apenas 68 - 54 =14%. Isso mostra que o efeito da temperatura, 
isto é, o que acontece com o rendimento da reação quando elevamos a temperatura de 
74
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
40°C para 60°C, depende do nível em que o catalisador está. O efeito do catalisador, por 
sua vez, também depende do nível da temperatura. A 40°C (ensaios 1 e 3) a mudança 
de catalisador diminui o rendimento médio em 5%. A 60°C (ensaios 2 e 4), a redução 
passa a ser de 22%. Quando o efeito de uma variável depende do nível de outra, como 
neste exemplo, dizemos que as duas variáveis interagem, e podemos calcular o valor do 
efeito de interação entre elas.
Tabela 9. Resultado de um planejamento fatorial 22.
Ensaio Temperatura (ºC) Catalisador Rendimento (%) Média
1 40 A 57 61 59
2 60 A 92 88 90
3 40 B 55 53 54
4 60 B 66 70 68
 
Fonte: Barros Neto; Scarmínio; Bruns, (2010).
Por definição, o efeito principal da temperatura é a média dos efeitos da temperatura 
nos dois níveis do catalisador. Usando a letra T para representar esse efeito, e sendo yi 
a resposta média observada no i-ésimo ensaio, podemos escrever:
( ) ( )
( ) ( )
2 1 4 3
2
90 59 68 54 31 14 22,5%
2 2
y y y y
T
T
− + −
=
− + − +
= = =
Este valor sugere que o rendimento da reação aumenta 22,5%, em média, quando a 
temperatura passa de 40 °C (nível inferior) para 60 °C (nível superior). Esta conclusão, 
contudo, não está completa, pois há uma interação entre a temperatura e o catalisador, 
fazendo-se necessário uma interpretação dos efeitos dos dois fatores juntos, para não 
deixar dúvidas sobre a interação que existe entre eles. 
Podemos reescrever a equação abaixo como a diferença entre duas médias:
1 32 4
2 2
y yy yT ++   = −   
   
Como y2 e y4 pertencem ao nível (+) e y1 e y3 pertencem ao nível (-) do fator temperatura, 
observamos que o efeito principal T é a diferença entre a resposta média no nível 
superior e a resposta média no nível inferior desse fator:
T y y+ −= −
75
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
A expressão acima vale para qualquer efeito principal em um planejamento fatorial 
completo de dois níveis e pode ser considerada como uma alternativa de efeito 
principal. Para o catalisador, na nossa escolha de sinais, o nível superior corresponde 
aos ensaios 3 e 4 e o inferior aos ensaios 1 e 2. O efeito principal do catalisador se 
dará utilizando a equação anterior:
3 4 1 4 13,5%
2 2
y y y yC y y+ −
+ +   = − = − = −  
  
O efeito notado é negativo: quando trocamos o catalisador A pelo catalisador B o 
rendimento cai 13,5%. Se por outro lado, na seleção de sinais tivéssemos invertido as 
posições e colocado o catalisador A, ao invés do B, no nível superior, o efeito calculado 
teria sido C = +13,5%. Contudo, na prática, a conclusão seria a mesma: há uma diferença 
entre os rendimentos obtidos com os dois catalisadores, e os resultados do catalisador B 
são, em média, 13,5% mais baixos. Não havendo essa interação, o efeito da temperatura 
deverá ser o mesmo com qualquer catalisador. O efeito da temperatura é +31% com o 
catalisador do tipo A, mas cai para +14% quando usamos o tipo B. Como na ausência 
de interação esses dois valores deveriam ser idênticos, podemos tomar a diferença 
entre eles como uma medida da interação entre os fatores T e C. Por definição, então, 
a metade da diferença é o efeito de interação entre os dois fatores. Usando TxC para 
representar esse efeito, temos:
14 31 8,5%
2
TxC TC −= = = −
Identificando as respostas segundo os ensaios em que foram obtidas, temos:
4 3 2 32 1 1 4
2 2 2 2
y y y yy y y yTC − +− +      = − = −      
      
As equações anteriores mostram que para calcular qualquer efeito utilizamos todas as 
respostas observadas. Vale lembrar que, cada efeito é a diferença de duas médias, ou 
seja, metade das observações colabora para uma das médias, e a outra metade aparece 
na outra média. 
Interpretação geométrica dos efeitos
Uma interpretação geométrica aos efeitos que foram calculados pode ser apresentada. 
Para isto, representamos o planejamento experimental num sistema cartesiano, com 
um eixo para cada fator. Os quatro ensaiossão colocados nos vértices de um quadrado. 
Os efeitos principais são as diferenças médias entre valores localizados em arestas 
opostas e perpendiculares ao eixo do fator correspondente. Já o efeito de interação, é o 
76
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
contraste entre as duas diagonais, considerando-se positiva a diagonal que liga o ensaio 
(- -) ao ensaio (++).
Figura 22. Interpretação geométrica dos efeitos em um planejamento 22.
 
 
y
 
y
 
y
 
y
 
+
 
-
 
C
at
al
is
ad
or
 
(+
) 
(-) 
(+
) 
(-) Temperatura 
y
 
y
 
y
 
y
 
+
 
-
 
C
at
al
is
ad
or
 
(+
) 
(-) 
(+
) 
(-) Temperatura 
y
 
y
 
y
 
y
 
+
 
-
 
C
at
al
is
ad
or
 
(+
) 
(-) 
(+
) 
(-) Temperatura 
Fonte: Barros Neto; Scarmínio; Bruns, (2010).
Estimativa de erro
Os ensaios da Tabela 9 foram realizados em duplicata, para a estimação do erro 
experimental, e avaliação dos efeitos significativos estatisticamente, contudo é preciso 
que a réplica seja uma repetição autêntica de todos os testes realizados. Este ponto 
é importante porque, se as repetições forem feitas inadequadamente, os erros irão 
parecer menores do que na realidade são, e isso pode gerar efeitos significativos que 
não existem. Como foram realizadas em duplicatas nas observações individuais, a 
estimativa combinada da variância de uma observação individual pode ser obtida por:
22 / 2
y
σ σ=
Usando o valor da estimativa de s2=6,5 no lugar de σ2, podemos obter uma estimativa 
com 4o graus de liberdade, do erro padrão de um efeito desse experimento:
( )
2
1,80%
2
s efeito σ= =
Interpretação dos resultados
A Tabela 10 contém os resultados da análise dos dados da Tabela 9, incluindo o 
rendimento médio global, que também é uma combinação linear de todas as observações. 
É importante ressaltar que apenas os efeitos calculados que são significativamente 
77
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
diferentes de zero são considerados. Aplicando o critério de que só consideraremos 
estatisticamente significativo, com 95% de confiança, um efeito cujo valor seja superior 
a t4 x s(efeito) =2,776 x1,8% = 5,0%, vemos que todos eles são significativos. 
Tabela 10. Efeitos calculados para o planejamento fatorial 22 da Tabela 8.
Média global
67,75 ± 0,9
Efeitos principais:
T
C
22,5 ± 1,8
-13,5 ± 1,8
Efeito de interação
TC - 8,5 ± 1,8
 
Fonte: Fonte: Barros Neto; Scarmínio; Bruns, (2010).
Como o efeito de interação é significativo, os principais efeitos devem ser interpretados 
juntos, com isso traça-se um diagrama contendo as respostas médias em todas as 
combinações de níveis das variáveis (Figura 23).
Figura 23. Diagrama para interpretação dos resultados.
 
 
+31 
-5 
+14 
54 
90 59 
68 
-22 
C
at
al
is
ad
or
 
B 
A 
60 40 Temperatura 
Fonte: Barros Neto; Scarmínio; Bruns, (2010).
Portanto, podemos concluir que:
 » Aumentando a temperatura, aumentamos também o rendimento da 
reação, sendo esse efeito mais visível com o uso do catalisador A do que 
com o uso do catalisador B (+31% contra +14%).
78
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
 » O rendimento da reação sofre redução se alteramos o catalisador A pelo 
catalisador B, e esse efeito é visivelmente mais significativo a 60 °C do 
que a 40 °C ( -22% contra -5%).
 » Os maiores rendimentos (90%, em média) foram obtidos utilizando o 
catalisador A e sob temperatura de 60°C.
Sobre o assunto discutido neste capítulo podemos encontrar ainda muito o que 
estudar. Então, para que você possa compreender melhor sobre planejamentos 
fatoriais completos, sugerimos a consulta ao seguinte link: < https://goo.gl/
q9CheV> (PLANEJAMENTO FATORIAL, 2018).
79
CAPÍTULO 2
Planejamento fatorial fracionário
Os planejamentos experimentais são planejamentos fatoriais, isto é, as influências de 
todas as variáveis experimentais de interesse são analisadas, e do mesmo modo, os 
efeitos de interação entre elas sobre a resposta ou respostas sob análise. Estudando-
se as variáveis em pelo menos dois níveis pode-se determinar os efeitos destas sobre 
as respostas de interesse. Um planejamento fatorial constituído de 2k experimentos, 
apresenta uma combinação de k variáveis em dois níveis. Quanto maior o número de 
variáveis investigadas, maior será o número de experimentos necessários para realizar 
um planejamento fatorial completo (BARROS NETO; SCARMÍNIO; BRUNS, 2010). 
Uma alternativa de minimizar o número de experimentos realizados é a utilização 
de planejamentos fatoriais fracionários, ao invés dos fatoriais completos relatados 
anteriormente. 
O fundamento de um projeto fatorial fracionário está baseado em utilizar o fato de que 
um projeto fatorial é ortogonal e que a interações de mais altas não são significativas, 
isto é, utilizam-se as interações de mais alta ordem para blocar fatores extras. Portanto, 
a fração é considerada um subgrupo, de todas as combinações possíveis de serem feitas. 
A análise dos fatoriais fracionários é direta e, em função de sua estrutura, a utilização de 
um fatorial fracionário não impede a possibilidade de uma complementação posterior 
de todo o experimento fatorial.
Em um experimento fatorial completo, existem 2k tentativas experimentais. Na análise 
de um fatorial completo, temos a média geral, k efeitos, principais (2k - k - 1) efeitos 
de interações. Os 2k experimentos podem ser empregados para fornecer estimativas 
independentes de todos os 2k efeitos. Enquanto em um fatorial fracionário (a fração 
1/2p), haverá apenas 2k-p experimentos, logo, somente 2k-p estimativas independentes 
são possíveis. No planejamento de planos fracionários (isto é, na seleção do subgrupo 
ideal do total das 2k combinações), o objetivo é manter cada uma das 2k-p estimativas 
o mais o mais independente possível, isso significa dizer que, faz-se necessário manter 
as estimativas dos efeitos principais e, ainda, as interações de segunda ordem sem 
tendências. Na Tabela 11 é mostrado um exemplo do número de tratamentos dos 
fatoriais completo e fracionado, para diferentes valores de p, sendo p a ordem de 
redução do fatorial completo.
80
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
Tabela 11. Número de tratamentos para k fatores com dois níveis (completo e fracionário).
k Fatorial 2k Fatorial 2k-1 Fatorial 2k-2 Fatorial 2k-3 
2 4 2 1 -
3 8 4 2 1
4 16 8 4 2
5 32 16 8 4
Fonte: Adaptada de Barros Neto, Scarmínio, Bruns, (2010).
Logo chegamos a seguinte conclusão: o tamanho da fração influenciará no possível 
número de efeitos estimados e, consequentemente, no número de experimentos a 
serem realizados (RODRIGUES; LEMMA, 2015). Um planejamento fatorial fracionado 
25-1 terá metade dos experimentos de um planejamento fatorial completo 25 a serem 
realizados pois serão realizados 24 = 16 experimentos ao invés de 25 = 32 experimentos 
no planejamento fatorial completo.
Montgomery (2012) ressalta justificativas para a utilização das técnicas de experimentos 
fatoriais fracionados:
 » A dispersão dos efeitos, isto é, quando vários fatores de controle são 
avaliados, é provável que o processo sofra influência apenas de alguns 
efeitos principais e de interação de ordem inferior.
 » A propriedade de projeção: neste caso, os experimentos fatoriais 
fracionados podem ser delineados em matrizes maiores, construídas a 
partir de um subconjunto de fatores significativos. 
 » A experimentação sequencial: ocorre quando é possível fazer a combinação 
das corridas de dois ou mais experimentos fatoriais fracionados.
Os planejamentos fatoriais completos e, principalmente, os fatoriais fracionários, 
podem ser empregados na triagem e na determinação das variáveis significativas que 
influenciam um determinado processo. Utilizando a metodologia de análise de superfície 
de resposta é possível encontrar valores que irão produzir a melhor resposta desejada. 
Esta metodologia é baseada na criação de modelos matemáticos que descrevem o 
sistema estudado (TEÓFILO; FERREIRA, 2006). 
81
PLANEJAMENTO EXPERIMENTAL │ UNIDADE IIIPlanejamento fatorial 2k-1
Vamos considerar o experimento fatorial: 23-1, isto é, a fração um meio do 23 (8 
tratamentos). Assim, só realizaremos 4 tratamentos:
3 3 1 3 1 21 2 2 2 2 2 4
2
− −= = = =
A tabela 12 abaixo apresenta os sinais de + e – para o fatorial 23.
Tabela 12. Sinais (+ e -) para o planejamento fatorial 23.
Tratamentos
Efeitos fatoriais
I A B C AB AC BC ABC
a + + - - - - + +
b + - + - - + - +
c + - - + + - - +
abc + + + + + + + +
ab + + + - + - - -
ac + + - + - + - -
bc + - + + - - + -
(1) + - - - + + + -
 
Fonte: Montgomery (2012).
As rodadas dos planejamentos 23-1 resultam em três graus de liberdade associados aos 
efeitos principais. Pela tabela 12, obtemos as estimativas dos efeitos principais:
( )
( )
( )
1
2
1
2
1
2
A a b c abc
B la b c abc
C a b c abc
= − − +
= + − +
= − − + +
As estimativas das interações também podem ser obtidas a partir da tabela 12.
( )1
2
BC a b c abc= − − +
O mesmo ocorre com AC e AB.
Assim, a combinação linear de observações na coluna A, lA dá a estimativa de A + BC. 
Analogamente, lB, dá a estimativa de B + AC e lC, a estimativa de C + AB. Dois ou mais 
efeitos que tenham essa característica são denominados de aliases. No planejamento 
23-1, A e BC são aliases, bem como B e AC, e C e AB. Os aliases são resultado direto da 
replicação fracionada.
82
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
Se um ou mais fatores de uma fração um meio podem ser omitidos, o planejamento se 
projetará em um planejamento fatorial completo. Se considerarmos que no máximo 
dois ou três fatores são importantes, o planejamento 23-1 é um planejamento satisfatório 
para identificar os fatores significantes, resultando em um experimento mais forte nos 
fatores ativos que permanecem.
As resoluções dos planejamentos fatoriais fracionados ocorrem de acordo com o padrão 
de aliases que produzem:
1. Planejamento de resolução III: nestes planejamentos, nenhum efeito 
principal é aliase de qualquer outro efeito p, principal, mas os efeitos 
principais são aliases das interações de dois fatores, as interações de dois 
fatores podem ser aliases uma das outras. O planejamento 23-1 com I = 
ABC é de resolução III. Usualmente utiliza-se numeral romano subscrito 
para indicar a resolução de planejamento, assim a fração um meio é um 
planejamento 2III3-1.
2. Planejamento de resolução IV: nesses planejamentos, nenhum 
efeito principal é aliase de qualquer outro efeito principal e nem 
de interações de dois fatores, mas as interações de dois fatores são 
consideradas aliases uma das outras. O planejamento 24-1 com I = 
ABCD é de resolução 2IV4-1.
3. Planejamento de resolução 5: neste tipo de planejamento, nem o efeito 
principal e nem a interação de dois fatores é aliase de qualquer outro 
efeito principal ou interação de dois fatores, mas as interações de dois 
fatores são aliases das interações de três fatores.
Algumas precauções devem ser ressaltadas para obtenção do máximo de informação 
na realização do planejamento fatorial. Dentre elas, estar a necessidade de realizar 
repetições de alguns ensaios a fim de estimar o erro experimental. É importante que 
as replicatas sejam repetições autênticas, representando adequadamente o espaço 
experimental no qual o planejamento fatorial foi desenvolvido. Outra precaução 
refere-se à realização dos experimentos: todos os ensaios e replicatas previstos no 
desenvolvimento do fatorial devem ser realizados de forma aleatória. Estas precauções 
visam evitar distorções estatísticas que possam comprometer a qualidade dos resultados 
obtidos e dos efeitos calculados para as variáveis estudadas (BRASIL et al., 2007).
83
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
A metodologia de resposta (ou RSM, de response Surface Methodology) é uma 
técnica de otimização com base em planejamento fatoriais, que foi introduzida 
por G.E.P. Box nos anos 1950, e que tem sido utilizada desde então apresentando 
resultados satisfatórios na modelagem de diversos processos industriais. As 
superfícies de respostas são utilizadas quando as variáveis de resposta são 
influenciadas por muitas variáveis independentes e o objetivo é otimizar essas 
respostas, tendo duas etapas distintas e importantes (BARROS NETO; SCARMÍNIO, 
BRUNS, 2010): 
1) Modelagem: repetições tantas vezes quantas forem necessárias, visando 
atingir uma região ótima da superfície investida. Normalmente é feita com 
ajuste de modelos simples (lineares ou quadráticos) as respostas obtidas com 
planejamentos fatoriais. 
2) Deslocamento: máxima inclinação de um determinado modelo, ou seja, é a 
trajetória na qual a resposta varia de forma mais pronunciada.
Exemplificamos temos: o rendimento de um determinado processo é função de 
dois fatores, x1 e x2, sendo ɛ o erro observado ou o ruído na resposta y: 
( )1 2,y f x x ε= +
O primeiro passo na utilização da metodologia de superfície de resposta é 
determinar a relação matemática entre a variável de resposta e as variáveis 
independentes. Se esse polinômio de menor grau ajustar bem a resposta, a 
função é então dada por um modelo denominado de modelo de primeira ordem:
0 1 1 2 2 k kY x x xβ β β β ε= + + +…+ +
Se houver curvatura no sistema, então o modelo de segunda ordem ou 
quadrático deve ser utilizado como apresentado na equação abaixo:
2
0 1 1
k k
j j ij i j jj jj i j j
Y x x x xβ β β β ε
= < =
= + + ∑ + +∑ ∑ ∑
A metodologia do uso de superfície de resposta é sequencial, ou seja, quando 
se está longe do ponto ótimo de resposta, o modelo de primeira ordem é 
ajustado bem aos dados. Todavia, quando se objetiva otimizar, procura-se uma 
estratégica eficiente de rapidamente se encontrar as condições operacionais 
ideais que levem a isso. Uma vez encontrada a possível região que o ótimo está, 
um modelo de segunda ordem deve ser adotado. Para obter mais conhecimento 
sobre este assunto, acesse: <https://goo.gl/rvrwtc>.
84
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
Para aumentar seus conhecimentos sobre os assuntos estudados neste capítulo, 
sugerimos a consulta ao seguinte link, que apresenta um arquivo específico 
sobre isto, elaborado pelos Professores Marcus Antônio Viana Duarte e Tatiana 
Meola: https://goo.gl/qWgJKx (PLANEJAMENTO FRACIONADO, 2018) que traz 
mais detalhes sobre os conceitos apresentados nesta unidade assim como vários 
outros exemplos.
Lembre-se de procurar por mais informações sobre esse assunto para 
aprofundamento do tema estudado. 
85
CAPÍTULO 3
Modelos de regressão
Os planejamentos fatoriais 2k podem ser avaliados por meio de Modelos Lineares 
Gerais. O uso da regressão pode ser considerado como uma alternativa didática para 
o ensino de planejamento experimental, já que a regressão utilizada o conceito de 
variável dependente (correspondente à variável resposta para o DOE) e as variáveis 
independentes (correspondentes aos fatores controlados). As relações entre prováveis 
causas e o efeito tornam-se mais óbvias nos modelos de regressão. 
A escolha de um modelo de regressão deve ser realizada de modo que a escolher as 
variáveis que sejam significativas para o modelo. Com isso, o método dos melhores 
subconjuntos podem ser empregado, o qual consiste na avaliação de todos os possíveis 
modelos de regressão para determinação do conjunto de variáveis independentes que 
formarão o modelo final (LEVINE, 2008). Este método pode ser feito utilizando o Teste 
Fparcial. 
A escolha de novas variáveis independentes para o modelo de regressão pode ser feita 
comparando-se dois modelos aninhados (dois modelos são considerados aninhados 
se um modelo possui todos os termos do segundo modelo e pelo menos um termo a 
mais). O modelo com mais termos é denominado de modelo completo ou integral e o 
mais simples é chamado de modelo reduzido ou restrito (MENDENHALL; SINCICH, 
2012). No desenvolvimento de um modelo de regressão múltipla, apenas aquelas 
variáveis independentes que diminuam significativamente o erro ao prever o valor de 
uma variável dependente deveser empregada. Logo, se uma variável independente não 
melhorar essa previsão, exclui-se ela do modelo (LEVINE, 2008).
O teste Fparcial é um método alternativo para determinar a contribuição de uma variável 
independente em um modelo. Esse método envolve a análise da contribuição dada por 
cada nova variável independente para a soma dos quadrados da regressão, depois que 
todas as outras variáveis independentes forem contidas no modelo. Sendo que a nova 
variável independente só é incluída no modelo se houver melhoras significativamente 
no mesmo (LEVINE, 2008). Segundo Mendenhall e Sincich (2012), neste teste a 
hipótese nula e a hipótese alternativa são construídas para testar a contribuição da(s) 
variável(is) βg+1, βg+2...βk para o modelo.
86
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
No modelo completo temos:
( ) 0 1 1
1 1
g g
g g k k
E y X X
X X
β β β
β β+ +
= + +…+
+…+
No modelo reduzido temos:
( ) 0 1 1
1 1
g g
g g k k
E y X X
X X
β β β
β β+ +
= + +…+
+…+
De acordo com isso temos o seguinte:
- H0:βg+1 = βg+2 = ...+βk = 0  as variáveis adicionadas não aperfeiçoam significativamente 
o modelo.
- H1:βg+1 ≠ βg+2 ≠ ... ≠βk = 0  pelo menos umas das variáveis é diferente de zero, assim 
sendo essas variáveis aperfeiçoam significativamente o modelo.
O Teste Fparcial pode ser calculado utilizando-se o Coeficiente de Determinação, conforme 
fórmula a seguir:
( ) ( )
( ) ( )( )
2 2
2
/
1 / 1
c r
parcial
c
R R k g
F
R n k
− −
=
− − +
Onde: 
 » 2rR = Coeficiente de Determinação R2 do modelo reduzido;
 » 2cR = Coeficiente de Determinação R2 do modelo completo;
 » k+1 = Número de parâmetros no modelo completo incluindo β0;
 » k - g = Número de parâmetros adicionados sendo testados em H0;
 » n = Tamanho total da amostra.
O coeficiente de determinação é igual à soma dos quadrados da regressão (variação 
explicada pelo modelo de regressão) dividida pela soma total dos quadrados (variação 
total existente no modelo de regressão). Logo, o coeficiente de determinação mede 
a proporção da variação na variável dependente que é explicada pelas variáveis 
independentes. Valores próximos a ±1 sugerem uma forte relação linear (LEVINE, 
2008). Ele é calculado pela seguinte fórmula:
87
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
A distribuição F é utilizada para verificar a validade da hipótese nula. Rejeita-se a 
mesma se o nível de significância observado ou valor-p for menor do que o nível de 
significância (α) estabelecido. Geralmente, utiliza-se o valor de 1% ou 5% para o nível de 
significância. O teste consiste na comparação entre o valor de Fparcial e o valor de Ftabelado 
ou Fα,v1,v2:
( )
( )( )
1
2
, 1, 2 0
 ; ; 
1 
 , parcial v v
nível de significância v k g graus deliberdadedonumerador
v n k graus deliberdadedodenominador
Se F F rejeita se Hα
α = = −
= − +
> −
Exemplificando temos: um experimento fatorial 2k com três fatores, com o seguinte 
modelo completo:
( ) ( )
( )
1 2 3
12 13
23
123
 ; ;
 1 2 ; 1 3 ; 
 2 3 .
 1 , 2 
X X X Fatores
X interaçãoentreos fatores e X interaçãoentre so fatores e
X interaçãoentreos fatores e Termos deinteraçãode segundaordem
X interaçãoentreos fatores
→
→
( ) 3 .e Termos deinteraçãodeterceiraordem→
Deste modo, teremos a seguinte equação de regressão:
( ) 0 1 1 2 2 3 3 4 12 5 13 6 23 7 123E y X X X X X X Xβ β β β β β β β= + + + + + + +
Onde:
 » 1 1 2 2 3 3X X Xβ β β+ + são os termos dos efeitos principais;
 » 4 12 5 13 6 23X X Xβ β β+ + são os termos dos efeitos de interação de segunda 
ordem;
 » 7 123Xβ são os termos dos efeitos de interação de terceira ordem.
Algumas relações algébricas entre correlação e regressão existem para o esclarecimento 
dos seus verdadeiros significados, assim como, suas limitações (BARROS, 2001). 
Suponhamos que X e y sejam variáveis aleatórias e que, seja apropriado a definição de 
um coeficiente de correlação entre elas, dado por:
( ), 
1
i i
x y xy
xx yy
X X y y
s s S
r X y
N S S
  − −
∑      = =
−
88
UNIDADE III │ PLANEJAMENTO EXPERIMENTAL
Enquanto a estimativa de β1 é dada por: 
1
xy
xx
S
S
β =
Combinando as duas equações anteriores, temos uma relação entre o coeficiente angular 
da reta de regressão β1, e o coeficiente de correlação entre as duas variáveis, r(X,y):
( ) ( )1 1, ,yy y
xx x
S S
r X y ou r X y
S S
β β= =
onde Sy e Sx são os desvios padrão das variáveis y e X, respectivamente. Mesmo assim, 
β1 e r(X,y) continuam tendo significados diferentes. O coeficiente de correlação, como 
sabemos, é uma medida da associação linear existente entre as variáveis X e y, ambas 
supostamente aleatórias. O valor do coeficiente angular β1 representa a variação em y 
correspondente à variação de uma unidade em X, isto é, a derivada dy/dX.
Para um modelo linear, podemos relacionar o coeficiente de determinação, e o coeficiente 
de correlação r(X,y). Para isso, reescrevemos R2 como:
( )
( )
( )
( )
2
2
2
2 2
2 2
,
,
iR
T i
yy xx
xx yy
y ySQR
SQ y y
S SR r X y
S S
R r X y
∑ −
= =
∑ −
=
=
O valor de R pode ser explicado como um coeficiente de correlação, no entanto, não entre 
as variáveis X e y (BARROS NETO; SCARMÍNIO; BRUNS, 2010). Pode-se demonstrar 
que em qualquer circunstância, para qualquer regressão linear com quaisquer números 
de variáveis, R é o coeficiente de correlação entre as respostas observadas e os valores 
previstos pelo modelo ajustado:
( ),R r y y=
Esta relação é legítima, pois tanto os valores observados quanto os valores previstos são 
variáveis aleatórias. O valor de R, que é chamado de coeficiente de correlação múltipla, 
nunca é negativo, ele é o maior valor da correlação que uma combinação linear das 
variáveis independentes, na forma apontada pelo modelo, pode ter com os valores de y 
observados.
Galdamez e Carpinetti (2004) reportaram as principais ferramentas de um planejamento 
experimental, e estas são apresentadas no Quadro 1.
89
PLANEJAMENTO EXPERIMENTAL │ UNIDADE III
Quadro 1. Principais ferramentas de um planejamento experimental.
Ferramentas Características
Planejamento fatorial Seu uso ocorre quando todas as combinações dos níveis dos fatores de controle são realizadas.
Planejamento fatorial 2k Técnica com dois níveis e 2k número de combinações de k fatores.
Planejamento fracionado 
2k-p
Seu uso ocorre quando há diversos fatores de controle e não é viável para os pesquisadores a realização de todas as 
combinações dos experimentos.
Metodologia de superfície 
de resposta
Metodologias de planejamento e análise de experimentos usadas na modelagem matemática de respostas. 
Planejamento fatorial 2k, 
com pontos centrais
Metodologia que consiste em adicionar um ponto de experimentação no nível intermediário aos níveis avaliados para 
os k fatores de controle. 
Gráficos
1. Gráficos de efeitos principais: mostram a variação média das respostas em função da mudança no nível de um 
fator, sendo os outros fatores mantidos constantes. 
2. Gráficos de efeitos de interação: fazem a descrição da variação média de um fator em função dos níveis de outros 
fatores. 
3. Gráfico de probabilidade normal é empregado nas situações em que não há a repetição de um experimento e é 
importante obter uma estimativa independente do erro experimental para julgar a importância dos efeitos principais e 
de interação.
 
Fonte: Adaptado de Galdamez e Carpinetti (2004).
Caro estudante sugerimos a consulta ao seguinte link para aprofundamento dos 
conhecimentos discutidos neste capítulo: https://goo.gl/3131cn (ANÁLISE DE 
REGRESSÃO, 2018).
90
UNIDADE IVQUIMIOMETRIA
A Quimiometria é uma área da Química extremamente difundida e muito útil na 
extração de informações dos mais variados sistemas químicos. Além da pesquisa básica, 
a indústria química utiliza a análise multivariada para otimizar seus processos e, nesse 
contexto, formar profissionais com o conhecimento necessário é muito importante para 
o desenvolvimento do setor no país.A Quimiometria pode ser conceituada como uma área da química que utiliza métodos 
matemáticos e estatísticos para:
» Planejar ou fazer escolhas de procedimentos ótimos de medidas e experimentos. 
» Extrair o máximo da informação química relevante, ou seja, otimizar o processo 
da análise dos dados.
Outra definição também proposta para Quimiometria é como uma ciência que relaciona 
medidas realizadas em um sistema ou processo químico, ao estado do sistema utilizando 
métodos matemáticos e/ou estatísticos.
Figura 24. Correlação da Quimiometria com a Química, Matemática e Estatística.
 
 
QUÍMICA MATEMÁTICA 
 
ESTATÍSTICA 
QUIMIOMETRIA 
Fonte: autora.
A quimiometria engloba todo um processo no qual os dados (por exemplo, números em 
uma tabela) são transformados em informações usadas para tomar decisões. Para cumprir 
tais objetivos, os estudos quimiométricos utilizam-se de ferramentas matemáticas 
aplicadas em softwares. Isto se faz necessário devido à grande complexidade em realizar 
tais cálculos à mão. Veremos a seguir sobre os fundamentos e seus princípios.
91
QUIMIOMETRIA │ UNIDADE IV
A quimiometria pode ser entendida como a junção da química e da estatística a fim de 
análise de dados de origem química. Ou seja, é o tratamento de dados químicos pelos 
olhos da estatística, utilizando-se de métodos matemáticos.
A quimiometria possui uma grande abrangência na variedade de dados no qual pode 
ser aplicada, indo desde dados de cinética e equilíbrio químico à otimização de sínteses 
orgânicas. 
Esta ferramenta pode ser utilizada tanto em laboratórios de pesquisa quanto na 
indústria, no controle e monitoramento de processos.
A quimiometria está ligada à outras disciplinas dentro da química como a química 
orgânica, físico-química e química teórica, quanto outras áreas dos estudos das exatas 
como engenharia, matemática e estatística.
Figura 25. Correlação da quimiometria com as diversas disciplinas acadêmicas.
 
 
Química 
orgânica 
Quimiometria 
 
Química 
analítica 
Química 
Teórica e físico-
química 
Estatística 
Computação 
Engenharia 
Biologia 
Indústria 
Alimento
s M
at
em
át
ic
a 
Fonte: Adaptado de Brereton (2003).
Histórico
A utilização das ferramentas de quimiometria começaram tardiamente. Os registros das 
primeiras utilizações de estatística multivariada se deram na primeira metade do século 
XX, pois a partir dele, por volta da década de 1970, a presença de microprocessadores 
e microcomputadores se popularizou nos laboratórios químicos (SENA; POPPI, 2010).
Conhecidamente, os pioneiros na área de quimiometria são os professores Bruce 
Kowalski, da Universidade de Washington, Estados Unidos e Svante Wold, da 
Universidade de Umea, Suécia.
92
UNIDADE IV │ QUIMIOMETRIA
Desenho experimental
O desenho experimental existe para se otimizar tempo de laboratório, uso de reagente 
entre outros fatores envolvidos dentro de um projeto em química. Para tanto, é 
necessário a aplicação de regras estatísticas formais que muitas vezes não são ensinadas 
nos cursos tradicionais.
Um projeto estatístico formal pode levar semanas para ser preparado antes de dar 
início à parte experimental e estes experimentos, por sua vez, podem ser realizados 
rapidamente. Devido a isso, muitos professores e alunos não possuem o hábito do 
desenho experimental. Porém, a maioria dos experimentos do mundo real são caros. 
Se pegarmos o exemplo da otimização de condições de uma síntese orgânica, testar 
compostos em um estudo QSAR, ou melhorar a separação cromatográfica de isômeros 
pode levar dias ou meses, mas é essencial para a otimização do tempo.
Existem várias razões pelas quais o químico pode ser mais produtivo se ele entender a 
base do desenho experimental, incluindo as quatro áreas principais a seguir:
 » Triagem: a triagem envolve experimentos que indicam quais fatores são 
mais importantes para o sucesso de um processo. Como exemplo temos 
um estudo de uma reação química onde se varia a proporção de solventes, 
concentração de reagentes, temperatura e pH. Nestes casos são muitos 
fatores envolvidos e devem ser analisados quais aqueles que podem 
ser descartados e aqueles que devem ser estudados com mais detalhes. 
Para tal, existem ferramentas como o planejamento fatorial ou Plackett-
Burman (SENA; POPPI, 2010). 
 » Otimização: a otimização é uma das ferramentais mais aplicadas em 
química. Ela é necessária para se verificar, por exemplo, um rendimento 
de síntese ou uma purificação. O método Simplex é um dos mais aplicados 
para esta função.
 » Economia de tempo: na indústria, esta é uma das principais motivações 
para o desenho experimental. A partir de dados estruturais, de moléculas 
existentes, é possível prever um pequeno número de compostos para 
testes adicionais, representativos de um conjunto maior de moléculas. 
Isso permite uma enorme economia de tempo. Os modelos estatísticos 
mais utilizados são o fatorial fracionário, Taguchi e Plackett-Burman.
93
QUIMIOMETRIA │ UNIDADE IV
Como visto anteriormente, existem diversas aplicações de um desenho ou planejamento 
experimental. Um exemplo é a otimização do rendimento de uma reação em função da 
concentração de reagente. 
A representação deste experimento é dada na Figura 26. O gráfico de contorno 
é desconhecido de antemão, porém, o pesquisador deseja determinar o pH e a 
concentração (em mM) que fornece as melhores condições de reação. Dentro de 0,2 
de uma unidade de pH e concentração, o pH ótimo é 4,4 e a concentração de 1,0 mM. 
Muitos experimentalistas começarão adivinhando um dos fatores, como a concentração, 
e então encontrarão o melhor pH nessa concentração (SENA e POPPI, 2010).
Figura 26. Representação gráfica do planejamento experimental que são estudados três fatores: 
rendimento, concentração e pH.
 
 
0,2 0,6 1,0 1,4 1,8 2,6 2,2 
3,0 
3,6 
4,2 
4,8 
5,4 
6,0 
Concentração 
pH 
Re
nd
im
en
to
 
Fonte: Adaptado de Sena e Poppi (2010).
94
CAPÍTULO 1
Princípios básicos
Graus de liberdade
Graus de liberdade, em estatística, pode ser entendido como a quantidade de informação 
que os dados gerados fornecem para se estimar os valores de parâmetros desconhecidos, 
e calcular a variabilidade dessas estimativas. O grau de liberdade é determinado pelo 
número de observações da amostra e o número de parâmetros do modelo escolhido.
A maioria dos experimentos resulta em algum tipo de modelo, que é uma maneira 
matemática de relacionar uma resposta experimental ao valor ou estado de vários 
fatores. Um exemplo de modelo é o rendimento de uma reação e os fatores interferentes 
são pH e temperatura. 
Em diversos trabalhos dentro da química, é importante equilibrar o número de 
experimentos únicos com o número de repetições. Cada réplica experimental nos fornece 
um grau de liberdade para se medir os erros experimentais. A Figura 27 exemplifica os 
níveis dos graus de liberdade
Figura 27. Níveis de graus de liberdade.
 
 
Número de experimentos 
(N) 
Número de parâmetros 
(P) 
Graus remanescentes de 
liberdade 
(N-P) 
Número de replicatas 
(R) 
Número de graus de 
liberdade para testar o 
modelo 
(D=N-P-R) 
Fonte: Adaptado de Sena e Poppi (2010).
Cada réplica fornece um grau de liberdade para medir erros experimentais. Uma boa 
regra é que o número de réplicas (R) deve ser semelhante ao número de graus de 
95
QUIMIOMETRIA │ UNIDADE IV
liberdade para a falta de ajuste (D), a menos que exista uma razão para se estudar um 
aspecto do sistema de preferência para outro. 
Análise de variância e comparação de erros
A experimentação científica tem por objetivo responder o quanto um determinado fator 
pode ser significativo. A seguir, serão apresentadas maneiras de fornecer informações 
numéricas que permitam indicar os graus de liberdade experimentais para determinar 
o significado de um dado fator.
Quando se tenta realizar um ajuste matemático em determinado modelo experimental 
e esse não se encaixa nos parâmetros estabelecidos, pode-se dizer que o termo de 
interceptaçãopode ser comparado como o erro de replicação. Esses erros são chamados 
de variâncias. Se a falta de ajuste for muito maior do que o erro replicado, este é 
significativo, sendo o termo de interceptação levado em consideração.
Para uma melhor compreensão tomemos o exemplo citado por Brereton (2003).
Dois conjuntos de dados chamados de A e B são mostrados nas figuras abaixo:
Figura 28. Gráfico da altura do pico versus concentração, conjunto de dados A.
 
 
Al
tu
ra
 d
o 
pi
co
 
Concentração (mM) 
Fonte: BRERETON (2003).
96
UNIDADE IV │ QUIMIOMETRIA
Figura 29. Gráfico da altura do pico versus concentração, conjunto de dados B.
 
 
Al
tu
ra
 d
o 
pi
co
 
Concentração (mM) 
Fonte: BRERETON (2003).
Existe um termo significativo de interceptação para esses dois conjuntos de dados?
Tabela 13. Informações numéricos dos conjuntos de dados A e B.
Concentração A B
1 3803 4797
1 3276 3878
2 5181 6342
3 6948 9186
3 8762 10136
4 10672 12257
4 8266 13252
5 13032 14656
6 15021 17681
6 16426 15071
 
Fonte: Brereton, (2003).
Para se responder à pergunta citada mais acima, o primeiro passo é determinar o 
número de graus de liberdade para cada experimento.
Para cada experimentos:
 » N (número total de experimentos) igual à 10;
 » R (número de replicatas) igual à 4, medidos nas concentrações 1, 3, 4 e 6 
mM.
Os modelos podem ser determinados sem a interceptação na forma de y = bx ou com a 
interceptação na forma y = b0 + b1x.
97
QUIMIOMETRIA │ UNIDADE IV
No primeiro caso, D = N – R – 1 = 5;
No segundo caso, D = N – R – 1 = 5.
O erro total de replicação pode ser obtido observando a diferença entre as respostas sob 
concentrações experimentais idênticas. Para os dados na Tabela 13, as replicatas são 
realizadas para as concentrações de 1, 3, 4 e 6 mM. Uma maneira simples de determinar 
esse erro é mostrado abaixo:
1. Faça a leitura média em cada nível ou concentração replicada;
2. Determine as diferenças entre essa média e a leitura verdadeira para cada 
medida replicada;
3. Em seguida, calcule a soma dos quadrados dessas diferenças (observe 
que a soma será sempre zero).
Este procedimento pode ser visto na tabela abaixo:
Tabela 14. Cálculo de erros para o conjunto de dados A, modelo incluindo interceptação.
Erro replicado
Concentração
Absorbância
Replicata
Diferença
Diferença 
elevada ao 
quadradoMédia
1 3803 0,263 0,069
1 3276 3540 -0,263 0,069
2 5181
3 6948 0,907 0,822
3 8762 7855 -0,907 0,822
4 10672 1,203 1,448
4 8266 9469 -1,203 1,448
5 13032
6 15021 -0,702 0,493
6 16426 15724 0,702 0,493
Soma do erro de replicação ao quadrada 5,665
Erro global (dados ajustados usando calibração univariada)
Concentração Absorbância Dado ajustado Diferença Diferença 
elevada ao 
quadrado
1 3803 3048 0,755 0,570
1 3276 3048 0,229 0,052
2 5181 5484 -0,304 0,092
3 6948 7921 -0,972 0,945
3 8762 7921 0,841 0,708
4 10672 10357 0,315 0,100
98
UNIDADE IV │ QUIMIOMETRIA
4 8266 10357 -2,091 4,372
5 13032 12793 0,238 0,057
6 15021 15230 -0,209 0,044
6 16426 15230 1,196 1,431
Total erro ao quadrado 8370
 
Fonte: Brereton (2003).
Algebricamente, a soma dos quadrados é definida como:
( )
1
2
1
 rep
i
S yi yi
=
= −∑
Onde yi é a resposta média em cada condição experimental única.
A soma total de erro residual dos quadrados é simplesmente a soma da diferença 
quadrada entre as leituras observadas e aquelas previstas usando um modelo de melhor 
ajuste. O uso do ANOVA é generalizado e baseia-se nessas ideias simples. Normalmente, 
dois erros médios são comparados, por exemplo, um devido à replicação e outro devido 
à falta de ajuste, embora quaisquer dois erros ou variâncias possam ser comparados 
(BRERETON, 2003). 
É importante reconhecer que a reprodutibilidade da reação tem uma influência sobre o 
significado aparente também. Se houver um grande erro de replicação, alguns fatores 
significativos podem ser perdidos (BRERETON, 2003).
Avaliação da significância
Dentro da avaliação de significância existem diversos métodos como o teste T de 
Student e o teste-F. Cada um possui sua metodologia matemática de aplicação que 
serão discutidos a seguir.
Teste T de Student
O teste T de Student pode ser utilizado quando são realizados muitos experimentos. 
Existem muitas aplicações diversas para este teste, porém no contexto de analisar a 
significância dos fatores em experimentos planejados, os seguintes passos são utilizados:
1. Cálculo da matriz (D’D)-1. Esta será uma matriz quadrada com dimensões 
iguais ao número de parâmetros no modelo;
2. Calcular a soma dos quadrados dos erros entre os dados previstos e os 
dados observados;
99
QUIMIOMETRIA │ UNIDADE IV
3. Tomar a média da soma dos quadrados dos erros (dividida pelo número 
de graus de liberdade disponíveis para teste de regressão);
4. Para cada um dos parâmetros P, pegar o número apropriado da diagonal 
da matriz obtida na etapa 1;
5. Para cada coeficiente, b, calcule 
bt
sv
= . Quanto maior essa proporção, 
mais significativo é o coeficiente. Essa proporção é usada para o teste-t;
6. A significância estatística é obtida a partir de uma distribuição t-bicaudal.
Teste-F
O teste F é uma outra forma de avaliação da significância. Um uso comum deste teste 
é juntamente com o ANOVA, e pergunta como uma variância significativa (ou soma 
média de quadrados) é relativa a outra; tipicamente, quão significativa a falta de ajuste 
é comparada com o erro replicado.
Para se aplicar o teste-F é necessário determinar o quadrado médio da falta de ajuste 
para replicar os erros e verificar o tamanho deste número. Tabelas de distribuição F são 
comumente apresentadas em vários níveis de probabilidade. Um exemplo de tabela 15 
de distribuição F é mostrado abaixo.
Tabela 15. Distribuição F com V1 graus de liberdade no numerador e V2 graus no denominador.
V1 → 1 2 3 4 5
V2 ↓
1 161.45 199.50 215.71 224.58 230.16
2 18.51 19.00 19.16 19.25 19.30
3 10.13 9.55 9.28 9.12 9.01
4 7.71 6.94 6.59 6.39 6.26
5 6.61 5.79 5.41 5.19 5.05
 
Fonte: https://www.ime.unicamp.br/~cnaber/tabela_F_1.pdf (DISTRIBUIÇÃO, 2019).
Caro estudante, a tabela completa apresentada acima pode ser acessada no site: 
<https://www.ime.unicamp.br/~cnaber/tabela_F_1.pdf> (DISTRIBUIÇÃO, 2019).
100
CAPÍTULO 2
Erro em análises químicas
Introdução
Quando realizamos experimentos, incluindo nas áreas de exatas como em biológicas, as 
medidas realizadas são passíveis de erros e incertezas. 
As fontes de erros dentro das análises químicas podem ocorrer por duas grandes 
varáveis: erros cometidos pelo analista técnico como padronizações ou calibrações 
malfeitas ou por erros inerentes à amostra como alguma característica do material 
analisado.
Destes fatos, torna-se impossível que uma análise química seja completamente 
isenta de erros, porém existem medidas que devem ser tomadas para que estes sejam 
minimizados completamente.
Todas as medidas analíticas são influenciadas por fatores de incerteza, gerando neste 
sentido o que é chamado de dispersão dos dados.
A dispersão de dados nada mais é do que resultados gerados não seguindo um padrão 
determinado. Tomemos por exemplo a Tabela 16. Nela são apresentados dados de 
concentração de um corante e as medidas de absorbância de 6 replicatas experimentais.
Tabela 16. Concentração de um determinado corante e as medidas de absorbância obtidas em 6 replicatas 
experimentais.
Absorbância n1 n2 n3 n4 n5 n6
Concentração (µM)
0,05 0,15 0,12 0,13 0,16 0,18 0,33
0,1 0,25 0,32 0,27 0,33 0,17 0,34
1,0 0,53 0,67 0,49 0,59 0,87 0,52
 
Fonte: autora.
Podemos notar que os dados que estão destacados em negritos são muito discrepantes 
da tendência que seguem os demais dados da mesma categoria. Ou seja, na linha em 
que temos a concentração de 0,05 µM, os dados de leitura da absorbância ficam dentro 
dos limites de 0,12 a 0,18, sendo o dado 0,33 disperso de tais resultados. Já para a 
concentração de 0,1 µM, os limites ficam entre 0,25 a 0,34, sendo o valor de 0,17 fora 
101
QUIMIOMETRIA│ UNIDADE IV
desta tendência. Finalmente, para a concentração de 1,0 µM, os limites observados 
estão entre 0,49 a 0,67, com o valor de 0,87 fora da tendência.
Conceitos de precisão e exatidão
Os conceitos de precisão e exatidão precisam estar bem estabelecidos para que se 
compreenda os erros em uma medida analítica:
 » A exatidão representa o quanto a medição está em concordância com o 
valor verdadeiro de uma grandeza. 
 » A precisão, por outro lado, indica a concordância entre vários resultados 
obtidos da mesma forma. A precisão é determinada medindo-se a 
replicata dos experimentos.
Para se compreender melhor os conceitos de exatidão e precisão, observe a Figura 30.
Figura 30. Representação esquemática dos conceitos de precisão e exatidão.
 
 
Precisão: não 
Exatidão: não 
Precisão: sim 
Exatidão: não 
Precisão: não 
Exatidão: sim 
Precisão: sim 
Exatidão: sim 
Fonte: http://1.bp.blogspot.com/-qxu2t0ZMtfM/USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/Quadro+Comparativo_
Precis%C3%A3o_Exatid%C3%A3o.png (PRECISÃO, 2019).
 » No primeiro alvo, os dados estão dispersos sendo pouco preciso e pouco 
exato.
 » No segundo alvo, verifica-se que os dados têm boa precisão, porém estão 
longe do centro. Este fato significa que são pouco exatos.
 » No terceiro alvo, os dados estão próximos do centro, porém não 
precisamente.
 » No quarto alvo, verifica-se que os dados estão próximos ao valor esperado 
e no centro desejado.
102
UNIDADE IV │ QUIMIOMETRIA
Erro de uma medida analítica
Matematicamente, o erro absoluto de uma medida analítica é definido como a diferença 
entre o valor medido e o valor verdadeiro de uma determinada grandeza (BACCAN et 
al., 1979):
= − vE X X
Onde:
 » E = Erro absoluto.
 » X = Valor medido.
 » Xv = Valor verdadeiro.
O sinal do erro absoluto é mantido pois, o sinal de negativo, indica que o resultado 
experimental é menor do que o valor aceito; o sinal positivo, indica que este valor está 
maior do que o aceito. 
O erro de uma análise pode ser descrito em termos relativos, sendo calculado pela 
relação:
 r
v
EE
X
=
Onde: 
 » Er = Erro relativo
 » O erro relativo é adimensional, sendo representado em partes por 100 ou 
partes por 1000.
Abaixo podem ser observados alguns exemplos de erros relativos:
1. O teor verdadeiro de fluoreto em uma amostra é de 43,3%, porém, 
o resultado encontrado após uma análise foi de 42,5%. Calcule o erro 
absoluto e o erro relativo do resultado desta análise.
( ) 42,5 43,3 0,8% Erroabsoluto absoluto= − =−
Expressa-se a palavra absoluto para que não ocorra confusão com o erro relativo, 
que também é expresso em porcentagem.
( )0,8 1 00 1,8 % 
43,3
Errorelativo x relativo−= =−
103
QUIMIOMETRIA │ UNIDADE IV
2. O valor verdadeiro da concentração de uma solução de HCl é de 0,2003 
M e o valor encontrado após uma titulação foi de 0,2100. Calcular o erro 
absoluto e o erro relativo.
( ) 0, 2100 0,2003 0,0097 Erroabsoluto M absoluto= − =
Neste caso, o valor absoluto é expresso em molaridade.
( )0,0097 1 00 4,84 % 
0,2003
Errorelativo x relativo= =
Tipos de erros
As análises químicas podem ser afetadas, basicamente, por dois tipos de erros. Um 
deles é chamado de erro aleatório ou indeterminado, que faz com que os dados sejam 
distribuídos de uma forma simétrica em torno de um valor médio (SKOOG, 2006). O 
erro aleatório reflete-se na sua precisão. 
O segundo tipo de erro é chamado de erro sistêmico ou determinado. Este tipo de erro 
faz a média de um conjunto de dados ser diferente do valor aceito. Geralmente, o erro 
sistêmico nas replicatas faz com que os resultados sejam muito baixos ou altos.
Um terceiro tipo de erro, chamado de erro grosseiro, ocorre de forma ocasional e 
pode causar tanto baixa ou aumento dos resultados. Esses erros são frequentemente 
causados por erro humano. 
Os erros grosseiros levam à ocorrência dos chamados valores anômalos, resultados que 
se diferem de todos os outros dados de um conjunto de replicatas experimentais.
Erros sistemáticos
Os chamados erros sistemáticos possuem valor definido e aquilo que o causa é 
identificável. Ambos são da mesma ordem de grandeza e réplicas para medidas 
realizadas de formas semelhantes (SKOOG, 2006). Este tipo de erro leva à uma mesma 
categoria no conjunto de resultados.
Fontes de erros sistêmicos
Os erros sistêmicos podem ter diversas origens. Para cada origem existe uma 
determinada denominação do erro sistêmico:
104
UNIDADE IV │ QUIMIOMETRIA
 » Erros instrumentais: são os erros causados por falhas de um instrumento. 
Este não está atuando conforme suas especificações, por falhas nas 
calibrações ou condições inadequadas de uso. Exemplo: desnivelamento 
de balanças.
 » Erros de métodos: este tipo de erro ocorre quando uma determinada 
metodologia é utilizada erroneamente segundo o comportamento 
químico ou físico de uma determinada amostra. Exemplo: medidas de 
viscosidade de semissólidos em viscosímetro de vidro.
 » Erros pessoais: os erros pessoais estão ligados exclusivamente com a má 
gestão de pessoal. Ele ocorre pela falta de cuidado, atenção ou limitação 
do analista. Exemplo: Má limpeza de balanças analíticas.
Erros instrumentais
Todos os dispositivos de medidas são passíveis de erros instrumentais sistêmicos. Aqui 
temos como exemplos vidrarias como pipetas, buretas, provetas (Figura 31). Estes tipos 
de vidraria podem dispensar quantidades levemente diferentes das indicadas em suas 
graduações.
Figura 31. A) Pipeta graduada; B) bureta.
 
 
A B 
Fonte: a) https://is.gd/8fhASI (PIPETA, 2019); b) https://is.gd/lIxWKK (BURETA, 2019).
A principal causa de erros nas dispensações de líquidos são originados pelo aquecimento 
da vidraria. Estas são calibradas para atuarem em temperatura ambiente, porém, em 
processos de lavagem e secagem em estufas, perdem sua confiabilidade analítica. 
https://is.gd/8fhASI
105
QUIMIOMETRIA │ UNIDADE IV
Além disso, a adequação da vidraria a ser utilizada para o material químico analisado 
é de extrema importância. Por exemplo, deve-se evitar a intercambiação de vidrarias 
utilizadas para aliquotagem de bases fortes e outros reagentes. As bases são capazes de 
corroer o vidro e se depositarem nos poros originados (Figura 32).
Figura 32. Esquema da superfície do vidro corroída por base. Nota-se que ao se utilizar outras substâncias 
químicas, estas podem se acumular nos poros interferindo nas análises.
 
 
Poros 
formados pela 
corrosão por 
base 
Substâncias 
químicas 
acumuladas nos 
poros 
Superfície do 
vidro 
Fonte: autora.
Os equipamentos eletrônicos também são passíveis de erros instrumentais sistemáticos. 
Tais erros podem ter diversas origens como a má calibração, perda de voltagem de uma 
bateria, variações de temperatura nos componentes eletrônicos, corrosão de eletrodo 
entre outros. Em muitos desses casos, os erros são facilmente detectados e corrigidos.
Erros de métodos
Dentre todos os tipos de erros, os erros de métodos são os mais difíceis de serem 
detectados e corrigidos.
Este tipo de erro é originado pela má adequação das reações aos quais uma análise é 
baseada ou pelo comportamento químico e físico do analito. Alguns exemplos dessas 
fontes de erros são a lentidão de algumas reações, a instabilidade de determinadas 
espécies químicas, o não término de uma reação, ocorrência da formação de subprodutos 
originados de reações paralelas dentro de um mesmo meio reacional e inespecificidade 
de alguns reagentes.
Um exemplo prático deste tipo de erro são as titulações ácido-base. Os indicadores de 
pH utilizados neste teste analítico exige um excesso de reagente para que o ponto de 
viragem seja observado. Este erro é então limitado ao próprio método de titulação. Na 
Figura 33 é observado um exemplo genérico de titulação ácido-base.
106
UNIDADE IV │ QUIMIOMETRIA
Figura 33. Exemplo genérico de uma titulação ácido-base. Para que ocorra o ponto de viragem é necessário a 
adição em excesso do reagente titulante.
 
 
Antes do ponto 
de viragemApós o ponto de 
viragem com 
excesso de 
reagente titulante 
Fonte: Adaptado de http://quimicadashotoko.blogspot.com/2013/05/titulacao.html (TITULAÇÃO, 2019).
Erros pessoais
Determinadas medidas analíticas, ainda hoje, dependem da observação e julgamento 
de um analista. Devido a isso, existe a possibilidade de ocorrência de erros específicos 
ao analista.
Um exemplo clássico de erro pessoal é o erro de paralaxe. Quando se utiliza, por 
exemplo, uma proveta é necessário que a pessoa que está medindo determinado volume 
esteja com os olhos no mesmo nível da vidraria. Por efeitos ópticos, se a vidraria estiver 
no campo de visão mais alto ou mais baixo que os olhos do analista, será medido um 
volume errado pois o menisco não estará adequadamente posicionado (Figura 34).
107
QUIMIOMETRIA │ UNIDADE IV
Figura 34. Exemplo de erros pessoais. A forma que a proveta é posicionada frente ao olho do analista irá interferir 
no valor a ser medido.
 
 
Acerto do menisco: A: soluções incolores B: soluções 
coradas 
A B 
A B C
0
A: posição correta para acertar o menisco 
B e C: posições incorretas 
Fonte: Adaptado de https://is.gd/OByPAD (PROVETA, 2019).
Um outro erro bastante comum ocorre nas titulações. A cor do ponto de viragem dos 
indicadores pode ser observada diferentemente para cada analista. Um analista que é 
insensível a mudanças de coloração tende a usar um excesso de reagente.
Uma das grandes causas dos erros pessoais está ligado ao prejulgamento do analista. 
Quando se realiza uma análise, por melhor que este analista seja, existe uma tendência 
de se estimar leituras na direção da melhoria da precisão da análise. De forma 
inconsciente, faz-se que os resultados se mantenham próximos ao valor esperado. 
Contribuições dos erros sistemáticos nos 
resultados analíticos
São dois os tipos de erros sistemáticos que podem interferir dentro dos resultados 
analíticos: os erros sistemáticos constantes e os erros sistemáticos proporcionais.
https://is.gd/OByPAD
108
UNIDADE IV │ QUIMIOMETRIA
Nos erros constantes, o tamanho do erro permanece o mesmo quando a quantidade 
média varia. Neste tipo de erro, este permanece constante em relação ao tamanho da 
amostra, porém o erro relativo varia com o tamanho amostral.
Já nos erros proporcionais, estes aumentam ou diminuem de acordo com o tamanho da 
amostra, sendo o erro absoluto variando de acordo com a dimensão da amostra, porém 
o erro relativo se mantem constante independentemente da variação do tamanho da 
amostra estudada.
Erros constantes
Para a melhor compreensão do que é um erro constante, acompanhe o exemplo a seguir:
 » 80 mg de precipitado de cloreto de prata é perdido pela lavagem com 100 
mL de solução de lavagem. Se a massa total de precipitado de cloreto de 
prata é de 800 mg, o erro relativo é dado por:
0,8 1 00 0,1%
800
Erro relativo x = − = − 
 
Se a massa total do precipitado de cloreto de prata fosse de 50 mg e tivéssemos a mesma 
quantidade de perda, o erro relativo seria de – 1,0%, ou seja, o efeito do erro constante 
é aumentado à medida que a quantidade média diminui.
Erros proporcionais
Tomemos um exemplo que ajuda a exemplificar os erros proporcionais:
 » A determinação de cobre é realizada a partir da reação do cobre (II) com o 
iodeto de potássio formando iodo. A quantidade de iodo é medida, sendo 
proporcional à quantidade de cobre. Caso a amostra esteja contaminada 
com ferro (III), este também promove a liberação do iodo do iodeto de 
potássio. Os resultados aparecerão com quantidades maiores de iodo que 
por consequência serão atribuídos ao cobre (SKOOG, 2006). 
Neste caso, a dimensão do erro é atribuída à fração contaminante, o que independe do 
tamanho da amostra. Se por exemplo, a quantidade de amostra for quadruplicada, a 
quantidade de iodo liberado pela amostra também será quadruplicada. 
109
QUIMIOMETRIA │ UNIDADE IV
Como realizar a detecção de erros sistemáticos 
instrumentais, pessoais e de método?
Basicamente, a calibração é a melhor fonte para determinar e corrigir os erros 
sistemáticos. Esta deve ser realizada periodicamente pois os equipamentos sofrem com 
o desgaste, corrosão ou manutenção inadequada.
Já nos casos de erros sistemáticos pessoais, este pode ser minimizado com as boas 
práticas de laboratório. Escolher sempre a melhor metodologia, levando-se em 
consideração as limitações do analista e registrar no caderno de laboratório as leituras 
realizadas são as principais medidas que devem ser tomadas. 
Para os erros sistemáticos de métodos são utilizadas análises por materiais de referência 
padrão (do inglês Standard Reference Materials – SRMs) para se estimar a tendência 
de um método analítico ou análises por referência.
Os materiais de referências padrão são vendidos pelo National Institute os Standards 
and Technology (NIST) e são certificados quando a conter concentrações específicas 
para um ou mais analito (SKOOG, 2006). Além disso, estes materiais podem ser obtidos 
por meio de síntese, sendo preparados cuidadosamente com quantidades exatas e 
reagentes da mais alta pureza.
Figura 35. Exemplo de material de referência padrão do NIST. Padrão de Vitamina D em soro humano nível 1.
Fonte: https://is.gd/k9HVr0 (PADRÃO DE VITAMINA, 2019).
As análises por materiais padrão podem fornecer resultados diferentes do valor aceito. 
É necessário então estabelecer se a diferença ocorre devido aos erros sistemáticos ou 
aos erros aleatórios. 
Nas análises independentes, quando as amostras padrão não estão disponíveis, 
é utilizado um segundo método analítico independente e confiável. Este método 
110
UNIDADE IV │ QUIMIOMETRIA
independente deve diferir do método estudado, minimizando a possibilidade de algum 
fator comum da amostra interferir nos dois métodos. 
Erros aleatórios ou indeterminados
Todas as medidas analíticas contêm erros aleatórios. Tais erros não podem ser totalmente 
eliminados e, na maioria das vezes, são as fontes de incerteza de uma determinação 
analítica. 
As variáveis chamadas de incontroláveis são as responsáveis pelos erros aleatórios, 
sendo praticamente impossível de identificá-las. Aquelas identificáveis são impossíveis 
de medir pois são extremamente pequenas e não podem ser detectadas individualmente. 
O acúmulo das incertezas individuais faz com que as medidas flutuem aleatoriamente 
em torno da média do conjunto de dados (Figura 36).
Figura 36. Esquema de medidas geradas por variáveis incontroláveis. As medidas flutuam em torno da média, 
sendo neste caso, uma medida precisa, porém, inexata.
Fonte: Adaptado de http://1.bp.blogspot.com/-qxu2t0ZMtfM/USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/
Quadro+Comparativo_Precis%C3%A3o_Exatid%C3%A3o.png (PRECISÃO, 2019).
Os erros indeterminados podem ser submetidos a tratamentos estatísticos permitindo 
saber qual o valor mais provável e a precisão de uma série de medidas. Os erros 
indeterminados seguem a lei de distribuição normal de Gauss (BACCAN, 1979).
Tratamentos estatísticos de erros aleatórios
Pode-se utilizar métodos estatísticos para se avaliar erros aleatórios. Os métodos 
estatísticos não inserem nenhuma nova informação ao conjunto de dados, apenas 
revela as informações contidas neles.
111
QUIMIOMETRIA │ UNIDADE IV
Primeiramente é necessário relembrar os conceitos de amostras e populações já 
apresentados em capítulos anteriores. 
A população é a coleção de todas as medidas de interesse para o analista enquanto a 
amostra é um subconjunto de medidas selecionadas a partir da população (SKOOG, 
2006). A Figura 37 exemplifica de forma esquemática os conceitos de amostras e 
populações.
Figura 37. Esquema dos conceitos de amostra e população.
 
 
Amostra. 
população 
Fonte: https://is.gd/aGe3Vs (POPULAÇÃO, 2019).
A população deve ser muito bem definida pelo analista, podendo ser classificada em 
finita e real ou hipotética ou conceitual. Um exemplo de população real são indivíduos 
que serão coletadas amostras de sangue. No caso da população conceitual umexemplo 
é parte de um reservatório de água para se determinar a dureza da água de toda uma 
cidade.
Curva de distribuição norma de Gauss
A variáveis seguem a lei de Gauss quando se pode tomar todos os valores de a , com a 
probabilidade dada pela equação:
( )2
2
1 
22
iXY e
µ
σσ π
−
= −
Onde:
 » Y = Probabilidade de ocorrência de um valor Xi da variável X.
 » µ = média da população.
https://is.gd/aGe3Vs
112
UNIDADE IV │ QUIMIOMETRIA
»» σ = desvio padrão.
 » O termo (Xi - µ)
2 é o desvio de Xi em relação à média.
A representação gráfica da lei de Gauss pode ser observada na Figura 38. 
Figura 38. Representação gráfica da lei de Gauss.
 
 
0 - + 
Fonte: https://is.gd/WAaO7f (GAUSS, 2019).
Observando a figura pode-se notar que:
 » o valor mais provável é a média aritmética de todos os valores;
 » tanto os desvios negativos como os positivos são igualmente prováveis;
 » desvios pequenos são mais prováveis que desvios grandes.
Propriedades das curvas de Gauss
As curvas Gaussianas apresentam propriedades muito interessantes que são 
especialmente importantes nos estudos estatísticos.
A equação da curva gaussiana é expressa como:
( )
2
22
 
2
xey
σµ
σ π
− −
=
Onde:
 » X = variável aleatória.
 » µ = média.
»» σ = desvio padrão.
»» σ2 = variância.
113
QUIMIOMETRIA │ UNIDADE IV
Sua representação gráfica pode ser observada na Figura 39:
Figura 39. Gráfico de distribuição normal.
Fonte: https://is.gd/PUS2cS (CURVA, 2019).
Nos estudos estatísticos é importante saber a diferença entre a média de uma amostra 
e a média da população, assim como o conceito de mediana. 
A média da amostra é a média aritmética de uma amostra limitada retirada de uma 
população. Ela é definida como a soma dos valores medidos dividida pela soma dos 
valores medidos dividida pelo número de medidas (SKOOG, 2006). A média pode ser 
calculada segundo a fórmula:
( )
2
22
 
2
xey
σµ
σ π
− −
=
Onde:
 » Xi = valores individuais de x.
 » N = quantidade de replicatas experimentais.
Já a mediana pode ser entendida como o resultado central de replicatas de dados de 
acordo com uma sequência crescente ou decrescente.
Para uma melhor compreensão do significado da mediana e da média observe o exemplo 
a seguir:
 » Um analista farmacêutico fez uma série de medições de massas de 
comprimidos. Ela obteve os seguintes resultados (Tabela 17):
114
UNIDADE IV │ QUIMIOMETRIA
Tabela 17. Resultados da pesagem de amostras de comprimidos.
Amostra 1 2 3 4 5 6 7 8 9 10 11
Massa 1,023 1,053 1,047 1,032 1,012 1,065 1,098 1,058 1,063 1,054 1,087
 
Fonte: autora.
Se colocarmos em ordem crescente de massas, verificaremos que a massa que está 
na posição 6 é a mediana das massas dos comprimidos. Isso porque esta massa está 
localizada de forma central dentro do conjunto de replicatas obtidas (Tabela 18).
Tabela 18. Resultados da pesagem de amostras de comprimidos em ordem crescente.
Amostra 1 2 3 4 5 6 7 8 9 10 11
Massa (g) 1,012 1,023 1,032 1,047 1,053 1,054 1,058 1,063 1,065 1,087 1,098
 
Fonte: autora.
Já a média é obtida pela somatória das massas das amostras e dividida pela quantidade 
de n experimentais:
( )
2
22
 
2
xey
σµ
σ π
− −
=
Nos casos em que as replicatas amostrais são em número par, o procedimento para 
achar a mediana segue como o exemplo abaixo: 
Tabela 19. Resultados da pesagem de amostras de comprimidos.
Amostra 1 2 3 4 5 6 7 8 9 10
Massa 1,023 1,053 1,047 1,032 1,012 1,065 1,098 1,058 1,063 1,054
Fonte: autora.
Após o ordenamento dos dados, faz-se a média dos dois valores que se encontram na 
posição central.
11,592 1,053 
11
x g= =
Tabela 20. Resultados da pesagem de amostras de comprimidos em ordem crescente destacando a mediana 
do conjunto de dados pares.
Amostra 1 2 3 4 5 6 7 8 9 10
Massa (g) 1,012 1,023 1,032 1,047 1,053 1,054 1,058 1,063 1,065 1,098
1,0535
 
Fonte: autora.
115
QUIMIOMETRIA │ UNIDADE IV
A média neste caso será obtida da mesma forma do exemplo anterior:
1,050 1,050 
10
x g= =
A média da população, por outro lado, é considerada a média verdadeira para a 
população. Esta é expressa segundo a fórmula: 
1 
N
ii
x
N
µ ==∑
Onde:
 » µ = média da população.
 » N = número total de medidas da população.
Desvio padrão de uma população
O desvio padrão de uma população (σ) é dado pela equação:
1 
N
ii
x
N
µ ==∑
Onde:
»» σ = desvio padrão.
 » N = número de dados que compõem uma população.
 » µ = média da população.
O desvio padrão pode ser entendido como uma medida de dispersão dentro de uma 
média de população em que existe uma variável aleatória. Na Figura 40 é apresentado 
uma Gaussiana com distribuição normal perfeita, os desvios indicam que os dados 
obtidos são homogêneos. 
116
UNIDADE IV │ QUIMIOMETRIA
Figura 40. Exemplo de gráfico com distribuição normal perfeita.
 
 
-1 +1 
Média 
Fonte: Adaptado de https://is.gd/DjdNDR (DESVIO, 2019).
Na Tabela 21 consta a probabilidade de ocorrência de desvios em termos de desvios , 
baseado na frequência de distribuição normal (com probabilidade de 99,7%).
Tabela 21. Probabilidade de ocorrência de desvios (99,7%) em termos de desvios , baseado na frequência de 
distribuição normal.
( ) ixz µ
σ
−
= Probabilidade de um desvio numericamente (±) maior que z
0,00 1,00
0,10 0,92
0,20 0,84
0,30 0,76
0,40 0,69
0,50 0,62
0,60 0,55
0,70 0,48
0,80 0,42
0,90 0,37
1,0 0,32
1,5 0,13
2,0 0,046
2,5 0,012
3,0 0,0027
4,0 0,00006
5,0 0,0000006
 
Fonte: BACCAN, 1979.
117
QUIMIOMETRIA │ UNIDADE IV
Um outro termo importante dentro dos estudos estatísticos é o quadrado do desvio 
padrão (σ2) chamado de variância. A variância pode ser entendida como o desvio 
quadrático médio da média e é expressa pela equação:
( )22 1
N
ii
x
N
µ
σ =
−
= ∑
Onde:
»» σ2 = variância.
 » N = número de dados que compõem uma população.
 » µ = média da população.
Para uma melhor fixação, considere o exemplo a seguir retirado de Baccan (1979):
 » Sabe-se que o teor de cálcio em um composto pode variar entre 50 a 60%. 
Após uma série de análises, determinou-se que o desvio padrão relativo à 
determinação de teor de cálcio é de 3,0 partes por mil. Se o valor de uma 
análise isolada foi de 55,3% em Ca2+, qual o intervalo que deve estar o 
valor verdadeiro do teor de cálcio nessa amostra, com uma probabilidade 
de 99,7%, assumindo-se que não ocorra erros determinados.
Segundo a Tabela 15, com uma probabilidade de erro de 99,7%, o valor de z é igual a 3. 
O intervalo em que deve estar a média da população é dado por µ = x ± 3σ.
Calcula-se então o valor de σ, desvio padrão absoluto, a partir do desvio padrão relativo:
( )
 1 000 3,0
55,3
3,0 55,3 0,17% 
1000
x
x absoluto
σ
σ
=
= =
Então, 3 3 0,17 0,51%xσ = =
 ( )55,3 0,51%vx = ±
O valor verdadeiro deve estar no intervalo de 54,79% a 58,81%, com 99,7% de 
probabilidade. Pode-se dizer que, com certeza, o valor verdadeiro está neste intervalo.
118
CAPÍTULO 3
Validação dos métodos quimiométricos 
Todos os laboratórios devem atender aos requisitos estabelecidos pela Norma ABNT 
NBR ISO/IEC 17025 relacionados à seleção de métodos de ensaios, desenvolvimento 
de métodos de ensaio pelo laboratório, aplicação de métodos normalizados e validação 
de métodos. É importante que os laboratórios disponham de meios e critérios que 
permitam a comprovação, por meio do processo de validação, que os métodos de 
ensaios realizados pelo laboratório conduzem a resultados confiáveis e de qualidade 
(INMETRO, 2018).
Ao empregar métodos normalizados, o laboratório em questão deverá demonstrar que 
possui as condições necessárias de operação e que está dentro dos padrões existentes 
em suas instalações para a implantação do método. 
Para realizar a implantação dos métodos normalizados, o laboratório deverá, 
obrigatoriamente, analisar e estudar os parâmetros referentes aos processos de 
recuperação/tendência e precisão, a faixa de trabalho, limite de quantificação (LQ) e 
limite de detecção (LD), devendo comprovar que os parâmetrosde validação estejam 
adequados ao uso pretendido. Este tipo de análise é também conhecido como verificação. 
Nos casos em que o método normalizado for modificado ou desenvolvido um novo 
método, o laboratório deverá garantir que as características de desempenho do método 
seguem os requisitos de operação analítica. Nos métodos, normalizado ou não, e 
em laboratórios em desenvolvimento, existem uma série de critérios que devem ser 
avaliados visando a garantia de adequação do método à uma determinada aplicação, 
sendo de responsabilidade do laboratório a definição de parâmetros de validação que 
apresentem a adequação especificas do método.
Assim, o laboratório deverá validar os métodos para comprovar a eficácia para 
determinada aplicação:
 » métodos não normalizados;
 » métodos criados/desenvolvidos pelo próprio laboratório;
 » métodos normalizados empregados fora dos escopos do qual forma 
concebidos;
 » amplificação e modificação de métodos normalizados.
119
QUIMIOMETRIA │ UNIDADE IV
O processo de validação dever compreender as necessidades de determinada aplicação 
ou área de atuação, sendo de responsabilidade do laboratório a emissão de um relatório 
descrevendo os resultados obtidos, bem como, o procedimento empregado para validação 
e um parecer sobre a viabilidade do método. Além disso, todos os equipamentos e 
instrumentos deverão estar dentro das especificações, com funcionamentos corretos 
e devidamente calibrados. O responsável pela condução dos estudos deverá possuir 
a competência necessária na área e possuir conhecimento suficiente sendo capaz de 
tomar decisões importantes ao longo do processo.
Planejamento e execução da validação
Para a execução do processo de validação é importante desenvolver um planejamento 
para que cada etapa seja efetuada com eficácia. Desta maneira, para elaboração do 
planejamento sugere-se a seguir a seguinte sequência de trabalho (INMETRO, 2018):
 » definir o objetivo e escopo do método;
 » definição de parâmetros de desempenho;
 » definir as bases de aceitação de cada parâmetro de desempenho;
 » analisar se as características de desempenho dos equipamentos são 
compatíveis com o exigido pelo método de estudo;
 » qualificar os materiais;
 » programar os experimentos de validação, assim como, os tratamentos 
estatísticos;
 » executar os experimentos de validação;
 » análise crítica dos resultados obtidos levando em consideração os critérios 
de aceitação;
 » analisar e concluir se o método está dentro dos parâmetros do uso 
pretendido.
Após o procedimento, os resultados devem ser documentados e registrados de maneira 
organizada para que sejam acessíveis a todos envolvidos. 
120
UNIDADE IV │ QUIMIOMETRIA
Parâmetros de desempenho
Os parâmetros de desempenho devem ser descritos de maneira clara no item referente 
ao procedimento sendo necessário incluir no relatório de validação os seguintes itens 
(INMETRO, 2018):
 » seletividade;
 » linearidade/faixa de trabalho/faixa linear de trabalho/sensibilidade;
 » limite de detecção (LD);
 » limite de quantificação (LQ);
 » tendência/recuperação;
 » precisão (repetibilidade, precisão intermediária e reprodutibilidade);
 » robustez (este procedimento é opcional sendo realizado antes da validação 
do método, normalmente na etapa de otimização).
Seletividade
A seletividade é caracterizada pelo grau que um método pode quantificar o analito em 
presença de outros analitos, matrizes ou material com alto potencial de interferência. 
Quando um método produz respostas para vários analitos e permite a distinção entre 
eles, este método é denominado seletivo (INMETRO,2018). 
De modo geral, os experimentos para validação de seletividade descrita na literatura 
envolvem ensaios utilizando padrões ou materiais de referência, amostras com e sem o 
analito e análises em relação a capacidade de identificação do analito em presença de 
interferentes. Nos casos em que não existe a disponibilidade de interferentes, alguns 
autores orientam realizar ensaios de avaliação da habilidade de medição do analito por 
outros métodos, técnicas ou por variações de condições do equipamento.
A seletividade deverá ser assegurada pois a linearidade, tendência e a precisão serão 
seriamente comprometidas. 
Em alguns casos, a matriz da amostra pode conter possíveis interferentes e que 
influenciam no desempenho da medição, podendo aumentar ou diminuir o sinal e assim 
comprometer os resultados. Além disso, a magnitude desse efeito está relacionada a 
121
QUIMIOMETRIA │ UNIDADE IV
concentração e assim, no estudo de seletividade é preciso verificar a existência de efeito 
de matriz. 
O procedimento utilizado para as medidas de efeito de matriz é dependente da 
disponibilidade do analito, da matriz na ausência de analito e de amostras de referência 
nas concentrações de interesse. A Tabela 18 apresentou algumas vias de estudos que 
podem ser conduzidos no processo de medidas de matriz:
Linearidade/faixa de trabalho/faixa linear de 
trabalho/sensibilidade
A linearidade de um procedimento analítico está relacionada a sua habilidade, em 
uma determinada faixa, em obter resultados que são proporcionais à concentração do 
analito presente na amostra (INMETRO, 2018).
Faixa de trabalho em um processo analítico está relacionado ao intervalor entre a 
menor e maior concentração de analito presente na amostra para um determinado 
procedimento que apresentou um nível aceitável de precisão, exatidão e linearidade.
A faixa linear de trabalho é por interferência a faixa de concentração do analito em que 
os resultados do método são proporcionais à sua concentração.
A sensibilidade analítica é a mudança na resposta do instrumento relacionado a variação 
na quantidade medida (inclinação da curva analítica). 
Para determinar a faixa de trabalho em um experimento é preciso escolher uma faixa 
preliminar que deverá abranger a faixa de aplicação para o qual os estudos serão 
desenvolvidos e a concentração mais esperada da amostra deverá se possível, situar-se 
no centro da faixa de trabalho.
O processo de quantificação exige o conhecimento da relação entre a resposta medida 
e a concentração do analito, que permite obter a linearidade por meio da padronização 
interna ou externa. 
Limites de detecção (LD)
Em um procedimento analítico, o limite de detecção caracteriza-se pela menor 
quantidade de analito detectada na amostra, sem necessariamente, ser quantificada 
no ensaio. Quando são realizadas medidas em amostras com concentração baixa de 
analito ou de uma propriedade, como por exemplo, em análises de traços é importante 
122
UNIDADE IV │ QUIMIOMETRIA
saber qual a menor concentração do analito ou de alguma propriedade que possa ser 
identificada pelo método. 
Em um procedimento analítico, o limite de detecção pode variar em função do tipo de 
amostra, sendo necessário assegurar que todas as etapas do método sejam incluídas na 
determinação aliados aos ensaios qualitativos. 
Existem algumas modalidades para verificar o limite de detecção, dentre os quais 
podemos destacar: 
 » Avaliação/percepção visual: a determinação do limite de detecção é 
realizada pela análise de amostras com concentrações ou propriedades 
conhecidas do analito, dentro de um nível mínimo de confiança;
 » Relação sinal/ruído: este tipo de abordagem pode ser aplicado, somente, 
para procedimentos que apresente ruído de linha base, sendo determinada 
a partir da comparação dos sinais medidos entre amostras com baixa 
concentração do analito e o ruído dos brancos de amostra.
O método analítico deve ser especificado e o LD deve ser expresso para cada analito 
utilizando as unidades apropriadas, conforme preconizado no método em questão. 
Além disso, a matriz da amostra utilizada na determinação do LD deve ser devidamente 
identificada. 
Após a definição do LD por meio de uma das abordagens destacadas, ou por outra 
abordagem descrita em documentos nacionais ou internacionais, é preciso confirmar 
por meio de análises de amostras independentescom o mesmo nível de concentração/
propriedade do LD. Sempre que necessário, é importante adotar o número de seis 
replicatas, sendo que caso alguma das replicatas não seja detectada, indica que o LD 
determinado por ter sido subestimado necessitando a sua reavaliação. 
Limites de Quantificação (LQ)
O Limite de Quantificação (LD) de um determinado procedimento analítico individual 
está relacionado a menor quantidade de analito que pode ser quantificado em 
níveis aceitáveis de precisão e exatidão em uma amostra. Em termos práticos, o LQ 
corresponde ao padrão de calibração de menor concentração (excluindo o branco). 
Após a determinação desse limite, é preciso averiguar, com testes de amostras 
independentes no mesmo nível de concentração/propriedade do LQ, se a recuperação/
tendência e a precisão são satisfatórias. Sempre que necessário, adota-se um número de 
123
QUIMIOMETRIA │ UNIDADE IV
seis replicatas, pois o limite de quantificação é extremamente importante em métodos 
quantitativos. 
Existem algumas modalidades para verificar o limite de quantificação, dentre os quais 
podemos destacar: 
 » Avaliação/percepção visual: é a percepção da resposta da concentração 
do analito ou propriedade observada. O LQ pode ser determinado pela 
análise de amostras com concentrações ou propriedades conhecidas do 
analito a partir do estabelecimento do nível mínimo de quantificação. 
De modo geral, são realizadas diluições sucessivas até a identificação 
da menor concentração/menor valor de propriedade que pode ser 
quantificado com confiança;
 » Relação sinal/ruído: da mesma maneira que o LD, esta abordagem pode 
ser aplicada, somente, para análises que apresentem ruído de linha 
base. Esta modalidade permite a comparação dos sinais medidos de 
amostras com baixas concentrações do analito e de ruídos dos brancos 
de amostra, sendo possível determinar a quantidade mínima de detecção 
com confiança. A relação sinal/ruído estimada para o LQ é de 10:1, sendo 
possível adotar relações de 6:1 e 5:1, em função do método. É importante 
salientar que a região do ruído do branco deve ser a mesma do sinal 
medido.
Tendência/Recuperação
Os processos utilizados para avaliação de tendência de um método geralmente são:
 » Materiais de Referência Certificados (MRC);
 » comparações Inter laboratoriais;
 » comparação com método de referência ou método validado;
 » ensaios de recuperação.
A tendência de uma análise é a combinação de uma série de resultados com erros 
aleatórios e sistemáticos. Desta maneira, a determinação da tendência em relação aos 
valores de referência é importante para que seja estabelecido a rastreabilidade aos 
padrões conhecidos. 
124
UNIDADE IV │ QUIMIOMETRIA
É possível expressar a tendência como recuperação analítica por meio da seguinte 
expressão: 
 x100%
 
valor observado
valor esperado
Materiais de referência certificados
Os materiais de referência certificados devem, sempre que possível, ser utilizados 
nos procedimentos de validação de um método de ensaio. O MRC possui um valor de 
concentração, ou de outra grandeza, com o valor de incerteza associado. Dessa maneira, 
é importante que durante a validação seja fornecido o MRC por órgãos competentes, 
conforme descrito na NIT DICLA-030.
A utilização correta do MRC baseia-se na sua análise para avaliar o desempenho do 
método, avaliando a tendência dos valores obtidos pelo laboratório (média e o desvio 
padrão amostral de uma série de ensaios em replicata), em comparação aos valores 
certificados do material de referência. A comparação leva diversos critérios de decisão, 
como por exemplo:
 » Erro relativo: avaliação da exatidão do método por cálculo de porcentagem;
 » Erro normalizado: é a subestimação da incerteza em um determinado 
intervalo de resultados.
Nos casos em que o valor obtido não estiver dentro do intervalo de aceitação em relação 
ao valor certificado, o laboratório deverá buscar as possíveis causas desse desvio e 
eliminá-las. 
Ensaios de recuperação
As medidas de recuperação do analito podem ser realizadas pela análise de amostras 
fortificadas com concentrações conhecidas do analito, sendo possível fortificá-las com 
pelo menos três concentrações (baixa, média e alta) na faixa de uso. No entanto, a 
limitação dessa metodologia está no fato de que o analito pode não estar na mesma 
forma que o presente na amostra, podendo gerar respostas de detecção excessivamente 
otimistas de recuperação. 
125
QUIMIOMETRIA │ UNIDADE IV
A taxa de recuperação pode ser calculada pela seguinte equação:
( ) 1 2 % x100
3
C CRecuperação
C
− =  
 
Onde:
 » C1: concentração do analito na amostra fortificada;
 » C2: concentração do analito na amostra não fortificada; 
 » C3: concentração do analito adicionado à amostra fortificada.
Os laboratórios devem estabelecer critérios de aceitação para recuperação respeitando 
as normas da legislação aplicadas às áreas de atuação, como por exemplo, a área 
ambiental. Geralmente, as normas estão atreladas aos valores de concentração. A 
Tabela 22 apresenta os critérios sugeridos pela AOAC (Association of Official Analytical 
Chemists):
Tabela 22. Critérios de recuperação.
Analito, % Fração Mássica (C) Unidade Recuperação média, %
100 1 100% 98 – 102
10 10-1 10% 98 – 102
1 10-2 1% 97 – 103
0,1 10-3 0,1% 95 – 105
0,01 10-4 100 ppm (mg/kg) 90 – 107
0,001 10-5 10 ppm (mg/kg) 80 – 110
0,0001 10-6 1 ppm (mg/kg) 80 – 110
0,00001 10-7 100 ppb (μg/kg) 80 – 110
0,000001 10-8 10 ppb (μg/kg) 60 –115
0,0000001 10-9 1 ppb (μg/kg) 40 –120
 
Fonte: INMETRO, 2018.
Comparação com método de referência
O processo de comparação com método de referência consiste na conferência dos 
resultados obtidos um método a ser validado com os resultados obtidos pelo método de 
referência validado. O objetivo desta comparação é analisar o grau de proximidade dos 
resultados obtidos pelos dois métodos permitindo a avaliação de sua exatidão. 
Os estudos são desenvolvidos em replicata empregando os dois métodos, em separado, 
utilizando a mesma amostra em todas as faixas de concentração aplicadas para validação 
126
UNIDADE IV │ QUIMIOMETRIA
do método. Existem várias técnicas de comparação, dentre as quais se pode destacar o 
teste de hipótese e o planejamento de experimentos. 
No teste de hipótese aplica-se o Teste F primeiro para avaliar se as variâncias possuem 
valores estatísticos iguais ou diferentes. O teste T (Student) é aplicado em seguida para 
analisar as médias dos resultados e se são estatisticamente iguais. 
Precisão
Em algumas circunstâncias específicas de medidas a precisão pode ser expressa por 
três meios:
 » Repetibilidade: são medidas dentro de um conjunto de condições que 
incluem o mesmo procedimento de medição, operadores, sistema de 
medição, condições de operação e local dentro de um curto período. 
Os resultados deste processo podem ser expressos quantitativamente 
em termos da característica da dispersão dos resultados podendo ser 
determinados a partir da análise de padrões, materiais de referência ou 
adição de analito ao branco da amostra, em várias concentrações na faixa 
de trabalho;
 » Precisão intermediária: é relacionada à precisão analisada nas mesmas 
condições do procedimento de medição, local e medições repetidas no 
mesmo objeto, ou objetos similares, ao longo de um período extenso 
permitindo a inclusão de outras condições submetidas às mudanças. 
Neste tipo de estudo é preciso definir quais condições serão variadas, 
como por exemplo, diferentes analistas, equipamentos e tempo;
 » Reprodutibilidade: apesar de não ser um componente de validação de 
método a reprodutibilidade é importante quando um laboratório busca a 
verificação de desempenho de seus métodos em relação às informações 
de validação em comparação Inter laboratorial.
Robustez
A robustez é um parâmetro que indica a capacidade do método não ser afetado por 
pequenas variações de fatores de execução do método, proporcionando um fator de 
confiança do método durante aplicaçõesde rotina. É um parâmetro opcional nos 
estudos de validação, sendo comumente, associado aos estudos de otimização. 
127
QUIMIOMETRIA │ UNIDADE IV
A determinação de robustez de um método de ensaio pode ser baseada, por exemplo, no 
planejamento de Youden (2002/657/EC) ou Plackett-Burman (SERGENT, 2007). São 
estudos que permite ordenar a influência de cada variável nos resultados e transmite 
maior confiança ao método em relação a sua precisão. 
Comparações Inter laboratoriais 
Segundo a norma ABNT NBR ISO/IEC 17043 existe uma distinção do uso de comparações 
Inter laboratoriais destinado aos ensaios de proficiência para determinação de 
desempenho do laboratório, e para outros propósitos, como por exemplo:
 » estabelecimento da eficácia e comparabilidade de novos métodos de 
ensaio ou de medição;
 » acompanhamento de método estabelecido;
 » determinação de características de desempenho de um método.
Durante o processo de comparação Inter laboratorial, caso não seja alcançado as 
condições ideais é preciso efetuar planos de ações corretivas que permitem a verificação 
das causas e reavaliação do ensaio. Os requisitos de participação de laboratórios 
acreditados em ensaios de proficiência estão descritos na NIT DICLA-026.
Acompanhamento do desempenho do 
método validado
Após a validação do método, é necessária a implantação dos procedimentos de controle 
de qualidade que visam acompanhar o desempenho do método ao longo da rotina do 
laboratório. 
Os procedimentos que podem ser aplicados para esta finalidade são o uso de materiais 
de referência certificados (MEC), materiais de referência secundário, participação em 
comparação Inter laboratoriais, realização de ensaios replicados, reensaios de itens 
retidos entre outros. Vale ressaltar que esses controles contemplem as principais 
características da validação (recuperação/tendência, precisão e limite de detecção/
quantificação) e podem ser acompanhados por meio de gráficos de controle. 
128
UNIDADE IV │ QUIMIOMETRIA
Revalidação do método 
 » Alteração no desempenho do método: nos casos em que os controles 
de qualidade apresentar perda de desempenho do método ou as ações 
corretivas não atenderem às expectativas esperadas, o método deverá ser 
reavaliado para que o seu novo desempenho seja conhecido;
 » Alteração no procedimento analítico de método: após as alterações no 
procedimento analítico, o laboratório deverá realizar um estudo estatístico 
para analisar se a alteração influência nos resultados do ensaio, sendo que 
nos casos em que as alterações proporcionem alterações significativas, o 
método deverá ser reavaliado. 
Caro aluno é importante que você busque um pouco mais sobre esse assunto. 
Para auxiliá-lo sugerimos que acessem o seguinte link para leitura completa 
da NIT DICLA-030 e NIT DICLA-026: <https://is.gd/BjGYlI> (ACREDITAÇÃO DE 
LABORATÓRIOS, 2019).
129
CAPÍTULO 4
Estudo de casos e artigos sobre 
planejamento experimental e 
Quimiometria
Nesse capítulo, discutiremos alguns estudos de casos (levando em consideração 
os assuntos discutidos ao longo das unidades anteriores) e artigos (publicações que 
apresentam e discutem pesquisas realizadas nas mais diversas áreas do conhecimento) 
referentes a utilização de planejamento experimental.
Casos em planejamento experimental
Caso 1: planejamento fatorial e superfície de resposta empregado na otimização de um 
método Voltamétrico para a determinação de Ag(I) usando um eletrodo de pasta de 
nanotubos de carbono.
Vicentini et al. (2011), estudaram a utilização conjunta de ferramentas eletroquímicas 
e quimiométricas para contextualização do planejamento fatorial para a abordagem 
das disciplinas de análise instrumental e/ou planejamento e análise de experimentos 
em química eletroanalítica. Os autores descreveram o desenvolvimento de um eletrodo 
de pasta de nanotubos de carbono funcionalizados (FCNPE, Functionalized Carbon 
Nanotubes Paste Electrode) para a determinação de íons Ag(I), utilizando-se a técnica 
de voltametria de redissolução anódica. O emprego do planejamento fatorial foi 
realizado com visando obter uma maior intensidade de resposta (corrente) para íons 
Ag(I), levando a um aumento do sinal analítico.
A metodologia usada pelos autores foi a seguinte:
 » Os experimentos eletroquímicos foram realizados em uma célula de 
compartimento único de 15 mL (vidro Pyrex). 
 » Nas determinações foi utilizado um sistema de três eletrodos, sendo 
que o eletrodo de trabalho foi o de pasta de nanotubos de carbono 
funcionalizados (FCNPE), o de referência, um eletrodo de Ag/AgCl (KCl 
3 mol L-1) e o auxiliar, um eletrodo de platina. 
 » As medidas eletroquímicas foram executadas com um potenciostato/
galvanostato gerenciado pelo programa computacional GPES 4.9. 
130
UNIDADE IV │ QUIMIOMETRIA
 » As medidas de pH das soluções foram realizadas com um pHmetro digital.
 » Os cálculos matemáticos dos modelos empíricos gerados foram realizados 
no programa computacional Excel® da Microsoft.
O planejamento fatorial foi elaborado para a determinação de íons Ag(I). Primeiramente 
foi realizado um planejamento fatorial completo para avaliar três variáveis da voltametria 
linear de redissolução: tempo de pré-concentração, potencial de pré-concentração e 
velocidade de varredura. Estas variáveis foram estudadas em dois níveis, sendo realizado 
um planejamento 23 (total de 8 experimentos). Os experimentos foram efetuados de 
forma aleatória para evitar erros sistemáticos e a resposta monitorada foi a intensidade 
de corrente. A Tabela 23 mostra os fatores estudados e seus respectivos níveis. 
Selecionadas as variáveis, os autores realizaram um planejamento fatorial composto 
central 22 + ponto central (PC) + estrela. Neste tipo de planejamento, as variáveis são 
estudadas em um número maior de níveis e, desta forma, viabiliza o estabelecimento de 
um modelo empírico e a geração de uma superfície de resposta, que permite estabelecer 
as melhores condições de trabalho.
Tabela 23. Níveis reais e codificados das variáveis estudadas.
Variáveis Nível (-) Nível (+)
Tempo de pré-concentração 30s 200s
Potencial de pré-concentração -0,1 V -0,5 V
Velocidade de varredura 15 mV s-1 80 mV s-1
 
Fonte: Vicentini et al. (2011).
Com os dados do planejamento foi construída a Tabela ANOVA (Analysis of Variance) 
e, em seguida, a superfície de resposta e o gráfico de contorno.
Os autores observaram que os resultados obtidos no planejamento fatorial 23 
mostraram que as variáveis tempo de pré-concentração e velocidade de varredura 
foram as apresentaram os maiores efeitos. Já a variável potencial de pré-concentração 
não apresentou efeitos primários ou de interação significativos ao nível de confiança 
de 95%. Desta forma, esta variável foi fixada em um valor conveniente para as futuras 
análises. Estabeleceu-se neste caso o maior nível (-0,5 V), devido ao íon Ag(I) apresentar 
um melhor perfil voltamétrico.
As duas variáveis mais significativas foram submetidas a um planejamento fatorial 22 
+ PC + estrela. Neste planejamento cada variável foi estudada em 5 níveis diferentes. 
Estes níveis foram normalizados entre -√–2 e + √–2. Os dados do novo planejamento 
foram submetidos à análise de variância (ANOVA). 
131
QUIMIOMETRIA │ UNIDADE IV
Os autores verificaram que o modelo para análise da corrente apresentou um bom 
ajuste. No caso da razão entre a MQFaj e a MQEP, o teste F mostrou que estas duas 
médias quadráticas são estatisticamente iguais com um Fcalculado < Ftabelado. Além disso, as MQR 
e MQr se mostraram estatisticamente diferentes (o modelo é significativo) com um Fcalculado 
> Ftabelado. Em ambos os casos o nível de confiança utilizado foi de 95%. O valor de r2 foi 
igual a 0,982 (razão entre as SQR e SQT).
Depois da execução de todos os experimentos foi obtida uma equação de segunda 
ordem: 
2 2
0 1 2 3 4 5Y b b t b V b t b V b tV= + + + + +
onde y é a variável dependente (corrente), bi são os coeficientes para t (tempo de 
pré-concentração) e V (velocidadede varredura) e tV é a interação entre tempo de 
pré-concentração e velocidade de varredura. Para o cálculo dos coeficientes (bi), foi 
empregado mínimos quadrados:
( ) 1 'b X X X y−′=
onde b é o vetor com coeficientes (bi), X é a matriz com os parâmetros normalizados e y é 
um vetor com a resposta experimental. Após aplicar o teste t (com 4 graus de liberdade), 
foi verificado que quatro coeficientes foram significativos ao nível de confiança de 95%. 
Assim foi possível obter a equação ajustada que rege o modelo: 
2 232,70 9,92 8,03 4,91Y t t V= + − −
Os autores concluíram que o eletrodo proposto pode ser empregado para a determinação 
de Ag(I) presente em águas naturais no intervalo de 7,92 x 10-7 a 1,07 x 10-5 mol L-1. Além 
disso, o procedimento proposto é de baixo custo, simples e não necessita de nenhum 
tipo de tratamento especial da amostra podendo ser aplicado em laboratórios de análise 
de rotina ou mesmo in loco, com o emprego de instrumentação portátil.
Caso 2: Utilização do planejamento experimental para otimização de um procedimento 
voltamétrico para determinação simultânea das concentrações dos metais Zn, Cd, Pb e 
Cu livres em água de coco.
Rosa, Rodrigues e Ferreira (2016) aplicaram o planejamento fatorial e superfície de 
resposta para otimizar as variáveis da SWASV (do inglês, Square-wave anodic stripping 
voltammetry), tais como a concentração do eletrólito suporte; potencial e tempo de 
pré-concentração; frequência, amplitude e incremento da onda quadrada, objetivando 
a determinação simultânea de Zn, Cd, Pb e Cu livres de forma direta na água de coco 
usando o eletrodo de DDB (eletrodo de diamante dopado com boro).
132
UNIDADE IV │ QUIMIOMETRIA
A metodologia usada pelos autores foi a seguinte:
 » Os experimentos eletroquímicos foram realizados usando um analisador 
voltamétrico 797Computrace da Metrohm®. Um eletrodo auxiliar de 
fio de platina foi usado em conjunto com um eletrodo de referência de 
Ag/AgCl (KCl 3,0 mol L−1) e com um eletrodo de trabalho de diamante 
dopado com boro (DDB/8000 ppm) com um filme de área geométrica de 
0,23 cm2.
Para a otimização das variáveis na etapa de pré-concentração, estabeleceu cinco níveis 
para as variáveis potencial (E) e tempo (t), sendo que o nível zero foi de -1,45 V para a 
variável E e 135 s para t. A tabela 24 apresenta a otimização de duas variáveis com base 
na matriz do planejamento composto central.
Tabela 24. Matriz do planejamento composto central para a otimização das variáveis 
apresentada pelos autores.
Ensaio E (V) t (s) Reposta unificada
1 -1,49 (-1) 61 (-1) 1,185
Planejamento fatorial
2 -1,41 (+1) 61 (-1) 0,828
3 -1,49 (-1) 209 (+1) 3,393
4 -1,41 (+1) 209 (+1) 2,591
5 -1,45 (0) 135 (0) 2,361 Ponto central
6 -1,51 (-1,41) 135 (0) 2,882
Pontos axiais
7 -1,39 (+1,41) 135 (0) 1,873
8 -1,45 (0) 30 (-1,41) 0,623
9 -1,45 (0) 240 (+1,41) 3,477
10 -1,45 (0) 135 (0) 2,433
Repetições do ponto central
11 -1,45 (0) 135 (0) 2,236
 
Fonte: Rosa, Rodrigues e Ferreira (2016).
O modelo polinomial quadrático que descreve uma relação entre as variáveis otimizadas 
E e t com a resposta (corrente de pico) foi estabelecida na Equação 1 a partir da matriz 
de planejamento CCD. Os ensaios eletroanalíticos foram realizados aleatoriamente para 
não haver erros estatísticos associados. A equação abaixo apresenta o modelo algébrico 
usado para otimização das variáveis x1(E), x2(t).
( ) ( ) ( ) ( ) ( )2 20 1 1 2 2 3 1 4 2 5 1 2Y b b x b x b x b x b x x= + + + + +
Sendo b0 o valor da média dos pontos centrais e b1 até b5 os coeficientes do modelo a 
serem determinados. Os coeficientes da equação do modelo foram obtidos por meio da 
seguinte equação:
133
QUIMIOMETRIA │ UNIDADE IV
( ) 11 'b X X X Y−=
A equação obtida para o modelo de otimização de E e t foi:
( ) ( ) ( ) ( )
( )
2 2
0,090 0,055 0,065 0,055 0,066
0,078
2,343 0,323 0,037 1,000 0, 200
0,200
Y E E t t
tE
± ± ± ± ±
±
= − − + −
−
Os autores concluíram que a partir dos pontos otimizados foi possível quantificar zinco 
e cobre livres em amostra de água coco natural e industrializada. Os valores encontrados 
para as concentrações de Cu na amostra natural foi (6,8 ± 0,9) μg L-1. No entanto, não 
foi possível determinar a concentração de Zn sendo, portanto, menor que o LD. Por 
outro lado, a concentração de Zn e Cu na amostra industrializada foi de (85,6 ± 4,2) μg 
L-1 e (7,7 ± 0,6) μg L-1 respectivamente.
Artigos em planejamento experimental
Agrupamos aqui alguns artigos divulgados recentemente nos mais diversos periódicos 
científicos, com a finalidade que sejam usados como forma de acrescentar aos 
conhecimentos obtidos até aqui. Sugerimos que, além desses artigos, você busque mais 
esclarecimentos sobre os assuntos estudados ao longo das unidades passadas.
Quadro 2. Artigos sobre o uso de planejamentos experimental.
Título Autores Assuntos abordados
Multivariate optimization techniques in analytical chemistry 
- an overview
Ferreira et al, (2018)
Multivariada
Superficie de resposta
Química analitica 
An experimental design approach for the separation of 
thorium from rare earth elements
Altaş et al, (2018)
Oxalato de amônia
Analise de variância
Coeficiente de correlação
Factorial experimental design intended for the optimization 
of the alumina purification conditions
Brahmi et al, (2018)
Otimização
Planejamento fatorial completo
Use of principal component analysis (PCA) and hierarchical 
cluster analysis (HCA) for multivariate association between 
bioactive compounds and functional properties in foods: A 
critical perspective
Granato et al, (2018)
PCA, HCA
KNN, SIMCA
Compostos bioativos
Investigation of the impact of trace elements on anaerobic 
volatile fatty acid degradation using a fractional factorial 
experimental design
Jiang et al, (2017)
Planejamento fatorial
Elementos traços
Coeficiente de regressão
Simultaneous spectrophotometric quantification of 
dinitrobenzene isomers in water samples using multivariate 
calibration methods
Lu et al, (2016)
Calibração multivariada
Espectometria 
Optimizing the synthesis of cobalt aluminate pigment using 
fractional factorial design
Gomes et al, (2015)
Planejamento fatorial fracionado
134
UNIDADE IV │ QUIMIOMETRIA
A statistical prediction of density and hardness of 
biodegradable mechanically alloyed Mg–Zn alloy using 
fractional factorial design
Salleh et al, (2015)
Planejamento fatorial fracionado
Análise de regressão
Experimental design and multiple response optimization. 
Using the desirability function in analytical methods 
development
Candioti et al, (2014)
Múltiplas respostas
Superficie de resposta
Processo de separação
Multivariate calibration Forina; Lanteri; Casale, (2007)
Calibração multivariada
Modelos de regressão
 
Fonte: autora.
Existem ainda muitos outros artigos como os listados acima que podem ser acessados 
por meio dos seguintes portais:
 » Science Direct: http://www.sciencedirect.com/ (SCIENCE DIRECT, 
2019).
 » Portal de periódicos CAPES/MEC: <http://www.periodicos.capes.gov.
br/> (PORTAL DE PERIÓDICOS CAPES/MEC, 2018).
 » Google acadêmico: <https://scholar.google.com.br/> (GOOGLE 
ACADÊMICO, 2018).
http://www.sciencedirect.com/
http://www.periodicos.capes.gov.br/
http://www.periodicos.capes.gov.br/
https://scholar.google.com.br/
135
Para (não) Finalizar
Em decorrência das necessidades da sociedade moderna, a pesquisa científica tem 
promovido grandes avanços em todos os campos da ciência, provocando um aumento 
cada dia mais crescente de dados e informações, sendo que para a devida exploração 
e consequentemente, correto entendimento, a aplicação de ferramentas estatísticas 
torna-se indispensável (PEREIRA-FILHO et al., 2002).
Na pesquisa, as ideias com frequência acabam surgindo antes da tecnologia necessária 
para realizá-las. Isso aconteceu e acontece na maioria dos ramos da Química que a 
teoria indica que para a resolução de um dado problema alguns cálculos são exigidos. 
Com isso veio a quimiometria que se iniciouna primeira metade da década de 1970, 
mas só se firmou definitivamente quando o computador começou a ser utilizado em 
laboratório. Contudo, há quem afirme que a combinação de química com estatística 
começou com as pesquisas do químico cervejeiro, Student, o do famoso teste t. 
Com o aparecimento da quimiometria, a utilização de experimentos estatisticamente 
planejados aumentou drasticamente em diversas áreas de pesquisa no Brasil, 
sobretudo na Química, Engenharia Química, Engenharia de Alimentos e Biotecnologia. 
Por outro lado, a utilização das técnicas quimiométricas de planejamento não ficou 
limitada somente às atividades acadêmicas, indústrias como Petrobras, Nitroquímica, 
Pirelli, Braskem, Clariant e Unilever do Brasil têm utilizado técnicas de planejamento 
e otimização de experimentos. O Instituto de Informação Científica, mostrou que, 
dos 4099 trabalhos científicos localizados com a palavra chave “factorial design”, 
225 (5,5%) tiveram participação de autor(es) brasileiro(s). Dos 3617 trabalhos com a 
palavra-chave “response surface”, 137 (3,8%) foram realizados, de forma parcial, no 
Brasil (MARQUES, 2004).
As novas tendências nesse ramo atualmente são o uso de métodos para dados de 
ordem superiores. Esses dados chamados de ordem superior são produzidos por 
instrumentação acoplada, como cromatografia a gás/espectrometria de massa (GC/
MS) e espectrometria de excitação/emissão. Nesta categoria, os métodos empregados 
no Brasil compreendem os modelos de Tucker, a calibração multivariada de ordem 
superior e o PARAFAC (Parallel Factor Analysis), que pode ser utilizado para resolução 
de curvas para dados de ordem superior e para análise exploratória e sua classificação. 
Atualmente, os grupos de pesquisas e desenvolvimento em quimiometria mais atuantes 
do Brasil estão em Campinas (por ex., os grupos dos Profs. Ronei J. Poppi e Márcia 
M. C. Ferreira) e Londrina (Profa. Ieda S. Scarminio) (BARROS NETO; SCARMINIO; 
BRUNS, 2006).
136
Referências
ACREDITAÇÃO DE LABORATÓRIOS. Disponível em: <https://is.gd/BjGYlI>. Acesso 
em 3 junho 2019.
ALTAŞ, Y.; TEL, H.; İNAN, S.; SERT, Ş.; ÇETINKAYA, B.; SENGÜL, S.; ÖZKAN, B. An 
experimental design approach for the separation of thorium from rare earth elements. 
Hydrometallurgy, v. 178, 2018.
ANÁLISE DE REGRESSÃO. Disponível em: <http://w3.ufsm.br/jpa/CCeTI/
regress%E3oc.pdf>. Acesso em: 18 junho 2018.
BACCAN, N. et al. Química analítica quantitativa elementar. Campinas: Editora 
Edgard Blücher Ltda., 1979.
BARROS NETO, B. B.; SCARMÍNIO, I. S.; BRUNS, R. E. 25 anos de quimiometria no 
Brasil. Química Nova, v. 29, 2006.
BARROS NETO, B. B.; SCARMÍNIO, I. S.; BRUNS, R. E. Como fazer experimentos. 
Campinas: Editora Unicamp, 4ª edição, 2010.
BERNADINO, N. D. Degradação de corantes e aglutinantes: Efeito da composição 
do microambiente. 2011. 155f. Dissertação (Mestrado em Química) - Programa de Pós-
Graduação em Química, USP, São Paulo, 2011.
BRAHMI, M.; BA, M.; HIDRI, Y.; HASSEN, A. Factorial experimental design intended 
for the optimization of the alumina purification Conditions. Journal of Molecular 
Structure, v. 1157, 2018.
BRASIL, J. L.; VAGHETTI, J. C. P.; ROYER, B.; SANTOS, A. A.; SIMON, N. M.; PAVAN, 
S. A.; DIAS, S. L. P.; LIMA, E. C. Planejamento estatístico de experimentos como 
uma ferramenta para otimização das condições de biossorção de Cu(II) em batelada 
utilizando-se casca de nozes pecã como biossorvente. Química Nova, v. 30, 2007.
BRERETON, R. G. Chemometrics: Data Analysis for the Laboratory and Chemical 
Plant. Bristol: Wiley, 2003.
BRERETON, R.G.; Introduction to multivariate calibration in analytical chemistry. 
Analyst, v. 11, 2000.
BRO, R. Analytica Chimica Acta. v. 500, 2003.
137
REFERÊNCIAS
BURETA. Disponível em: <https://is.gd/lIxWKK>. Acesso em: 26 maio 2019.
BUTTON S. T. Metodologia Para Planejamento Experimental e Análise de 
Resultados. Campinas – SP. 2005.
CAMO Software AS. The Unscrambler Program Operation: the Unscrambler 
User Manual. Disponível em: <www.camo.com>. Acesso em: 25 abril 2018.
CANDIOTI, L. V.; ZAN, M. M. Z.; CÁMARA, M. S.; GOICOECHEA, H. C. Experimental 
design and multiple response optimization. Using the desirability function in analytical 
methods development. Talanta, v. 124, 2014.
CARDOSO, D. R.; ANDRADE-SOBRINHO, L. G.; LEITE-NETO, A. F.; RECHE, 
R. V.; ISIQUE, W. D.; FERREIRA, M. M. C.; LIMA-NETO, B. S.; FRANCO, D. W.; 
Comparison between cachaça and rum using pattern recognition methods. Journal of 
Agricultural and Food Chemistry, v. 52, 2004.
CORREIA, P. R. M.; FERREIRA, M. M. C. Reconhecimento de padrões por métodos 
não supervisionados: explorando procedimentos quimiométricos para tratamento de 
dados analíticos. Química Nova, v. 30, 2007.
CURVA. Disponível em: <https://is.gd/PUS2cS>. Acesso em: 2 jun. 2019.
DESVIO. Disponível em: <https://is.gd/DjdNDR>. Acesso em: 2 jun. 2019.
DISTRIBUIÇÃO. Disponível em: <https://www.ime.unicamp.br/~cnaber/tabela_F_1.
pdf>. Acesso em: 13 maio 2019.
ESTATÍSTICA BÁSICA. Disponível em: <http://www.portalaction.com.br/estatistica-
basica>. Acesso em: 19 julho 2018.
ESTATÍSTICA DESCRITIVA. Disponível em: <https://fenix.tecnico.ulisboa.pt/
downloadFile/3779573118035/Estatistica_Descritiva_2008_09.pdf>. Acesso em: 19 
julho 2018.
ESTATÍSTICA. Disponível em: <https://goo.gl/38ATrT>. Acesso em: 19 de julho 2018.
FERNANDES, A. P.; SANTOS, M. C.; LEMOS, S. G.; FERREIRA, M. M. C.; NOGUEIRA, 
A. R. A.; NÓBREGA, J. A.; Pattern recognition applied to mineral characterization 
of Brazilian coffees and sugar-cane spirits. Spectrochimica Acta Part B: Atomic 
Spectroscopy, v. 60, 2005.
FERREIRA, M. M. C. Quimiometria: Conceitos, métodos e aplicações. Campinas: 
Editora Unicamp, 2015.
138
REFERÊNCIAS
FERREIRA, M. M. C.; ANTUNES, A. M.; MELGO, M. S.; VOLPE, P. L. O. Quimiometria 
I: calibração multivariada, um tutorial. Química nova, v. 5, 1999.
FERREIRA, S. L. C.; LEMOS, V. A.; CARVALHO, V. S.; SILVA, E. G. P.; QUEIROZ, A. F. S.; FELIX, C. 
S. A.; SILVA, D. L. F.; DOURADO, G. B.; OLIVEIRA, R. V. Multivariate optimization techniques 
in analytical chemistry - an overview. Microchemical Journal, v. 140, 2018.
FORINA, M.; LANTERI, S.; CASALE, M. Multivariate calibration. Journal of 
Chromatography A. v. 1158, 2007.
GALDAMEZ, E. V. C.; CARPINETTI, L. C. R. Aplicação das técnicas de planejamento 
e análise de experimentos no processo de injeção plástica. Gestão e Produção, v.11, 
2004.
GAUSS. Disponível em: <https://is.gd/WAaO7f>. Acesso em: 1 junho 2019.
GELADI, P. Chemometrics in spectroscopy. Part 1. Classical chemometrics. 
Spectrochimica Acta Part B: Atomic Spectroscopy, v. 58, 2003.
GNECCO, B. B. MORAES, R. M.; MACHADO, L. S.; CABRAL, M. C. Um Sistema de 
Visualização Imersivo e Interativo de Apoio ao Ensino de Classificação de 
Imagens, disponível em <http://www.di.ufpb.br/liliane/publicacoes/wrv2001-cave-
final.pdf>, Acesso em: 25 abril 2018.
GOMES, Y. F.; MEDEIROS, P. N.; BOMIO, M. R. D.; SANTOS, I. M. G.; PASKOCIMAS, 
C. A.; NASCIMENTO, R. M.; MOTTA, F. V. Optimizing the synthesis of cobalt aluminate 
pigment using fractional factorial design. Ceramics International, v. 41, 2015.
GONZÁLEZ, A. G., Use and misuse of supervised pattern recognition methods for 
interpreting compositional data. Journal of Chromatography A, v.1158, 2007.
GOOGLE ACADÊMICO. Disponível em: < https://scholar.google.com.br/>. Acesso em 
19 julho 2018.
GRANATO, D.; SANTOS, J. S.; ESCHER, G. B.; FERREIRA, B. L.; MAGGIO, R. M. 
Use of principal component analysis (PCA) and hierarchical cluster analysis (HCA) for 
multivariate association between bioactive compounds and functional properties in 
foods: A critical perspective. Trends in Food Science & Technology, v.72, 2018.
HCA. Disponível em: <http://joinqui.qui.ufmg.br/2010/download/MC15-2.pdf>. 
Acesso em: 10 junho 2018.
HOPKE, P. K. The evolution of chemometrics. Analytica Chimica Acta, v. 500, 2003.
139
REFERÊNCIAS
INÁCIO, M. R. C. Ferramentas quimiométricas aplicadas à classificaçãode 
amostras de leite em pó e quantificação de proteínas. 2010. 119 f. Dissertação 
(Mestrado em Química) - Programa de Pós-Graduação em Química, Universidade 
Federal do Rio Grande do Norte, Natal, RN. 2010.
INFERÊNCIA. Disponível em: <https://goo.gl/4fm5VW>. Acesso em 19 julho 2018.
INMETRO, Orientação sobre validação de métodos analíticos, DOQ-CGCRE-008 
Revisão 7 – Junho 2018.
JIANG, Y.; ZHANG, Y.; BANKS, C.; HEAVEN, S.; LONGHURST, P. Investigation of the 
impact of trace elements on anaerobic volatile fatty acid degradation using a fractional 
factorial experimental design. Water Research. v.125, 2017.
KNN. Disponível em: <https://goo.gl/HYdx4k>. Acesso em: 13 junho 2018.
LAVINE, B. K. Encyclopedia of analytical chemistry. Chichester: Wiley, 2000.
LEVINE, D.M. Estatística: teoria e aplicações usando Microsoft Excel em português. 
Rio de Janeiro: LTC - Livros Técnicos e Científicos, 2008.
LIU, F.; HE, Y.; SUN, G. Determination of Protein Content of Auricularia auricula 
Using Near Infrared Spectroscopy Combined with Linear and Nonlinear Calibrations. 
Journal of Agricultural and Food Chemistry, v. 57, 2009.
LU, T.; YUAN, Y.; JIAO, Y.; WEN, Z.; WANG, L.; ZHAO, Y.; ZHANG, Y.; LI, M.; PU, X.; 
MARQUES, F. Indicadores: uma prova de qualidade. Pesquisa FAPESP, São Paulo, 
n. 102, 2004.
MASSART, D. L.; VANDEGINSTE, B. G. M.; BUYDENS, L. M. C.; DE JONG, S.; LEWI, 
P. J.; SMEYERS-VERBEKE, J. Handbook of Chemometrics and Qualimetrics, 
Part A. Amsterdam: Elsevier, 1997.
MATOS, F. M. S. Reconhecimento de faces utilizando a transformada cosseno 
discreta. 2008. 94f. Dissertação (Mestrado curso de informática) - Departamento de 
Informática, Universidade Federal da Paraíba, João Pessoa, 2008.
MENDENHALL, W.; SINCICH, T. Second course in statistics: regression analysis. 
Prentice Hall, 7th Edition, 2012.
MÉTODOS DE CLASSIFICAÇÃO. Disponível em: <https://goo.gl/PY9p4t>. Acesso 
em: 19 junho 2018.
140
REFERÊNCIAS
MILLER, J. N.; MILLER, J. C. Statistics and Chemometrics for Analytical 
Chemistry, 6a edição, New York: Prentice Hall, 2010.
MONTGOMERY, D. C. Design and analysis of experiments. 8th Edition. John 
Wiley & Sons.
NETO, M. M. J. Estatística multivariada. Revista de Filosofia e Ensino. Núcleo de 
Estudos e Pesquisas sobre o Ensino de Filosofia - NESEF, 2004.
NIPALS. Disponível em: <https://goo.gl/dy9yUG >. Acesso em: 12 junho 2018.
NOÇÕES DE ESTATÍSTICA. Disponível em: <https://www.measureevaluation.org/
resources/training/capacity-building-resources/data-quality-portuguese/moduloII_
capa.pdf>. Acesso em: 19 julho 2018.
OTTO, M. Chemometrics – Statistics and Computer Application in Analytical 
Chemistry, 2ª ed, New York: Wiley, 2007.
PADRÃO DE VITAMINA. Disponível em: <https://is.gd/k9HVr0>.. Acesso em: 30 
maio 2019.
PCA. Disponível em: < https://goo.gl/2PZwdt>. Acesso em: 10 junho 2018.
PEREIRA-FILHO, E. R., POPPI, R. J.; ARRUDA, M. A. Z. Employment of factorial 
design for optimization of pirolisys and atomization temperatures for Al, Cd, Mo and 
Pb determination by ETAAS. Química Nova, v. 25, 2002.
PIPETA. Disponível em: <https://is.gd/8fhASI>. Acesso em 26 maio 2019.
PLANEJAMENTO FATORIAL. Disponível em: < https://anselmo.quimica.ufg.br/
up/56/o/DOE_03_Planejamentos_Fatoriais_-_Completo.pdf>. Acesso em: 15 junho 
2018.
PLANEJAMENTO FRACIONADO. Disponível em: < https://goo.gl/qWgJKx>. Acesso 
em: 18 junho 2018.
POPULAÇÃO. Disponível em: <https://is.gd/aGe3Vs>. Acesso em: 1 junho 2019.
PORTAL DE PERIÓDICOS CAPES/MEC. Disponível em: <http://www.periodicos.
capes.gov.br/>. Acesso em 19 julho 2018.
PRECISÃO. Disponível em: < http://1.bp.blogspot.com/-qxu2t0ZMtfM/
USZlqwC9GUI/AAAAAAAAAGk/46G2D8SD5_k/s1600/Quadro+Comparativo_
Precis%C3%A3o_Exatid%C3%A3o.png>. Acesso em: 15 maio 2019.
141
REFERÊNCIAS
PROBABILIDADE. Disponível em: <http://www.portalaction.com.br/probabilidades/
introducao-probabilidade>. Acesso em: 19 julho 2018.
PROVETA. Disponível em: <https://is.gd/OByPAD>. Acesso em: 29 maio 2019.
RODRIGUES, M. I.; LEMMA, A. F. Experimental design and process 
optimization. Boca Raton: CRC Press, 2015.
ROGGO, Y.; CHALUS, P.; MAURER, L.; LEMA-MARTINEZ, C.; EDMOND, A.; JENT, 
N. A review of near infrared spectroscopy and chemometrics in pharmaceutical 
technologies. Journal of Pharmaceutical and Biomedical Analysis, v. 44, 2007.
ROSA, T. R.; RODRIGUES, J. G. A.; FERREIRA, R. Q. Uso do planejamento experimental 
para otimização de um procedimento voltamétrico para determinação simultânea das 
concentrações dos metais Zn, Cd, Pb e Cu livres em água de coco. Química Nova, v. 
39, 2016.
SALLEH, M. E.; ZUHAILAWATI, H.; RAMAKRISHNAN, S.; GEPREEL, M. A. A 
statistical prediction of density and hardness of biodegradable mechanically alloyed 
Mg–Zn alloy using fractional factorial design. Journal of Alloys and Compounds, 
v. 644, 2015.
SANTOS, P. M. Aplicação de imagens digitais e técnicas espectroanalíticas 
combinadas com quimiometria para detecção e quantificação de adulteração 
em leite bovino. 2013. 79f. Tese (Doutorado em Ciências) - Departamento de Química 
- Programa de pós-graduação em Química. Universidade Federal de São Carlos, São 
Carlos: UFSCar, 2013.
SCIENCE DIRECT. Disponível em: <http://www.sciencedirect.com/>. Acesso em: 19 
julho 2018.
SENA, M. M.; POPPI, R. J. Introdução à quimiometria: Como explorar grandes 
conjuntos de dados químicos. 2010. Disponível em: <http://joinqui.qui.ufmg.br/2010/
download/MC15-1.pdf>. Acesso em: 13 mai. 2019.
SERGENT, M. Statistical design: Chemometrics. Journal of Chemometrics, 2007.
SKOOG, D. et al. Fundamentos de química analítica. São Paulo: Editora Thomson, 
2006.
SVD. Disponível em: < https://goo.gl/KtLtmR >. Acesso em: 12 jun. 2018.
142
REFERÊNCIAS
TEÓFILO, R. F.; FERREIRA, M. M. C. Quimiometria II: planilhas eletrônicas para 
cálculos de planejamentos experimentais, um tutorial. Química Nova, v. 29, 2006.
TITULAÇÃO. Disponível em: < http://quimicadashotoko.blogspot.com/2013/05/
titulacao.html >. Acesso em: 29 mai. 2019.
VICENTINI, F. C.; FIGUEIREDO-FILHO, L. C. S.; JANEGITZ, B. C.; ALINE SANTIAGO, 
A.; PEREIRA-FILHO, E. R.; FATIBELLO-FILHO, O. Planejamento fatorial e superfície 
de resposta: otimização de um método voltamétrico para a determinação de Ag(I) 
empregando um eletrodo de pasta de nanotubos de carbono. Química Nova, v. 34, 
2011.
XU, T. Simultaneous spectrophotometric quantification of dinitrobenzene isomers 
in water samples using multivariate calibration methods. Chemometrics and 
Intelligent Laboratory Systems, v. 154, 2016.
	_Hlk11683939
	_Hlk519751218
	_Hlk11684379
	_Hlk512682088
	_Hlk11684766
	_Hlk512682694
	_Hlk11686070
	_Hlk518286596
	_Hlk11686051
	_Hlk514250221
	_Hlk11686762
	_Hlk518287146
	_Hlk11686928
	_Hlk514250026
	_Hlk11687124
	_Hlk535847380
	_Hlk11687509
	_Hlk11687745
	_Hlk535848725
	_Hlk11688454
	_Hlk518287460
	_Hlk512339659
	_Hlk514249611
	bau0050
	Apresentação
	Organização do Caderno de Estudos e Pesquisa
	Introdução
	Unidade I
	Estatística Básica
	Capítulo 1
	Conceitos fundamentais em estatística
	Capítulo 2
	Estatística descritiva, probabilidade e inferência estatística
	Capítulo 3
	Média, moda, mediana, desvio padrão, intervalo de confiança, testes t não pareado e pareado, teste Q
	Unidade II
	Trabalhando Com Dados Multivariados
	Capítulo 1
	Análise exploratória de dados
	Capítulo 2
	Construção de modelos de calibração
	Modelos de classificação e reconhecimento de padrões
	Unidade III
	Planejamento Experimental
	Capítulo 1
	Planejamento fatorial completo
	Capítulo 2
	Planejamento fatorial fracionário
	Capítulo 3
	Modelos de regressão
	Unidade IV
	Quimiometria
	Capítulo 1
	Princípios básicos
	Capítulo 2
	Erro em análises químicas
	Capítulo 3
	Validação dos métodos quimiométricos 
	Capítulo 4
	Estudo de casos e artigos sobre planejamento experimental e Quimiometria
	Para (não) Finalizar
	Referências

Mais conteúdos dessa disciplina