Buscar

controle_estatistico_de_processos_e_quimiometria

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 142 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 142 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 142 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Brasília-DF. 
Controle estatístiCo de ProCessos 
e Quimiometria
Elaboração
Maria Rosiene Antunes Arcanjo
Produção
Equipe Técnica de Avaliação, Revisão Linguística e Editoração
Sumário
APRESENTAÇÃO ................................................................................................................................. 5
ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA .................................................................... 6
INTRODUÇÃO.................................................................................................................................... 8
UNIDADE I
ESTATÍSTICA BÁSICA ............................................................................................................................. 11
CAPÍTULO 1
CONCEITOS FUNDAMENTAIS EM ESTATÍSTICA ........................................................................... 11
CAPÍTULO 2
ESTATÍSTICA DESCRITIVA, PROBABILIDADE E INFERÊNCIA ESTATÍSTICA ........................................ 18
CAPÍTULO 3
MÉDIA, MODA, MEDIANA, DESVIO PADRÃO, INTERVALO DE CONFIANÇA, 
TESTES T NÃO PAREADO E PAREADO, TESTE Q .......................................................................... 26
UNIDADE II
TRABALHANDO COM DADOS MULTIVARIADOS ..................................................................................... 35
CAPÍTULO 1
ANÁLISE EXPLORATÓRIA DE DADOS ........................................................................................ 35
CAPÍTULO 2
CONSTRUÇÃO DE MODELOS DE CALIBRAÇÃO ....................................................................... 49
MODELOS DE CLASSIFICAÇÃO E RECONHECIMENTO DE PADRÕES ........................................ 59
UNIDADE III
PLANEJAMENTO EXPERIMENTAL ........................................................................................................... 68
CAPÍTULO 1
PLANEJAMENTO FATORIAL COMPLETO .................................................................................... 72
CAPÍTULO 2
PLANEJAMENTO FATORIAL FRACIONÁRIO ............................................................................... 79
CAPÍTULO 3
MODELOS DE REGRESSÃO ..................................................................................................... 85
UNIDADE IV
QUIMIOMETRIA .................................................................................................................................... 90
CAPÍTULO 1
PRINCÍPIOS BÁSICOS .............................................................................................................. 94
CAPÍTULO 2
ERRO EM ANÁLISES QUÍMICAS .............................................................................................. 100
CAPÍTULO 3
VALIDAÇÃO DOS MÉTODOS QUIMIOMÉTRICOS ................................................................... 118
CAPÍTULO 4
ESTUDO DE CASOS E ARTIGOS SOBRE PLANEJAMENTO EXPERIMENTAL E QUIMIOMETRIA ........ 129
PARA (NÃO) FINALIZAR ................................................................................................................... 135
REFERÊNCIAS ................................................................................................................................ 136
5
Apresentação
Caro aluno
A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se 
entendem necessários para o desenvolvimento do estudo com segurança e qualidade. 
Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela 
interatividade e modernidade de sua estrutura formal, adequadas à metodologia da 
Educação a Distância – EaD.
Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade 
dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos 
específicos da área e atuar de forma competente e conscienciosa, como convém 
ao profissional que busca a formação continuada para vencer os desafios que a 
evolução científico-tecnológica impõe ao mundo contemporâneo.
Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo 
a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na 
profissional. Utilize-a como instrumento para seu sucesso na carreira.
Conselho Editorial
6
Organização do Caderno 
de Estudos e Pesquisa
Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em 
capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos 
básicos, com questões para reflexão, entre outros recursos editoriais que visam tornar 
sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta para 
aprofundar seus estudos com leituras e pesquisas complementares.
A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos 
Cadernos de Estudos e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto antes 
mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor 
conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita 
sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante 
que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As 
reflexões são o ponto de partida para a construção de suas conclusões.
Sugestão de estudo complementar
Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo, 
discussões em fóruns ou encontros presenciais quando for o caso.
Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam para a 
síntese/conclusão do assunto abordado.
7
Saiba mais
Informações complementares para elucidar a construção das sínteses/conclusões 
sobre o assunto abordado.
Sintetizando
Trecho que busca resumir informações relevantes do conteúdo, facilitando o 
entendimento pelo aluno sobre trechos mais complexos.
Para (não) finalizar
Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem 
ou estimula ponderações complementares sobre o módulo estudado.
8
Introdução
A estatística é o ramo da ciência voltado ao estudo de ferramentas matemáticas para 
coleta, organização, análise e interpretação de dados numéricos para uma melhor 
compreensão e tomada de decisões frente a problemas, situações e fenômenos. Com 
ampla aplicação nas ciências exatas, naturais, econômicas e sociais, a estatística fornece 
uma base para a explicação da ocorrência e frequência de eventos, sua aleatoriedade, 
obtenção de incertezas e estimativa de previsibilidade em eventos futuros. Na área de 
Química, a disciplina que estuda o uso de métodos matemáticos e estatísticos para 
planejar experimentos de forma otimizada e fornecer o máximo de informação na 
análise de dados de natureza multivariada é chamada de Quimiometria.
Nesse material será abordada inicialmente uma revisão que engloba os principais 
parâmetros estatísticos como média, moda, mediana, desvio padrão, intervalo de 
confiança, testes t pareado e não pareado e teste Q. Posteriormente, veremos as técnicas 
e metodologias para a manipulação e tratamento de dados multivariados voltados 
para a análise exploratória, desenvolvimento de métodos de calibração e construção 
de modelos de classificação para reconhecimento de padrões. Por fim, estudaremos o 
desenvolvimento e aplicação de planejamentos fatoriais e modelos de regressão.
Veremos que a estatística não é somente construção de gráficos e o cálculo de médias, 
visto que as informações numéricas obtidas tem como finalidade a acumulação de 
informações para a tomada de decisões. Portanto, a estatística deve ser observada como 
um conjunto de técnicas para planejar experimentos, com consequente obtenção de 
dados, sua organização, análise e interpretação. 
Devido a estatística ser aplicada em diversas áreas do conhecimento, muitas vezes 
se torna difícil para os profissionais trabalharem com seus conceitos e elaborarem 
exemplos práticos, poishá a limitação de materiais didáticos que expressem, de modo 
simples e objetivo, os procedimentos aplicáveis de certas técnicas multivariadas, 
que só passaram a ser utilizadas, mais vezes, a partir da chegada dos computadores. 
É importante dizer que nos dias atuais com o auxílio de programas computacionais, 
consegue-se desenvolver e aplicar esse tipo de técnica mais rapidamente.
O desenvolvimento tecnológico, oriundo das descobertas científicas, tem apoiado 
o próprio desenvolvimento científico, expandindo, a capacidade de obtenção de 
informações sobre acontecimentos e fenômenos analisados. Uma grande variedade 
de informações necessita ser processada antes de ser transformada em conhecimento. 
Deste modo, necessita-se cada vez mais de ferramentas estatísticas que proporcionem 
uma visão global do fenômeno, que aquela possível em uma abordagem univariada. 
9
A denominação Análise Multivariada significa que muitos métodos e técnicas utilizam, 
simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados 
obtidos (NETO, 2004). 
Mas, é preciso ter atenção ao se usar essas técnicas, pois não basta a observação de 
conjunto de variáveis e aplicação de técnicas multivariadas, somente objetivando 
apresentar e valorizar a técnica. É necessário que exista uma estrutura de correlação 
entre as variáveis, se isso não existir deve-se utilizar outro tipo de análise, a univariada, 
visto que está também pode fornecer um nível satisfatório de informação. 
Portanto, o princípio fundamental é primeiramente saber qual conhecimento se 
pretender gerar com as análises. 
Um grande avanço relacionado ao surgimento de programas computacionais para 
resolução de problemas que envolvem estatísticas têm sido observados nas últimas 
décadas. Essas técnicas são frequentemente utilizadas no tratamento de dados 
analíticos na área de química, e são denominadas de Quimiometria, a qual desenvolve 
ferramentas computacionais que permitem a exploração dos resultados obtidos por 
meio de análises químicas, objetivando verificar a existência de similaridades entre 
as amostras que, por sua vez, correspondem às semelhanças na composição química 
(CORREIA; FERREIRA, 2007). 
Nesse contexto, esse material didático, busca tornar mais simples o aprendizado 
a respeito de técnicas estatísticas, que, muitas vezes, é obscuro para os alunos, 
pesquisadores e profissionais que as utilizam, bem como os métodos de planejamento 
experimentais envolvidos nesses processos. 
Objetivos 
 » Conhecer e revisar os conceitos estatísticos como média, moda, mediana, 
desvio padrão, intervalo de confiança, testes t pareado e não pareado e 
teste Q.
 » Compreender o que são as análises exploratória de dados e sua importância 
em diversos processos.
 » Conhecer e entender as técnicas e metodologias para a manipulação e 
tratamento de dados univariados e multivariados.
 » Estudar e compreender o desenvolvimento de planejamentos fatoriais e 
modelos de regressão, e sua importância em distintas aplicações. 
 » Estudar e compreender sobre o uso da Quimiometria.
10
11
UNIDADE IESTATÍSTICA BÁSICA
CAPÍTULO 1
Conceitos fundamentais em estatística
A estatística tem sido utilizada pelo homem desde os princípios da existência, mesmo 
sob formas um pouco rudimentares. No início a estatística era utilizada apenas em 
problemas que envolviam contagens, como por exemplo, contagens de animais ou 
indivíduos das tribos, isso fez com que as primeiras ideias de estatística fossem criadas. 
O termo estatística deriva da palavra latina status (que quer dizer “coisas de estado”), 
contudo, a séculos que a estatística adquiriu status de ciência, com inúmeras aplicações 
na maioria das áreas do conhecimento humano. É correto afirmar que não se pode 
realizar uma pesquisa científica sem utilizar metodologia estatística. Algumas definições 
importantes e comumente usadas em estatísticas são apresentadas a seguir:
 » Fenômeno estatístico: qualquer evento analisado, cujo estudo seja 
possível a aplicação do método estatístico. 
 » Dado estatístico: dado numérico que é considerado a matéria prima sobre 
a qual se aplica os métodos estatísticos.
 » População: conjunto total de elementos que possuam pelo menos, uma 
característica comum.
 » Amostra: é uma parcela representativa da população que é avaliada 
objetivando a obtenção de conclusões sobre a essa população.
 » Parâmetros: são valores singulares que existem na população e que 
servem para caracterizá-la.
 » Estimativa: um valor aproximado do parâmetro que é calculado com o 
uso da amostra.
12
UNIDADE I │ ESTATÍSTICA BÁSICA
 » Atributo: quando os dados estatísticos exibem um caráter qualitativo, o 
levantamento e os estudos imprescindíveis ao tratamento desses dados 
são designados de estatística de atributo.
 » Amostragem: é o processo de escolha da amostra, sendo a parte inicial 
do processo.
 › As regras de Amostragem podem ser classificadas em duas categorias 
gerais: 
 · Probabilística, amostragem na qual a seleção é aleatória, de forma 
que cada elemento tem igual probabilidade de ser sorteado para a 
amostra.
 · Não probabilísticas, amostragem em que há uma escolha 
determinada dos elementos da amostra. 
 › Os tipos de amostragem podem ser: 
 · Amostragem aleatória simples, neste processo, todos os elementos 
da população têm igual probabilidade de serem escolhidos, desde o 
início até completo processo de coleta.
 · Amostragem sistemática, trata-se de uma variação da amostragem 
simples ao acaso, muito conveniente quando a população está 
naturalmente ordenada, como fichas em um fichário ou listas 
telefônicas.
 · Amostragem estratificada, quando se possui uma população com 
uma certa característica heterogênea, na qual pode-se diferenciar 
subpopulações mais ou menos homogêneas, chamadas de estratos.
 » Mensuração: atribuição de um número a qualidades de um objeto ou 
fenômeno segundo regras pré-determinadas. 
 » Variável: o conjunto de resultados possíveis de um fenômeno.
Há quatro níveis básicos, de mensuração (quatro tipos de variáveis): nominal, ordinal, 
intervalar e razão.
1. Escala nominal: o nível mais simplicista das escalas de medida, sendo 
empregada na classificação de objetos ou fenômenos em termos de 
igualdade dos seus atributos e numerá-los. O exemplo mais simples é 
13
ESTATÍSTICA BÁSICA │ UNIDADE I
formado pela divisão em duas classes que são identificadas com os 
números zero ou um, variável binária (0,1).
2. Escala ordinal: empregada quando os fenômenos ou observações 
podem ser arranjados segundo uma ordenação, por exemplo: grandeza, 
preferência, importância, distância, entre outros.
3. Escala intervalar: tem todas as características de uma escala ordinal, 
porém os intervalos entre os valores são conhecidos e assim cada 
observação pode receber um valor numérico preciso. A extensão de cada 
intervalo sucessivo é constante. O ponto zero de uma escala intervalar 
é arbitrário e não indica ausência da característica medida. Exemplo: 
numeração dos anos, e escalas de temperatura.
4. Escala de razão: semelhante as características de uma escala de intervalo, 
com a vantagem de que o ponto zero representa uma origem verdadeira 
(zero indica ausência de fenômeno). É considerada a mais precisa de 
todas. Exemplo: escala métrica, idades e distância entre outras. 
Segundo o nível introdutório, a estatística pode ser dividida em três grandes categorias:
 » Estatística Descritiva, que está relacionada a descrição tabular, gráfica 
e paramétrica dos dados obtidos experimentalmente, por meio de 
procedimentos de amostragem ou de experimentos realizados. 
 » Probabilidade e Estatística matemática, que está relacionada a ocorrência 
dos eventos e das variáveis aleatórias que os descrevem, fornecendo os 
fundamentos da teoria estatística. 
 » Inferência Estatística, que está relacionada a estimação por intervalo e 
por região, os testes de hipóteses sobre parâmetros populacionais. 
O emprego de grandes números de dados é uma práticacomum nesta ciência e para 
simplificar seu manuseio, faz-se uso de variáveis. Elas podem ser classificadas em 
variáveis quantitativas ou numéricas e variáveis qualitativas ou atributos:
 » Variáveis quantitativas ou numéricas são aquelas que descrevem 
quantidades, ou seja, seus valores são descritos por números. Elas 
podem ser ainda divididas em discretas (quando assumem um número 
determinado de valores no campo dos reais, por exemplo, contagens) e em 
contínuas (em outros casos, admitem valores fracionados). O conceito de 
14
UNIDADE I │ ESTATÍSTICA BÁSICA
variável discreta e contínua é considerado simples, contudo, pode causar 
alguma confusão em tratamentos estatísticos mais elaborados.
 » Variáveis qualitativas ou atributos são aquelas que descrevem qualidades, 
ou seja, não se utiliza números para descrevê-las. Elas podem ser divididas 
em ordinais (se os valores agregam a ideia de ordem) e nominais (não 
agregam a ideia de ordem).
Independentemente da situação estudada, em áreas da medicina, engenharia ou 
qualquer outra atividade, as etapas dos processos estatísticos são semelhantes. Na 
figura 1 abaixo podemos observar de forma detalhada as etapas básicas de um processo 
estatístico. 
Figura 1. Fluxograma de um processo estatístico padrão.
 
 
Coleta 
Tabulação 
Apresentação 
Análise 
Direta 
Indireta 
Crítica 
Apuração 
Resumo 
dos dados 
Conclusão e 
interpretação 
Descritiva 
Estatística 
inferencial e 
multivariada 
Fonte: Adaptada de https://goo.gl/38ATrT (ESTATÍSTICA, 2018).
Onde:
 » Coleta de dados.
 › Refere-se a obtenção, reunião e registro sistemático de dados, com o 
objetivo já pré-definido. A escolha da fonte de obtenção dos dados está 
diretamente relacionada ao tipo do problema, objetivos do trabalho, 
escala de atuação e disponibilidade de tempo e recursos. Existem 
as fontes primárias (levantamento direto no campo por meio de 
mensurações diretas ou de entrevistas aplicadas a sujeitos de interesse 
para a pesquisa e as fontes secundárias (publicações ou registros 
por outra organização). A coleta de dados secundários é feita por 
15
ESTATÍSTICA BÁSICA │ UNIDADE I
documentos cartográficos. Estas fontes de informação são de extrema 
relevância.
 › A coleta dos dados pode ser realizada de forma direta (quando 
são obtidos diretamente da fonte primária, como por exemplo os 
levantamentos de campo por meio de questionários) ou indireta 
(quando é inferida a partir dos elementos conseguidos pela coleta 
direta, ou por conhecimento de outros fenômenos que estejam 
relacionados com o fenômeno em questão).
 » Tabulação (Crítica dos dados e Apuração).
 › A crítica dos dados deve ser realizada cuidadosamente por meio de um 
trabalho de revisão e correção, denominado de crítica, objetivando a 
não ocorrência de erros que possam influenciar de maneira significativa 
nos resultados.
 › As perguntas dos questionários não entendidas, os enganos evidentes, 
tais como somas erradas, trocas de respostas, entre outros, são de 
correção fácil. Contudo, faz-se necessário, que o crítico não faça a 
correção por simples suposição sua, mas sim, que tenha chegado a 
conclusão total do engano.
 › O processo de apuração consiste no resumo dos dados por meio de 
sua contagem ou agrupamento. Por meio da apuração, é possível 
a condensação dos dados, obtendo-se um conjunto compacto de 
números, o qual possibilita diferenciar o comportamento do fenômeno 
na sua maioria.
 » Apresentação.
 › Organização do conjunto de dados de modo prático e racional. Essa 
organização é denominada de Série Estatística. Sua apresentação 
pode ser por tabelas ou gráficos. A apresentação utilizando tabelas, 
consiste em preparar os dados em linhas e colunas distribuídos de 
modo ordenado, de acordo com algumas regras práticas seguidas 
pelo Conselho Nacional de Estatística. As tabelas têm a vantagem de 
conseguir expor, em um só local, os resultados sobre determinado 
assunto, de modo a se obter uma visão geral mais rápida daquilo que 
se pretende analisar. Já a apresentação através de gráficos, consiste em 
16
UNIDADE I │ ESTATÍSTICA BÁSICA
uma apresentação geométrica dos dados, isto é, ela permite ao analista 
obter uma visão rápida, fácil e clara do fenômeno e sua variação.
 » Análise.
 › Obtenção de conclusões que auxiliem o pesquisador a resolver seu 
problema. A análise dos dados estatísticos está ligada fundamentalmente 
ao cálculo de medidas, cujo objetivo principal é descrever o fenômeno. 
Assim sendo, o conjunto de dados a ser analisado pode ser expresso 
por número-resumo, que evidenciam características particulares desse 
conjunto.
 › Às vezes é necessário resumir certas características das distribuições 
de dados por determinadas quantidades, que são denominadas 
comumente de medidas. Existem medidas de posição e medidas de 
dispersão, consideradas mais importantes no campo da aplicabilidade 
prática do cotidiano. Tais medidas tem como objetivo: a localização de 
uma distribuição e a caracterização de sua variabilidade.
 › As medidas de posição também chamadas de Tendência Central, 
são utilizadas para localizar a distribuição dos dados brutos ou das 
frequências sobre o eixo de variação da variável em questão. Veremos 
posteriormente no Capítulo 3 desta unidade os três tipos principais de 
medidas de posição: 
 · Média aritmética, é obtida somando todos os valores de um conjunto 
de dados e dividindo o valor encontrado pelo número de dados 
desse conjunto.
 · Mediana, é uma quantidade que, como a média, também caracteriza 
o centro de uma distribuição pertencente a um conjunto de dados. 
 · Moda, é uma quantidade que, como a média, também caracteriza 
o centro de uma distribuição, indicando a região das máximas 
frequências.
 › As medidas de dispersão ou de variabilidade são consideradas 
complementos das informações fornecidas pelas medidas de posição. 
Essas medidas servem para indicar o “quanto os dados se apresentam 
dispersos em torno da região central”. Deste modo, caracterizam o 
grau de variação existente em um conjunto de valores. Os principais 
tipos de medidas de dispersão são:
17
ESTATÍSTICA BÁSICA │ UNIDADE I
 · Amplitude, é definida como a diferença entre o maior e o menor 
valores do conjunto de dados.
 · Variância, definida como a média dos quadrados das diferenças 
entre os valores em relação a sua própria média. 
 · Desvio Padrão, é definido como a raiz quadrada positiva da variância. 
 · Coeficiente de Variação, é definido como o quociente entre o desvio 
padrão e a média, sendo comumente expresso em porcentagem.
Caro estudante, você estudou sobre os conceitos de estatística mais comumente 
utilizados em distintas áreas do conhecimento. Vale ressaltar que é muito 
importante que outras fontes sobre o assunto abordado sejam buscadas, deste 
modo, sugerimos a consulta do seguinte link: http://www.portalaction.com.br/
estatistica-basica (ESTATÍSTICA BÁSICA, 2018).
18
CAPÍTULO 2
Estatística descritiva, probabilidade e 
inferência estatística
Como dito no capítulo anterior a Estatística pode ser divididas em três categorias: 
Descritiva, Probabilidade e Inferência. 
Estatística descritiva
A estatística descritiva é a etapa inicial da análise empregada para descrever e resumir 
os dados, objetivando facilitar a compreensão e a utilização da informação ali contida, 
ou seja, na Estatística Descritiva faz-se necessário a utilização de tabelas, gráficos, 
diagramas, distribuições de frequência e medidas descritivas a fim avaliar o formato 
geral da distribuição dos dados, a verificação da ocorrência de valores não típicos, 
a identificação de valores típicos que informem sobre o centro da distribuição e a 
verificação do grau de variação presente nos dados.
Um dos objetivos da Estatística é resumir os valores que uma ou mais variáveis podem 
assumir, para que se tenha uma visão global dessas variáveis. Isto é possível por Séries 
Estatísticas que apresentam valores em tabelas e gráficos, fornecendo de forma maisrápida e segura informações das variáveis estudadas, permitindo assim determinações 
mais coerentes: 
Tabelas
Por definição, é um quadro que resume um conjunto de dados dispostos segundo 
linhas e colunas de maneira sistemática. Denomina-se Série Estatística toda tabela que 
apresenta a distribuição de um conjunto de dados estatísticos em função da época, do 
local, ou da espécie (fenômeno). Em uma série estatística observa-se a existência de três 
fatores: o tempo, o espaço e a espécie. Conforme a variação de um desses elementos, a 
série estatística classifica-se em:
 » Série temporal, histórica ou cronológica: é a série cujos dados estão 
variando com o tempo.
 » Série geográfica, territorial ou de localidade: é a série cujos dados estão 
em correspondência com a região geográfica, isto é, o elemento variável é 
o fator geográfico (a região).
19
ESTATÍSTICA BÁSICA │ UNIDADE I
 » Série específica ou categórica: é a série cujos dados estão em 
correspondência com a espécie, isto é, variam com o fenômeno.
 » Séries mistas: são as combinações entre as séries anteriores constituindo 
novas séries denominadas séries mistas e são apresentadas em tabelas 
de dupla entrada. Como exemplo pode se citar uma Série Temporal-
Específica, os elementos variáveis são o tempo e a espécie e o elemento 
fixo é o local.
 » Série homógrada: é aquela em que a variável descrita apresenta variação 
discreta ou descontínua. São séries homógradas a série temporal, a 
geográfica e a específica.
 » Série heterógrada: é aquela na qual o fenômeno ou fato apresenta 
gradações ou subdivisões. Esse fenômeno varia em intensidade. 
Exemplos: a distribuição de frequências ou seriação.
É de extrema relevância saber que uma tabela nem sempre representa uma 
série estatística, pois pode ser um aglomerado de informações úteis sobre um 
determinado assunto. Fique atento!
Gráficos
Vale ressaltar que a apresentação gráfica é um complemento importante da apresentação 
em tabelas. A vantagem de um gráfico em relação a tabela está na possibilidade de 
uma rápida impressão visual da distribuição dos valores ou das frequências ressaltadas. 
Os gráficos proporcionam uma ideia a princípio mais satisfatória da concentração e 
dispersão dos valores, já que por meio deles os dados estatísticos são visualmente 
interpretáveis. Podemos dizer que os requisitos fundamentais de um gráfico são: sua 
simplicidade (deve possibilitar a análise rápida do fenômeno observado), clareza (deve 
possibilitar interpretações corretas dos valores do fenômeno), e veracidade (deve 
expressar a verdade sobre o fenômeno notado).
Os gráficos podem ser classificados quanto: a forma e ao objetivo. 
Os tipos de gráficos quanto à forma são: 
 » Diagramas: gráficos geométricos dispostos em duas dimensões. São 
mais usados na representação de séries estatísticas (gráficos em barras 
horizontais, barras verticais - colunas, barras compostas, colunas 
superpostas, em linhas, e em setores).
20
UNIDADE I │ ESTATÍSTICA BÁSICA
 » Cartogramas: é a representação sobre uma carta geográfica. São mais 
empregados na Geografia, História e Demografia.
 » Estereogramas: representam volumes e são apresentados em três 
dimensões. São usados comumente em representações gráficas das 
tabelas de dupla entrada.
 » Pictogramas: a representação gráfica consta de figuras representativas 
do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção 
de qualquer público, pois possui forma sugestiva. Contudo, apresentam 
uma visão geral do fenômeno, sendo isso uma desvantagem, já que não 
mostram detalhes mais específicos. 
Os tipos de gráficos quanto aos objetivos são:
 » Gráficos de informação: objetivam uma visualização rápida e clara da 
intensidade das categorias ou dos valores relativos ao fenômeno. São 
gráficos expositivos, e que procuram dispensar comentários explicativos, 
isto é, sendo o mais completo possível.
 » Gráficos de análise: objetivam fornecer informações importantes na fase 
de análise dos dados. Esses gráficos comumente vêm acompanhado de 
uma tabela e um texto onde é destacado os pontos principais revelados 
pelo gráfico ou pela tabela.
Distribuição de frequências e gráficos
Uma forma eficiente de sumarização se faz necessário para muitos dados. Uma das 
formas comumente utilizada para resumir e apresentar dados é por meio de tabelas de 
distribuição de frequências, podendo ser de dois tipos: 
 » Classificação simples: representadas por tabelas de frequências 
relacionadas a uma variável. As características dessas tabelas variam de 
acordo com o tipo de variável em estudo, podendo do tipo categórica ou 
do tipo numérica contínua.
 » Classificação cruzada: existem algumas situações em que é realizado um 
estudo de duas ou mais variáveis ao mesmo tempo. Com isso, surgem 
as distribuições conjuntas de frequências, isto é, relacionadas a duas 
variáveis, numéricas ou categóricas.
21
ESTATÍSTICA BÁSICA │ UNIDADE I
As distribuições de frequências podem ser também representadas graficamente de duas 
formas diferentes: 
 » Histograma, consiste em um conjunto de retângulos contíguos cuja base 
é igual à amplitude do intervalo e a altura proporcional à frequência das 
respectivas classes).
 » Polígono de frequências, que é constituído por segmentos de retas que 
unem os pontos cujas coordenadas são o ponto médio e a frequência de 
cada classe. 
É importante mencionar também as medidas descritivas, que objetiva a redução de um 
conjunto de dados observados (numéricos) a um pequeno grupo de valores que deve 
fornecer toda a informação relevante relacionadas a esses dados. Estas medidas podem 
ser classificadas em quatro grupos distintos:
 » Medidas de localização: indicam um ponto central, está localizada 
a maioria das observações. As medidas mais utilizadas são a média 
aritmética, a mediana e a moda.
 » Medidas separatrizes: indicam limites para proporções de observações 
em um conjunto, podendo ser utilizadas para construir medidas de 
dispersão.
 » Medidas de variação ou de dispersão: informam sobre a variabilidade dos 
dados. As medidas mais utilizadas são: a amplitude total, a variância, o 
desvio padrão e o coeficiente de variação.
 » Medidas de formato: informam sobre o modo como os valores se 
distribuem. As medidas mais utilizadas e precisas são as medidas de 
assimetria, que indicam se a maior proporção de valores está no centro 
ou nas extremidades, e as medidas de curtose, que descrevem grau de 
achatamento da distribuição.
É importante para o estudo da Estatística como ciência, o conhecimento detalhado 
sobre seus fundamentos, dessa forma indicamos uma leitura complementar 
sobre a Estatística Descritiva com exemplicações a seguir: https://fenix.tecnico.
ulisboa.pt/downloadFile/3779573118035/Estatistica_Descritiva_2008_09.pdf 
(ESTATÍSTICA DESCRITIVA, 2018).
22
UNIDADE I │ ESTATÍSTICA BÁSICA
Probabilidade
A probabilidade tem por finalidade descrever os fenômenos aleatórios, isto é, aqueles 
em que está presente a incerteza. Há dois tipos de modelos matemáticos:
 » Modelos Determinísticos: é apresentado como um modelo que estipule 
que as condições sob as quais um experimento seja realizado, possam 
determinar o resultado do experimento. O modelo determinístico 
necessita do uso de parâmetros pré-definidos em equações que definem 
processos precisos.
 » Modelos Não Determinísticos ou Probabilísticos: trazem informações 
sobre a chance ou probabilidade de os acontecimentos ocorrerem. 
Os conceitos básicos em probabilidade são experimentos aleatórios, espaço amostral e 
eventos.
 » Experimento aleatório (W): qualquer processo aleatório, que produza 
observações, e os resultados surgem ao acaso, podendo haver repetições 
no futuro. 
 » Espaço amostral (S): é o conjunto de resultados possíveis, de um 
experimento aleatório. O número de elementos pode ser: finito (número 
limitado de elementos) e infinito (número ilimitado de elementos). 
 » Evento: um evento (E) é qualquer subconjunto de um espaço amostral(S).
No conceito empírico de probabilidade temos que o principal problema da probabilidade 
consiste na atribuição de um número a cada evento (E), o qual avaliará quão possível 
será a ocorrência de “E”, quando o experimento for realizado. Uma maneira de resolver 
a questão seria a determinação da frequência relativa do evento E (fr(E)):
( ) 
 r
númerodeocorrências doeventof E
númeroderepetições doexperimento
=
Sendo assim, a probabilidade pode ser definida como: 
( ) aP E
a b
=
+
No conceito clássica (“A priori”) de probabilidade temos que se existe “a” resultados 
possíveis favoráveis a ocorrência de um evento “E” e “b” resultados possíveis não 
favoráveis, sendo os mesmos mutuamente excludentes, então teremos:
23
ESTATÍSTICA BÁSICA │ UNIDADE I
No conceito axiomática de probabilidade, define-se como seja (W) um experimento, 
seja (S) um espaço amostral associado a (W). A cada evento (E) associa-se um número 
real representado por P(E) e denominaremos de probabilidade de E, satisfazendo 
algumas propriedades que são conhecidas como axiomas da teoria da probabilidade. 
Os axiomas, algumas vezes, se inspiram em resultados experimentais de forma que a 
probabilidade possa ser confirmada experimentalmente.
Caro estudante, o que reportamos acima foi apenas um pouco do amplo conteúdo 
sobre probabilidade que você poderá encontrar em outras fontes de consulta. 
Sugerimos como uma dessas fontes, o site a seguir:< http://www.portalaction.
com.br/probabilidades/introducao-probabilidade > (PROBABILIDADE, 2018). 
Esperamos que possa se aprofundar mais nesse assunto.
Inferência estatística
Por definição, é um processo de raciocínio indutivo, em que se procuram tirar conclusões 
indo do particular, para o geral. É um tipo de raciocínio contrário ao tipo de raciocínio 
matemático, essencialmente dedutivo. É empregado quando o objetivo é o estudo 
de uma população, avaliando apenas alguns elementos dessa população, isto é, uma 
amostra. Por exemplo, em uma pesquisa científica, geralmente, o processo ocorre da 
seguinte maneira: são feitos levantamentos amostrais e experimentos são realizados 
com amostras, porém o pesquisador não quer suas conclusões limitadas à amostra com 
a qual trabalhou, ao contrário, o objetivo é expandir os resultados que obteve para toda 
a população. Dessa forma, o pesquisador quer fazer inferência. A Figura 2 apresenta 
esquematicamente como é o processo de inferência.
Figura 2. Processo de Inferência Estatística.
 
 
População Amostra 
Amostragem 
Resultados 
Inferência 
Fonte: Adaptada de https://goo.gl/VPheQv.
Observando a figura 2 podemos chegar a seguinte explicação: para poder generalizar 
as conclusões obtidas da amostra para a população, é necessário que a amostra seja 
representativa da população e não somente que os dados sejam descritos bem. 
24
UNIDADE I │ ESTATÍSTICA BÁSICA
Isto significa que a amostra deve possuir as mesmas características básicas da população 
relacionadas às variáveis que se deseja pesquisar. A partir disso surgiu o conceito de 
erro provável. A possibilidade de erro é inerente ao processo de inferência, isto é, toda 
vez que se estuda uma população a partir de uma amostra, existe a possibilidade de 
se cometer algum tipo de erro de conclusão final. A maior aplicação da Inferência 
Estatística é fornecer métodos que admitam quantificar esse erro provável. Alguns 
conceitos fundamentais da Inferência Estatística foram estudados no capítulo 1, como, 
população, amostra e amostragem.
Existem dois tipos de Inferência: estimação de parâmetros e testes de hipóteses:
A estimação de parâmetros é realizada com o auxílio de um estimador, isto é, de uma 
fórmula que descreve o modo de calcularmos o valor de determinado parâmetro 
populacional. A estimação pode ser dividida em duas partes, estimação por pontos e 
estimação por intervalos. 
 » Na estimação por ponto o objetivo é usar a informação amostral e 
apriorística para se calcular um valor que seria, em certo sentido, nossa 
melhor avaliação quanto ao valor de fato do parâmetro em questão. Na 
estimativa por intervalo utiliza-se a mesma informação com a finalidade 
de se produzir um intervalo que contenha o valor verdadeiro do parâmetro 
com algum nível de probabilidade. Como um intervalo está plenamente 
caracterizado por seus limites, a estimação de um intervalo equivale à 
estimação de seus limites.
 » Enquanto o teste de hipótese é um procedimento estatístico em que 
se busca verificar uma hipótese a respeito da população, no sentido de 
aceitá-la ou rejeitá-la, partindo de dados amostrais, baseados na teoria 
das probabilidades. Existem as hipóteses subjacentes, são aquelas 
informações que não se almeja que sejam expostas a testes. E as hipóteses 
testáveis que consistem em suposições remanescentes que devem ser 
testadas. O teste de hipótese é composto de três passos fundamentais: 
definição das hipóteses, estabelecimento dos limites entre as regiões de 
aceitação e rejeição e a obtenção do valor amostral do teste estatístico.
Para garantir a independência entre os elementos da amostra, as escolhas devem ser 
feitas com reposição. Como os valores que compõem a amostra são aleatórios, qualquer 
função (total, média, variância, entre outros) dos elementos da amostra será também 
uma variável aleatória. Como as estatísticas são funções de variáveis aleatórias, 
também são variáveis aleatórias e, consequentemente, terão alguma distribuição de 
25
ESTATÍSTICA BÁSICA │ UNIDADE I
probabilidade com média, variância. A distribuição de probabilidade de uma estatística 
é chamada de distribuição amostral.
Dessa forma, a inferência estatística visa inferir para a população a partir da amostra. 
Assim, todas as informações que temos sobre a população são advindas da amostra, 
isto é, trabalhamos efetivamente com estatísticas, que são variáveis aleatórias. Deste 
modo, é extremamente necessário que conheçamos as distribuições amostrais dessas 
estatísticas. A média da amostra () é a estatística mais utilizada devido suas propriedades 
interessantes.
A Inferência Estatística é baseada em estatísticas amostrais. A chave para resolver 
as questões de Inferência Estatística consiste na caracterização probabilística 
da estatística amostral utilizada, identificando a distribuição de probabilidades 
da estatística amostral em causa e apurando os parâmetros importantes dessa 
distribuição.
O uso generalizado da distribuição normal na estatística deve-se ao Teorema Central do 
Limite. Esse teorema apresenta três propriedades básicas: 
 » A média da distribuição amostral é igual à média da população, e igual à 
média de uma amostra quando o tamanho da amostra tende ao infinito 
(segundo Lei dos Grandes Números). 
 » A forma da distribuição amostral tende a assumir a forma de sino à 
medida que se aumenta o tamanho da amostra, e aproximadamente 
normal, independente da forma da distribuição da população. 
 » A forma da distribuição amostral cresce em altura e decresce em dispersão 
à medida que o tamanho da amostra cresce.
Consideremos uma população com média µ e desvio padrão σ, e selecionamos várias 
amostras de tamanho n. Para cada uma dessas amostras pode-se calcular a respectiva 
média. Pelo Teorema Central do Limite, a distribuição das médias destas amostras 
tende para uma distribuição normal com média µ (igual à média da população) e com 
desvio padrão. O desvio padrão da distribuição das médias amostrais recebe o nome de 
erro padrão da média.
A Inferência Estatística é uma das áreas da Estatísticas mais utilizadas, contudo, é 
necessário que exista um aprofundamento sobre esse assunto. Assim, sugerimos 
que você, estudante, busque mais sobre esse tema e para ajudá-lo indicamos 
a consulta do seguinte arquivo disponível em:< https://goo.gl/4fm5VW> 
(INFERÊNCIA, 2018).
26
CAPÍTULO 3
Média, moda, mediana, desvio padrão, 
intervalo de confiança, testes t não 
pareado e pareado, teste Q
Suponhamos que um analista de controle de qualidade de uma indústriaalimentícia 
queira determinar a concentração de cálcio em um determinado lote de bebida láctea, 
e faça a coleta aleatória de 3 embalagens desse mesmo lote para análise. Os resultados 
das análises (feitas em 5 réplicas) são mostrados na Tabela 1.
Tabela 1. Resultados de concentração de Ca (em mg/g) para análise de 5 amostras de bebidas lácteas (n=3).
Amostra Réplica 1 Réplica 2 Réplica 3 Réplica 4 Réplica 5
A 1,56 1,62 1,58 1,62 1,54
B 1,52 1,53 1,54 1,55 1,58
C 1,56 1,56 1,58 1,53 1,57
Fonte: Adaptado de Miller e Miller (2010).
A partir dos resultados obtidos, podemos comparar eles utilizando parâmetros 
estatísticos que os relacionam a uma tendência central. A média aritmética ( é o valor 
numérico significativo que mostra que se concentram os dados combinados de uma 
dada distribuição, e pode ser obtida pela razão entre o somatório dos valores individuais 
() referentes ao conjunto de dados desejado () e o número de medidas (n), segundo 
(MILLER; MILLER, 2010):
 ixx
n
∑
=
Considerando os dados da tabela 1, podemos obter a média para cada uma das amostras. 
Para a amostra A, temos que = 1,56 + 1,62 + 1,58 + 1,62 + 1,54 = 7,92 e n = 5 (réplicas), 
obtendo-se assim um valor de = 7,92 / 5 = 1,58. De maneira análoga podemos obter 
os valores médios para as amostras B ( = 1,54) e C ( = 1,56). Note ainda que também 
podemos obter o valor médio para todo o conjunto de dados, sendo nesse caso = 23,44, 
n = 15 (5 réplicas de 3 amostras) e = 1,56. Note que quanto maior o número de réplicas, 
maior a proximidade do valor tido como verdadeiro (valor real da amostra) e maior a 
confiabilidade do resultado.
A moda é definida como o(s) valor(es) que ocorrem com maior frequência dentro de 
um conjunto de dados amostral. Como esse parâmetro não é obtido por meio de uma 
fórmula específica como a média, para calculá-lo basta observar o conjunto de dados e 
27
ESTATÍSTICA BÁSICA │ UNIDADE I
verificar o valor que mais aparece. Considerando as amostras A e C individualmente, 
os valores de moda são 1,62 (amostra A) e 1,56 (amostra C), visto que cada um deles 
aparece um maior número de vezes (duas em cada conjunto). Para a amostra B, não 
há valores repetidos e, portanto, não há moda. Considerando agora o conjunto que 
engloba todas as amostras (n=15), temos dois valores de moda, 1,56 e 1,58, sendo assim, 
podemos dizer que este conjunto é bimodal.
A mediana é caracterizada como resultado da divisão do conjunto de dados em dois 
subconjuntos de mesmo tamanho (metade menor e maior), ou seja, divide o conjunto 
ao meio. Em termos práticos, a mediana é obtida rearranjando-se os dados de forma 
crescente. Considerando a amostra A, temos o conjunto rearranjado como: {1,54, 1,56, 
1,58, 1,62, 1,62}. Como nesse caso o número de dados é ímpar, o resultado da divisão 
desse conjunto ao meio é 1,58 (valor 1, valor 2, mediana, valor 4, valor 5). Suponhamos 
agora que o conjunto de dados seja par e dado pelo descarte do último valor, ou seja, 
{1,54, 1,56, 1,58, 1,62}. Nesse caso os valores que dividem o conjunto ao meio são 1,56 
e 1,58, sendo a mediana obtida pela média dos valores ((1,56 + 1,58)/2), ou seja, 1,57. 
Se considerarmos o conjunto completo de dados (com n=15) teremos: {1,52, 1,53, 1,53, 
1,54, 1,54, 1,55, 1,56, 1,56, 1,56, 1,57, 1,58, 1,58, 1,58, 1,62, 1,62}, sendo a mediana o 8º 
valor, ou seja, 1,56. 
Na determinação do grau de dispersão entre os dados de um conjunto, utilizamos o 
cálculo do desvio padrão (s) em torno de uma média. O desvio padrão é um parâmetro 
que sugere o quanto um conjunto de dados é uniforme, e quanto mais próximo de 0, 
mais homogêneos são os dados. De maneira genérica, o desvio padrão é dado pela raiz 
quadrada da relação entre somatório das diferenças entre os valores individuais ( )ix 
e médio ( )x ( ao quadrado ( )( )2ii x x−∑ e o número de dados menos um (n-1), de acordo 
com a relação (MILLER; MILLER, 2010):
( )2
2 
1
ii
x x
s
n
−
=
−
∑
Observando os dados contidos na Tabela 1, o desvio padrão obtido para a amostra A, 
como mostrado na Tabela 2 é:
28
UNIDADE I │ ESTATÍSTICA BÁSICA
Tabela 2. Dados (n=5) para o cálculo do desvio padrão (s) para a amostra A.
Réplicas da 
amostra A (x
i
)
Média
( )x )−i(x x
2−i(x x) ( )
2−∑ ii x x Desvio padrão (s)
1,56
1,58
-0,02 0,0004
0,0052
( )2
2
1
ii
x x
s
n
−
=
−
∑
0,0052 
5 1
s =
−
0,036s =
1,62 0,04 0,0016
1,58 0 0
1,62 0,04 0,0016
1,54 -0,04 0,0016
 
Fonte: adaptado de Miller e Miller (2010).
Semelhantemente podemos obter os valores de desvio padrão para as amostras B (s = 
0,023), C (s = 0,019), assim como todos os dados da Tabela 1 (s = 0,030). Comparando-
se os desvios padrão para as 3 amostras, podemos inferir que os resultados para a 
amostra C apresentam os menores valores e, portanto, são mais homogêneos. 
Quando analisamos uma série de resultados experimentais, podemos descrever se o 
comportamento de fenômenos segue um determinado padrão. Para isso, utilizamos 
distribuições de probabilidades, sendo a distribuição normal uma das mais utilizadas. 
A distribuição normal (ou gaussiana) considera a frequência de ocorrência de um 
determinado dado numérico e pode ser facilmente verificada por gráfico do tipo 
histograma. Como exemplo, consideremos que a determinação de Ca na bebida láctea 
tenha sido realizada em 100 réplicas (n=100) e que obtemos as seguintes frequências 
de resultados: 1,52 (4x), 1,53 (5x), 1,54 (15x), 1,56 (62x), 1,58 (10x), 1,62(3x) e 1,63 
(1x). Colocando esses resultados na forma de histograma, temos o gráfico de barras 
representado na Figura 3. Podemos assumir que a média populacional ( )x ( nos dá 
uma estimativa do valor tido como verdadeiro para a análise (μ), ou seja, μ = x . De 
maneira análoga, o desvio padrão dessa população (σ) é dado por ( )22 /ix nσ µ= ∑ − , sendo 
importante considerar que nesse caso utilizamos n e não n-1 como descrito para o cálculo 
do desvio padrão de uma amostra (s). Note que o rearranjo dos dados na forma de um 
gráfico de dispersão gera uma curva com formato de sino (curva gaussiana) sendo o 
ápice do pico o valor médio de μ = 1,56 e o desvio padrão calculado de σ = 0,02.
29
ESTATÍSTICA BÁSICA │ UNIDADE I
Figura 3. Histograma e gráfico de distribuição normal.
 
 
0 
10 
20 
40 
30 
50 
60 
70 
1,52 1,53 1,54 1,56 1,58 1,62 1,63 
Fr
eq
uê
nc
ia
 
Concentração de Ca (mg/g) 
0 
10 
20 
40 
30 
50 
60 
70 
1,5 1,52 1,54 1,56 1,58 1,6 1,64 1,62 
Concentração de Ca (mg/g) 
Fr
eq
uê
nc
ia
 
Fonte: Adaptado de Miller; Miller (2010). 
Na distribuição normal, aproximadamente 68% dos valores populacionais estão 
situados entre a média (μ) ± 1 desvio padrão (σ), 95% dos valores entre a média (μ) 
± 2 desvios padrão (σ) e 99,7% dos valores entre a média (μ) ± 3 desvios padrão (σ), 
como ilustrado na Figura 4. No nosso exemplo prático, isso significa dizer que 68% dos 
valores estão entre 1,54 -1,58 (1,56 ± 0,02), 95% dos valores entre estão entre 1,52 -1,60 
(1,56 ± 0,04) e 99,7% dos valores entre 1,50 -1,62 (1,56 ± 0,06).
Figura 4. Propriedades da distribuição normal.
 
 
µ - 1σ µ + 1σ µ - 2σ µ + 2σ µ - 3σ µ + 3σ 
68% 95% 99,7
% 
Fonte: Adaptado de Miller; Miller (2010).
Uma vez definida a tendência central (média) e observando a dispersão dos pontos em 
torno dela, isto é, o desvio padrão, determina-se que uma faixa de confiabilidade em 
torno da média na qual há maior probabilidade de o valor verdadeiro estar incluso. 
Quando assumimos uma distribuição normal, essa faixa é denominada intervalo de 
confiança (IC) e os extremos dessa são denominados limites de confiança. A amplitude 
do intervalo de confiança irá depender do quão certos queremos estar sobre a inclusão 
do valor verdadeiro, além do tamanho da amostra utilizado no processo. O nível de 
confiança geralmente situa-se entre 90% e 99%, sendo que valores abaixo desse nível 
apresentam baixa confiabilidade e valores acima, embora sejam associados a elevada 
confiança, geram intervalos muito largos ou requerem grandes amostraspopulacionais, 
o que pode inviabilizar o processo e elevar o custo. O nível de confiança mais utilizado 
30
UNIDADE I │ ESTATÍSTICA BÁSICA
em cálculos é o de 95%. Em termos práticos, isso significa que se você coletar 100 
amostras populacionais e calcular 95% de intervalos de confiança, você esperaria que 
95 destes contivessem o parâmetro em estudo (geralmente a média) e em 5 deles não, 
o que gera um erro de inferência de 5%. 
Quando trabalhamos com uma larga quantidade de amostras, os limites do intervalo de 
confiança podem ser calculados segundo (MILLER; MILLER, 2010):
 zsx
n
±
onde ( é o valor médio, z o coeficiente de confiança, s o desvio padrão da média e n o 
tamanho da amostra. O valor de z depende do nível de confiança escolhido, sendo z95% = 
1,96 e z99% = 2,58. Quando uma pequena quantidade de amostras é submetida à análise, 
os limites de confiança são modificados e baseados na estatística t, segundo:
( )1 n
t s
x
n
−±
onde nesse caso o valor de t depende não apenas do nível de confiança como também 
do tamanho da amostra, sendo o grau de liberdade dado por n-1. Na Tabela 3 são 
apresentados alguns valores de t para distintos graus de liberdade e níveis de confiança. 
Na literatura ainda podem ser encontrados outros valores tabelados (MILLER; MILLER, 
2010). Note que quanto maior a população amostral, mais os valores de t se aproximam 
dos valores de z (1,96 para 95% e 2,58 para 99% de confiança)
Tabela 3. Valores de t para diferentes níveis de confiança e graus de liberdade.
Graus de 
liberdade (n-1)
Valores de t para níveis de confiança de
90% 95% 99%
1 6,31 12,7 63,66
2 2,92 4,30 9,93
3 2,35 3,18 5,84
4 2,13 2,78 4,60
5 2,02 2,57 4,03
10 1,81 2,23 3,17
50 1,68 2,09 2,68
100 1,66 1,98 2,63
 
Fonte: Adaptado de Miller; Miller (2010).
Retomemos agora o exemplo do Ca em bebidas lácteas e utilizemos os dados da Tabela 
1 para o cálculo dos limites e intervalos de confiança para as amostras A, B e C a níveis 
de 95 e 99%. A Tabela 4, resume um exemplo de cálculo para esses parâmetros. Note 
que a população amostral é pequena, sendo então adotada a abordagem com valores de 
31
ESTATÍSTICA BÁSICA │ UNIDADE I
t, e que também temos 5 réplicas, logo, o número de graus de liberdade (n-1) é igual a 
4 e o valor de t95% = 2,78 e t99% = 4,60. É importante verificar que em cada caso, quanto 
menor o desvio padrão, menor o intervalo de confiança e que quanto maior o nível de 
confiança, mais amplo o intervalo. 
Tabela 4. Exemplo de cálculo de intervalo de confiança utilizando os dados da tabela 1.
Amostra
Média
( )x
Desvio padrão 
(s)
Limite inferior
( )1−− n
t s
x 
n
Limite superior
( )1−+ n
t s
x 
n
Intervalo de 
confiança (IC)
95 % de confiança
A 1,58 0,036 1,54 1,62 1,54 < µ <1,62
B 1,54 0,023 1,51 1,57 1,51 < µ <1,57
C 1,56 0,019 1,54 1,58 1,54 < µ <1,58
99 % de confiança
A 1,58 0,036 1,65 1,51 1,51 < µ <1,65
B 1,54 0,023 1,59 1,49 1,49 < µ <1,59
C 1,56 0,019 1,52 1,60 1,52 < µ <1,60
 
Fonte: Adaptado de Miller e Miller (2010).
Considerando ainda o problema do analista de controle de qualidade da indústria 
alimentícia, muitas vezes precisamos comparar o resultado determinado via análise 
química com um valor de referência, tido como valor verdadeiro, a fim de verificar se 
os resultados são significativamente semelhantes ou diferentes estatisticamente. Esse 
procedimento pode auxiliar o analista em tomadas de decisão, como por exemplo 
rejeitar ou não um determinado lote de produto que não apresenta conformidade. 
Para a comparação de médias, lançamos mão de testes de significância, sendo um 
dos mais empregados o teste t de Student. Esse teste quando aplicado tem por 
finalidade a comparação de médias com um valor verdadeiro (teste t não pareado) 
ou de comparação de duas médias não independentes (teste t pareado). No teste t, 
assumimos uma distribuição normal, com variância desconhecida e formulamos as 
chamadas hipóteses, que são definidas como sendo suposições quanto ao valor de um 
parâmetro populacional ou afirmação a respeito de sua natureza. As hipóteses são 
caracterizadas como nula (H0) que é a hipótese a ser testada e alternativa (H1) que é a 
hipótese contrária a H0. Considerando nosso exemplo para o cálcio, suponhamos que 
o valor verdadeiro seja μ = 1,56 mg/g Ca e que um conjunto de 5 análises (n=5) nos 
forneceu uma média = 1,55 e um desvio padrão = 0,02. Podemos então formular como 
hipótese nula que a média de resultados de análise ( é estatisticamente semelhante ao 
valor verdadeiro, ou seja H0 = 1,56, e como hipóteses alternativas que o ele seja menor 
(H1 < 1,56), maior (H1 > 1,56) ou diferente (H1 ≠ 1,56). Quando consideramos os valores 
32
UNIDADE I │ ESTATÍSTICA BÁSICA
menores ou maiores individualmente, as hipóteses são denominadas unilaterais e para 
valores diferentes, consideramos ambos os lados (maior e menor que 1,56), sendo esse 
chamado de bilateral. Normalmente, a hipótese nula é rejeitada P = 0,05, isto é, se a 
probabilidade P de ocorrer diferenças significativas for de até 5%, desta forma, obtendo-
se um nível de confiança de 95%. Aplicando-se o teste t não pareado, calculamos 
então o valor de t (em módulo), segundo:
 calculado
xt s
n
µ−
=
Substituindo-se os valores informados, temos um valor de tcalculado igual a 1,118. O valor 
de t calculado pode ser comparado com o valor de tcrítico que é disposto em tabelas 
como exemplificado na Tabela 3. Nesse caso, o valor de tcrítico é de 2,78 para 4 graus 
de liberdade (n-1) e com nível de confiança = 95%. Se tcalculado < tcrítico então a hipótese 
nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística em 
comparação ao valor verdadeiro, e se tcalculado > tcrítico, H0 é rejeitada e os resultados são 
diferentes estatisticamente a um nível de 95% de confiança.
Consideremos agora que a amostra do exemplo anterior que foi analisada no laboratório 
da própria planta da indústria, que a média foi de 1x = 1,55 e o desvio padrão s1 = 0,02 
(n=5), tenha sido enviada para um segundo laboratório credenciado, e que este obteve 
como resultados para um conjunto de 7 análises (n=7) uma média 2x = 1,53 e um desvio 
padrão s2=0,03. Nesse caso, podemos comparar as médias e desvios de cada laboratório 
e dizer se são semelhantes ou não estatisticamente utilizando o teste t pareado. Dessa 
forma, consideramos que a hipótese nula (H0) é de que os resultados interlaboratoriais 
são semelhantes 2 2( )x x= e como hipótese alternativa (H1) que são diferentes 2 2( )x x≠
. Devemos nos atentar também ao fato de que os tamanhos de amostra são diferentes 
(n1 = 5 e n2 = 7) e que os desvios são diferentes (s1 ≠ s2). Se os desvios não forem muito 
diferentes, podemos combiná-los de acordo com:
( ) ( )2 21 1 2 2
1 2
1 1 
 
2
n s n s
S
n n
− + −
=
+ −
No nosso exemplo, o valor calculado de desvio agrupado é S = {[(5-1) x (0,02)2 + (7-1) x 
(0,03)2]/(5+7-2)}, ou S = 0,07. Na determinação do valor de tcalculado, podemos aplicar a 
relação seguinte (em módulo):
1 2
 
2
1 2
 
1 1
calculado
x xt
S
n n
−
=
 
+ 
 
33
ESTATÍSTICA BÁSICA │ UNIDADE I
Substituindo-se os valores informados, temos um valor de tcalculado igual a 0,488. O 
valor de t calculado pode ser comparado com o valor de tcrítico, sendo o número de graus 
liberdade igual a n1 + n2 – 2. No nosso exemplo, para 10 graus de liberdade temos o valor 
de tcrítico = de 2,23 a um nível de 95% de confiança. Como tcalculado < tcrítico então a hipótese 
nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística entre as 
duas médias de resultados.
Todos nós estamos familiarizados com o termo “um ponto fora da curva” quando 
descrevemos um comportamento considerado anormal frente a uma tendência. Nas 
ciências experimentais, podemos nos deparar muitas vezes com um dado discrepante 
e que pode gerar resultados subestimados ou superestimados com erros maiores. Para 
descobrir se um outlier (resultado inesperado) deve ser mantido no conjuntode dados 
ou descartado, podemos aplicar o teste Q. Esse teste é bastante popular devido a sua 
simplicidade e deve ser aplicado a dados provenientes de uma mesma população, 
assumindo também uma distribuição normal dos erros. O valor de Qcalculado pode ser 
obtido (em módulo) segundo:
 
 
 calculado
valor suspeito valor mais próximoQ
valor maior valor menor
−
=
−
O valor de Qcalculado é então comparado com o de Qcrítico, conforme apresentado na Tabela 
5 para diferente tamanho de amostra e níveis de confiança.
Tabela 5. Valores de Q para diferentes níveis de confiança e tamanho da amostra.
Tamanho da 
amostra (n)
Valores de Q para níveis de confiança de
90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
10 0,412 0,466 0,568
20 0,300 0,342 0,425
30 0,260 0,298 0,372
 
Fonte: Adaptado de Miller e Miller (2010).
Consideremos como exemplo o seguinte conjunto de resultados {0,402, 0,410, 0,400, 
0,360, 0,401, 0,412, 0,407}, temos uma média de 0,399 e um desvio padrão de 0,018. 
Nesse caso, o valor 0,360 é o suspeito de ser discrepante, 0,400 é o mais próximo do 
mesmo e os valores máximo e mínimo são de 0,412 e 0,360, respectivamente. Aplicando 
o teste Q, temos o valor calculado dado por Qcalculado = (0,360 – 0,400) / (0,412-0,360) 
= 0,769. Com um tamanho de amostra de 7 e para um nível de confiança = 95%, o valor 
34
UNIDADE I │ ESTATÍSTICA BÁSICA
de Qcrítico é igual a 0,568. Assim como ocorre para o teste t, como o valor crítico é maior 
que o valor calculado, o resultado suspeito deve ser rejeitado. Note que ao rejeitarmos 
o resultado, nossa nova média é de 0,405 e o desvio de 0,005, os quais traduzem de 
maneira mais fiel o comportamento do conjunto de dados.
Caro estudante, você estudou nesta unidade sobre alguns conceitos de 
estatística básica, pois o planejamento experimental depende fortemente 
do entendimento destes princípios. Com isso, sugerimos que consulte o link 
a seguir para um aprofundamento detalhado deste assunto: https://www.
measureevaluation.org/resources/training/capacity-building-resources/data-
quality-portuguese/moduloII_capa.pdf (NOÇÕES DE ESTATÍSTICA, 2018).
35
UNIDADE II
TRABALHANDO 
COM DADOS 
MULTIVARIADOS
CAPÍTULO 1
Análise exploratória de dados
A estatística descritiva pode ser dividida entre métodos univariados e multivariados. A 
análise univariada descreve as características e comportamentos de dados e resultados 
quando se analisa uma única variável separadamente. Porém, muitos são os casos em 
que temos múltiplas variáveis dependentes e independentes, o que consequentemente 
faz com que outros métodos multivariados para explorar a influência e a inter-
relação entre cada uma delas sejam utilizados. Devido à complexidade da análise 
de dados multivariados, vários softwares como Mathlab, Unscrumbler, Pirouette, 
SIMCA, Statistica (pagos), Octave e Scilab (livres) podem ser utilizados para análises 
exploratórias, construção de modelos e planejamento experimental. Em virtude disso, 
os métodos a seguir descritos serão abordados apenas em termos de seus fundamentos 
básicos e alguns exemplos práticos.
A análise exploratória de dados é uma abordagem estatística empregada no 
reconhecimento de regularidades e padrões de um conjunto de dados multivariado 
para retirar as informações mais importantes, encontrando tendências, agrupando 
conjuntos de acordo com similaridades e detectando comportamentos anômalos. Com 
o advento da microeletrônica e o desenvolvimento de computadores com capacidade 
de extrair e armazenar uma grande quantidade de dados em um intervalo de tempo 
breve, faz-se necessário o emprego de ferramentas matemáticas e estatísticas para o 
processamento desses dados e obtenção de informações valiosas sobre o problema em 
estudo, auxiliando assim em uma futura tomada de decisões (FERREIRA et al., 1999).
Método da análise de componentes principais 
(PCA)
A análise de componentes principais (PCA, do inglês Principal Component Analysis) 
é um método que utiliza a projeção de dados multivariados e visa a transformação 
36
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
deles de modo a reduzir sua dimensão e deixar mais evidentes as informações mais 
relevantes. Essa metodologia é bastante útil na identificação de diferenças entre as 
variáveis e visualização de comportamentos atípicos em determinadas amostras, o que 
é especialmente útil em processos de controle de qualidade industriais.
Um exemplo prático que melhor ilustra um método de projeção é a fotografia. 
Considerando uma paisagem, temos um espaço tridimensional (3 variáveis – altura, 
largura e profundidade) que é projetado num espaço bidimensional (papel) contendo 
menos variáveis que o conjunto de informações original. Nesse caso, dizemos que ocorre 
uma compressão controlada dos dados (perda de informações) mas que nos fornece 
uma melhor compreensão dos mesmos (FERREIRA, 2015). 
Suponhamos que o nosso analista da indústria de laticínios tenha determinado a 
concentração de cálcio em uma bebida utilizando um método instrumental de análise 
chamado espectrometria de emissão atômica, e que tenha avaliado os comprimentos de 
onda (λ) de 393,3 nm e 422,6 nm. para amostras com concentração crescente de Ca. A 
Tabela 6 ilustra os resultados obtidos, e é possível verificar que nesse caso temos duas 
variáveis (λ1 e λ2) e que essas são intrinsicamente dependentes apenas a concentração.
Tabela 6. Resultados para determinação espectrométrica de Ca.
Concentração de Ca 
(mg/L)
Intensidade de sinal para λ1 
(393 nm)
Intensidade de sinal para λ2 
(422 nm)
1 1005 2090
2 2030 3900
5 5003 9020
10 11070 20970
20 20100 39200
25 24200 50900
 
Fonte: Adaptado de Miller e Miller (2010).
Um gráfico de relação entre as variáveis intensidade para λ1 vs. intensidade para λ2 
poderia ser representado por uma série de pontos bidimensional (Figura 5). Note que o 
gráfico obtido utilizando os dados da Tabela 6, apresenta comportamento linear e uma 
boa correlação entre os pontos (R2 = 0,9986), indicando assim uma correlação entre 
as variáveis estudadas (λ1 e λ2). Tendo então, variáveis que se correlacionam, pode-
se combiná-las e agrupá-las para comprimir os dados e reduzir a o número menor 
de novas variáveis que ainda podem trazer informações significativas. Essas novas 
variáveis combinadas são chamadas de componentes principais.
37
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 5. Gráfico de intensidades de sinal para Ca em 393 e 422 nm a partir de dados da Tabela 5.
 
 
R² = 0,9986
0
10000
20000
30000
40000
50000
60000
0 5000 10000 15000 20000 25000 30000
In
te
ns
id
ad
e 
(4
22
 n
m
)
Intensidade (393 nm)
Fonte: Adaptado de Miller e Miller (2010).
As componentes principais apresentam como característica intrínseca o fato de serem 
ortogonais e não se correlacionarem entre si, visto que a informação presente em cada 
uma delas é única. Além disso, cada uma das componentes principais descreve uma 
quantidade de informação dos dados originais. A primeira (PC1) descreve a direção de 
máxima variância dos dados originais e a segunda (PC2), descreve a máxima variância 
dos dados na direção ortogonal a PC1. As componentes posteriores são ortogonais 
às anteriores, descrevendo assim a variância restante. O número de componentes 
principais que é adequado para descrever um determinado sistema é chamado de posto 
químico do conjunto de dados. Após definir o número de PCs e de determinar o posto 
químico, os dados podem ser projetados num novo sistema (FERREIRA, 2015).
Para facilitar a visualização, procederemos um tratamento matemático chamado 
“centrar na média” (CM), significa dizer que a média de um conjunto de dados de uma 
variável é calculada e então subtraída de cada um dos elementos. Outro tratamento 
bastante empregado é o “autoescalamento” (AE), após centrado na média, o valor 
resultante é dividido pelo desvio padrão referente àquela coluna de dados, o queauxilia 
a tornar mais evidente a correlação entre as variáveis (FERREIRA et al., 1999). 
Quando trabalhamos com métodos multivariados, é interessante organizar os dados 
em uma forma mais fácil de realizar os cálculos. Quando coletados, os dados podem 
ser organizados em um arranjo de “I” linhas e “J” colunas, chamado de matriz X, em 
que cada linha corresponde a uma amostra e cada coluna uma variável estudada. Dessa 
forma, podemos dizer por exemplo que 1Ix é o valor para a I-ésima linha e primeira 
coluna, 4 jx o valor para a J-ésima coluna da quarta linha e o valor para a I-ésima linha 
e J-ésima coluna.
38
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
[ ]
11 12 11
21 22 22
31 32 33
1 2 3 4
41 42 44
1 2
 
T
J
T
J
T
J
JT
J
T
I I IJI
x x x
x x x
x x x
x x x
x x x
 ×  
   ×   
   ×
= = = × × × × … ×   
×   
   … … … …
   
×      






X
Cada amostra i (x1J, x2J ... xIJ) pode ser associada a um vetor-linha (), composto pelos J 
valores de medidas realizados para os parâmetros estudados para aquela amostra. Esse 
vetor pode ser associado a um ponto no espaço com dimensão igual a J. De maneira 
análoga, para cada variável j (xI1, xI2 ... xIJ) pode-se associar um vetor (xj) a um ponto no 
espaço com dimensão I (FERREIRA et al., 1999). Note que a representação de matriz é 
usualmente feita na forma de coluna e que a matriz-linha gerada é a transposta (T) da 
matriz para determinada coluna.
[ ]
1
2
3
1 2 3
4
 
j
j
jT
i i i i iJ j
j
Ij
x
x
x
x x x x
x
x
 
 
 
 
× = × = 
 
 
 
  


Consideremos agora que nosso analista da indústria de laticínios tenha determinado 
a concentração de cálcio e de magnésio em matéria prima de leite por medidas de 
titulação em 6 amostras. Os resultados são descritos na Tabela 7.
Tabela 7. Resultados para determinação de Ca e Mg em leite e tratamentos matemáticos de centragem na 
média (CM) e autoescalamento (AE).
Amostra
[Ca] 
(mg/L)
[Mg] (mg/L)
[Ca] 
CM
[Mg] CM [Ca] AE [Mg]
AE
A 1,52 0,76 -2,375 -1,193 -1,35 -1,36
B 2,56 1,29 -1,335 -0,663 -0,76 -0,75
C 3,48 1,75 -0,415 -0,203 -0,24 -0,23
D 4,21 2,11 0,315 0,157 0,18 0,18
E 5,28 2,66 1,385 0,707 0,79 0,80
F 6,32 3,15 2,425 1,197 1,38 1,36
Média 3,90 1,95 - - - -
Desv. Pad. - - 1,76 0,88 - -
 
Fonte: Adaptado de Miller e Miller (2010).
39
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
No nosso exemplo, a matriz X é composta por 6 amostras (linhas) e 2 variáveis 
(colunas), ou seja, 6x2. Dessa forma, podemos reescrever os dados da Tabela 6 em 
termos de matrizes dos dados originais (X), centrados na média (Xcm) e autoescalados 
(Xae), como descrito abaixo:
1,52 0,76 2,375 1,193 1,35 1,36
2,56 1,29 1,335 0,663 0,76 0,75
3,48 1,75 0,415 0,203 0,24 0,23
4,21 2,11 0,315 0,157 0,18 0,18
5,28 2,66 1,385 0,707
6,32 3,15 2,425 1,197
− − − −   
   − − − −   
   − − − −
= = =   
   
   
   
   
cm aeX X X
0,79 0,80
1,38 1,36
 
 
 
 
 
 
 
 
 
A Figura 6 mostra o gráfico de correlação entre os dados originais, centrados na média 
e autoescalados.
Figura 6. Gráficos de correlação para os dados da Tabela 7.
 
 
2
3
4
5
6
7
1 1,5 2 2,5 3 3,5
C
on
ce
nt
ra
çã
o 
de
 C
a
Concentração de Mg
Dados originais
-3
-2
-1
0
1
2
3
-1,5 -1 -0,5 0 0,5 1 1,5
C
on
ce
nt
ra
çã
o 
de
 C
a
Concentração de Mg
Centrado na média Autoescalado
 
 
2
3
4
5
6
7
1 1,5 2 2,5 3 3,5
C
on
ce
nt
ra
çã
o 
de
 C
a
Concentração de Mg
Dados originais
-3
-2
-1
0
1
2
3
-1,5 -1 -0,5 0 0,5 1 1,5
C
on
ce
nt
ra
çã
o 
de
 C
a
Concentração de Mg
Centrado na média Autoescalado
Fonte: Adaptado de Miller e Miller (2010).
40
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
A análise de componentes principais utilizando o software, nos fornece duas novas 
variáveis, a PC1 e PC2. A primeira tem como característica apresentar o maior 
espalhamento dos pontos ao longo do eixo e a segunda descreve a informação restante 
dos dados em termos de variância. A representação gráfica das componentes principais 
se encontra na Figura 7. Para melhorar a visualização das componentes, podemos 
rotacionar os dados de modo que a PC1 se torne o eixo x e a PC2 o eixo y. 
Figura 7. Gráficos de PCA para as 6 amostras de leite analisadas.
 
 
C
on
ce
nt
ra
çã
o 
de
 M
g 
 
 
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
0,2
-3 -2 -1 0 1 2 3
PC
2
PC1
Fonte: Ferreira, (2015).
É importante notar que nesse caso, o gráfico de PCA com as variáveis combinadas 
linearmente e as coordenadas de seus pontos são distintas das dos gráficos de correlação 
entre as variáveis originais mostradas. No gráfico PC1 x PC2, as novas coordenadas são 
chamadas de “scores” e os coeficientes de combinação linear (ou seja, o quanto cada 
variável antiga contribui no gráfico), chamados de “loadings”. Na prática, os scores nos 
fornecem a composição das componentes principais em relação às amostras e os loadings 
a composição das componentes principais em relação às variáveis. Esse conjunto de 
parâmetros nos possibilita estimar a influência de cada variável em cada amostra 
41
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
individual. O cálculo de scores e loadings pode ser realizado por diferentes métodos, 
sendo um dos mais usados o de decomposição por valores singulares (SVD). Como 
exemplo prático podemos destacar um trabalho de tese de doutorado sobre adulteração 
de leite (SANTOS, 2013). A autora avaliou a adulteração de leite com água, soro, leite 
sintético, urina sintética e peróxido de hidrogênio, além de misturas de adulterantes 
em vários níveis (presença de 5 a 50% de adulterante), constituindo ao todo mais de 
1.000 amostras de leite. Foram avaliados como respostas 10 variáveis diferentes, todas 
relacionadas à análise de imagens digitais, e foi aplicada então uma PCA para avaliar 
sobreposições e/ou tendências de separação entre as amostras. A Figura 8 mostra um 
gráfico de scores para amostras de leite sem adulteração e adulterados em vários níveis. 
Verifica-se que há um agrupamento das amostras de acordo com o teor de adulteração: 
grupo 1 com 50% de adulteração (símbolos brancos), grupo 2 com 35% de adulteração 
(símbolos cinza escuro), grupo 3 com 5-25% de adulteração (símbolos cinza-claros) e 
amostras não adulteradas (preto). Verifica-se que não foi possível a distinção entre o 
tipo de adulterante empregado e que as classes de amostras com 5, 15 e 25% de alteração 
se sobrepuseram, indicando similaridade.
Figura 8. Gráfico de scores para amostras de leite com e sem adulteração.
Fonte: SANTOS, (2013).
É importante verificar que a PC1 explica 77% das variâncias do conjunto de dados e a 
PC2 17%, sendo que juntas essas informações constituem cerca de 94% do conjunto 
de dados original. No gráfico de loadings (Figura 9), é possível observar quais 
variáveis são mais significativas para separação e/ou agrupamento das amostras. 
42
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Nota-se que as variáveis V, B, L, R, G, r e g (loadings positivos para PC1) apresentaram 
valores maiores para essas variáveis em leites não adulterados ou com 5-25% de 
adulteração do que em leites adulterados com 35 e 50%.
Figura 9. Gráfico de loadings para amostras de leite com e sem adulteração.
Fonte: SANTOS, (2013).
Caro estudante, mantenha-se atento a leitura desse capítulo, são assuntos 
de extrema relevância para entendimentos futuros, sugerimos como leitura 
que consulte o seguinte link que fala um pouco mais sobre PCA: https://goo.
gl/2PZwdt (PCA, 2018).
Análise hierárquica de agrupamentos (HCA)
A análise hierárquica de agrupamentos (HCA, do inglês Hierarchical Cluster Analysis) 
é um método hierárquico, ou seja, constituído por um arranjo de itens (objetos, valores, 
categorias etc.) que são representados como estando “acima”, “abaixo” ou “no mesmo 
nível” um do outro. A HCA é considerada um método aglomerativopois considera cada 
objeto como um grupo unitário que vai se unindo por similaridade a outros até chegar 
a um grupo mais amplo. A matriz inicial de dados é processada e dimensionalmente 
reduzida pelo agrupamento por pares semelhantes sucessivos, até que a reunião de 
todos os grupos chegue a um único grupo.
A HCA é feita com a finalidade de traduzir os dados em um espaço bidimensional 
de maneira a destacar amostras com alguma similaridade (de uma mesma classe) e 
maximizar as diferenças entre amostras de grupos diferentes. 
https://goo.gl/2PZwdt
https://goo.gl/2PZwdt
43
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Os resultados são apresentados em uma árvore hierárquica denominada dendograma, 
um gráfico bidimensional que agrupo amostras ou variáveis de acordo com seu grau 
de similaridade. (CORREIA; FERREIRA, 2007). Para decidir quais objetos devem ser 
combinados ou onde um agrupamento deve ser dividido é necessária uma medida de 
similaridade entre os conjuntos. Isso é alcançado pelo uso de uma métrica (medida de 
distância entre pares de observações) apropriada e um critério de ligação que especifica 
a diferença dos conjuntos em função das distâncias. Como exemplo, podemos observar 
na Figura 10 um conjunto de dados e o agrupamento na forma de dendograma de 
acordo com as distâncias entre as amostras, onde é possível verificar que inicialmente 
temos 6 amostras (A, B, C, D, E e F) formando 6 grupos unitários.
Figura 10. Dados organizados por distância e agrupamento na forma de dendograma.
Fonte: Adaptado de Correia; Ferreira, (2007).
Como os pares A-C e B-E apresentam menores distâncias entre si, são agrupados 
para formarem os grupos AC e BE. Já as amostras F e D ainda se mantém distantes 
do restante, dessa forma o número de grupos é igual a 4 (AC, BE, D e F). O grupo BE 
encontra-se agora mais próximo de F e pode ser agrupado no grupo BEF, reduzindo o 
número de grupos para 3 (AC, BEF e D). Posteriormente, o grupo BEF se localiza mais 
próximo de AC do que de D, portanto o novo grupo formado é o ABCEF, e completando 
o grupo dados, temos o grupo unitário D. Por fim, todos os grupos se unem totalizando 
o conjunto de dados ABCDEF.
Considerando o conjunto de dados do exemplo, podemos inferir sobre algumas 
condições básicas para o cálculo da distância entre dois pontos (espaço métrico). 
Supondo os conjuntos A e C, podemos dizer que a distância entre A e C (dAC) é igual à 
distância entre C e A (dCA), ou seja dAC = dCA, e que elas devem ser maiores ou iguais a 
zero, não podendo ser negativas. Se a dAC = 0, significa que A=C. Considerando agora 
44
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
as distâncias entre A, B e C, devemos utilizar um conceito em métrica chamado de 
“desigualdade triangular”, que diz que o comprimento de um dos lados do triângulo 
(por exemplo dAB), deve ser menor ou igual à soma dos outros dois lados (dAC e dBC), o 
que significa dizer que o caminho A-B é mais curto do que a soma dos caminhos AC e 
BC (FERREIRA, 2015).
Dentre os vários métodos para atribuição métrica, abordaremos a seguir os mais 
utilizados como a distância Euclidiana e distância Manhattan. A distância Euclidiana é 
possivelmente a mais comum e empregada em métrica e é a distância entre dois pontos 
que pode ser expressa em termos do teorema de Pitágoras. A distância Euclidiana entre 
os pontos A = (a1, a2, a3,..., an) e E = (e1, e2, e3,..., en) do nosso exemplo da Figura 8 em 
um espaço n-dimensional, é dada por:
( ) ( ) ( )2 2 21 1 2 2AB n nd a e a e a e= − + − +…+ −
Onde an e en são os valores da n-ésima coordenada para A e E. Considerando um espaço 
bidimensional, temos que a distância entre os pontos A = (ax, ay) e E = (ex, ey) é:
( ) ( )22AB x x y yd a e a e= − + −
A grande limitação da distância Euclidiana está no fato de que ela varia com a mudança 
de escala dos dados. É importante considerar também que essa distância pode ser 
descrita em termos de vetores em um espaço dimensional. A distância de Manhattan 
utiliza a abordagem de que a distância entre dois pontos é igual à soma das diferenças 
absolutas de suas coordenadas. Essa medida é também conhecida como a métrica do 
taxi, por analogia com um táxi que deve contornar os quarteirões em seu caminho para 
chegar ao destino. Dessa maneira, a distância entre os pontos A e E (dAE) do nosso 
exemplo da Figura 10 é igual à soma das distâncias dAB + dBE ou dAC + dCE. A Figura 11 
exemplifica a distância as métricas Euclidiana (em amarelo) e Manhattan (em laranja, 
roxo ou verde) para a distância entre P e Q. A distância Euclidiana calculada nesse 
caso é dPQ = 8,5, enquanto para a distância Manhattan dPQ = 12, independentemente do 
caminho adotado.
45
TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II
Figura 11. Exemplos de distância Euclidiana (amarelo) e Manhattan (laranja, verde e rosa) entre os pontos P e Q.
Fonte: Ferreira (2015).
Podemos identificar e agrupar as amostras de acordo com suas similaridades, quando 
a distância entre os pares de amostras for definida. Após o primeiro agrupamento, 
calcula-se novamente a distância entre os grupos restantes para que o processo se 
repita. Cada repetição produz grupos já definidos e que permanecem unidos seguindo 
a hierarquia. O resultado final após o agrupamento das amostras, pode ser expresso na 
forma de um dendograma, os comprimentos das ramificações mostram as distâncias 
entre os grupos. Para facilitar o escalonamento, utilizamos a normalização por índice 
de similaridade de modo que as distâncias se situem entre 0 e 1. Isso significa que 
quanto mais próximo de 0 o índice for, menor a similaridade das amostras e o inverso 
acontece quanto mais próximo de 1, ou seja, maior será similaridade. Considerando os 
grupos P e Q, o índice de similaridade (S) pode ser obtido através de:
1 PQ
max
d
S
d
= −
Onde dPQ é a distância entre os pontos a serem considerados para agrupamento e dmax a 
distância entre os dois grupos mais afastados do conjunto. Dentre os diversos métodos 
para agrupamento hierárquico, estudaremos mais a fundo o do vizinho mais próximo, 
do vizinho mais distante e da média utilizando 3 grupos (A, B e C) sendo os grupos A e 
B constituídos por 1 amostra cada (a e b) e o grupo C por duas amostras (c1 e c2) como 
destacado na Figura 12 (FERREIRA, 2015). 
46
UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS
Figura 12. Exemplos de agrupamentos pelos métodos do vizinho mais próximo e vizinho mais distante.
 
 
Conjunto de dados originais Agrupamento por vizinho 
mais próximo 
Agrupamento por vizinho 
mais distante 
Fonte: Adaptado de Ferreira (2015).
O método do vizinho mais próximo é o método mais simples de agrupamento, sendo 
a distância entre dois grupos dada pela menor distância entre todos os constituintes 
de cada grupo. Nesse caso, como os grupos A e B são unitários, temos que a distância 
entre os grupos é igual à distância entre as próprias amostras constituintes (dAB = dab). 
Considerando os outros grupos com relação a C (A e C; B e C), a distância entre eles 
será a menor entre suas amostras pertencentes, ou seja, dAC = min (dac1, dac2) e dBC = 
min (dbc1, dbc2). Observando a Figura 10, verifica-se que dac1 < dac2 e dbc2 < dbc1, logo dAC 
= dac1 e dBC = dbc2. Uma vez obtidas as distâncias, observamos que dBC < dAC < dAB, logo 
o par mais próximo irá gerar um novo grupo, BC no caso. Em seguida, calcula-se a 
distância entre o grupo restante (A) e o recém-formado (BC), de modo que dA(BC) = min 
(dAB, dAC) = min (dab, dac1, dac2), sendo a distância mínima dac1. Esse método possui como 
característica o fato de as distâncias entre os grupos se relacionarem com as distâncias 
entre as amostras, gerando agrupamentos mais espalhados e com menores índices de 
similaridade.
O método do vizinho mais distante é um método semelhante ao anterior com a 
diferença que as distâncias entre os grupos são calculada pela maior distância entre 
os constituintes. Utilizando o mesmo exemplo anterior, a relação de C com os outros 
grupos

Continue navegando