Buscar

Análise multivariada 1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Introdução
ANÁLISE MULTIVARIADA DE DADOSANÁLISE MULTIVARIADA DE DADOS
CONJUNTOS MULTIVARIADOSCONJUNTOS MULTIVARIADOS
DE DADOS E DIFERENTESDE DADOS E DIFERENTES
TÉCNICAS DISPONÍVEISTÉCNICAS DISPONÍVEIS
Au to r ( a ) : D r. Lu i s A l b e r to R a b a n a l R a m i re z
R ev i s o r : A l e s s a n d ro Fe r re i ra A l ve s
Tempo de leitura do conteúdo estimado em 1 hora e 10 minutos.
Olá, caro(a) estudante! Tudo bem? Vamos dar início ao nosso estudo sobre análise multivariada de
dados? Vamos lá!
A análise estatística multivariada é uma poderosa ferramenta para a análise e a avaliação de
dados, em diversos campos do conhecimento.
Embora a análise estatística multivariada tenha surgido no início do século passado, apenas nos
dias atuais, tem sido efetiva a sua aplicação, pois, sem o auxílio dos computadores, não seria
possível realizá-la tão rapidamente e com tamanha clareza. Assim sendo, os recursos
computacionais permitem que sejam levantados grá�cos precisos para avaliação do inter-
relacionamento das variáveis.
Vamos estudar, no decorrer desta unidade, técnicas importantes da análise multivariada: Análise
de Conglomerados (AC), análise de componentes principais (PCA), análise de discriminantes e de
regressão logística.
Estabelecidas as condições de existência da análise multivariada de dados, apresenta-se, nesta
unidade, uma breve, porém completa, revisão de literatura no que tange às diferentes técnicas de
análise de dados.
Bons estudos!
Você já estudou sobre conjuntos multivariados de dados? Vamos abordar um pouco sobre este
assunto. Em situações cotidianas, tomar decisões implica levar em consideração diversos fatores.
Obviamente, nem todos possuem a mesma ponderação ao se realizar uma escolha. Às vezes, a
intuição não permite identi�car esses fatores ou variáveis, ou seja, deixa-se de identi�car quais são
as variáveis que afetam de forma signi�cativa o processo de tomada de decisão (HAIR et al.,
2005).
Conjuntos Multivariados
de Dados
Quando se realiza uma análise sobre o mundo que nos rodeia, pode-se observar que todos os
fatos envolvem um grande número de variáveis. No pôr do sol, por exemplo (Figura 1.1), a luz é
re�etida, refratada e difratada por diferentes meios e objetos, gerando cores de frequências
diferentes. De fato, as diversas categorias cientí�cas apresentam uma tendência à pretensão de
conhecer a realidade e de interpretar os fenômenos que a descrevem, tomando como base o
conhecimento das variáveis envolvidas.
Nesse ínterim, estabelecer as inter-relações, achar ou propor leis explicativas passa a ser papel
próprio da ciência (veja, na Figura 1.1., exemplo de ótica). Para tal, são necessários o controle e a
medição das variáveis, que são consideradas relevantes ao entendimento do fenômeno analisado.
Figura 1.1 – Pôr do Sol: situações reais, muitas vezes, envolvem grá�cos, nuvens de pontos, pontos
de atração, ruídos e diferentes ambientes espaciais
Fonte: muha / 123RF.
#PraCegoVer: a imagem é de uma fotogra�a colorida, na qual, na metade superior, aparece um céu azul,
com degradê de fundo. Na metade inferior, o mar; no lado inferior esquerdo da foto, uma árvore de cor
mais escura, contrastando com as outras cores; na parte central da foto, o sol, como fonte de uma forte
luz amarela dominante.
Tipos de variáveis
Uma variável é uma dada característica de interesse sobre os elementos estudados, sendo que
pode assumir diversos resultados (valores ou qualidades). Inicialmente, consideremos:
variáveis quantitativas;
variáveis qualitativas/categóricas.
As variáveis quantitativas têm resultados dados por números. Com medições dessas variáveis,
você pode fazer coisas como adicionar, subtrair, multiplicar e dividir, e obter um resultado
signi�cativo.
Existem dois tipos de variáveis quantitativas:
variáveis discretas;
variáveis contínuas.
Uma variável discreta é quando há um número �nito de valores. Uma variável contínua é quando
se tem um número in�nito de valores, dito de outra forma, valores dentro de uma escala intervalar.
Uma variável independente é qualquer uma que esteja sendo manipulada. Já a dependente é
qualquer variável que esteja sendo medida.
Existem quatro tipos de dados de variáveis medidas: nominal, ordinal, intervalo e razão.
#PraCegoVer: o infográ�co interativo contém quatro botões interativos, alinhados verticalmente. Como
plano de fundo, há a ilustração de um quadro-negro e um professor, à esquerda. O primeiro botão
interativo, intitulado “Dados nominais”, ao ser clicado, apresenta o texto “(também conhecidos como
dados qualitativos/categóricos) são dados divididos em categorias”. O segundo botão interativo,
Dados nominais
Dados ordinais
Dados de intervalo
Dados de razão
Fonte: sapannpix / 123RF.
intitulado “Dados ordinais”, ao ser clicado, apresenta o texto “são dados nos quais a ordem importa, mas
a distância entre os valores, não”. O terceiro botão interativo, intitulado “Dados de intervalo”, ao ser
clicado, apresenta o texto “são dados em que a ordem é importante, as distâncias entre os valores são
iguais e signi�cativas, e um zero natural não está presente”. O quarto botão interativo, intitulado “Dados
de razão”, ao ser clicado, apresenta o texto “também são conhecidos como dados de proporção, e são
dados nos quais a ordem importa, as distâncias entre os valores são iguais e signi�cativas, e um zero
natural está presente”.
A seguir, veremos com mais detalhe os métodos estatísticos de análise de variáveis.
Métodos estatísticos de análise de variáveis
Os métodos estatísticos de análise de variáveis estão dispostos em dois grupos principais: um
deles trata da estatística que enxerga as variáveis de maneira isolada — estatística univariada —, e
outro, que enxerga as variáveis de forma conjunta — estatística multivariada. Em geral, a análise de
dados com base nos tipos de variáveis é dividida em três categorias.
Análise univariada: o mais simples de todos os modelos de análise de dados, a análise univariada
considera apenas uma variável no cálculo. Assim, embora seja bastante simples na aplicação, tem
uso limitado na análise de dados. Por exemplo, a incidência de uma doença.
Como a análise univariada é conduzida?
A análise univariada é conduzida por meio de algumas formas, que são, principalmente, de
natureza descritiva:
tabelas de distribuição de frequência;
histogramas;
polígonos de frequência;
grá�co de setores;
grá�cos de barra.
Análise bivariada: como o nome sugere, a análise bivariada leva em consideração duas variáveis.
Ela tem uma área de aplicação, ligeiramente expandida, mas é limitada quando se trata de grandes
conjuntos de dados. Por exemplo, a incidência de uma doença e a estação do ano.
Como a análise bivariada é conduzida?
A análise bivariada é conduzida por meio das técnicas:
coe�cientes de correlação — é uma técnica de associação estatística, em que se observa a
força do relacionamento entre duas variáveis. Isso mostra a força como correlações fortes
ou fracas, e estas são classi�cadas em uma escala de -1 a 1, em que 1 é uma correlação
direta perfeita, -1 é uma correlação inversa perfeita e 0 é nenhuma correlação.
análise de regressão — a análise de regressão é usada para estimar as relações entre duas
variáveis diferentes. Inclui técnicas de modelagem e análise de diversas variáveis, quando o
foco é a relação entre uma variável dependente e uma ou mais variáveis independentes.
Ajuda a entender como o valor da variável dependente muda quando qualquer uma das
variáveis independentes é alterada. A análise de regressão é usada para �ns avançados de
modelagem de dados, como previsão. Há uma gama de diferentes técnicas de regressão
utilizadas, dependendo da natureza da variável e do tipo de análise procurada pela
pesquisa. São elas:
○ regressão linear;
○ regressão simples;
○ regressão polinomial;
○ modelo linear geral;
○ escolha discreta;
○ regressão binomial;
○ regressão binária;
○ regressão logística.
Análise multivariada: a análise multivariada leva em consideração umasérie de variáveis. Isso a
torna uma ferramenta complicada e essencial. A maior virtude de tal modelo é que este considera
tantos fatores quanto se é possível, o que resulta em uma tremenda redução de viés e dá um
resultado mais próximo à realidade.
Como a análise multivariada é conduzida?
As técnicas de análise multivariada, comumente usadas, incluem:
análise fatorial;
AC;
análise de variância;
análise discriminante;
dimensionamento multidimensional;
PCA;
análise de redundância.
Conhecer as características dos dados multivariados na pesquisa é uma tarefa muito importante
em análise multivariada de dados. Vejamos, a seguir, algumas sugestões que permitiram escolhas
certas.
Características da Escolha de Dados Multivariados
Em um conjunto de dados multivariados, muitas variáveis são medidas para cada sujeito ou
objeto. Essas variáveis não são, necessariamente, ordenadas. Existem três tipos principais de
perguntas que norteiam a pesquisa.
1. Qual o grau de relacionamento entre as variáveis?
2. Como é a medição de diferenças signi�cativas entre as médias dos grupos?
3. Qual a previsão de associação de sujeitos/objetos em dois ou mais grupos, com base em
duas ou mais variáveis?
Para melhor compreensão e ampliação do escopo, vamos rever, sucintamente, a estrutura
subjacente.
Estrutura Subjacente
Em meados da década de 1950, com o surgimento e a expansão dos computadores, a análise
multivariada passou a desempenhar um grande papel nas áreas geológica, meteorológica, de
medicina, de ciências sociais e de aplicações cientí�cas. A partir de então, novas teorias e novos
métodos foram propostos e testados, constantemente, pela prática, e, ao mesmo tempo, mais
campos de aplicação foram explorados. Com o auxílio de computadores modernos, podemos
aplicar a metodologia de análise multivariada para fazer análises estatísticas bastante complexas.
Até a efetiva adoção dos computadores, só era possível analisar as variáveis de modo isolado, e, a
partir dessa análise, realizar-se inferências sobre a realidade. Tal simpli�cação possui vantagens e
desvantagens, dado que um fenômeno depende de muitas variáveis. Em geral, esse tipo de análise
falha, devido ao fato de não bastar conhecer informações estatísticas isoladas, sendo necessário
compreender a totalidade dessas informações e suas inter-relações. Quando as relações
existentes entre as variáveis não são percebidas em sua totalidade, estas di�cultam a
interpretação do fenômeno.
O avanço na eletrônica tem permitido construir computadores cada vez mais potentes, que têm
alavancado o desenvolvimento cientí�co, elevando a capacidade de se obter informações mais
completas tanto de acontecimentos quanto de fenômenos, o que antes não era possível analisar.
A análise multivariada corresponde a um número considerável de métodos e técnicas. São
usadas, simultaneamente, todas as variáveis interdependentes, de forma que permitam uma
interpretação teórica de todo o conjunto de dados obtidos.
Existem vários métodos de análise multivariada, cada um com �nalidades diferentes.
Consequentemente, volta-se ao passo inicial, no qual precisamos saber que conhecimento se
pretende gerar. Ou, em outras palavras, que tipo de hipótese se quer gerar a respeito dos dados.
Não basta conhecer os métodos da análise multivariada, nem de explorar a fundo suas
potencialidades; indica-se cautela, uso apropriado, de forma a detectar padrões esperados, dar a
importância devida às limitações de cada um deles, e este último implica tempo. Esses métodos
são escolhidos em concordância com os objetivos da pesquisa, seu uso permite a geração de
hipóteses, e não tecer con�rmações (embora, às vezes, possa ser utilizada para con�rmação dos
eventos). Existem vários métodos diferentes para se realizar análises multivariadas, e decidir qual
método é o melhor depende do tipo de dados e do problema que você está tentando resolver.
A seleção do método ou da técnica multivariada apropriada pode ser norteada considerando as
respostas às seguintes perguntas.
a) As variáveis são divididas em classi�cação independente e dependente? Se sim, quantas
variáveis são tratadas como dependentes em uma única análise?
b) Como são medidas as variáveis, tanto dependentes quanto independentes?
A técnica de análise multivariada pode ser classi�cada em duas grandes categorias — a saber,
essa classi�cação depende da pergunta: as variáveis envolvidas são dependentes umas das
outras ou não? Se a resposta for sim, temos métodos de dependência. Se a resposta for não,
temos métodos de interdependência.
Técnicas de dependência: são tipos de técnicas de análise multivariada, que são usadas
quando uma ou mais das variáveis podem ser identi�cadas como variáveis dependentes, e
Fonte: bluebay / 123RF.
as demais variáveis podem ser identi�cadas como independentes.
Quanto a encontrar e veri�car como as amostras se relacionam, em outras palavras, o quanto
estas são semelhantes, considerando as variáveis trabalhadas, destacam-se dois métodos, que
podem ser utilizados: a análise de conglomerados hierárquicos e a análise fatorial com PCA.
Em qualquer modelagem da realidade, seja matemática ou estatística, chega-se a utilizar um
número inferior de variáveis, se comparado com as que existem na realidade (assumindo que você
identi�que todas elas, e que o equipamento computacional seja capaz de trabalhar). A escolha das
variáveis mais signi�cativas para nossa hipótese é complicada e leva tempo para se dominar,
consequentemente, perdas de informação farão parte do processo. Lembre-se de que, no caso
univariado, no qual se reduz para uma variável, e que todos os dados são representados por uma
média, a perda de informação será maior.
O pesquisador tem que ter a sensibilidade de obter a informação, saber se algum erro foi gerado
como consequência de não ter sido considerada uma variável importante. Aplicar os métodos por
meio de rotinas computacionais é a parte mais fácil, o difícil é interpretar o novo conjunto de
variáveis, em menor número, e ser capaz de traduzir as informações que aparecem como
resultado do processo, que, até então, não eram reveladas, por estarem em um espaço de
dimensões maiores que o nosso conhecido espaço tridimensional.
Por exemplo, suponha que um projeto tenha sido atribuído a você para prever as vendas da
empresa. Você não pode, simplesmente, dizer que "X'' é o fator que afetará as vendas. Sabemos
que existem vários aspectos ou variáveis que irão impactar as vendas. Analisar as variáveis que
mais impactaram essas vendas só será possível usando a análise multivariada. E, na maioria dos
casos, não será apenas uma variável. As vendas vão depender da categoria do produto, da
capacidade de produção, da localização geográ�ca, do esforço de marketing, da presença da
marca no mercado, da análise da concorrência, do custo do produto e das várias outras variáveis.
Vendas são apenas um exemplo.
Vantagens da análise multivariada
A principal vantagem da análise multivariada é que, por considerar mais de um fator de
variáveis independentes que in�uenciam a variabilidade das variáveis dependentes, a
conclusão obtida é mais precisa. Em outras palavras, a profundidade de percepção que ela
fornece, ao explorar múltiplas variáveis, �gurativamente, signi�ca que você está pintando
uma imagem muito mais detalhada do que está ocorrendo — e, como resultado, os insights
que você descobre são muito mais aplicáveis ao mundo real.
As conclusões são mais realistas e mais próximas da situação da vida real.
Desvantagens da análise multivariada
A principal desvantagem da análise multivariada inclui que ele requer cálculos bastante
complexos para se chegar a uma conclusão satisfatória.
Muitas observações para um grande número de variáveis precisam ser coletadas e
tabuladas; é um processo bastante demorado.
O objetivo principal do elemento interativo a seguir é deixar clara a importância dos
conglomerados.
Chegamos ao �m do nosso tópico sobre conjuntos multivariados de dados, e você teve a
oportunidade de aprendermais sobre esse assunto. O que acha de realizar uma atividade para
testar seus conhecimentos? Vamos lá!
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
No estudo da análise multivariada, existe uma técnica para análise de dados, que divide os dados
em grupos que são signi�cativos, úteis ou ambos. Se o objetivo é dividir em grupos signi�cativos,
então, os grupos devem capturar a estrutura natural dos dados. Em alguns casos, no entanto,
essa técnica é apenas um ponto de partida útil para outros propósitos, como a sumarização de
dados. Seja para compreensão, seja para outra utilidade, essa técnica tem desempenhado um
papel importante em uma ampla variedade de campos, como psicologia e outras ciências sociais,
biologia, estatística, reconhecimento de padrões, recuperação de informações, aprendizagem de
máquina (machine learning) e mineração de dados (data mining).
Assinale a alternativa que apresenta, corretamente, a qual técnica este parágrafo se refere.
a) Redução de dados.
A importância dos conglomerados: o objetivo da análise de conglomerados é
descobrir o agrupamento natural de um conjunto de padrões, pontos ou objetos. 
b) Geração de hipóteses.
c) Divisão das observações em grupos.
d) Análise fatorial.
e) Análise de conglomerados.
A seguir, serão apresentadas as técnicas de análise multivariada de dados mais relevantes no
estado da arte.
Análise de Conglomerados
A AC, ou análise de clusters, ou, simplesmente, clusterização, corresponde a uma variedade de
técnicas e algoritmos, sendo que o objetivo principal é encontrar e separar objetos em grupos
similares. Informalmente falando, clustering signi�ca “encontrar grupos nos dados”. A
classi�cação de Aristóteles dos seres vivos (animais e plantas) foi um dos primeiros
agrupamentos ou conglomerados conhecidos, um agrupamento de caráter hierárquico. O
conhecimento da biologia cresceu, mas a organização esquemática de todas as espécies
conhecidas permanece na forma de um agrupamento (hierárquico). Médicos de�nindo categorias
de tumores por suas propriedades, astrônomos agrupando galáxias por suas formas, empresas
observando que os usuários de seus produtos se agrupam de acordo com o comportamento,
arqueólogos de�nindo períodos culturais a partir de características de artefatos encontrados,
programas que rotulam os pixels de uma imagem pelo objeto ao qual eles pertencem (ver Figura
1.1), outros programas, que segmentam um �uxo de vídeo em cenas, sistemas de recomendação,
que agrupam produtos em categorias e manifestações públicas de protestos, todos estão
realizando agrupamento.
Conforme Everitt (1974 apud BUSSAB, 1990) a AC pretende resolver o seguinte
problema: “dada uma amostra de “n” objetos (ou indivíduos), cada um deles medindo
Diferentes Técnicas
Disponíveis
segundo “p” variáveis, procurar um esquema de classi�cação que agrupe os objetos em
“g” grupos. Deve ser determinado, também, o número de variáveis desses grupos”.
Portanto, a �nalidade dessa técnica é reunir os objetos (indivíduos, elementos)
veri�cados nos grupos em que exista homogeneidade dentro do grupo e
heterogeneidade entre os grupos, objetivando propor classi�cações. Os objetos em um
grupo são relativamente semelhantes, em termos dessas variáveis, e diferentes de
objetos de outros grupos (VICINI, 2005, p. 14).
Há também tarefas bastante gerais, para as quais a AC é aplicada em muitas áreas.
1. Análise exploratória de dados, procurando “padrões interessantes”, sem prescrever
qualquer interpretação especí�ca, potencialmente, criando novas perguntas e
hipóteses de pesquisa.
2. Redução de informações e estruturação de conjuntos de entidades de qualquer área
temática para simpli�cação, comunicação mais e�caz ou acesso/ação mais e�caz,
como complexidade de redução para análise de dados adicionais.
3. Investigação de correspondência de um agrupamento em dados especí�cos com
outros agrupamentos ou características, hipotéticos ou derivados de outros dados.
A análise de cluster é uma área de pesquisa muito ativa. A pesquisa de análise de cluster é feita
em várias áreas temáticas, mais notavelmente, em estatística, machine learning e matemática
discreta. Pesquisadores em ciências sociais, psicologia, biologia e gestão são inspirados por áreas
de aplicação especí�cas.
A formulação do problema é a parte mais importante da AC, a escolha das variáveis será
fundamental no processo de aglomeração. A escolha errada de uma ou mais variáveis, menos
signi�cativas, poderá vir a distorcer o resultado da análise. O conjunto de variáveis escolhidas,
cuidadosamente, deve ser representativo das semelhanças entre objetos que pertencem ao grupo.
Por exemplo, em um grupo de diabéticos, as variáveis nível de glicose, vida sedentária e tipo de
alimentação, serão as variáveis principais, mas não todas as variáveis a se considerar, outras
variáveis serão importantes para o problema. Essa fase é vital para a AC, pois é onde se �xa o
critério de homogeneidade. Critérios distintos nos levam a grupos homogêneos com
características distintas. No exemplo mencionado anteriormente, o grupo de diabéticos nos levaria
a grupos de diabetes tipos 1 e 2, e o tipo de homogeneidade depende dos objetivos almejados.
O AC tem sido aplicado na ciência atuarial. Por exemplo, Campbell (1986) aplicou a análise de
cluster para identi�car grupos de modelos de carros com atributos técnicos semelhantes, com o
objetivo de estimar o prêmio de risco para modelos de carros individuais. Yao (2016) explorou o
agrupamento de territórios para a formação de taxas no seguro automóvel. Gan, Lan e Sima (2016)
e Gan e Lin (2017) usaram o agrupamento de dados para selecionar políticas representativas para
construir modelos preditivos, para avaliar grandes carteiras de contratos de anuidade variável.
Ao analisar os dados, em primeiro lugar, deve-se veri�car se estes devem ser tratados e se é
necessária uma padronização. Por exemplo, conferir se as variáveis estão nas mesmas unidades
de medidas. A solução por conglomerado será in�uenciada pelas unidades de medida.
Figura 1.2 – Análise multivariada da evolução espaço-temporal da covid-19 no Brasil, em 2019
Fonte: Nascimento (2020, p. 6).
#PraCegoVer: a �gura apresenta, na parte superior, um tubo de teste vermelho, para identi�car a
positividade ou a negatividade de covid-19. Abaixo, há o mapa do Brasil, dividido em estados. As cores
sinalizam como o coronavírus se espalhou pelo Brasil inteiro, no ano de 2019. As cores usadas são: roxo,
para os estados do grupo 5 (Bahia, Minas Gerais, São Paulo, Paraná, Santa Catarina e Rio Grande do Sul);
laranja, para os estados do grupo 4 (Amazonas, Pará, Ceará, Pernambuco e Rio de Janeiro); amarela, para
os estados do grupo 3 (Distrito Federal); verde, para os estados do grupo 2 (Roraima, Amapá, Mato
Grosso e Espírito Santo); e azul, para os estados do grupo 1 (Acre, Rondônia, Mato Grosso do Sul, Goiás,
Tocantins, Maranhão, Piauí, Sergipe, Alagoas, Paraíba e Rio Grande do Norte). Na parte inferior direita da
�gura, há um grá�co de dispersão que não tem relação com a AC. Por �m, na parte superior direita, há
uma esfera cinza, com uma coroa de espinhos vermelhos, representando o coronavírus.
Análise Fatorial, Análise de Componentes Principais
e Análise de Escalonamento Multidimensional
A análise fatorial é uma forma de se condensar os dados de muitas variáveis em apenas algumas.
Por esta razão, às vezes, também é chamado de “redução de dimensão”. Faz o agrupamento de
variáveis com alta correlação. A análise fatorial inclui técnicas como PCA e análise fatorial
comum. Esse tipo de técnica é usado como etapa de pré-processamento, para transformar os
dados antes de usar outros modelos. Quando os dados têm muitas variáveis, o desempenho das
técnicas multivariadas não está no nível ótimo, pois os padrões são mais difíceis de serem
encontrados. Ao usar a análise fatorial, os padrões tornam-se menos diluídos e mais fáceis de se
analisar.
Vejamos um exemplo: vamos imaginar que você tenha um conjunto de dados contendo
informaçõesreferentes à renda, ao nível de escolaridade e à ocupação de uma pessoa. Você pode
encontrar um alto grau de correlação entre cada uma dessas variáveis, e, assim, reduzi-las ao
único fator “status socioeconômico”. Você também pode ter dados sobre o quanto eles �caram
satisfeitos com o atendimento ao cliente, o quanto gostaram de um determinado produto e a
probabilidade de recomendar o produto a um amigo. Cada uma dessas variáveis pode ser
agrupada no único fator “satisfação do cliente” (desde que se encontrem fortemente
correlacionadas umas com as outras). Mesmo que você tenha reduzido vários pontos de dados a
apenas um fator, você não está, de fato, perdendo nenhuma informação — esses fatores capturam
e representam de maneira adequada as variáveis individuais em questão. Com seu conjunto de
dados “simpli�cado”, agora, você está pronto para realizar outras análises.
Análise de componentes principais
A PCA é um procedimento estatístico preocupado em elucidar a estrutura de covariância (permite-
nos saber como uma variável se comporta com base nas mudanças da outra variável) de um
conjunto de variáveis. Em particular, permite-nos identi�car as principais direções em que os
dados variam.
Por exemplo, como a qualidade da água difere, dependendo do local do rio que é analisado? Na
nascente, a água é a mesma que encontramos no riacho de uma área urbana sem esgoto?
O reconhecimento facial é outro exemplo, em que a PCA tem sido amplamente utilizada,
sobretudo, para reduzir o número de variáveis. Consideremos o caso 2D, em que temos uma
imagem de entrada e desejamos compará-la com um conjunto de imagens de banco de dados,
para encontrar a melhor correspondência. Assumimos que as imagens têm todas a mesma
resolução e são todas enquadradas de forma equivalente (ou seja, os rostos aparecem no mesmo
local e na mesma escala nas imagens). Cada pixel pode ser considerado uma variável, portanto
temos um problema de dimensão muito alta, que pode ser simpli�cado por PCA. A maioria dos
pixels da imagem será altamente correlacionada. Por exemplo, se os pixels de fundo são todos
iguais, os pixels de fundo adjacentes são exatamente correlacionados. Assim, precisamos
considerar como conseguir uma redução no número de variáveis.
Análise de escalonamento multidimensional
A Análise de Escalonamento Multidimensional (MDS, do inglês Multidimensional Scaling) é uma
técnica matemática que nos permite mapear as distâncias entre pontos em um espaço de alta
dimensão, em um espaço de dimensão inferior. É mais útil quando podemos mapear distâncias de
um espaço de alta dimensão em um espaço bidimensional. Nesse caso, os pontos de dados
podem ser plotados em um espaço bidimensional, e podemos examinar o grá�co para ver quais
pontos tendem a �car próximos um do outro. Consequentemente, o dimensionamento
multidimensional pode ser usado como outra técnica a ser utilizada, quando queremos agrupar
observações em grupos.
A MDS é considerada uma das várias técnicas multivariadas que visam revelar a estrutura de um
conjunto de dados plotando pontos em uma ou duas dimensões. Um bom exemplo disso seria
traçar dois pontos representando duas cidades diferentes e a distância entre elas. Você faria isso
por meio de um processo de tentativa e erro, até você ter os pontos para representar a distância
exata. O exemplo, no entanto, difere do problema típico de dimensionamento multidimensional. O
problema é que sabemos que as cidades podem estar localizadas em um mapa bidimensional,
mas, quando se trata de MDS, não sabemos quantas dimensões podem ser necessárias para se
reproduzir a distância dada entre objetos.
Uma vez que os dados estejam em mãos, o dimensionamento multidimensional pode ajudar a
determinar:
quais dimensões os entrevistados usam ao avaliar objetos;
quantas dimensões eles podem usar em uma situação especí�ca;
a importância relativa de cada dimensão;
como os objetos estão relacionados, perceptivamente.
O objetivo da MDS é transformar os julgamentos dos consumidores sobre similaridade ou
preferência (por exemplo, preferência por lojas ou marcas) em distâncias representadas no espaço
multidimensional. O resultado: mapas perceptuais mostram o posicionamento relativo de todos os
objetos. A escala multidimensional é baseada na comparação de objetos, qualquer objeto
(produto, serviço, imagem etc.) tendo dimensões percebidas e objetivas. Por exemplo, uma
empresa pode ver seu novo modelo de cortador de grama como tendo duas opções de cores
(vermelho e verde), e uma lâmina de 54 cm. Essas são as dimensões objetivas. Os clientes podem
ou não ver esses atributos. Os clientes também podem perceber o cortador de grama como de
aparência cara ou frágil, e estas são as dimensões.
Para aplicar MDS a um conjunto de pontos de dados (possivelmente, um conjunto de médias de
grupo), devemos, primeiro, calcular as distâncias entre todos os pares de pontos. Uma das
medidas de distância mais razoáveis para se usar é a padronização dos dados, e, em seguida, usar
a fórmula de distância da régua padronizada. Algumas medidas comuns de distância são:
regra da distância;
regra padronizada da distância da régua padronizada;
distância mahalanobis.
A seguir, enfatiza-se a importância das técnicas multivariadas e sua aplicação em diferentes áreas,
além de mencionar a possibilidade do uso de mais de uma técnica para resolução de problemas.
A seguir, vamos realizar uma atividade, de forma a consolidar nosso aprendizado.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Tanto em análise multivariada quanto em machine learning, a PCA é uma técnica fundamental.
Dada a sua relevância, assinale a alternativa que apresenta, corretamente, qual a importância
de usar a PCA antes da AC.
a) Encontrar bons recursos para melhorar a AC.
b) Descobrir qual dimensão de dados maximiza a variação de recursos.
c) Usar com dados de poucas dimensões.
d) Visualização de dados de alta dimensão.
S A I B A M A I S
De acordo com Vicini (2005, p. 32),
é importante lembrar que, embora as técnicas multivariadas que constam na literatura
tenham sido criadas com o objetivo de resolver problemas especí�cos, como na área de
biologia e psicologia, essas podem ser utilizadas para resolver muitos outros problemas
práticos nas diversas áreas do conhecimento. Na maioria das vezes, os objetivos desses
problemas práticos só são resolvidos mediante aplicação de mais de uma técnica
multivariada, aplicadas em uma sequência.
Para saber mais, acesse o link a seguir:
http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-
%20LIVRO%20FINAL%201.pdf.
Fonte: Vicini (2005, p. 32).
http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf
http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf
e) Os novos componentes são funções lineares.
Vamos estudar sobre análise de discriminante e análise de regressão logística? A análise de
discriminante linear e a regressão logística são métodos estatísticos multivariados, que podem ser
usados para a avaliação das associações entre muitas variáveis contínuas, que, em geral, não são
controladas durante a coleta de dados. Ambas as metodologias têm sido aplicadas de maneira
ampla na pesquisa (CORRAR, 2009). A regressão logística e a análise de discriminante são
apropriadas quando a variável dependente não é métrica, porém a análise de discriminante tem a
desvantagem de possuir pressupostos mais rígidos e distribuição normal para as variáveis
independentes, tornando a regressão logística preferida para os estudos econométricos.
Análise de Discriminante
A análise de discriminante é um método de classi�cação usado para determinar qual conjunto de
variáveis discriminar entre dois ou mais grupos de ocorrência natural e para classi�car uma
observação nesses grupos conhecidos. A Análise de Discriminante Linear (LDA) já existe há algum
tempo. Apesar de sua simplicidade, a LDA, geralmente, produz resultados de classi�cação
robustos, decentes e interpretáveis.Ao lidar com problemas de classi�cação do mundo real, a LDA,
em geral, é o método de benchmarking aplicado antes de outros mais complicados e �exíveis.
Vantagens da LDA
Análise de Discriminante
e Análise de Regressão
Logística
Classi�cadora de protótipo simples: a distância até a média da classe usada é
simples de se interpretar.
O limite de decisão é linear: é simples de se implementar, e a classi�cação é robusta.
Redução de dimensão: fornece uma visão informativa de baixa dimensão dos dados,
que é útil para visualização e engenharia de recursos.
Desvantagens da LDA
Os limites de decisão linear podem não separar, adequadamente, as classes. O
suporte para limites mais gerais é desejado.
Em uma con�guração de alta dimensão, a LDA usa muitos parâmetros. Uma versão
regularizada da LDA é desejada.
O suporte para uma classi�cação de protótipos mais complexa é desejado.
Regressão Logística
A regressão logística é uma forma de regressão usada quando a variável dependente é dicotômica,
discreta ou categórica, e as variáveis explicativas são de qualquer tipo. Por exemplo, nas ciências
médicas, o resultado, geralmente, é a presença ou ausência de uma situação declarada ou de uma
doença. Usando a transformação logit, a regressão logística prediz sempre a probabilidade de
pertencimento ao grupo em relação a diversas variáveis independentes de sua distribuição.
Segundo Fávero e Bel�ori (2015), a regressão logística é um modelo que possibilita à variável
dependente mais de uma categoria de classi�cação, seja ela nominal ou ordinal.
 Classificadora de protótipo simples O limite de decisão é linear
Redução de dimensão
a distância até a média da classe usada é simples de se interpretar.
 1 2 3
Os limites de decisão linear podem não separar, adequadamente, as classes. O suporte para limites
mais gerais é desejado.
A análise de regressão logística é baseada no cálculo das chances do resultado como a razão da
probabilidade de ter o resultado dividido pela probabilidade de não ter. Por exemplo, vamos
imaginar que você trabalha como analista no setor de seguros, e precisa prever a probabilidade de
cada cliente em potencial fazer uma reclamação. Você pode inserir uma série de variáveis
independentes em seu modelo, como idade, se eles têm ou não um problema de saúde grave, sua
ocupação, e assim por diante. Usando essas variáveis, uma análise de regressão logística calcula
a probabilidade de o evento (fazer uma reclamação) ocorrer. Outro exemplo muito citado são os
�ltros usados para classi�car e-mails como “spam” ou “não spam”.
Vantagens da regressão logística
É muito fácil de entender.
Funciona bem para conjuntos de dados simples, bem como quando o conjunto de dados é
linearmente separável.
Não faz suposições sobre as distribuições de classes no espaço de recursos.
Um modelo de regressão logística é menos provável de ser superajustado, mas pode ser
superajustado em conjuntos de dados de alta dimensão. Para evitar o ajuste excessivo
desses cenários, pode-se considerar a regularização.
São mais fáceis de se implementar e interpretar.
Desvantagens da regressão logística
Às vezes, é necessária muita engenharia de recursos.
Se as características independentes estiverem correlacionadas entre si, isso pode afetar o
desempenho do classi�cador.
É bastante sensível a ruídos e over�tting.
A regressão logística não deve ser utilizada se o número de observações for menor que o
número de feições, caso contrário, pode levar a over�tting.
Usando a regressão logística, problemas não lineares não podem ser resolvidos porque têm
uma superfície de decisão linear. Mas, em cenários do mundo real, os dados linearmente
separáveis são raros de serem encontrados.
Ao usar a regressão logística, é difícil obter relacionamentos complexos. Alguns algoritmos,
como redes neurais, que são mais poderosos e compactos, podem, facilmente, superar os
algoritmos de regressão logística.
Na regressão linear, existe uma relação linear entre as variáveis independentes e
dependentes, mas, na regressão logística, as variáveis independentes estão relacionadas
de maneira linear com o log das probabilidades (log(p/(1-p)).
Assim, pode-se propor que tanto a análise de discriminante quanto a regressão logística podem
ser usadas para prever a probabilidade de um determinado resultado usando todas, ou um
subconjunto de variáveis disponíveis.
praticar
Vamos Praticar
A AC abrange uma variedade de técnicas, cujo objetivo principal é agrupar observações ou
variáveis em clusters. A seguir, será apresentado um exemplo numérico simples, para, baseado(a)
nesse exemplo, você praticar com problemas similares.
Exemplo: Os gastos diários com alimentação (X1) e vestuário (X2) de cinco pessoas (dados
�ctícios) são mostrados no quadro a seguir.
Os dados do quadro acima, gra�camente, correspondem à seguinte �gura.
Quadro: Dados ilustrativos de gastos de cinco pessoas �ctícias
Fonte: Elaborado pelo autor.
#PraCegoVer: o quadro apresenta três colunas e seis linhas. Na primeira linha,
temos “pessoa”, na primeira coluna, “alimentação (x1) em R$”, na segunda coluna, e
“vestuário (x2) em R$”, na terceira coluna. Na segunda linha, temos “Pedro”, na
primeira coluna, “2”, na segunda coluna, e “4”, na terceira coluna. Na terceira linha,
temos “Camila”, na primeira coluna, “8”, na segunda coluna, e “2”, na terceira coluna.
Na quarta linha, temos “Maria”, na primeira coluna, “9”, na segunda coluna, e “5”, na
terceira coluna. Na quinta linha, temos "Luis", na primeira coluna, “1”, na segunda
coluna, e “3”, na terceira coluna. Na sexta linha, temos “Thereza”, na primeira coluna,
“8,5”, na segunda coluna, e “1”, na terceira coluna.
Pessoa Alimentação (X1) em R$ Vestuário (X2) em R$
Pedro 2 4
Camila 8 2
Maria 9 5
Luis 1 3
Thereza 8,5 1
Figura: Grá�co de vestuário (x2) versus alimentação (x1)
Fonte: Elaborada pelo autor.
#PraCegoVer: a �gura apresenta o grá�co de vestuário (x2) versus alimentação (x1). No eixo
x, temos os dados sobre “Alimentação (X1) em reais”, e os valores nesse eixo são 0, 1, 2, 3, 4,
5, 6, 7, 8, 9 e 10. No eixo y, temos os dados sobre “Vestuário (X2) em reais”, e os valores nesse
eixo são 0, 1, 2, 3, 4, 5 e 6. Da esquerda para a direita, temos um ponto vermelho na
intersecção de 1, no eixo x, e 3, no eixo y. Um ponto vermelho, na intersecção de 2, no eixo x, e
4, no eixo y. Um ponto vermelho, na intersecção de 8, no eixo x, e 2, no eixo y. Um ponto
vermelho, na intersecção de 8,5 no eixo x, e 1, no eixo y. Por �m, um ponto vermelho na
intersecção de 9, no eixo x, e 5, no eixo y.
A �gura acima sugere que as cinco observações formam dois cluster (conglomerados). O
primeiro, constituído por Luis e Pedro, e o segundo por Camila, Maria e Thereza. Pode-se notar
que as observações em cada cluster são semelhantes entre si, no que diz respeito aos gastos com
alimentação e vestuário, e que os dois cluster são bastante distintos um do outro.
Colete dados de cinco amigos, cinco familiares e cinco desconhecidos na rua e construa as
respectivas tabelas, grá�cos e, visualmente, analise e interprete os resultados, como no exemplo.
Você está praticando a teoria de análise de agrupamentos.
Material
Complementar
W E B
Introduction to Multivariate Data Analysis —
YouTube
Ano: 2013
Comentário: Brad Swarbrick é vice-presidente de desenvolvimento de
negócios de uma empresa de software. Apresenta uma introdução rápida à
análise de dados multivariados, apresenta e comenta algumas de suas
aplicações e disserta acerca de como essas ferramentas estatísticas estão
sendo usadas para melhorar produtos e processos de fabricação em uma
ampla gama de indústrias.
Para conhecer mais sobre o vídeo, acesse o link a seguir:
ACESSAR
https://www.youtube.com/watch?v=KhA_PCMPZZo
L I V R O
Análise de dados multivariados
Autor: James Lattin, J. Douglas Carroll e Paul E. Green
Editora: Cengage Learning
Capítulo: Três primeiros capítulos
Ano: 2011
ISBN: 9788522109012
Comentário: O livro foi escrito para usuários que não são estatísticos
pro�ssionaismas para pro�ssionais de outras áreas, como psicólogos,
sociólogos, pesquisadores de mercado, ciências atuariais etc. O segundo e
terceiro autores do livro (Carroll e Green) são autores com décadas de
experiência dando aulas de análise multivariada. A pedido do primeiro autor
(Lattin), que estava dando aulas de análise multivariada pela primeira vez,
foi criado um livro, em uma linguagem acessível, o qual indicamos como
leitura obrigatória.  
Disponível em: Minha Biblioteca.
Conclusão
Caro(a) estudante, espera-se que, neste material, você, como estudante, tenha se familiarizado com os
conceitos de variáveis e objetos. Que toda a informação contida neste primeiro capítulo permita a você
analisar os fatores que produzem diferentes objetos ao longo do tempo e do espaço. E que você tenha
clara a diferença entre os tipos de variáveis, vale dizer, diferenciar entre variáveis qualitativas,
quantitativas, discretas, contínuas, nominais e ordinais, além de ter uma visão geral das principais
técnicas de AC, suas características, ilustradas com exemplos simples que permitem uma base teórica
sólida. Por �m, neste capítulo, que você tenha um primeiro contato com os principais tipos de análise:
fatorial, PCA e MDS.
Referências
CAMPBELL, M. An integrated system for
estimating the risk premium of individual car
models in motor insurance. ASTIN Bulletin, [s. l.],
v. 16, n. 2, 1986. Disponível em:
https://bit.ly/3jRytjw. Acesso em: 12 abr. 2022.
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise Multivariada: Para Cursos de Administração,
Ciências Contábeis e Economia. São Paulo: Atlas S.A., 2009.
FÁVERO, L. P.; BELFIORI, P. Análise de Dados: Técnicas Multivariadas Exploratórias com SPSS e STATA.
Rio de Janeiro: Editora Elsevier, 2015.
GAN, G.; LAN, Q.; SIMA, S. Scalable clustering by truncated fuzzy c-means. Big Data and Information
Analytics, [s. l.], v. 1, n. 2, p. 247–259, 2016. Disponível em: https://www.aimspress.com/article/id/2001.
Acesso em: 11 abr. 2022.
GAN, G.; LIN, X. S. E�cient Greek calculation of variable annuity portfolios for dynamic hedging: A two-
level metamodeling approach. North American Actuarial Journal, [s. l.], v. 21, n. 2, p. 161–177, 2017.
Disponível em: https://www.tandfonline.com/doi/abs/10.1080/10920277.2016.1245623. Acesso em: 11
abr. 2022.
INTRODUCTION to Multivariate Data Analysis. [S. l.: s. n.], 2013. 1 vídeo (11 min.). Publicado pelo canal
Camo Analytics. Disponível em: https://www.youtube.com/watch?v=KhA_PCMPZZo. Acesso em: 12 abr.
2022.
https://bit.ly/3jRytjw
https://www.aimspress.com/article/id/2001
https://www.tandfonline.com/doi/abs/10.1080/10920277.2016.1245623
https://www.youtube.com/watch?v=KhA_PCMPZZo
HAIR, J. F. J. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2005.
LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de dados multivariados. Boston: Cengage Learning,
2011. (Disponível em Minha Biblioteca).
LIMA, F. S.; ZAGO, N. Evasão na Educação Superior: tendências e resultados de pesquisa. Movimento-
Revista de Educação, Niterói, v. 5, n. 9, p. 131–164, jul./dez. 2018. Disponível em:
https://periodicos.uff.br/revistamovimento/article/download/32679/18827, acesso em: 20 mar. 2022.
NASCIMENTO, M. L. F. A multivariate analysis on spatiotemporal evolution of Covid-19 in Brazil.
Infectious Disease Modelling, [s. l.], v. 5, p. 670–680, 2020. Disponível em:
https://www.sciencedirect.com/science/article/pii/S2468042720300427. Acesso em: 30 mar. 2022.
VICINI, L. Análise multivariada: da teoria à prática. Monogra�a. Faculdade de Engenharia, Universidade
Federal de Santa Maria. Santa Maria, 215 f. 2005. Disponível em:
http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-
%20LIVRO%20FINAL%201.pdf. Acesso em: 06 abr. 2022.
YAO, J. Clustering in General Insurance Pricing. In: FREES, E.; MEYERS, G.; DERRIG, R. (ed.). Predictive
Modeling Applications in Actuarial Science (International Series on Actuarial Science, p. 159–179).
Cambridge: Cambridge University Press, 2016.
https://periodicos.uff.br/revistamovimento/article/download/32679/18827
https://www.sciencedirect.com/science/article/pii/S2468042720300427
http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf
http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf

Continue navegando