Análise multivariada 2

Análise Multivariada

•

UAM

Gilson Cássio de Oliveira Santos

16/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise Multivariada

332 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ANÁLISE MULTIVARIADA DEANÁLISE MULTIVARIADA DE
DADOSDADOS
TÉCNICASTÉCNICAS
MULTIVARIADAS EMULTIVARIADAS E
ANÁLISE DEANÁLISE DE
CONGLOMERADOSCONGLOMERADOS
Au to r ( a ) : D r. Lu i s A l b e r to R a b a n a l R a m i re z
R ev i s o r : A l e s s a n d ro Fe r re i ra
Tempo de leitura do conteúdo estimado em 1 hora e 30 minutos.
Introdução
Olá, estudante! Tudo bem?
É com prazer que lhe apresentamos este material, que o ajudará a conhecer as
diferentes técnicas de análise multivariada, em especial, a técnica de análise de
conglomerados. Em pesquisas, frequentemente acontece de desejarmos descrever
efeitos que são entidades complexas e difíceis de caracterizar em uma única medida.
Podemos, portanto, em um único experimento, medir um conjunto de variáveis
dependentes em vez de uma única variável, tendo, então, uma maior chance de
descobrir qual fator é realmente importante. Ao considerar se um tratamento
especí�co afeta um conjunto de variáveis dependentes, que tal realizar vários testes
univariados? Quais são as desvantagens de uma análise que considera cada variável
separadamente em vez de uma única que considera padrões em todas elas
simultaneamente? No modelo multivariado, assume-se que as correlações entre um
conjunto de variáveis observadas podem ser explicadas em termos de um conjunto
mais simples de variáveis derivadas. Então, como vamos derivar um conjunto de
novas variáveis hipotéticas mais adequadas a partir das informações obtidas sobre as
correlações individuais entre elas? Por meio das técnicas multivariadas.
Bons estudos!
As técnicas de análise multivariada podem ser classi�cadas em duas grandes
categorias. Essa classi�cação depende da resposta à pergunta: as variáveis
envolvidas são dependentes umas das outras ou não? Se a resposta for sim, temos
técnicas de dependência (ou associação). Se a resposta for não, temos técnicas de
interdependência. As de�nições formais são:
Fonte: allvision /
123RF.
Fonte: vadymvdrobot /
123RF.
Técnicas
Multivariadas
Técnica de
dependência:
V E R M A I S
Técnicas de
interdependência:
V E R M A I S
Na sequência, discutiremos as técnicas mais representativas dos dois grupos.
Análise de Regressão
A análise de regressão é uma técnica de dependência utilizada para investigar e
modelar a relação entre variáveis. A razão pela qual é tão amplamente aplicada é
porque fornece a resposta para uma pergunta frequente: como uma variável de
interesse especial depende de outras variáveis? As suas aplicações são numerosas,
em diferentes áreas, incluindo engenharia, ciências médicas, biológicas, sociais,
ciências físicas, químicas, economia, dentre outras.
Termos usados na análise de regressão
Variável de resposta: a variável que os pesquisadores estão tentando explicar
ou prever é chamada de variável de resposta. Ela é chamada, mais comumente,
de variável dependente, porque depende de outra variável. No caso de duas
variáveis independentes, a variável de resposta sempre pertence ao eixo y.
Variável explicativa ou preditora: a variável usada para explicar ou prever a
variável de resposta é chamada de explicativa ou preditora. Às vezes, também
é chamada de variável independente, porque é independente da outra variável.
No caso de duas variáveis independentes, a variável explicativa sempre
pertence ao eixo x.
A teoria de regressão estatística, inclusive, se divide em análise de regressão simples
e múltipla.
Regressão linear simples
A regressão linear simples, também chamada de regressão linear univariável, é um
modelo que avalia a relação entre uma variável dependente e uma independente. O
modelo linear simples é expresso usando a equação:
Y = a + bx + ϵ                                     (2.1)
onde:
x: variável independente (explicativa);
a: intercepto com o eixo horizontal “x” do plano cartesiano;
b: inclinação da linha;
ϵ: o erro, que indica a variabilidade da variável dependente devido a causas não
controladas pelo modelo. ϵ também é chamado de resíduo. Como veremos em uma
seção posterior, a análise de resíduos é uma parte muito importante da análise de
regressão.
A equação (2.1) representa uma linha, conhecida como linha de regressão. Ela permite
predizer o valor da variável dependente Y a partir do valor da variável independente x.
Assim, após uma regressão linear, seria possível estimar a massa corporal de uma
pessoa (variável dependente, Y) a partir de sua altura (variável independente, x), por
exemplo. A inclinação b da linha de regressão, por sua vez, é chamada de coe�ciente
de regressão. Ela fornece uma medida da contribuição da variável independente x para
explicar a variável dependente Y.
Se a variável independente for contínua (por exemplo, altura corporal em centímetros),
então o coe�ciente de regressão representa a mudança na variável dependente (peso
corporal em quilogramas) por unidade de mudança na variável independente (altura
corporal em centímetros).
A interpretação adequada do coe�ciente de regressão requer, portanto, atenção às
unidades de medida. Se as variáveis independentes forem categóricas ou binárias,
então o coe�ciente de regressão deve ser interpretado em referência à codi�cação
numérica dessas variáveis. As variáveis binárias, geralmente, devem ser codi�cadas
com dois números inteiros consecutivos (geralmente 0/1 ou 1/2). Agora, ao interpretar
o coe�ciente de regressão, deve-se lembrar qual categoria da variável independente é
representada pelo número mais alto (por exemplo, 2, quando a codi�cação é 1/2).
Além disso, ele re�ete a mudança na variável dependente que corresponde a uma
mudança na variável independente de 1 para 2. A equação (2.1), por sua vez,
representa uma linha, conhecida como linha de regressão. Os seus parâmetros a e b
são estimados a partir dos valores da variável independente x e com o auxílio de
vários métodos, sendo o método dos mínimos quadrados o mais conhecido.
Método dos mínimos quadrados: consiste em descrever uma linha reta de modo que a
soma de todas as diferenças entre os valores observados e a linha reta seja a mínima
possível (Figura 2.1). O cálculo do estimador do coe�ciente de regressão, com base
nos dados da amostra, é dado pela equação (2.2) (SPIEGEL; LIPSCHUTZ, 2012, p.
222):
b =
nΣni= 1XiYi− Σ
n
i= 1X1Σ
n
i= 1Yi
nΣni= 1X
2
i − ( Σ
n
i= 1X1 )
2                         (2.2)
O estimador do termo independente (ordenada na origem) pode ser calculado usando
a seguinte expressão (SPIEGEL; LIPSCHUTZ, 2012, p. 222):
a = 
Σni= 1Yi−bΣ
n
i= 1Xi
n                            (2.3)
Figura 2.1 – Linha de regressão obtida usando as fórmulas (2.2) e (2.3). X corresponde
aos dados de temperatura em °C versus Y, que corresponde às vendas de refrigerantes
em R$/ no verão de 2022, em Copacabana – RJ. Observe que nem todos os pontos
estão sobre a linha, o que corresponde ao erro, mas que a distância de cada ponto à
linha é mínima. Toda linha tem sua inclinação (calculada pela fórmula (2.2)) e tem seu
valor quando a temperatura é zero (calculado pela fórmula (2.1))
Fonte: Elaborada pelo autor.
#PraCegoVer: a �gura apresenta uma grade retangular com 12 círculos na cor azul. No eixo
horizontal “X”, os valores estão na faixa de 10 até 26, com incrementos de dois. No eixo
vertical, os valores aparecem na faixa de 0 até 700, com incrementos de 100. Os círculos
estão acompanhando uma linha laranja, mas somente cinco estão sobre a linha; os outros
sete estão muito próximos dela.
Exemplo
A renda e a educação de uma pessoa estão relacionadas. Espera-se que, em
condições normais, em média, um maior nível de educação proporcione uma renda
maior. Assim, um modelo de regressão linear simples pode ser expresso como:
Y = a + bx + ϵ
renda = a + b educação + ϵ
Nele, “b” re�ete a mudança na renda em relação à mudança por unidade de educação
e “a” re�ete a renda quando a educação é zero, pois é esperado que mesmo uma
pessoa analfabeta possa ter alguma renda.
Para nosso exemplo, a equação anterior é su�ciente, mas nossa realidade é mais
complexa, com outras variáveisa se considerar. Pensemos em mais uma variável no
problema do exemplo. Esse modelo negligencia que a maioria das pessoas (em
condições normais) tem renda mais alta quando é mais velha do que quando é jovem,
independentemente da educação. Portanto, “b” exagerará o impacto marginal da
educação. Se a idade e a escolaridade estiverem positivamente correlacionadas, então
o modelo de regressão associará todo o aumento observado na renda com um
aumento da educação. Assim, um modelo melhor seria:
Y = a + bx + ϵ
renda = a + b educação + ϵ
renda = a + b educação + c(idade) + ϵ
De forma a conseguir uma modelagem mais próxima da realidade (considerando um
maior número de variáveis preditoras), a regressão múltipla aparece como uma
consequência natural.
Regressão múltipla
A análise de regressão múltipla é uma técnica utilizada para examinar a relação entre
uma variável dependente e várias variáveis preditoras. “O objetivo da análise de
regressão múltipla é prever as mudanças na variável dependente como resposta a
mudanças nas variáveis independentes” (HAIR et al., 2009, p. 33).
Para melhor ilustrar, em biologia, usa-se a regressão múltipla para prever o
crescimento das culturas (modelos de simulação do crescimento e desenvolvimento).
Considere, nesse exemplo, o milho. O crescimento da cultura é sua variável
dependente, e você deseja ver como diferentes fatores o afetam. Suas variáveis
independentes podem ser a chuva, a temperatura, a quantidade de luz solar e a
quantidade de fertilizante adicionado ao solo. Um modelo de regressão múltipla
mostraria a proporção de variância no crescimento da cultura que cada variável
independente representa.
( )
( )
( )
A regressão é, provavelmente, a metodologia estatística mais utilizada. Geralmente,
tem respostas a questões do tipo:
Em várias con�gurações quantitativas, as técnicas de regressão modelam a relação
entre a variável de resposta de interesses especiais (Y) e um conjunto x1, x2, x3 …xk de
variáveis explicativas ou preditoras. Vinculando a variável de resposta às variáveis
preditoras:
Y = f x1. . . xk + ϵ                                             (2.4)
onde:
f x1. . . xk é determinístico;
ϵ é aleatório.
𝛜 é o termo de erro, que não pode ser controlado ou previsto. No entanto conhecer o
seu valor é útil. Note que k é o número de variáveis preditoras e que a variável resposta
deve ser quantitativa contínua.
Procura-se achar a função f (a priori, desconhecida), de modo que é necessária uma
informação adicional para restringir o espaço de soluções. Se assumirmos uma
modelagem linear, teremos:
Y = β0 + β1x1 + . . . + βkxk + ϵ                                 (2.5)
Achar f(.) se resume a determinar β0, β1, β2, . . . , βk dos dados.
Exemplo: linha de regressão para uma regressão multivariável.
Y = –120,07 + 100,81 X1+ 0,38 X2+ 3,41 X3 ,
onde:
( )
( )
como o preço do apartamento depende do tamanho, da localização, do
andar, da proximidade com o metrô, dentre outros fatores; 
        X1 = altura (metros);
        X2 = idade (anos);
        X3 = sexo (1 = feminino, 2 = masculino);
        Y = o peso a ser estimado (kg).
β0 = − 120, 07; β1 = 100, 81; β2 = 0, 38; β3 = 3, 41
Para estimar os parâmetros β0, β1, β2, . . . , βk foi usado o método dos mínimos
quadrados para dados multivariados, de forma a somar todos os “desvios quadrados”
observados na linha de regressão. Veja a seguir a Tabela 2.1, com dados �ctícios, que
relaciona as três variáveis e os coe�cientes βi correspondentes às variáveis preditoras.
Na coluna cinco, vemos as variáveis resposta Yi.
A seguir, na Figura 2.2, com os dados plotados em três dimensões (usando o software
matlab®), observe que, usando três variáveis preditoras, ainda é possível visualizar os
dados.
Figura 2.2 – Grá�co representando os valores da Tabela 2.1, correspondendo às
variáveis: altura (x1), idade (X2) e sexo (X3)
Fonte: Elaborada pelo autor.
#PraCegoVer: a �gura apresenta um grá�co em três dimensões. No plano base horizontal,
os rótulos X1 (altura, metros) apresentam valores de 1 até 2,5, com incrementos de 0,5, e
os rótulos X2 (idade, anos), valores entre 20 até 35, com incrementos de cinco. O eixo
vertical corresponde à variável X3 (sexo, 1 homem, 2 mulher). Na parte interior do espaço
de três dimensões, há nove círculos na cor azul.
Na Figura 2.2, ainda é possível representar, gra�camente, as variáveis preditoras.
Considere o caso de ter mais de três variáveis preditoras, como poderíamos visualizar
as inter-relações entre elas? É necessário considerar todas as variáveis? O modelo
pode ser simpli�cado? Ou seja, é possível juntar variáveis preditoras e criar novas que
sejam representativas? As seções a seguir respondem a cada uma dessas perguntas.
Planejamento Fatorial
A análise fatorial visa simpli�car as múltiplas e complexas relações que podem existir
entre um conjunto de variáveis observadas x1, x2, x3 … xk. Para isso, ela tenta
encontrar dimensões ou fatores comuns que incluam as variáveis que, aparentemente,
não estão relacionadas. Especi�camente, trata-se de encontrar um conjunto de q<p
fatores não observáveis diretamente, f , f … f , que permitam explicar su�cientemente
as variáveis observadas, perdendo o mínimo de informação, para que sejam
facilmente interpretáveis e que sejam, em quantidade, o menor número possível, ou
seja, k pequenos. Além disso, os fatores devem ser extraídos de forma que sejam
independentes entre si.
Na sequência, abordaremos os modelos lineares generalizados, que são
frequentemente usados na indústria de seguros para apoiar decisões críticas.
Modelos Lineares Generalizados
1 2 n
Fonte: donskarpo /
123RF.
A modelagem linear generalizada é utilizada para avaliar e quanti�car a relação
funcional entre uma variável de resposta aleatória e um conjunto de variáveis
explicativas. Os modelos lineares generalizados são extensões dos modelos lineares
vistos nas seções anteriores.
Para Jong e Heller (2008), essa modelagem difere da modelagem de regressão
comum em dois aspectos importantes:
(i) a distribuição da resposta é escolhida pela família exponencial. Assim, a
distribuição da resposta não precisa ser normal ou próxima do normal e pode ser
explicitamente não normal;
(ii) uma transformação da média da resposta é linearmente relacionada às variáveis
explicativas.
Exemplos
Nos estudos de mortalidade, o objetivo é explicar o número de óbitos em
função de variáveis como idade, sexo e estilo de vida.
Nos seguros de saúde, podemos querer explicar o número de sinistros feitos
por diferentes indivíduos ou grupos de indivíduos em termos de variáveis
explicativas, como idade, sexo e ocupação.
No seguro geral ou de acidentes, a contagem de juros pode ser o número de
sinistros feitos em apólices de seguro de veículos. Isso pode ser uma função
da cor do carro, da capacidade do motor, da experiência anterior em sinistros e
assim por diante.
A partir dos exemplos, vemos que os modelos lineares generalizados são utilizados no
setor de seguros para apoiar decisões críticas.
Assim, chegamos ao �m do nosso tópico sobre técnicas multivariadas de dados. Nele,
você teve a oportunidade de aprender mais sobre o assunto. Agora, o que acha de
realizar uma atividade para testar os seus conhecimentos? Vamos lá!
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
A �gura a seguir é uma representação grá�ca auxiliar para ilustrar a fórmula de
mínimos quadrados, cujos coe�cientes “a” e “b” são calculados por meio das
fórmulas:
a = 
Σni= 1Yi − bΣ
n
i= 1Xi
n
b =
nΣni= 1XiYi − Σ
n
i= 1X1Σ
n
i= 1Yi
nΣni= 1X
2
i − (Σ
n
i= 1X1)
2
Figura – Tabela e grá�co de uma linha de regressão, obtida com o Excel ©
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem apresenta um print de tela obtido com o Excel©,
composta por uma tabela e um grá�co. Na tabela, temos, na coluna “B”,
“Temperatura °C” e os valores “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”;
“18,70”; “22,03”; “23,80”; e “25,00”. Na coluna “C”, “Vendas R$/.” e os valores“196”,
“201”, “311”, “311”, “403”, “405”, “403”, “503”, “511” e “601”. No grá�co,
observamos dez pontos vermelhos, que correspondem aos pontos de interseção
dos dados, e uma linha preta, que inicia no primeiro ponto e �naliza no último.
Essa linha acompanha a distribuição dos pontos.
Assinale a alternativa correta, que apresenta os valores numéricos dos parâmetros
“a” e “b”.
a) a = -171,5 e b = 30,44
b) a = 171,5 e b = 30,44
c) a = 30,44 e b = 171,5
d) a = -30,44 e b = 171,5
e) a = -171,5 e b = -30,44
Na sequência, vamos estudar, no escopo da análise de conglomerados, alguns dos
diferentes modelos para cálculo da distância entre elementos, de forma a construir
conglomerados (clusters) aglomerativos. Saber escolher qual modelo usar para o
cálculo da distância pode te ajudar a mudar de um classi�cador ruim para um modelo
preciso.
Distância Euclidiana
Para construirmos clusters aglomerativos, precisamos de�nir a distância entre dois
objetos (casos) xi1, xi2, xi3 … xik e (xj1, xj2, xj3 … xjk) e, eventualmente, entre clusters.
Primeiro, temos que examinar a distância entre dois objetos e veri�car se as unidades
de medida das variáveis “k” são iguais. Em caso negativo, indica-se que as variáveis
Análise de
Conglomerados:
Distâncias Euclidiana,
Manhattan e
Chebyshev
( )
sejam normalizadas. A medida de distância mais usada entre os dois casos é a
euclidiana, de�nida pela equação (FÁVERO; BELFIORE, 2015, p. 316):
dij = (xj1 − xi1)
2 + (xj2 − xi2)
2 + . . . + (xkj − xki)
2
Em geral, a distância euclidiana funciona muito bem quando se tem dados de baixa
dimensão. Embora muitas outras fórmulas tenham sido desenvolvidas para calcular a
distância, ela ainda é uma das mais usadas, e por boas razões: é uma fórmula
incrivelmente intuitiva de se usar, simples de implementar e mostra ótimos resultados
na maioria dos casos. Na �gura a seguir, podemos observar um exemplo do caso da
distância entre dois objetos (pontos) no espaço bidimensional.
Figura 2.3 – Distância euclidiana entre dois elementos
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem apresenta o primeiro quadrante do plano cartesiano. Nele,
podemos observar dois pontos pretos, representando elementos do conglomerado, unidos
por uma linha preta. Cada ponto representa suas respectivas coordenadas cartesianas.
A fórmula para esse caso particular seria:
√
d12 = (x21 − x11)
2 + (x22 − x22)
2 de forma mais familiar
d12 = (x2 − x1)
2 + (y2 − y1)
2
Distância de Manhattan
A distância de Manhattan, muitas vezes chamada de distância do táxi ou distância do
quarteirão da cidade, difere da distância euclidiana. Ela utiliza a soma das diferenças
absolutas das variáveis, ou seja, os dois lados de um triângulo retângulo em vez de a
hipotenusa (HAIR et al., 2009, p. 207).
A distância de Manhattan é a média por diferença de coordenadas. Na maioria dos
casos, seu valor fornece os mesmos resultados de agrupamento que a distância
euclidiana, no entanto ela reduz a in�uência dos valores distantes (KOLODIAZHNYI,
2020, p. 105).
Ela é de�nida pela equação (FÁVERO; BELFIORE, 2015, p. 316):
dij = xj1 − xi1 + xj2 − xi2 + . . . + xjk − xik
Quando o conjunto de dados tem atributos discretos e/ou binários, a Manhattan
parece funcionar muito bem, pois leva em consideração os caminhos que poderiam
ser tomados de forma realista, dentro dos valores desses atributos.
Distância de Chebyshev
A distância de Chebyshev é a maior diferença absoluta individual de qualquer par de
coordenadas entre dois pontos (EISELET; SANDBLOM, 2007, p. 344). Essa de�nição
�ca clara na fórmula de Chebyshev, observe que o valor absoluto garante que a
diferença entre pares de coordenadas seja sempre positiva. Obviamente, não teria
sentido falar de distâncias negativas. Além disso, é escolhida a maior diferença como
resultado da aplicação da função “max”. A distância de Chebyshev pode ser útil
quando precisamos classi�car dois objetos como diferentes quando eles diferem
apenas por uma das coordenadas (KOLODIAZHNYI, 2020, p. 105). Ela é de�nida pela
equação (FÁVERO; BELFIORE, 2015, p. 316):
dij = max xj1 − xi1 , xj2 − xi2 , . . . . xjk − xik
√
√
| | | | | |
(| | | | | | )
Chegamos ao �m do nosso tópico sobre análise de conglomerados, especi�camente,
sobre o cálculo das distâncias nesse escopo: distâncias euclidiana, Manhattan e
Chebyshev. Nele, você teve a oportunidade de aprender mais sobre o assunto. O que
acha de realizar uma atividade para testar os seus conhecimentos? Vamos lá!
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Os diferentes métodos de cálculo da distância aparecem em várias outras disciplinas,
como Data Science, Machine Learning e Econometria. Você tem que escolher a mais
conveniente segundo o tipo de variável que esteja trabalhando. As distâncias
proporcionam o grau de similaridade entre os dados.
Dados os pontos da tabela a seguir, calcule as distâncias usando:
a) Distância de Manhattan
dij = xj1 − xi1 + xj2 − xi2 + . . . . + xjk − xik
b) Distância euclidiana
dij = (xj1 − xi1)
2 + (xj2 − xi2)
2 + . . . + (xkj − xki)
2
c) Distância de Chebyshev
dij = max xj1 − xi1 , xj2 − xi2 , . . . . xjk − xik
A partir do que foi apresentado, assinale a alternativa correta.
| | | | | |
√
( | | | | | |)
a) As respectivas distâncias são: 5,4; 4,0 e 3,23.
b) As respectivas distâncias são: 6,4; 3,0 e 3,23.
c) As respectivas distâncias são: 0,4; 3,2 e 3,23.
d) As respectivas distâncias são: 5,0; 4,12 e 4,0. D.
e) As respectivas distâncias são: 6,4; 4,2 e 3,23.
No estudo da distância entre conglomerados, precisamos de�nir, de alguma forma, a
distância entre os objetos em um aglomerado e em outro. Essas distâncias,
geralmente, são de�nidas em: ligação única (vizinho mais próximo) e ligação completa
(vizinho mais distante). Cada uma dessas medidas é de�nida na ordem abaixo.
Método de Ligação do Vizinho mais Próximo
A distância de ligação do vizinho mais próximo, também chamada de distância de
ligação única entre dois conglomerados, é de�nida como a distância entre o par de
objetos mais próximo nos dois conglomerados (um objeto em cada). Se o aglomerado
A é o conjunto de objetos A , A , ..., A e o aglomerado B é B , B , ..., B , a distância de
ligação única entre os conglomerados A e B é:
Análise de
Conglomerados:
Métodos de Ligação
1 2 n 1 2 n
D(A, B) = min dij
Nele: d é a distância euclidiana entre A e B ; A é um elemento que pertence ao
conglomerado A; e B é um elemento que pertence ao conglomerado B.
Em cada estágio de agrupamento, baseados na medida de distância de ligação do
vizinho mais próximo, os conglomerados A e B, para os quais D(A, B) é mínimo, são
misturados. A �gura a seguir ilustra um exemplo.
Figura 2.4 – Distância de ligação do vizinho mais próximo entre conglomerados
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem apresenta grupos de pontos pretos. Em cada grupo, os pontos
estão próximos uns dos outros. Na fronteira, há dois pontos cuja distância entre eles é
mínima. Uma linha preta os une.
A seguir, vamos estudar os métodos de ligação conhecidos como método de ligação
do vizinho mais longe, também chamado de método de ligação completa.
( )
ij i j i
j
Método de Ligação do Vizinho mais Longe
A distância de ligação do vizinho mais longe, também chamada de distância de
ligação completa entre dois conglomerados, é de�nida como a distância entre o par
de objetos mais longe nos dois conglomerados (um objeto em cada). Se o aglomerado
A é o conjunto de objetos A , A , ..., A e o aglomerado B é B , B , ..., B , a distância de
ligação completa entre os conglomerados A e B é:
D(A, B) = max dij
Nele: d é a distância euclidiana entre A e B ; A é um elemento que pertence ao
conglomerado A; e B é um elemento que pertence ao conglomerado B.
Em cada estágio de agrupamento, baseados na medida de distância de ligação do
vizinho mais longe, os conglomerados A e B, para os quais D(A, B) é máximo, são
misturados. A �gura a seguir ilustra um exemplo.
1 2 n 1 2 n
( )
ij i j i
j
Figura 2.5 – Distânciade ligação do vizinho mais distante entre conglomerados
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem apresenta grupos de pontos pretos. Em cada grupo, os pontos
estão próximos uns dos outros. Na fronteira, há dois pontos cuja distância entre eles é
máxima. Uma linha os une.
A seguir, podemos observar um infográ�co interessante, apresentado no livro “Data
mining: practical machine learning tools and techniques” (WITTEN; FRANK, 2005, p.
78), relacionado com dados nominais. Note que, indiferente ao tipo de dado, ele tem
que ser codi�cado de forma a ter a sua representação numérica. Agora, pense em
uma imagem e seus diferentes tons de cores, eles precisam ser codi�cados para
poderem ser tratados por meio dos diferentes métodos da análise multivariada.
Fonte: vectorjuice / Freepik.
#PraCegoVer: o infográ�co estático, intitulado “Distância entre atributos nominais”,
apresenta logo abaixo do título a ilustração de um braço robótico segurando uma
engrenagem, junto com uma pessoa, que também segura uma engrenagem; ao fundo, há
uma tela. À esquerda do título e da ilustração, há o texto "Quando atributos nominais estão
presentes, é necessário criar uma ‘distância’ entre os diferentes valores desse atributo.
Quais são as distâncias entre, digamos, os valores vermelho, verde e azul? Normalmente,
uma distância de zero é atribuída se os valores forem idênticos; caso contrário, a distância
é um. Assim, a distância entre vermelho e vermelho é zero, mas entre vermelho e verde é
um. No entanto pode ser desejável usar uma representação mais so�sticada dos atributos.
Por exemplo, com mais cores, pode-se usar uma medida numérica de matiz no espaço de
cores, tornando o amarelo mais próximo do laranja do que do verde, e o ocre ainda mais.
Alguns atributos são mais importantes que outros, e isso geralmente se re�ete na métrica
de distância por algum tipo de ponderação de atributo. Derivar pesos de atributos
adequados do conjunto de treinamento é um problema-chave no aprendizado baseado em
instâncias (WITTEN; FRANK, 2005)”.
Na sequência, vamos ler e re�etir sobre um parágrafo interessante, que põe em
destaque um assunto relacionado ao método dos mínimos quadrados e à sua
associação com os softwares livres e comerciais. Além disso, destaca a sua aplicação
em várias áreas, desde as mais conhecidas até aquelas que estão surgindo, como a
inteligência arti�cial, o aprendizado de máquina, a economia e a administração, até em
ciências puras, como a física e a química. Nas ciências puras, especi�camente na
parte experimental, nos testes e nos experimentos de laboratório.
Chegamos ao �m do nosso tópico sobre análise de conglomerados, especi�camente
sobre os métodos de ligação. Nele, você teve a oportunidade de aprender mais sobre
o assunto. O que você acha de praticar para testar seus conhecimentos? Vamos lá!
praticar
REFLITA
“Os modelos de regressão simples e múltipla
estimados pelo método de mínimos quadrados
ordinários representam o grupo de técnicas de
regressão mais utilizadas em ambientes acadêmicos e
organizacionais, dada a facilidade de aplicação e de
interpretação dos resultados obtidos, além do fato de
estarem disponíveis na grande maioria dos softwares,
mesmo naqueles em que não haja especi�camente um
foco voltado à análise estatística de dados. É
importante também ressaltar a praticidade das técnicas
estudadas neste capítulo para �ns de elaboração de
diagnósticos e previsões.”
Fonte: Fávero e Bel�ore (2015, p. 599).
praticar
Vamos Praticar
Como você pode constatar no nosso estudo, é possível usar o Excel © para calcular a
linha de regressão e os parâmetros “a” e “b”. Para isso, siga os passos:
Figura – Passo 1. Escolha, no menu principal do Excel, a opção “Dispersão”,
depois, sendo mais especí�co, “Dispersão somente pontos”
Fonte: Elaborada pelo autor.
#PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar parte do
menu principal, com destaque à opção “Dispersão”, que se encontra expandida.
Dos quatro modelos de dispersão, está em destaque a “Dispersão por pontos”. Na
parte da planilha, nas colunas “B” e “C”, há uma tabela com dados de temperatura
em graus centígrados e vendas em reais. Os dados para as temperaturas são:
“11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”; “22,03”; “23,80”; e
“25,00”. Na coluna “Vendas R$/.”, temos: “196”; “201”; “311”; “311”; “403”; “405”;
“403”; “503”; “511”; e “601”.
Figura – Passo 2. Plotando os dados da tabela
Fonte: Elaborada pelo autor.
#PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar que, na
parte da planilha nas colunas “B” e “C”, há uma tabela com dados de
“Temperatura” em graus centígrados e “Vendas” em reais. Os dados para as
temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”;
“22,03”; “23,80”; e “25,00”. Na coluna vendas, temos: “196”; “201”; “311”; “311”;
“403”; “405”; “403”; “503”; “511”; e “601”. Ao lado da tabela, podemos observar um
grá�co de dispersão de pontos em que cada ponto se intersecta no par de
coordenadas (“Temperatura”, “Vendas”), correspondentemente.
Figura – Passo 3. Adicionando uma linha de regressão
Fonte: Elaborada pelo autor.
#PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar que, na
parte da planilha nas colunas “B” e “C”, há uma tabela com dados de
“Temperatura” em graus centígrados e “Vendas” em reais. Os dados para as
temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”;
“22,03”; “23,80”; e “25,00”. Na coluna “Vendas”, temos: “196”; “201”; “311”; “311”;
“403”; “405”; “403”; “503”; “511”; e “601”. Ao lado da tabela, podemos observar um
grá�co de dispersão de pontos, cada ponto se intersecta no par de coordenadas
(“Temperatura”, “Vendas”), correspondentemente. Adicionalmente, há uma linha
preta que acompanha a tendência dos pontos espalhados no grá�co.
Figura – Passo 4. Adicionando a equação de regressão
Fonte: Elaborada pelo autor.
#PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar que, na
parte da planilha nas colunas “B” e “C”, há uma tabela com dados de
“Temperatura” em graus centígrados e “Vendas” em reais. Os dados para as
temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”;
“22,03”; “23,80”; e “25,00”. Na coluna vendas, temos: “196”; “201”; “311”; “311”;
“403”; “405”; “403”; “503”; “511”; e “601”. Ao lado da tabela, podemos observar um
grá�co de dispersão de pontos, cada ponto se intersecta no par de coordenadas
(“Temperatura”, “Vendas”), correspondentemente. Adicionalmente, há uma linha
preta que acompanha a tendência dos pontos espalhados no grá�co. Acima de
um ponto selecionado, vemos uma janela mostrando várias opções, em destaque,
a opção “Adicionar Linha de Tendência”, indicando que esse seria o próximo
passo.
Figura – Passo 5. Adicionando a equação de regressão linear no grá�co de
dispersão
Fonte: Elaborada pelo autor.
#PraCegoVer: nessa �gura, podemos observar um grá�co correspondente a uma
janela de opções para inserir a linha de tendência. Em destaque, vemos a opção
“Opções de Linha de Tendência" no painel esquerdo. No painel direito, há vários
tipos de grá�cos de regressão, com o grá�co de tendência “Linear” selecionado,
e, na parte inferior, selecionada a opção “Exibir Equação no grá�co”.
Figura – Passo 6. Equação de regressão no grá�co
Fonte: Elaborada pelo autor.
#PraCegoVer: print de uma planilha do Excel ©. Nele, é possível observar que, na
parte da planilha nas colunas “B” e “C”, há uma tabela com dados de
“Temperatura” em graus centígrados e “Vendas” em reais. Os dados para as
temperaturas são: “11,82”; “14,10”; “15,61”; “16,30”; “17,22”; “18,10”; “18,70”;
“22,03”; “23,80”; e “25,00”. Na coluna vendas, temos: “196”; “201”; “311”; “311”;
“403”; “405”; “403”; “503”; “511”; e “601”. Ao lado da tabela, podemos notar um
grá�co de dispersão de pontos, cada ponto se intersecta no par de coordenadas
(“Temperatura”, “Vendas”), correspondentemente. Adicionalmente, há uma linha
preta que acompanhaa tendência dos pontos espalhados no grá�co. Em
vermelho, com fontes grandes, temos a equação de regressão linear com a =
-171,5 e b = 30,43, correspondentes à equação: Y = a + bx.
Para você praticar, faça uma tabela no Excel ©. Na primeira coluna, a estatura em
metros de quinze conhecidos, na segunda coluna, a idade em anos correspondente.
Depois, calcule a equação de regressão. Em uma segunda fase, inverta os conteúdos
das colunas e veri�que se os parâmetros “a” e “b” mudam. Em seguida, analise seus
resultados e justi�que a semelhança ou diferença.
Material
Complementar
W E B
Introdução à regressão linear
Ano: 2018
Comentário: muitas das técnicas da análise multivariada estão
sendo utilizadas em Machine Learning e Data Science. Esse vídeo
pertence a um canal chamado Academia de Experts em
Inteligência Arti�cial e trata do assunto da Regressão Linear, com
vários exemplos.
Para acessá-lo, clique no link a seguir:
ACESSAR
https://youtu.be/ltRVgNsZBXE
L I V R O
Análise estatística de dados geológicos
multivariados
Autor: Paulo M. Barbosa Landim
Editora: O�cina de Textos
Capítulo: 2
Ano: 2011
ISBN: 9788579751523
Comentário: o livro foi escrito numa linguagem simples, por um
professor experiente, para alunos principiantes com
conhecimentos básicos de estatística. A leitura do capítulo 2 é
amplamente recomendável devido ao que virá a complementar e
ilustrar com mais exemplos a seção 2.1.1, em especial, o tópico
sobre regressão múltipla, apresentando as fórmulas usadas para
cálculo dos parâmetros  .
Disponível em: Biblioteca Virtual.
Conclusão
Chegamos ao �nal do nosso estudo sobre técnicas multivariadas e análise de
conglomerados.
O método de ligação do vizinho mais longe é semelhante ao método de ligação do vizinho
mais próximo, embora se baseie na distância máxima entre os objetos. No primeiro, a
distância entre dois grupos é calculada entre seus dois pontos mais afastados.
No método do vizinho mais próximo, ao unir elementos dos conglomerados que estejam
mais próximos, os objetos intermediários entre os grupos são rapidamente conglomerados.
Não é possível a�rmar, taxativamente, qual método é melhor, depende, dentre outras coisas,
da natureza dos dados e do escopo dos mesmos. O que é possível e recomendável é
efetuar medidas do grau de ajuste entre a matriz original dos coe�cientes de distância e a
matriz resultante do processo de agrupamento. Alguns autores, inclusive, recomendam
aceitar a matriz resultante se o valor do grau de ajuste for igual ou maior que 0,7%.
Diversas técnicas são propostas, não há uma teoria generalizada e amplamente aceita.
Recomenda-se utilizar vários métodos e obter o grau de ajuste para cada um deles e, logo
depois, passar à análise dos dados.
Os diferentes modelos da análise multivariada não fornecem respostas de�nitivas às
perguntas. Os modelos simplesmente fornecem mais informações sobre os dados.
Especi�camente, os conglomerados permitem que os pesquisadores identi�quem quais
observações são semelhantes em muitas variáveis diferentes.
Referênci
as
EISELET, H. A.; SANDBLOM, C. L.
Linear programming and its
applications. Berlim: Springer, 2007.
FÁVERO, L. P.; BELFIORE, P. Análise
de dados: técnicas multivariadas
exploratórias com SPSS e STATA.
São Paulo: Gen Atlas, 2015.
HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009.
INTRODUÇÃO à regressão linear. [S. l.: s. n.], 2018. 1 vídeo (18 min.). Publicado pelo canal IA
Expert Academy. Disponível em: https://www.youtube.com/watch?v=ltRVgNsZBXE. Acesso
em: 27 abr. 2022.
JONG, P.; HELLER, G. Z. Generalized linear models for insurance data. Cambridge:
Cambridge University Press, 2008.
KOLODIAZHNYI, K. Hands-on machine learning with C++: build, train, and deploy end-to-end
machine learning and deep learning pipelines. Birmingham: Packt Publishing, 2020.
LANDIM, P. M. B. Análise estatística de dados geológicos multivariados. São Paulo: O�cina
de Textos, 2011. (Disponível na Biblioteca Virtual).
MATSUMOTO, E. Regression Analysis in MATLAB: new in statistics toolbox R2012a.
MathWorks, [2022]. Disponível em: https://www.mathworks.com/videos/regression-
analysis-in-matlab-new-in-statistics-toolbox-r2012a-82429.html. Acesso em: 26 abr. 2022.
SPIEGEL, M. R.; LIPSCHUTZ, S.; LIU, J. Manual de fórmulas e tabelas matemáticas. Porto
Alegre: Bookman, 2012.
WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques. 2.
ed. Massachusetts: Morgan Kaufmann Publishers, 2005.
https://www.youtube.com/watch?v=ltRVgNsZBXE
https://www.mathworks.com/videos/regression-analysis-in-matlab-new-in-statistics-toolbox-r2012a-82429.html
https://www.mathworks.com/videos/regression-analysis-in-matlab-new-in-statistics-toolbox-r2012a-82429.html