Livro Digital - ANÁLISE ESTATÍSTICA DE DADOS - cap 3

Análise Estatística

•

FACSPEI

Kah Bueno

10/07/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise Estatística

10.087 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

MODELAGEM
MULTIVARIADA
OBJETIVOS DE APRENDIZAGEM
Compreender as principais técnicas de análise multivariada.
Entender em quais circunstâncias deve ser aplicada cada técnica.
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:
1 CONTEXTUALIZAÇÃO
Com a grande quantidade de informações produzidas por diversos meios, como a
internet, grandes volumes de dados são gerados a cada momento. Esses dados,
muitas vezes, têm múltiplas variáveis, e por esse motivo, fazer uso de técnicas
mais simples, por exemplo, a análise de regressão simples, não é viável.
As técnicas multivariadas são capazes de extrair informações dessas múltiplas
relações e obter um entendimento completo para tomar decisões. Elas estão
sendo frequentemente aplicadas nos negócios, e em vários setores do comércio,
pois não é relevante levar em consideração apenas consumidores de grupos
pequenos e homogêneos. Para ter uma boa visão de mercado é preciso
desenvolver estratégias que alcancem diversos grupos de consumidores com
características diferentes.
Neste capítulo vamos abordar sobre técnicas multivariadas explanando suas
características e principais conceitos. Vamos abordar as principais diferenças e em
qual situação cada uma se aplica.
Capítulo 3 
Técnicas Univariadas: a população é descrita uma variável por vez. Ex.:
Estatística Descritiva.
Técnicas Bivariadas: nela são incluídos métodos de análise com duas
variáveis, podendo ser ou não estabelecida uma relação de causa/efeito
entre elas. : Teste para a independência de duas variáveis; Relação linear
entre duas variáveis.
Técnicas Multivariadas: são as técnicas de análise das relações de múltiplas
variáveis dependentes e/ou múltiplas variáveis independentes. Essas
variáveis podem ter relação ou não de causa/efeito entre duas ou mais
variáveis. Esses métodos possibilitam que se faça uma exploração da
performance conjunta das variáveis, e seja determinada a correlação entre
elas. Ex.: Regressão múltipla; Análise multivariada de variância.
No capítulo inicial falaremos sobre a regressão logística, esclarecendo suas
principais características.
No próximo capítulo a Análise de Cluster é explanada, em que seus principais
conceitos, como medidas de similaridade e distância, são abordados de forma a
deixar claro os seus principais objetivos.
Após vamos contextualizar sobre o agrupamento não hierárquico, elencando seus
principais atributos.
No último capítulo estudaremos sobre os conceitos de K-ésimo vizinho mais
próximo, abordando seus atributos principais.
2 REGRESSÃO LOGÍSTICA
O que é Análise Multivariada?
As informações disponíveis para a tomada de decisões aumentaram
gradativamente no decorrer dos anos. Essas informações são coletadas e
armazenadas em bancos de dados, nos quais �cam disponíveis para serem feitas
as extrações dos dados com a �nalidade de auxiliar na tomada de decisões. Parte
dessa informação pode ser analisada e compreendida com estatística simples, mas
quando temos dados múltiplos é preciso usar técnicas estatísticas multivariadas
mais complexas para converter tais dados em conhecimento (HAIR, 2009).
Com base neste alto conjunto de informações, os métodos multivariados são
bastante usados.
Mas, primeiro vamos entender a diferença entre as técnicas univariadas,
bivariadas e multivariadas.
Capítulo 3 
Responder
Todas as variáveis devem ser aleatórias.
Todas a variáveis devem ser inter-relacionadas.
Os efeitos das variáveis não podem ser signi�cativamente interpretados se
analisadas separadamente.
Em um estudo em que precisamos analisar as variáveis preço, produto, local
e consumidor, qual tipo de técnica devemos usar?
Análise multivariada tem suas propriedades a partir das estatísticas univariada e
bivariada, a dimensão para a estatística multivariada possui conceitos adicionais,
como a inserção de mais variáveis no modelo.
Para uma distribuição ser considerada multivariada é preciso seguir alguns
conceitos:
E como construímos matematicamente as técnicas multivariadas?
O construtor da análise multivariada é denominado de variável estatística, isto é,
uma combinação linear de variáveis com pesos empiricamente determinados
(HAIR, 2009). As variáveis são de�nidas pelo pesquisador, sendo os pesos
determinados pelo método multivariado. Pode-se de�nir a variável estatística de n
variáveis ponderadas ( ) como:
Em que:
= variável observada.
Capítulo 3 
Raça.
Gênero.
Doença.
Morte.
= peso determinado pela técnica multivariada.
O resultado �nal é o valor que representa a combinação do conjunto inteiro de
variáveis que melhor atinge o objetivo. A variável estatística extrai os valores
multivariados da análise (HAIR, 2009).
2.1 CONCEITOS DA REGRESSÃO LOGÍSTICA
Agora que �zemos uma pequena introdução em análise multivariada, vamos
relembrar os conceitos de Regressão Linear!
Primeiramente vamos relembrar o que é um modelo de regressão.
Um modelo de regressão visa estimar ou prever para cada indivíduo o valor
numérico de alguma variável que pertença a ele. Um exemplo de regressão seria:
existe relação entre o aumento de vendas com a expansão do horário de
funcionamento da loja? Ou: é possível prever a quantidade de produtos que
podem ser vendidos em uma promoção?
Regressão é uma medida estatística usada em qualquer área em que é preciso
veri�car a relação entre uma variável dependente (denotada por Y) e uma série de
outras variáveis (variáveis independentes). A regressão ajuda os coordenadores do
negócio a avaliar os ativos e a entender as relações entre variáveis, como os preços
de um determinado produto e valor desse produto que está sendo comercializado
pelas empresas.
Bom, agora que �zemos um pequeno resumo sobre regressão, iniciaremos nosso
estudo sobre regressão logística!
O que são variáveis categóricas?
Podemos de�nir as variáveis que podem ser mensuradas usando categorias.
Exemplos de variáveis categóricas:
Variáveis categóricas são diferentes das variáveis contínuas.
Capítulo 3 
Tem o propósito de estimar a probabilidade de a variável dependente poder
assumir um determinado valor em função de valores conhecidos de outras
variáveis.
Os resultados da análise �cam contidos no intervalo de zero a um.
Variáveis contínuas podem assumir um número in�nito de valores.
As variáveis categóricas contêm um número �nito de valores.
Essas variáveis são denominadas de dummys, pois elas podem receber apenas
dois valores, “sim” ou “não”. Por exemplo:
Y: Cliente vai comprar o novo produto desenvolvido.
0 = O cliente não compra o produto.
1 = O cliente compra o produto.
O modelo logístico é uma técnica frequentemente usada para situações em que a
variável dependente (Y) é de natureza dicotômica ou binária (PROVOST, 2013). Em
relação às variáveis independentes, elas podem ser categóricas ou não. O modelo
é um recurso que nos permite estimar a probabilidade associada à ocorrência de
determinado evento em face de um conjunto de variáveis explanatórias.
Características:
Cada tem distribuição de Bernoulli, na qual a função de distribuição de
probabilidade é dada por (MORETTIN, 2017):
Onde:
y: representa o evento ocorrido.
p: probabilidade de sucesso para a ocorrência do evento.
Como podemos veri�car, os eventos estão em várias sequências com a
distribuição de Bernoulli, a soma do número de sucessos ou fracassos neste
experimento terá distribuição Binomial de parâmetros n (número de observações)
e p (probabilidade de sucesso). A função de distribuição de probabilidade da
Binomial é dada por Morettin (2017):
Capítulo 3 
A função logit é linear nos parâmetros.
A função logit é contínua.
Os seus valores podem variar dentro do conjunto real.
A transformação para um modelo logístico é a partir do logaritmo da razão de
probabilidades, onde a regressão nos fornece uma ideia do risco de uma pessoa
obter um dado efeito de algumas variáveis explicativas que serão introduzidas
maisà frente. Essa transformação é chamada de logit, e o principal objetivo é
linearizar o modelo, aplicando o logaritmo. A transformação é dada por Cabral
(2013):
FIGURA 1 - A ESTIMATIVA DE REGRESSÃO LOGÍSTICA DA PROBABILIDADE DE
CLASSE EM FUNÇÃO DE F(X)
FONTE: Provost (2013, p. 100).
A transformação para um modelo logístico tem um papel importante, pois os
modelos que passam por esse processo têm algumas propriedades do modelo de
regressão linear. Essas propriedades são citadas abaixo (CABRAL, 2013):
A transformação é denominada de: transformação logit de . Ela é dada pela razão
citada abaixo:
Podemos chamar essa razão: de odds (razão de chances).
O que é razão de chances?
Use a razão de chances para comparar as chances de dois eventos. Por exemplo,
você quer comparar os estudantes que receberam ensino doméstico com os
Capítulo 3 
Fazer previsões de risco na área tributária – calcular a probabilidade de o
contribuinte ser inadimplente ou adimplente após o parcelamento de
tributos, de acordo com Dias Filho (2003).
Classi�car se a empresa se encontra no grupo de empresas com qualidade
ou sem qualidade.
Capacidade de lidar com variáveis independentes categóricas.
Os resultados �nais são em termos de probabilidade.
Classi�car indivíduos em categorias.
Não precisa de um grande número de suposições.
Alto grau de con�abilidade.
alunos que frequentaram o ensino público. O objetivo da análise é determinar se
um grupo era mais provável de se formar na universidade com honras.
FONTE: O que é razão de chances? Disponível: <https://bit.ly/3hWkLJe> Acesso em: 5 dez. 2018.
Aplicação do modelo logístico:
Vantagens do Modelo Logístico:
Rótulos de Classe e Probabilidades
Podemos pensar que a variável alvo é uma representação da probabilidade de
associação à classe, e os valores observados da variável de destino nos dados de
treinamento, simplesmente por de�nir a probabilidade de p (x) = 1 para casos que
são observados na classe e p (x) = 0 para instâncias que não são observadas na
classe. Porém, isso não acontece da mesma forma na regressão logística.
Por exemplo, em um aplicativo a estimativa de probabilidade para o marketing
alcançar um determinado consumidor (que vamos chamar de c). A probabilidade
de ele responder à oferta possui probabilidade p (c responde) = 0.02, entretanto
isso não signi�ca que a probabilidade desse consumidor responder realmente foi
1.0, nem que o modelo obteve um grande erro. A probabilidade do consumidor
pode, de fato, ter sido em torno de p (c responde) = 0,02, o que na verdade é uma
alta probabilidade de resposta para muitas campanhas.
Capítulo 3 
https://bit.ly/3hWkLJe
Responder
FONTE: PROVOST (2013, p. 101-102).
Sobre o modelo logístico, coloque F para falso e V para verdadeiro, nas
alternativas abaixo:
a) ( ) Os parâmetros do modelo devem seguir normalidade.
b) ( ) Ele é usado frequentemente para variáveis quantitativas.
c) ( ) Podemos usá-lo no caso univariado.
d) ( ) As variáveis do modelo devem ser dicotômicas.
Vamos supor que temos um conjunto de dados em que devemos analisar a
predominância de uma criança ter câncer ou não. Qual seria a melhor de
fazer essa previsão?
Capítulo 3 
Responder
3. ANÁLISE DE CLUSTER
A Análise de Cluster também é conhecida por Análise por Agrupamento, tem o
propósito de descrever as diversas técnicas que têm por objetivo classi�car os
valores de uma matriz de dados sob estudo em grupos de variáveis discretas.
Quando podemos usar esta técnica?
Quando é preciso explorar as similaridades entre conjunto de indivíduos ou
objetos, em que se considera simultaneamente, no primeiro caso, todas as
variáveis medidas em cada indivíduo e, no segundo, todos os indivíduos nos quais
foram feitas as mesmas mensurações.
O objetivo é fazer agrupamentos homogêneos de itens representados por pontos
num espaço n-dimensional em grupos, em que seus elementos se relacionam
através dos coe�cientes de similaridades ou de correspondências. A análise de
agrupamentos faz agregados baseados em distância (proximidade) (HAIR, 2009).
Agora que vimos os conceitos iniciais do assunto, vamos nos aprofundar um pouco
mais.
Como utilizamos essas técnicas na análise multivariada?
A Análise de Cluster classi�ca objetos de maneira que cada objeto seja semelhante
aos outros no agrupamento, com base em um conjunto de características
escolhidas (HAIR, 2009). Os grupos formados devem conter uma grande
homogeneidade dentro de cada grupo, e uma taxa alta de heterogeneidade entre
os grupos. Portanto, os objetos dentro dos agrupamentos estarão próximos
quando forem representados gra�camente, e cada grupo estará distante do outro.
A Figura 2 apresenta alguns exemplos de grupos formados através da técnica de
cluster.
FIGURA 2 - AGRUPAMENTOS
Capítulo 3 
A) Ela é usada apenas para dados bivariados.
B) Classi�ca objetos de maneira que cada objeto seja semelhante
aos outros no agrupamento.
C) O principal propósito é fazer previsões sobre seus objetos no
mesmo grupo.
D) O principal propósito é fazer previsões sobre seus objetos em
grupos diferentes.
Responder
FONTE: <https://bit.ly/39Sg68A>. Acesso em: 25 nov. 2018.
Sobre os conceitos iniciais da análise multivariada podemos a�rmar:
A variável estatística em análise de agrupamentos é determinada de
maneira muito diferente do que ocorre em outras técnicas multivariadas,
pois somente na análise por agrupamento não se estima a variável
estatística empiricamente, em vez disso, usa a variável estatística
especi�cada pelo pesquisador.
Capítulo 3 
https://bit.ly/39Sg68A
Na biologia ela agrega os organismos vivos nos seus respectivos grupos.
Na psicologia ela forma conjuntos de pessoas com base nos seus traços de
personalidade.
Classi�car a estrutura de mercado.
Analisar as semelhanças e diferenças entre novos produtos.
Avaliações de desempenho das empresas para identi�car agrupamentos com
base nas estratégias ou orientações estratégicas da empresa.
1. Redução de dados: em uma pesquisa é coletado um grande número de
dados que somente possuirão signi�cado se forem agrupados. A análise de
agrupamentos pode reduzir os dados para reduzir as informações de uma
população inteira ou de uma amostra, para a informação sobre subgrupos
especí�cos e menores.
O foco da análise de agrupamentos é a comparação de objetos com base
na variável estatística, não na estimação da variável estatística em si. Isso
torna a de�nição da variável estatística feita pelo pesquisador um passo
crítico na análise.
Em quais circunstâncias podemos usar a análise por agrupamento?
A Análise de Cluster pode ser usada em todos os tipos de pesquisas em que se
deseja agrupar objetos semelhantes (HAIR, 2009). Por exemplo:
Para o mercado ela tem grande potencial para agrupar indivíduos, podendo ser
frequentemente usada para:
Frequentemente podemos usar a análise de agrupamento nos seguintes
momentos (HAIR, 2009):
Por exemplo: se é possível compreender o comportamento de uma
população pela identi�cação dos principais grupos dentro dela, então
reduzimos os dados para a população inteira em per�s de vários grupos.
Capítulo 3 
2. Geração de hipóteses: a análise de agrupamentos é útil quando na pesquisa
é preciso desenvolver hipóteses ou examinar hipóteses previamente
estabelecidas.
Marketing: ajuda a identi�car grupos distintos em seu conjunto de clientes, e
assim pode-se desenvolver programas de marketing direcionados para cada
grupo diferente (CHIANG, 2003).
Uso de terras: identi�car as alocações para o uso da terra, com �ns agrários
e/ou urbanos em uma base de dados de observação via satélite (LEVIA, 2000).
Seguro: reconhecer grupos de pessoas que tenham seguro de carro com um
alto custo de risco (YEOH, 2002).
World Wide Web: agrupa os documentos de acordo com as semelhanças
semânticas, de maneira a melhorar os resultados oferecidos por sites de
busca (HAMMOUDA, 2002).
Estudos do terremoto: análise de dados reais e sintéticos deterremotos para
extrair atributos que permitam a previsão de eventos precursores de abalos
sísmicos (DZWINNEL, 2005).
Desse modo, o pesquisador tem uma descrição mais concreta e
compreensível das observações, sem perder muitas informações.
Por exemplo: em uma pesquisa deseja-se estudar as atitudes em relação
ao consumo de refrigerantes diet versus comuns, para que possam ser
usadas para separar os consumidores de refrigerantes em segmentos ou
grupos semelhantes. A análise de agrupamentos pode classi�car os
consumidores de refrigerantes por suas atitudes em relação a refrigerantes
normais versus diet, e os agrupamentos resultantes, se existirem, podem ser
caracterizados por similaridades e diferenças demográ�cas.
As técnicas de agrupamento têm sido usadas em diversas áreas, como:
Alguns pontos importantes sobre a Análise de Agrupamentos
Capítulo 3 
A análise de agrupamentos é descritiva e não inferencial. Ela não tem base
estatística para fazer inferências de uma amostra para uma população. Portanto, a
análise de agrupamentos deve ser aplicada de um modo con�rmatório, usado
para identi�car grupos que já têm uma fundamentação estatística descritiva.
A análise de agrupamentos sempre gera agrupamentos, independentemente da
existência real de alguma estrutura nos dados. Quando o pesquisador usa a
análise de agrupamentos, ele está fazendo uma suposição sobre alguma estrutura
entre os objetos. Porém, encontrar grupos não valida a existência dos mesmos.
Somente com forte suporte conceitual, seguido de validação, é que os
agrupamentos são potencialmente signi�cativos e relevantes.
FONTE: HAIR, 2009, p. 431.
Como podemos aplicar a Análise por Agrupamentos?
Para começar a análise, precisamos medir o grau de relação entre as variáveis. E
como vamos fazer essa medição? Através da medida de similaridade.
3.1 MEDIÇÃO DE SIMILARIDADE
Essa medida é usada para determinar o grau de semelhança entre os objetos e
realiza o agrupamento de acordo com a sua homogeneidade.
Segundo Witten e Frank (2005), a medição ocorre da seguinte forma: cada
elemento é comparado com os existentes usando uma métrica de distância,
e a instância existente mais próxima é usada para atribuir a classe à nova.
Isso é chamado de método de classi�cação de vizinho mais próximo.
As distâncias de similaridade mais comuns são: Distância Euclidiana, Distância
Manhattan, Distância de Mahalanobis () e as Medidas de Associação.
a) Distância Euclidiana: Ela é de�nida como a soma da raiz quadrada da diferença
entre x e y em suas respectivas dimensões. Vamos supor que temos dois pontos
em duas dimensões que tenham coordenadas () e (), respectivamente. A distância
euclidiana entre os pontos é o comprimento da hipotenusa de um triângulo
Capítulo 3 
retângulo, conforme se calcula pela fórmula apresentada na Figura 3, que mostra
um exemplo de distância euclidiana.
FIGURA 3 - EXEMPLO DE DISTÂNCIA EUCLIDIANA
FONTE: Hair (2009, p. 442).
A Distância Euclidiana é dada pela seguinte fórmula:
b) Distância Manhattan: É de�nida pela soma das diferenças entre x e y em cada
dimensão. Sua fórmula é dada por:
c) Distância de Mahalanobis (): Podemos de�nir a Distância de Mahalanobis como a
medida generalizada de distância que explica as correlações entre variáveis de
modo que se pondera da mesma forma todas as variáveis. Porém, para que
possamos usar a distância é necessário que as variáveis sejam padronizadas.
Para as alternativas abaixo, responda F para falso e V para verdadeiro.
a) ( ) A análise multivariada usa a similaridade para determinar o grau de
semelhança entre os objetos dos grupos.
b) ( ) A análise multivariada usa a similaridade para determinar a previsão de
um elemento em comparação a outro elemento no mesmo grupo.
c) ( ) A distância Euclidiana é de�nida pela soma das diferenças entre x e y em
cada dimensão.
d) ( ) A distância de Mahalanobis é de�nida como a soma da raiz quadrada da
diferença entre x e y em suas respectivas dimensões.
Capítulo 3 
Responder
Diferentes medidas de distância ou uma mudança nas escalas das variáveis
podem conduzir a diferentes soluções de agrupamentos. Logo, é
aconselhável usar diversas medidas e comparar os resultados com padrões
teóricos ou conhecidos.
Quando as variáveis estão correlacionadas (positiva ou negativamente), a
medida de distância de Mahalanobis provavelmente é a mais adequada, pois
ajusta correlações e pondera todas as variáveis igualmente.
Qual é a melhor medida de distância?
Para selecionar uma medida de distância é preciso avaliar alguns pontos:
d) Medidas de associação: Essas medidas são usadas para comparar objetos cujas
características foram medidas em valores não métricos (medida nominal ou
ordinal) (FERRER, 2004). Elas avaliam o grau de relação entre os pares
correspondentes. A forma mais simples de medida de associação seria o
percentual de vezes em que ocorre concordância (ambos os respondentes dizem
sim ou ambos dizem não a uma pergunta) no conjunto de questões (HAIR, 2009).
Como podemos selecionar a medida de similaridade?
As três maneiras de medir a similaridade são bastantes úteis, mas a mais
usada é a medida Euclidiana, pois ela representa melhor o conceito de
proximidade, que é importante para a análise de agrupamentos. A análise de
agrupamentos é tipicamente associada com características medidas por
variáveis métricas. Em algumas aplicações, características não métricas são
usadas, mas é mais usual que as características sejam representadas por
Capítulo 3 
1. Gerar um cluster para cada elemento.
2. Identi�car os pares de clusters mais similares, conforme a medida de
distância escolhida.
3. Unir em um cluster maior e recalcular a distância deste cluster para todas as
outras variáveis.
4. Repita os passos 2 e 3 até sobrar um único cluster.
medidas métricas, tornando novamente a distância a medida preferida.
Logo, pode-se aplicar medidas de similaridade que representam a
proximidade de objetos em um conjunto de variáveis métricas ou não
métricas.
3.2 AGRUPAMENTO HIERÁRQUICO
Os métodos hierárquicos criam uma hierarquia de relacionamentos entre os
elementos, eles são técnicas nas quais os dados são particionados várias vezes,
para produzir uma representação hierárquica dos agrupamentos (EVERITT, 2001),
com o propósito de melhorar a visualização sobre a formação dos agrupamentos
em cada estágio onde ele ocorreu e com o grau de semelhança entre os
agrupamentos.
O algoritmo aglomerativo funciona da seguinte forma (LINDEN, 2009):
Esse método não requer que seja de�nido um número a priori de agrupamentos.
Para visualizar a relação entre os agrupamentos é usado um grá�co chamado
dendograma. A Figura 4 apresenta um exemplo do grá�co dendograma.
FIGURA 4 - DENDOGRAMA
Capítulo 3 
FONTE: Vieira (2007).
Métodos hierárquicos precisam de uma matriz que contenha as métricas de
distância entre os agrupamentos em cada estágio do algoritmo. Essa matriz é
conhecida como matriz de similaridades entre agrupamentos (BARROSO, 2003).
Podemos imaginar um estágio do algoritmo no qual o número de agrupamentos é
três: A1, A2 e A3. Então, pode-se montar a matriz de similaridade da seguinte
forma:
TABELA 1 - MATRIZ DE SIMILARIDADE
A1 A2 A3
A1 0 0,2 0,4
A2 0,2 0 0,3
A3 0,4 0,5 0
FONTE: O autor.
Na Tabela 1 podemos observar que A1 e A2 são agrupamentos similares, pois eles
possuem as menores distâncias, em relação a A2 e A3, que são menos similares.
Capítulo 3 
Responder
Podemos dividir os métodos hierárquicos em: Métodos Aglomerativos e Métodos
Divisivos.
Pergunta: Conforme a tabela a seguir, quais são as variáveis que têm
agrupamento similar?
Y1 Y2 Y3
Y1 0 0,2 0,1
Y2 0,5 0 0,6
Y3 0,1 0,5 0
3.2.1 Métodos Aglomerativos
O Método Aglomerativo é iniciado com cada padrão formando seu próprio
agrupamento, e gradativamente os grupos são formados até que um único
conjunto contendo todos os dados seja gerado. Ao iniciar o processo, os grupos
são pequenos e os elementosde cada grupo possuem um alto grau de
similaridade. Mas, ao �nal do processo, poucos agrupamentos são gerados, e cada
um pode conter vários elementos e menos similares entre eles.
Capítulo 3 
Deve-se colocar um único padrão para cada agrupamento.
Logo após é calculada a matriz de similaridades.
Ao �nalizar os passos 1 e 2, um novo agrupamento é formado pela união dos
agrupamentos com maior grau de similaridade.
Os passos 2 e 3 são executados diversas vezes, até que todos os objetos
estejam em um único agrupamento.
Para um coe�ciente baixo, igual ou próximo de 0, corresponde a estruturas
ruins, em que nenhum agrupamento foi encontrado.
Para um coe�ciente alto, igual ou próximo de 1, representa que estruturas
boas foram identi�cadas.
Lembre-se: Para iniciar o processo é preciso criar uma matriz de
similaridades entre os agrupamentos, e no início do algoritmo, cada padrão
é um agrupamento.
Quais são os passos do procedimento?
Agora, como podemos medir a qualidade do agrupamento formado?
Bom, para medir o grau da qualidade dos agrupamentos formados utilizamos o
coe�ciente aglomerativo.
O coe�ciente aglomerativo mede a qualidade de um agrupamento aglomerativo,
em que, para cada objeto i, tem a sua dissimilaridade em relação ao primeiro
agrupamento em que foi inserido dividido pela dissimilaridade na etapa �nal do
algoritmo, segundo Palm (2005). Podemos de�nir o coe�ciente da seguinte forma:
Em que, n é dado pelo número total de objetos do conjunto de dados.
Os valores do coe�ciente variam entre 0 e 1.
3.3.1 Métodos Divisivos
Métodos Divisivos são menos comuns entre os métodos hierárquicos, pois sua
ine�ciência exige um esforço computacional maior que os métodos hierárquicos
aglomerativos (COSTA, 1999). O método inicia com um único agrupamento
formado por todos os padrões e gradativamente divide os agrupamentos em
Capítulo 3 
agrupamentos menores até que termine com um agrupamento por padrão. O
objetivo é encontrar a partição que minimiza a matriz de similaridades.
O processo pode ser descrito nos seguintes passos:
1) Um único agrupamento contendo todos os padrões.
2) Calcula-se a matriz de similaridades entre todos os possíveis pares de
agrupamentos.
3) Forma-se um novo agrupamento pela divisão dos pares de agrupamentos com
menor grau de similaridade.
4) Os passos 2 e 3 são executados até que se tenha um agrupamento por padrão.
O dendograma para os Métodos Divisivos apresenta a ordem em que os
agrupamentos foram divididos. A Figura 5 apresenta o exemplo de dendograma
para o Método Divisivo.
FIGURA 5 - DENDOGRAMA PARA O MÉTODO DIVISIVO
FONTE: <https://www.maxwell.vrac.puc-rio.br/7975/7975_4.PDF> Acesso em: 27 nov. 2018.
3.4 MÉTODOS DE DISTÂNCIA ENTRE GRUPOS
O Método de Distância é aplicado para medir o grau de similaridade entre os
agrupamentos, isto é, o grau de similaridades entre os objetos (HAIR, 2009). Os
métodos mais conhecidos são: ligação individual, ligação completa, ligação média,
método centroide e método de Ward.
Capítulo 3 
https://www.maxwell.vrac.puc-rio.br/7975/7975_4.PDF
a) Ligação individual (simples): Essa ligação é de�nida pela semelhança entre
agrupamentos, como a menor distância de qualquer elemento de um
agrupamento a qualquer elemento em outro grupo (HAIR, 2009).
Para aplicar a ligação basta encontrar todas as distâncias entre
observações nos agrupamentos e escolher a menor como medida de
similaridade entre os grupos.
Esse algoritmo aglomerativo é o mais simples, pois podemos de�nir vários padrões
de aglomeração. Porém, esta flexibilidade pode criar erros, em que os
agrupamentos são mal delineados (KETCHEN, 1996).
A Figura 6 apresenta um exemplo de ligação individual.
FIGURA 6 - EXEMPLO DE LIGAÇÃO INDIVIDUAL
FONTE: Hair (2009, p. 450).
b) Ligação completa: Na ligação completa a similaridade de agrupamento se baseia
na distância máxima entre as observações nos agrupamentos formados (HAIR,
2009). A técnica exclui o problema de encadeamento identi�cado na ligação
simples, e ao �nal ela gera soluções mais compactas (BAEZA, 1992).
Capítulo 3 
De acordo com Jain (1988), a ligação completa representa apenas o
aspecto da maior distância entre os dados, muitos pesquisadores a
consideram a mais apropriada para inúmeras aplicações.
A Figura 7 apresenta um exemplo da diferença entre a ligação simples e a
completa.
FIGURA 7 - DIFERENÇA ENTRE A LIGAÇÃO SIMPLES E A COMPLETA
FONTE: Hair (2009, p. 451).
c) Ligação média: O método é diferente dos métodos citados anteriormente, pois a
similaridade de dois agrupamentos é a similaridade média de todos os indivíduos
em um agrupamento com todos os indivíduos em outro (HAIR, 2009). O algoritmo
não depende de valores extremos (pares mais semelhantes ou mais distantes),
como o que acontece com as ligações simples ou completas, pois a similaridade
tem como base todos os elementos dos agregados.
Ela é como um meio-termo entre os métodos de ligação simples e
completa, e tende a gerar agregados com pequena variação interna (HAIR,
2009). Elas produzem agregados com a mesma variância interna.
Capítulo 3 
A) A Ligação individual é de�nida pela semelhança entre
agrupamentos, como a menor distância de qualquer elemento de
um agrupamento a qualquer elemento em outro grupo, porém ela
não é muito utilizada devido ao seu alto grau de não correlação dos
dados.
B) Na Ligação completa a similaridade tem como base a distância
mínima entre as observações dos grupos formados.
C) A Ligação média tem como base a distância máxima entre os
elementos dos agrupamentos.
D) Nenhuma das anteriores.
Responder
Os outliers podem viesar negativamente todo o resultado de uma análise.
O comportamento dos outliers pode ser justamente o que está sendo
procurado.
Os outliers possuem diversos outros nomes, como: dados discrepantes,
pontos fora da curva, observações fora do comum, anomalias, valores
atípicos, entre outros.
Marque a opção correta.
d) Método centroide: Bom, mas, o que são centroides? Centroides são os valores
médios das observações de agrupamento (HAIR, 2009), isto é, os pontos centrais
do grupo. Para este método, sempre que os indivíduos são reunidos é calculado
um novo centroide. Uma grande vantagem na utilização desse método é a sua
pouca afetação por outlier.
Outliers
Outliers são dados que se diferenciam drasticamente de todos os outros, são
pontos fora da curva. Em outras palavras, um outlier é um valor que foge da
normalidade e que pode (e provavelmente irá) causar anomalias nos resultados
obtidos por meio de algoritmos e sistemas de análise.
Algumas observações sobre outliers:
Capítulo 3 
FONTE: <https://bit.ly/39KejlP> Acesso em: 22 nov. 2018.
Portanto, no método centroide (ROCHA, 2005), a similaridade entre dois
agrupamentos é a distância entre seus centroides.
e) Método de Ward: No método Ward as partições minimizam as perdas
associadas a cada agrupamento (WARD, 1963). A perda é dada pela diferença entre
a soma dos erros quadráticos de cada padrão e a média da partição em que está
contido. O método combina agrupamentos com um pequeno número de valores,
pois a soma de quadrados é diretamente relacionada com o número de
observações envolvidas (MILLIGAN, 1980). Uma observação do método é o fato de
ele produzir agregados com aproximadamente o mesmo número de observações
(HAIR, 2009).
Como são formados os agrupamentos hierárquicos?
Os agrupamentos hierárquicos são formados por processos repetitivos para
agregar, junto com um algoritmo de agrupamento, a similaridade entre agregados
com múltiplos membros. O processo de criação de agrupamentos gera um
diagrama em árvore que representa as combinações/divisões de agrupamentos
para formar o intervalo completo de soluções. Devemos observar que os
procedimentos hierárquicos geram um conjunto completo de soluções, variando
de agregados em que todos são unitários até a solução de um só agrupamento no
qual todas as observações estão em um só conjunto.Fazendo isso, o
procedimento hierárquico fornece um excelente referencial para se comparar
qualquer conjunto de soluções de agrupamentos.
FONTE: Hair (2009, p. 452) e Linden (2009, p. 33-38).
QUADRO 1 - VANTAGENS E DESVANTAGENS DE USAR OS MÉTODOS DE
AGRUPAMENTOS HIERÁRQUICOS
VANTAGENS DESVANTAGENS
Métodos Simples: Como os Métodos
Hierárquicos possuem
As combinações feitas inicialmente
que são indesejáveis podem continuar
Capítulo 3 
desenvolvimento em estruturas de
árvore para retratar o processo de
agrupamento, isso faz com que eles
tenham descrições simples e
abrangente dos intervalos de soluções
do agrupamento.
na análise e conduzir a observações
atípicas. Logo, esse problema pode
causar impactos negativos no
resultado �nal.
Medidas de similaridade: Devido aos
métodos hierárquicos possuírem uma
quantidade extensa de aplicações,
isso faz com que eles tenham um
grande desenvolvimento de medidas
de similaridade para praticamente
quaisquer tipos de variáveis de
agrupamento. As técnicas
hierárquicas podem ser aplicadas a
quase todo tipo de questão de
pesquisa.
Para solucionar o impacto que têm as
observações atípicas, o pesquisador
pode analisar os dados várias vezes, e
a cada análise tentar eliminar
observações que podem trazer
problemas.
Rapidez: Eles têm a vantagem de
gerar um conjunto inteiro de soluções
de agrupamento de uma maneira
rápida. Essa característica faz com que
o pesquisador examine várias
soluções diferentes, em que pode
variar as medidas de similaridade e
métodos de ligação de uma maneira
e�ciente.
O processo que envolve métodos
hierárquicos é consideravelmente
rápido, porém eles não são tratáveis
para amostras muito grandes. No
momento em que o tamanho
amostral aumenta, é preciso um bom
armazenamento para comportar
todos esses dados. Por conta dessa
exigência, as aplicações em alguns
casos podem �car limitadas.
FONTE: Hair (2009).
4. AGRUPAMENTO NÃO HIERÁRQUICO
Os métodos não hierárquicos não envolvem o processo de construção em árvore,
como o que acontece nos agrupamentos hierárquicos. Neste procedimento, os
objetos são inseridos em agrupamentos, no momento em que o número de
Capítulo 3 
1. Especi�car sementes de agrupamento: Inicialmente é preciso inferir o ponto
de partida, e para isso denominamos como sementes de agrupamento, para
cada agregado. A semente pode ser pré-especi�cada pelo pesquisador ou
observações podem ser escolhidas, geralmente em um processo aleatório.
2. Designação: Depois que acontece a de�nição das sementes, o passo seguinte
é designar as observações a uma das sementes de agrupamento com base
em similaridade. O propósito é designar cada observação à semente mais
parecida. Em algumas abordagens, observações podem ser resignadas a
agrupamentos que são mais semelhantes do que suas designações originais.
De�nido pelo pesquisador: Para isso o pesquisador fornece os Pontos
Sementes com base em dados externos. O pesquisador pode ter como base
pesquisas anteriores ou dados de outra análise multivariada. Podemos
também usar outras técnicas multivariadas para gerar as sementes. Para o
pesquisar de�nir as sementes, ele precisa saber a quantidade de agregados a
serem formados, e as informações sobre as características dos
agrupamentos.
Gerada pela própria amostra: Nessa técnica as sementes são geradas de
maneira sistemática ou através da seleção ao acaso. Por exemplo, ao usar
um software qualquer que faça análises multivariadas, a primeira semente é
a primeira observação no conjunto de dados sem valores perdidos. A
segunda semente é a próxima observação completa, onde ela é separada da
primeira semente por uma distância mínima estipulada inicialmente. O ideal
é que a distância mínima seja nula. Após todas as sementes serem
selecionadas, o programa designa cada observação ao agrupamento com a
semente mais próxima.
agregados a serem formados tenha sido especi�cado. Por exemplo, uma solução
de seis agrupamentos não é apenas uma combinação de dois agrupamentos a
partir da solução de sete agregados, mas baseia-se na descoberta da melhor
solução com seis agregados (HAIR, 2009). Ele produz uma partição num número
�xo de classes, e temos que escolher o número de clusters à partida.
Conforme Hair (2009) cita, o processo tem duas fases:
Como podemos selecionar os Pontos da Semente (ponto de partida)?
Podemos escolher selecionar os pontos da semente a partir de duas formas:
Capítulo 3 
Seja qual for a abordagem escolhida, o pesquisador deve conhecer o
impacto do processo de escolha da semente sobre os resultados �nais do
estudo. Os algoritmos de agrupamentos podem gerar diferentes soluções,
com base nas sementes iniciais. O ideal é que as diferenças entre as
soluções de agrupamento sejam mínimas ao utilizar diferentes sementes,
porém elas focam na importância da seleção de sementes e seu impacto na
solução �nal.
4.1 ALGORITMOS DE AGRUPAMENTO NÃO HIERÁRQUICO
Para agrupar os dados através dos métodos não hierárquicos existem três
algoritmos (GREEN, 1978). Esses algoritmos são frequentemente chamados de
agrupamentos de K-médias (HAIR, 2009). Eles são algoritmos populares devido à
sua simplicidade de implementação, escalabilidade, velocidade de convergência e
adaptabilidade aos dados escassos (OYELADE, 2010).
K-médias é um algoritmo não supervisionado, isto é, seus dados não possuem
rótulos. O principal propósito é identi�car as similaridades entre os dados e
agrupá-los conforme o número de cluster. O algoritmo de K-médias é interativo e
poderoso para dividir um conjunto de dados em grupos separados. Uma
característica importante dessa técnica é o fato de que o k deve ser
predeterminado (KOERICH, 2003).
k = número de grupos.
A medida de dissimilaridade do algoritmo k-médias é dada através da distância
Euclidiana entre os vetores de atributos xi e os representantes dos clusters Θi.
Para a próxima a�rmativa, responda verdadeiro ou falso:
O K-means é um algoritmo de agrupamento que possibilita dividir um
conjunto de dados em K clusters (grupos) disjuntos. Embora os centros
iniciais dos K clusters sejam escolhidos aleatoriamente, eles apresentam bom
desempenho.
Capítulo 3 
Responder
Inicialização: Nesta fase o algoritmo gera de forma aleatória os k centroides.
Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos dos
dados e cada um dos centroides. Cada cálculo é atribuído ao centroide ou
cluster que possui a menor distância. E ao �nal os dados são particionados
de acordo com o número de centroides inferidos por k.
Movimentação de Centroides: Momento no qual calcula-se a média dos
valores dos pontos de dados de cada cluster, e o valor médio será o novo
centroide. A movimentação trata da alteração da localização do centroide em
um plano (grá�co). A Figura 8 apresenta a movimentação dos centroides
representados por x.
Otimização dos K-médias: Na última fase do processo, as etapas da atribuição
ao cluster e movimentação de centroides são repetidas até o cluster se tornar
estático ou algum critério de parada tenha sido atingido.
O algoritmo de K-Means é composto por quatro etapas em seu processo:
Inicialização, Atribuição ao Cluster, Movimentação de Centroides e Otimização dos
K-médias.
Sobre as etapas dos processos de K-Means, marque V para verdadeiro e F
para falso:
a) ( ) Inicialização: nesta etapa acontece a atribuição ao cluster e a
movimentação de centroides é repetida até o cluster se tornar estático.
b) ( ) Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos
dos dados de cada um dos centroides.
Capítulo 3 
Responder
c) ( ) Movimentação de Centroides: nesta etapa é modi�cada a localização do
centroide.
d) ( ) Otimização: nesta etapa calcula-se a média dos valores dos pontos de
dados de cada cluster, e o valor médio será o novo centroide.
O Cluster se torna estático quando nenhum dos pontos de dados possa
alterar o Cluster. Podemos de�nir como critério deparada o número de
iterações máximas que o algoritmo faz durante a fase de otimização.
FIGURA 8 - MOVIMENTAÇÃO DOS CENTROIDES
FONTE: <https://bit.ly/2Db4UHY> Acesso em: 29 nov. 2018.
Método de Agrupamento Elbow
Capítulo 3 
O Método de Elbow, também conhecido como Método do Cotovelo, ajuda a
escolher o valor do argumento k. O algoritmo testa a variância dos dados em
relação ao número de clusters, até que conforme o número de clusters aumenta
não representa um valor signi�cativo de ganho.
O valor indicado pelo “cotovelo” no grá�co quer dizer que a partir dele não existe
um ganho grande se for aumentado o número de clusters, isto é, o método
encontrou o número ideal para o argumento k. A Figura 9 apresenta o grá�co do
método.
FIGURA 9 - AGRUPAMENTO ELBOW
FONTE: <https://bit.ly/3gjwSjk> Acesso em: 29 nov. 2018.
Obtenção de agrupamentos
Como foi visto, existem várias formas de obter agrupamentos por meio dos
algoritmos hierárquicos, cada uma com vantagens e desvantagens:
1) Ligação simples: o algoritmo é bem simples e usual, porém as estruturas de
agrupamento malformadas dentro dos dados produzem cadeias sinuosas de
agrupamentos inaceitáveis.
Capítulo 3 
https://bit.ly/3gjwSjk
2) Ligação completa: elimina o problema das cadeias sinuosas, entretanto
considera somente as observações mais extremas de um agrupamento, e assim
pode ser afetada por observações atípicas.
3)Ligação média: tem como base a similaridade da média de todos os indivíduos
em um agrupamento, e tende a gerar agregados com pouca variação interna e é
menos afetada por observações atípicas.
4) Ligação centroide: mede distância entre os centroides dos agrupamentos e,
como a ligação média, é menos afetada por observações atípicas.
5) Método de Ward: tem como base a soma total de quadrados dentro de
agrupamentos e é mais apropriado quando o pesquisador espera agrupamentos
de algum modo parecidos em tamanho, mas é facilmente distorcido por
observações atípicas.
Os métodos não hierárquicos requerem que o número de agrupamentos seja
especi�cado antes de se designar observações:
6) Método da referência sequencial: designa as observações para o agrupamento
mais próximo, mas uma observação não pode ser resignada a outro agrupamento
seguindo sua designação original.
7) Procedimentos de otimização: permitem a resignação de observações com base
na proximidade sequencial de observações com agrupamentos formados durante
o processo.
Para escolher entre métodos hierárquicos e não hierárquicos podemos observar
os seguintes raciocínios. Escolhemos métodos hierárquicos quando:
8) Muitas ou todas as soluções alternativas devem ser examinadas.
9) O tamanho da amostra é moderado (abaixo de 300-400, não excedendo 1.000)
ou uma amostra de um conjunto maior de dados é aceitável.
Métodos não hierárquicos são adequados quando:
10) O número de agrupamentos é conhecido e pontos sementes iniciais podem ser
especi�cados de acordo com alguma base prática, objetiva ou teórica.
11) Observações atípicas provocam preocupação, pois métodos não hierárquicos
são geralmente menos suscetíveis a observações atípicas.
12) Uma combinação usando a abordagem hierárquica seguida de um método não
hierárquico é frequentemente aconselhável.
13) Um método não hierárquico é utilizado para selecionar o número de
agrupamentos e para caracterizar os centros de agrupamento que servem como
Capítulo 3 
5. K-ÉSIMO VIZINHO MAIS PRÓXIMO (K-NEAREST NEIGHBOR - KNN)
Podemos usar para encontrar as empresas mais semelhantes aos melhores
clientes do negócio.
Também é possível usar para encontrar consumidores on-line mais
semelhantes aos melhores clientes do negócio.
sementes iniciais no procedimento não hierárquico.
14) Um método não hierárquico então agrega todas as observações usando os
pontos sementes para fornecer alocações mais precisas.
FONTE: Hair (2009, p. 455).
O KNN é um algoritmo supervisionado que tem por objetivo classi�car objetos
(WEBB, 2002). O algoritmo de Machine Learning tem como propósito classi�car o
elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k
amostras mais próximas, através do esquema de votação. A proximidade entre
vizinhos é calculada através das medidas de distância Euclidiana e a distância
Manhattan.
O que podemos fazer com essas distâncias?
Para clientes corporativos, a IBM faz isso para ajudar a direcionar sua
força de vendas. Os anunciantes on-line fazem isso para segmentar
anúncios. Essas instâncias mais semelhantes são chamadas de vizinhos mais
próximos (PROVOST, 2013).
Para encontrar a classe de um elemento que ainda não pertença a algum conjunto
formado, o classi�cador KNN busca os K elementos do conjunto de treinamento
que tenham a menor distância do elemento desconhecido. Esses K elementos
podemos chamar de K-vizinhos mais próximos.
Para estimar a classe a que o elemento K pertença, o algoritmo KNN calcula os K-
vizinhos mais próximos a K e classi�ca-o como sendo da classe que aparece com
maior frequência dentre os seus K-vizinhos.
Entretanto, na fase de classi�cação, em alguns momentos pode ocorrer um
problema, no qual, dado um elemento de teste K, os seus K-vizinhos mais
Capítulo 3 
próximos são de uma mesma classe, e então o algoritmo não consegue decidir
qual a classe a que esse elemento K pertença.
FIGURA 10 - K=1
FONTE: <https://bit.ly/33dSGZS> Acesso em: 30 nov. 2018.
FIGURA 11 - K =20
FONTE: <https://bit.ly/2Xitwpb> Acesso em: 30 nov. 2018.
Para solucionar o problema, o padrão deve ser rodado de forma recursiva pelo
algoritmo, o qual agora usará apenas (K-1) vizinhos para o cálculo, até que uma
das classes dos K-vizinhos apareça com maior frequência em relação às demais
(BEZERRA, 2006). E assim classi�car o elemento K.
Capítulo 3 
https://bit.ly/33dSGZS
https://bit.ly/2Xitwpb
No KNN o número de K-vizinhos é controlado pelo usuário, em que o objetivo é
obter uma melhor classi�cação dos dados. O parâmetro K indica o número de
vizinhos que serão usados pelo algoritmo durante os testes. Ele faz com que o
algoritmo consiga uma classi�cação mais re�nada. Entretanto, para encontrar o
valor ótimo de K é preciso que para cada base de dados sejam testados vários
valores diferentes, de forma a descobrir qual o melhor valor de K para
determinado problema (BEZERRA, 2006).
O que é o conjunto de treinamento e teste?
A separação de dados em conjuntos de teste e treinamento é uma parte
importante da avaliação de modelos de mineração de dados. Normalmente,
quando você separa um conjunto de dados em um conjunto de treinamentos e
um conjunto de testes, a maior parte dos dados é usada para treinamento e uma
parte menor dos dados é usada para teste. Usando dados semelhantes para
treinamento e teste, você pode minimizar os efeitos das discrepâncias de dados e
entender melhor as características do modelo.
Depois que um modelo for processado usando o conjunto de treinamentos, você
testa o modelo fazendo previsões contra o conjunto de testes. Como os dados no
conjunto de teste já contêm valores conhecidos para o atributo que você deseja
prever, é fácil determinar se a precisão das previsões do modelo está correta.
Normalmente esses dados são divididos em dois conjuntos: um com 70% dos
dados de origem, para treinar o modelo, e um com 30% para testar o modelo.
Porém, podemos dividir dependendo da quantidade de dados que possui e dos
requisitos de negócio.
Uma forma de dividir os dados é através da função train_test_split. Ela leva em
consideração as diferentes características dos dados, tentando não os dividir
randomicamente, mas de forma igualitária levando em consideração suas
características.
FONTE: <https://bit.ly/30jSMxo> Acesso em: 30 nov. 2018.
<https://bit.ly/2PbJMDR> Acesso em: 30 nov. 2018.
<https://bit.ly/39P4pPN> Acesso em: 30 nov. 2018.
5.1 EXEMPLO PRÁTICO
Para entender como funciona o algoritmo de KNN, vamos estudar um dataset
muito conhecido na literatura, chamado IRIS.
Capítulo3 
https://bit.ly/30jSMxo
https://bit.ly/2PbJMDR
https://bit.ly/39P4pPN
Pétalas (protegem partes reprodutivas da planta e atraem polinizadores).
Sépalas (partes semelhantes a folhas que envolvem o botão da �or) de
exemplares de três espécies de �ores íris.
Iris Setosa.
Iris Versicolour.
Iris Virginica.
Comprimento da sépala.
Largura da sépala.
Comprimento da pétala.
Largura da pétala.
Veja o exemplo completo sobre IRIS no site a seguir:
<https://bit.ly/2Dt3YOU>
O banco de dados IRIS é um dos mais acessados do Center for Machine Learning
and Intelligent Systems da Universidade da Califórnia (CML-UCI).
Para acessar o Dataset IRIS e outros Dataset entre no link a seguir:
<http://archive.ics.uci.edu/ml/datasets.html>
O Dataset IRIS data set contém as dimensões de:
Ele também contém três classes com 50 instâncias cada:
Um detalhe importante que deve ser levado em consideração é o fato de uma
classe ser linearmente separável das outras duas, e as últimas não são separáveis
linearmente entre si.
O propósito é classi�car a planta conforme quatro características físicas (em cm):
Capítulo 3 
https://bit.ly/2Dt3YOU
http://archive.ics.uci.edu/ml/datasets.html
Então, como faríamos essa classi�cação?
O algoritmo vai tentar classi�car os elementos com base nas características do
conjunto. Quanto mais o elemento se aproxima da característica do conjunto, mais
ele será classi�cado neste conjunto.
FIGURA 12 - CLASSIFICAÇÃO DO DATASET - SÉPALAS
FONTE:<https://rpubs.com/Hgoswami/368890> Acesso em: 30 nov. 2018.
FIGURA 13 - CLASSIFICAÇÃO DO DATASET IRIS - PÉTALAS
Capítulo 3 
https://rpubs.com/Hgoswami/368890
FONTE: <https://rpubs.com/Hgoswami/368890> Acesso em: 30 nov. 2018.
A Figura 12 apresenta os Dataset classi�cados, em que os pontos são o
comprimento e largura da sépala.
6 ALGUMAS CONSIDERAÇÕES
Neste capítulo abordamos sobre os conceitos de análise multivariada, a qual é
bastante utilizada para analisar dados. Estas técnicas têm a �nalidade de auxiliar
na tomada de decisões quando tratamos de dados múltiplos. Com a grande
quantidade de informações geradas a todo o momento, é cada vez maior a
necessidade de fazer uso desse tipo de abordagem.
A primeira técnica multivariada descrita foi a regressão logística, que usamos para
situações em que a variável dependente é de natureza dicotômica (0, 1), por
exemplo, caso queiramos avaliar se um cliente gostou (1) ou não do produto (0).
Essas variáveis são denominadas de Dummys, pois elas podem receber apenas
dois valores, “sim” ou “não”. E os resultados �nais das análises �cam contidos no
intervalo de zero a um.
No tópico seguinte abordamos os conceitos de Análise de Cluster, onde o objetivo
é classi�car os valores de uma matriz com dados discretos. A Análise de Cluster
classi�ca objetos de forma que cada objeto seja similar aos outros no grupo com
base em um conjunto de atributos escolhidos. Para medir o grau de relação entre
Capítulo 3 
https://rpubs.com/Hgoswami/368890
Capítulo 2 
Conteúdo escrito por:
as variáveis, podemos usar as medidas de similaridade. As distâncias de
similaridade mais comuns são: Distância Euclidiana, Distância Manhattan,
Distância de Mahalanobis e as Medidas de Associação. Também podemos medir o
grau de distância entre os grupos pelos métodos: ligação individual, ligação
completa, ligação média, método centroide e método de Ward.
Outro assunto muito importante neste contexto são os Agrupamentos Não
hierárquicos. Esse tipo de agrupamento não envolve o processo de construção em
árvore, neste caso os objetos são inseridos em agrupamentos, no momento em
que o número de agregados a serem formados é especi�cado. Dentro desse
conceito estudamos o algoritmo não supervisionado de K-médias. O principal
propósito deste algoritmo é identi�car as similaridades entre os dados e agrupá-
los conforme o número de cluster. O algoritmo de K-médias é interativo e
poderoso para dividir um conjunto de dados em grupos separados, sua
característica importante é o fato de que o k deve ser predeterminado.
Para �nalizar nosso estudo, abordamos na parte �nal do capítulo o algoritmo
supervisionado K-ésimo vizinho mais próximo (KNN). Este tem a �nalidade de
classi�car o elemento e atribuir a ele o rótulo que representa a maior frequência
dentre as k amostras mais próximas, através do esquema de votação. A
proximidade entre vizinhos é calculada através das medidas de distância
Euclidiana e a distância Manhattan.
Todos os direitos reservados © Amanda Souza da Silva
Capítulo 3 