Baixe o app para aproveitar ainda mais
Prévia do material em texto
MODELAGEM MULTIVARIADA OBJETIVOS DE APRENDIZAGEM Compreender as principais técnicas de análise multivariada. Entender em quais circunstâncias deve ser aplicada cada técnica. A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes objetivos de aprendizagem: 1 CONTEXTUALIZAÇÃO Com a grande quantidade de informações produzidas por diversos meios, como a internet, grandes volumes de dados são gerados a cada momento. Esses dados, muitas vezes, têm múltiplas variáveis, e por esse motivo, fazer uso de técnicas mais simples, por exemplo, a análise de regressão simples, não é viável. As técnicas multivariadas são capazes de extrair informações dessas múltiplas relações e obter um entendimento completo para tomar decisões. Elas estão sendo frequentemente aplicadas nos negócios, e em vários setores do comércio, pois não é relevante levar em consideração apenas consumidores de grupos pequenos e homogêneos. Para ter uma boa visão de mercado é preciso desenvolver estratégias que alcancem diversos grupos de consumidores com características diferentes. Neste capítulo vamos abordar sobre técnicas multivariadas explanando suas características e principais conceitos. Vamos abordar as principais diferenças e em qual situação cada uma se aplica. Capítulo 3 Técnicas Univariadas: a população é descrita uma variável por vez. Ex.: Estatística Descritiva. Técnicas Bivariadas: nela são incluídos métodos de análise com duas variáveis, podendo ser ou não estabelecida uma relação de causa/efeito entre elas. : Teste para a independência de duas variáveis; Relação linear entre duas variáveis. Técnicas Multivariadas: são as técnicas de análise das relações de múltiplas variáveis dependentes e/ou múltiplas variáveis independentes. Essas variáveis podem ter relação ou não de causa/efeito entre duas ou mais variáveis. Esses métodos possibilitam que se faça uma exploração da performance conjunta das variáveis, e seja determinada a correlação entre elas. Ex.: Regressão múltipla; Análise multivariada de variância. No capítulo inicial falaremos sobre a regressão logística, esclarecendo suas principais características. No próximo capítulo a Análise de Cluster é explanada, em que seus principais conceitos, como medidas de similaridade e distância, são abordados de forma a deixar claro os seus principais objetivos. Após vamos contextualizar sobre o agrupamento não hierárquico, elencando seus principais atributos. No último capítulo estudaremos sobre os conceitos de K-ésimo vizinho mais próximo, abordando seus atributos principais. 2 REGRESSÃO LOGÍSTICA O que é Análise Multivariada? As informações disponíveis para a tomada de decisões aumentaram gradativamente no decorrer dos anos. Essas informações são coletadas e armazenadas em bancos de dados, nos quais �cam disponíveis para serem feitas as extrações dos dados com a �nalidade de auxiliar na tomada de decisões. Parte dessa informação pode ser analisada e compreendida com estatística simples, mas quando temos dados múltiplos é preciso usar técnicas estatísticas multivariadas mais complexas para converter tais dados em conhecimento (HAIR, 2009). Com base neste alto conjunto de informações, os métodos multivariados são bastante usados. Mas, primeiro vamos entender a diferença entre as técnicas univariadas, bivariadas e multivariadas. Capítulo 3 Responder Todas as variáveis devem ser aleatórias. Todas a variáveis devem ser inter-relacionadas. Os efeitos das variáveis não podem ser signi�cativamente interpretados se analisadas separadamente. Em um estudo em que precisamos analisar as variáveis preço, produto, local e consumidor, qual tipo de técnica devemos usar? Análise multivariada tem suas propriedades a partir das estatísticas univariada e bivariada, a dimensão para a estatística multivariada possui conceitos adicionais, como a inserção de mais variáveis no modelo. Para uma distribuição ser considerada multivariada é preciso seguir alguns conceitos: E como construímos matematicamente as técnicas multivariadas? O construtor da análise multivariada é denominado de variável estatística, isto é, uma combinação linear de variáveis com pesos empiricamente determinados (HAIR, 2009). As variáveis são de�nidas pelo pesquisador, sendo os pesos determinados pelo método multivariado. Pode-se de�nir a variável estatística de n variáveis ponderadas ( ) como: Em que: = variável observada. Capítulo 3 Raça. Gênero. Doença. Morte. = peso determinado pela técnica multivariada. O resultado �nal é o valor que representa a combinação do conjunto inteiro de variáveis que melhor atinge o objetivo. A variável estatística extrai os valores multivariados da análise (HAIR, 2009). 2.1 CONCEITOS DA REGRESSÃO LOGÍSTICA Agora que �zemos uma pequena introdução em análise multivariada, vamos relembrar os conceitos de Regressão Linear! Primeiramente vamos relembrar o que é um modelo de regressão. Um modelo de regressão visa estimar ou prever para cada indivíduo o valor numérico de alguma variável que pertença a ele. Um exemplo de regressão seria: existe relação entre o aumento de vendas com a expansão do horário de funcionamento da loja? Ou: é possível prever a quantidade de produtos que podem ser vendidos em uma promoção? Regressão é uma medida estatística usada em qualquer área em que é preciso veri�car a relação entre uma variável dependente (denotada por Y) e uma série de outras variáveis (variáveis independentes). A regressão ajuda os coordenadores do negócio a avaliar os ativos e a entender as relações entre variáveis, como os preços de um determinado produto e valor desse produto que está sendo comercializado pelas empresas. Bom, agora que �zemos um pequeno resumo sobre regressão, iniciaremos nosso estudo sobre regressão logística! O que são variáveis categóricas? Podemos de�nir as variáveis que podem ser mensuradas usando categorias. Exemplos de variáveis categóricas: Variáveis categóricas são diferentes das variáveis contínuas. Capítulo 3 Tem o propósito de estimar a probabilidade de a variável dependente poder assumir um determinado valor em função de valores conhecidos de outras variáveis. Os resultados da análise �cam contidos no intervalo de zero a um. Variáveis contínuas podem assumir um número in�nito de valores. As variáveis categóricas contêm um número �nito de valores. Essas variáveis são denominadas de dummys, pois elas podem receber apenas dois valores, “sim” ou “não”. Por exemplo: Y: Cliente vai comprar o novo produto desenvolvido. 0 = O cliente não compra o produto. 1 = O cliente compra o produto. O modelo logístico é uma técnica frequentemente usada para situações em que a variável dependente (Y) é de natureza dicotômica ou binária (PROVOST, 2013). Em relação às variáveis independentes, elas podem ser categóricas ou não. O modelo é um recurso que nos permite estimar a probabilidade associada à ocorrência de determinado evento em face de um conjunto de variáveis explanatórias. Características: Cada tem distribuição de Bernoulli, na qual a função de distribuição de probabilidade é dada por (MORETTIN, 2017): Onde: y: representa o evento ocorrido. p: probabilidade de sucesso para a ocorrência do evento. Como podemos veri�car, os eventos estão em várias sequências com a distribuição de Bernoulli, a soma do número de sucessos ou fracassos neste experimento terá distribuição Binomial de parâmetros n (número de observações) e p (probabilidade de sucesso). A função de distribuição de probabilidade da Binomial é dada por Morettin (2017): Capítulo 3 A função logit é linear nos parâmetros. A função logit é contínua. Os seus valores podem variar dentro do conjunto real. A transformação para um modelo logístico é a partir do logaritmo da razão de probabilidades, onde a regressão nos fornece uma ideia do risco de uma pessoa obter um dado efeito de algumas variáveis explicativas que serão introduzidas maisà frente. Essa transformação é chamada de logit, e o principal objetivo é linearizar o modelo, aplicando o logaritmo. A transformação é dada por Cabral (2013): FIGURA 1 - A ESTIMATIVA DE REGRESSÃO LOGÍSTICA DA PROBABILIDADE DE CLASSE EM FUNÇÃO DE F(X) FONTE: Provost (2013, p. 100). A transformação para um modelo logístico tem um papel importante, pois os modelos que passam por esse processo têm algumas propriedades do modelo de regressão linear. Essas propriedades são citadas abaixo (CABRAL, 2013): A transformação é denominada de: transformação logit de . Ela é dada pela razão citada abaixo: Podemos chamar essa razão: de odds (razão de chances). O que é razão de chances? Use a razão de chances para comparar as chances de dois eventos. Por exemplo, você quer comparar os estudantes que receberam ensino doméstico com os Capítulo 3 Fazer previsões de risco na área tributária – calcular a probabilidade de o contribuinte ser inadimplente ou adimplente após o parcelamento de tributos, de acordo com Dias Filho (2003). Classi�car se a empresa se encontra no grupo de empresas com qualidade ou sem qualidade. Capacidade de lidar com variáveis independentes categóricas. Os resultados �nais são em termos de probabilidade. Classi�car indivíduos em categorias. Não precisa de um grande número de suposições. Alto grau de con�abilidade. alunos que frequentaram o ensino público. O objetivo da análise é determinar se um grupo era mais provável de se formar na universidade com honras. FONTE: O que é razão de chances? Disponível: <https://bit.ly/3hWkLJe> Acesso em: 5 dez. 2018. Aplicação do modelo logístico: Vantagens do Modelo Logístico: Rótulos de Classe e Probabilidades Podemos pensar que a variável alvo é uma representação da probabilidade de associação à classe, e os valores observados da variável de destino nos dados de treinamento, simplesmente por de�nir a probabilidade de p (x) = 1 para casos que são observados na classe e p (x) = 0 para instâncias que não são observadas na classe. Porém, isso não acontece da mesma forma na regressão logística. Por exemplo, em um aplicativo a estimativa de probabilidade para o marketing alcançar um determinado consumidor (que vamos chamar de c). A probabilidade de ele responder à oferta possui probabilidade p (c responde) = 0.02, entretanto isso não signi�ca que a probabilidade desse consumidor responder realmente foi 1.0, nem que o modelo obteve um grande erro. A probabilidade do consumidor pode, de fato, ter sido em torno de p (c responde) = 0,02, o que na verdade é uma alta probabilidade de resposta para muitas campanhas. Capítulo 3 https://bit.ly/3hWkLJe Responder FONTE: PROVOST (2013, p. 101-102). Sobre o modelo logístico, coloque F para falso e V para verdadeiro, nas alternativas abaixo: a) ( ) Os parâmetros do modelo devem seguir normalidade. b) ( ) Ele é usado frequentemente para variáveis quantitativas. c) ( ) Podemos usá-lo no caso univariado. d) ( ) As variáveis do modelo devem ser dicotômicas. Vamos supor que temos um conjunto de dados em que devemos analisar a predominância de uma criança ter câncer ou não. Qual seria a melhor de fazer essa previsão? Capítulo 3 Responder 3. ANÁLISE DE CLUSTER A Análise de Cluster também é conhecida por Análise por Agrupamento, tem o propósito de descrever as diversas técnicas que têm por objetivo classi�car os valores de uma matriz de dados sob estudo em grupos de variáveis discretas. Quando podemos usar esta técnica? Quando é preciso explorar as similaridades entre conjunto de indivíduos ou objetos, em que se considera simultaneamente, no primeiro caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram feitas as mesmas mensurações. O objetivo é fazer agrupamentos homogêneos de itens representados por pontos num espaço n-dimensional em grupos, em que seus elementos se relacionam através dos coe�cientes de similaridades ou de correspondências. A análise de agrupamentos faz agregados baseados em distância (proximidade) (HAIR, 2009). Agora que vimos os conceitos iniciais do assunto, vamos nos aprofundar um pouco mais. Como utilizamos essas técnicas na análise multivariada? A Análise de Cluster classi�ca objetos de maneira que cada objeto seja semelhante aos outros no agrupamento, com base em um conjunto de características escolhidas (HAIR, 2009). Os grupos formados devem conter uma grande homogeneidade dentro de cada grupo, e uma taxa alta de heterogeneidade entre os grupos. Portanto, os objetos dentro dos agrupamentos estarão próximos quando forem representados gra�camente, e cada grupo estará distante do outro. A Figura 2 apresenta alguns exemplos de grupos formados através da técnica de cluster. FIGURA 2 - AGRUPAMENTOS Capítulo 3 A) Ela é usada apenas para dados bivariados. B) Classi�ca objetos de maneira que cada objeto seja semelhante aos outros no agrupamento. C) O principal propósito é fazer previsões sobre seus objetos no mesmo grupo. D) O principal propósito é fazer previsões sobre seus objetos em grupos diferentes. Responder FONTE: <https://bit.ly/39Sg68A>. Acesso em: 25 nov. 2018. Sobre os conceitos iniciais da análise multivariada podemos a�rmar: A variável estatística em análise de agrupamentos é determinada de maneira muito diferente do que ocorre em outras técnicas multivariadas, pois somente na análise por agrupamento não se estima a variável estatística empiricamente, em vez disso, usa a variável estatística especi�cada pelo pesquisador. Capítulo 3 https://bit.ly/39Sg68A Na biologia ela agrega os organismos vivos nos seus respectivos grupos. Na psicologia ela forma conjuntos de pessoas com base nos seus traços de personalidade. Classi�car a estrutura de mercado. Analisar as semelhanças e diferenças entre novos produtos. Avaliações de desempenho das empresas para identi�car agrupamentos com base nas estratégias ou orientações estratégicas da empresa. 1. Redução de dados: em uma pesquisa é coletado um grande número de dados que somente possuirão signi�cado se forem agrupados. A análise de agrupamentos pode reduzir os dados para reduzir as informações de uma população inteira ou de uma amostra, para a informação sobre subgrupos especí�cos e menores. O foco da análise de agrupamentos é a comparação de objetos com base na variável estatística, não na estimação da variável estatística em si. Isso torna a de�nição da variável estatística feita pelo pesquisador um passo crítico na análise. Em quais circunstâncias podemos usar a análise por agrupamento? A Análise de Cluster pode ser usada em todos os tipos de pesquisas em que se deseja agrupar objetos semelhantes (HAIR, 2009). Por exemplo: Para o mercado ela tem grande potencial para agrupar indivíduos, podendo ser frequentemente usada para: Frequentemente podemos usar a análise de agrupamento nos seguintes momentos (HAIR, 2009): Por exemplo: se é possível compreender o comportamento de uma população pela identi�cação dos principais grupos dentro dela, então reduzimos os dados para a população inteira em per�s de vários grupos. Capítulo 3 2. Geração de hipóteses: a análise de agrupamentos é útil quando na pesquisa é preciso desenvolver hipóteses ou examinar hipóteses previamente estabelecidas. Marketing: ajuda a identi�car grupos distintos em seu conjunto de clientes, e assim pode-se desenvolver programas de marketing direcionados para cada grupo diferente (CHIANG, 2003). Uso de terras: identi�car as alocações para o uso da terra, com �ns agrários e/ou urbanos em uma base de dados de observação via satélite (LEVIA, 2000). Seguro: reconhecer grupos de pessoas que tenham seguro de carro com um alto custo de risco (YEOH, 2002). World Wide Web: agrupa os documentos de acordo com as semelhanças semânticas, de maneira a melhorar os resultados oferecidos por sites de busca (HAMMOUDA, 2002). Estudos do terremoto: análise de dados reais e sintéticos deterremotos para extrair atributos que permitam a previsão de eventos precursores de abalos sísmicos (DZWINNEL, 2005). Desse modo, o pesquisador tem uma descrição mais concreta e compreensível das observações, sem perder muitas informações. Por exemplo: em uma pesquisa deseja-se estudar as atitudes em relação ao consumo de refrigerantes diet versus comuns, para que possam ser usadas para separar os consumidores de refrigerantes em segmentos ou grupos semelhantes. A análise de agrupamentos pode classi�car os consumidores de refrigerantes por suas atitudes em relação a refrigerantes normais versus diet, e os agrupamentos resultantes, se existirem, podem ser caracterizados por similaridades e diferenças demográ�cas. As técnicas de agrupamento têm sido usadas em diversas áreas, como: Alguns pontos importantes sobre a Análise de Agrupamentos Capítulo 3 A análise de agrupamentos é descritiva e não inferencial. Ela não tem base estatística para fazer inferências de uma amostra para uma população. Portanto, a análise de agrupamentos deve ser aplicada de um modo con�rmatório, usado para identi�car grupos que já têm uma fundamentação estatística descritiva. A análise de agrupamentos sempre gera agrupamentos, independentemente da existência real de alguma estrutura nos dados. Quando o pesquisador usa a análise de agrupamentos, ele está fazendo uma suposição sobre alguma estrutura entre os objetos. Porém, encontrar grupos não valida a existência dos mesmos. Somente com forte suporte conceitual, seguido de validação, é que os agrupamentos são potencialmente signi�cativos e relevantes. FONTE: HAIR, 2009, p. 431. Como podemos aplicar a Análise por Agrupamentos? Para começar a análise, precisamos medir o grau de relação entre as variáveis. E como vamos fazer essa medição? Através da medida de similaridade. 3.1 MEDIÇÃO DE SIMILARIDADE Essa medida é usada para determinar o grau de semelhança entre os objetos e realiza o agrupamento de acordo com a sua homogeneidade. Segundo Witten e Frank (2005), a medição ocorre da seguinte forma: cada elemento é comparado com os existentes usando uma métrica de distância, e a instância existente mais próxima é usada para atribuir a classe à nova. Isso é chamado de método de classi�cação de vizinho mais próximo. As distâncias de similaridade mais comuns são: Distância Euclidiana, Distância Manhattan, Distância de Mahalanobis () e as Medidas de Associação. a) Distância Euclidiana: Ela é de�nida como a soma da raiz quadrada da diferença entre x e y em suas respectivas dimensões. Vamos supor que temos dois pontos em duas dimensões que tenham coordenadas () e (), respectivamente. A distância euclidiana entre os pontos é o comprimento da hipotenusa de um triângulo Capítulo 3 retângulo, conforme se calcula pela fórmula apresentada na Figura 3, que mostra um exemplo de distância euclidiana. FIGURA 3 - EXEMPLO DE DISTÂNCIA EUCLIDIANA FONTE: Hair (2009, p. 442). A Distância Euclidiana é dada pela seguinte fórmula: b) Distância Manhattan: É de�nida pela soma das diferenças entre x e y em cada dimensão. Sua fórmula é dada por: c) Distância de Mahalanobis (): Podemos de�nir a Distância de Mahalanobis como a medida generalizada de distância que explica as correlações entre variáveis de modo que se pondera da mesma forma todas as variáveis. Porém, para que possamos usar a distância é necessário que as variáveis sejam padronizadas. Para as alternativas abaixo, responda F para falso e V para verdadeiro. a) ( ) A análise multivariada usa a similaridade para determinar o grau de semelhança entre os objetos dos grupos. b) ( ) A análise multivariada usa a similaridade para determinar a previsão de um elemento em comparação a outro elemento no mesmo grupo. c) ( ) A distância Euclidiana é de�nida pela soma das diferenças entre x e y em cada dimensão. d) ( ) A distância de Mahalanobis é de�nida como a soma da raiz quadrada da diferença entre x e y em suas respectivas dimensões. Capítulo 3 Responder Diferentes medidas de distância ou uma mudança nas escalas das variáveis podem conduzir a diferentes soluções de agrupamentos. Logo, é aconselhável usar diversas medidas e comparar os resultados com padrões teóricos ou conhecidos. Quando as variáveis estão correlacionadas (positiva ou negativamente), a medida de distância de Mahalanobis provavelmente é a mais adequada, pois ajusta correlações e pondera todas as variáveis igualmente. Qual é a melhor medida de distância? Para selecionar uma medida de distância é preciso avaliar alguns pontos: d) Medidas de associação: Essas medidas são usadas para comparar objetos cujas características foram medidas em valores não métricos (medida nominal ou ordinal) (FERRER, 2004). Elas avaliam o grau de relação entre os pares correspondentes. A forma mais simples de medida de associação seria o percentual de vezes em que ocorre concordância (ambos os respondentes dizem sim ou ambos dizem não a uma pergunta) no conjunto de questões (HAIR, 2009). Como podemos selecionar a medida de similaridade? As três maneiras de medir a similaridade são bastantes úteis, mas a mais usada é a medida Euclidiana, pois ela representa melhor o conceito de proximidade, que é importante para a análise de agrupamentos. A análise de agrupamentos é tipicamente associada com características medidas por variáveis métricas. Em algumas aplicações, características não métricas são usadas, mas é mais usual que as características sejam representadas por Capítulo 3 1. Gerar um cluster para cada elemento. 2. Identi�car os pares de clusters mais similares, conforme a medida de distância escolhida. 3. Unir em um cluster maior e recalcular a distância deste cluster para todas as outras variáveis. 4. Repita os passos 2 e 3 até sobrar um único cluster. medidas métricas, tornando novamente a distância a medida preferida. Logo, pode-se aplicar medidas de similaridade que representam a proximidade de objetos em um conjunto de variáveis métricas ou não métricas. 3.2 AGRUPAMENTO HIERÁRQUICO Os métodos hierárquicos criam uma hierarquia de relacionamentos entre os elementos, eles são técnicas nas quais os dados são particionados várias vezes, para produzir uma representação hierárquica dos agrupamentos (EVERITT, 2001), com o propósito de melhorar a visualização sobre a formação dos agrupamentos em cada estágio onde ele ocorreu e com o grau de semelhança entre os agrupamentos. O algoritmo aglomerativo funciona da seguinte forma (LINDEN, 2009): Esse método não requer que seja de�nido um número a priori de agrupamentos. Para visualizar a relação entre os agrupamentos é usado um grá�co chamado dendograma. A Figura 4 apresenta um exemplo do grá�co dendograma. FIGURA 4 - DENDOGRAMA Capítulo 3 FONTE: Vieira (2007). Métodos hierárquicos precisam de uma matriz que contenha as métricas de distância entre os agrupamentos em cada estágio do algoritmo. Essa matriz é conhecida como matriz de similaridades entre agrupamentos (BARROSO, 2003). Podemos imaginar um estágio do algoritmo no qual o número de agrupamentos é três: A1, A2 e A3. Então, pode-se montar a matriz de similaridade da seguinte forma: TABELA 1 - MATRIZ DE SIMILARIDADE A1 A2 A3 A1 0 0,2 0,4 A2 0,2 0 0,3 A3 0,4 0,5 0 FONTE: O autor. Na Tabela 1 podemos observar que A1 e A2 são agrupamentos similares, pois eles possuem as menores distâncias, em relação a A2 e A3, que são menos similares. Capítulo 3 Responder Podemos dividir os métodos hierárquicos em: Métodos Aglomerativos e Métodos Divisivos. Pergunta: Conforme a tabela a seguir, quais são as variáveis que têm agrupamento similar? Y1 Y2 Y3 Y1 0 0,2 0,1 Y2 0,5 0 0,6 Y3 0,1 0,5 0 3.2.1 Métodos Aglomerativos O Método Aglomerativo é iniciado com cada padrão formando seu próprio agrupamento, e gradativamente os grupos são formados até que um único conjunto contendo todos os dados seja gerado. Ao iniciar o processo, os grupos são pequenos e os elementosde cada grupo possuem um alto grau de similaridade. Mas, ao �nal do processo, poucos agrupamentos são gerados, e cada um pode conter vários elementos e menos similares entre eles. Capítulo 3 Deve-se colocar um único padrão para cada agrupamento. Logo após é calculada a matriz de similaridades. Ao �nalizar os passos 1 e 2, um novo agrupamento é formado pela união dos agrupamentos com maior grau de similaridade. Os passos 2 e 3 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento. Para um coe�ciente baixo, igual ou próximo de 0, corresponde a estruturas ruins, em que nenhum agrupamento foi encontrado. Para um coe�ciente alto, igual ou próximo de 1, representa que estruturas boas foram identi�cadas. Lembre-se: Para iniciar o processo é preciso criar uma matriz de similaridades entre os agrupamentos, e no início do algoritmo, cada padrão é um agrupamento. Quais são os passos do procedimento? Agora, como podemos medir a qualidade do agrupamento formado? Bom, para medir o grau da qualidade dos agrupamentos formados utilizamos o coe�ciente aglomerativo. O coe�ciente aglomerativo mede a qualidade de um agrupamento aglomerativo, em que, para cada objeto i, tem a sua dissimilaridade em relação ao primeiro agrupamento em que foi inserido dividido pela dissimilaridade na etapa �nal do algoritmo, segundo Palm (2005). Podemos de�nir o coe�ciente da seguinte forma: Em que, n é dado pelo número total de objetos do conjunto de dados. Os valores do coe�ciente variam entre 0 e 1. 3.3.1 Métodos Divisivos Métodos Divisivos são menos comuns entre os métodos hierárquicos, pois sua ine�ciência exige um esforço computacional maior que os métodos hierárquicos aglomerativos (COSTA, 1999). O método inicia com um único agrupamento formado por todos os padrões e gradativamente divide os agrupamentos em Capítulo 3 agrupamentos menores até que termine com um agrupamento por padrão. O objetivo é encontrar a partição que minimiza a matriz de similaridades. O processo pode ser descrito nos seguintes passos: 1) Um único agrupamento contendo todos os padrões. 2) Calcula-se a matriz de similaridades entre todos os possíveis pares de agrupamentos. 3) Forma-se um novo agrupamento pela divisão dos pares de agrupamentos com menor grau de similaridade. 4) Os passos 2 e 3 são executados até que se tenha um agrupamento por padrão. O dendograma para os Métodos Divisivos apresenta a ordem em que os agrupamentos foram divididos. A Figura 5 apresenta o exemplo de dendograma para o Método Divisivo. FIGURA 5 - DENDOGRAMA PARA O MÉTODO DIVISIVO FONTE: <https://www.maxwell.vrac.puc-rio.br/7975/7975_4.PDF> Acesso em: 27 nov. 2018. 3.4 MÉTODOS DE DISTÂNCIA ENTRE GRUPOS O Método de Distância é aplicado para medir o grau de similaridade entre os agrupamentos, isto é, o grau de similaridades entre os objetos (HAIR, 2009). Os métodos mais conhecidos são: ligação individual, ligação completa, ligação média, método centroide e método de Ward. Capítulo 3 https://www.maxwell.vrac.puc-rio.br/7975/7975_4.PDF a) Ligação individual (simples): Essa ligação é de�nida pela semelhança entre agrupamentos, como a menor distância de qualquer elemento de um agrupamento a qualquer elemento em outro grupo (HAIR, 2009). Para aplicar a ligação basta encontrar todas as distâncias entre observações nos agrupamentos e escolher a menor como medida de similaridade entre os grupos. Esse algoritmo aglomerativo é o mais simples, pois podemos de�nir vários padrões de aglomeração. Porém, esta flexibilidade pode criar erros, em que os agrupamentos são mal delineados (KETCHEN, 1996). A Figura 6 apresenta um exemplo de ligação individual. FIGURA 6 - EXEMPLO DE LIGAÇÃO INDIVIDUAL FONTE: Hair (2009, p. 450). b) Ligação completa: Na ligação completa a similaridade de agrupamento se baseia na distância máxima entre as observações nos agrupamentos formados (HAIR, 2009). A técnica exclui o problema de encadeamento identi�cado na ligação simples, e ao �nal ela gera soluções mais compactas (BAEZA, 1992). Capítulo 3 De acordo com Jain (1988), a ligação completa representa apenas o aspecto da maior distância entre os dados, muitos pesquisadores a consideram a mais apropriada para inúmeras aplicações. A Figura 7 apresenta um exemplo da diferença entre a ligação simples e a completa. FIGURA 7 - DIFERENÇA ENTRE A LIGAÇÃO SIMPLES E A COMPLETA FONTE: Hair (2009, p. 451). c) Ligação média: O método é diferente dos métodos citados anteriormente, pois a similaridade de dois agrupamentos é a similaridade média de todos os indivíduos em um agrupamento com todos os indivíduos em outro (HAIR, 2009). O algoritmo não depende de valores extremos (pares mais semelhantes ou mais distantes), como o que acontece com as ligações simples ou completas, pois a similaridade tem como base todos os elementos dos agregados. Ela é como um meio-termo entre os métodos de ligação simples e completa, e tende a gerar agregados com pequena variação interna (HAIR, 2009). Elas produzem agregados com a mesma variância interna. Capítulo 3 A) A Ligação individual é de�nida pela semelhança entre agrupamentos, como a menor distância de qualquer elemento de um agrupamento a qualquer elemento em outro grupo, porém ela não é muito utilizada devido ao seu alto grau de não correlação dos dados. B) Na Ligação completa a similaridade tem como base a distância mínima entre as observações dos grupos formados. C) A Ligação média tem como base a distância máxima entre os elementos dos agrupamentos. D) Nenhuma das anteriores. Responder Os outliers podem viesar negativamente todo o resultado de uma análise. O comportamento dos outliers pode ser justamente o que está sendo procurado. Os outliers possuem diversos outros nomes, como: dados discrepantes, pontos fora da curva, observações fora do comum, anomalias, valores atípicos, entre outros. Marque a opção correta. d) Método centroide: Bom, mas, o que são centroides? Centroides são os valores médios das observações de agrupamento (HAIR, 2009), isto é, os pontos centrais do grupo. Para este método, sempre que os indivíduos são reunidos é calculado um novo centroide. Uma grande vantagem na utilização desse método é a sua pouca afetação por outlier. Outliers Outliers são dados que se diferenciam drasticamente de todos os outros, são pontos fora da curva. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise. Algumas observações sobre outliers: Capítulo 3 FONTE: <https://bit.ly/39KejlP> Acesso em: 22 nov. 2018. Portanto, no método centroide (ROCHA, 2005), a similaridade entre dois agrupamentos é a distância entre seus centroides. e) Método de Ward: No método Ward as partições minimizam as perdas associadas a cada agrupamento (WARD, 1963). A perda é dada pela diferença entre a soma dos erros quadráticos de cada padrão e a média da partição em que está contido. O método combina agrupamentos com um pequeno número de valores, pois a soma de quadrados é diretamente relacionada com o número de observações envolvidas (MILLIGAN, 1980). Uma observação do método é o fato de ele produzir agregados com aproximadamente o mesmo número de observações (HAIR, 2009). Como são formados os agrupamentos hierárquicos? Os agrupamentos hierárquicos são formados por processos repetitivos para agregar, junto com um algoritmo de agrupamento, a similaridade entre agregados com múltiplos membros. O processo de criação de agrupamentos gera um diagrama em árvore que representa as combinações/divisões de agrupamentos para formar o intervalo completo de soluções. Devemos observar que os procedimentos hierárquicos geram um conjunto completo de soluções, variando de agregados em que todos são unitários até a solução de um só agrupamento no qual todas as observações estão em um só conjunto.Fazendo isso, o procedimento hierárquico fornece um excelente referencial para se comparar qualquer conjunto de soluções de agrupamentos. FONTE: Hair (2009, p. 452) e Linden (2009, p. 33-38). QUADRO 1 - VANTAGENS E DESVANTAGENS DE USAR OS MÉTODOS DE AGRUPAMENTOS HIERÁRQUICOS VANTAGENS DESVANTAGENS Métodos Simples: Como os Métodos Hierárquicos possuem As combinações feitas inicialmente que são indesejáveis podem continuar Capítulo 3 desenvolvimento em estruturas de árvore para retratar o processo de agrupamento, isso faz com que eles tenham descrições simples e abrangente dos intervalos de soluções do agrupamento. na análise e conduzir a observações atípicas. Logo, esse problema pode causar impactos negativos no resultado �nal. Medidas de similaridade: Devido aos métodos hierárquicos possuírem uma quantidade extensa de aplicações, isso faz com que eles tenham um grande desenvolvimento de medidas de similaridade para praticamente quaisquer tipos de variáveis de agrupamento. As técnicas hierárquicas podem ser aplicadas a quase todo tipo de questão de pesquisa. Para solucionar o impacto que têm as observações atípicas, o pesquisador pode analisar os dados várias vezes, e a cada análise tentar eliminar observações que podem trazer problemas. Rapidez: Eles têm a vantagem de gerar um conjunto inteiro de soluções de agrupamento de uma maneira rápida. Essa característica faz com que o pesquisador examine várias soluções diferentes, em que pode variar as medidas de similaridade e métodos de ligação de uma maneira e�ciente. O processo que envolve métodos hierárquicos é consideravelmente rápido, porém eles não são tratáveis para amostras muito grandes. No momento em que o tamanho amostral aumenta, é preciso um bom armazenamento para comportar todos esses dados. Por conta dessa exigência, as aplicações em alguns casos podem �car limitadas. FONTE: Hair (2009). 4. AGRUPAMENTO NÃO HIERÁRQUICO Os métodos não hierárquicos não envolvem o processo de construção em árvore, como o que acontece nos agrupamentos hierárquicos. Neste procedimento, os objetos são inseridos em agrupamentos, no momento em que o número de Capítulo 3 1. Especi�car sementes de agrupamento: Inicialmente é preciso inferir o ponto de partida, e para isso denominamos como sementes de agrupamento, para cada agregado. A semente pode ser pré-especi�cada pelo pesquisador ou observações podem ser escolhidas, geralmente em um processo aleatório. 2. Designação: Depois que acontece a de�nição das sementes, o passo seguinte é designar as observações a uma das sementes de agrupamento com base em similaridade. O propósito é designar cada observação à semente mais parecida. Em algumas abordagens, observações podem ser resignadas a agrupamentos que são mais semelhantes do que suas designações originais. De�nido pelo pesquisador: Para isso o pesquisador fornece os Pontos Sementes com base em dados externos. O pesquisador pode ter como base pesquisas anteriores ou dados de outra análise multivariada. Podemos também usar outras técnicas multivariadas para gerar as sementes. Para o pesquisar de�nir as sementes, ele precisa saber a quantidade de agregados a serem formados, e as informações sobre as características dos agrupamentos. Gerada pela própria amostra: Nessa técnica as sementes são geradas de maneira sistemática ou através da seleção ao acaso. Por exemplo, ao usar um software qualquer que faça análises multivariadas, a primeira semente é a primeira observação no conjunto de dados sem valores perdidos. A segunda semente é a próxima observação completa, onde ela é separada da primeira semente por uma distância mínima estipulada inicialmente. O ideal é que a distância mínima seja nula. Após todas as sementes serem selecionadas, o programa designa cada observação ao agrupamento com a semente mais próxima. agregados a serem formados tenha sido especi�cado. Por exemplo, uma solução de seis agrupamentos não é apenas uma combinação de dois agrupamentos a partir da solução de sete agregados, mas baseia-se na descoberta da melhor solução com seis agregados (HAIR, 2009). Ele produz uma partição num número �xo de classes, e temos que escolher o número de clusters à partida. Conforme Hair (2009) cita, o processo tem duas fases: Como podemos selecionar os Pontos da Semente (ponto de partida)? Podemos escolher selecionar os pontos da semente a partir de duas formas: Capítulo 3 Seja qual for a abordagem escolhida, o pesquisador deve conhecer o impacto do processo de escolha da semente sobre os resultados �nais do estudo. Os algoritmos de agrupamentos podem gerar diferentes soluções, com base nas sementes iniciais. O ideal é que as diferenças entre as soluções de agrupamento sejam mínimas ao utilizar diferentes sementes, porém elas focam na importância da seleção de sementes e seu impacto na solução �nal. 4.1 ALGORITMOS DE AGRUPAMENTO NÃO HIERÁRQUICO Para agrupar os dados através dos métodos não hierárquicos existem três algoritmos (GREEN, 1978). Esses algoritmos são frequentemente chamados de agrupamentos de K-médias (HAIR, 2009). Eles são algoritmos populares devido à sua simplicidade de implementação, escalabilidade, velocidade de convergência e adaptabilidade aos dados escassos (OYELADE, 2010). K-médias é um algoritmo não supervisionado, isto é, seus dados não possuem rótulos. O principal propósito é identi�car as similaridades entre os dados e agrupá-los conforme o número de cluster. O algoritmo de K-médias é interativo e poderoso para dividir um conjunto de dados em grupos separados. Uma característica importante dessa técnica é o fato de que o k deve ser predeterminado (KOERICH, 2003). k = número de grupos. A medida de dissimilaridade do algoritmo k-médias é dada através da distância Euclidiana entre os vetores de atributos xi e os representantes dos clusters Θi. Para a próxima a�rmativa, responda verdadeiro ou falso: O K-means é um algoritmo de agrupamento que possibilita dividir um conjunto de dados em K clusters (grupos) disjuntos. Embora os centros iniciais dos K clusters sejam escolhidos aleatoriamente, eles apresentam bom desempenho. Capítulo 3 Responder Inicialização: Nesta fase o algoritmo gera de forma aleatória os k centroides. Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos dos dados e cada um dos centroides. Cada cálculo é atribuído ao centroide ou cluster que possui a menor distância. E ao �nal os dados são particionados de acordo com o número de centroides inferidos por k. Movimentação de Centroides: Momento no qual calcula-se a média dos valores dos pontos de dados de cada cluster, e o valor médio será o novo centroide. A movimentação trata da alteração da localização do centroide em um plano (grá�co). A Figura 8 apresenta a movimentação dos centroides representados por x. Otimização dos K-médias: Na última fase do processo, as etapas da atribuição ao cluster e movimentação de centroides são repetidas até o cluster se tornar estático ou algum critério de parada tenha sido atingido. O algoritmo de K-Means é composto por quatro etapas em seu processo: Inicialização, Atribuição ao Cluster, Movimentação de Centroides e Otimização dos K-médias. Sobre as etapas dos processos de K-Means, marque V para verdadeiro e F para falso: a) ( ) Inicialização: nesta etapa acontece a atribuição ao cluster e a movimentação de centroides é repetida até o cluster se tornar estático. b) ( ) Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos dos dados de cada um dos centroides. Capítulo 3 Responder c) ( ) Movimentação de Centroides: nesta etapa é modi�cada a localização do centroide. d) ( ) Otimização: nesta etapa calcula-se a média dos valores dos pontos de dados de cada cluster, e o valor médio será o novo centroide. O Cluster se torna estático quando nenhum dos pontos de dados possa alterar o Cluster. Podemos de�nir como critério deparada o número de iterações máximas que o algoritmo faz durante a fase de otimização. FIGURA 8 - MOVIMENTAÇÃO DOS CENTROIDES FONTE: <https://bit.ly/2Db4UHY> Acesso em: 29 nov. 2018. Método de Agrupamento Elbow Capítulo 3 O Método de Elbow, também conhecido como Método do Cotovelo, ajuda a escolher o valor do argumento k. O algoritmo testa a variância dos dados em relação ao número de clusters, até que conforme o número de clusters aumenta não representa um valor signi�cativo de ganho. O valor indicado pelo “cotovelo” no grá�co quer dizer que a partir dele não existe um ganho grande se for aumentado o número de clusters, isto é, o método encontrou o número ideal para o argumento k. A Figura 9 apresenta o grá�co do método. FIGURA 9 - AGRUPAMENTO ELBOW FONTE: <https://bit.ly/3gjwSjk> Acesso em: 29 nov. 2018. Obtenção de agrupamentos Como foi visto, existem várias formas de obter agrupamentos por meio dos algoritmos hierárquicos, cada uma com vantagens e desvantagens: 1) Ligação simples: o algoritmo é bem simples e usual, porém as estruturas de agrupamento malformadas dentro dos dados produzem cadeias sinuosas de agrupamentos inaceitáveis. Capítulo 3 https://bit.ly/3gjwSjk 2) Ligação completa: elimina o problema das cadeias sinuosas, entretanto considera somente as observações mais extremas de um agrupamento, e assim pode ser afetada por observações atípicas. 3)Ligação média: tem como base a similaridade da média de todos os indivíduos em um agrupamento, e tende a gerar agregados com pouca variação interna e é menos afetada por observações atípicas. 4) Ligação centroide: mede distância entre os centroides dos agrupamentos e, como a ligação média, é menos afetada por observações atípicas. 5) Método de Ward: tem como base a soma total de quadrados dentro de agrupamentos e é mais apropriado quando o pesquisador espera agrupamentos de algum modo parecidos em tamanho, mas é facilmente distorcido por observações atípicas. Os métodos não hierárquicos requerem que o número de agrupamentos seja especi�cado antes de se designar observações: 6) Método da referência sequencial: designa as observações para o agrupamento mais próximo, mas uma observação não pode ser resignada a outro agrupamento seguindo sua designação original. 7) Procedimentos de otimização: permitem a resignação de observações com base na proximidade sequencial de observações com agrupamentos formados durante o processo. Para escolher entre métodos hierárquicos e não hierárquicos podemos observar os seguintes raciocínios. Escolhemos métodos hierárquicos quando: 8) Muitas ou todas as soluções alternativas devem ser examinadas. 9) O tamanho da amostra é moderado (abaixo de 300-400, não excedendo 1.000) ou uma amostra de um conjunto maior de dados é aceitável. Métodos não hierárquicos são adequados quando: 10) O número de agrupamentos é conhecido e pontos sementes iniciais podem ser especi�cados de acordo com alguma base prática, objetiva ou teórica. 11) Observações atípicas provocam preocupação, pois métodos não hierárquicos são geralmente menos suscetíveis a observações atípicas. 12) Uma combinação usando a abordagem hierárquica seguida de um método não hierárquico é frequentemente aconselhável. 13) Um método não hierárquico é utilizado para selecionar o número de agrupamentos e para caracterizar os centros de agrupamento que servem como Capítulo 3 5. K-ÉSIMO VIZINHO MAIS PRÓXIMO (K-NEAREST NEIGHBOR - KNN) Podemos usar para encontrar as empresas mais semelhantes aos melhores clientes do negócio. Também é possível usar para encontrar consumidores on-line mais semelhantes aos melhores clientes do negócio. sementes iniciais no procedimento não hierárquico. 14) Um método não hierárquico então agrega todas as observações usando os pontos sementes para fornecer alocações mais precisas. FONTE: Hair (2009, p. 455). O KNN é um algoritmo supervisionado que tem por objetivo classi�car objetos (WEBB, 2002). O algoritmo de Machine Learning tem como propósito classi�car o elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação. A proximidade entre vizinhos é calculada através das medidas de distância Euclidiana e a distância Manhattan. O que podemos fazer com essas distâncias? Para clientes corporativos, a IBM faz isso para ajudar a direcionar sua força de vendas. Os anunciantes on-line fazem isso para segmentar anúncios. Essas instâncias mais semelhantes são chamadas de vizinhos mais próximos (PROVOST, 2013). Para encontrar a classe de um elemento que ainda não pertença a algum conjunto formado, o classi�cador KNN busca os K elementos do conjunto de treinamento que tenham a menor distância do elemento desconhecido. Esses K elementos podemos chamar de K-vizinhos mais próximos. Para estimar a classe a que o elemento K pertença, o algoritmo KNN calcula os K- vizinhos mais próximos a K e classi�ca-o como sendo da classe que aparece com maior frequência dentre os seus K-vizinhos. Entretanto, na fase de classi�cação, em alguns momentos pode ocorrer um problema, no qual, dado um elemento de teste K, os seus K-vizinhos mais Capítulo 3 próximos são de uma mesma classe, e então o algoritmo não consegue decidir qual a classe a que esse elemento K pertença. FIGURA 10 - K=1 FONTE: <https://bit.ly/33dSGZS> Acesso em: 30 nov. 2018. FIGURA 11 - K =20 FONTE: <https://bit.ly/2Xitwpb> Acesso em: 30 nov. 2018. Para solucionar o problema, o padrão deve ser rodado de forma recursiva pelo algoritmo, o qual agora usará apenas (K-1) vizinhos para o cálculo, até que uma das classes dos K-vizinhos apareça com maior frequência em relação às demais (BEZERRA, 2006). E assim classi�car o elemento K. Capítulo 3 https://bit.ly/33dSGZS https://bit.ly/2Xitwpb No KNN o número de K-vizinhos é controlado pelo usuário, em que o objetivo é obter uma melhor classi�cação dos dados. O parâmetro K indica o número de vizinhos que serão usados pelo algoritmo durante os testes. Ele faz com que o algoritmo consiga uma classi�cação mais re�nada. Entretanto, para encontrar o valor ótimo de K é preciso que para cada base de dados sejam testados vários valores diferentes, de forma a descobrir qual o melhor valor de K para determinado problema (BEZERRA, 2006). O que é o conjunto de treinamento e teste? A separação de dados em conjuntos de teste e treinamento é uma parte importante da avaliação de modelos de mineração de dados. Normalmente, quando você separa um conjunto de dados em um conjunto de treinamentos e um conjunto de testes, a maior parte dos dados é usada para treinamento e uma parte menor dos dados é usada para teste. Usando dados semelhantes para treinamento e teste, você pode minimizar os efeitos das discrepâncias de dados e entender melhor as características do modelo. Depois que um modelo for processado usando o conjunto de treinamentos, você testa o modelo fazendo previsões contra o conjunto de testes. Como os dados no conjunto de teste já contêm valores conhecidos para o atributo que você deseja prever, é fácil determinar se a precisão das previsões do modelo está correta. Normalmente esses dados são divididos em dois conjuntos: um com 70% dos dados de origem, para treinar o modelo, e um com 30% para testar o modelo. Porém, podemos dividir dependendo da quantidade de dados que possui e dos requisitos de negócio. Uma forma de dividir os dados é através da função train_test_split. Ela leva em consideração as diferentes características dos dados, tentando não os dividir randomicamente, mas de forma igualitária levando em consideração suas características. FONTE: <https://bit.ly/30jSMxo> Acesso em: 30 nov. 2018. <https://bit.ly/2PbJMDR> Acesso em: 30 nov. 2018. <https://bit.ly/39P4pPN> Acesso em: 30 nov. 2018. 5.1 EXEMPLO PRÁTICO Para entender como funciona o algoritmo de KNN, vamos estudar um dataset muito conhecido na literatura, chamado IRIS. Capítulo3 https://bit.ly/30jSMxo https://bit.ly/2PbJMDR https://bit.ly/39P4pPN Pétalas (protegem partes reprodutivas da planta e atraem polinizadores). Sépalas (partes semelhantes a folhas que envolvem o botão da �or) de exemplares de três espécies de �ores íris. Iris Setosa. Iris Versicolour. Iris Virginica. Comprimento da sépala. Largura da sépala. Comprimento da pétala. Largura da pétala. Veja o exemplo completo sobre IRIS no site a seguir: <https://bit.ly/2Dt3YOU> O banco de dados IRIS é um dos mais acessados do Center for Machine Learning and Intelligent Systems da Universidade da Califórnia (CML-UCI). Para acessar o Dataset IRIS e outros Dataset entre no link a seguir: <http://archive.ics.uci.edu/ml/datasets.html> O Dataset IRIS data set contém as dimensões de: Ele também contém três classes com 50 instâncias cada: Um detalhe importante que deve ser levado em consideração é o fato de uma classe ser linearmente separável das outras duas, e as últimas não são separáveis linearmente entre si. O propósito é classi�car a planta conforme quatro características físicas (em cm): Capítulo 3 https://bit.ly/2Dt3YOU http://archive.ics.uci.edu/ml/datasets.html Então, como faríamos essa classi�cação? O algoritmo vai tentar classi�car os elementos com base nas características do conjunto. Quanto mais o elemento se aproxima da característica do conjunto, mais ele será classi�cado neste conjunto. FIGURA 12 - CLASSIFICAÇÃO DO DATASET - SÉPALAS FONTE:<https://rpubs.com/Hgoswami/368890> Acesso em: 30 nov. 2018. FIGURA 13 - CLASSIFICAÇÃO DO DATASET IRIS - PÉTALAS Capítulo 3 https://rpubs.com/Hgoswami/368890 FONTE: <https://rpubs.com/Hgoswami/368890> Acesso em: 30 nov. 2018. A Figura 12 apresenta os Dataset classi�cados, em que os pontos são o comprimento e largura da sépala. 6 ALGUMAS CONSIDERAÇÕES Neste capítulo abordamos sobre os conceitos de análise multivariada, a qual é bastante utilizada para analisar dados. Estas técnicas têm a �nalidade de auxiliar na tomada de decisões quando tratamos de dados múltiplos. Com a grande quantidade de informações geradas a todo o momento, é cada vez maior a necessidade de fazer uso desse tipo de abordagem. A primeira técnica multivariada descrita foi a regressão logística, que usamos para situações em que a variável dependente é de natureza dicotômica (0, 1), por exemplo, caso queiramos avaliar se um cliente gostou (1) ou não do produto (0). Essas variáveis são denominadas de Dummys, pois elas podem receber apenas dois valores, “sim” ou “não”. E os resultados �nais das análises �cam contidos no intervalo de zero a um. No tópico seguinte abordamos os conceitos de Análise de Cluster, onde o objetivo é classi�car os valores de uma matriz com dados discretos. A Análise de Cluster classi�ca objetos de forma que cada objeto seja similar aos outros no grupo com base em um conjunto de atributos escolhidos. Para medir o grau de relação entre Capítulo 3 https://rpubs.com/Hgoswami/368890 Capítulo 2 Conteúdo escrito por: as variáveis, podemos usar as medidas de similaridade. As distâncias de similaridade mais comuns são: Distância Euclidiana, Distância Manhattan, Distância de Mahalanobis e as Medidas de Associação. Também podemos medir o grau de distância entre os grupos pelos métodos: ligação individual, ligação completa, ligação média, método centroide e método de Ward. Outro assunto muito importante neste contexto são os Agrupamentos Não hierárquicos. Esse tipo de agrupamento não envolve o processo de construção em árvore, neste caso os objetos são inseridos em agrupamentos, no momento em que o número de agregados a serem formados é especi�cado. Dentro desse conceito estudamos o algoritmo não supervisionado de K-médias. O principal propósito deste algoritmo é identi�car as similaridades entre os dados e agrupá- los conforme o número de cluster. O algoritmo de K-médias é interativo e poderoso para dividir um conjunto de dados em grupos separados, sua característica importante é o fato de que o k deve ser predeterminado. Para �nalizar nosso estudo, abordamos na parte �nal do capítulo o algoritmo supervisionado K-ésimo vizinho mais próximo (KNN). Este tem a �nalidade de classi�car o elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação. A proximidade entre vizinhos é calculada através das medidas de distância Euclidiana e a distância Manhattan. Todos os direitos reservados © Amanda Souza da Silva Capítulo 3
Compartilhar