Baixe o app para aproveitar ainda mais
Prévia do material em texto
12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 1/34 MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS ALGORITMOS DEALGORITMOS DE CLASSIFICAÇÃOCLASSIFICAÇÃO Autor: Esp. Wesley Soares de Souza Revisor : Bruno Roberto Nepomuceno Matheus I N I C I A R 1.00 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 2/34 introdução Introdução Nesta unidade iremos aprender sobre métodos de classi�cação dos dados a serem minerados para gerar a nossa base de conhecimento sobre determinado problema encontrado. A tarefa de�nida como classi�cação compreende na obtenção de modelos baseados num conjunto originado em uma grande base de dados. a tarefa de regressão pode ser de�nido como um tipo de classi�cação porém trabalha de forma e�caz com dados numéricos. Para classi�carmos conteúdos originados de um grande conjunto de documentos que possuem conteúdo textual é melhor trabalhado através de técnicas LSI e LDA. Tais estruturas tratadas até o momento podem ser transformadas em árvores de decisão que são estruturas próximas a um �uxograma onde seus nós são formados por de�nições que gerarão as regras que comporão os nós raízes das estruturas. E por �m podemos gerar �orestas aleatórias compostas por essas árvores de decisão de forma aleatória o que permite um resultado e�ciente na estruturação de nossa base de conhecimento. 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 3/34 A tarefa de�nida como classi�cação compreende-se na catalogação de um grupo de registros de um banco de dados em classes organizadas para que assim os dados possa ser melhor utilizados conforme a necessidade. A classi�cação consiste em obter um modelo baseado em um conjunto de exemplos que descrevem uma função conhecida. (CASTANHEIRA, 2008) A tarefa de regressão consiste em algo bem próximo a classi�cação porém só trabalha com atributos numéricos. Os registros do banco de dados são também catalogados porém de forma numérica. A regressão linear é uma das formas mais simples de aplicação da regressão, sendo abstraído uma função linear. Classi�icação Na �gura 3.1. demonstramos, de forma visual, a função (x, f(x)), onde x é o parâmetro de entrada e f(x) a saída da função, a qual busca associar cada registro xi do banco de dados com um rótulo categórico de uma classe yi. Aonde pretende-se prever qual a classe em que cada registro se enquadra. Tarefa de Classi�cação eTarefa de Classi�cação e Regressão em Mineração deRegressão em Mineração de DadosDados 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 4/34 Toda a hipótese de ligação entre o registro e sua classe denominamos de h, o qual se torna o classi�cador. A identi�cação da função h consiste em um processo de busca no espaço de hipóteses H, pela função que mais se aproxime da função original f. Esse processo é denominado aprendizado (Russell e Norvig, 1995). Obtêm-se todas as hipóteses através de algoritmos de aprendizado. Não está no campo da possibilidade que os computadores aprendam de forma tão e�ciente como as pessoas, porém os algoritmos criados são tão Figura 3.1. - Associação entre registros de dados e classes Autor: PASSOS et al, 2005, P.67 saiba mais Saiba mais Machine Learning – ou, no bom português: aprendizado de máquina – está cada vez mais em voga no mercado tech. Tudo isso devido aos inúmeros cases de sucesso como: Net�ix, Spotify, Amazon e tantas outras. Fonte: Elaborado pelo autor. ACESSAR https://blog.geekhunter.com.br/aprendizado-de-maquina-e-seus-algoritmos/ 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 5/34 e�cientes em várias tarefas de aprendizado, e os estudos teóricos sobre o assunto tem permitido a criação e aperfeiçoamento de novas técnicas. O aprendizado de máquina está ligado ao campo da inteligência arti�cial e tem como principal abordagem tornar as máquinas aptas a aprender. O objetivo principal do aprendizado de máquina é generalizar além dos exemplos existentes no conjunto de treinamento, pois independente da quantidade de dados existentes é muito improvável que, durante os testes, exatamente os mesmos exemplos apareçam. (ROZA,2016, p.16) Não existe um algoritmo de classi�cação que possua um desempenho melhor que o outro, o que signi�ca que a cada nova aplicação, os algoritmos devem ser testados a �m de identi�car o que trará os resultados com melhor e�ciência. Podemos realizar uma medida de desempenho através da acurácia (Acc(h)), onde h é a determinância da hipótese, a precisão do classi�cador: Acc(h) = 1 - Err(h), onde Err(h) denomina a taxa de classi�cação com erro onde poderá ter como retorno 1 se for verdadeiro e 0 se for falso em cada situação de teste ou desenvolvimento. Uma vez que existe a ação da classi�cação dos dados para a geração do modelo de aprendizado alguns ajustes podem ocorrer conforme são detectados falhas para que o resultado se torne mais e�ciente. A principal função no ajuste é identi�car a raiz do modelo insatisfatório, para que medidas corretivas sejam adotadas. As ações que podem ocorrer com a curva de aprendizado segue conforme a �gura 3.2, Under�tting, Balanced e Over�tting, aonde o padrão que deve ser alcançado é o balanced: 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 6/34 Denominamos Under�tting (sub ajuste) quando o modelo ajusta-se pouco ou de forma insatisfatória aos dados de treinamento. Isso acontece quando o modelo não consegue veri�car um relacionamento entre as entradas (x) com determinadas classes (y). O Over�tting (sobreajuste) ocorre quando o classi�cador se ajusta em excesso nos dados de avaliação mesmo que ocorra de forma satisfatória nos dados de treinamento. Essa ocorrência tem ligação com o fato de que o modelo memoriza os dados reconhecidos porém não consegue satisfatoriamente fazer a generalização do que não foi visto. Para que o desempenho seja satisfatório precisamos fazer com que a linha de aprendizado tenha um desempenho satisfatório (balanced). Para que isso ocorra podemos realizar algumas ações quando ocorre um under�tting devido aos recursos de entrada não serem su�cientes para descrever a classe de destino. A adição de recursos de domínio e o aumento de produtos cartesianos de recursos de entrada, assim como a diminuição do volume de regularização. Caso esteja ocorrendo um over�tting, a �exibilidade deve ser reduzida no modelo. É necessário utilizar uma combinação de recursos que possam diminuir os n-grams (dados de análise) e diminuir as classes numéricas, e nesse caso aumentar o volume de regularização. Regressão Figura 3.2 - Métodos de correção Fonte: Elaborado pelo autor 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 7/34 Podemos realizar a regressão realizando a busca através de funções, lineares ou não, mapeando registros do banco de dados com valores reais. Muito semelhante a classi�cação, porém se restringe apenas a valores numéricos. Temos como exemplo de situações a serem usados com a aplicação de regressão: predição da soma da biomassa em uma �oresta, probabilidade de sobrevivência de um paciente, predição de risco em investimentos �nanceiros, limite de créditos e outras situações a�ns. Regressão Logística Consiste em uma forma estatística de modelar resultados binominais, ou seja, de�nidos com 0 para falso ou sem sucesso, e 1 para verdadeiro ou sucesso no resultado �nal. Uma regressão logística substitui uma regressão linear quando a resposta que procuramos em uma análise a longo prazo como se, “o indivíduovai pagar uma dívida?” diferente de “qual o valor da casa pelas suas características?”. Podemos observar a diferença entre as duas estruturas na �gura 3.3. A logística se mostra mais vantajosa que a regressão linear, principalmente quando falamos da normalidade e a linearidade. Não existe a função linear entre as variáveis de entrada e suas respectivas classes. Sendo que , os resíduos, ou dados desnecessários não precisam estar distribuídos normalmente. Figura 3.3. - Regressão linear X Regressão logística Fonte: Elaborado pelo autor. 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 8/34 O interesse nesse tipo de modelo é a probabilidade de saída, em relação a inadimplência, por exemplo, estamos interessado na probabilidade do recebimento da dívida. Então utilizamos a função logística que possui como variável de resposta: Analisando a probabilidade p dividida por 1-p, temos o odd ratio (razão de chance), que apresenta a chance de sucesso em relação ao fracasso. Por exemplo em uma situação a pessoa pode ter 90% de chance de ser uma boa pagadora assim como 10% de ser inadimplente. praticar Vamos Praticar saiba mais Saiba mais “O modelo de regressão logística é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável resposta Yi é binária. Uma variável binária assume dois valores, como por exemplo, e denominados "fracasso" e "sucesso", respectivamente. Neste caso, "sucesso" é o evento de interesse.” Fonte: Portal Action (s/d) ACESSAR Y i = 0 Y i = 1 log ( ) = + + +. . .+ xρ 1 − ρ β0 β1x1 β2x2 βn http://www.portalaction.com.br/analise-de-regressao/regressao-logistica 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 9/34 Leia o trecho a seguir: “A tarefa de classi�cação é uma função de aprendizado que mapeia os dados de entrada, ou conjunto de dados de entrada, em um número �nito de classes. Nele, cada exemplo pertence a uma classe, entre um conjunto pré de�nido de classes”. CASTANHEIRA, L.G.; Aplicação de Técnicas de Mineração de Dados em Problemas de Classi�cação de padrões. UFMG, Belo Horizonte. 2008. p.13. Considerando os vários algoritmos de classi�cação existente é correto a�rmar que: a) Utilizando problemas semelhantes existe a possibilidade do nível de acurácia ser diferente entre situações distintas b) Os ajustes no modelo somente podem ocorrer caso sejam detectadas falhas que impeçam a veracidade da informação c) O algoritmo de aprendizado de máquina, ou bias indutivo, pode ser de três tipos: Restrição, Busca e lógico. d) Cada tipo de aplicação tem um algoritmo correspondente que retorna o resultado esperado com uma eficácia maior. e) O algoritmo de aprendizado de restrição vem com a função de busca aonde sua ocorrência existe quando a hipótese é incompleta 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 10/34 Podemos veri�car nos dias de hoje a existência de uma quantidade gigantesca de documentos armazenados em diversos tipos de meios além de bancos de dados, o volume de informações contidas no ambiente de Big Data. Para que possamos minerar esse tipo de dado, propomos entre diversos modelos existentes o LSI e LDA, que são técnicas de processamento em linguagem natural na resolução de problemas. Indexação Semântica Latente (LSI - Latent Semantic Indexing) LSI consiste em um método de extração e demonstração do signi�cado semântico de palavras em determinado contexto, através de cálculos estatísticos aplicados a um volume grande de documentos textuais. Para que esse tipo de análise ocorra, o grupo de palavras a ser analisado, ou seja um documento ou conjunto de documentos são distribuídos em matrizes vetorizadas. Esses vetores são na verdade como um grande ‘saco de palavras’ sendo ignorado a posição de determinada palavra no texto mas sim a LSI e LDALSI e LDA 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 11/34 quantidade de vezes que determinada palavra aparece no contexto. Essa matriz gerada se torna muito esparsa pois uma fração muito pequena das palavras aparece em cada documento em determinadas circunstâncias o que através do uso de diversas técnicas acaba consumindo um número reduzido de memória, através, por exemplo, de um dicionário de chaves, com os termos não nulos. Matrizes esparsas também se tornam úteis pois permitem a execução de cálculos mais rápidos. A LSI se utiliza da decomposição de valor singular (SVD), discutido posteriormente, que podemos de�nir como uma análise fatorial, a qual condensa uma grande matriz do tipo word-by-context para uma de menor volume, porém sem perder as informações úteis dos dados. A análise fatorial consiste em uma técnica para diminuição das variáveis em uma base de dados, através de padrões de correlação, gerando um número menor de variáveis não observadas pela estrutura bruta. A LSI traz através de associações desconhecidas entre as palavras que compõem o vetor, podendo ser induzidas por uma análise da forma em que essas palavras co-ocorrem entre si. LSI também pode ser usado para determinar a semelhança de palavras ou documentos com documentos externos a ele (MARTIN; BERRY, 2007). Podemos de�nir a técnica em 4 passos segundo SCARPA (2017), 1. Construir uma matriz de documentos a partir do corpus, que condiz na estrutura de todos os documentos da pesquisa 2. Fazer a decomposição SVD da matriz obtida 3. Escolher componentes principais 4. Utilizar uma métrica de semelhança, como por exemplo o cosseno, para encontrar o documento mais semelhante. PCA e SVD Conforme visto na unidade anterior a análise de componentes principais (PCA) é responsável por diminuir a dimensionalidade dos dados. Podemos considerar, como os pontos no grá�co PCA, como sendo as linhas de uma matriz de�nida, com o conjunto de palavras utilizados no documento. A PCA n 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 12/34 se liga ao conceito de decomposição em valores singulares (SVD). O valor singular da matriz M é um número real σ tal que temos um par de vetores unitários (u,v): e Quando temos uma matriz quadrada, relacionamos o conceito de autovetor. Autovetor corresponde a um escalar λ como autovalor do operador linear A: V → V, se temos um vetor x diferente de 0 (zero) sendo que Ax = λx. Qualquer vetor de x que satisfaça tal igualdade denomina-se como autovetor de A. Sempre que a matriz for simétrica, a decomposição em autovetores vai acontecer trazendo um forte signi�cado geométrico. A decomposição da matriz em valores singulares mantém as propriedades da decomposição em autovetores, o que se aplica em toda a matriz, garantindo sua aplicabilidade. Podemos utilizar menos memória e tempo de processamento ao utilizar algoritmos randomizados para obter a aproximação maior que os algoritmos determinísticos convencionais, na decomposição SVD. De acordo com SOUZA & CLARO (2014), a LSI permite recuperar documentos semanticamente relacionados mesmo que não possuam as palavras-chave da busca. As dimensões ótimas, na busca, tem alta dependência com a distribuição de palavras e do nível de complexidade dos documentos mapeados, ou seja, a estrutura completa da análise deve ser levada em conta. Sendo que a escolha pela dimensão ótima geralmente possui ajuste humano. Com o LSI processado, compara-se a similaridade de dois documentos encontrando seus vetores correspondentes calculando o cosseno do ângulo gerado pelos vetores. Para que a busca pelos termos dentre os documentos mais relevantes, deve-se considerar a sequência dos termos sendo o documento D componente do conjuntocentral de documentos envolvidos no modelo de conhecimento. Na prática Temos a aplicação no trabalho de (LANDAUER et al, 1998), avaliando a LSI, onde os autores mostraram que o ângulo entre sinônimo e os antônimos Mu = σv v = σuM T 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 13/34 possuem uma média de cosseno entre os vetores 12 (doze) vezes maior do que a mesma medida de similaridade entre palavras não relacionadas. Com a realização de uma avaliação por capacidade no modelo de conhecimento em aprender representações quanto ao signi�cado das palavras, temos o trabalho de (DUMAIS et al, 1997) que testaram o quão bem o modelo se comportaria em um experimento realizado com um questionário de 80 questões do tipo sinônimos, sendo dado uma palavra de teste, o modelo deveria decidir qual a resposta mais altamente associada de um grupo com quatro opções. As decisões foram tomadas através da escolha de uma resposta que apresentou como resultado o maior valor de cosseno entre ele e a palavra avaliada. Concluindo, a LSI foi essencial em documentos educacionais correspondentes ao nível de leitura do estudante com o propósito de melhora na aprendizagem (KINTSCH, 1994). Alocação de Dirichlet Latente (LDA - Latent Dirichlet Allocation) O algoritmo Latent Dirichlet Allocation (LDA) consistem em aprendizado não supervisionado que tenta compreender em vários documentos ou conjunto de palavras de categorias distintas. Como a categorização nos documentos é não supervisionada, a estrutura pode não ser similar a como um humano geralmente organiza. Os tópicos constituem uma linha de aprendizado em que são analisados a probabilidade de ocorrência de cada palavra nos documentos em si, que são combinadas em tópicos. Dois documentos que se mostram semelhantes os quais não são iguais, porém espera-se que usem um subconjunto de palavras compartilhadas trazendo tal semelhança. Com isso o LDA deve capturar esse grupo de palavras e a utilizar como categorias. Como exemplo, temos algo extremamente simples, levando em conta um conjunto único de palavras e suas ocorrências: comer, dormir, brincar, miar e latir. Os tópicos de�nidos pela LDA seriam: 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 14/34 Quadro 3.1. Tópicos LDA Fonte: Amazon SageMaker, 2020 Veri�camos, visualmente, que a probabilidade é de que o tópico 1 sejam gatos, pois miam e dormem mais, e o tópico 2 seja sobre cães, que brincam e latem. Podemos ainda levar em consideração que nesses textos não aparece a palavra cão ou gato. Assim como o LSI se utilizando do SVD na aplicação para a redução da dimensionalidade é de fundamentação estatística rigorosa, pois é feita especi�camente para a análise de toda a estrutura textual utilizada no modelo de negócio (corpus). No LDA, temos que a utilização de inferência bayesiana, auxiliam quando temos vários níveis estruturais. A inferência bayesiana se origina da probabilidade à posteriori através de combinações em um evento, pelas regras de Bayes vinda com a informação gerada por amostragem (verossimilhança) por um modelo probabilístico com dados observados. Levando em consideração nosso modelo vetorial, em que todos os documentos envolvidos na base de conhecimento, o que importa são as palavras envolvidas e não a estrutura textual, e dessa forma construirmos métodos computacionais mais e�cientes. O modelo LDA, leva tais considerações de forma que: 1. A �m de manter o modelo vetorial, cada palavra corresponde a um vetor cuja posição não-nula refere-se ao seu índice na matriz com valor 1. Sendo Tópico Comer Dormir Brincar Miar Latir Tópico 01 0.1 0.3 0.2 0.4 0.0 Tópico 02 0.2 0.1 0.4 0.0 0.3 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 15/34 que a base no espaço vetorial, gerado pelas palavras, formalmente possui dimensão n. E associamos a i-ésima palavra ao vetor v, sendo: 2. Todo documento é uma sequência de palavras de�nidos por d = ( ). 3. A coleção de documentos abordados denomina-se m de�nidos por composição D = ( ). A proposta do LDA é de que a alta probabilidade de similaridade não seja notado somente aos documentos do modelo de negócio mas ser aplicados em documentos externos similares a �m de considerar que as palavras como componentes em si são independentes e identicamente distribuídas. Sendo a distribuição à posteriori intratável para realizar inferências exatas, é necessário estimar os parâmetros da distribuição aproximadamente. Há uma grande variedade de algoritmos que podem ser considerados para LDA, incluindo a aproximação de Laplace e Monte Carlo via Cadeias de Markov (JORDAN, 1998). Buscando encontrar os parâmetros α e β que maximizam a log- verossimilhança dos dados através da estrutura do corpus de�nida por D = ( ) temos a função: Como descrito, percebe-se que a quantidade p(w|α, β) não é computada de forma tratável, porém através de uma boa aproximação, com algoritmos que , ,… ,w0 w1 wn , ,… ,d0 d1 dn−1 , ,… ,d0 d1 dn l (α, β) = log p( | α, β)∑ d=1 M wd 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 16/34 auxiliem a encontrar estimadores de máxima verossimilhança para os parâmetros α e β. Na Prática Temos a utilização do LDA em tratamento de bibliotecas de imagem feita por Sivic et al (SIVIC et al., 2005). No artigo citado, as imagens são referenciadas como sendo os documentos, as palavras-chaves representam as palavras nos vetores e as categorias de objetos representam os tópicos. O modelo não supervisionado com base no LDA demonstrado por Sivic, mostra desempenho satisfatório comparado a algoritmos com 400 imagens marcadas a mão para de�nição das classes de treinamento. Sendo as principais vantagens: 1. Representação de baixa dimensionalidade 2. Não supervisionado 3. Representação de tópicos intuitivos 4. Categorização simultânea 5. Polissemia visual onde a mesma palavra-chave encontrada em dois contextos diferentes se diferenciando. Com isso constatamos a capacidade da LDA permitir inferências na relevância dos tópicos e com isso sumarizar os textos da estrutura dos documentos inseridos no corpus da base de conhecimento. praticar Vamos Praticar Nos dias de hoje a existência de uma quantidade gigantesca de documentos armazenados em diversos tipos de meios além de bancos de dados, e do volume de 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 17/34 informações contidas no ambiente de Big Data. Em relação a mineração de dados desse tipo de material é correto a�rmar: a) Podemos utilizar a regressão logística para a busca em documentos, sem adaptação, se torna viável pois podemos realizar análise a longo prazo b) Os únicos modelos a serem utilizados no processamento de linguagem natural nos dias de hoje são o LSI e o LDA, sendo uma área a explorar. c) Para ser tratado um grande volume de documentos é preciso convertê-los do formato de origem para bancos de dados convencionais para rodar os algoritmos. d) LSI é uma das técnicas utilizadas muito útil para um grande volume de texto analisando grupos de palavras semelhantes. e) LDA consiste em aprendizado supervisionado com foco no aprendizado automatizado através do estudo semântico do texto 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 18/34 Árvores de decisão diferente dos métodos estudados anteriormente (LDA e LSI), são métodos de aprendizado de máquina que podem ser supervisionado, não supervisionado ou semi-supervisionado em estudos mais recentes, não parametrizado, muito utilizado para classi�cação e regressão. A estruturade uma árvore é muito semelhante a um �uxograma, algo bem conhecido de forma geral, desde que esse �uxograma não contenha um loop pode ser considerado uma árvore de decisão. Árvores nada mais são do que estruturas de dados conjuntas com elementos que armazenam informações chamadas de nós. Nós são representados no �uxograma sendo os retângulos que representam as atividades. Toda árvore possui um nó chamado raiz, onde se inicia as estruturas em si, e as ligações entre a raiz e seus elementos, denominamos �lhos e assim segue hierarquicamente. um nó que não possuem �lhos é um nó folha ou terminal. A árvore de decisão em sua estrutura de�ne em seus nós as regras a serem utilizadas, e as decisões se demonstram nas folhas sendo as mais convenientes a serem utilizadas. Árvores de Decisão paraÁrvores de Decisão para Classi�caçãoClassi�cação 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 19/34 A árvore de decisão é uma técnica muito utilizada em classi�cação devido ao fato do conhecimento adquirido se de�nir em regras, que podem ser expressas na linguagem natural, o que facilita o entendimento pelas pessoas. Principais Conceitos à Indução de Árvores de Decisão. Ao ser criada, o uso de uma árvore de decisão é rápido computacionalmente falando, e a facilidade que se tem ao interpretar sua estrutura é algo vantajoso ao seu favor. Porém a construção pelo processo de indução pode acarretar uma alta demanda computacional. Mesmo que demonstrado anteriormente que sua estrutura pode ser manual pela abordagem top-down, as principais demandas ocorrem por processos automáticos pela abordagem bottom-up. Há várias maneiras de se estruturar a partir dos atributos de uma base de dados, de forma exaustiva, o número de decisões formadas cresce fatorialmente com o aumento dos atributos. Logo percebe-se que o custo computacional torna inviável a estrutura de uma árvore de decisão ótima. Mesmo assim o resultado satisfatório ocorre em tempo satisfatório. Top-down: Indução para Árvore de Decisão. Conhecido como Top-down Induction of Decision Tree (TDIDT), se baseia em muitos algoritmos de indução dentre os mais conhecidos estão o ID3 (QUINLAN, 1986), C4.5 (QUINLAN, 1993) e CART (BREIMAN et al., 1984). O TDIDT de�ne como regras de decisão na formação da árvore com sucessivas divisões dos modelos através dos valores dos atributos preditivos, de forma recursiva. O algoritmo se baseia em três possibilidades levando em consideração um conjunto T com classes : 1. Conjunto T com um ou mais objetos contidos na classe , sendo a árvore T um nó folha que identi�ca a classe . 2. Conjunto T não possui objetos. A árvore de decisão é um nó folha, sendo a classe associada por informação externa. , ,… ,C1 C2 Ck Cj Cj 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 20/34 3. Conjunto T possui exemplos de N classes. Dessa forma ocorre a divisão de T em subconjuntos que se tornam classes únicas. O algoritmo TDIDT é recursivo de busca ‘gulosa’ em busca dos melhores atributos em que dividem o conjunto em subconjuntos, sendo que inicialmente são todos parte de um único nó raiz. Escolha dos Atributos Preditivos É de�nido um critério de seleção para associação dos nós da árvore, existem diferentes critérios entre diversos algoritmos de indução da árvore de decisão. São de�nidos como distribuição das classes antes e depois da divisão. A divisão que a maioria dos algoritmos utiliza é a univariável, onde cada nó interno divide-se baseado em um único atributo que o algoritmo tenta encontrar o melhor atributo para a divisão. Os critérios de seleção mais utilizado para uma melhor divisão, é a busca pelos dados de um nó pai diminuindo a impureza dos nós �lhos. A minimização de impureza deixa a distribuição de classes desbalanceadas. A impureza é nula quando todos os nós pertencem a uma mesma classe, e se torna máxima se tiver o mesmo número de exemplos em cada classe. Ganho de Informação O ganho da informação se utiliza da entropia para medir a impureza pelo algoritmo ID3. Para de�nir a condição de teste sendo boa é feito a comparação do grau de entropia do nó pai antes da divisão e a entropia dos nós �lhos após a divisão. O atributo com maior diferença é a condição teste escolhida, cujo ganho é dado pela equação: Sendo o número de valores de nós �lhos, N é o total de objetos nó pai e N(vj) o número de exemplos associados ao nó �lho . ganho = entropia (pai) − [ entropia ( )]∑ j=1 n N ( )vj N vj n vj 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 21/34 O ganho de informação tem como atributo teste o que gera uma maximização do ganho de informação. O maior problema se encontra na preferência por atributos com muitos valores possíveis. Razão de Ganho Foi proposto em QUINLAN (1993) a razão do ganho, sendo essa o ganho de informação relativa como critério avaliativo de�nida pela equação como: razão de ganho (nó) = A razão não pode ser de�nida quando temos o denominador igual a zero, além do que, a razão de ganho favorece ao denominador com valores pequenos. Métodos de Poda Ao serem criadas, árvores de decisão podem possuir muitas arestas que re�etem ruídos ou erros. Isso gera Over�tting (sobre ajustes), o que impede a generalização do modelo. Para realizar esses ajuste são realizadas métodos de poda (pruning), consequentemente temos uma árvore mais simples facilitando a compreensão pelo usuário. Temos o método pré-poda que é executado no processo de construção, em que o processo encerra sua divisão dos atributos gerando um nó folha. Como critério pode ser utilizado o ganho de informação. A pós-poda é realizada após a criação da árvore de decisão, retirando ramos completos, tudo que está abaixo de um nó interno é removido e transforma- se em folha, representando a classe que se destaca no ramo. O algoritmo calcula a taxa de erro para veri�car a necessidade de poda, da mesma forma para evitar que a poda aconteça. Os métodos que são comumente utilizados para a poda são: Cost Complexity Pruning, Reduced Error Pruning, Minimum Error Pruning (MEP), Pessimistic Pruning, ErrorBased Pruning (EBP), Minimum Description Length (MDL) Pruning, ganho entropia (n )ó 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 22/34 Mininum Message Length (MML) Pruning, Critical Value Pruning (CVP), OPT e OPT- 2. Algoritmos de Indução de Árvore de Decisão. Demonstraremos os algoritmos ID3, C4.5 e CART, porém existem outros que podem ser pesquisados para aprofundar no assunto, são eles: NBTree, ADTree, LMT e BFTree. ID3 Foi um dos primeiras técnicas envolvendo árvore de decisão, sendo elaborado baseado em sistemas de inferência e em de sistemas de aprendizagem. É denominado um algoritmo recursivo de ‘busca gulosa’, buscando atributos que melhor dividem a estrutura em sub-árvores. Sua principal limitação se encontra em que só trata de atributos categóricos não ordinais, não sendo apresentado atributos contínuos, devendo estes serem discretizados préviamente. saiba mais Saiba mais O Gradiente Boosting Machine é um meta-algoritmo para aprendizado de máquina supervisionado, muito utilizado em situações de classi�cação e regressão conforme tratados nessa etapa. Seu princípio está na produção de previsões e classi�cações advindas de modelos preditivos considerados fracos combinados via ensemble learning reduzindo assim a viese dos algoritmos. Fonte: Elaborado pelo autor ACESSAR https://mineracaodedados.wordpress.com/tag/arvores-de-decisao/ 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 23/34 Utiliza o ganho de informação paragerar a melhor divisão, entretanto esse critério não limita o número de divisões o que pode gerar árvores complexas. E o mesmo não apresenta métodos pós-poda o que poderia melhor organizar as árvores mais complexas. C4.5 Demonstra uma evolução sobre o ID3, sendo que ele consegue lidar tanto com atributos categóricos quanto contínuos. Para trabalhar com os atributos contínuos é de�nido uma divisão dos exemplos de forma binária, aqueles que possuem valor maior que o limiar e os que são menores ou iguais. Se utiliza da razão de ganho para encontrar o atributo que se comporta melhor como divisor, tal medida se mostra superior ao ganho de informação, trazendo árvores precisas e menos complexas. Com isso lidando com atributos de custos diferentes. Possui método pós-poda, e faz busca na árvore de decisão de baixo para cima transformando em nós folhas ramos sem ganho signi�cativo. CART O algoritmo CART (Classi�cation and Regression Trees) é um método não parametrizado induzindo tanto árvores de classi�cação quanto de regressão, isso ligado ao atributo nominal para classi�cação ou contínuo para regressão. Sua principal vantagem está na grande capacidade de pesquisa entre os dados mesmo quando não se apresentam em evidência. Seus resultados apresentam grande simplicidade na sua demonstração e legibilidade da estrutura. As árvores geradas são sempre binárias sendo percorrida da raiz às folhas através de respostas simples. CART possuem tratamento diferenciado para atributos ordenados e permite a combinação linear entre os atributos. Diferente dos outros algoritmos que se utilizam da pré-poda, o modelo sugerido, realiza pós-poda reduzindo o fator custo-complexidade. Segundo pesquisas, esta técnica é muito e�ciente e gera árvores mais simples, precisas e com boa capacidade de generalização. 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 24/34 praticar Vamos Praticar Árvores de decisão são métodos de aprendizado de máquina que pode ser supervisionado, não supervisionado ou semi supervisionado, assim como não parametrizados na iniciação. São muito utilizados na classi�cação e em funções de regressão.Em relação às árvores de decisão é correto a�rmar: a) Uma árvore de decisão para melhor entendimento pode se comparar a um fluxograma de forma completa, sendo as atividades os nós da árvore. b) Toda árvore possui um nó raiz que levando pela analogia é a onde se encerra a estrutura da árvore sendo o resultado da base de conhecimento gerada c) O nó folha ou terminal são definidos como os nó que não possuem filhos, porém depois que possui tam determinação não poderá virar um nó com filhos d) A árvore de decisão é uma técnica muito utilizada em classificação devido ao fato do conhecimento se definir em regras. e) Na estruturação de uma árvore supervisionada a estruturação de seus nós acontece de forma exaustiva até complementarem a base de conhecimento. 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 25/34 Esse é um algoritmo de aprendizado simples que produz excelentes resultados. Como o nome sugere é criado uma �oresta aleatória, que nada mais é que um conjunto de árvores de decisão preparadas com o método bagging. O método bagging (Bootstrap AGGregatING) é uma técnica de treinamento de coleções instáveis. É criada uma coleção com classi�cadores diferentes entre si por amostragem aleatória, independente e uniforme. As árvores de decisão são combinadas, com erro médio de composição, utilizando o bagging. Com isso temos menos casos de over�tting, o que trará uma e�cácia pois o treinamento do algoritmo de árvores de decisão são realizados aleatoriamente e isso faz com que o resultado variem muito e seus erro sejam compensados. A �oresta aleatória é uma estrutura de bagging, onde a composição por árvores é usado como base. São criados a partir de uma grande amostra de dados. O método de poda não é utilizado. Na classi�cação a quantidade de características corresponde a , sendo que diferentes grupos de Florestas AleatóriasFlorestas Aleatórias √n 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 26/34 características caem em diferentes árvores que são treinadas em diferentes amostras. O modelo grá�co segue com a �gura 3.4. O algoritmo é muito e�caz com problemas práticos, pois fornece um treinamento de alta qualidade com uma base extensa em aleatoriedade no processo de construção. As principais vantagens do algoritmo são: Aprendizado em alta velocidade O algoritmo se conclui com um número �xo de operações insensível aos picos de dados pela amostragem aleatória Não precisa de uma con�guração precisa dos parâmetros As principais desvantagens são: O modelo ocupa um espaço considerável de memória pois o modelo é construído a partir de K árvores em um conjunto de treinamento de tamanho N. O modelo de treinamento é mais lento que outros algoritmos correspondentes Figura 3.4. Floresta aleatória Fonte: Elaborado pelo autor 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 27/34 Propenso a Over�tting, quando as tarefas envolvidas possuem muito ruído A �oresta aleatória, mesmo possuindo desvantagens, possuem uma performance de resultados excelente. Além de poder trabalhar com dados de entrada tanto binários, categóricos e numéricos. Além do que é possível desenvolver um modelo num curto espaço de tempo. praticar Vamos Praticar Uma �oresta aleatória consiste em um algoritmo de aprendizado simples que produz excelentes resultados. Como o nome sugere é formada por um conjunto de árvores de decisão com um �m em comum, sendo isso, é correto a�rmar que: reflitaRe�ita Na formação de uma �oresta aleatória mesmo que sua formação seja de várias árvores de decisão. a estrutura de erro utilizado como parâmetro é do erro médio e não a soma dos mesmos o que diminui o erro quadrático médio e diminui a variância do classi�cador. Dessa forma percebemos que é muito mais vantajoso utilizar a estrutura do algoritmo de uma �oresta do que várias estruturas de árvores de forma paralela. Fonte: Elaborado pelo autor 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 28/34 a) Uma floresta aleatória é criada através de algoritmos de agregação que geram regras de amostragem definida apoiando a base de conhecimento b) O método Bagging nada mais é que uma regra de treinamento de coleções estáveis com classificadores semelhantes c) Uma floresta aleatória pode ser uma coleção de estruturas geradas por agregação de estruturas que podem ser árvores de decisão ou outro modelo aleatório. d) Uma floresta aleatória é formada por uma estrutura de bagging onde sua composição é feita por árvores a partir de uma grande base de dados. e) Na classificação de uma floresta aleatória vinda de uma grande base de dados possui um conjunto de N características estruturais. 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 29/34 indicações Material Complementar FILME O impacto social dos algoritmos de recomendação Ano: 2018 Comentário: Dierê vem com uma qualidade excepcional e conhecimento su�ciente vai até o TEDXMauá 2018 compartilhar a cultura analítica, “Data for good” e o impacto causado pelos algoritmos de recomendação. Compartilhe desse conhecimento! T R A I L E R 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 30/34 LIVRO Analítica de Dados com Hadoop Benjamin Bengfort e Jenny Kim Editora: Novatec ISBN: 9788575225219 Comentário: Um grande conjunto de dados para ser analisadoexige a utilização de técnicas estatísticas e de aprendizado de máquina para que tenham um desempenho satisafatório. Você está pronto para utilizar essas técnicas? Neste livro encontramos o porquê o ecossistema Hadoop é o mais recomendado para essa tarefa. Ao invés do foco estar na implantação ou no desenvolvimento de software com foco na computação distribuída, você deve se concentrar nas análises referentes aos dados e técnicas de armazenamento de dados que o Hadoop traz e nos �uxos de trabalho ordenados que o framework consegue gerar. Con�ra! 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 31/34 conclusão Conclusão As estruturas de classi�cação tem com função principal agilizar o processo de mineração dos dados tornando o resultado mais e�caz assim como diminuir o custo computacional de utilização de memória. Temos técnicas mais e�cazes com dados numéricos como agrupamento que é um tipo de classi�cador, assim como para conteúdos formados por linguagem natural através dos métodos LSI e LDA. E com as árvores de decisão formamos estruturas de aprendizado que melhoram o tempo de resposta em estruturas de dados grandes e para automatizar um pouco mais formamos as �orestas aleatórias formadas por árvores de decisão que apesar do custo computacional ser um pouco elevado a precisão do resultado gerado é muito elevado e acaba por compensar tal dispêndio. referências Referências Bibliográ�cas AMAZON SAGEMAKER. GUIA DO DESENVOLVEDOR. Disponível em: <https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/sagemaker- dg.pdf#lda> Acesso em: 25 Jan. 2019. BREIMAN, L., FRIEDMAN, J. H., OLSHEN, R. A., & STONE, C. J. ; Classi�cation and Regression Trees. Wadsworth. 1984 https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/sagemaker-dg.pdf#lda 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 32/34 CASTANHEIRA, L.G.; Aplicação de Técnicas de Mineração de Dados em Problemas de Classi�cação de padrões. UFMG, Belo Horizonte. 2008. disponível em: <https://www.ppgee.ufmg.br/defesas/349M.PDF> Acesso em 21 Dez. 2019. DMITRIEVSKY, M.; Floresta de decisão aleatória na aprendizagem por reforço. Metatrader 5. 2018. disponível em: <https://www.mql5.com/pt/articles/3856> Acesso em: 24 Dez. 2019 DUMAIS, S.; LETSCHE, T.; LITTMAN, M.; LANDAUER, T.; Automatic cross- language retrieval using latent semantic indexing. In AAAI Symposium on CrooLanguage Text an Speech Retrieval. American Association for Arti�cial Intelligence. 1997 ESTATSITE.COM. REGRESSÃO Logística: conceitos essenciais e modelo. disponível em: <https://estatsite.com/2018/08/29/regressao-logistica- conceitos-e-formula/> Acesso em: 22 Dez. 2019. FOLTZ, P. W.; DUMAIS, S. T. Personalized information delivery: An analysis of information �ltering methods. Communications of the ACM, ACM, v. 35, n. 12, p. 51–60, 1992. GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. São Paulo: Elsevier Editora Ltda, 2005. JORDAN, M. I. Learning in graphical models. [S.l.]: Springer Science & Business Media, 1998. KINTSCH, W. Text comprehension, memory, and learning. American psychologist, American Psychological Association, v. 49, n. 4, p. 294, 1994. LANDAUER, T. K.; FOLTZ, P. W.; LAHAM, D. An introduction to latent semantic analysis. Discourse processes, Taylor & Francis, v. 25, n. 2-3, p. 259– 284, 1998. MARTIN, D. I.; BERRY, M. W. Mathematical foundations behind latent semantic analysis. Handbook of latent semantic analysis. Mahwah, NJ: https://www.ppgee.ufmg.br/defesas/349M.PDF https://www.mql5.com/pt/articles/3856 https://estatsite.com/2018/08/29/regressao-logistica-conceitos-e-formula/ 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 33/34 Lawrence Erlbaum Associates, p. 35–56, 2007. PORTAL ACTION. Análise de regressão. disponível em: <http://www.portalaction.com.br/analise-de-regressao/regressao-logistica> Acesso em: 22 Dez. 2019. QUINLAN, J. R.; C4.5: programs for machine learning. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA. 1993. QUINLAN, J. R. Induction of decision trees. Machine Learning. 1986 Disponível em: <https://link.springer.com/article/10.1007/BF00116251> acesso em: 23 Dez. 2019 ROZA, F. S.; Aprendizagem de máquina para apoio à tomada de decisão em vendas do varejo utilizando registros de vendas. Projeto de conclusão de Curso: Engenharia de Controle e automação. UFSC. Santa Catarina. 2016. Disponível em: <https://repositorio.ufsc.br/bitstream/handle/123456789/171569/PFC_2016- 1%20Felippe_Roza.pdf?sequence=1&isAllowed=y> Acesso em: 23 Jan. 2020 RUSSELL, S.; NORVIG, P. Arti�cial Intelligence: A Modern Approach. New Jersey: Prentice-Hall, 1995. SCARPA, A.D. Técnicas de Processamento de Linguagem Natural Aplicadas às Ciências Sociais. Rio de Janeiro: Fundação Getúlio Vargas, 2017. SOUZA, E.N.P.; CLARO, D.B.; Detecção Multilíngue de Serviços Web Duplicados Baseada na Similaridade Textual. SBSI:UFBA. Salvador. 2014. Disponível em: </home/wesley/Downloads/6140-1045-5252-1-10- 20190523.pdf>. Acesso em: 23 Jan. 2020. http://www.portalaction.com.br/analise-de-regressao/regressao-logistica https://link.springer.com/article/10.1007/BF00116251 https://repositorio.ufsc.br/bitstream/handle/123456789/171569/PFC_2016-1%20Felippe_Roza.pdf?sequence=1&isAllowed=y http://home/wesley/Downloads/6140-1045-5252-1-10-20190523.pdf 12/05/2021 Ead.br https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 34/34
Compartilhar