Prévia do material em texto
30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 1/36 Introdução Olá, estudante! É com entusiasmo que convido você para a leitura desta unidade. Por meio da Inteligência Arti�cial (IA), uma máquina pode aprender de diversas formas, por indução ou dedução, por hábito ou conceito, de forma conexionista, emergente ou probabilística. A maneira como ela pode resolver os problemas do mundo real, no entanto, em termos de decisões, ocorre MACHINE LEARNINGMACHINE LEARNING FUNDAMENTOS DA MACHINEFUNDAMENTOS DA MACHINE LEARNINGLEARNING Au to r : M e . J a c k s o n Lu i s S c h i r i g a t t i R ev i s o r : R o d r i g o R a m o s N o g u e i ra Tempo de leitura do conteúdo estimado em 1 hora e 34 minutos. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 2/36 mediante o aprendizado simbólico, a partir de técnicas de aprendizagem por buscas heurísticas, por reconhecimento de padrões e relações. Entretanto, caro(a) estudante, como é possível obter a inteligência necessária para uma tomada de decisão e�ciente? Para entender esse conceito, nesta unidade, direcionaremos seus estudos para o entendimento da aquisição de inteligência a partir de bases de dados transacionais, multidimensionais e do big data. Ademais, apresentaremos os fundamentos de machine learning, big data, a organização de dados para análise e a mensuração da performance. Boa leitura. Prezado(a) estudante, para compreender o que é Aprendizado Máquina (AM), machine learning , e big data , é necessário entender que a de�nição exata de Inteligência Arti�cial (IA) é discutível, mas, literalmente, a palavra “arti�cial” corresponde a tudo que é feito pelo homem e o termo “inteligência” é a capacidade de compreender, aprender e resolver problemas. A Figura 1.1 ilustra uma aplicação da IA, mediante a robótica e o AM, em tarefas de montagem e detecção de defeitos em peças. Introdução a Big Data e Machine Learning 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 3/36 Figura 1.1 - Robô automatizando e aprendendo por meio da detecção de defeitos Fonte: wklzzz / 123RF. #PraCegoVer : a imagem representa um braço de robô com garra, que automatiza uma tarefa em uma indústria 4.0. Ao mesmo tempo que automatiza a tarefa, aprende com a detecção de defeitos nas peças. Para Luger (2013, p. 19), “a inteligência arti�cial pode ser de�nida como o ramo da ciência da computação que se ocupa da automação do comportamento inteligente”. A seguir, discutiremos o que signi�ca a automação do comportamento inteligente. O comportamento inteligente A inteligência já não é mais teoria, mas é uma aplicação para benefício humano. Segundo Faceli et al . (2021), há alguns anos, a área de IA era considerada uma parte da ciência da computação teórica, com aplicações em pequenos problemas práticos curiosos, desa�adores, mas de pouco valor prático, e resolvidos pela codi�cação da computação. Essa codi�cação refere-se aos algoritmos ou pseudocódigos que especi�cam, passo a passo, como o problema pode ser resolvido. A ideia básica de programar máquinas para executar tarefas é que elas podem resolver problemas que nós humanos não conseguiríamos ou demoraríamos muito tempo para resolver. Exemplos práticos de solução de problemas são: resolução de cálculos com grande quantidade de dados e informações; aplicações de modelos matemáticos e estatísticos; outras tarefas que estariam além da nossa capacidade de processamento e memória. As máquinas realizam bem essas tarefas automatizadas e programadas pelos humanos, mas a questão é: as máquinas podem aprender igual aos humanos? A resposta é sim. Para Faceli et al . (2021), a capacidade de aprendizado é essencial para o comportamento inteligente, que está relacionado às tarefas de aprendizagem como: memorização, observação, exploração de situações para o aprendizado de fatos, aperfeiçoamento das habilidades motoras/cognitivas, por meio de práticas, e organização do conhecimento em representações adequadas. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 4/36 Machine learning A capacidade da inteligência humana é aprender, e todo progresso humano é o resultado dos esforços anteriores e da evolução do nosso entendimento. A aprendizagem automática das máquinas, também denominada Aprendizado Máquina (AM), ou machine learning , é um ramo da ciência da computação no qual, há décadas, os cientistas estão fazendo as máquinas aprenderem. O avanço da computação, em termos de processamento e memória e por meio dos algoritmos de aprendizagem, contribuiu para a revolução da IA. É importante salientar que o campo da aprendizagem de máquina estuda como construir programas de computador que melhorem a experiência da máquina, de forma automática. Atualmente, as máquinas já aprendem por meio dos sistemas inteligentes, e os robôs, em fábricas, já são utilizados para automatizar diversas tarefas. Um exemplo dessa automação é a aplicação de chatbots integrados à base de dados, caso em que máquinas e humanos conversam, de forma natural, para a resolução de problemas, deixando os serviços mais ágeis. A IA também pode ser utilizada em mecanismos de segurança que avaliam padrões de ataques em bases de dados treinadas e cujos algoritmos aprendem com novos padrões, a partir de bases não treinadas. A Figura 1.2 mostra um robô secretária, que realiza diversas tarefas em um escritório. Hoje, uma realidade próxima. Figura 1.2 - Robô secretária, um desenho que representava um futuro distante, hoje, é o presente Fonte: studiostoks / 123RF. #PraCegoVer : a imagem representa um robô secretária realizando múltiplas tarefas. Em um balão de conversa, o robô diz “Eu não sou robô!”, e, no outro, “Não é problema meu”. Para Luger (2013), o aprendizado é importante para aplicações práticas de IA, e o aprendizado acontece quando ocorrem mudanças em um sistema, o qual melhora quando a mesma tarefa for realizada pela segunda vez, caso contrário, a máquina não aprendeu. Nesse sentido, o aprendizado envolve a generalização a partir da experiência e, para uma generalização ideal, o desempenho deve melhorar na repetição da mesma tarefa e em tarefas semelhantes do domínio, mediante um viés indutivo. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 5/36 O aprendizado indutivo utiliza a generalização, a partir de um conjunto de exemplos. Neste estudo de AM, apresentaremos quais são os métodos, os algoritmos e as técnicas que se baseiam no viés indutivo, ou seja, na teoria da aprendizagem automática. Para Bengfort e Kim (2016), o objetivo do AM é derivar modelos preditivos, a partir de dados atuais e históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as devidas melhorias, com uma excessiva quantidade de treinamento ou experiência. Tais resultados e�cientes são alcançados pelos algoritmos de AM para domínios muito restritos, usando modelos treinados a partir de um grande conjunto de dados. Para Siegel (2017), os métodos de indução estão relacionados ao AM. Os métodos de modelagem variam, mas todos enfrentam o mesmo problema, aprender o máximo possível. Portanto, o objetivo do AM é a indução , ou seja, o raciocínio, que parte de fatos detalhados para princípios gerais (do efeito para a causa). Por sua vez, a dedução é o raciocínio que parte do geral para o particular (ou da causa para o efeito). Ademais, a dedução é direta e parte da aplicação direta de regras, e a indução parte dos detalhes para generalizar e veri�car padrões que continuarão se aplicando em situações ainda não vistas. Visão geral dos problemas e dastécnicas No AM, existem várias formas de modelar a aprendizagem e, como exposto anteriormente, uma delas, a mais utilizada, é o viés indutivo com informações de uma base de dados do passado e do presente. Essa abordagem, segundo Coppin (2017), compreende a maioria dos problemas de aprendizado, sendo que a tarefa é aprender a classi�car entradas de acordo com um conjunto �nito, ou até in�nito, de classi�cações. Um sistema de aprendizado tem uma base de dados de treinamento que é classi�cada manualmente. O sistema aprende quando, a partir dessa base de treinamento, a máquina tenta classi�car esses mesmos dados e uma nova base ainda não observada. Nesse contexto, existem algumas maneiras de aprender: por hábito; por conceito. A palavra “hábito” está relacionada a uma tarefa ou a um comportamento permanentes, frequentes ou costumeiros. Na IA, segundo Coppin (2017), a aprendizagem por hábitos está relacionada ao treinamento que envolve a armazenagem de cada fragmento de dados e sua classi�cação. Depois, veri�ca-se cada novo item de informação que está armazenado na memória. Se estiver na memória, a classi�cação armazenada com aquele item será retornada. Nesse método, o aprendiz só consegue classi�car os dados que já conhece e não há esforços para aproximar a função de mapeamento. Na prática, esses tipos de sistemas ou robôs efetuam tarefas automatizadas e aprendem de acordo com novas informações armazenadas. Esses são os sistemas especialistas, que têm uma base de fatos e dados (base de conhecimento). Sempre que a base é alimentada com novas informações, que se relacionam de acordo com fatos e regras (conhecimento), um aprendizado é realizado. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 6/36 Dois elementos-chave são necessários para que os computadores aprendam: a base de conhecimento e a inferência. A base de conhecimento é um conjunto de fatos e regras a respeito de um objeto; o mecanismo de inferência é o algoritmo que realiza o acesso, a seleção e a interpretação de um conjunto de regras do objeto. Por exemplo: Patrícia é esposa de Pedro, consequentemente, há um novo fato: Pedro é marido de Patrícia. Uma regra seria: se X é esposa de Y, então, Y é marido de X. Dessa forma, o computador pode aplicar a regra ao fato (BELMIRO, 2014). Por seu turno, o aprendizado por conceitos envolve determinar um mapeamento, a partir de um conjunto de variáveis de entrada, em um valor booleano (verdadeiro ou falso). Os métodos que conseguem mapear, corretamente, um conjunto de dados de treinamento, por meio de classi�cações, também conseguem mapear dados não observados anteriormente, ou seja, conseguem realizar generalizações, a partir de um conjunto de dados de treinamento. Ademais, os métodos de aprendizado do tipo conceito podem ser de diversos tipos, segundo Luger (2013), e há uma divisão de métodos, técnicas e algoritmos de aprendizagem indutiva. O Quadro 1.1 apresenta as características, os algoritmos, os métodos ou as técnicas de cada AM. Fonte: sentavio / 123RF. Associação de tarefas programadas em uma linha de produção : o robô aprenderá de acordo com o que é ensinado em sua base de conhecimento. Nenhum outro mapeamento é realizado automaticamente. Uma diferença em relação a um algoritmo que realiza um conjunto de tarefas pré-programadas e um algoritmo que classi�ca dados mediante critérios (regras) e fatos, gerando um resultado verdadeiro ou falso, é que o primeiro algoritmo, que realiza tarefas pré-programadas, é um conjunto de ações prede�nidas, e o segundo, algoritmo que classi�ca dados, é um conjunto de informações programadas que geram classi�cações e decisões. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 7/36 Aprendizado Características Algoritmos, métodos, técnicas Aprendizado simbólico ● Os algoritmos baseiam-se na suposição de que a principal in�uência sobre o comportamento do programa é a sua base de conhecimento do domínio representada explicitamente. ● Baseada em sentenças em linguagem simbólica. ● Algoritmos de espaços de conceitos. ● Linguagem Lex: busca heurística. ● Algoritmo de eliminação de candidatos. ● Algoritmo ID3 para a indução de árvore de decisão. Aprendizado conexionista ● O conhecimento está implícito na organização e na interação desses neurônios. ● Neurônios arti�ciais conectados. ● As redes neurais não aprendem adicionando representações a sua base de conhecimento, em vez disso, elas aprendem modi�cando a sua estrutura global. Assim, as redes neurais se adaptam às contingências do mundo que habitam. ● Algoritmos de treinamento de Perceptron. ● Aprendizado por retroprogramação. ● Aprendizado competitivo: o vencedor leva tudo — rede de Kohonen, redes Outstar e contraprogramação, máquinas de vetor de suporte. ● Aprendizado hebbiano por coincidência. ● Redes de atratores ou “memórias”. Aprendizado genético e emergente ● O aprendizado é realizado por meio de adaptação por analogias biológicas. ● Aprendizado inspirado na evolução, mediante a modelagem de uma população de indivíduos, por meio da sobrevivência de seus membros mais ajustados. ● Modelos de aprendizados social e emergente. ● Algoritmo genético. ● Sistemas classi�cadores e programação genética. ● Algoritmos de autômatos celulares (o jogo da vida). AM probabilístico ● Representações complexas do mundo, por meio das ferramentas probabilísticas. ● Os eventos podem ser relacionados uns aos outros, de forma probabilística. ● Modelos estocásticos e dinâmicos de aprendizado: Modelo de Markov e Redes Bayesianas. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 8/36 Quadro 1.1 - Aprendizado, características, algoritmos, métodos e técnicas do AM Fonte: Adaptado de Luger (2013). #PraCegoVer : o quadro apresenta as características de AM, sendo divido em três colunas e cinco linhas. Na primeira linha, há os termos “Aprendizado”, “Características” e “Algoritmos, métodos, técnicas”. Na segunda linha, há “Aprendizado simbólico” e, em seguida, sua característica é descrita da seguinte forma: “os algoritmos estão baseados na suposição de que a principal in�uência sobre o comportamento do programa seja a sua base de conhecimento do domínio representada explicitamente“ e “baseada em sentenças em linguagem simbólica”. Em seguida, há: “Algoritmos de espaços de conceitos”, “Linguagem Lex: busca heurística”, “Algoritmo de eliminação de candidatos” e “Algoritmo ID3 para indução de árvore de decisão”. Na terceira linha, há “aprendizado conexionista”, seguido por suas características: “O conhecimento está implícito na organização e na interação desses neurônios”, “Neurônios arti�ciais conectados” e “As redes neurais não aprendem adicionando representações a sua base de conhecimento, em vez disso, elas aprendem modi�cando a sua estrutura global. Assim, as redes neurais se adaptam às contingências do mundo que habitam”. A seguir, ainda na terceira linha, há: “Algoritmos de treinamento de Perceptron”, “Aprendizado por retroprogramação”, “Aprendizado competitivo (o vencedor leva tudo: rede de Kohonen, redes Outstar e contraprogramação, máquinas de vetor de suporte)”, “Aprendizado hebbiano por coincidência” e “Redes de atratores ou ‘memórias”’. Na quarta linha, há “Aprendizado genético e emergente”, seguido das seguintes características: “O aprendizado é realizado por meio de adaptação por analogias biológicas” e “Aprendizado inspirado na evolução, mediante a modelagem de uma população de indivíduos, por meio da sobrevivência de seus membros mais ajustados”. Em seguida, ainda na quarta linha, há: “Modelos de aprendizado social e emergente”, “Algoritmo genético”, “Sistemas classi�cadores e programação genética” e “Algoritmos de autômatos celulares (o jogo da vida)”. Na quinta e últimalinha, há “Aprendizado conexionista”, seguido por suas características: “O conhecimento está implícito na organização e na interação desses neurônios”, “Neurônios arti�ciais conectados” e “As redes neurais não aprendem adicionando representações a sua base de conhecimento, em vez disso, elas aprendem modi�cando a sua estrutura global. Assim, as redes neurais se adaptam às contingências do mundo que habitam”. Portanto, o AM computacional é a aplicação de técnicas computacionais na tentativa de encontrar padrões explícitos e observáveis. Para Fawcett e Provost (2018), o AM preocupa-se com muitos tipos de melhoria de desempenho, incluindo campos da robótica e da visão computacional, usando o conhecimento aprendido para raciocinar e interagir com o ambiente. Outro campo em que o AM atua é na mineração de dados , que faz parte da descoberta do conhecimento, não atuando no ambiente propriamente dito, mas nas bases de dados, preparando e analisando os dados e criando modelos de aprendizagem para as e�cientes tomadas de decisões. ● Os modelos estocásticos capturam bem as mudanças do mundo. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 9/36 A seguir, discutiremos como o AM é realizado no contexto da mineração de dados, ou seja, na busca de grandes bases de informações, nas quais há o conhecimento de uma forma implícita ou não compreendida. Aprendizado máquina no contexto de mineração de dados Os computadores registram e processam dados que são organizados de acordo com características idênticas. Esses dados são armazenados em uma base de dados relacional. Essa organização é denominada tabelas de dados , sendo uma espécie de planilha de cálculo composta por linhas e colunas. As decisões que são tomadas, e que nos envolvem (como cidadãos, consumidores ou agentes de negócios) implicam que os dados e as informações devem estar disponibilizadas para uso imediato ou posterior (resultado do armazenamento em dispositivos não voláteis). Assim, há diversos tipos de bases de dados associados ao AM, conforme exposto a seguir. Os dados estruturados advêm de bases relacionais e transacionais das empresas, indústrias e nuvens de dados, já armazenados, normalizados e de fáceis operação e análise. O gerenciamento dessas informações, nesses dispositivos, é realizado pelo Sistema Gerenciador de Banco de Dados Relacional (SGBD ou, em inglês, DBMS – Database Management Systems). Como exemplo de manipulação relacional, é possível citar a realizada por meio da linguagem SQL (Standard Query Language). O MySQL é um típico banco de dados relacional. Nesse caso, o SGBD e o SQL trabalham no apoio ao pré-processamento de dados, para que uma base apropriada seja utilizada e processada pelos algoritmos de mineração. Outra forma estruturada de dados, utilizada para a mineração e o AM, refere-se às planilhas eletrônicas, cuja extensão de arquivo é o .xls. Em uma planilha eletrônica, os dados são dispostos em colunas e linhas de fácil manipulação para o pré-processamento de dados para mineração. No que se refere às bases de dados não estruturados e semiestruturados , outras formas de armazenamento de dados podem ser mineradas, como os dados não estruturados, os quais são os bancos de dados NoSQL (Not only Standard Query Language – não é um modelo SQL, não relacional), de nuvens e páginas web , pois a maior quantidade de dados está sendo gerada de forma não estruturada, ou seja, de forma não normalizada, advinda de redes sociais, logs , bases nativas, documentos e sensores dos aplicativos de smartphones e de páginas web . Ademais, os modelos não estruturados se afastam do modelo relacional e são considerados dados não uniformes e orientados a documentos em que as informações não estão normalizadas e organizadas mediante uma relação entre elas. Além das bases não estruturadas, as semiestruturadas são muito utilizadas para a leitura dos algoritmos de mineração e contemplam características mais organizadas do que os dados não estruturados. Essa organização refere-se a como um dado é delimitado, por exemplo, mediante uma separação por um delimitador, vírgula (,) ou ponto e vírgula (;). Um exemplo de base semiestruturada é um arquivo de texto CSV, no qual os dados são separados por delimitadores ponto e vírgula (;). Outro exemplo é uma consulta JSON (JavaScript Object Notation), que é um 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 10/36 modelo para armazenamento simples e compacto, muito utilizado em aplicações web para acesso a um grande volume de dados. Além desses modelos de bases semiestruturadas, existem diversos outros, que se ajustam às necessidades e aos fatores como velocidade de acesso, capacidade de compactação dos dados, organização e facilidade de acesso. As bases semiestruturadas (ou denominadas de forma híbrida) têm certa organização e precisam passar por tratamentos antes de serem utilizadas. Essas variedades de estruturas de dados exigem complexas atividades de coleta, tratamento, processamento e visualização, para que haja a tomada de decisão nas organizações. Assim, as bases semiestruturadas e não estruturadas, advindas das mais diversas fontes, precisam de um alto pré-processamento de dados, para que os algoritmos de mineração sejam executados. No que se refere às bases de fatos e regras , é possível que, além de dados, os computadores processem informações, mediante modelos matemáticos e seus algoritmos computacionais. As máquinas recebem informações dos usuários e realizam o processamento necessário, o qual utiliza uma “base de conhecimento” composta por “conhecimentos de regras” e “fatos” dos especialistas da empresa; isso representa um conjunto de informações especí�cas de determinada área do conhecimento. O conhecimento está relacionado a um conjunto de informações, ao contexto que envolve a percepção do ambiente, ao sistema em que foi composto e ao funcionamento do sistema. O conhecimento é derivado de diversas fontes de informações que, comparadas, permitem que seja apresentado um cenário de fenômenos e evoluções de uma situação. Esse conjunto de atividades é denominado processo de construção de um Data Pipeline – Pipeline de Dados. As atividades mais difíceis do processo Pipeline de Dados estão concentradas na primeira camada (camada de ingestão de dados e coletora de dados). Quanto à base big data , outro importante conceito utilizado na mineração de dados e no AM é a ingestão de dados, sendo um conceito mais atualizado da aquisição de diversas fontes de dados, dentro de um processo maior, denominado Pipeline de Dados, e de uma arquitetura big data , de sistema de processamento em lote ( batch ), real time ou híbrido. A ingestão de dados é uma das camadas mais complexas do processo Pipeline de Dados e tem como objetivo importar e mover os dados estruturados, semiestruturados e não estruturados para uma localização em que eles S A I B A M A I S Existem sites de referência em base de dados de machine learning , como o Repositório de AM da UCI, uma comunidade que contém 585 conjuntos de dados pesquisáveis. Para conhecer esse repositório, acesse: https://archive.ics.uci.edu/ml/index.php https://archive.ics.uci.edu/ml/index.php 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 11/36 possam ser acessados. A camada de ingestão de dados exige um conjunto de atividades de planejamento, conexão, extração e transformação de dados. Um big data utiliza, normalmente, uma ingestão de dados nos sistemas de armazenamento e, segundo Pereira et al . (2019, p. 44), “a complexidade dessa operação depende muito do formato e da qualidade das fontes de dados e da distância que os dados estão do estado desejado antes do processamento”. Esses dados de um big data são de diversas fontes, são heterogêneos– formatos variados imagens, vídeos, textos, áudios – e devem ser inseridos (extração e carregamento) diretamente no big data , antes mesmo de seu processamento, para que, assim, sejam distribuídos para os consumidores especí�cos. Conforme expõem Castro e Ferrari (2016), a mineração de dados pode proporcionar uma capacidade preditiva poderosa de dados. As funcionalidades da mineração de dados são usadas para especi�car os tipos de informações nas tarefas descritivas e preditivas. As tarefas descritivas caracterizam as propriedades gerais dos dados, e as preditivas fazem inferência a partir dos dados, objetivando predições. Para entender melhor esse conceito, analise a Figura 1.3. Figura 1.3 - Processo KDD (Knowledge Discovery in Databases) de descoberta do conhecimento Fonte: Adaptada de Sharda, Delen e Turban (2019 apud Mariano et al., 2020). #PraCegoVer : a �gura representa um diagrama do processo KDD (Knowledge Discovery in Databases) de descoberta de conhecimento, a partir de uma fonte de dados brutos. É realizada uma seleção de dados, gerando dados-alvo. Depois, é realizada a tarefa de limpeza de dados, gerando dados pré-processados. Após, há uma tarefa de transformação de dados, gerando dados transformados. Em seguida, é executada a mineração, propriamente dita, obtendo-se padrões. Depois, realiza-se a tarefa de externalização, gerando conhecimento ( insight com aplicação prática). As ferramentas de mineração de dados aplicam algoritmos a conjuntos de informações, para que haja a descoberta de tendências e padrões (BALTZAN, PHILLIPS, 2012). Assim, a mineração de dados faz parte de um processo de descoberta de conhecimento em bases de dados – Knowledge Discovery in Databases (KDD). O processo KDD é constituído por tarefas de seleção, pré- processamento, transformação, mineração e interpretação de dados. Assim, a Figura. 1.3 ilustra um processamento de descoberta de conhecimento em que são coletados dados de diversas bases transacionais; a seguir, eles são selecionados, transformados e, mediante ferramentas e algoritmos, estimativas, padrões ou agrupamentos são encontrados, para que haja uma e�ciente tomada de decisão. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 12/36 Uma mineração não signi�ca aprendizagem, a qual é a próxima etapa possível da mineração de dados. Para encontrar informações necessárias, pode ser su�ciente encontrar uma análise descritiva ou um agrupamento, mas, para que haja a descoberta de conhecimento, em uma base de dados, é necessário fazer o algoritmo aprender de acordo com o seu desempenho (classi�cando, estimando ou associando dados). Na etapa de análise descritiva , é possível realizar a sumarização e a compreensão dos objetos da base e seus atributos, mediante distribuições de frequências, medidas de centro e variação, medidas de posição relativa e associação de dados. Na predição , é utilizado ou desenvolvido um modelo para avaliar a classe de um objeto não rotulado ou para estimar o valor de um ou mais atributos de dados-objeto. A etapa de avaliação da classe , por sua vez, também é denominada tarefa de classi�cação, e a estimação do valor pode ser chamada de regressão ou estatística. A etapa de análise de grupos é um processo de posicionamento ou de segmentação de um conjunto de objetos em clusters de objetos similares. En�m, na etapa de associação , são encontradas relações (grupos, classes ou estimativas) entre os objetos da base (CASTRO; FERRARI, 2016). A regra de associação refere-se à descoberta de regras de associações que apresentam valores de atributos de coocorrência (ocorrência conjunta na mesma base de dados transacionais). Portanto, é possível dividir uma mineração de dados em uma sequência, para que seja possível a descoberta do conhecimento, sendo essa uma proposta adaptada de machine learning . Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Pré-processamento de dados : preparação da base de dados, limpeza, integração, redução, transformação e discretização dos dados. Análise descritiva dos dados : visualização dos dados. Análise de grupos : agrupamento de dados (similaridades e formas de representação dos agrupamentos). Aprendizagem : há algoritmos de aprendizagem que podem ser por classi�cação, estimação ou por regras de associação. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 13/36 Um processo sequencial de atividades de mineração de dados que utiliza um modelo preditivo corresponde a tarefas como pré-processamento da base de dados, descrição dos dados de treinamento, aplicação do treinamento de testes e avaliação do resultado. Assinale a alternativa correta quanto ao pré-processamento da base. a) De�nição dos algoritmos de mineração. b) De�nição de quais dados da base serão treinados. c) Realização de uma pré-avaliação da base de dados. d) Limpezas, integrações, transformações e discretizações da base de dados. e) Uma pré-visualização dos dados em forma de grá�cos. praticar Vamos praticar Este é um diálogo entre uma suposta analista de sistema e um bot , um robô (ou sistemas inteligentes), que irá explicar as aplicações dos sistemas tutoriais inteligentes e AM em escolas e fábricas. Personagem analista de sistemas: – Sou o analista de sistemas e irei apresentar a importância do AM e dos tutoriais inteligentes no contexto da mineração de dados. Personagem bot : – Olá, sou um bot ; rastreio informações sobre a vida dos humanos, suas preferências, faço mineração de dados, descobrindo tendências do que os humanos podem comprar ou realizar, e sugiro possibilidades diversas. Dentro das organizações, utilizo as bases transacionais para rastrear padrões e tendências para as complexas tomadas de decisões em qualquer nível organizacional, para analistas e gestores. Nós bots temos como função a mineração de dados, a qual é uma área da IA que está ajudando a encontrar conhecimento em grandes bases de dados, para que seja possível resolver problemas. Softwares de mineração, como eu, são implementados nas navegações de sites de buscas e em sites de comércio eletrônico móvel. Nós, algoritmos de mineração, em conjunto com as técnicas de processamento da linguagem natural, temos outro nome: tutores inteligentes. Assim, conseguimos orientar e ensinar os humanos. Estamos em escolas, nos treinamentos em fábricas e em muitas outras aplicações. Agora, realize uma pesquisa e desenvolva um texto de, aproximadamente, dois parágrafos, apresentando uma aplicação/um exemplo do uso de tutoriais inteligentes. No primeiro parágrafo, apresente a importância e a aplicação/o exemplo de um sistema tutorial. No segundo parágrafo, 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 14/36 descreva como o sistema tutorial apoia o aprendizado e explique se esse sistema também aprende com o aprendiz. Cite exemplos de soluções comerciais que utilizam tutoriais inteligentes. Prezado(a) aluno(a), você sabia que a primeira etapa da mineração de dados está relacionada à preparação da base de dados, também denominada pré-processamento ? Antes de realizar qualquer análise em uma base de dados, é necessário o preparo , devido às inconsistências e aos ruídos contidos na seleção de dados. O diagrama ilustrado na Figura 1.4 mostra as etapas de preparação da base de dados para a análise. Nesse caso, há: (1) de�nição do problema, (2) seleção dos dados brutos, (3) pré-processamento da base e de�nição do algoritmo. Depois, há a aplicação do algoritmo ou a aplicação do processo de análise descritiva. Organizando os Dados para Análise (Pré- Processamento) 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 15/36 Figura 1.4 -Etapas de preparação da base de dados para a mineração de dados Fonte: Adaptada de Castro e Ferrari (2016). #PraCegoVer : a �gura representa um diagrama das etapas de preparação da base de dados para o processo de mineração de dados. A primeira etapa é a de�nição do problema; a segunda etapa refere-se à seleção dos dados brutos; a terceira etapa refere-se ao pré-processamento da base e à de�nição do algoritmo e é constituída por tarefas de limpeza, integração, redução, transformação e discretização. Na quarta etapa, são realizadas as tarefas de aplicação do algoritmo ou a análise descritiva. A última etapa refere-se aos resultados da mineração. Por meio da eliminação das inconsistências e dos ruídos, é mais fácil obter o conhecimento presente na seleção dos dados brutos. As atividades de pré-processamento, apresentadas na Figura 1.4, podem ser detalhadas, segundo Castro e Ferrari (2016), como: etapa de limpeza: de acordo com o conceito KDD, após a seleção dos dados em um base bruta, a limpeza de dados é uma das primeiras tarefas de pré-processamento. Essa tarefa está relacionada ao procedimento de imputação de valores ausentes, à remoção de ruídos e à correção de inconsistências; etapa de integração: é uma das tarefas do processo KDD; o objetivo é unir dados de múltiplas fontes em um único local, como o armazém de dados ( data warehouse ) e os dados de uma planilha eletrônica. Para alguns autores, essa etapa, no processo de KDD, pertence à etapa de limpeza da base; etapa de redução: é uma tarefa que tem como objetivo reduzir a dimensão da base de dados, por exemplo, agrupando ou eliminando atributos redundantes, ou reduzir a quantidade de objetos da base, sumarizando os dados. Para alguns autores, essa etapa, no processo de KDD, pertence à etapa de limpeza da base de dados; etapa de transformação: é uma tarefa do processo KDD que tem o objetivo de padronizar e deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração; 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 16/36 etapa de discretização: nesse caso, os métodos que trabalham apenas com atributos nominais podem ser empregados em um conjunto maior de problemas. Dentro de um processo KDD, essa etapa pode pertencer a etapa de transformação; etapa de análise descritiva: é importante diferenciar análise descritiva de mineração de dados. A análise descritiva visa encontrar o que há nos dados (características), e os algoritmos de mineração conseguem realizar inferências a partir dos dados, ou seja, realizar um aprendizado. Como exemplo de uma análise descritiva de uma base de dados de câncer em exames de mamas, é possível encontrar características nos dados, por exemplo, veri�car a média de idade das mulheres que têm câncer de mama. Por sua vez, a mineração pode predizer se determinada pessoa terá ou não câncer, a partir de características (CASTRO; FERRARI, 2016). A Figura 1.5 ilustra a sequência de uma extração de dados, a partir de uma base de dados, para uma planilha. Os dados são pré-processados e, depois, é gerada uma distribuição de dados, por meio de um histograma (grá�co em forma de barras). Figura 1.5 - Sequência de uma extração de dados Fonte: Elaborada pelo autor. #PraCegoVer : a �gura representa uma sequência de extração de dados, iniciando com a extração da base de dados para uma planilha com os dados pré-processados. Em uma segunda etapa, os dados geram um histograma, apresentando características deles. Por meio da distribuição de dados e da visualização do histograma, é possível encontrar, nos dados armazenados, as características que não estão visíveis ou compreensíveis em uma base de dados ou em uma planilha eletrônica. O processo de análise descritiva de dados, segundo Castro e Ferrari (2016), é desmembrado em três passos: 1. organização dos dados em distribuição de frequência; 2. visualização dos dados; 3. cálculos das médias de frequências, variação e associação. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 17/36 Para Castro e Ferrari (2016), é útil organizar e resumir os dados a partir da construção de uma tabela que lista os valores dos atributos de maneira individual ou agrupada. Também, devem ser incluídas as frequências correspondentes (distribuição de frequências), que representam o número de vezes que os valores listados ocorrem. Uma distribuição de frequência é um resumo (sumarização) dos dados agrupados em classes. O exemplo a seguir ilustra a base de dados de mamogra�a (Quadro 1.2) e contém informações de lesões de massas mamográ�cas obtidas a partir de atributos da classi�cação BI-RAIDS (Breast Imaging-Reporting and Data System). Cada objeto identi�cado por ID corresponde a um exame por imagem de diagnóstico realizado, mas esse atributo não é utilizado para a análise. O Quadro 1.2 é uma pequena parte da base de 961 objetos (CASTRO; FERRARI, 2016), assim, são apresentados apenas os 10 primeiros objetos, para que haja uma melhor compreensão. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 18/36 Quadro 1.2 – Base de dados de mamogra�a Fonte: Castro e Ferrari (2016, p. 61). #PraCegoVer : o quadro representa uma parte dos dados de uma base mamográ�ca, 10 itens. A primeira coluna representa a ID (identi�cação) correspondente a um exame por imagem de diagnóstico. A segunda coluna corresponde à classi�cação BI-RAIDS (Breast Imaging- Reporting and Data System). A terceira coluna corresponde à idade do paciente. A quarta coluna apresenta a forma do tumor, se é lobular, irregular, redonda ou não identi�cada. Na quinta coluna, há uma margem especulada ou circunscrita. Na sexta coluna, há a densidade do tumor, que pode ser baixa, alta ou inde�nida. A última coluna corresponde à severidade do tumor: maligno ou benigno. Na segunda linha, há os valores da pesquisa, na ordem: 1, 5, 67, lobular, especulada, baixa e maligno. Na terceira linha, há: 2, 4, 43, redonda, circunscrita, um ponto de interrogação e maligno. Na quarta linha, há: 3, 5, 58, irregular, especulada, baixa e maligno. Na quinta linha, há: 4, 4, 28, redonda, circunscrita, baixa e benigno. Na sexta linha, há: 5, 5, 74, redonda, especulada, um ponto de interrogação e maligno. Na sétima linha, há: 6, 4, 65, redonda, um ponto de interrogação, baixa e benigno. Na oitava linha, há: 7, 4, 70, um ponto de interrogação, outro ponto de interrogação, baixa e benigno. Na nona linha, há: 8, 5, 42, redonda e benigno. Na décima linha, há: 9, 5, 57, redonda, especulada, baixa e maligno. Na décima primeira linha, há: 10, 5, 60, um ponto de interrogação, especulada, alta e maligno. ID BI- RADS Idade Forma Margem Densidade Severidade 1 5 67 Lobular Especulada Baixa Maligno 2 4 43 Redonda Circunscrita ? Maligno 3 5 58 Irregular Especulada Baixa Maligno 4 4 28 Redonda Circunscrita Baixa Benigno 5 5 74 Redonda Especulada ? Maligno 6 4 65 Redonda ? Baixa Benigno 7 4 70 ? ? Baixa Benigno 8 5 42 Redonda ? Baixa Benigno 9 5 57 Redonda Especulada Baixa Maligno 10 5 60 ? Especulada Alta Maligno 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 19/36 A partir da base de dados apresentada, são realizados cinco passos para a construção da distribuição de frequência mediante os objetos de aprendizagem, conforme exposto a seguir. Um exemplo detalhado de informações utilizadas para o cálculo da distribuição de frequência é dado por Castro e Ferrari (2016) e está exposto a seguir. Passo 1: os valores dos atributos são grupos de intervalo que se deseja dividir. Nesse caso, há cinco faixas de idades. A sugestão é de 5 a 20 classes. Passo 2: amplitude de classe, que é a diferença entre o maior valor e o menorvalor de uma variável. Amplitude = (maior valor) – (menor valor). A amplitude de classe = (maior valor – menor valor) / número de classes. (81 – 23) / 5 = 11,6. O valor 81 é a maior idade, e 23 é a menor idade da base de mamogra�as, dos 961 objetos. Essas informações podem ser obtidas com os objetos, em uma planilha eletrônica, mediante a execução de um �ltro de classi�cação (crescente e decrescente). Normalmente, o valor da amplitude é arredondado para cima. Portanto, o valor da amplitude �ca com valor igual a 12. Passo 3: é o limite inferior inicial, é o número para o limite inferior da primeira classe. Nesse caso, o valor é 23. Passo 4: são os limites inferiores das classes, ou seja, os menores números que podem pertencer às diferentes classes. Os limites inferiores a essas cinco classes são: 23 (classe 1), 35 (classe 2), 47 (classe 3), 59 (classe 4) e 71 (classe 5). Passo 5: são os maiores números que podem pertencer às diferentes classes. Os limites superiores das cinco classes são: 34 (classe 1), 46 (classe 2), 58 (classe 3), 70 (classe 4) e 82 (classe 5). Passo 6: cada valor deve ser rotulado com a classe à qual pertence. Por exemplo, o valor 67, ID 1, pertence à classe 4. O próximo valor 43, ID 2, pertence à classe 2. Assim, estes são os rótulos para os primeiros 80 objetos de estudo: 4, 2, 3, 1 , 5 , 4, 4, 2, 3, 4, 5 , 2, 4, 2, 4, 3, 3, 4, 3, 2, 4, 3, 2, 2, 4, 5 , 4, 4, 2, 3, 2, 3, 3, 2, 5 , 5 , 4, 4, 3, 3, 4, 5 , 3, 4, 4, 2, 4, 1 , 2, 4, 5 , 5 , 1 , 4, 3, 2, 3, 3, 2, 4, 3, 4, 3, 3, 5 , 1 , 3, 5 , 2, 4, 5 , 4, 3, 4, 4, 1 , 5 ,4, 4, 4. Por meio dos rótulos, é encontrada a frequência absoluta . Por exemplo, a frequência absoluta da classe 1 é a quantidade do rótulo 1 que aparece na sequência do passo 6, identi�cando a quantidade em destaque. O valor é: 5 rótulos de valor 1. Por sua vez, a classe 5 aparece 12 vezes na relação exposta anteriormente. No Quadro 1.3, há os seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e cálculo da frequência relativa, dado em percentual. A frequência relativa de uma classe corresponde a quanto ela ocorre em relação a toda a distribuição de frequências. Nesse caso, a fórmula é: FR = (FA / (número de objetos)) * 100. Por exemplo, FR da classe 1: FR1 = 5 / 80 = 0,0625 * 100 = 6,25% 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 20/36 Classe Limite inferior Limite superior Frequência absoluta Frequência relativa 1 23 34 5 6,25% 2 35 46 15 18,75% 3 47 58 20 25% 4 59 70 28 35% 5 71 82 12 15% Quadro 1.3 – Base de dados de mamogra�a Fonte: Adaptada de Castro e Ferreira (2016). #PraCegoVer : o quadro, dividido em cinco colunas e seis linhas, apresenta, em cada coluna, os seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e cálculo da frequência relativa dado em percentual, referente aos rótulos dos primeiros 80 objetos de estudo. Na segunda linha, há: 1, 23, 34, 5 e 6,25%. Na terceira linha, há: 2, 35, 46, 15 e 18,75%. Na quarta linha, há: 3, 47, 58, 20 e 25%. Na quinta linha, há: 4, 59, 70, 28 e 35%. Na sexta linha, há: 5, 71, 82, 12 e 15%. Depois de ser calculada a frequência absoluta e relativa, é possível visualizar os dados por meio de grá�cos do tipo histograma. Para Castro e Ferreira (2016, p. 65), a visualização dos dados tem o “objetivo de se entender a natureza das distribuições dos dados, extrair conhecimento mais fácil e rapidamente e permitir o compartilhamento desse conhecimento de maneira direta entre diferentes pessoas e entidades”. Uma das representações grá�cas mais utilizadas para a visualização da distribuição dos dados é o histograma, o qual é um tipo de frequência tabulada na forma de retângulos adjacentes ou barras adjacentes. Cada barra é a representação das classes da distribuição de frequência, também denominada bins . Na Figura 1.6, há um exemplo de histograma referente ao Quadro 1.3 (distribuição de frequência). 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 21/36 Figura 1.6 – Histograma do atributo idade para a amostra da base de mamogra�a (frequência absoluta) Fonte: Adaptada de Castro e Ferrari (2016). #PraCegoVer : o grá�co representa um histograma do atributo idade para a amostra da base de mamogra�a (frequência absoluta). As barras representam as classes da distribuição de frequência (bins). A primeira barra representa a classe 1 e tem limite inferior a 23 e superior a 34; a classe 2 tem limite inferior a 35 e superior a 46; a classe 3 tem limite inferior a 47 e superior a 58; a classe 4 tem limite inferior a 59 e superior a 70; a classe 5 tem limite inferior a 71 e superior a 82. Por meio do histograma, é possível visualizar as classes e suas variações de distribuição de frequências. A escala horizontal corresponde às classes de 1 a 5, e a escala vertical representa as frequências. A maior concentração de exames mamográ�cos realizados está na classe 4, ou seja, mulheres entre 59 e 70 anos, enquanto a menor frequência está concentrada na classe 1: mulheres entre 23 e 34 anos. A análise descritiva de dados pode ser utilizada antecipadamente, antes da mineração mais complexa (uso de algoritmos de mineração de dados). Nesse contexto, a análise descritiva é considerada uma etapa inicial do processo de mineração e utiliza ferramentas estatísticas simples, como frequência absoluta e relativa. Portanto, as análises descritivas permitem a sumarização e a melhor visualização dos objetos de dados e da distribuição de frequências por meio dos histogramas. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 22/36 A primeira etapa está relacionada à preparação da base de dados e é realizada antes de qualquer análise em uma base de dados. Assim, é necessário o preparo da base de dados, devido às inconsistências e aos ruídos contidos na seleção de dados que será analisada. Como essa etapa é denominada? a) Pré-processamento de dados. b) Limpeza de dados. c) Análise de dados. d) Processamento de dados. e) Seleção dos dados brutos. Caro(a) estudante, você sabia que as medidas de avaliação dos resultados dos algoritmos aplicados no processo de mineração são vitais para a conclusão dos resultados? Nesse sentido, é importante salientar que a mensuração e a performance dependem da abordagem da mineração de dados e das ferramentas e dos algoritmos utilizados. Uma seleção incorreta da abordagem, da ferramenta ou dos algoritmos pode prejudicar a performance e a mensuração dos resultados dos algoritmos. Desse modo, o pós-processamento da mineração de dados considera: o pré-processamento dos dados (limpeza, integração, redução, transformação e discretização); a seleção adequada dos sistemas de processamento (algoritmos de mineração); as ferramentas de mensuração da capacidade e da qualidade dos resultados. Portanto, é essencial que todas as etapas do processo de mineração estejam alinhadas com o objetivo do AM. No desenvolvimento de projetos de machine learning , é essencial o uso de métricas de avaliação para a resolução de cada problema. Assim, a escolha correta das métricas in�uencia a avaliação de Mensuração e Performance 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 23/36 um modelo ideal de aprendizagem ou demonstra quão distante esse modelo está de um modelo ideal. Um tipo de métrica de avaliação é a classi�cação. Segundo Amaral (2016), em um modelo de classi�cação, devem ser analisadas quais são as características que de�nem cada forma e como essa forma é atribuída a cada um dos grupos, como mostra a Figura 1.7: dentro dos retângulos, as formas já estão classi�cadasde acordo com o seu tipo – triângulo, quadrado ou círculo. Uma forma à esquerda do retângulo, no entanto, com uma interrogação no centro, ainda não teve seu tipo identi�cado. Em uma base de dados relacional, os dados já estão classi�cados de forma equivalente aos elementos do retângulo (triângulos, quadrados e círculos), como mostra a Figura 1.8, sendo classi�cados em categorias do tipo: clientes, produtos, fornecedores, compras, vendas etc. Ademais, um algoritmo de aprendizado aprenderá a classi�car um objeto que ainda não foi classi�cado. Figura 1.8 - Aprendizagem por classi�cação Fonte: Adaptada de Amaral (2016). #PraCegoVer : a �gura representa um retângulo com �guras geométricas, dividido em três grupos: triângulos, quadrados e círculos (que representam bases treinadas). Além disso, há uma incógnita, que é uma �gura desconhecida. A classi�cação funciona com dados históricos, contudo, em uma base de dados relacional de clientes ou produtos, essa classi�cação já está pronta, pois as tabelas ou a classe dos objetos já estão na forma estruturada. É necessário veri�car, no entanto, se os dados são necessários, convenientes e preparados para o propósito, caso contrário, será preciso aplicar a primeira etapa de pré-processamento (limpeza, integração, redução, transformação e discretização). Então, o próximo passo do AM é criar um modelo preditivo, a partir dos dados históricos já classi�cados. Um exemplo da construção de um modelo do AM está ilustrado no diagrama na Figura 1.9. A partir de uma base de dados transacional, são extraídos os dados históricos do cliente. Uma parte dos dados disponíveis é usada para a geração do modelo preditivo (um conjunto de treinamento) e a outra parte é usada para avaliar a qualidade do modelo (conjunto de testes). 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 24/36 Figura 1.9 - Construção de um modelo preditivo Fonte: Elaborada pelo autor. #PraCegoVer : a �gura representa um modelo de classi�cação. A partir da base de dados transacional, são selecionados os dados históricos de clientes e são preparadas as bases de treino para a criação de um modelo preditivo e a base de teste para a avaliação do modelo. O treinamento consiste em usar os dados de treino para ajustar parâmetros livres do modelo (em redes neurais, seriam os pesos do modelo; nas árvores de decisão, seriam os nós da árvore) e para que haja um desempenho avaliado pela aplicação do modelo. Com base nos elementos da Figura 1.10, é possível melhorar o exemplo de �guras geométricas para a classi�cação. Assim, de forma mais lúdica, na Figura 1.9, as formas têm, além do rótulo (nome da �gura), características de cor e tamanho. Figura 1.10 - Conjunto de �guras geométricas Fonte: Elaborada pelo autor. #PraCegoVer : a �gura representa um conjunto de formas geométricas: triângulo vermelho, círculo laranja, triângulo azul-escuro, quadrado azul-claro, círculo laranja. Abaixo dessas �guras, há outras: quadrado azul- claro, triângulo verde, círculo amarelo, triângulo vermelho e quadrado azul-escuro. A seguir, há os rótulos e algumas características do conjunto de dados do quadro 1.4: 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 25/36 Quadro 1.4 – Conjunto de dados de �guras geométricas Fonte: Elaborado pelo autor. #PraCegoVer : o quadro está dividido em quatro colunas e nove linhas. As colunas são: código do identi�cador, características (dividida em cor e tamanho) e rótulos do conjunto de dados. No código Id 1, há as características cor (vermelho), tamanho (grande) e rótulo (triângulo). No código Id 2, cor: laranja, tamanho: pequeno, rótulo: círculo. No código Id 3, cor: azul-escuro, tamanho: grande, rótulo: triângulo. No código Id 4, cor: azul-claro, tamanho: pequeno, rótulo: quadrado. No código Id 5, cor: azul-claro, tamanho: grande, rótulo: quadrado. No código Id 6, cor: verde, tamanho: grande, rótulo: triângulo. No código Id 7, cor: amarelo, tamanho: grande, rótulo: círculo. No código Id 8, cor: vermelho, tamanho: pequeno, rótulo: quadrado. A partir do conjunto de dados organizados no Quadro 1.4 (dados de entrada), é possível criar um modelo para a identi�cação de novos itens, como o exemplo da Figura 1.8 (ponto de interrogação). Segundo Mariano et al . (2020, p. 192), é possível observar que “há itens com rótulos semelhantes, mas com características diferentes. Da mesma forma, há itens diferentes com características semelhantes”. Assim, no processo de construção desse modelo de predição, é preciso dividir a base de dados em uma base de treino e uma de teste, como ilustra a Figura 1.9. Não existe, contudo, uma regra especí�ca da quantidade de elementos que devem ser distribuídos entre as bases de teste e treino. Conforme expõem Mariano et al. (2020, p. 193), “costuma-se utilizar os valores 50–50%, 60–40%, 70–30%, 80–20% ou 90–10% para treino e teste, respectivamente. Em Código do identi�cador Características Rótulos Cor Tamanho 1 Vermelho Grande Triângulo 2 Laranja Pequeno Círculo 3 Azul-escuro Grande Triângulo 4 Azul-claro Pequeno Quadrado 5 Azul-claro Grande Quadrado 6 Verde Grande Triângulo 7 Amarelo Grande Círculo 8 Vermelho Pequeno Triângulo 9 Azul-escuro Grande Quadrado 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 26/36 geral, a quantidade de dados no conjunto de treinamento deve sobrepor a quantidade de dados no conjunto de teste”. O treinamento é realizado por um algoritmo de aprendizagem, como ilustra a Figura 1.9, classi�cando-se os itens rotulados, mas, para a base de teste, não se sabe qual é o rótulo dos dados. Assim, por meio de uma comparação entre as bases de treino e testes, é possível determinar prováveis rótulos para os novos elementos contidos na base de teste. Em um processo de mineração de dados, como na abordagem por classi�cação, é necessário fazer ajustes durante o processo, para que haja a melhoria do modelo, ou seja, para que seja possível medir o desempenho da aprendizagem. Nesse sentido, é necessário medir para ajustar. Para isso, são necessárias métricas especí�cas, como as expostas a seguir. Acurácia total : é uma medida de desempenho muito utilizada na avaliação de classi�cadores e também é denominada taxa de acerto do classi�cador. “A acurácia é uma função denominada de taxa de erro ou taxa de classi�cação incorreta” (GOLDSCHMIDT; PASSOS; BEZERRA, 2015, p. 82). Essa acurácia é de�nida pela equação: Acurácia = total de acerto / total de dados do conjunto Acurácia = (verdadeiro-positivo + verdadeiro-negativo) / (positivo + negativo) Os valores da equação são obtidos através de uma matriz, denominada de matriz confusão. A Matriz de Confusão de um Classi�cador procura oferecer um detalhamento do desempenho do modelo de Classi�cação correspondente, ao mostrar, para cada classe, o número de classi�cações corretas em relação ao número de classi�cações indicadas pelo modelo (GOLDSCHMIDT; PASSOS; BEZERRA, 2015, p. 82). Sensibilidade ou consistência : está relacionada à capacidade de predizer a situação, sem erros (classi�car corretamente) e com acertos positivos. A fórmula que determina a sensibilidade, a partir da matriz confusão, é: Sensibilidade/consistência = acertos positivos / total de positivos Sensibilidade/consistência = verdadeiros-positivos / (verdadeiro-positivo + falso-negativo) Especi�cidade : está relacionada à capacidade de predizer a situação, sem erros (classi�car corretamente; acertos positivos). A fórmula que determinada a sensibilidade, a partir da matriz confusão, é: Especi�cidade = acertos negativos / total de negativos Especi�cidade = verdadeiros-negativos / (verdadeiro-negativo + falso-positivo) 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy…27/36 E�ciência : corresponde à média aritmética da sensibilidade e da especi�cidade. A fórmula que determina a e�ciência, a partir da matriz confusão, é: E�ciência = (sensibilidade + especi�cidade) / 2 #PraCegoVer : o infográ�co apresenta o título “Etapas e características da mineração de dados” e contém uma �gura em desenho de fundo e abas sobre essa imagem para interagir. O desenho é um tablet grande com uma mulher e um homem minúsculos interagindo com ele. O homem segura uma picareta e parece utilizá-la para clicar nas teclas de número 0 e 1 do tablet , enquanto a mulher está sentada sobre uma pilha de quatro livros e ao topo do tablet , estando mais alta na imagem. Ela utiliza um notebook , que está posicionado sobre suas pernas. As abas ao lado da �gura possuem os respectivos conteúdos: 1º “Pré- processamento: torna o processo de mineração de dados mais e�ciente e e�caz, preparando a base de dados, manipulando e transformando os dados brutos, fazendo o conhecimento mais fácil de ser corretamente obtido”, 2º “Análise descritiva de dados: descreve, simpli�ca ou sumariza as principais características de uma base de dados, formando o princípio de uma análise quantitativa de dados, além de organizá-lo usando distribuições de frequências”, 3º “Análise de grupos: realiza o agrupamento de uma Etapas e características da mineração de dados Pré-processamento Análise descritiva dedados Análise de grupos Aprendizagem de máquina Fonte: vectorjuice / Freepik. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 28/36 base de dados para que ela seja mais facilmente compreendida ou pesquisada, utilizando medidas de similaridade para o agrupamento de objetos” e 4º “Aprendizagem de máquina: por classi�cação de dados ou por estimação. Na classi�cação de dados, os classi�cadores são baseados em conhecimento. Já na estimação a abordagem pode ser conexionista, em que os classi�cadores são modelos baseados em redes de unidades interconectadas”. praticar Vamos praticar As aplicações da mineração de dados são vastas, devido à multidisciplinaridade relacionada à estatística, à matemática, à engenharia (análise espacial), à IA, ao banco de dados (recuperação de informações), ao sistema de informação e à visão computacional (reconhecimento de padrões em imagens). Castro e Ferrari (2016) comentam que as siderúrgicas, por exemplo, utilizam a mineração de dados para alcançar a excelência operacional, aumentando a produtividade das usinas. Ademais, algoritmos de mineração de dados são utilizados para determinar os principais elementos químicos do aço (análise de conformidade) durante o processo produtivo. Na indústria elétrica, uma das contribuições da mineração de dados é o uso de algoritmos de predição de demanda de energia elétrica. Segundo Castro e Ferrari (2016), como a energia elétrica só pode ser armazenada em baterias, a única maneira é prever a quantidade de energia que as usinas geradoras podem gerar a cada dia. Essa predição e o planejamento dessa quantidade de produção de energia são realizados mediante técnicas de análise de dados de previsão de carga (consumo) em curto, médio e longo prazos de um sistema elétrico de potência. Antes de se iniciar a execução do processo de análise de dados, no entanto, deve haver a preparação. Com base nesse contexto, explique, brevemente, cada etapa do processo de preparação para a mineração dos dados. 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 29/36 Material Complementar F I L M E Ex_Machina Ano: 2015 Comentário: O �lme apresenta diversas questões éticas sobre o uso da tecnologia inteligente, por meio de uma trama entre uma humanoide, Ada, um programador, Caleb, e o diretor de uma empresa de motor de busca, Nathan. O �lme foca também o teste de Turing, com o personagem Caleb junto ao robô, além de discutir as expressões corporais de usuários utilizadas na humanoide. O �lme permite compreender melhor o comportamento inteligente e o AM, aspectos relevantes para o conteúdo de machine learning . Para conhecer mais sobre o �lme, assista ao trailer disponível em: TRA I LER 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 30/36 L I V R O Introdução à Mineração de Dados: conceitos básicos, algoritmos e aplicações Leandro Nunes de Castro e Daniel Gomes Ferrari. Editora: Saraiva Ano: 2016 ISBN: 978-85-472-0098-5 Comentário: Essa é uma obra completa e detalhada sobre a mineração de dados e suas aplicações. Os autores exploram a mineração de dados como ferramentas algorítmicas (pseudocódigos) para a busca do AM e aquisição de conhecimento para as organizações. No capítulo 1, são apresentados os conceitos e princípios da mineração de dados. No capítulo 2, discute-se a tarefa de pré-processamento de dados, que de�ne a preparação para a descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a 8, são apresentadas as análises descritiva e de grupos, a classi�cação, a estimação e as regras de associação, que de�nem as etapas 2 (análise descritiva), 3 (análise de grupos) e 4 (aprendizagem) de nosso tópico. A leitura desses capítulos é importante para consolidar os conhecimentos sobre as tarefas de pré-processamento de dados, bem como as abordagens de mineração de dados (Biblioteca Ânima). L I V R O Data Mining: conceitos, técnicas, algoritmos e aplicações Diego César Batista Mariano, Leonardo Torres Marques, Marcel Santos Silva, José Francisco Meireles Aleixo Júnior, Marcelo da Silva dos Santos e Talysson Manoel de Oliveira Santos. Editora: LTC Ano: 2015 ISBN: 978-85-352-7822-4 Comentário: O tópico 4.2.5 desse livro está relacionado à classi�cação. Com a leitura desse tópico, é possível complementar os conceitos de classi�cação apresentados neste material, para que seja possível entender sobre performance da aprendizagem, medidas de desempenho e matriz confusão (Biblioteca Ânima). 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 31/36 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 32/36 Conclusão Prezado(a) estudante, chegamos ao �m deste estudo. Como exposto, por meio de algoritmos avançados de aprendizagem, é possível programar máquinas, com uma grande equipe de programadores e técnicos que podem realizar automações em fábricas, mediante robôs inteligentes. Além disso, é possível utilizar grandes bases transacionais, de marketing , produção, vendas e de outras áreas funcionais, para que os algoritmos procurem padrões ou tendências e aprendam em novas bases de dados. Ademais, é possível ensinar algo às máquinas, mediante treinamentos, ou seja, hábitos perceptivos. Assim, surge um questionamento: elas podem aprender com os humanos? Na verdade, as máquinas podem realizar tarefas automatizadas, enquanto os humanos podem se especializar em outras tarefas. Este material foi produzido para fornecer possibilidades conceituais, para que você, caro(a) estudante, possa explorar vários conteúdos. Esperamos que tenha gostado. Até a próxima. Referências AMARAL, F. Introdução à ciência de dados : mineração de dados e big data. Rio de Janeiro: Alta Books, 2016. BALTZAN, P.; PHILLIPS, A. Sistemas de informação . São Paulo: Bookman, 2012. BELMIRO, N. J. Informática aplicada . São Paulo: Pearson Educação do Brasil, 2014. BENGFORT, B.; KIM, J. Analítica de dados com Hadoop : uma introdução para cientistas de dados. São Paulo: Novatec, 2016. CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados : conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. (Biblioteca Ânima). COPPIN, B. Inteligência Arti�cial. Rio de Janeiro: LTC: 2017. EX_Machina – Trailer O�cial Legendado (Portugal) HD. [ S. l.: s. n .], 2015. 1 vídeo (2m35s). Publicado pelo canal Universal Pictures Portugal. Disponível em: https://www.youtube.com/watch?v=54nzsdLPs9I . Acesso em: 9 maio 2021. FACELI, K . et al . Inteligência Arti�cial : uma abordagem de Aprendizado de Máquina. 2. ed. Rio de Janeiro: LTC, 2021. (Biblioteca Ânima). https://www.youtube.com/watch?v=54nzsdLPs9I 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 33/36 FAWCETT, T.; PROVOST, F. Data Science para negócios : o que você precisa saber sobre mineração de dados e pensamento analítico de dados. Rio de Janeiro: AltaBooks, 2018. GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining : conceitos, técnicas, algoritmos e aplicações. 2. ed. Rio de Janeiro: Elsevier, 2015. (Biblioteca Ânima). LUGER, G. F. Inteligência Arti�cial . 6. ed. São Paulo: Pearson Education do Brasil, 2013. MARIANO, D. C. B. et al . Data mining . Porto Alegre: SAGAH, 2020. PEREIRA, M. J. et al . Framework de big data . Porto Alegre: SAGAH, 2019. (Biblioteca Ânima). SIEGEL, E. Análise preditiva : o poder de prever quem vai clicar, comprar, mentir ou morrer. Rio de Janeiro: Alta Book, 2017. UCI – UNIVERSITY OF CALIFORNIA. Machine Learning Repository . [2021]. Disponível em: https://archive.ics.uci.edu/ml/index.php . Acesso em: 17 maio 2020. https://archive.ics.uci.edu/ml/index.php 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 34/36 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 35/36 30/11/2022 19:50 E-book https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 36/36