Prévia do material em texto
08 Aprendizagem de Máquina e Mineração de Dados I Software Weka Priscila Louise Leyser Santin ▪ Biblioteca mantida pelo grupo de aprendizagem de máquina da Universidade de Waikato na Nova Zelândia ▪ Coleção de algoritmos ✓ uso comercial ✓ ambiente acadêmico Curiosidade: o software tem o nome de uma ave típica da Nova Zelândia Software de Mineração de Dados WEKA ▪ Ferramentas para pré-processamento e visualização dos dados: aplica algoritmos de limpeza de dados para remover ruídos ou valores faltantes ou inconsistentes em uma base de dados ▪ Classificação e Regressão: métodos preditivos e servem para prever comportamentos futuros com base em dados históricos ▪ Agrupamento: visa encontrar grupos de dados similares, sendo muito utilizado para segmentação de mercado ▪ Regras de Associação: têm o objetivo de descobrir dados associados e o exemplo clássico é encontrar produtos que são vendidos em conjunto para maximizar as vendas Conhecendo um pouco o WEKA https://www.cs.waikato.ac.nz/ml/weka/ ▪ Explorer: Aplicação mais usada. Local onde se explora as funções da ferramenta. ▪ Experimenter: Aplicação usada para automatização de processos. Roda vários algoritmos de forma automática, visualizando resultados de uma só vez. ▪ KnowledgeFlow: Aplicação que permite criar fluxos de processos através de uma interface baseada em fluxo de dados ▪ Workbench: Combina todas as outras aplicações mostradas em uma única interface ▪ Simple CLI: Interface de linha de comando que permite criar scripts shell para usar a API do Weka Instalando o WEKA https://www.cs.waikato.ac.nz/ml/weka/ ▪ O pré-processamento envolve trabalhar no dado antes de realizar algum experimento. ▪ É possível remover algum atributo da base de dados, aplicar um filtro de normalização ou discretiza algum atributo. ▪ Essa tela exibe estatísticas importantes sobre a base de dados, informações como quantidade de instâncias por classe, o tipo de um atributo, a quantidade de atributos faltantes, etc. ▪ Clique em Open File e carregue uma base de dados para visualizar as informações. Dica: O Weka contém várias bases de dados de exemplos, basta navegar até o diretório de instalação e acessar a pasta data. WEKA Explorer ▪ É possível importar dados a partir de uma consulta a um banco de dados relacional, a partir de uma URL ou através de arquivo de texto no formato arff ▪ ARFF: Attribute-Relation File Format (Arquivo no Formato Atributo Relação) ▪ Formato especificado pelo Weka divido em duas sessões: ✓ Header (Cabeçalho): especificação dos atributos da base de dados e seus tipos de dados incluindo a classe ✓ Data (Dado): local informando ao Weka os dados que constituem a base de dados Base de Dados ▪ @RELATION indica qual o nome de nossa base de dados ▪ @ATTRIBUTE define os atributos e seus tipos de dados ✓ É possível especificar diferentes tipos de dados (numeric, nominal, string e date) ▪ @DATA é onde inicia os dados no arquivo Base de Dados Importando Dados CSV ▪ C4.5: Choose/trees/J48; ▪ ID3: Choose/trees/Id3; ▪ Naïve Bayes: Choose/bayes/NaiveBayes; ▪ k-NN: Choose/lazy/IBk; ▪ SVM: Choose/functions/SMO; ▪ Rede Neural: Choose/functions/MultilayerPerceptron Algoritmos de Classificação próxima aula..... Tarefa de Agrupamento Bons Estudos!