Buscar

Slide 08_Aprendizagem de Máíquina e Mineração de Dados I

Prévia do material em texto

08
Aprendizagem de Máquina e 
Mineração de Dados I
Software Weka
Priscila Louise Leyser Santin
▪ Biblioteca mantida pelo grupo de aprendizagem de máquina da Universidade de
Waikato na Nova Zelândia
▪ Coleção de algoritmos
✓ uso comercial
✓ ambiente acadêmico
Curiosidade: o software tem o nome de uma ave típica da Nova Zelândia
Software de Mineração de Dados WEKA
▪ Ferramentas para pré-processamento e visualização dos dados: aplica algoritmos de
limpeza de dados para remover ruídos ou valores faltantes ou inconsistentes em uma
base de dados
▪ Classificação e Regressão: métodos preditivos e servem para prever comportamentos
futuros com base em dados históricos
▪ Agrupamento: visa encontrar grupos de dados similares, sendo muito utilizado para
segmentação de mercado
▪ Regras de Associação: têm o objetivo de descobrir dados associados e o exemplo
clássico é encontrar produtos que são vendidos em conjunto para maximizar as vendas
Conhecendo um pouco o WEKA
https://www.cs.waikato.ac.nz/ml/weka/
▪ Explorer: Aplicação mais usada. Local onde se explora
as funções da ferramenta.
▪ Experimenter: Aplicação usada para automatização de
processos. Roda vários algoritmos de forma automática,
visualizando resultados de uma só vez.
▪ KnowledgeFlow: Aplicação que permite criar fluxos de
processos através de uma interface baseada em fluxo
de dados
▪ Workbench: Combina todas as outras aplicações
mostradas em uma única interface
▪ Simple CLI: Interface de linha de comando que permite
criar scripts shell para usar a API do Weka
Instalando o WEKA
https://www.cs.waikato.ac.nz/ml/weka/
▪ O pré-processamento envolve trabalhar no dado antes
de realizar algum experimento.
▪ É possível remover algum atributo da base de dados,
aplicar um filtro de normalização ou discretiza algum
atributo.
▪ Essa tela exibe estatísticas importantes sobre a base de
dados, informações como quantidade de instâncias por
classe, o tipo de um atributo, a quantidade de atributos
faltantes, etc.
▪ Clique em Open File e carregue uma base de dados para
visualizar as informações.
Dica: O Weka contém várias bases de dados de exemplos, basta navegar até o diretório de instalação e acessar a pasta data.
WEKA Explorer
▪ É possível importar dados a partir de uma consulta a um banco de dados relacional, a
partir de uma URL ou através de arquivo de texto no formato arff
▪ ARFF: Attribute-Relation File Format (Arquivo no Formato Atributo Relação)
▪ Formato especificado pelo Weka divido em duas sessões:
✓ Header (Cabeçalho): especificação dos atributos da base de dados e seus tipos de
dados incluindo a classe
✓ Data (Dado): local informando ao Weka os dados que constituem a base de dados
Base de Dados
▪ @RELATION indica qual o nome de nossa base de
dados
▪ @ATTRIBUTE define os atributos e seus tipos de
dados
✓ É possível especificar diferentes tipos de dados
(numeric, nominal, string e date)
▪ @DATA é onde inicia os dados no arquivo
Base de Dados
Importando Dados CSV
▪ C4.5: Choose/trees/J48;
▪ ID3: Choose/trees/Id3;
▪ Naïve Bayes: Choose/bayes/NaiveBayes;
▪ k-NN: Choose/lazy/IBk;
▪ SVM: Choose/functions/SMO;
▪ Rede Neural: 
Choose/functions/MultilayerPerceptron
Algoritmos de Classificação
próxima aula.....
Tarefa de Agrupamento
Bons Estudos!