Baixe o app para aproveitar ainda mais
Prévia do material em texto
WBA0870_v1.0 Análise e Modelagem Preditiva Engenharia de Atributos Analytics nos negócios Bloco 1 Orlando da Silva Junior O que é análise e modelagem preditiva? • Analytics quer entender os motivos de determinado fenômeno estar acontecendo e/ou o que acontecerá com esse fenômeno no futuro. • Estudos devem ser realizados. • Modelos podem ser construídos. • O modelo construído deve ser o mais próximo possível da realidade que queremos observar. Um exemplo Figura 1 – Ilustração do problema de pesagem de bananas Fonte: Adam Smigielski/iStock.com. O papel de Analytics nos negócios • Uma aplicação de Analytics deve permitir que você compreenda a situação atual do negócio e forneça ao tomador de decisão um arcabouço de conhecimentos a partir das informações disponibilizadas a ele. • A situação atual do negócio pode ser descrita por meio de dados, que são os insumos fornecidos pelos processos de negócio organizacionais para o entendimento dos fenômenos da empresa. • Já o arcabouço de conhecimentos será construído por você para o tomador de decisão, por meio de aplicações analíticas. Outro exemplo Figura 2 – Gráfico altura versus peso Fonte: elaborada pelo autor. • Podemos representar a relação peso (Kg) versus altura (cm) por meio de um modelo. • População: 16 pessoas. • Variáveis: altura e peso. • O modelo pode ajudar profissionais da saúde na elaboração de dietas específicas para essa população. y = 0,9394x - 91,852 20 30 40 50 60 70 80 90 100 120 130 140 150 160 170 180 190 200 Pe so (K g) Altura (cm) Engenharia de atributos em Analytics • Em problemas mais complexos, com maior quantidade de dados e variáveis (atributos), nem sempre encontraremos a situação perfeita. • Para isso, a Engenharia de Atributos (Feature Engineering) ajudará a conduzir problemas complexos e que exijam uma atenção maior quanto a quantidade e qualidade das variáveis e também dos dados. Tarefas analíticas Figura 3 – Principais tarefas analíticas Fonte: elaborada pelo autor. Classificação. Regressão. Agrupamento. Mineração de itens frequentes. Redução de dados. DADOS Tem como meta predizer, para cada indivíduo de uma população, a que conjunto de classes o indivíduo pertence. Deseja estimar ou predizer um valor numérico para cada indivíduo da população. Reúne indivíduos de uma população, por meio de similaridade, sem, no entanto, estar motivado por algum propósito. Busca por associações entre entidades com base em transações que as envolvem. Substitui um grande conjunto de dados por um outro conjunto com menos informações, mantendo a mesma qualidade de informações relevantes. O desafio das empresas de telefonia móvel Figura 4 – Ilustração do problema da rotatividade e atração de clientes Fonte: VLADGRIN/iStock.com. Engenharia de Atributos Áreas e aplicações Bloco 2 Orlando da Silva Junior Na prática • Acredita-se que até 80% dos esforços sejam consumidos nesta fase, durante o desenvolvimento de aplicações de Machine Learning. • Segundo Pyle (1999), 60% dos esforços na preparação dos dados correspondem a 15% na taxa de sucesso do projeto. Áreas Figura 5 – Esquema-resumo da Engenharia de Atributos Engenharia de Atributos. Técnicas para pré- processamento de dados. Eliminação de atributos. Integração de dados. Dados desbalanceados. Limpeza de dados. Transformação de dados. Estratégias de seleção de atributos. Filtro. Wrapper. Embutida. Fonte: elaborada pelo autor. Técnicas para pré-processamento de dados 1. Eliminação de atributos. 2. Integração de dados. 3. Dados desbalanceados. 4. Limpeza de dados. 5. Transformação de dados. Seleção de atributos • Objetivo: selecionar novos atributos, formando um subconjunto dos atributos antigos, para reduzir a dimensão do conjunto de dados original. • Principais vantagens: • Simplificação do modelo preditivo. • Menor custo computacional na construção do modelo. • Melhor desempenho preditivo de Machine Learning. • Melhor interpretabilidade dos resultados de desempenho, uma vez que o estudo prévio dos atributos foi realizado. Seleção de atributos • Existem três abordagens principais: • Filtro: a seleção de atributos acontece antes da geração do modelo de aprendizado e o objetivo é a filtragem dos atributos menos importantes, conforme algum critério pré- determinado. • Wrapper: a seleção de atributos também acontece paralelamente à utilização do algoritmo. A cada iteração, um subconjunto de dados é selecionado para o algoritmo de aprendizagem. O processo é repetido para cada subconjunto de atributos até que um determinado critério de parada seja satisfeito. • Embutida: utiliza um critério interno do algoritmo para realizar a seleção de atributos. Engenharia de Atributos Técnicas para pré-processamento de dados Bloco 3 Orlando da Silva Junior Eliminação de atributos. Eliminação manual. Eliminação automática. Integração de dados. Dados distribuídos entre servidores, dispositivos ou aplicações. Identificação e combinação de dados de diferentes fontes. Não remover atributo identificador antes da integração. Dados desbalanceados. Desequilíbrio na quantidade de objetos entre as classes. Estratégia 1: gerar novos dados a partir do processo original. Estratégia 2: incluir artificialmente novos dados à classe minoritária. Estratégia 3: remover objetos da classe majoritária. Limpeza de dados. Dados ruidosos. Dados inconsistentes. Dados redundantes. Dados incompletos. Transformação de dados. Valor simbólico nominal para valor numérico. Valor simbólico ordinal para valor numérico. Valor numérico para valor simbólico. Técnicas para pré-processamento de dados Figura 6 - Esquema-resumo das técnicas para pré-processamento de dados Fonte: elaborada pelo autor. Demonstração prática 1. Eliminação de atributo. 2. Integração de dados. 3. Tratamento de dados desbalanceados. 4. Tratamento de dados redundantes. 5. Transformação de um valor simbólico nominal para numérico. Teoria em Prática Bloco 4 Orlando da Silva Junior Reflita sobre a seguinte situação • Na prática dos negócios, Analytics é uma ferramenta que deve ser empregada para melhorar a capacidade de trabalho. Para o tomador de decisão, o objetivo de Analytics é descrever, predizer e melhorar o desempenho do negócio. Dessa forma, ferramentas da matemática e da estatística ajudam a investigar, explorar, modelar e apresentar soluções, utilizando dados e recursos computacionais disponíveis pela organização. • Pensando no papel do tomador de decisão e em como pode entender uma solução analítica para contribuir e, posteriormente, usufrui-la: 1. Como você explicaria seu papel para o tomador de decisão? 2. Como o tomador de decisão pode contribuir com o processo de Engenharia de Atributos? Norte para a resolução... • Vamos observar dois papéis importantes: • Seu cliente, o tomador de decisão. • Você, o especialista em análise e modelagem preditiva. 1. O tomador de decisão é o responsável pelo negócio, além de ser o dono dos dados. Você é o especialista capaz de trazer novos insights ao negócio, observando os dados. 2. Durante o processo de Engenharia de Atributos, o tomador de decisão pode sugerir novos indicadores ou fontes de informação complementares aos dados já disponíveis a você. Dica do (a) Professor (a) Bloco 5 Orlando da Silva Junior Automatizando a Engenharia de Atributos • Você sabia que é possível automatizar o processo de engenharia de atributos? • Biblioteca Featuretools (python): • Open source. • Pode usar junto com o pandas. • Atributos significantes em pouco tempo. Referências • PYLE, D. Data Preparation for Data Mining. São Francisco: Morgan Kaufmann Publishers, 1999. Bons estudos! Análise e Modelagem Preditiva Engenharia de Atributos O que é análise e modelagem preditiva? Um exemplo O papel de Analytics nos negócios Outro exemplo Engenharia de atributos emAnalytics Tarefas analíticas O desafio das empresas de telefonia móvel Engenharia de Atributos Na prática Áreas Técnicas para pré-processamento de dados Seleção de atributos Seleção de atributos Engenharia de Atributos Técnicas para pré-processamento de dados Demonstração prática Teoria em Prática Reflita sobre a seguinte situação Norte para a resolução... Dica do (a) Professor (a) Automatizando a Engenharia de Atributos Referências Bons estudos!
Compartilhar