Prévia do material em texto
Conceitos de Ciência de Dados e Machine Learning Abril/2021 Agenda ● Data Analyst vs Data Engineer vs Data Scientist ● O que é Machine Learning? ● Conceitos de Machine Learning ● Projeto de Machine Learning 2Fonte https://data-flair.training/blogs/data-scientist-vs-data-engineer-vs-data-analyst/ Data Analyst vs Data Engineer vs Data Scientist 3 Data Analyst vs Data Engineer vs Data Scientist Data Engineer: ● Suporte aos analistas e cientistas de dados; ● ETL (Extract, Transform, Load); ● Infra de Cloud junto com DevOps; ● Pipelines. Data Analyst: ● Análises de dados; ● Elaboração de relatórios; ● Auxílio na tomada de decisões do negócio. 4Fonte Data Scientist: ● Análises de dados; ● Expertise com Machine Learning; ● Proficiente em Python e/ou R; ● Conhecimentos de Eng. Software (depende um pouco do background). https://data-flair.training/blogs/data-scientist-vs-data-engineer-vs-data-analyst/ Data Analyst vs Data Engineer vs Data Scientist 5 O que é Machine Learning? 6 O que é Machine Learning? Machine Learning (ML): área do campo de pesquisa de Inteligência Artificial (IA) que desenvolve sistemas capazes de aprender automaticamente a partir dos dados, sem uma programação explícita. Há inúmeros algoritmos de ML e redes neurais artificiais é só um deles. 7 O que é Machine Learning? 8 Computador R$ 100.000,00 R$ 150.000,00 Programação Tradicional O que é Machine Learning? 9 Computador R$ 100.000,00; R$ 250.000,00; R$ 80.000,00; ... Machine Learning Modelo Modelo R$ 2.000.000,00 O que são Redes Neurais e Deep Learning? Redes Neurais Artificiais: algoritmo de ML inspirado na anatomia do cérebro humano onde a unidade básica de processamento é o neurônio e a rede é organizada em camadas de neurônios conectadas entre si. Deep Learning: conjunto de técnicas e algoritmos baseados em redes neurais mais profundas, sendo capazes de um maior poder de abstração. Necessita de uma grande quantidade de dados e a utilização de GPUs vem permitindo o desenvolvimento de estruturas cada vez mais complexas. 10 O que é Machine Learning? 11 Artificial Intelligence Machine Learning Neural Nets Deep Learning O que Machine Learning NÃO é? Não é mágica! - Precisa de uma grande quantidade de dados acessíveis e com qualidade. Ditado “trash in, trash out”. - Envolve muita pesquisa e experimentação para encontrar a solução que melhor se encaixa ao problema. Não resolve qualquer problema! - Vai depender do problema: às vezes nem precisa ou não é possível usar ML 🠖 Dados insuficientes ou de baixa qualidade, limitações técnicas (modelos pesados, custo alto, etc.) - Teorema do No free lunch: não existe um modelo que é o melhor para todos os problemas. Dado um problema, vamos em busca da melhor solução para ele em específico. 12 Conceitos de Machine Learning 13 Dataset, Observação e Feature 14 Features Ano de fabricação Potência Marca Preço 2021 200 cv Honda R$ 70.000 2019 150 cv Chevrolet R$ 30.000 2015 300 cv BMW R$ 50.000 2020 180 cv Ford R$ 40.000 Observações Alvo/ Saída esperada Exemplo: Estimar preço de carros com base no ano de fabricação, potência e marca. Dataset Feature Engineering 15 Criar novas features que ajudem a solucionar o problema a partir das já existentes usando informações externas, conhecimentos do negócio ou técnicas mais gerais. Exemplos de novas features: - Marca: se a marca possui fábrica no Brasil ou não, número de carros produzidos/importados para o Brasil no último ano. - Ano de fabricação: agrupar anos de fabricação (ex: 2021-2016, 2016 - 2001, 2000), transformar ano em “idade” do carro, agrupar essas idades em faixas (0-5 anos, 5-10 anos, 10+ anos). - Potência: comparação com a potência média dos carros da marca. - Indicadores externos: cotação do dólar, índice de inflação, etc. Principais tarefas e tipos de aprendizado 16 Supervisionado ● Aprende a partir de observações anteriores; ● Para cada observação, a saída esperada é conhecida. ● Foco em minimizar o erro entre o valor predito pelo modelo e as saídas esperadas; ● Principais tarefas: ○ Classificação: saída esperada é uma classe (ex: classificar se usuário vai churnar ou não) ○ Regressão: saída esperada é um valor contínuo (ex: prever receita). Principais tarefas e tipos de aprendizado 17 Não supervisionado ● Conjunto de técnicas de aprendizado para quando não se conhece a saída esperada; ● O algoritmo baseia-se somente nos dados de entrada; ● Principais tarefas: clusterização, detecção de anomalias e redução de dimensionalidade. Principais tarefas e tipos de aprendizado 18 Aprendizado por reforço ● Aprendizado baseado no ciclo observação-ação-recompensa; ● A cada ciclo, o algoritmo toma uma decisão, então é recompensado ou penalizado e vai se adaptando; ● Aplicações: jogos e sistemas que precisam se adaptar ao longo do tempo. Principais tarefas e tipos de aprendizado 19 Projeto de Machine Learning 20 Projeto de Machine Learning 21 1. Pesquisa técnica: levantamento bibliográfico sobre o problema, quais algoritmos são comumente utilizados, que features geralmente são incluídas, etc. 2. Entendimento do problema: papo com quem entende mais, definição de qual métrica otimizar, discutir sobre as features e decidir métricas de negócio. 3. Aquisição e limpeza dos dados: montar queries, ETL, excluir dados faltantes, etc. 4. Análise exploratória: entendimento da base, tratar outliers, feature engineering. Projeto de Machine Learning 22 5. Modelagem: treinamento de modelos e otimização de parâmetros. Comparação de resultados entre diferentes modelos para escolher o melhor para aquele problema. 6. Deploy: colocar o modelo criado para funcionar de fato. Pode ser feito de forma online (via API, por exemplo) ou em batches (processar uma massa de dados periodicamente e armazenar o output). 7. Monitoramento: acompanhamento do desempenho do modelo e das métricas de negócio associadas à solução. Projeto de Machine Learning 23 Business Understanding Pesquisa Aquisição dados Análise exploratóriaModelagem Deploy Início Monitorament o Fim Obrigado(a)! :)