Buscar

PASSEI DIRETO - Conceitos básicos de Machine Learning e Ciência de Dados


Continue navegando


Prévia do material em texto

Conceitos de Ciência de Dados e Machine Learning
Abril/2021
Agenda
● Data Analyst vs Data Engineer vs Data Scientist
● O que é Machine Learning?
● Conceitos de Machine Learning
● Projeto de Machine Learning
2Fonte
https://data-flair.training/blogs/data-scientist-vs-data-engineer-vs-data-analyst/
Data Analyst vs Data Engineer vs Data Scientist
3
Data Analyst vs Data Engineer vs Data Scientist
Data Engineer: 
● Suporte aos analistas e cientistas de dados;
● ETL (Extract, Transform, Load);
● Infra de Cloud junto com DevOps;
● Pipelines.
Data Analyst: 
● Análises de dados;
● Elaboração de relatórios;
● Auxílio na tomada de decisões do negócio.
4Fonte
Data Scientist: 
● Análises de dados;
● Expertise com Machine Learning;
● Proficiente em Python e/ou R;
● Conhecimentos de Eng. Software (depende 
um pouco do background).
https://data-flair.training/blogs/data-scientist-vs-data-engineer-vs-data-analyst/
Data Analyst vs Data Engineer vs Data Scientist
5
O que é Machine Learning?
6
O que é Machine Learning?
Machine Learning (ML): área do campo de pesquisa de Inteligência Artificial (IA) que desenvolve 
sistemas capazes de aprender automaticamente a partir dos dados, sem uma programação explícita. Há 
inúmeros algoritmos de ML e redes neurais artificiais é só um deles.
7
O que é Machine Learning?
8
Computador
R$ 100.000,00
R$ 150.000,00
Programação Tradicional
O que é Machine Learning?
9
Computador
R$ 100.000,00; R$ 250.000,00; R$ 80.000,00; ...
Machine Learning
Modelo
Modelo R$ 2.000.000,00
O que são Redes Neurais e Deep Learning?
Redes Neurais Artificiais: algoritmo de ML inspirado na anatomia do cérebro humano onde a unidade 
básica de processamento é o neurônio e a rede é organizada em camadas de neurônios conectadas entre si.
Deep Learning: conjunto de técnicas e algoritmos baseados em redes neurais mais profundas, sendo 
capazes de um maior poder de abstração. Necessita de uma grande quantidade de dados e a utilização de 
GPUs vem permitindo o desenvolvimento de estruturas cada vez mais complexas.
10
O que é Machine Learning?
11
Artificial 
Intelligence
Machine Learning
Neural Nets
Deep 
Learning
O que Machine Learning NÃO é?
Não é mágica!
- Precisa de uma grande quantidade de dados acessíveis e com qualidade. Ditado “trash in, trash out”.
- Envolve muita pesquisa e experimentação para encontrar a solução que melhor se encaixa ao 
problema.
Não resolve qualquer problema!
- Vai depender do problema: às vezes nem precisa ou não é possível usar ML 🠖 Dados insuficientes ou 
de baixa qualidade, limitações técnicas (modelos pesados, custo alto, etc.)
- Teorema do No free lunch: não existe um modelo que é o melhor para todos os problemas. Dado um 
problema, vamos em busca da melhor solução para ele em específico.
12
Conceitos de Machine Learning
13
Dataset, Observação e Feature
14
Features
Ano de 
fabricação
Potência Marca Preço
2021 200 cv Honda R$ 70.000
2019 150 cv Chevrolet R$ 30.000
2015 300 cv BMW R$ 50.000
2020 180 cv Ford R$ 40.000
Observações
Alvo/
Saída esperada
Exemplo: Estimar preço de carros com base no ano de fabricação, potência e marca.
Dataset
Feature Engineering
15
Criar novas features que ajudem a solucionar o problema a partir das já existentes 
usando informações externas, conhecimentos do negócio ou técnicas mais gerais.
Exemplos de novas features:
- Marca: se a marca possui fábrica no Brasil ou não, número de carros 
produzidos/importados para o Brasil no último ano.
- Ano de fabricação: agrupar anos de fabricação (ex: 2021-2016, 2016 - 2001, 2000), 
transformar ano em “idade” do carro, agrupar essas idades em faixas (0-5 anos, 5-10 
anos, 10+ anos).
- Potência: comparação com a potência média dos carros da marca.
- Indicadores externos: cotação do dólar, índice de inflação, etc.
Principais tarefas e tipos de aprendizado
16
Supervisionado
● Aprende a partir de observações anteriores; 
● Para cada observação, a saída esperada é conhecida.
● Foco em minimizar o erro entre o valor predito pelo 
modelo e as saídas esperadas;
● Principais tarefas: 
○ Classificação: saída esperada é uma classe (ex: 
classificar se usuário vai churnar ou não)
○ Regressão: saída esperada é um valor contínuo 
(ex: prever receita).
Principais tarefas e tipos de aprendizado
17
Não supervisionado
● Conjunto de técnicas de aprendizado para quando não se conhece a saída esperada;
● O algoritmo baseia-se somente nos dados de entrada;
● Principais tarefas: clusterização, detecção de anomalias e redução de dimensionalidade.
Principais tarefas e tipos de aprendizado
18
Aprendizado por reforço 
● Aprendizado baseado no ciclo observação-ação-recompensa;
● A cada ciclo, o algoritmo toma uma decisão, então é recompensado ou penalizado e vai se adaptando;
● Aplicações: jogos e sistemas que precisam se adaptar ao longo do tempo.
Principais tarefas e tipos de aprendizado
19
Projeto de Machine Learning
20
Projeto de Machine Learning
21
1. Pesquisa técnica: levantamento bibliográfico sobre o problema, quais algoritmos são 
comumente utilizados, que features geralmente são incluídas, etc.
2. Entendimento do problema: papo com quem entende mais, definição de qual 
métrica otimizar, discutir sobre as features e decidir métricas de negócio.
3. Aquisição e limpeza dos dados: montar queries, ETL, excluir dados faltantes, etc.
4. Análise exploratória: entendimento da base, tratar outliers, feature engineering.
Projeto de Machine Learning
22
5. Modelagem: treinamento de modelos e otimização de parâmetros. Comparação de 
resultados entre diferentes modelos para escolher o melhor para aquele problema.
6. Deploy: colocar o modelo criado para funcionar de fato. Pode ser feito de forma 
online (via API, por exemplo) ou em batches (processar uma massa de dados 
periodicamente e armazenar o output).
7. Monitoramento: acompanhamento do desempenho do modelo e das métricas de 
negócio associadas à solução.
Projeto de Machine Learning
23
Business 
Understanding
Pesquisa
Aquisição 
dados
Análise 
exploratóriaModelagem
Deploy
Início
Monitorament
o Fim
Obrigado(a)! :)