Prévia do material em texto
1 Prof. Wellington Rodrigo Monteiro Linguagem de Programação Aula 2 Conversa Inicial Desmistificar conceitos IA != mágica IA não é a sucessora da Estatística IA em Python Inteligência artificial Definindo inteligência artificial e aprendizagem de máquina Advanced Analytics Data Science Statistics Business Intelligence Artificial Intelligence GOFAI Machine Learning Artificial General Intelligence Entendendo o mundo de Advanced Analytics Trabalhando com problemas de ciência de dados 1 2 3 4 5 6 2 Aprendizagem supervisionada Regressão Prever a nota Prever quantos trabalhos serão entregues nos próximos dias Classificação Prever se será aprovado/reprovado Machine Learning Aprendizagem não supervisionada Seleção de atributos Selecionar as informações mais relevantes Redução da dimensionalidade Agrupar informações Aprendizagem por reforço Otimização Gaming CRISP-DM SEMMA KDD Agile TDSP Metodologias Definição do problema O que quer fazer/resolver com ML? Qual a dor da área de negócio? Definição dos dados Temos os dados para resolver a dor? Essa base continuará disponível no futuro? Passo a passo Preparação dos dados Os dados possuem a qualidade necessária? Que outras informações podemos extrair? Desenvolvimento dos modelos Que modelos/técnicas poderiam resolver o nosso problema? Avaliação dos modelos Os modelos são “bons”? Usamos uma base de dados confiável para testar? Disponibilização dos modelos Como vão usar no dia a dia? MLOps 7 8 9 10 11 12 3 Data Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Trabalhando com dados Dataset Tabular Texto Imagem Atributos (features/colunas) Instâncias (rows/linhas) Alvo (target/label/class/rótulo) Termos básicos Dados ausentes e zeros Anomalias Linhas duplicadas Dados categóricos Análise de dados Dados numéricos Dados de data e hora Correlações espúrias Transformação de dados Tratamento de dados nulos Featuretools Pandas-profiling Bibliotecas 13 14 15 16 17 18 4 Trabalhando com modelos Aprendizagem supervisionada Árvores de decisão (decision trees) Máquinas de vetor de suporte (support vector machines, ou SVM) Algoritmos gaussianos Algoritmos bayesianos (...) Algoritmos de ML (...) Modelos lineares Redes neurais K-vizinhos mais próximos (K-nearest neighbors, ou KNN) Comitês de algoritmos (ensembles) Aprendizagem não supervisionada K-médias (K-means) OPTICS DBSCAN PCA Scikit-learn TensorFlow Keras PyTorch LightGBM XGBoost Statsmodels Prophet Bibliotecas Train/test split Cross-validation (CV) Rolling origin cross-validation (ROCV) Divisão do dataset Trabalhando com resultados 19 20 21 22 23 24 5 Classificação Matriz de confusão Curva ROC (receiver operating characteristic)/área sob a curva (area under the curve/AUC) Precision/recall Métricas Regressão MAE MSE RMSE R2 MAPE Seleção de atributos Método do cotovelo (elbow method) 25 26