Baixe o app para aproveitar ainda mais
Prévia do material em texto
DATA SCIENCE E MACHINE LEARNING Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados Como se tornar um cientista de dados? https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Como se tornar um cientista de dados? A questão sobre como se tornar um cientista de dados surge constantemente e muitas vezes a resposta não parece clara ou objetiva, pois há inúmeras maneiras de indicar o que esse tipo de profissional faz. https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Como se tornar um cientista de dados? O caminho para se tornar um Cientista de Dados é uma jornada de médio-longo prazo, dependendo do nível de dedicação. E como começar? Quais são os conceitos e técnicas essenciais para se tornar um especialista? https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Como se tornar um cientista de dados? Este e-book foi elaborado para indicar os passos e skills necessários para você aprender do zero os principais conceitos de Ciências de Dados. Por quê? Porque ciência de dados é nossa área de especialização, amamos o assunto e queremos que você esteja bem preparado ao realizar uma análise ou tomar uma decisão com base em dados. Com isso, ajudamos a promover o uso de Data Science e Machine Learning no Brasil! https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conteúdo Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados Conhecimentos Requeridos: 1 – Conceitos Básicos Conhecimentos Requeridos: 2 – Técnicas e principais metodologias de Ciência de Dados Conhecimentos Requeridos: 3 – Tópicos em Deep Learning e Inteligência Artificial Conhecimentos Requeridos: 4 – Tópicos em Visão Computacional, Processamento de Linguagem Natural e Robótica 1 - Conceitos Básicos Contatos https://www.seshatanalytics.com.br/ BÔNUS https://www.seshatanalytics.com.br/ Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ TÓPICOS EM DEEP LEARNING E INTELIGÊNCIA ARTIFICIAL CONCEITOS BÁSICOS TÉCNICAS E PRINCIPAIS METODOLOGIAS DE CIÊNCIA DE DADOS TÓPICOS EM VISÃO COMPUTACIONAL, PROCESSAMENTO DE LINGUAGEM NATURAL E ROBÓTICA 1 2 3 4 https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 1) • Importância do uso de dados • O que é Data Science? • Objetivos no Uso de Ciência De Dados • Responsabilidades de um Cientista de Dados • Aplicação de Data Science em Negócios • O uso de Dados em Data Science • Processo de Análise dos Dados • Livros indicados para impulsionar seu aprendizado Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Básico Público: Todos https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 2) • Por que Python? • Configuração do Python • Conceitos Iniciais do Python (funções básicas) • Introdução às bibliotecas Numpy e Pandas • Uso de álgebra linear em Data Science • Entender a importância de estatística em Data Science • Conhecimentos básicos de estatística • Importância da Análise Exploratória de Dados (EDA) https://www.seshatanalytics.com.br/ Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados Nível: Básico Público: Todos https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 1) • Business Intelligence: Data Science para explicar o passado • Objetivo, principais técnicas e ferramentas • Machine Learning: Data Science para predizer o futuro • Principais técnicas e algoritmos • Diferença entre problemas de classificação e regressão • Diferença entre os 4 tipos de Aprendizado de Máquina • Aprendizado Supervisionado • Aprendizado Não supervisionado • Aprendizado Semi-Supervisionado • Aprendizado por Reforço Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Básico Público: Todos https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 2) • Pipeline de Machine Learning (Nível Básico) • Principais algoritmos (objetivo, principais parâmetros e funcionamento geral de um algoritmo) • Aprendizado Supervisionado • Regressão • Regressão Linear (LASSO e RIDGE) • KNN (K Nearest Neighbors) • SVM (Support Vector Machines) • Floresta Aleatória • Gradient Boosting • Classificação • Regressão Logística • Árvore de Decisão • KNN (K Nearest Neighbors) • Floresta Aleatória • SVM (Support Vector Machines) • Naive Bayes • Gradient Boosting Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Intermediário Público: Todos https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 3) • Aprendizado Não Supervisionado • Análise de Agrupamentos (Clustering) • K Means • DBSCAN • Spectral Clustering • Detecção de Anomalias • Floresta de isolamento (forest isolation) • SVM de uma classe • Análise de Agrupamento • Redução de dimensionalidade • Análise de Componentes Principais (PCA) • Análise de Fatores • Análise Discriminante Linear (LDA) • Séries Temporais • Média Móvel • ARMA • ARIMA • GARCH Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Intermediário Público: Todos https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 4) • Aprendizado por Reforço • Métodos de Montecarlo • Métodos de diferenças temporais • Q-Learning • Sistemas de Recomendação • Filtro Colaborativo • Filtro baseado em conteúdo • Sistemas híbridos • Técnicas de Validação e Ajuste de Hiperparâmetros • Estratégias de Validação • Ajuste de hiperparametros • Engenharia de atributos • Ensemble Learning (Stacking e Blending) Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Avançado Público: Todos* *Desde que possuam conhecimento prévio de Python e Algoritmos de Machine Learning. * https://www.seshatanalytics.com.br/ Conhecimentos Requeridos • Redes Neurais • O que são redes neurais artificiais? • Principais conceitos (perceptron, funções de ativação, backpropagation (retropropagação) e gradient descent (descida do gradiente) • Principais bibliotecas no Python para RNA • Redes neurais multicamadas • Aprendizado Profundo • Redes Neurais Recorrentes (Sequencia a sequencia, LSTM (long short-term memory), GRU (Gated Recurrent Unit), Redes Recorrentes Bi- Direcionais, Redes Hopfield, Tempo Contínuo) • Rede Neural Convolucional (Convolutional Neural Network) • Rede Adversarial Generativa (Generative Adversarial Network) • Redes de crenças profundas (Deep Belief Networks) • Deep Boltzmann Machine Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Avançado Público: Todos* *Desde que possuam conhecimento prévio de Python e Algoritmos de Machine Learning. https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 1) • Visão Computacional • Identificação de objetos • AlexNet • DenseNet • GoogleNet • InceptionNet • LeNet • ResNet • VGGNet • Detecção de objetos • R-CNN • FAST R-CNN • FASTER R-CNN • R-CFN • SSD • YOLO • Detecção de emoções • Reconhecimento de objetos • Análise de movimento • Reconstrução de cena Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Avançado Público: Todos* *Desde que possuam conhecimento prévio de Python e Algoritmos de Machine Learning. https://www.seshatanalytics.com.br/ ConhecimentosRequeridos (PARTE 2) • Visão Computacional • Segmentação de Objetos • DeepLab • RefineNet • SegNet • PSPNet • U-Net • Conditional Random Field • Fully Convolutional Networks • Segmentação de instancias Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Avançado Público: Todos* *Desde que possuam conhecimento prévio de Python e Algoritmos de Machine Learning. https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 3) • Processamento de linguagem natural • Reconhecimento óptico de caracteres (OCR) • Tradução de máquina • Análise sintática (Parsing) • Reconhecimento de entidade nomeada (NER – Named entity recognition) • Reconhecimento de fala (Speech Recognition) • Geração de língua natural • Compreensão da língua natural • Maquina de tradução • Sumarização automática • Resolução de correferência • Segmentação morfológica • Marcação de classe gramatical (tagging) • Respostas a perguntas • Análise de subjetividade (sentiment analysis ou opinion mining) Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Avançado Público: Todos* *Desde que possuam conhecimento prévio de Python e Algoritmos de Machine Learning. https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 4) • Robótica • Aprendizado auto-supervisionado • Inteligência Visual • Tomada de Decisão • Dinâmica e Controle Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Avançado Público: Todos* *Desde que possuam conhecimento prévio de Python e Algoritmos de Machine Learning. https://www.seshatanalytics.com.br/ Conhecimentos Requeridos (PARTE 1) • Importância do uso de dados • O que é Data Science? • Objetivos no Uso de Ciência De Dados • Responsabilidades de um Cientista de Dados • Aplicação de Data Science em Negócios • O uso de Dados em Data Science • Processo de Análise dos Dados • Livros indicados para impulsionar seu aprendizado Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados https://www.seshatanalytics.com.br/ Nível: Básico Público: Todos https://www.seshatanalytics.com.br/ IMPORTÂNCIA DO USO DE DADOS Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 Os temas de Data Science e Aprendizado de Máquina (Machine Learning) se tornaram partes extremamente importantes do nosso cotidiano, tendo em vista sua extensa aplicação nos diversos produtos que consumimos (livros, filmes, esportes, sistemas de localização, entre outros), sendo considerados um dos campos mais relevantes e interessantes atualmente, com alta demanda no mercado de trabalho. IMPORTÂNCIA DO USO DE DADOS BÔNUS https://www.seshatanalytics.com.br/ IMPORTÂNCIA DO USO DE DADOS Não importa em que tipo de empresa você trabalha, certamente os dados afetam sua vida e seu trabalho, mesmo que você não perceba. Cada vez mais temos notícias sobre crimes cibernéticos, roubo de informações, sistemas de recomendações baseados em nossos cliques nos sites visitados. Mas o que faz nossa época tão propensa ao uso de dados? Simples, nós estamos na era da informação. https://www.seshatanalytics.com.br/ Conceitos Básicos1 BÔNUS https://www.seshatanalytics.com.br/ A quantidade de dados que produzimos todos os dias é espantosa: • Existem 2,5 quintilhões de bytes de dados criados a cada dia em nosso ritmo atual. • 90% dos dados do mundo foram gerados nos últimos 2 anos. • Até 2020, estima-se que 1,7MB de dados serão criados a cada segundo para cada pessoa na Terra. https://www.seshatanalytics.com.br/ Conceitos Básicos1 Fonte: Data Never Sleeps 6.0 - https://www.domo.com/learn/data-never-sleeps-6 IMPORTÂNCIA DO USO DE DADOS BÔNUS https://www.seshatanalytics.com.br/ E tais dados vêm de todos os lugares: informações de cliques em sites, publicações em mídias sociais, uso de sensores para coletar informações de compradores, transação de compra, sinais de GPS etc. Alguns outros exemplos: https://www.seshatanalytics.com.br/ Conceitos Básicos1 Fonte: Data Never Sleeps 6.0 - https://www.domo.com/learn/data-never-sleeps-6 IMPORTÂNCIA DO USO DE DADOS BÔNUS https://www.seshatanalytics.com.br/ O QUE É DATA SCIENCE? Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ O QUE É DATA SCIENCE? https://www.seshatanalytics.com.br/ Conceitos Básicos1 BÔNUS https://www.seshatanalytics.com.br/ O QUE É DATA SCIENCE? O termo Data Science ou Ciência de Dados possui as seguintes definições: • Campo multidisciplinar que engloba conceitos de estatística, matemática, ciência da computação, aprendizado de máquina e conhecimento especializado para entender e extrair conhecimento ou insights de grandes volumes de dados. • Método para descobrir padrões ocultos em dados brutos, sejam eles estruturados ou não. • Processo no qual dados brutos são ordenados e organizados, para serem usados em métodos que ajudam a explicar o passado e prever o futuro. Para isso, utiliza vários algoritmos, métodos matemáticos, estatísticos e princípios de aprendizado de máquina. Trata-se, desta forma, de um conceito com uma vasta abrangência em termos de definição completa, o que às vezes dificulta um pouco o seu uso. https://www.seshatanalytics.com.br/ Conceitos Básicos1 BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 O QUE É DATA SCIENCE? BÔNUS No passado, a ciência de dados referia-se ao processo de coleta, tratamento e aplicação de métodos estatísticos tradicionais para extração de respostas. Entretanto, nos últimos anos, o campo cresceu com a incorporação de outros conceitos, tais como: análise preditiva, mineração de dados, business intelligence, machine learning, deep learning, entre outros. https://www.seshatanalytics.com.br/ Inteligência Artificial: • Ramo da ciência da computação que lida com a simulação do comportamento inteligente em computadores. • Capacidade de uma máquina para imitar o comportamento humano inteligente. Ciência da Computação: • Responsável por criar as ferramentas para o processo de análise de dados. • O elevado volume de dados gerou a necessidade por habilidades de programação, administração de rede e de bancos de dados, assim como dispositivos de alto poder de processamento. Visão geral de alguns conceitos importantes https://www.seshatanalytics.com.br/ Conceitos Básicos1 O QUE É DATA SCIENCE? BÔNUS https://www.seshatanalytics.com.br/ Aprendizado Profundo (Deep Learning): • Tipo de machine learning que treina computadores para realizar tarefas como seres humanos, o que inclui reconhecimento de fala, identificação de imagem, sons e previsões. Aprendizado de Máquina (Machine Learning): • Algoritmos que usam métodos computacionais para “aprender” informações diretamente dos dados sem depender de uma equação predeterminada como modelo. • E para isso, os algoritmos melhoram continuamente seu desempenho à medida que o número de amostras disponíveis aumenta. https://www.seshatanalytics.com.br/ Conceitos Básicos1 Visão geral de alguns conceitos importantes O QUE É DATA SCIENCE? BÔNUS https://www.seshatanalytics.com.br/ Matemática: • Ciência de Dados utiliza uma variedade de técnicas matemáticas nos algoritmos, incluindo probabilidade, álgebra linear (vetores e matrizes), métodos numéricos e cálculo. Estatística: • Desenvolvimento e aplicaçãode métodos para coletar, analisar e interpretar dados. • Em ciência de dados utilizamos diversas técnicas estatísticas, tais como: previsão, regressão, agrupamentos, séries temporais, métodos bayesianos etc. https://www.seshatanalytics.com.br/ Conceitos Básicos1 Visão geral de alguns conceitos importantes O QUE É DATA SCIENCE? BÔNUS https://www.seshatanalytics.com.br/ Mineração de dados: • Processo computacional de transformar dados em informações úteis (dados mais valiosos a partir de dados brutos ou complexos). https://www.seshatanalytics.com.br/ Conceitos Básicos1 Visão geral de alguns conceitos importantes Conhecimento Especializado: • O processo de ciência de dados requer uma boa compreensão do domínio do conhecimento do especialista para elaborar as perguntas e hipóteses corretamente. • Abordagem híbrida, que combina conhecimento especializado com a sofisticação dos modelos desenvolvidos, produz melhores resultados. • Conhecimentos envolvidos: finanças, economia, agricultura, educação, saúde, negócios, seguros, mídias sociais, governo etc. O QUE É DATA SCIENCE? BÔNUS https://www.seshatanalytics.com.br/ OBJETIVOS NO USO DE CIÊNCIA DE DADOS Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 OBJETIVOS NO USO DE CIÊNCIA DE DADOS Estágios de maturidade em Ciência de Dados Descritivo Diagnóstico Preditivo SemânticoPrescritivo POR QUE ESTÁ ACONTECENDO? • Identificação de fatores e causas. • Estatística Multivariada • Análise de agrupamentos, fatores, análise de componentes principais O QUE PROVAVELMENTE OCORRERÁ? • Previsões (forecasting), tendências e probabilidades • Padrões históricos utilizados para predizer resultados com uso de algoritmos. • Análise de séries temporais, árvores de decisão, redes neurais, SVM. QUE AÇÕES DEVEM SER TOMADAS? • Simulação e modelos de otimização. • Planos de ação/recomendação e estratégias de negócio. • Aplicação de técnicas analíticas avançadas para realizar recomendações específicas. • Análise de sensibilidade e cenários, simulação de Montecarlo. ENTENDIMENTO DO CONTEXTO SOCIAL E SIGNIFICADO • Big data, mineração de texto, análise geoespacial, análise de sentimentos, análise de imagens.1° Nível 2° Nível 3° Nível 4° Nível O QUE ESTÁ ACONTECENDO? • Análise Histórica. • Modelos de visualização eficientes. • Data Quality. • Business Intelligence. • Estatística Descritiva, correlação. 5° Nível Aspiracional Nível de Maturidade Avançado Transacional Valor de Negócio Estratégico BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 OBJETIVOS NO USO DE CIÊNCIA DE DADOS • Business Intelligence DATA SCIENCE PARA EXPLICAR O PASSADO • Métodos Estatísticos Tradicionais • Algoritmos de Aprendizado de Máquina DATA SCIENCE PARA PREVER O FUTURO Há dois modos de utilizar os dados em Ciência de Dados: com o objetivo de explicar um comportamento que já ocorreu ou usar os dados para prever um comportamento futuro. BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 • Business Intelligence (BI) Há dois modos de utilizar os dados em Ciência de Dados: com o objetivo de explicar um comportamento que já ocorreu ou usar os dados para prever um comportamento futuro. • BI trabalha com dados estruturados. • BI se concentra no passado e no presente. • Executa análise exploratória de dados. • Descobre novos padrões usando ferramentas estatísticas e visualização por meio de painéis (dashboards). • Elabora KPIs e KRIs. • Ferramentas utilizadas: Pentaho, Qlikview, Qliksense, Microstrategy, SAS Business Intelligence, Dundas, TIBCO Spotfire, Microsoft Power BI, Tableau, Oracle BI. DATA SCIENCE PARA EXPLICAR O PASSADO OBJETIVOS NO USO DE CIÊNCIA DE DADOS BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 • Métodos Estatísticos Tradicionais • Algoritmos de Aprendizado de Máquina Há dois modos de utilizar os dados em Ciência de Dados: com o objetivo de explicar um comportamento que já ocorreu ou usar os dados para prever um comportamento futuro. • Utiliza métodos científicos e algoritmos para extrair conhecimento e insights de dados estruturados e não estruturados. • Identifica tendências em dados e realiza previsões. • Executa análise exploratória de dados. • Abordagem com estatística e aprendizado de máquina. • Ferramentas utilizadas: R, Python, Octave, Matlab, Julia, Spark ML, Weka, Scala, Google ML, Amazon ML, Azure ML. DATA SCIENCE PARA PREVER O FUTURO OBJETIVOS NO USO DE CIÊNCIA DE DADOS BÔNUS https://www.seshatanalytics.com.br/ RESPONSABILIDADES DE UM CIENTISTA DE DADOS Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 RESPONSABILIDADES DE UM CIENTISTA DE DADOS Efetuar Análise Exploratória dos Dados Identificar padrões e tendências nos dados e realizar previsões Processar, transformar e verificar integridade dos dados Gerar insights e resultados com base em técnicas avançadas (Machine Learning, por exemplo) BÔNUS https://www.seshatanalytics.com.br/ APLICAÇÃO DE DATA SCIENCE EM NEGÓCIOS Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ APLICAÇÃO DE DATA SCIENCE EM NEGÓCIOS https://www.seshatanalytics.com.br/ Conceitos Básicos1 Nos últimos anos, várias empresas vêm utilizando técnicas de Data Science e Machine Learning para detectar perfis de compras, aumentar receita, veicular anúncios relevantes, entre outros. Tal uso foi impulsionado principalmente pelo sucesso obtido por empresas como Google, Facebook, Airbnb, que modelaram sua estratégia comercial com base em dados. BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 APLICAÇÃO DE DATA SCIENCE EM NEGÓCIOS VAREJO Sistemas de recomendação, análise de cestas de compras, análise de sentimentos de clientes, localização de novas lojas, avaliação de perfis de clientes. FINANÇAS Precificação, automação (chatbots), detecção de fraudes, avaliação de crédito, sistemas de recomendação de serviços, algoritmos de trading, gestão automatizada de riscos. SAÚDE Análise de imagens médicas, detecção de pacientes de alto custo, mapeamento de sequências genéticas, automação de tarefas administrativas, otimização do processo de criação de remédios, medicina preditiva. SEGUROS Detecção de fraudes, otimização de preços, marketing personalizado, segmentação de clientes, predição do lifetime value (ciclo de vida do cliente), sistemas de recomendação, avaliação de riscos, previsão de sinistros. BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 APLICAÇÃO DE DATA SCIENCE EM NEGÓCIOS PETRÓLEO E GÁS Manutenção preditiva de equipamentos ou peças, automação de processos, previsão de resultados operacionais. JURÍDICO Automação de tarefas administrativas, criação de acordos de confidencialidade ou NDA’s, robôs para encontrar advogados por especialidade, assistente de Pesquisa, uso de processamento de linguagem natural para fornecer conselhos e gerar documentos. MANUFATURA Previsão de falhas e manutenção preventiva, previsão de demanda e gerenciamento de estoque, otimização de preço, robotização, desenvolvimento de produtos, gestão de riscos na cadeia de suprimentos. TRANSPORTES Veículos autônomos, manutenção preditiva, monitoramento de padrão de tráfego, promoçãoem passagens. BÔNUS https://www.seshatanalytics.com.br/ O USO DE DADOS EM DATA SCIENCE Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ O USO DE DADOS EM DATA SCIENCE Ciência de Dados não se trata de números e sim de fazer perguntas, elaborar explicações e testar hipóteses. Algumas questões são levantadas quando usamos dados: • O que podemos aprender com esses dados? • Dado um problema, que tipo de dados precisamos para ajudar a resolvê-lo? • Com base em alguns dados, que problemas interessantes podem ser resolvidos? • Que ações tomar quando encontramos informações úteis com dados? • Qual melhor caminho para aprender os principais conceitos relacionados ao assunto? https://www.seshatanalytics.com.br/ Conceitos Básicos1 BÔNUS https://www.seshatanalytics.com.br/ Dados Os dados são a base da ciência de dados, sendo a matéria sobre a qual todos os tratamentos e análises são realizados. Desta forma, quando falamos de dados, nosso primeiro tipo de avaliação deve ser: que tipo de dados estamos tratando? A resposta a essa pergunta será essencial para nos direcionar sobre que tipo de metodologias e algoritmos podem ser aplicados para cada tipo de dado e de problema a ser resolvido. https://www.seshatanalytics.com.br/ Conceitos Básicos1 O USO DE DADOS EM DATA SCIENCE BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 Dados Estruturados Dados Não Estruturados Dados Numéricos Dados Categóricos Dados Tradicionais Big Data O USO DE DADOS EM DATA SCIENCE Quando realizamos qualquer tipo de análise precisamos saber a natureza dos dados: BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 Dados Estruturados Dados Não Estruturados • Não possuem estrutura predefinida, sendo sua origem e formato em qualquer tamanho ou forma, não havendo um padrão para armazenamento. • Maior parte dos dados produzidos atualmente. • Maior complexidade no tratamento e análise das informações. • Exemplo: bloco de notas, e-mails, posts em redes sociais, imagens, áudios, vídeos. • São os dados armazenados dentro de uma estruturada predefinida e organizada, sendo organizado geralmente por linhas e colunas. • Usado pela maioria das empresas, embora não seja a maior parte do conteúdo produzido (aprox. 10% dos dados produzidos atualmente). • Maior facilidade na aplicação de metodologias e algoritmos. • Exemplo: Planilhas eletrônicas (Excel), Bancos de dados, Arquivos XML, Arquivos CSV O USO DE DADOS EM DATA SCIENCE Quando realizamos qualquer tipo de análise precisamos saber a natureza dos dados: BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 Dados Numéricos Dados Categóricos • Dados que podem ser divididos em grupos ou categorias, podendo ser nominais ou ordinais. • Variável nominal não possui ordem referente à categoria: 1) Tipo de moradia: casa, apartamento; 2) Região: “Norte”, “Nordeste”, “Centro Oeste”, “Sudeste”, “Sul”; 3) Sexo: Masculino, Feminino. • Variável ordinal tem uma ordem estabelecida: 1) Classe social: “alta”, “média” ou “baixa”); 2) Qualidade de um produto: “Ótimo”, “Bom”, “Razoável”, “Ruim”; 3) faixa de Idade: “0 a 18 anos”, “18 a 45 anos”, “45 a 65 anos”, “+ de 65 anos”. • Valores ou observações que podem ser medidos, podendo ser de dois tipos: discretos e contínuos. • Dados discretos são valores/ observações que podem ser contados e são distintos e separados (Quantidade de habitantes, quantidade de filhos, quantidade de vendas, quantidade de registros de uma tabela). • Dados contínuos são valores/ observações que possuem qualquer valor em um intervalo (Peso, altura, previsão do tempo, renda média, nota média de uma turma, preço de uma ação). Quando realizamos qualquer tipo de análise precisamos saber a natureza dos dados: O USO DE DADOS EM DATA SCIENCE BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 Exemplos: Dados Estruturados Dados Não Estruturados Dados Numéricos Dados Categóricos Registro de preços de ações X X E-mails X (D) Imagens X (D) Mensagens Redes Sociais X (D) Registro de aprovação de crédito (Sim/Não) X X (N) Registro de quantidade de vendas X X (D) Registro de preço de vendas X X (C) Tabela com idades e pesos de uma turma X X (C) Vídeos X (D) Classe social de um grupo de indivíduos X X (O) (D) Discreto (C) Contínuo (N) Nominal (O) Ordinal O USO DE DADOS EM DATA SCIENCE BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 Big Data trata-se de um conjunto massivo de dados, maior que os dados tradicionais, não cabendo na memória de uma única máquina. Também são caracterizados como dados que possuem os 3 Vs: Variedade - Dados em vários formatos: estruturado, não estruturado ou semi-estruturado. Exemplo: números, texto, áudio, imagens etc. Volume – Volume de dados em tera, peta e exabytes (=1 milhão de terabytes). Geralmente refere-se a transações online e offline. Velocidade – Dados gerados em tempo real (transações online e offline, streamings, rotinas batch). Dados Tradicionais Big Data O USO DE DADOS EM DATA SCIENCE BÔNUS https://www.seshatanalytics.com.br/ PROCESSO DE ANÁLISE DOS DADOS Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ PROCESSO DE ANÁLISE DOS DADOS Como tratar os dados? Agora que você já respondeu às questões sobre os tipos de dados, vem a segunda pergunta: o que fazer com o conjunto de dados? https://www.seshatanalytics.com.br/ Conceitos Básicos1 Você sabia? Você pode pensar que ciência de dados e aprendizado de máquina tratam-se principalmente de seleção de modelos e ajuste de algoritmos. Entretanto, a maior parte do trabalho está na transformação de dados. BÔNUS https://www.seshatanalytics.com.br/ E quais são as etapas para tratar os dados antes de realizar qualquer tipo de modelagem? Como dito anteriormente, a maior parte de seu tempo e esforço envolve a limpeza de dados e a engenharia de recursos (transformar dados brutos em atributos que melhor representem seus dados). Independentemente de o cientista de dados receber dados coletados ou ter que realizar a coleta, os dados estarão em formato bruto, que precisarão ser convertidos em um formato mais compreensível e útil para processamento adicional. https://www.seshatanalytics.com.br/ Conceitos Básicos1 PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ Principais etapas no processamento de dados em Data Science https://www.seshatanalytics.com.br/ Conceitos Básicos1 Coleta de dados Descrição dos dados Definição do Problema Preparação de Dados Exploração dos Dados Visualização dos Dados 6 1 5 3 4 2 PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 1 – Definição do Problema Como já mencionado, Ciência de Dados não se trata de números e sim de fazer perguntas, elaborar explicações e testar hipóteses. A definição do problema requer perguntas de alto nível para definição de escopo e suposições. PROCESSO DE ANÁLISE DOS DADOS BÔNUS Com base em idade, sexo e histórico bancário, qual a probabilidade de default do cliente? Com base nas características, o produto deve ser vendido para que tipo de público? Existe correlação entre determinada doença e sexo? E idade? Que diferenças de perfil existem entre os clientes que compram ou não determinado produto? Qual o preço da ação no próximo mês? https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/Conceitos Básicos1 1 – Definição do Problema PROCESSO DE ANÁLISE DOS DADOS BÔNUS Nesta etapa é extremamente importante: • Transformar qualquer ambiguidade em um problema concreto e bem definido. • Estabelecer papéis, responsabilidades e dados necessários. • Identificar pontos que vão influenciar no trabalho a ser realizado: Prioridades, prazos e estratégia de negócio. • Ter conhecimento profundo de negócio. https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 2 – Coleta de Dados (Data Collection) É onde tudo começa! Trata-se da etapa que vem logo após a definição do problema a ser resolvido. Assim, os dados podem ser obtidos de bases de dados oriundas de dados corporativos, de fontes de dados públicas, dados acadêmicos, empresas de fontes de dados, por meio de Web Scraping/ Crawling. Os dados apresentam-se em diferentes formatos, formas e tamanhos. Entre os formatos com maior frequência, temos CSV, XML, JSON e SQL. PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 2 – Coleta de Dados (Data Collection) Para quem está iniciando em Data Science e Machine Learning é recomendável: • Buscar conjuntos de dados simples para não investir muito tempo limpando dados (Não esquecer que essa é a etapa mais trabalhosa! Então, quanto mais limpa a base, melhor). • Um bom conjunto de dados para testar seu aprendizado não deve ter muitas linhas ou colunas, para facilitar o trabalho e a absorção do conhecimento. • Não esquecer a primeira etapa: Deve haver uma questão interessante, que será respondida com dados. PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ Super dica! https://github.com/awesome data/awesome-public- datasets (Link com várias fontes de dados públicas separadas em mais de 30 assuntos, entre eles: Agricultura, Biologia, Clima, Economia, Finanças, Energia, Governo, Saúde, Esportes). https://www.seshatanalytics.com.br/ Conceitos Básicos1 2 – Coleta de Dados (Data Collection) Algumas fontes de dados públicas para quem está iniciando em Data Science: www.kaggle.com https://archive.ics.uci.ed u/ml/index.php https://www.visualdata.io/ https://www.data.gov/ http://datasus.saude.gov.br/ http://dados.gov.br/ https://toolbox.google.co m/datasetsearch PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://github.com/awesomedata/awesome-public-datasets https://www.seshatanalytics.com.br/ http://www.kaggle.com/ http://www.kaggle.com/ https://archive.ics.uci.edu/ml/index.php https://www.visualdata.io/ https://www.data.gov/ http://datasus.saude.gov.br/ http://dados.gov.br/ https://toolbox.google.com/datasetsearch https://www.seshatanalytics.com.br/ Conceitos Básicos1 2 – Coleta de Dados (Data Collection) PROCESSO DE ANÁLISE DOS DADOS BÔNUS Nesta etapa é extremamente importante: • Identificar todas as fontes de dados, internas e/ou externas, para a modelagem. • Mapear dados disponíveis e sua utilidade. • Extrair dados usando os formatos mais utilizados e aceitos pelas ferramentas disponíveis (csv, json, xml etc.) • Atentar para o tratamento adicional requerido para dados não estruturados. https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 3 – Descrição dos Dados Nesta etapa, precisamos entender com que tipo de dados/atributos estamos lidando e a propriedade dos dados coletados para resolver nosso problema. • Dados numéricos: Tipo mais simples, utilizado e compreendido pela maioria dos algoritmos. Para lidar com dados numéricos, usamos técnicas como normalização, quantização, categorização, entre outros. • Dados de texto: São dados não estruturados, um dos tipos mais comuns. Requerem cuidados e tratamentos adicionais para transformação, entendimento e utilização. • Dados categóricos: Referem-se a categorias observadas (cor de cabelo, classe social, faixa etária etc.). Podem ser representados em números ou por texto. PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 3 – Descrição dos Dados Exemplo de Reporte: PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 3 – Descrição dos Dados PROCESSO DE ANÁLISE DOS DADOS BÔNUS Nesta etapa é extremamente importante: • Entender características e formato de cada variável. • Identificar variáveis que possivelmente não serão necessárias na modelagem (Exemplo*: Nome, CEP, ID de usuário). *Variáveis não necessárias, dependendo do problema a ser resolvido. https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 Etapa requerida para preparar dados para modelagem e uma das mais importantes do processo de ciência de dados. Consiste no processo de limpeza, transformação (normalizar, combinar), enriquecimento e estruturação de dados brutos para utilizá-los nas análises, modelagens, reportes, visualização e no resultado final. Após esta etapa, espera-se que os dados estejam em um formato adequado e confiável para melhor tomada de decisão em menos tempo. Também chamada de Pré- Processamento / Data Wrangling / Data Munging. PROCESSO DE ANÁLISE DOS DADOS 4 - Preparação de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 LIMPEZA DE DADOS • Esta etapa consiste em excluir / manipular dados incorretos ou ausentes (missings), lidar com valores discrepantes (outliers) e outros aspectos. • Também engloba a padronização de nomes de colunas de atributos para torná-los mais legíveis, intuitivos e em conformidade com determinados padrões para todos os envolvidos. • A saída desse processo impacta diretamente todas as etapas posteriores, como exploração, resumo, visualização, análise e até o resultado final. PROCESSO DE ANÁLISE DOS DADOS 4 - Preparação de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 INCLUSÃO DE DADOS • Processo para tratar de valores ausentes (missings), que incluem: • Excluir todos os registros contendo dados ausentes • Preenchimento com valor médio, valor aleatório, vizinho mais próximo ou por interpolação. PROCESSO DE ANÁLISE DOS DADOS 4 - Preparação de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 4 - Preparação de Dados OUTRAS ETAPAS DE PREPARAÇÃO DE DADOS • Detecção de outliers (valores discrepantes). • Verificação de dados duplicados. • Manipulação de dados categóricos: conversão de variáveis categóricas em códigos/indicadores. • Normalização de dados numéricos: padronização do intervalo de valores dos atributos, requerido por alguns algoritmos de aprendizado de máquina, que utilizam métricas que podem afetar adversamente os cálculos ou influenciar os resultados. • Balanceamento de dados: quando uma determinada categoria possui número desigual de observações frente as demais, é requerido um processo de balanceamento para corrigir o problema. PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 4 - Preparação de Dados Características da base de dados após etapa de preparação: CONFIÁVEL** PADRONIZADA *** COMPLETA NÃO REDUNDANTE* COERENTE/RELEVANTE *Exemplo: Data de Nascimento e Idade, CEP e Nome da Rua ** Ausência de registros duplicados ou mesmo indivíduo com nome escrito de formas diferentes. *** Uso de chaves únicas para relacionamento entre bases. PRECISA PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 PROCESSO DE ANÁLISE DOS DADOS BÔNUS Nesta etapa é extremamente importante: • Identificar erros de registro ou formato, dados faltantes,dados discrepantes. • Limpar, substituir e/ou filtrar registros com problemas. • Entender bem as ferramentas utilizadas (R, Python ou outra de sua escolha) e suas bibliotecas para facilitar a execução dos passos. 4 - Preparação de Dados https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 PROCESSO DE ANÁLISE DOS DADOS 5 - Exploração de Dados Refere-se ao processo de representar de forma compacta os dados (Exemplo: quantidade de eventos por mês, total vendido por ano, nota média por turma) BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 PROCESSO DE ANÁLISE DOS DADOS BÔNUS Nesta etapa é extremamente importante: • Segmentar, testar e plotar os dados de diferentes formas. • Avaliar correlação entre variáveis e seus efeitos. • Identificar padrões e extrair atributos (variáveis) significativos e não significativos. 5 - Exploração de Dados https://www.seshatanalytics.com.br/ 6 - Visualização de Dados https://www.seshatanalytics.com.br/ Conceitos Básicos1 Processo de representar visualmente as informações em formato de gráficos, dashboards, imagens, mapas de forma visualizar diferentes atributos para compartilhar resultados, melhorar entendimento e descobrir novos insights e padrões ocultos. PROCESSO DE ANÁLISE DOS DADOS BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ Conceitos Básicos1 PROCESSO DE ANÁLISE DOS DADOS BÔNUS Nesta etapa é extremamente importante: • Avaliar gráficos e dashboards para verificar relação com problema proposto. • Identificar se dados estão íntegros e consistentes para a próxima etapa, caso necessário (Ex: aplicação de algoritmos de Machine Learning). 6 - Visualização de Dados https://www.seshatanalytics.com.br/ LIVROS INDICADOS PARA IMPULSIONAR SEU APRENDIZADO Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar um Cientista de Dados BÔNUS https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/ 7 livros super hiper ultra indicados para começar do zero e se tornar um especialista https://www.seshatanalytics.com.br/ Conceitos Básicos1 LIVROS INDICADOS PARA IMPULSIONAR SEU APRENDIZADO BÔNUS Super dica! https://bit.ly/2UiRpN3 Veja o artigo que escrevi sobre os livros indicados aqui. https://www.seshatanalytics.com.br/ https://bit.ly/2UiRpN3 Muito obrigada pelo seu interesse em nosso e-book!!! Site: https://ww.seshatanalytics.com.br Siga nossas Redes Sociais: @seshatanalytics Facebook/ Instagram/ Youtube/ Twitter/ Linkedin https://www.seshatanalytics.com.br/ https://www.seshatanalytics.com.br/
Compartilhar