Buscar

eb

Prévia do material em texto

DATA SCIENCE E MACHINE 
LEARNING
Passo a Passo para Aprender as Principais Técnicas 
do Zero e se tornar um Cientista de Dados
Como se 
tornar um 
cientista de 
dados?
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Como se tornar um 
cientista de dados?
A questão sobre como 
se tornar um cientista de 
dados surge 
constantemente e 
muitas vezes a resposta 
não parece clara ou 
objetiva, pois há 
inúmeras maneiras de 
indicar o que esse tipo 
de profissional faz. 
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Como se tornar 
um cientista de 
dados?
O caminho para se tornar um 
Cientista de Dados é uma 
jornada de médio-longo 
prazo, dependendo do nível 
de dedicação.
E como começar? Quais são 
os conceitos e técnicas 
essenciais para se tornar um 
especialista? 
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Como se tornar 
um cientista de 
dados?
Este e-book foi elaborado para indicar os passos e 
skills necessários para você aprender do zero 
os principais conceitos de Ciências de Dados. 
Por quê? 
Porque ciência de dados é nossa área de 
especialização, amamos o assunto e queremos 
que você esteja bem preparado ao realizar uma 
análise ou tomar uma decisão com base em dados. 
Com isso, ajudamos a promover o uso de Data 
Science e Machine Learning no Brasil!
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conteúdo
Passo a Passo para Aprender as Principais Técnicas do 
Zero e se tornar um Cientista de Dados
Conhecimentos Requeridos: 1 – Conceitos Básicos
Conhecimentos Requeridos: 2 – Técnicas e principais 
metodologias de Ciência de Dados
Conhecimentos Requeridos: 3 – Tópicos em Deep 
Learning e Inteligência Artificial
Conhecimentos Requeridos: 4 – Tópicos em Visão 
Computacional, Processamento de Linguagem Natural e 
Robótica
1 - Conceitos Básicos
Contatos
https://www.seshatanalytics.com.br/
BÔNUS
https://www.seshatanalytics.com.br/
Passo a Passo para Aprender as Principais Técnicas do Zero e se tornar 
um Cientista de Dados
https://www.seshatanalytics.com.br/
TÓPICOS EM DEEP 
LEARNING E 
INTELIGÊNCIA 
ARTIFICIAL
CONCEITOS
BÁSICOS
TÉCNICAS E 
PRINCIPAIS 
METODOLOGIAS DE 
CIÊNCIA DE DADOS
TÓPICOS EM 
VISÃO 
COMPUTACIONAL, 
PROCESSAMENTO 
DE LINGUAGEM 
NATURAL E 
ROBÓTICA
1
2
3
4
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 1)
• Importância do uso de dados
• O que é Data Science?
• Objetivos no Uso de Ciência De Dados
• Responsabilidades de um Cientista de Dados
• Aplicação de Data Science em Negócios
• O uso de Dados em Data Science
• Processo de Análise dos Dados
• Livros indicados para impulsionar seu 
aprendizado
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Básico
Público: Todos
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 2)
• Por que Python?
• Configuração do Python
• Conceitos Iniciais do Python (funções 
básicas)
• Introdução às bibliotecas Numpy e Pandas
• Uso de álgebra linear em Data Science
• Entender a importância de estatística em 
Data Science
• Conhecimentos básicos de estatística 
• Importância da Análise Exploratória de 
Dados (EDA)
https://www.seshatanalytics.com.br/
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
Nível: Básico
Público: Todos
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 1)
• Business Intelligence: Data Science para 
explicar o passado
• Objetivo, principais técnicas e ferramentas
• Machine Learning: Data Science para 
predizer o futuro
• Principais técnicas e algoritmos
• Diferença entre problemas de classificação e 
regressão
• Diferença entre os 4 tipos de Aprendizado de 
Máquina
• Aprendizado Supervisionado
• Aprendizado Não supervisionado
• Aprendizado Semi-Supervisionado
• Aprendizado por Reforço
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Básico
Público: Todos
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 2)
• Pipeline de Machine Learning (Nível Básico)
• Principais algoritmos (objetivo, principais 
parâmetros e funcionamento geral de um 
algoritmo)
• Aprendizado Supervisionado
• Regressão
• Regressão Linear (LASSO e RIDGE)
• KNN (K Nearest Neighbors)
• SVM (Support Vector Machines)
• Floresta Aleatória
• Gradient Boosting
• Classificação
• Regressão Logística
• Árvore de Decisão
• KNN (K Nearest Neighbors)
• Floresta Aleatória
• SVM (Support Vector Machines)
• Naive Bayes
• Gradient Boosting
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Intermediário
Público: Todos
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 3)
• Aprendizado Não Supervisionado
• Análise de Agrupamentos (Clustering)
• K Means
• DBSCAN
• Spectral Clustering
• Detecção de Anomalias
• Floresta de isolamento (forest isolation)
• SVM de uma classe
• Análise de Agrupamento
• Redução de dimensionalidade
• Análise de Componentes Principais (PCA)
• Análise de Fatores
• Análise Discriminante Linear (LDA)
• Séries Temporais
• Média Móvel
• ARMA
• ARIMA
• GARCH
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Intermediário
Público: Todos
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 4)
• Aprendizado por Reforço
• Métodos de Montecarlo
• Métodos de diferenças temporais
• Q-Learning
• Sistemas de Recomendação
• Filtro Colaborativo
• Filtro baseado em conteúdo
• Sistemas híbridos
• Técnicas de Validação e Ajuste de 
Hiperparâmetros
• Estratégias de Validação
• Ajuste de hiperparametros
• Engenharia de atributos
• Ensemble Learning (Stacking e Blending)
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Avançado
Público: Todos*
*Desde que possuam conhecimento prévio de 
Python e Algoritmos de Machine Learning.
*
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos 
• Redes Neurais
• O que são redes neurais artificiais?
• Principais conceitos (perceptron, funções de 
ativação, backpropagation (retropropagação) e 
gradient descent (descida do gradiente) 
• Principais bibliotecas no Python para RNA
• Redes neurais multicamadas
• Aprendizado Profundo
• Redes Neurais Recorrentes (Sequencia a 
sequencia, LSTM (long short-term memory), GRU 
(Gated Recurrent Unit), Redes Recorrentes Bi-
Direcionais, Redes Hopfield, Tempo Contínuo)
• Rede Neural Convolucional (Convolutional Neural 
Network)
• Rede Adversarial Generativa (Generative
Adversarial Network)
• Redes de crenças profundas (Deep Belief
Networks)
• Deep Boltzmann Machine
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Avançado
Público: Todos*
*Desde que possuam conhecimento prévio de 
Python e Algoritmos de Machine Learning.
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 1)
• Visão Computacional
• Identificação de objetos
• AlexNet
• DenseNet
• GoogleNet
• InceptionNet
• LeNet
• ResNet
• VGGNet
• Detecção de objetos 
• R-CNN
• FAST R-CNN
• FASTER R-CNN
• R-CFN
• SSD
• YOLO
• Detecção de emoções
• Reconhecimento de objetos
• Análise de movimento
• Reconstrução de cena
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Avançado
Público: Todos*
*Desde que possuam conhecimento prévio de 
Python e Algoritmos de Machine Learning.
https://www.seshatanalytics.com.br/
ConhecimentosRequeridos (PARTE 2)
• Visão Computacional
• Segmentação de Objetos
• DeepLab
• RefineNet
• SegNet
• PSPNet
• U-Net
• Conditional Random Field
• Fully Convolutional Networks
• Segmentação de instancias 
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Avançado
Público: Todos*
*Desde que possuam conhecimento prévio de 
Python e Algoritmos de Machine Learning.
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 3)
• Processamento de linguagem natural
• Reconhecimento óptico de caracteres (OCR)
• Tradução de máquina
• Análise sintática (Parsing)
• Reconhecimento de entidade nomeada (NER –
Named entity recognition)
• Reconhecimento de fala (Speech Recognition)
• Geração de língua natural
• Compreensão da língua natural
• Maquina de tradução
• Sumarização automática
• Resolução de correferência
• Segmentação morfológica
• Marcação de classe gramatical (tagging)
• Respostas a perguntas
• Análise de subjetividade (sentiment analysis ou 
opinion mining)
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Avançado
Público: Todos*
*Desde que possuam conhecimento prévio de 
Python e Algoritmos de Machine Learning.
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 4)
• Robótica
• Aprendizado auto-supervisionado
• Inteligência Visual
• Tomada de Decisão
• Dinâmica e Controle
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Avançado
Público: Todos*
*Desde que possuam conhecimento prévio de 
Python e Algoritmos de Machine Learning.
https://www.seshatanalytics.com.br/
Conhecimentos 
Requeridos (PARTE 1)
• Importância do uso de dados
• O que é Data Science?
• Objetivos no Uso de Ciência De Dados
• Responsabilidades de um Cientista de Dados
• Aplicação de Data Science em Negócios
• O uso de Dados em Data Science
• Processo de Análise dos Dados
• Livros indicados para impulsionar seu 
aprendizado
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
https://www.seshatanalytics.com.br/
Nível: Básico
Público: Todos
https://www.seshatanalytics.com.br/
IMPORTÂNCIA DO 
USO DE DADOS
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Os temas de Data Science e Aprendizado de 
Máquina (Machine Learning) se tornaram partes 
extremamente importantes do nosso cotidiano, 
tendo em vista sua extensa aplicação nos diversos 
produtos que consumimos (livros, filmes, esportes, 
sistemas de localização, entre outros), sendo 
considerados um dos campos mais relevantes e 
interessantes atualmente, com alta demanda no 
mercado de trabalho.
IMPORTÂNCIA DO USO DE DADOS
BÔNUS
https://www.seshatanalytics.com.br/
IMPORTÂNCIA DO USO DE DADOS
Não importa em que tipo de empresa você trabalha, 
certamente os dados afetam sua vida e seu trabalho, 
mesmo que você não perceba. 
Cada vez mais temos notícias sobre crimes 
cibernéticos, roubo de informações, sistemas de 
recomendações baseados em nossos cliques nos sites 
visitados. 
Mas o que faz nossa época tão propensa ao uso de 
dados? 
Simples, nós estamos na era da informação.
https://www.seshatanalytics.com.br/
Conceitos Básicos1
BÔNUS
https://www.seshatanalytics.com.br/
A quantidade de dados que produzimos todos os 
dias é espantosa:
• Existem 2,5 quintilhões de bytes de dados criados a 
cada dia em nosso ritmo atual. 
• 90% dos dados do mundo foram gerados nos últimos 
2 anos. 
• Até 2020, estima-se que 1,7MB de dados serão criados a 
cada segundo para cada pessoa na Terra.
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Fonte: Data Never Sleeps 6.0 - https://www.domo.com/learn/data-never-sleeps-6
IMPORTÂNCIA DO USO DE DADOS
BÔNUS
https://www.seshatanalytics.com.br/
E tais dados vêm de todos os lugares: 
informações de cliques em sites, 
publicações em mídias sociais, uso de 
sensores para coletar informações de 
compradores, transação de compra, sinais 
de GPS etc.
Alguns outros exemplos:
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Fonte: Data Never Sleeps 6.0 - https://www.domo.com/learn/data-never-sleeps-6
IMPORTÂNCIA DO USO DE DADOS
BÔNUS
https://www.seshatanalytics.com.br/
O QUE É DATA 
SCIENCE?
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
O QUE É DATA SCIENCE?
https://www.seshatanalytics.com.br/
Conceitos Básicos1
BÔNUS
https://www.seshatanalytics.com.br/
O QUE É DATA SCIENCE?
O termo Data Science ou Ciência de Dados possui as seguintes 
definições:
• Campo multidisciplinar que engloba conceitos de estatística, matemática, 
ciência da computação, aprendizado de máquina e conhecimento 
especializado para entender e extrair conhecimento ou insights de grandes 
volumes de dados.
• Método para descobrir padrões ocultos em dados brutos, sejam eles 
estruturados ou não.
• Processo no qual dados brutos são ordenados e organizados, para serem 
usados em métodos que ajudam a explicar o passado e prever o futuro.
Para isso, utiliza vários algoritmos, métodos matemáticos, estatísticos 
e princípios de aprendizado de máquina. 
Trata-se, desta forma, de um conceito com uma vasta abrangência 
em termos de definição completa, o que às vezes dificulta um pouco o 
seu uso. 
https://www.seshatanalytics.com.br/
Conceitos Básicos1
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
O QUE É DATA SCIENCE?
BÔNUS
No passado, a ciência de dados 
referia-se ao processo de coleta, 
tratamento e aplicação de métodos 
estatísticos tradicionais para 
extração de respostas. 
Entretanto, nos últimos anos, o campo 
cresceu com a incorporação de outros 
conceitos, tais como: análise 
preditiva, mineração de dados, 
business intelligence, machine
learning, deep learning, entre outros. 
https://www.seshatanalytics.com.br/
Inteligência Artificial: 
• Ramo da ciência da computação que lida com a 
simulação do comportamento inteligente em 
computadores.
• Capacidade de uma máquina para imitar o 
comportamento humano inteligente.
Ciência da Computação: 
• Responsável por criar as ferramentas para o 
processo de análise de dados. 
• O elevado volume de dados gerou a necessidade 
por habilidades de programação, administração de 
rede e de bancos de dados, assim como 
dispositivos de alto poder de processamento. 
Visão geral 
de alguns 
conceitos 
importantes
https://www.seshatanalytics.com.br/
Conceitos Básicos1
O QUE É DATA SCIENCE?
BÔNUS
https://www.seshatanalytics.com.br/
Aprendizado Profundo (Deep Learning): 
• Tipo de machine learning que treina computadores 
para realizar tarefas como seres humanos, o que 
inclui reconhecimento de fala, identificação de 
imagem, sons e previsões. 
Aprendizado de Máquina (Machine Learning): 
• Algoritmos que usam métodos computacionais para 
“aprender” informações diretamente dos dados sem 
depender de uma equação predeterminada como modelo. 
• E para isso, os algoritmos melhoram continuamente seu 
desempenho à medida que o número de amostras 
disponíveis aumenta.
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Visão geral 
de alguns 
conceitos 
importantes
O QUE É DATA SCIENCE?
BÔNUS
https://www.seshatanalytics.com.br/
Matemática: 
• Ciência de Dados utiliza uma variedade de técnicas 
matemáticas nos algoritmos, incluindo 
probabilidade, álgebra linear (vetores e matrizes), 
métodos numéricos e cálculo. 
Estatística: 
• Desenvolvimento e aplicaçãode métodos para 
coletar, analisar e interpretar dados. 
• Em ciência de dados utilizamos diversas técnicas 
estatísticas, tais como: previsão, regressão, 
agrupamentos, séries temporais, métodos 
bayesianos etc.
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Visão geral 
de alguns 
conceitos 
importantes
O QUE É DATA SCIENCE?
BÔNUS
https://www.seshatanalytics.com.br/
Mineração de dados: 
• Processo computacional de transformar dados em 
informações úteis (dados mais valiosos a partir de 
dados brutos ou complexos).
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Visão geral 
de alguns 
conceitos 
importantes
Conhecimento Especializado: 
• O processo de ciência de dados requer uma boa compreensão do 
domínio do conhecimento do especialista para elaborar as perguntas 
e hipóteses corretamente.
• Abordagem híbrida, que combina conhecimento especializado com a 
sofisticação dos modelos desenvolvidos, produz melhores 
resultados.
• Conhecimentos envolvidos: finanças, economia, agricultura, 
educação, saúde, negócios, seguros, mídias sociais, governo etc.
O QUE É DATA SCIENCE?
BÔNUS
https://www.seshatanalytics.com.br/
OBJETIVOS NO 
USO DE CIÊNCIA 
DE DADOS
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
OBJETIVOS NO USO DE CIÊNCIA DE DADOS
Estágios de maturidade em Ciência de Dados
Descritivo Diagnóstico Preditivo SemânticoPrescritivo
POR QUE ESTÁ 
ACONTECENDO?
• Identificação de fatores e 
causas.
• Estatística Multivariada
• Análise de agrupamentos, 
fatores, análise de 
componentes principais
O QUE PROVAVELMENTE 
OCORRERÁ?
• Previsões (forecasting), 
tendências e probabilidades
• Padrões históricos utilizados 
para predizer resultados 
com uso de algoritmos.
• Análise de séries temporais, 
árvores de decisão, redes 
neurais, SVM.
QUE AÇÕES DEVEM SER 
TOMADAS?
• Simulação e modelos de 
otimização.
• Planos de 
ação/recomendação e 
estratégias de negócio.
• Aplicação de técnicas 
analíticas avançadas para 
realizar recomendações 
específicas. 
• Análise de sensibilidade e 
cenários, simulação de 
Montecarlo.
ENTENDIMENTO DO 
CONTEXTO SOCIAL E 
SIGNIFICADO
• Big data, mineração de 
texto, análise geoespacial, 
análise de sentimentos, 
análise de imagens.1° Nível
2° Nível
3° Nível
4° Nível
O QUE ESTÁ 
ACONTECENDO?
• Análise Histórica.
• Modelos de visualização eficientes.
• Data Quality.
• Business Intelligence.
• Estatística Descritiva, correlação.
5° Nível
Aspiracional Nível de Maturidade Avançado
Transacional Valor de Negócio Estratégico
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
OBJETIVOS NO USO DE CIÊNCIA DE DADOS
• Business Intelligence
DATA SCIENCE 
PARA EXPLICAR O 
PASSADO
• Métodos Estatísticos Tradicionais
• Algoritmos de Aprendizado de Máquina
DATA SCIENCE 
PARA PREVER 
O FUTURO
Há dois modos de utilizar os dados em Ciência de Dados: com o objetivo de explicar um 
comportamento que já ocorreu ou usar os dados para prever um comportamento futuro.
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
• Business Intelligence (BI)
Há dois modos de utilizar os dados em Ciência de Dados: com o objetivo de explicar um 
comportamento que já ocorreu ou usar os dados para prever um comportamento futuro.
• BI trabalha com dados estruturados.
• BI se concentra no passado e no presente.
• Executa análise exploratória de dados.
• Descobre novos padrões usando 
ferramentas estatísticas e visualização por 
meio de painéis (dashboards).
• Elabora KPIs e KRIs.
• Ferramentas utilizadas: Pentaho, Qlikview, 
Qliksense, Microstrategy, SAS Business 
Intelligence, Dundas, TIBCO Spotfire, 
Microsoft Power BI, Tableau, Oracle BI.
DATA SCIENCE 
PARA EXPLICAR O 
PASSADO
OBJETIVOS NO USO DE CIÊNCIA DE DADOS
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
• Métodos Estatísticos Tradicionais
• Algoritmos de Aprendizado de Máquina
Há dois modos de utilizar os dados em Ciência de Dados: com o objetivo de explicar um 
comportamento que já ocorreu ou usar os dados para prever um comportamento futuro.
• Utiliza métodos científicos e algoritmos 
para extrair conhecimento e insights de 
dados estruturados e não estruturados.
• Identifica tendências em dados e realiza 
previsões.
• Executa análise exploratória de dados.
• Abordagem com estatística e aprendizado 
de máquina.
• Ferramentas utilizadas: R, Python, Octave, 
Matlab, Julia, Spark ML, Weka, Scala, 
Google ML, Amazon ML, Azure ML.
DATA SCIENCE 
PARA PREVER 
O FUTURO
OBJETIVOS NO USO DE CIÊNCIA DE DADOS
BÔNUS
https://www.seshatanalytics.com.br/
RESPONSABILIDADES 
DE UM CIENTISTA DE 
DADOS
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
RESPONSABILIDADES DE UM CIENTISTA DE DADOS
Efetuar Análise
Exploratória dos 
Dados
Identificar
padrões e 
tendências nos
dados e realizar
previsões
Processar, 
transformar e 
verificar integridade
dos dados
Gerar insights e 
resultados com base 
em técnicas avançadas
(Machine Learning, por 
exemplo)
BÔNUS
https://www.seshatanalytics.com.br/
APLICAÇÃO DE 
DATA SCIENCE 
EM NEGÓCIOS
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
APLICAÇÃO DE DATA SCIENCE EM NEGÓCIOS
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Nos últimos anos, várias empresas vêm 
utilizando técnicas de Data Science e Machine 
Learning para detectar perfis de compras, 
aumentar receita, veicular anúncios relevantes, 
entre outros. 
Tal uso foi impulsionado principalmente pelo 
sucesso obtido por empresas como Google, 
Facebook, Airbnb, que modelaram sua estratégia 
comercial com base em dados.
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
APLICAÇÃO DE DATA SCIENCE EM NEGÓCIOS
VAREJO
Sistemas de recomendação, análise de cestas
de compras, análise de sentimentos de
clientes, localização de novas lojas, avaliação
de perfis de clientes.
FINANÇAS
Precificação, automação (chatbots), detecção
de fraudes, avaliação de crédito, sistemas de
recomendação de serviços, algoritmos de
trading, gestão automatizada de riscos.
SAÚDE
Análise de imagens médicas, detecção de
pacientes de alto custo, mapeamento de
sequências genéticas, automação de tarefas
administrativas, otimização do processo de
criação de remédios, medicina preditiva.
SEGUROS
Detecção de fraudes, otimização de preços,
marketing personalizado, segmentação de
clientes, predição do lifetime value (ciclo de
vida do cliente), sistemas de recomendação,
avaliação de riscos, previsão de sinistros.
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
APLICAÇÃO DE DATA SCIENCE EM NEGÓCIOS
PETRÓLEO E GÁS
Manutenção preditiva de equipamentos ou
peças, automação de processos, previsão de
resultados operacionais.
JURÍDICO
Automação de tarefas administrativas, criação
de acordos de confidencialidade ou NDA’s,
robôs para encontrar advogados por
especialidade, assistente de Pesquisa, uso de
processamento de linguagem natural para
fornecer conselhos e gerar documentos.
MANUFATURA
Previsão de falhas e manutenção preventiva,
previsão de demanda e gerenciamento de
estoque, otimização de preço, robotização,
desenvolvimento de produtos, gestão de riscos
na cadeia de suprimentos.
TRANSPORTES
Veículos autônomos, manutenção preditiva,
monitoramento de padrão de tráfego,
promoçãoem passagens.
BÔNUS
https://www.seshatanalytics.com.br/
O USO DE DADOS 
EM DATA 
SCIENCE
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
O USO DE DADOS EM DATA SCIENCE
Ciência de Dados não se trata de números e sim de fazer 
perguntas, elaborar explicações e testar hipóteses. 
Algumas questões são levantadas quando usamos dados:
• O que podemos aprender com esses dados?
• Dado um problema, que tipo de dados precisamos para ajudar 
a resolvê-lo?
• Com base em alguns dados, que problemas interessantes 
podem ser resolvidos?
• Que ações tomar quando encontramos informações úteis com 
dados?
• Qual melhor caminho para aprender os principais conceitos 
relacionados ao assunto?
https://www.seshatanalytics.com.br/
Conceitos Básicos1
BÔNUS
https://www.seshatanalytics.com.br/
Dados
Os dados são a base da ciência de dados, sendo a 
matéria sobre a qual todos os tratamentos e análises são 
realizados. 
Desta forma, quando falamos de dados, nosso primeiro 
tipo de avaliação deve ser: que tipo de dados estamos 
tratando?
A resposta a essa pergunta será essencial para nos 
direcionar sobre que tipo de metodologias e 
algoritmos podem ser aplicados para cada tipo de dado 
e de problema a ser resolvido.
https://www.seshatanalytics.com.br/
Conceitos Básicos1
O USO DE DADOS EM DATA SCIENCE
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Dados Estruturados Dados Não Estruturados
Dados Numéricos Dados Categóricos
Dados Tradicionais Big Data
O USO DE DADOS EM DATA SCIENCE
Quando realizamos qualquer tipo de análise precisamos saber a natureza dos dados:
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Dados Estruturados Dados Não Estruturados
• Não possuem estrutura predefinida, sendo sua 
origem e formato em qualquer tamanho ou forma, 
não havendo um padrão para armazenamento. 
• Maior parte dos dados produzidos atualmente.
• Maior complexidade no tratamento e análise das 
informações.
• Exemplo: bloco de notas, e-mails, posts em redes 
sociais, imagens, áudios, vídeos.
• São os dados armazenados dentro de uma 
estruturada predefinida e organizada, sendo 
organizado geralmente por linhas e colunas. 
• Usado pela maioria das empresas, embora não seja 
a maior parte do conteúdo produzido (aprox. 10% 
dos dados produzidos atualmente). 
• Maior facilidade na aplicação de metodologias e 
algoritmos.
• Exemplo: Planilhas eletrônicas (Excel), Bancos de 
dados, Arquivos XML, Arquivos CSV 
O USO DE DADOS EM DATA SCIENCE
Quando realizamos qualquer tipo de análise precisamos saber a natureza dos dados:
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Dados Numéricos Dados Categóricos
• Dados que podem ser divididos em grupos ou 
categorias, podendo ser nominais ou ordinais. 
• Variável nominal não possui ordem referente à 
categoria: 1) Tipo de moradia: casa, apartamento; 2) 
Região: “Norte”, “Nordeste”, “Centro Oeste”, 
“Sudeste”, “Sul”; 3) Sexo: Masculino, Feminino. 
• Variável ordinal tem uma ordem estabelecida: 1) 
Classe social: “alta”, “média” ou “baixa”); 2) 
Qualidade de um produto: “Ótimo”, “Bom”, 
“Razoável”, “Ruim”; 3) faixa de Idade: “0 a 18 anos”, 
“18 a 45 anos”, “45 a 65 anos”, “+ de 65 anos”.
• Valores ou observações que podem ser medidos, 
podendo ser de dois tipos: discretos e contínuos. 
• Dados discretos são valores/ observações que 
podem ser contados e são distintos e separados 
(Quantidade de habitantes, quantidade de filhos, 
quantidade de vendas, quantidade de registros de 
uma tabela). 
• Dados contínuos são valores/ observações que 
possuem qualquer valor em um intervalo (Peso, 
altura, previsão do tempo, renda média, nota média 
de uma turma, preço de uma ação).
Quando realizamos qualquer tipo de análise precisamos saber a natureza dos dados:
O USO DE DADOS EM DATA SCIENCE
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Exemplos:
Dados 
Estruturados
Dados Não 
Estruturados
Dados 
Numéricos
Dados 
Categóricos
Registro de preços de ações X X
E-mails X (D)
Imagens X (D)
Mensagens Redes Sociais X (D)
Registro de aprovação de crédito (Sim/Não) X X (N)
Registro de quantidade de vendas X X (D)
Registro de preço de vendas X X (C)
Tabela com idades e pesos de uma turma X X (C)
Vídeos X (D)
Classe social de um grupo de indivíduos X X (O)
(D) Discreto (C) Contínuo (N) Nominal (O) Ordinal
O USO DE DADOS EM DATA SCIENCE
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Big Data trata-se de um conjunto massivo de dados, maior que os 
dados tradicionais, não cabendo na memória de uma única 
máquina. 
Também são caracterizados como dados que possuem os 3 Vs:
Variedade - Dados em vários formatos: estruturado, não estruturado 
ou semi-estruturado. Exemplo: números, texto, áudio, imagens etc.
Volume – Volume de dados em tera, peta e exabytes (=1 milhão de 
terabytes). Geralmente refere-se a transações online e offline.
Velocidade – Dados gerados em tempo real (transações online e 
offline, streamings, rotinas batch).
Dados Tradicionais Big Data
O USO DE DADOS EM DATA SCIENCE
BÔNUS
https://www.seshatanalytics.com.br/
PROCESSO DE 
ANÁLISE DOS 
DADOS
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
PROCESSO DE ANÁLISE DOS DADOS
Como tratar os dados?
Agora que você já respondeu às questões sobre os tipos de dados, vem 
a segunda pergunta: o que fazer com o conjunto de dados?
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Você sabia?
Você pode pensar que ciência de dados e aprendizado de máquina tratam-se 
principalmente de seleção de modelos e ajuste de algoritmos. 
Entretanto, a maior parte do trabalho está na transformação de dados.
BÔNUS
https://www.seshatanalytics.com.br/
E quais são as etapas para tratar os dados antes de realizar 
qualquer tipo de modelagem?
Como dito anteriormente, a maior parte de seu tempo e 
esforço envolve a limpeza de dados e a engenharia de 
recursos (transformar dados brutos em atributos que melhor 
representem seus dados).
Independentemente de o cientista de dados receber dados 
coletados ou ter que realizar a coleta, os dados estarão em 
formato bruto, que precisarão ser convertidos em um 
formato mais compreensível e útil para processamento 
adicional. 
https://www.seshatanalytics.com.br/
Conceitos Básicos1
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
Principais etapas no 
processamento de dados em 
Data Science
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Coleta de dados
Descrição dos dados
Definição do Problema
Preparação de Dados 
Exploração dos Dados
Visualização dos Dados
6
1
5
3
4
2
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
1 – Definição do Problema
Como já mencionado, Ciência de Dados não se trata de números e sim de fazer 
perguntas, elaborar explicações e testar hipóteses. 
A definição do problema requer perguntas de alto nível para definição de escopo e 
suposições.
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
Com base em idade,
sexo e histórico
bancário, qual a
probabilidade de default
do cliente?
Com base nas
características, o
produto deve ser
vendido para que tipo
de público?
Existe correlação entre 
determinada doença e 
sexo? E idade? 
Que diferenças de perfil
existem entre os clientes
que compram ou não
determinado produto?
Qual o preço da 
ação no próximo 
mês?
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/Conceitos Básicos1
1 – Definição do Problema
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
Nesta etapa é extremamente importante:
• Transformar qualquer ambiguidade em um problema 
concreto e bem definido.
• Estabelecer papéis, responsabilidades e dados 
necessários. 
• Identificar pontos que vão influenciar no trabalho a ser 
realizado: Prioridades, prazos e estratégia de negócio.
• Ter conhecimento profundo de negócio.
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
2 – Coleta de Dados (Data Collection)
É onde tudo começa! Trata-se da etapa que vem logo após 
a definição do problema a ser resolvido. 
Assim, os dados podem ser obtidos de bases de dados 
oriundas de dados corporativos, de fontes de dados 
públicas, dados acadêmicos, empresas de fontes de 
dados, por meio de Web Scraping/ Crawling. 
Os dados apresentam-se em diferentes formatos, formas 
e tamanhos.
Entre os formatos com maior frequência, temos CSV, XML, 
JSON e SQL.
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
2 – Coleta de Dados (Data Collection)
Para quem está iniciando em Data Science e Machine Learning é recomendável:
• Buscar conjuntos de dados simples para não investir muito tempo limpando 
dados (Não esquecer que essa é a etapa mais trabalhosa! Então, quanto mais 
limpa a base, melhor).
• Um bom conjunto de dados para testar seu aprendizado não deve ter muitas 
linhas ou colunas, para facilitar o trabalho e a absorção do conhecimento.
• Não esquecer a primeira etapa: Deve haver uma questão interessante, que 
será respondida com dados.
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
Super dica! 
https://github.com/awesome
data/awesome-public-
datasets
(Link com várias fontes de 
dados públicas separadas 
em mais de 30 assuntos, 
entre eles: Agricultura, 
Biologia, Clima, Economia, 
Finanças, Energia, 
Governo, Saúde, Esportes).
https://www.seshatanalytics.com.br/
Conceitos Básicos1
2 – Coleta de Dados (Data Collection)
Algumas fontes de dados públicas para quem está iniciando em Data Science:
www.kaggle.com
https://archive.ics.uci.ed
u/ml/index.php
https://www.visualdata.io/
https://www.data.gov/ http://datasus.saude.gov.br/
http://dados.gov.br/
https://toolbox.google.co
m/datasetsearch
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://github.com/awesomedata/awesome-public-datasets
https://www.seshatanalytics.com.br/
http://www.kaggle.com/
http://www.kaggle.com/
https://archive.ics.uci.edu/ml/index.php
https://www.visualdata.io/
https://www.data.gov/
http://datasus.saude.gov.br/
http://dados.gov.br/
https://toolbox.google.com/datasetsearch
https://www.seshatanalytics.com.br/
Conceitos Básicos1
2 – Coleta de Dados (Data Collection)
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
Nesta etapa é extremamente importante:
• Identificar todas as fontes de dados, internas e/ou 
externas, para a modelagem.
• Mapear dados disponíveis e sua utilidade.
• Extrair dados usando os formatos mais utilizados e 
aceitos pelas ferramentas disponíveis (csv, json, xml
etc.)
• Atentar para o tratamento adicional requerido para 
dados não estruturados.
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
3 – Descrição dos Dados
Nesta etapa, precisamos entender com que tipo de dados/atributos estamos 
lidando e a propriedade dos dados coletados para resolver nosso problema.
• Dados numéricos: Tipo mais simples, utilizado e compreendido pela 
maioria dos algoritmos. Para lidar com dados numéricos, usamos 
técnicas como normalização, quantização, categorização, entre 
outros.
• Dados de texto: São dados não estruturados, um dos tipos mais 
comuns. Requerem cuidados e tratamentos adicionais para 
transformação, entendimento e utilização. 
• Dados categóricos: Referem-se a categorias observadas (cor de 
cabelo, classe social, faixa etária etc.). Podem ser representados em 
números ou por texto. 
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
3 – Descrição dos Dados
Exemplo de Reporte:
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
3 – Descrição dos Dados
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
Nesta etapa é extremamente importante:
• Entender características e formato de cada variável.
• Identificar variáveis que possivelmente não serão 
necessárias na modelagem (Exemplo*: Nome, CEP, ID 
de usuário).
*Variáveis não necessárias, dependendo do problema a ser resolvido.
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Etapa requerida para preparar 
dados para modelagem e uma 
das mais importantes do 
processo de ciência de dados. 
Consiste no processo de limpeza, 
transformação (normalizar, 
combinar), enriquecimento e 
estruturação de dados brutos para 
utilizá-los nas análises, modelagens, 
reportes, visualização e no resultado 
final. 
Após esta etapa, espera-se que os dados estejam em um formato adequado e confiável para melhor 
tomada de decisão em menos tempo. 
Também chamada de Pré-
Processamento / Data 
Wrangling / Data Munging. 
PROCESSO DE ANÁLISE DOS DADOS
4 - Preparação de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
LIMPEZA DE DADOS
• Esta etapa consiste em excluir / manipular dados 
incorretos ou ausentes (missings), lidar com valores 
discrepantes (outliers) e outros aspectos. 
• Também engloba a padronização de nomes de colunas 
de atributos para torná-los mais legíveis, intuitivos e em 
conformidade com determinados padrões para todos os 
envolvidos.
• A saída desse processo impacta diretamente todas as 
etapas posteriores, como exploração, resumo, 
visualização, análise e até o resultado final.
PROCESSO DE ANÁLISE DOS DADOS
4 - Preparação de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
INCLUSÃO DE DADOS
• Processo para tratar de valores ausentes (missings), que 
incluem:
• Excluir todos os registros contendo dados ausentes
• Preenchimento com valor médio, valor aleatório, 
vizinho mais próximo ou por interpolação.
PROCESSO DE ANÁLISE DOS DADOS
4 - Preparação de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
4 - Preparação de Dados
OUTRAS ETAPAS DE PREPARAÇÃO DE DADOS
• Detecção de outliers (valores discrepantes).
• Verificação de dados duplicados.
• Manipulação de dados categóricos: conversão de variáveis 
categóricas em códigos/indicadores.
• Normalização de dados numéricos: padronização do intervalo de 
valores dos atributos, requerido por alguns algoritmos de 
aprendizado de máquina, que utilizam métricas que podem afetar 
adversamente os cálculos ou influenciar os resultados.
• Balanceamento de dados: quando uma determinada categoria 
possui número desigual de observações frente as demais, é 
requerido um processo de balanceamento para corrigir o problema.
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
4 - Preparação de Dados
Características da base de dados após etapa de preparação:
CONFIÁVEL**
PADRONIZADA ***
COMPLETA
NÃO REDUNDANTE*
COERENTE/RELEVANTE
*Exemplo: Data de Nascimento e Idade, CEP e Nome da Rua
** Ausência de registros duplicados ou mesmo indivíduo com nome escrito 
de formas diferentes.
*** Uso de chaves únicas para relacionamento entre bases.
PRECISA
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
Nesta etapa é extremamente importante:
• Identificar erros de registro ou formato, dados faltantes,dados discrepantes.
• Limpar, substituir e/ou filtrar registros com problemas.
• Entender bem as ferramentas utilizadas (R, Python ou 
outra de sua escolha) e suas bibliotecas para facilitar a 
execução dos passos.
4 - Preparação de Dados
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
PROCESSO DE ANÁLISE DOS DADOS
5 - Exploração de Dados 
Refere-se ao processo de representar de forma compacta os dados (Exemplo: 
quantidade de eventos por mês, total vendido por ano, nota média por turma)
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
Nesta etapa é extremamente importante:
• Segmentar, testar e plotar os dados de diferentes 
formas.
• Avaliar correlação entre variáveis e seus efeitos. 
• Identificar padrões e extrair atributos (variáveis) 
significativos e não significativos.
5 - Exploração de Dados 
https://www.seshatanalytics.com.br/
6 - Visualização de Dados
https://www.seshatanalytics.com.br/
Conceitos Básicos1
Processo de representar visualmente as informações 
em formato de gráficos, dashboards, imagens, 
mapas de forma visualizar diferentes atributos para 
compartilhar resultados, melhorar entendimento e 
descobrir novos insights e padrões ocultos.
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
Conceitos Básicos1
PROCESSO DE ANÁLISE DOS DADOS
BÔNUS
Nesta etapa é extremamente importante:
• Avaliar gráficos e dashboards para verificar relação 
com problema proposto.
• Identificar se dados estão íntegros e consistentes para 
a próxima etapa, caso necessário (Ex: aplicação de 
algoritmos de Machine Learning).
6 - Visualização de Dados
https://www.seshatanalytics.com.br/
LIVROS 
INDICADOS PARA 
IMPULSIONAR SEU 
APRENDIZADO
Passo a Passo para Aprender as Principais 
Técnicas do Zero e se tornar um Cientista 
de Dados
BÔNUS
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/
7 livros super hiper ultra indicados para começar do zero e se tornar um especialista
https://www.seshatanalytics.com.br/
Conceitos Básicos1
LIVROS INDICADOS PARA IMPULSIONAR SEU APRENDIZADO
BÔNUS
Super dica! 
https://bit.ly/2UiRpN3
Veja o artigo que escrevi 
sobre os livros indicados 
aqui.
https://www.seshatanalytics.com.br/
https://bit.ly/2UiRpN3
Muito obrigada pelo seu interesse em 
nosso e-book!!!
Site: https://ww.seshatanalytics.com.br
Siga nossas Redes Sociais: @seshatanalytics
Facebook/ Instagram/ Youtube/ Twitter/ Linkedin
https://www.seshatanalytics.com.br/
https://www.seshatanalytics.com.br/

Continue navegando