Buscar

Aula 16_Machine - BIG DATA

Prévia do material em texto

1Anderson França
Análise de Big Data 
via Machine Learning
2Anderson França
Análise de Big Data 
via Machine Learning
Tema da Aula: Big Data
 
Anderson França
2019
Coordenação:
Profa. Dra. Alessandra 
de Ávila Montini
3
Título
• Conteúdo 2
2
O que é machine learning? Inteligência 
artificial? Data Science?
4
Título
Data science gera insights
Machine learning gera predições
Inteligência Artificial gera ações
David Robinson, 2017 - What's the difference between data science, machine learning, and artificial intelligence?
http://varianceexplained.org/r/ds-ml-ai/
55
“Campo de estudo que fornece aos 
computadores a habilidade de 
aprender sem serem 
explicitamente programados” 
(Arthur Samuel, 1959)
Machine Learning
66
Machine Learning
Aprendizado de Máquina (Machine Learning) é um campo de 
estudo que fornece a capacidade de uma Máquina de 
entender dados e aprender com os dados. O ML não é 
apenas sobre modelagem analítica, mas é uma modelagem 
de ponta a ponta que envolve as seguintes etapas:
Coletar 
dados de 
diversas 
fontes
Explorar, 
limpar e 
transformar 
os dados
Construir e 
selecionar o 
melhor 
algoritmo
Analisar e 
adquirir 
insights dos 
resultados
Transformar 
resultados 
em análises 
gráficas
Fonte: R-Bloggers
https://www.r-bloggers.com/how-to-apply-linear-regression-in-r/
77
Machine Learning
Existem três pilares principais do Machine learning*: 
● Não supervisionado, 
● Supervisionado e 
● Aprendizado por Reforço
88
Regressão
Prever o futuro 
estimando a relação 
entre as variáveis
Prever 
Valores
Estimativa de demanda 
de produto
prever valores de 
vendas
Analisar o retorno do 
marketing
● Linear Regression
● Neural network regression
● Boosted decision tree regression Fonte: Microsoft Azure Machine Learning
http://aka.ms/MLCheatSheet
99
Classificação
Identificar qual a 
categoria as novas 
informações 
pertencem
Prever 
categorias
Criar segmentação de 
clientes
Prever o gosto do 
cliente
Determinar preço de 
mercado
● Logistic regression
● Decision forest
● SVM
● Neural Networks
Fonte: Microsoft Azure Machine Learning
http://aka.ms/MLCheatSheet
1010
Detecção de anomalia
Identificar e prever 
eventos raros ou dados 
incomuns
Encontrar
ocorrências
incomuns 
Prever risco de crédito
Detecção de fraudes
Capturar leitura anormal 
em IoT
● One-class SVM
● PCA
Fonte: Microsoft Azure Machine Learning
http://aka.ms/MLCheatSheet
1111
Clustering
Separar observações 
em grupos intuitivos Descobrir Estruturas
Criar segmentação de 
clientes
Prever o gosto do 
cliente
Determinar preço de 
mercado
● K-means
● Agglomerative Hierarchical Clustering
● Mean-Shift Clustering
Fonte: Microsoft Azure Machine Learning
http://aka.ms/MLCheatSheet
12Anderson França
O QUE É BIG DATA?
13Anderson França
BIG DATA é um banco de dados com 
milhões de registros?
14Anderson França
BIG DATA é um 
software?
15Anderson França
Big Data é o termo que descreve o imenso volume de dados – estruturados e 
não estruturados – que impactam os negócios no dia a dia. Mas o importante 
não é a quantidade de dados. E sim o que as empresas fazem com os dados 
que realmente importam. Big Data pode ser analisado para a obtenção de 
insights que levam a melhores decisões e direções estratégicas de negócio.
SAS
16Anderson França
“Big Data demanda formas 
inovadoras e rentáveis de 
processamento da informação 
para melhor percepção e tomada 
de decisão.” Gartner, 2012
BIG DATA
17Anderson França
n V’s de Big Data
VOLUME
● Terabytes
● Transações 
● Eventos
● Tabelas/Arquivos
VARIEDADE
● Estruturados
● Não-estruturados
● Multi-fator
● Linkados
● Dinamicos
VELOCIDADE
● Batch
● Tempo Real
● Processos
● Stream
VERACIDADE
● Segurança dos dados
● Confiança
● Origem / Reputação
● Disponibilidade
VALOR
● Previsões
● Estatístico
● Gerenciamento
● Hipóteses
VIABILIDADE
● Seleção de Variáveis
● Relevância das variáveis
● Relações das variáveis
VISUALIZAÇÃO
● Informações
● Insights
● Apresentação
18Anderson França
Conteúdo estruturado 
que pode ser acessado 
via query, relatórios, 
buscas, etc.
Conteúdo não estruturado 
em computadores,, 
compartilhamento de 
arquivos, redes sociais, 
textos, etc
Fonte: ArborSys e IBM
80% dos dados 
não são 
estruturados
http://www.arborsys.com/structured-content-management-solutions.html
https://www.ibm.com/blogs/watson/2016/05/biggest-data-challenges-might-not-even-know/
19Anderson França
1. Baixo Custo de Armazenamento
AMBIENTE FAVORÁVEL
20Anderson França
CUSTO DE ARMAZENAGEM
1990
HOJE $ 0,03
$11.200
Fonte: Search Storage: Gigabyte
Custo médio de armazenamento em disco rígido por 
megabyte
http://searchstorage.techtarget.com/definition/gigabyte
21Anderson França
2. Aumento do Poder de Processamento
AMBIENTE FAVORÁVEL
22Anderson França
Um smartphone tem mais 
poder de processamento 
que o computador utilizado 
para levar o homem à lua.
AUMENTO DO PODER DE PROCESSAMENTO
Apollo Mission - 1969 iPhone 4 - 2010
23Anderson França
AUMENTO DO PODER DE PROCESSAMENTO
Apollo Guidance Computer (AGC)
Memória: 64Kbyte 
Frequência: 0,043 MHz
Preço: $ 3.5 Milhões
Memória: 16GB 
Frequência: 1.4 GHZ
Preço: $ 199
Simplificando: 
Hoje o iPhone 6’s é 32.600 vezes mais rápido que o AGC, 
e realiza cálculos 120.000.000 vezes mais rápidos
Fonte: ZMEScience: Your smartphone is millions of times more powerful than all of NASA’s combined computing in 1969
http://www.zmescience.com/research/technology/smartphone-power-compared-to-apollo-432/
24Anderson França
3. Agilidade e precisão para a Tomada de Decisão
AMBIENTE FAVORÁVEL
25Anderson França
INTERNET DAS COISAS
26Anderson França
DESAFIOS DE BIG DATA
Análises
27Anderson França
População mundial
Dispositivos
Dispositivos por 
pessoa
6.3 bilhões
500 milhões
0.8
6.8 bilhões
12.5 bilhões
1.84
7.2 bilhões
25 bilhões
3.47
7.6 bilhões
50 bilhões
6.58
Mais dispositivos 
conectados que 
pessoas
2003 2010 2015 2020
Fonte: The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things, IDC (International Data Corporation), 2014.
AUMENTO DO USO DOS DISPOSITIVOS
28Anderson França
A população global na internet cresceu 
7,5% desde 2016 a agora é representada por 
3.7 bilhões de pessoas.
POPULAÇÃO ONLINE
Fonte: Data Never Sleeps 5.0 
http://cdn.wonderfulengineering.com/wp-content/uploads/2017/08/Data-Generated-Every-Minute.png
29Anderson França
O QUE ACONTECE EM 60 SEGUNDOS?
30Anderson França
500 Milhões de usuários
29 Milhões no Brasil
10 milhões de vagas publicadas
Dados de mais de 9 milhões de empresas
31Anderson França
40% das operações feitas por robôs
10 ms é o tempo de cada transação
32Anderson França
33Anderson França
1.6 bilhões de swipes por dia
26 milhões de matches por dia
1.5 milhão de encontros por semana
Tinder Press & Brand Assets
https://www.gotinder.com/press
https://www.gotinder.com/press
34Anderson França
1,5 bilhão de usuários ativos no mundo
60 bilhões de mensagens por dia
 
35Anderson França
Cultura de dados
36Anderson França
In God we trust. All 
others must bring 
data.
Without data you’re 
just another person 
with an opinion.
Em Deus nós 
confiamos. Todos os 
outros devem trazer 
dados.
Sem dados, você é 
apenas outra pessoa 
com uma opinião.
William Edwards Deming
37Anderson França
O que é Data Driven?
38Anderson França
Data Driven envolve a construção 
de ferramentas, habilidades e, o 
mais importante, uma cultura que 
age sobre os dados.
Carl Anderson
Fonte: Creating a Data-Driven Organization by Carl Anderson
https://www.amazon.com.br/Creating-Data-Driven-Organization-Carl-Anderson/dp/1491916915
39Anderson França
Coleta de dados
Para se tornar data driven, 
precisamos coletar dados. E não 
somente dados, o dado certo 
para cada propósito.
40Anderson França
Mas não é somente sobre dados, e sim 
decisões
● Quantificar o comportamento das pessoas
● Entender o que elesquerem e quando querem
● Tomar decisões 
41Anderson França
A sua empresa já possui 
ferramentas para tomar boas 
decisões?
42Anderson França
A sua empresa já toma 
boas decisões?
Aprender Analisar Testar Otimizar
43Anderson França
Case 1: A praia
44Anderson França
Criando uma cultura 
Data Driven
45Anderson França
Comece com uma estratégia
46Anderson França
Porque projetos de Big Data fracassam?
Fonte: Where Big Data Projects Fail - Forbes, 2015
Qubole
https://www.forbes.com/sites/bernardmarr/2015/03/17/where-big-data-projects-fail/#239f62de239f
https://www.slideshare.net/Qubole/5-crucial-considerations-for-big-data-adoption
47Anderson França
Aprimore a área 
de negócio
48Anderson França
Identificar as questões ainda 
não respondidas pelo negócio
49Anderson França
Encontre dados que 
respondam suas dúvidas
50Anderson França
Identifique os dados 
que você já possui
51Anderson França
Exercite-se se os custos e 
esforços forem justificados
52Anderson França
Valor - uma estimativa do impacto na linha de fundo ou em 
outros indicadores-chave de desempenho que serão 
alcançados.
Custo - todos os requisitos de recursos previstos. Isso capacita os 
tomadores de decisão a equilibrar o investimento de recursos 
com o valor potencial.
Risco - por exemplo, o risco de que o modelo previsto não 
funcione tão bem quanto o esperado. Inclua informações sobre 
como você pode atenuar os riscos identificados, como implantar 
os modelos preditivos de forma controlada (por exemplo, usá-los 
apenas para 10% das decisões no início).
Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die. Eric Siegel
53Anderson França
Colete dados
54Anderson França
Analise os dados
55Anderson França
Analise os dados
Em uma cultura data driven, todas as decisões são tomadas baseadas nos dados 
dos clientes. Podemos trabalhar da seguinte forma:
56Anderson França
Apresente e distribua insights
57Anderson França
CULPADO
João
58Anderson França
A visualização de dados (VD) é uma expressão 
contemporânea da comunicação visual que consiste na 
representação visual de dados. Na VD, há exibição gráfica de 
informações abstratas com os propósitos de atribuição de 
sentido comunicação[3].
Fonte: Wikipedia
Visualização dos dados
https://pt.wikipedia.org/wiki/Comunica%C3%A7%C3%A3o_visual
https://pt.wikipedia.org/wiki/Vis%C3%A3o
https://pt.wikipedia.org/wiki/Dados
https://pt.wikipedia.org/wiki/Informa%C3%A7%C3%A3o
https://pt.wikipedia.org/w/index.php?title=Atribui%C3%A7%C3%A3o_de_sentido&action=edit&redlink=1
https://pt.wikipedia.org/w/index.php?title=Atribui%C3%A7%C3%A3o_de_sentido&action=edit&redlink=1
https://pt.wikipedia.org/wiki/Comunica%C3%A7%C3%A3o
https://pt.wikipedia.org/wiki/Visualiza%C3%A7%C3%A3o_de_dados#cite_note-3
https://pt.wikipedia.org/wiki/Visualiza%C3%A7%C3%A3o_de_dados
59Anderson França
A visualização de dados é a representação dos dados em um 
formato pictórico ou gráfico com objetivo de simplificar o 
valor dos dados, promover a compreensão sobre eles, e 
comunicar conceitos e ideias importantes.
Fonte: SAS
Visualização de dados
Tableaux graphiques et cartes 
figuratives, 1869
https://www.sas.com/pt_br/insights/articles/analytics/why-your-brain-needs-data-visualization.html
https://patrimoine.enpc.fr/document/ENPC01_Fol_10975?image=54#bibnum
https://patrimoine.enpc.fr/document/ENPC01_Fol_10975?image=54#bibnum
60Anderson França
Os dados: As Estatísticas:
Por quê visualização de dados?
61Anderson França
Por quê visualização de dados?
Metas de visualização:
● Responder Questões
● Tomar decisões
● Visualizar dados em Contexto
● Encontrar padrões
● Apresentar argumentos
● Contar Histórias
● Inspirar
62Anderson França
Utilizamos visualização de dados para...
Comunicar / Apresentar Descobrir / Explorar
63Anderson França
Selecionando o tipo certo de gráfico
Existem quatro tipos simples de apresentação, 
apresentado pelo Dr. Andrew Abela (2009) :
● Comparação
● Composição
● Distribuição
● Relacionamento
64Anderson França
Selecionando o tipo certo de gráfico
Para determinar qual dentre eles é mais adequado para nossos dados, 
temos que responder a algumas perguntas como:
● Quantas variáveis desejamos mostrar em um único gráfico?
● Quantos pontos de dados vamos exibir para cada variável?
● Vamos mostrar valores durante um período de tempo ou entre 
itens ou grupos?
65Anderson França
Fonte: Chart Suggestions—A Th ought-Starter
http://extremepresentation.typepad.com/files/choosing-a-good-chart-09.pdf
66Anderson França
Tipos de Gráficos
Na maioria das vezes, vamos utilizar basicamente 7 tipos de gráficos.
● Gráfico de Dispersão
● Histograma
● Barras e Gráficos de Barras
● Box Plot
● Gráfico de áreas
● Mapa de Calor (Heat Map)
● Gráfico de Correlação
67Anderson França
FERRAMENTAS DE BIG DATA
68Anderson França
FERRAMENTAS DE BIG DATA
69Anderson França
Aplicação
70Anderson França
Assistente Pessoal
https://www.youtube.com/watch?v=yDI5oVn0RgM
71Anderson França
Mobilidade
72Anderson França
Carros Autônomos
73Anderson França
https://www.bloomberg.com/news/articles/2016-06-09/big-data-technology-is-boosting-farmers-productivity
AGRICULTURA
Um mapa SpecTerra mostra as mais altas (azuis) e mais baixas (vermelho) 
previsões de rendimento para o milho.
74Anderson França
Fonte: Assisting Pathologists in Detecting Cancer with Deep Learning. Google Research Blog. Mar/2017
DETECÇÃO DE METÁSTASES DE CÂNCER
O tecido contém uma metástase de câncer de 
mama, bem como macrófagos, que se parece 
com tumor, mas é um tecido normal benigno. 
O algoritmo identifica com sucesso a região 
tumoral (verde claro) e não é confundido pelos 
macrófagos.
Os mapas de calor de previsão produzidos pelo 
algoritmo melhoraram tanto que o Score de 
localização (FROC) para o algoritmo atingiu 
89%, o que excedeu significativamente o Score 
de 73% para um patologista sem restrição de 
tempo.
https://research.googleblog.com/2017/03/assisting-pathologists-in-detecting.html
http://spie.org/Publications/Proceedings/Paper/10.1117/12.955926
Case: Cafeteria
Case: Streaming de Música
Case: Streaming de Vídeo
Case: Alojamento local
Case: Varejo Online
80Anderson França
CONSIDERAÇÕES 
FINAIS
A maior parte das empresas não 
sabem o que fazer com todos os 
dados que elas já possuem
Seja Grande
Começando
pequeno
Foco no 
Impacto nos Negócios
Big Data não é tão 
Big, se soubermos 
como usá-lo
8585
Obrigado!
Anderson França
Email: contato@andersonfranca.me
LinkedIn: /andersonfrancal/
mailto:contato@andersonfranca.me
https://www.linkedin.com/in/andersonfranca1/

Continue navegando