Baixe o app para aproveitar ainda mais
Prévia do material em texto
1Anderson França Análise de Big Data via Machine Learning 2Anderson França Análise de Big Data via Machine Learning Tema da Aula: Big Data Anderson França 2019 Coordenação: Profa. Dra. Alessandra de Ávila Montini 3 Título • Conteúdo 2 2 O que é machine learning? Inteligência artificial? Data Science? 4 Título Data science gera insights Machine learning gera predições Inteligência Artificial gera ações David Robinson, 2017 - What's the difference between data science, machine learning, and artificial intelligence? http://varianceexplained.org/r/ds-ml-ai/ 55 “Campo de estudo que fornece aos computadores a habilidade de aprender sem serem explicitamente programados” (Arthur Samuel, 1959) Machine Learning 66 Machine Learning Aprendizado de Máquina (Machine Learning) é um campo de estudo que fornece a capacidade de uma Máquina de entender dados e aprender com os dados. O ML não é apenas sobre modelagem analítica, mas é uma modelagem de ponta a ponta que envolve as seguintes etapas: Coletar dados de diversas fontes Explorar, limpar e transformar os dados Construir e selecionar o melhor algoritmo Analisar e adquirir insights dos resultados Transformar resultados em análises gráficas Fonte: R-Bloggers https://www.r-bloggers.com/how-to-apply-linear-regression-in-r/ 77 Machine Learning Existem três pilares principais do Machine learning*: ● Não supervisionado, ● Supervisionado e ● Aprendizado por Reforço 88 Regressão Prever o futuro estimando a relação entre as variáveis Prever Valores Estimativa de demanda de produto prever valores de vendas Analisar o retorno do marketing ● Linear Regression ● Neural network regression ● Boosted decision tree regression Fonte: Microsoft Azure Machine Learning http://aka.ms/MLCheatSheet 99 Classificação Identificar qual a categoria as novas informações pertencem Prever categorias Criar segmentação de clientes Prever o gosto do cliente Determinar preço de mercado ● Logistic regression ● Decision forest ● SVM ● Neural Networks Fonte: Microsoft Azure Machine Learning http://aka.ms/MLCheatSheet 1010 Detecção de anomalia Identificar e prever eventos raros ou dados incomuns Encontrar ocorrências incomuns Prever risco de crédito Detecção de fraudes Capturar leitura anormal em IoT ● One-class SVM ● PCA Fonte: Microsoft Azure Machine Learning http://aka.ms/MLCheatSheet 1111 Clustering Separar observações em grupos intuitivos Descobrir Estruturas Criar segmentação de clientes Prever o gosto do cliente Determinar preço de mercado ● K-means ● Agglomerative Hierarchical Clustering ● Mean-Shift Clustering Fonte: Microsoft Azure Machine Learning http://aka.ms/MLCheatSheet 12Anderson França O QUE É BIG DATA? 13Anderson França BIG DATA é um banco de dados com milhões de registros? 14Anderson França BIG DATA é um software? 15Anderson França Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia. Mas o importante não é a quantidade de dados. E sim o que as empresas fazem com os dados que realmente importam. Big Data pode ser analisado para a obtenção de insights que levam a melhores decisões e direções estratégicas de negócio. SAS 16Anderson França “Big Data demanda formas inovadoras e rentáveis de processamento da informação para melhor percepção e tomada de decisão.” Gartner, 2012 BIG DATA 17Anderson França n V’s de Big Data VOLUME ● Terabytes ● Transações ● Eventos ● Tabelas/Arquivos VARIEDADE ● Estruturados ● Não-estruturados ● Multi-fator ● Linkados ● Dinamicos VELOCIDADE ● Batch ● Tempo Real ● Processos ● Stream VERACIDADE ● Segurança dos dados ● Confiança ● Origem / Reputação ● Disponibilidade VALOR ● Previsões ● Estatístico ● Gerenciamento ● Hipóteses VIABILIDADE ● Seleção de Variáveis ● Relevância das variáveis ● Relações das variáveis VISUALIZAÇÃO ● Informações ● Insights ● Apresentação 18Anderson França Conteúdo estruturado que pode ser acessado via query, relatórios, buscas, etc. Conteúdo não estruturado em computadores,, compartilhamento de arquivos, redes sociais, textos, etc Fonte: ArborSys e IBM 80% dos dados não são estruturados http://www.arborsys.com/structured-content-management-solutions.html https://www.ibm.com/blogs/watson/2016/05/biggest-data-challenges-might-not-even-know/ 19Anderson França 1. Baixo Custo de Armazenamento AMBIENTE FAVORÁVEL 20Anderson França CUSTO DE ARMAZENAGEM 1990 HOJE $ 0,03 $11.200 Fonte: Search Storage: Gigabyte Custo médio de armazenamento em disco rígido por megabyte http://searchstorage.techtarget.com/definition/gigabyte 21Anderson França 2. Aumento do Poder de Processamento AMBIENTE FAVORÁVEL 22Anderson França Um smartphone tem mais poder de processamento que o computador utilizado para levar o homem à lua. AUMENTO DO PODER DE PROCESSAMENTO Apollo Mission - 1969 iPhone 4 - 2010 23Anderson França AUMENTO DO PODER DE PROCESSAMENTO Apollo Guidance Computer (AGC) Memória: 64Kbyte Frequência: 0,043 MHz Preço: $ 3.5 Milhões Memória: 16GB Frequência: 1.4 GHZ Preço: $ 199 Simplificando: Hoje o iPhone 6’s é 32.600 vezes mais rápido que o AGC, e realiza cálculos 120.000.000 vezes mais rápidos Fonte: ZMEScience: Your smartphone is millions of times more powerful than all of NASA’s combined computing in 1969 http://www.zmescience.com/research/technology/smartphone-power-compared-to-apollo-432/ 24Anderson França 3. Agilidade e precisão para a Tomada de Decisão AMBIENTE FAVORÁVEL 25Anderson França INTERNET DAS COISAS 26Anderson França DESAFIOS DE BIG DATA Análises 27Anderson França População mundial Dispositivos Dispositivos por pessoa 6.3 bilhões 500 milhões 0.8 6.8 bilhões 12.5 bilhões 1.84 7.2 bilhões 25 bilhões 3.47 7.6 bilhões 50 bilhões 6.58 Mais dispositivos conectados que pessoas 2003 2010 2015 2020 Fonte: The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things, IDC (International Data Corporation), 2014. AUMENTO DO USO DOS DISPOSITIVOS 28Anderson França A população global na internet cresceu 7,5% desde 2016 a agora é representada por 3.7 bilhões de pessoas. POPULAÇÃO ONLINE Fonte: Data Never Sleeps 5.0 http://cdn.wonderfulengineering.com/wp-content/uploads/2017/08/Data-Generated-Every-Minute.png 29Anderson França O QUE ACONTECE EM 60 SEGUNDOS? 30Anderson França 500 Milhões de usuários 29 Milhões no Brasil 10 milhões de vagas publicadas Dados de mais de 9 milhões de empresas 31Anderson França 40% das operações feitas por robôs 10 ms é o tempo de cada transação 32Anderson França 33Anderson França 1.6 bilhões de swipes por dia 26 milhões de matches por dia 1.5 milhão de encontros por semana Tinder Press & Brand Assets https://www.gotinder.com/press https://www.gotinder.com/press 34Anderson França 1,5 bilhão de usuários ativos no mundo 60 bilhões de mensagens por dia 35Anderson França Cultura de dados 36Anderson França In God we trust. All others must bring data. Without data you’re just another person with an opinion. Em Deus nós confiamos. Todos os outros devem trazer dados. Sem dados, você é apenas outra pessoa com uma opinião. William Edwards Deming 37Anderson França O que é Data Driven? 38Anderson França Data Driven envolve a construção de ferramentas, habilidades e, o mais importante, uma cultura que age sobre os dados. Carl Anderson Fonte: Creating a Data-Driven Organization by Carl Anderson https://www.amazon.com.br/Creating-Data-Driven-Organization-Carl-Anderson/dp/1491916915 39Anderson França Coleta de dados Para se tornar data driven, precisamos coletar dados. E não somente dados, o dado certo para cada propósito. 40Anderson França Mas não é somente sobre dados, e sim decisões ● Quantificar o comportamento das pessoas ● Entender o que elesquerem e quando querem ● Tomar decisões 41Anderson França A sua empresa já possui ferramentas para tomar boas decisões? 42Anderson França A sua empresa já toma boas decisões? Aprender Analisar Testar Otimizar 43Anderson França Case 1: A praia 44Anderson França Criando uma cultura Data Driven 45Anderson França Comece com uma estratégia 46Anderson França Porque projetos de Big Data fracassam? Fonte: Where Big Data Projects Fail - Forbes, 2015 Qubole https://www.forbes.com/sites/bernardmarr/2015/03/17/where-big-data-projects-fail/#239f62de239f https://www.slideshare.net/Qubole/5-crucial-considerations-for-big-data-adoption 47Anderson França Aprimore a área de negócio 48Anderson França Identificar as questões ainda não respondidas pelo negócio 49Anderson França Encontre dados que respondam suas dúvidas 50Anderson França Identifique os dados que você já possui 51Anderson França Exercite-se se os custos e esforços forem justificados 52Anderson França Valor - uma estimativa do impacto na linha de fundo ou em outros indicadores-chave de desempenho que serão alcançados. Custo - todos os requisitos de recursos previstos. Isso capacita os tomadores de decisão a equilibrar o investimento de recursos com o valor potencial. Risco - por exemplo, o risco de que o modelo previsto não funcione tão bem quanto o esperado. Inclua informações sobre como você pode atenuar os riscos identificados, como implantar os modelos preditivos de forma controlada (por exemplo, usá-los apenas para 10% das decisões no início). Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die. Eric Siegel 53Anderson França Colete dados 54Anderson França Analise os dados 55Anderson França Analise os dados Em uma cultura data driven, todas as decisões são tomadas baseadas nos dados dos clientes. Podemos trabalhar da seguinte forma: 56Anderson França Apresente e distribua insights 57Anderson França CULPADO João 58Anderson França A visualização de dados (VD) é uma expressão contemporânea da comunicação visual que consiste na representação visual de dados. Na VD, há exibição gráfica de informações abstratas com os propósitos de atribuição de sentido comunicação[3]. Fonte: Wikipedia Visualização dos dados https://pt.wikipedia.org/wiki/Comunica%C3%A7%C3%A3o_visual https://pt.wikipedia.org/wiki/Vis%C3%A3o https://pt.wikipedia.org/wiki/Dados https://pt.wikipedia.org/wiki/Informa%C3%A7%C3%A3o https://pt.wikipedia.org/w/index.php?title=Atribui%C3%A7%C3%A3o_de_sentido&action=edit&redlink=1 https://pt.wikipedia.org/w/index.php?title=Atribui%C3%A7%C3%A3o_de_sentido&action=edit&redlink=1 https://pt.wikipedia.org/wiki/Comunica%C3%A7%C3%A3o https://pt.wikipedia.org/wiki/Visualiza%C3%A7%C3%A3o_de_dados#cite_note-3 https://pt.wikipedia.org/wiki/Visualiza%C3%A7%C3%A3o_de_dados 59Anderson França A visualização de dados é a representação dos dados em um formato pictórico ou gráfico com objetivo de simplificar o valor dos dados, promover a compreensão sobre eles, e comunicar conceitos e ideias importantes. Fonte: SAS Visualização de dados Tableaux graphiques et cartes figuratives, 1869 https://www.sas.com/pt_br/insights/articles/analytics/why-your-brain-needs-data-visualization.html https://patrimoine.enpc.fr/document/ENPC01_Fol_10975?image=54#bibnum https://patrimoine.enpc.fr/document/ENPC01_Fol_10975?image=54#bibnum 60Anderson França Os dados: As Estatísticas: Por quê visualização de dados? 61Anderson França Por quê visualização de dados? Metas de visualização: ● Responder Questões ● Tomar decisões ● Visualizar dados em Contexto ● Encontrar padrões ● Apresentar argumentos ● Contar Histórias ● Inspirar 62Anderson França Utilizamos visualização de dados para... Comunicar / Apresentar Descobrir / Explorar 63Anderson França Selecionando o tipo certo de gráfico Existem quatro tipos simples de apresentação, apresentado pelo Dr. Andrew Abela (2009) : ● Comparação ● Composição ● Distribuição ● Relacionamento 64Anderson França Selecionando o tipo certo de gráfico Para determinar qual dentre eles é mais adequado para nossos dados, temos que responder a algumas perguntas como: ● Quantas variáveis desejamos mostrar em um único gráfico? ● Quantos pontos de dados vamos exibir para cada variável? ● Vamos mostrar valores durante um período de tempo ou entre itens ou grupos? 65Anderson França Fonte: Chart Suggestions—A Th ought-Starter http://extremepresentation.typepad.com/files/choosing-a-good-chart-09.pdf 66Anderson França Tipos de Gráficos Na maioria das vezes, vamos utilizar basicamente 7 tipos de gráficos. ● Gráfico de Dispersão ● Histograma ● Barras e Gráficos de Barras ● Box Plot ● Gráfico de áreas ● Mapa de Calor (Heat Map) ● Gráfico de Correlação 67Anderson França FERRAMENTAS DE BIG DATA 68Anderson França FERRAMENTAS DE BIG DATA 69Anderson França Aplicação 70Anderson França Assistente Pessoal https://www.youtube.com/watch?v=yDI5oVn0RgM 71Anderson França Mobilidade 72Anderson França Carros Autônomos 73Anderson França https://www.bloomberg.com/news/articles/2016-06-09/big-data-technology-is-boosting-farmers-productivity AGRICULTURA Um mapa SpecTerra mostra as mais altas (azuis) e mais baixas (vermelho) previsões de rendimento para o milho. 74Anderson França Fonte: Assisting Pathologists in Detecting Cancer with Deep Learning. Google Research Blog. Mar/2017 DETECÇÃO DE METÁSTASES DE CÂNCER O tecido contém uma metástase de câncer de mama, bem como macrófagos, que se parece com tumor, mas é um tecido normal benigno. O algoritmo identifica com sucesso a região tumoral (verde claro) e não é confundido pelos macrófagos. Os mapas de calor de previsão produzidos pelo algoritmo melhoraram tanto que o Score de localização (FROC) para o algoritmo atingiu 89%, o que excedeu significativamente o Score de 73% para um patologista sem restrição de tempo. https://research.googleblog.com/2017/03/assisting-pathologists-in-detecting.html http://spie.org/Publications/Proceedings/Paper/10.1117/12.955926 Case: Cafeteria Case: Streaming de Música Case: Streaming de Vídeo Case: Alojamento local Case: Varejo Online 80Anderson França CONSIDERAÇÕES FINAIS A maior parte das empresas não sabem o que fazer com todos os dados que elas já possuem Seja Grande Começando pequeno Foco no Impacto nos Negócios Big Data não é tão Big, se soubermos como usá-lo 8585 Obrigado! Anderson França Email: contato@andersonfranca.me LinkedIn: /andersonfrancal/ mailto:contato@andersonfranca.me https://www.linkedin.com/in/andersonfranca1/
Compartilhar