Prévia do material em texto
PARA DATA SCIENCE Esse e-book não pode ser usado para fins comerciais, mas pode ser distribuído livremente sob a licença Creative Commons. Pedimos apenas, a gentileza de citar a fonte, pois todo este material é resultado de trabalho árduo de nossa equipe. Esta foi a forma que encontramos de contribuir para uma sociedade que deve ter a educação como prioridade. http://datascienceacademy.us12.list-manage.com/track/click?u=22e85428e66233bf585e5c9be&id=bce8270346&e=e10a87a3ec P r e s e n t a t i o n Microsoft Power BI para Data Science Por que um Curso de Microsoft Power BI? Do BI para Data Science Esse curso dará a você exatamente isso. Um caminho, um guia, de como fazer a transição do BI para Data Science. Isso não significa que o BI seja menos importante. Longe disso. Mas o mundo atual caminha para a utilização cada vez maior de Inteligência Artificial, e Machine Learning é uma das portas de entrada nesse novo mundo. Enquanto aprende o Power BI e os principais conceitos de Business Intelligence, você fará uma suave transição para tudo que Data Science pode proporcionar. Treinamentos Gratuitos DSA Big Data Fundamentos Introdução à Ciência de Dados Python Fundamentos Para Análise de Dados Microsoft Power BI Para Data Science Conteúdo Programático 16 Módulos 01 02 03 Conteúdo Programático Business Intelligence no Power BI Primeiros Passos com Power BI Desktop Introdução 04 Modelagem e Relacionamento 05 Séries Temporais, Agregação e Filtros 06 07 08 Conteúdo Programático Microsoft Power BI Mobile Power BI e Bancos de Dados Oracle Mapas, Scatterplots e Dashboards Interativos 09 Introdução a Machine Learning 10 Microsoft Power BI e Linguagem R 11 12 13 Conteúdo Programático Microsoft Power BI e Google Analytics Microsoft Power BI e Facebook Analytics Estatística Fundamental para Data Science 14 Microsoft Power BI e Apache Spark 15 Avaliação e Certificado de Conclusão Tem certeza que esse curso é gratuito? Bonus SUCESSO Introdução ao Deep Learning com Microsoft Cognitive Toolkit O que esse curso não é? Este não é um curso de Machine Learning ou Deep Learning, ou mesmo linguagem R ou Python. Temos diversos outros cursos aqui na DSA abordando esses assuntos em detalhes, até porque eles são bastante extensos.Este curso é dividido em duas partes. Na primeira estudaremos o Power BI e os principais conceitos de Business Intelligence e na segunda parte teremos uma introdução bastante técnica ao mundo das análises preditivas com Data Science e Machine Learning. Requerimentos de Hardware Vamos construir um ambiente de desenvolvimento local. Seu computador deve ter o mínimo de hardware recomendado: • Mínimo de 4GB de RAM (8 GB ideal) • Processador Core i5 / i7 ou similar • Espaço em disco disponível Conhecendo Seu Sistema Operacional Conhecer seu sistema operacional é fundamental. Este curso será no Windows 10, mas você também pode acompanhar o curso usando Windows 7, 8 ou 8.1. Ao final deste capítulo você encontra 2 vídeos com uma visão geral de como configurar o Windows 10 como um ambiente de desenvolvimento. Sua Abordagem ao Curso 2 a 4 horas de dedicação por semana Crie e execute todos os procedimentos demonstrados ao longo das aulas Material adicional na seção de Bibliografia, Referências e Links úteis, além de Quizzes ao final de cada capítulo Comunique-se Interação e Networking com outros alunos no forum exclusivo Avaliação Final Questões 50 Tentativas 3 Aproveitamento 70% E-book Se você for aprovado na avaliação final receberá o e-book com todo o conteúdo do curso, de forma gratuita. Compartilhe seu Certificado de Conclusão Objetivos ao Fim Deste Curso Desenvolver habilidades na utilização do Microsoft Power BI. Compreender como funciona a integração do Microsoft Power BI com banco de dados Oracle, Apache Spark, Linguagem R, Facebook e Google Analytics. Definir os principais conceitos de Machine Learning. Compreender a função da Estatística no processo de Data Science Utilizar de forma eficiente o Power BI Mobile Produzir visualizações e Dashboards profissionais Treinamentos DSA Formação Cientista de Dados (6 cursos) Formação Inteligência Artificial (9 cursos) Desenvolvimento de Chatbots Data Mining e Modelagem Preditiva Gerenciamento de Dados com MongoDB R Fundamentos Para Análise de Dados Machine Learning com Scala e Spark Big Data Analytics com R e Azure Big Data Real-Time Analytics com Python e Spark Engenharia de Dados com Hadoop e Spark Machine Learning Business Analytics Visualização de Dados e Design de Dashboards Introdução à Inteligência Artificial Deep Learning Frameworks Programação Paralela em GPU Deep Learning I Deep Learning II Visão Computacional Processamento de Linguagem Natural Análise de Grafos para Big Data Sistemas Cognitivos Apps Gratuitas para iOS e Android E você ainda pode acompanhar qualquer um dos nossos cursos do seu smartphone ou tablet com nossas apps gratuitas para iOS e Android. Dados x Informação x Conhecimento x Inteligência 26Dados x Informação x Conhecimento x Inteligência Dado 27Dados x Informação x Conhecimento x Inteligência Informação 28Dados x Informação x Conhecimento x Inteligência As pessoas trabalham com informações mas a tecnologia armazena dados 29Dados x Informação x Conhecimento x Inteligência Conhecimento 30Dados x Informação x Conhecimento x Inteligência 31Dados x Informação x Conhecimento x Inteligência Inteligência – capacidade de resolver problemas, usando o conhecimento, através das informações disponíveis 32Dados x Informação x Conhecimento x Inteligência Nosso objetivo é começar com os dados, transformá-los em informações e conhecimento e permitir que tomadores de decisão usem sua inteligência para resolver problemas, a partir do conhecimento adquirido. Business Intelligence X Data Science Evolução dos Sistemas Analíticos Evolução dos Sistemas Analíticos Analytics Big Data Analytics Extrair conhecimento a partir dos dados Machine Learning Treinar algoritmos a usar inteligência, ou seja, usar o conhecimento para resolver problemas Capítulo 2 Primeiros Passos com o Power BI Desktop 38Primeiros Passos com Power BI Desktop Fontes de Dados do Power BI• Carregar Arquivos CSV e Excel• Power BI Desktop Workflow• Explorar os Dados• Construir Visualizações• Formatar Legenda, Título e Labels• 39Primeiros Passos com Power BI Desktop Estudo de Caso Construindo um Dashboard de Vendas Power BI Desktop Workflow 41Power BI Desktop Workflow Power BI Desktop Preparação dos Dados Modelagem dos Dados Visualização dos Dados Query Editor Relationship View Data View Report View Capítulo 3 Business Intelligence e Web Scraping no Power BI 43Business Intelligence e Web Scraping no Power BI Parte 1 Web Scraping Parte 2 Introdução a Business Intelligence Parte 1 Web Scraping no Power BI 45Parte 1 - Web Scraping no Power BI 46Parte 1 - Web Scraping no Power BI Atenção!!!!! Nem todos os sites permitem ou autorizam que os dados sejam coletados de suas páginas. Parte 2 Introdução a Business Intelligence no Power BI 48Parte 2 – Introdução a Business Intelligence Business Intelligence 49Parte 2 – Introdução a Business Intelligence Business Intelligence Um conjunto de técnicas e ferramentas que permite que a organização utilize a análise das informações para o suporte a tomada de decisão. Star Schema A arquitetura de esquema em estrela é o esquema de data warehouse mais simples. É chamado de esquema de estrela porque o diagrama se assemelha a uma estrela, com pontos que irradiam de um centro. O centro da estrela consiste na tabela de fatos e os pontos da estrela são as tabelas de dimensão. Apesar de o esquema em estrela ser a arquitetura mais simples, é mais usado atualmente e é recomendado pela Oracle. 51StarSchema Capítulo 4 Limpeza, Transformação, Séries Temporais, Agregação e Filtros 53 Limpeza, Transformação, Séries Temporais, Agregação e Filtros • Configurações Regionais no Power BI • Limpeza de Dados (Remoção de Espaços, Metadados) • Transformação (Divisão de Colunas, Substituição de Valores, Reorganização) • Séries Temporais • Agregação • Granularidade • Filtros e Slices Capítulo 5 Modelagem, Relacionamento e Introdução ao DAX 55 Modelagem, Relacionamento e Introdução ao DAX Power BI Desktop Preparação dos Dados Modelagem dos Dados Visualização dos Dados Query Editor Relationship View Data View Report View Relacionamentos e Cardinalidade 57 Relacionamentos e Cardinalidade Um para muitos (1:*) e Muitos para um (*:1) Um para um (1:1) Muitos para muitos (*:*) 58 Relacionamentos e Cardinalidade Um para muitos (1:*) e Muitos para um (*:1) ID-Produto Produto Categoria Segmento Fabricante 1000 LG K10 TV Power Celulares Corporativo LG 1001 Geladeira Duplex Eletrodomésticos Doméstico Brastemp 1002 Notebook Dell 8 GB Eletrônicos Corporativo Dell 1003 Desktop HP 16 GB Eletrônicos Doméstico HP 1004 Impressora Deskjet Eletrônicos Doméstico HP 1005 Samsung Galaxy 8 Celulares Corporativo Samsung ID-Venda Data ID-Produto VE001 28/06/207 1000 VE002 28/06/2017 1001 VE003 29/06/2017 1000 VE004 30/06/2017 1002 VE005 01/07/2017 1005 VE006 01/07/2017 1005 Tabela PRODUTOS Tabela VENDAS Cada produto é único Cada produto pode ser vendido diversas vezes 59 Relacionamentos e Cardinalidade Um para um (1:1) ID-Registro Vendedor Data Emissão Registro Validade ID-Loja Cidade Loja 1000 Ana Teixeira 28/06/2013 2023 SP8821 São Paulo 1001 Josias Silva 29/06/2013 2023 RJ9832 Rio de Janeiro 1002 Rodrigo Fagundes 29/06/2014 2024 RJ9832 Rio de Janeiro 1003 Fernando Zambrini 29/06/2015 2025 A9990 Belo Horizonte 1004 Artur Moreira 30/06/2014 2024 SP8821 São Paulo 1005 Mateus Gonçalves 01/07/2012 2022 SP8821 São Paulo 60 Relacionamentos e Cardinalidade Um para um (1:1) Tabela VENDEDOR Tabela REGISTRO ID-Registro Vendedor ID-Loja Cidade Loja 1000 Ana Teixeira SP8821 São Paulo 1001 Josias Silva RJ9832 Rio de Janeiro 1002 Rodrigo Fagundes RJ9832 Rio de Janeiro 1003 Fernando Zambrini A9990 Belo Horizonte 1004 Artur Moreira SP8821 São Paulo 1005 Mateus Gonçalves SP8821 São Paulo ID-Registro Data Emissão Registro Validade 1000 28/06/2013 2023 1001 29/06/2013 2023 1002 29/06/2014 2024 1003 29/06/2015 2025 1004 30/06/2014 2024 1005 01/07/2012 2022 61 Relacionamentos e Cardinalidade Muitos para muitos (*:*) (Cross Filter Direction no Power BI) Capítulo 6 Visualização de Dados e Dashboards Interativos 63 Visualização de Dados e Dashboards Interativos Power BI Desktop Preparação dos Dados Modelagem dos Dados Visualização dos Dados Query Editor Relationship View Data View Report View A Importância da Visualização de Dados 65 A Importância da Visualização de Dados 66 A Importância da Visualização de Dados O objetivo da visualização é simplificar o valor dos dados, promover a compreensão sobre eles, e comunicar conceitos e ideias importantes 67 A Importância da Visualização de Dados A codificação visual é a maneira pela qual os dados são mapeados em estruturas visuais, sobre as quais construímos as imagens em uma tela 68 A Importância da Visualização de Dados Data Visualization Framework 69 A Importância da Visualização de Dados Visualização de Dados Numéricos e Não Numéricos 70 A Importância da Visualização de Dados Você não achou que criar gráfico seria a parte mais fácil do processo, não é mesmo? O que são Dashboards? 72 O que são Dashboards? Um Dashboard é uma exibição visual das informações mais importantes necessárias para alcançar um ou mais objetivos, consolidado e organizado em uma única tela para que as informações possam ser monitoradas e/ou analisadas ao mesmo tempo. 73 O que são Dashboards? Um Dashboard é uma ferramenta de gestão e visualização de informações que é usado para monitorar indicadores de desempenho (KPI’s), métricas e outros pontos de dados relevantes para o negócio, departamento ou projeto. 74 O que são Dashboards? Um Dashboard é uma ferramenta de gestão e visualização de informações que é usado para monitorar indicadores de desempenho (KPI’s), métricas e outros pontos de dados relevantes para o negócio, departamento ou projeto. Com o uso de visualizações de dados, o Dashboard simplifica o complexo processo de análise de dados e provê ao usuário uma visão clara da situação atual ou eventuais previsões. 75 O que são Dashboards? Os Dashboards receberam esse nome a partir dos painéis de automóveis. De fato, as empresas usam os Dashboards da mesma forma que os Dashboards são usados em automóveis. Sob o capô de um veículo, pode haver centenas de processos que afetam o desempenho do automóvel. O Dashboard resume esses eventos usando visualizações para que você tenha a paz de espírito para se concentrar com segurança na operação do veículo. Ou seja, você não precisa ficar checando os processos internos do carro de forma individual. Você usa o dashboard! 76 O que são Dashboards? 77 O que são Dashboards? Um Dashboard bem projetado é uma notável ferramenta de gerenciamento de informações. Para os motoristas, os painéis permitem que se concentrem no veículo e naveguem com segurança pelos diversos perigos apresentados diariamente em ruas e estradas. O mesmo se aplica ao ambiente empresarial: os dashboards simplificam os processos complexos em blocos de informação, mais facilmente gerenciáveis. Na conclusão de um projeto, um Dashboard pode apresentar o trabalho de meses, envolvendo várias equipes, em uma única visualização, permitindo aos tomadores de decisão ações rápidas e eficientes. 78 O que são Dashboards? Ele➢ se encaixa em uma tela, mas pode haver barras de rolagem para tabelas com muitas linhas ou gráficos com muitos pontos de dados. ➢ É altamente interativo e geralmente fornece funcionalidade como filtragem e drill-downs. ➢ É usado principalmente para encontrar correlações, tendências, outliers (anomalias), padrões e condições de negócios em dados. Características de um Dashboard: 79 O que são Dashboards? Os➢ dados usados em uma ferramenta de análise visual são geralmente dados históricos (Business Intelligence). No entanto, é possível construir Dashboards para visualização de dados em tempo real. Ele➢ ajuda a identificar indicadores de desempenho (KPI’s). ➢ É tipicamente utilizado por usuários tecnicamente experientes como analistas de dados e pesquisadores, embora venha sendo cada vez mais utilizado por profissionais de diversas áreas de negócio. Características de um Dashboard: 80 O que são Dashboards? Capítulo 7 Microsoft Power BI e Banco de Dados Oracle 82 Microsoft Power BI e Bancos de Dados Oracle Este NÃO é um curso de banco de dados 83 Microsoft Power BI e Bancos de Dados Oracle Instalação do Banco de Dados Oracle e do SQL Developer• Utilização do Power BI como Ferramenta ETL• Construção de um Data Warehouse com o Modelo Star Schema• Carga de dados nas tabelas• Conexão ao banco de dados Oracle com o Power BI• Criação de visualizações com o Power BI, a partir de dados coletados do • banco de dados O que estudaremos neste capítulo: Capítulo 8 Microsoft Power BI Mobile 85 Qualquer aplicação nos dias de hoje, que não conte com uma versão para dispositivos móveis, já é uma aplicação obsoleta. Seja no ambiente corporativo, seja em nossas vidas pessoais, smartphones e tabletsestão cada vez mais presentes e precisamos oferecer aos usuários formas de utilizar esses dispositivos para realizar seu trabalho. Pensando nisso, a Microsoft disponibiliza appspara os principais tipos de smartphones e tabletse com uma facilidade de uso, marca registrada dos produtos Microsoft. Power BI Mobile Qualquer aplicação nos dias de hoje, que não conte com uma versão para dispositivosmóveis, já é uma aplicação obsoleta. Seja no ambiente corporativo, seja em nossas vidas pessoais, smartphones e tablets estão cada vez mais presentes e precisamos oferecer aos usuários formas de utilizar esses dispositivos para realizar seu trabalho. Pensando nisso, a Microsoft disponibiliza apps para os principais tipos de smartphones e tablets e com facilidade de uso, marca registrada dos produtos Microsoft. 86 Power BI Mobile 87 Power BI Mobile O Power BI Service é a versão do Power BI online, que nos permite criar relatórios e dashboards de forma totalmente online e similar ao que fazemos com o Power BI Desktop. Por que Precisamos do Power BI Service? 89 Por que Precisamos do Power BI Service? Relatórios e Dashboards Power BI Desktop Power BI Service Power BI Mobile ou Power BI Service Desenvolve com Publica com Acessa com Compartilha/Colabora com Muito Obrigado Versões do Power BI 92 Versões do Power BI Power BI Free Power BI Pro Power BI Premium Capítulo 9 Introdução a Machine Learning 94 Introdução a Machine Learning BI Tradicional Data Science 95 Introdução a Machine Learning Big Data Migrando do Business Intelligence para Data Science 97 Migrando do Business Intelligence para Data Science Visualização de Dados, Relatórios e BI Machine Learning / Deep Learning O Que é Aprendizado de Máquina? 99 O Que é Aprendizado de Máquina? O que é Aprendizado? 100 O Que é Aprendizado de Máquina? Aprendizado é a capacidade de se adaptar, modificar e melhorar seu comportamento e suas respostas, sendo portanto uma das propriedades mais importantes dos seres ditos inteligentes, sejam eles humanos ou não. 101 O Que é Aprendizado de Máquina? Adaptação Correção Otimização Interação Representação 102 O Que é Aprendizado de Máquina? Estamos tentando reproduzir o processo de aprendizado de seres humanos em máquinas, através de algoritmos de Machine Learning 103 O Que é Aprendizado de Máquina? Já podemos então definir Aprendizado de Máquina 104 O Que é Aprendizado de Máquina? Machine Learning é um subcampo da Inteligência Artificial que permite dar aos computadores a habilidade de aprender sem que sejam explicitamente programados para isso 105 O Que é Aprendizado de Máquina? 106 O Que é Aprendizado de Máquina? Machine Learning ou Aprendizado de Máquina é um método de análise de dados que automatiza o desenvolvimento de modelos analíticos. Usando algoritmos que aprendem interativamente a partir de dados, o aprendizado de máquinas permite que os computadores encontrem insights ocultos sem serem explicitamente programados para procurar algo específico. Tipos de Aprendizagem 108 Tipos de Aprendizagem Tipos de Aprendizagem Tipos de Aprendizagem Supervisionada Não Supervisionada Semi Supervisionada Aprendizagem Por Reforço Deep Learning 109 Tipos de Aprendizagem Fonte: Nvidia Muito Obrigado Aprendizagem Supervisionada 112 Aprendizagem Supervisionada 113 Aprendizagem Supervisionada Aprendizagem Supervisionada Dados Amostras de Dados Algoritmo Modelo Treinado Teste e Validação Produçã o 114 Aprendizagem Supervisionada 115 Aprendizagem Supervisionada Os algoritmos de aprendizado supervisionado fazem previsões com base em um conjunto de exemplos 116 Aprendizagem Supervisionada Aprendizagem Supervisionada Classificação Regressão 117 Aprendizagem Supervisionada Aprendizagem Supervisionada Detecção de Anomalias 118 Aprendizagem Supervisionada Aprendizagem Supervisionada É o termo usado sempre que o programa é “treinado” sobre um conjunto de dados pré-definido Aprendizagem Não Supervisionada 120 Aprendizagem Não Supervisionada A aprendizagem não supervisionada ocorre quando um algoritmo aprende com exemplos simples, sem qualquer resposta associada, deixando a cargo do algoritmo determinar os padrões de dados por conta própria. Este tipo de algoritmo tende a reestruturar os dados, como novos atributos que podem representar uma classe ou uma nova série de valores não correlacionadas. Eles são muito úteis em fornecer aos seres humanos insights sobre o significado dos dados. 121 Aprendizagem Não Supervisionada Alguns sistemas de recomendação que você encontra na internet sob a forma de automação de marketing são baseados neste tipo de aprendizagem 122 Aprendizagem Não Supervisionada 123 Aprendizagem Não Supervisionada O objetivo de um algoritmo de aprendizado não supervisionado é organizar os dados de alguma forma ou descrever sua estrutura 124 Aprendizagem Não Supervisionada Aprendizagem Não-Supervisionada Termo usado quando um programa pode automaticamente encontrar padrões e relações em um conjunto de dados Deep Learning Deep Learning é uma das áreas mais quentes de Machine Learning na atualidade, que permite ensinar os computadores a fazer coisas que até então somente os seres humanos eram capazes de fazer. Deep Learning é o estado da arte em atividades de aprendizagem de máquina como visão computacional, reconhecimento de voz e processamento de linguagem natural. Deep Learning vem sendo usado nas mais diversas áreas, desde descoberta de doenças e novos medicamentos, passando por tradutores online de idiomas (cada vez mais precisos), até busca em documentos e assistentes virtuais. Mas lembre-se, tudo tem seu preço. O poder que Deep Learning oferece traz junto temas complexos, processamento computacional intensivo e muita, muita matemática. 126 Deep Learning 127 Deep Learning 128 Deep Learning 129 Deep Learning 130 Deep Learning CNN Convolutional Neural Networks 131 Deep Learning RNN Recurrent Neural Networks 132 Deep Learning Deep Learning tem sido utilizado com mais sucesso, para resolver problemas em visão computacional, reconhecimento de voz, processamento de linguagem natural e outras aplicações de interesse comercial. Treinamento, Validação e Teste 134 Treinamento, Validação e Teste Treinamento, Validação e Teste 135 Treinamento, Validação e Teste Treinamento, Validação e Teste 75 a 70% - dados de treino 25 a 30% - dados de teste 136 Treinamento, Validação e Teste Treinamento, Validação e Teste 75 a 70% - dados de treino 20% - dados de validação 10% - dados de teste 137 Treinamento, Validação e Teste Treinamento, Validação e Teste 138 Treinamento, Validação e Teste Treinamento, Validação e Teste n > 10.000 139 Treinamento, Validação e Teste Cross-Validation 140 Treinamento, Validação e Teste Cross-Validation O Que é um Modelo Preditivo? 142 O Que é um Modelo Preditivo? 143 O Que é um Modelo Preditivo? 144 O Que é um Modelo Preditivo? 145 O Que é um Modelo Preditivo? 146 O Que é um Modelo Preditivo? Modelo 147 O Que é um Modelo Preditivo? Modelo 148 O Que é um Modelo Preditivo? Modelo O processo de ”fit” do modelo a um dataset é chamado de treinamento do modelo 149 O Que é um Modelo Preditivo? Modelo 150 O Que é um Modelo Preditivo? Seu trabalho como Cientista de Dados é buscar sempre o melhor modelo possível para suas previsões 151 O Que é um Modelo Preditivo? O modelo pode ser implementado para resolver o problema de negócio para o qual ele foi desenvolvido 152 O Que é um Modelo Preditivo? Lembre-se: um modelo de Machine Learning será usado para resolver um problema específico 153 O Que é um Modelo Preditivo? Não caia na tentação de querer aplicar seu modelo a tudo que você vê pela frente Modelo Preditivo Um Pouco de Matemática 155 Modelo Preditivo – Um Pouco de Matemática Modelo Preditivo é uma função matemática que, aplicada a uma massa de dados, consegue identificar padrões ocultos e prever o que poderá ocorrer 156 Modelo Preditivo – Um Pouco de Matemática Modelo Preditivo 157 Modelo Preditivo – Um Pouco de Matemática f = função desconhecida = = aproximação da função desconhecida 158 Modelo Preditivo– Um Pouco de Matemática Classificação 159 Modelo Preditivo – Um Pouco de Matemática Mas o que é um processo estocástico? Fenômeno que varia em algum grau, de forma imprevisível, à medida que o tempo passa! Variação do tráfego em um cruzamento Variação diária no tamanho do estoque de uma empresa Variação minuto a minuto do índice IBOVESPA Variação no estado de um sistema de potência Variação no número de chamadas feitas a uma central telefônica 160 Modelo Preditivo – Um Pouco de Matemática Classificação Crédito Salário Estado Civil Saldo Bancário Imóvel Próprio Sim 5.000 Casado 120.000 Sim Não 6.590 Casado 14.000 Não Sim 7.653 Casado 34.000 Não Sim 4.908 Solteiro 43.900 Sim Não 5.908 Casado 1.200 Não Sim 6.800 Solteiro 98.820 Sim Classe Variáveis Preditoras 161 Modelo Preditivo – Um Pouco de Matemática O objetivo do aprendizado de máquina é aprender a aproximação da função f que melhor representa a relação entre os atributos de entrada (chamadas variáveis preditoras) com a variável de saída (chamada de variável target). O Processo de Aprendizagem 163 O Processo de Aprendizagem Um componente chave do processo de aprendizagem é a generalização 164 O Processo de Aprendizagem Se um algoritmo de Machine Learning não for capaz de generalizar uma função matemática que faça previsões sobre novos conjuntos de dados, ele não está aprendendo nada e sim memorizando os dados, o que é bem diferente. 165 O Processo de Aprendizagem E para poder generalizar a função que melhor resolve o problema, os algoritmos de Machine Learning se baseiam em 3 componentes: Representação Avaliação Otimização 166 O Processo de Aprendizagem Os algoritmos de Machine Learning possuem diversos parâmetros internos 167 O Processo de Aprendizagem Otimização 168 O Processo de Aprendizagem Espaço de Hipótese 169 O Processo de Aprendizagem Nenhum algoritmo único ou uma combinação de algoritmos é 100% preciso o tempo todo. Pelo menos não ainda!! 170 O Processo de Aprendizagem Cost Function 171 O Processo de Aprendizagem Definindo o Erro 172 O Processo de Aprendizagem Underfitting x Overfitting Ok 173 O Processo de Aprendizagem Elementos do Processo de Aprendizagem 175 Elementos do Processo de Aprendizagem Um padrão exista Não exista um único modelo matemático que explique esse padrão Dados estejam disponíveis Para que ocorra a aprendizagem, é preciso que: 176 Elementos do Processo de Aprendizagem Aprovação de Crédito 177 Elementos do Processo de Aprendizagem Atributo Valor Sexo Masculino Idade 34 Salário Mensal R$ 18.000,00 Anos no Emprego Atual 3 Anos de Residência 7 Saldo Bancário R$ 32.671,94 Aprovação de Crédito de um Indivíduo 178 Elementos do Processo de Aprendizagem Componentes do Processo de Aprendizagem Input Output Função Alvo Dados Hipótese x {Dados do cliente} y {Decisão Crédito: Sim/Não} f: x y {Representação do relacionamento} {Função matemática desconhecida} (x1, y1), (x2, y2),...., (xn, yn) {Dados históricos} g: x y {Função a ser descoberta pelo algoritmo} 179 Elementos do Processo de Aprendizagem Função alvo (desconhecida) f: x à y Dados de Treino (x1, y1), (x2, y2),...., (xn, yn) Hipótese Final g f Algoritmo Espaço de Hipóteses Espaço de Hipóteses 181 Espaço de Hipóteses Espaço de Hipóteses• Algoritmo de Aprendizagem• Espaço de Hipóteses Algoritmo de Aprendizagem Modelo de Aprendizagem + = Redes Neurais Back PropagationRedes Neurais Support Vector Machines Back Propagation Programação Quadrática 182 Espaço de Hipóteses O Espaço de Hipóteses contém os recursos com os quais podemos trabalhar. O Algoritmo de Aprendizagem recebe os dados e navega pelo Espaço de Hipóteses a fim de encontrar a melhor hipótese que gera o resultado desejado. Modelo de Aprendizagem Espaço de Hipóteses Processo de Construção de Modelos de Machine Learning 185 Processo de Construção de Modelos de Machine Learning Dados de Treino Dados de Teste Labels Dados Brutos Pré-Processamento Aprendizado Avaliação Previsão Algoritmo de Aprenidzagem Modelo Final Novos Dados • Transformação de Variáveis • Feature Selection • Redução de Dimensionalidade • Amostragem • Seleção do Modelo • Cross-Validation • Métricas de Performance • Otimização • Validação do Modelo • Otimização 186 Processo de Construção de Modelos de Machine Learning No próximo capítulo vamos construir um modelo de Machine Learning, seguindo todas essas etapas, utilizando a linguagem R. Vamos utilizar a integração do R com o Power BI para visualizar nosso conjunto de dados. Capítulo 10 Microsoft Power BI e Linguagem R 188 Microsoft Power BI e Linguagem R 189 Microsoft Power BI e Linguagem R Capítulo 10 Por que Aprender Linguagem R? 191 Por que Aprender Linguagem R? Por que Aprender Linguagem R? 192 Por que Aprender Linguagem R? Plataforma • Independente e Open-source Oracle e Microsoft já Perceberam o Potencial da Linguagem R• Uma das melhores ferramentas para visualização de dados• Data • Wrangling (Manipulação de Dados) Linguagem do Big Data• Utilização da Linguagem R• Presença na Comunidade Científica• Machine Learning• Capítulo 11 Introdução à Estatística Para Data Science Parte 1 194 Introdução à Estatística Para Data Science 195 Introdução à Estatística Para Data Science 196 Introdução à Estatística Para Data Science 197 Introdução à Estatística Para Data Science Capítulo 11 Introdução à Estatística Para Data Science Parte 1 Capítulo 12 Introdução à Estatística Para Data Science Parte 2 198 Introdução à Estatística Para Data Science Teoria e Prática 199 Introdução à Estatística Para Data Science Este Capítulo é Sobre Estatística 200 Introdução à Estatística Para Data Science Dica: Não caia na tentação de pular a parte teórica e ir direto para as atividades práticas Lembre-se: Não existe atalho para o aprendizado Estatística x Data Science 202 Estatística x Data Science Estatística e Data Science são a mesma coisa? 203 Estatística x Data Science NÃO 204 Estatística x Data Science Definindo a Estatística 206 Definindo Estatística O que é Estatística? 207 Definindo Estatística O que é Estatística? A Estatística fornece técnicas e métodos de análise de dados que auxiliam o processo de tomada de decisão nos mais variados problemas onde existe incerteza. 208 Definindo Estatística O que é Estatística? Bioestatística• Contabilometria• Controle • de qualidade Estatística comercial• Estatística econômica• Estatística • de engenharia Estatística física• Estatística populacional• Estatística psicológica• Estatística • social (para todas as ciências sociais) Geoestatística• Pesquisa operacional• Análise • de processo e quimiometria 209 Definindo Estatística 210 Definindo Estatística • Coleção de informações ou dados • Medidas resultantes de um conjunto de dados, como por exemplo médias • Métodos usados na coleta e interpretação de dados O que é Estatística? 211 Definindo Estatística 212 Definindo Estatística 213 Definindo Estatística 214 Definindo Estatística Probabilidade Estudo da aleatoriedade e da incerteza 215 Definindo Estatística Estatística Descritiva Utiliza métodos para coleta, organização, apresentação, análise e síntese de dados obtidos em uma população ou amostra. 216 Definindo Estatística Estatística Inferencial É o processo de estimar informações sobre uma população a partir dos resultados observados em uma amostra. 217 Definindo Estatística O que é Estatística? 218 Definindo Estatística Estatística é a ciência, parte da Matemática Aplicada, que fornece métodos para coletar, descrever, analisar, apresentar e interpretar dados, para a utilização dos mesmos na tomada de decisões. 219 Definindo Estatística Big Data Analytics é o termo que se refere aanálise estatística de grandes quantidades de dados, para que se possa extrair informação relevante para a compreensão da situação atual e a tomada de decisões. 220 Definindo Estatística Formação Cientista de Dados Big Data Analytics com R e Microsoft Azure Machine Learning• Big Data Real• -Time Analytics com Python e Spark Engenharia de Dados com Hadoop e Spark• Machine Learning• Business Analytics• Visualização de Dados e Design de Dashboards• 221 Definindo Estatística Formação Cientista de Dados • Big Data Analytics com R e Microsoft Azure Machine Learning • Big Data Real-Time Analytics com Python e Spark • Engenharia de Dados com Hadoop e Spark • Machine Learning • Business Analytics • Visualização de Dados e Design de Dashboards 222 Definindo Estatística Formação Inteligência Artificial Formação Java Para Data Science e IA Estatística Descritiva População e Amostra 224 População e Amostra Sempre que você se deparar com um novo conjunto de dados, uma das primeiras perguntas que devem ser feitas é: Qual é minha população e qual é minha amostra? 225 População e Amostra 226 População e Amostra Pesquisa Eleitoral Os institutos de pesquisa, examinam uma amostra e a partir disso, deduzem informações sobre toda a população. 227 População e Amostra É Sopa! 228 População e Amostra 229 População e Amostra Como garantir que a amostra representa fielmente a população? 230 População e Amostra É Sopa novamente! 231 População e Amostra Randomização 232 População e Amostra Ok, entendi. Mas como eu faço com indivíduos ou com os meus dados?? 233 População e Amostra Simplesmente, você coleta sua amostra de forma randomizada, sem escolher exatamente quem fará parte da amostra. 234 População e Amostra E qual deve ser o tamanho da amostra? Como Deve Ser a Amostragem? 236 Como Deve Ser a Amostragem? Amostragem: usa a coleta, organização, apresentação e análise dos dados como meio de estudar os parâmetros de uma população. Censo: é a técnica que seleciona e avalia todos os elementos da população quando se realiza uma pesquisa. 237 Como Deve Ser a Amostragem? Por que não medir uma população inteira, ao invés de medir apenas uma amostra? 238 Como Deve Ser a Amostragem? Dependendo das circunstâncias, medir uma população inteira seria caro demais ou até mesmo inviável. 239 Como Deve Ser a Amostragem? 240 Como Deve Ser a Amostragem? Pequenas amostras de biscoitos, são representativas da população. 241 Como Deve Ser a Amostragem? Trabalhando com dados representativos na amostra, podemos inferir o que está acontecendo na população como um todo. 242 Como Deve Ser a Amostragem? Parabéns!! Você acabou de ter a definição de Estatística Inferencial 243 Como Deve Ser a Amostragem? Lembra da sopa? 244 Como Deve Ser a Amostragem? Os dados devem ser tratados com muito cuidado, de modo que as conclusões reflitam a realidade 245 Como Deve Ser a Amostragem? Ao escolher uma amostra… 246 Como Deve Ser a Amostragem? E como deve ser a amostragem? Probabilística X Não Probabilística 247 Como Deve Ser a Amostragem? Amostragem Probabilística Amostragem Simples ao Acaso• Amostragem Sistemática• Amostragem Por Conglomerado• Amostragem Estratificada• Reamostragem (Boostrap)• 248 Como Deve Ser a Amostragem? Amostragem Não Probabilística Amostragem a Esmo• Amostragem Intencional• Amostragem Por Voluntários• 249 Como Deve Ser a Amostragem? Parâmetro X Estatística 251 Parâmetro x Estatística 252 Parâmetro x Estatística Parâmetro – característica sobre a população. Valores calculados usando dados da população são chamados de parâmetros. 253 Parâmetro x Estatística Estatística – característica sobre a amostra. Valores calculados usando dados da amostra são chamados de estatísticas. 254 Parâmetro x Estatística Estatística Inferencial realiza deduções e conclusões sobre a população, baseadas nos resultados obtidos da análise da amostra. 255 Parâmetro x Estatística A Estatística Inferencial realiza deduções e conclusões sobre a população, baseadas nos resultados obtidos na análise da amostra. Dados Primários X Dados Secundários 257 Dados Primários x Dados Secundários Vamos relembrar um conceito fundamental 258 Dados Primários x Dados Secundários Vamos relembrar um conceito fundamental 259 Dados Primários x Dados Secundários Dados – valores coletados através de observação ou medição. Informação – dados que são transformados em fatos relevantes e usados para um propósito específico. 260 Dados Primários x Dados Secundários Dados não fazem sentido, se não forem colocados em um contexto 261 Dados Primários x Dados Secundários 262 Dados Primários x Dados Secundários 263 Dados Primários x Dados Secundários 264 Dados Primários x Dados Secundários Informação Conhecimento Observações X Variáveis 266 Observações x Variáveis Observação Uma observação é uma ocorrência de um item de dados específico que é gravada sobre uma unidade de dados. 267 Observações x Variáveis Variável Variável é a característica de interesse que é medida em cada elemento da amostra ou população. Como o nome sugere, seus valores variam de elemento para elemento. As variáveis podem ter valores numéricos ou não numéricos. 268 Observações x Variáveis Tipos de Variáveis 270 Tipos de Variáveis 271 Tipos de Variáveis Como classificar os tipos de dados estatísticos? 272 Tipos de Variáveis Os dados podem conter variáveis: Qualitativas – utilizam termos descritivos para descrever algo de interesse. Ex: cor dos olhos, estado civil, religião, sexo, grau de escolaridade, classe social, tipo sanguíneo, cor da pele, etc... 273 Tipos de Variáveis Os dados podem conter variáveis: Quantitativas – representados por valores numéricos que podem ser contados ou medidos. Ex: número de crianças em uma sala de aula, peso do corpo humano, idade, número de filhos, etc… 274 Tipos de Variáveis 275 Tipos de Variáveis Um dado classificado como "idade” é quantitativo Ex:. 11, 15, 18, 25, 42 anos. Entretanto, se esse dado for informado por ”faixa etária” ele é qualitativo (ordinal). Ex: 0 – 5 anos 6 – 12 anos 13 – 18 anos 19 – 28 anos 276 Tipos de Variáveis É muito importante classificar os dados, pois eles permitirão a você escolher o melhor teste estatístico a ser utilizado na análise dos dados. Medidas de Posição 278 Medidas de Posição População Amostra Média Mediana Moda 279 Medidas de Posição 280 Medidas de Posição Sem dúvida, médias são as formas mais simples de identificar tendências em um conjunto de dados 281 Medidas de Posição Mediana 282 Medidas de Posição Mediana Se o número de elementos n na amostra for ímpar, a Mediana será: (n + 1) /2 Se o número de elementos n na amostra for par, a Mediana será: (n / 2) + 1 283 Medidas de Posição Medidas de Dispersão 285 Medidas de Dispersão Uma maneira de descrever um conjunto de dados, é através de medidas de dispersão. Elas descrevem a amplitude dos dados, ou seja, quão espalhados os dados estão dentro de um conjunto. 286 Medidas de Dispersão A variância mede a amplitude (variabilidade) dos dados em relação à média. 287 Medidas de Dispersão O desvio padrão é usado para medir a variabilidade entre os números em um conjunto de dados. Assim como o nome sugere, o desvio padrão é um padrão de desvio (distância) da média. Em termos bem simples, o desvio padrão é a distância média, da média. 288 Medidas de Dispersão 289 Medidas de Dispersão Anderson – cursa 6 disciplinas na faculdade de Estatística e obteve as seguintes notas no exame final: Média final = 75 290 Medidas de Dispersão Patrícia – também cursa 6 disciplinas na faculdade de Estatística e obteve as seguintes notas no exame final: Média final = 75 291 Medidas de Dispersão Como diferenciar essasduas distribuições? 292 Medidas de Dispersão Como diferenciar essas duas distribuições? Calculando a Variância e o Desvio Padrão 293 Medidas de Dispersão Coeficiente de Variação 295 Coeficiente de Variação O coeficiente de variação (CV), mede o desvio padrão em termos de percentual da média. Um CV alto, indica alta variabilidade dos dados, ou seja, menos consistência dos dados. Um CV menor, indica mais consistência dentro do conjunto de dados. 296 Coeficiente de Variação Quando comparamos a consistência entre 2 conjuntos de dados em relação a suas médias, é melhor feito quando utilizamos coeficiente de variação. 297 Coeficiente de Variação Como calculamos o Coeficiente de Variação = CV Onde: S = Desvio Padrão X = Média 298 Coeficiente de Variação Valor Médio da Ação na Bolsa de Valores $ 55.62 Valor Médio da Ação na Bolsa de Valores $ 24.86 Desvio Padrão $ 5.10 Desvio Padrão $ 3.60 299 Coeficiente de Variação 300 Coeficiente de Variação 301 Coeficiente de Variação Um investidor se sentiria mais seguro em adquirir ações da Nike, pois o preço das ações teria uma variação menor, podendo assim evitar perdas e permitindo ao investidor ter um investimento mais seguro. Medidas de Posição Relativa 303 Medidas de Posição Relativa Os dados podem ser medidos em termos de posição relativa, que compara a posição de um valor, em relação a outro valor dentro do conjunto de dados. 304 Medidas de Posição Relativa Percentil e quartil são as medidas mais comuns de posição relativa 305 Medidas de Posição Relativa Percentil 306 Medidas de Posição Relativa A maneira mais fácil de informar a posição relativa é por meio do uso do percentil 307 Medidas de Posição Relativa 308 Medidas de Posição Relativa Percentil e Porcentagem são a mesma coisa? 309 Medidas de Posição Relativa Percentil e Porcentagem não são a mesma coisa. 310 Medidas de Posição Relativa Percentil e Porcentagem não são a mesma coisa. Porcentagem (%): Proporção calculada em relação a uma grandeza de cem unidades. A porcentagem pode ser encontrada multiplicando o valor numérico por 100. 311 Medidas de Posição Relativa Percentil e Porcentagem não são a mesma coisa. Percentil: É o ponto da distribuição dos resultados ordenados da amostra (por ordem crescente dos dados) em 100 partes de igual amplitude.. Por exemplo, um resultado no percentil 90 significa que 90% dos resultados se situam nesse ponto ou abaixo dele. 312 Medidas de Posição Relativa Suponha que um aluno tenha conseguido nota 36 em um exame de admissão em uma universidade, cujo valor máximo era 45 313 Medidas de Posição Relativa Supondo que além de informar a você que o aluno conseguiu nota 36, eu dissesse que ele ficou em Isso significa que o aluno foi melhor que 97% dos outros alunos que prestaram o mesmo exame 314 Medidas de Posição Relativa Perceba que se dividirmos 36/45, o aluno teve um aproveitamento de 80% Esta informação NÃO é a mesma coisa que o percentil 315 Medidas de Posição Relativa Quartil 316 Medidas de Posição Relativa Quartil é simplesmente um específico percentil de interesse 317 Medidas de Posição Relativa Quartis são valores que dividem uma tabela de dados em quatro partes iguais: O primeiro quartil é o valor que constitui 25% percentil. O segundo quartil é o valor que constitui 50% percentil. O terceiro quartil é o valor que constitui 75% percentil. O quarto quartil é o valor que constitui 100% percentil. 318 Medidas de Posição Relativa Perceba que o segundo quartil é a mediana, ou seja, 319 Medidas de Posição Relativa Temos ainda os intervalos interquartis: 320 Medidas de Posição Relativa Os intervalos interquartis são fundamentais para saber interpretar um boxplot: Métodos Estatísticos Para Análise de Dados 322 Métodos Estatísticos Para Análise de Dados Métodos Gráficos ou Tabulares Métodos Numéricos 323 Métodos Estatísticos Para Análise de Dados 324 Métodos Estatísticos Para Análise de Dados 325 Métodos Estatísticos Para Análise de Dados 326 Métodos Estatísticos Para Análise de Dados Ao longo dos próximos vídeos vamos explorar alguns desses métodos estatísticos para análise de dados. Tabela de Frequência 328 Tabela de Frequência Média, Mediana, Moda, Variância, Desvio Padrão 329 Tabela de Frequência A Tabela de Frequência indica a frequência observada, ou seja, mostra a frequência com que cada observação aparece nos dados. 330 Tabela de Frequência Para descrevermos um conjunto de dados, definiremos o que são classes de frequência, isto é, intervalos da variável de interesse, e verificaremos o número de dados neste intervalo. 331 Tabela de Frequência Isso nos dá a Distribuição de Frequência, que é a associação das frequências aos valores obtidos correspondentes. 332 Tabela de Frequência Para criar uma tabela de frequência, precisamos definir: Número de classes Amplitude das classes Ponto inicial 333 Tabela de Frequência A frequência pode ser: • Absoluta • Relativa 334 Tabela de Frequência Frequência Acumulada É o total acumulado (soma) de todas as classes anteriores até a classe atual. Capítulo 12 Introdução à Estatística Para Data Science Parte 2 336 Introdução à Estatística Para Data Science Capítulo 11 Introdução à Estatística Para Data Science Parte 1 Capítulo 12 Introdução à Estatística Para Data Science Parte 2 337 Introdução à Estatística Para Data Science Probabilidade Estatística Inferencial 338 Introdução à Estatística Para Data Science Formação Cientista de Dados Big Data Analytics com R e Microsoft Azure Machine Learning• Big Data Real• -Time Analytics com Python e Apache Spark Engenharia de Dados com Hadoop e Spark• Machine Learning• Business Analytics• Visualização de Dados e Design de Dashboards• 339 Introdução à Estatística Para Data Science Formação Inteligência Artificial • Introdução à Inteligência Artificial • Deep Learning Frameworks • Programação Paralela em GPU • Deep Learning I • Deep Learning II • Visão Computacional e Reconhecimento de Imagens • Processamento de Linguagem Natural e Reconhecimento de Voz • Análise de Grafos Para Big Data • Sistemas Cognitivos 340 Introdução à Estatística Para Data Science Teoria e Prática 341 Introdução à Estatística Para Data Science Este Capítulo é Sobre Estatística 342 Introdução à Estatística Para Data Science Dica: Não caia na tentação de pular a parte teórica e ir direto para as atividades práticas Lembre-se: Não existe atalho para o aprendizado Introdução à Teoria da Probabilidade 344 Introdução à Teoria da Probabilidade 345 Introdução à Teoria da Probabilidade Probabilidade é provavelmente um dos tópicos de mais difícil compreensão no campo da Estatística 346 Introdução à Teoria da Probabilidade Probabilidade é o estudo da aleatoriedade e incerteza. É a quantificação do conhecimento que temos sobre um particular evento 347 Introdução à Teoria da Probabilidade Comércio Eletrônico de Livros Poderíamos analisar qual a probabilidade de um cliente fazer uma compra após 10 minutos navegando pelo site. 348 Introdução à Teoria da Probabilidade Operadora de Cartão de Crédito Poderíamos analisar qual a probabilidade de um cliente com histórico de atrasos de pagamento, atrasar o pagamento da sua próxima fatura. 349 Introdução à Teoria da Probabilidade Empresa de Mídia Poderia analisar a probabilidade de um próximo evento esportivo ter uma audiência superior a 20 milhões de pessoas. 350 Introdução à Teoria da Probabilidade Departamento de Vendas Poderia analisar a probabilidade de um cliente adquirir uma garantia estendida, após comprar um computador. 351 Introdução à Teoria da Probabilidade O que estes eventos tem em comum? Podemos usar a Probabilidade para quantificar o conhecimento, considerando a aleatoriedade e a incerteza 352 Introdução à Teoria da ProbabilidadeProbabilidade é um valor numérico que indica a chance, ou probabilidade, de um evento específico ocorrer. Este valor numérico vai estar entre 0 e 1. Se um evento não possui chance de ocorrer, sua probabilidade é 0 (ou 0%). Se temos certeza sobre a ocorrência do evento, sua probabilidade é 1 (ou 100%). 353 Introdução à Teoria da Probabilidade Probabilidade e Possibilidade são a mesma Coisa? 354 Introdução à Teoria da Probabilidade 355 Introdução à Teoria da Probabilidade Probabilidade é a medida da possibilidade de um evento ocorrer. A probabilidade de chuva amanhã é de 40% Experimento, Espaço da Amostra e Evento 357 Experimento, Espaço da Amostra e Evento Experimento – é o processo de medir ou observar uma atividade com o propósito de coletar dados. Exemplo: jogar um dado. 358 Experimento, Espaço da Amostra e Evento Espaço da Amostra – todos os possíveis resultados de um experimento. Exemplo: ao jogar um dado, todos os resultados possíveis são {1, 2, 3, 4, 5, 6}. 359 Experimento, Espaço da Amostra e Evento Experimentos e seus respectivos espaços da amostra. Experimento Espaço da Amostra Jogar uma moeda {cara, coroa} Responder uma questão de múltipla escolha {a, b, c, d, e} Inspecionar um produto {defeituoso, não defeituoso} Puxar uma carta de um baralho padrão {52 cartas de uma baralho padrão} 360 Experimento, Espaço da Amostra e Evento Evento – um ou mais resultados de um experimento. O resultado e/ou resultados são um subconjunto do espaço da amostra. 361 Experimento, Espaço da Amostra e Evento Evento Simples – um único resultado de um experimento. Evento Composto – mais de um resultado de um experimento. Experimentos Determinísticos e Aleatórios 363 Experimentos Determinísticos e Aleatórios Experimento Determinístico Experimento: caneta caindo no chão. Resultado sempre o mesmo! 364 Experimentos Determinísticos e Aleatórios Experimento Aleatório Experimento: caneta caindo no chão e medida da distância em relação à parede. Resultado aleatório! 365 Experimentos Determinísticos e Aleatórios A relação de todos os resultados possíveis de um experimento, é o que nós chamamos de espaço amostral. Tipos de Probabilidade 367 Tipos de Probabilidade Probabilidade Clássica Probabilidade Frequencialista (Empírica) Probabilidade Subjetiva 368 Tipos de Probabilidade Probabilidade Clássica ½ = 0,5 = 50% de probabilidade 369 Tipos de Probabilidade Probabilidade Frequencialista (Empírica) f = 10, n = 500 P = f/n = 10/500 = 0,02 = 2% de probabilidade 370 Tipos de Probabilidade Probabilidade Frequencialista (Empírica) Família Frequência Frequência Relativa Não Possui Casa Própria 490 490/500 = 0,92 Possui Casa Própria 10 10/500 = 0,02 n = 500 Total = 1,00 371 Tipos de Probabilidade Probabilidade Subjetiva Probabilidade Clássica 373 Probabilidade Clássica Probabilidade Clássica: é usada quando nós sabemos o número de possíveis resultados do evento de interesse e podemos calcular a probabilidade do evento com a seguinte fórmula: Onde: P(A) é a probabilidade de um evento ocorrer. 374 Probabilidade Clássica 375 Probabilidade Clássica Experimento com um Dado: Um dado possui um espaço de amostra igual a {1, 2, 3, 4, 5, 6}, com 6 possíveis resultados. Qual seria a probabilidade de, ao jogarmos o dado, conseguirmos que o número 5 seja a face em evidência? P(A) = 1 / 6 = 0.167 376 Probabilidade Clássica Experimento com um Dado: Um dado possui um espaço de amostra igual a {1, 2, 3, 4, 5, 6}, com 6 possíveis resultados. Qual seria a probabilidade de, ao jogarmos o dado, conseguirmos que o número 5 seja a face em evidência? P(A) = 1 / 6 = 0.167 Ou seja, 16.7% de probabilidade de jogarmos um dado e conseguirmos a face com o número 5. 377 Probabilidade Clássica Qual a probabilidade de se obter um 3 ou um 4 em uma jogada de um dado equilibrado? 378 Probabilidade Clássica Qual a probabilidade de se obter um 3 ou um 4 em uma jogada de um dado equilibrado? Como temos 2 Possibilidades, “3 ou 4”. 2/6 = 0,33 33,33% s = resultado de interesse = 2 resultados (3 ou 4). n = resultados possíveis = 6 (1,2,3,4,5,6). Probabilidade Empírica 380 Probabilidade Empírica Quando sabemos os possíveis resultados de um evento, utilizamos a Probabilidade Clássica. E quando não sabemos quais os possíveis resultados? 381 Probabilidade Empírica Nestes casos, utilizamos a Probabilidade Empírica, que envolve conduzirmos um experimento, para observarmos a frequência com que um evento ocorre. 382 Probabilidade Empírica Para calcularmos a probabilidade empírica, usamos a fórmula: Onde: P(A) é a probabilidade de um evento ocorrer. 383 Probabilidade Empírica Experimento da Loja de Livros: Qual a probabilidade de que uma pessoa que entre na loja, faça uma compra? 384 Probabilidade Empírica A probabilidade clássica não poderia nos ajudar aqui, pois não temos informação sobre porque as pessoas fazem uma compra. 385 Probabilidade Empírica Usamos então a probabilidade empírica, para contar quantas pessoas que entram na loja, finalizam uma compra. 386 Probabilidade Empírica Supondo que 100 pessoas entraram na loja e que 15 fizeram uma compra, a probabilidade empírica seria dada pela seguinte fórmula: 15% Regras Básicas que Regem a Teoria da Probabilidade 388 Regras Básicas que Regem a Teoria da Probabilidade Regra1ª Se P(A) = 1, então podemos garantir que o evento A ocorrerá. 389 Regras Básicas que Regem a Teoria da Probabilidade Regra2ª Se P(A) = 0, então podemos garantir que o evento A não ocorrerá. 390 Regras Básicas que Regem a Teoria da Probabilidade Regra3ª A probabilidade de qualquer evento sempre será entre 0 e 1. Probabilidades nunca podem ser negativas ou maior que 1. 391 Regras Básicas que Regem a Teoria da Probabilidade Regra4ª A soma de todas as probabilidades para um evento simples, em um espaço de amostra, será igual a 1. 392 Regras Básicas que Regem a Teoria da Probabilidade Regra5ª O complemento do evento A é definido como todos os resultados em um espaço de amostra, que não fazem parte do evento A. Ou seja: P(A) = 1 – P(A’), onde P(A’) é o complemento do evento A. Operações com Eventos 394 Operações com Eventos 395 Operações com Eventos Neste caso, temos 2 eventos: Evento A – cliente tem um histórico de crédito ruim. Evento B – cliente não paga o cheque especial. 396 Operações com Eventos União de Eventos 397 Operações com Eventos Interseção de Eventos 398 Operações com Eventos Evento Complementar 399 Operações com Eventos Eventos Mutuamente Exclusivos Eventos Não Mutuamente Exclusivos 400 Operações com Eventos Eventos Mutuamente Exclusivos - são aqueles que não podem ocorrer ao mesmo tempo durante um experimento. 401 Operações com Eventos Eventos Não Mutuamente Exclusivos - são aqueles que podem ocorrer ao mesmo tempo durante um experimento. Teoremas da Probabilidade 403 Teoremas da Probabilidade União de Eventos 404 Teoremas da Probabilidade Interseção de Eventos 405 Teoremas da Probabilidade Evento Complementar Teorema de Bayes 407 Teorema de Bayes O Teorema de Bayes é a base de um dos principais algoritmos de Machine Learning, o Naïve Bayes. Temos um capítulo inteiro dedicado ao Naïve Bayes no curso de Machine Learning. 408 Teorema de Bayes 409 Teorema de Bayes Probabilidade condicional é a probabilidade de ocorrer o evento B, tendo ocorrido o evento A. Mas pode ser necessário encontrar a probabilidade de um evento A, antes do evento B, que também já ocorreu. Para esses casos, aplicamos o Teorema de Bayes. 410 Teorema de Bayes 411 Teorema de Bayes Esse• teorema é útil quando interpretado como uma regra para indução: os dados e o evento B são considerados como sucessores de A, o grau de crença anterior a realização do experimento. Assim• sendo P(A) é chamadode probabilidade a priori a qual será modificada pela experiência. A experiência é determinada pela verossimilhança P(B|A). Finalmente• , P(A|B) é a probabilidade a posteriori, ou o nível de crença após a realização do experimento. • A primeira vista o teorema parece trivial mas seu poder reside na sua interpretação. 412 Teorema de Bayes Controle de Qualidade Uma companhia multinacional tem três fábricas que produzem o mesmo tipo de produto. A fábrica I é responsável por 30% do total produzido, a fábrica II produz 45% do total, e o restante vem da fábrica III. Cada uma das fábricas, no entanto, produz uma proporção de produtos que não atendem aos padrões estabelecidos pelas normas internacionais. Tais produtos são considerados “defeituosos” e correspondem a 1%, 2% e 1,5%, respectivamente, dos totais produzidos por fábrica. No centro de distribuição, é feito o controle de qualidade da produção combinada das fábricas. Qual(1) é a probabilidade de encontrar um produto defeituoso durante a inspeção de qualidade? (2) Se durante a inspeção, encontramos um produto defeituoso, qual é a probabilidade que ele tenha sido produzido na fábrica II? 413 Teorema de Bayes Qual(1) é a probabilidade de encontrar um produto defeituoso durante a inspeção de qualidade? Evento A = {Produto Defeituoso} Fi = {Produto da Fábrica i} Sabemos que: P(F1) = 0,3 P(F2) = 0,45 P(F3) = 0,25 Além disso, sabemos que: P(A|F1) = 0,01 P(A|F2) = 0,02 P(A|F3) = 0,015 Então, pela lei da probabilidade total: P(A) = P(A|F1).P(F1) + P(A|F2).P(F2) + P(A|F3).P(F3) P(A) = 0,3 ∗ 0,01 + 0,45 ∗ 0,02 + 0,25 ∗ 0,015 P(A) = 0,01575 P(A) = 1.58% 414 Teorema de Bayes Aqui, aplicaremos o Teorema de Bayes usando o item anterior para encontrar P(A): Probabilidade de 57% de encontrar um produto defeituoso durante a inspeção, que tenha sido produzido na Fábrica II. 415 Teorema de Bayes Como é construído um Classificador Baseado no Teorema de Bayes? 416 Teorema de Bayes De acordo com o clima ou tempo de uma forma geral, qual a probabilidade de um jogador praticar ou não um esporte? 417 Teorema de Bayes Passo 1: Converter o conjunto de dados em uma tabela de frequência Tabela de Frequência Clima Não Sim Nublado 0 4 Sol 2 3 Chuva 3 2 Total 5 9 418 Teorema de Bayes Passo 2: Criar tabela de Probabilidade para encontrar as probabilidades de cada ocorrência e de cada combinação. Tabela de Frequência Clima Não Sim Nublado 0 4 Sol 2 3 Chuva 3 2 Total 5 9 =4/14 0.29 =5/14 0.36 =5/14 0.36 =5/14 =9/14 0.36 0.64 419 Teorema de Bayes Passo 3: Usamos a equação do Teorema de Bayes para calcular a probabilidade posterior para cada classe. A classe com maior probabilidade posterior é o resultado da previsão. Tabela de Frequência Clima Não Sim Nublado 0 4 Sol 2 3 Chuva 3 2 Total 5 9 =4/14 0.29 =5/14 0.36 =5/14 0.36 =5/14 =9/14 0.36 0.64 420 Teorema de Bayes Os jogadores irão praticar esporte se o tempo estiver ensolarado. Esta afirmação está correta? P (Sim | Sol) = P (Sol | Sim) * P (Sim) / P (Sol) Tabela de Frequência Clima Não Sim Nublado 0 4 Sol 2 3 Chuva 3 2 Total 5 9 =4/14 0.29 =5/14 0.36 =5/14 0.36 =5/14 =9/14 0.36 0.64 421 Teorema de Bayes Os jogadores irão praticar esporte se o tempo estiver ensolarado. Esta afirmação está correta? Tabela de Frequência Clima Não Sim Nublado 0 4 Sol 2 3 Chuva 3 2 Total 5 9 Aqui temos: P (Sol | Sim) = 3/9 = 0.33 P (Sol) = 5/14 = 0.36 422 Teorema de Bayes Os jogadores irão praticar esporte se o tempo estiver ensolarado. Esta afirmação está correta? Tabela de Frequência Clima Não Sim Nublado 0 4 Sol 2 3 Chuva 3 2 Total 5 9 Aqui temos: P (Sol | Sim) = 3/9 = 0.33 P (Sol) = 5/14 = 0.36 P (Sim) = 9/14 = 0.64 423 Teorema de Bayes Os jogadores irão praticar esporte se o tempo estiver ensolarado. Esta afirmação está correta? Agora, é só colocar na fórmula: P (Sim | Sol) = P (Sol | Sim) * P (Sim) / P (Sol) P (Sim | Sol) = 0.33 * 0.64 / 0.36 424 Teorema de Bayes Os jogadores irão praticar esporte se o tempo estiver ensolarado. Esta afirmação está correta? Agora, é só colocar na fórmula: P (Sim | Sol) = P (Sol | Sim) * P (Sim) / P (Sol) P (Sim | Sol) = 0.33 * 0.64 / 0.36 = 0.60 = 60% 425 Teorema de Bayes Os jogadores irão praticar esporte se o tempo estiver ensolarado. Esta afirmação está correta? Sim, a afirmação está correta! Agora, é só colocar na fórmula: P (Sim | Sol) = P (Sol | Sim) * P (Sim) / P (Sol) P (Sim | Sol) = 0.33 * 0.64 / 0.36 = 0.60 = 60% O algoritmo Naive Bayes usa um método similar para prever a probabilidade de classe diferente com base em vários atributos. Este algoritmo é usado principalmente em classificação de texto e com os problemas que têm múltiplas classes. 426 Teorema de Bayes A ideia principal é que a probabilidade de um evento A dado um evento B (ou seja, a probabilidade de alguém ter câncer de mama sabendo, ou dado, que a mamografia deu positivo para o teste) depende não apenas do relacionamento entre os eventos A e B (i.e., a precisão, ou exatidão, da mamografia), mas também da probabilidade marginal (ou "probabilidade simples") da ocorrência de cada evento. 427 Teorema de Bayes Você ainda tem dúvidas se deveria aprender a trabalhar com Machine Learning? É a tecnologia que está transformando nosso mundo! Variáveis Aleatórias Discretas e Contínuas 429 Variáveis Aleatórias Discretas e Contínuas 430 Variáveis Aleatórias Discretas e Contínuas Variável aleatória é uma variável cujo valor é determinado pelo resultado de um experimento aleatório. 431 Variáveis Aleatórias Discretas e Contínuas Número de Veículos Frequência Frequência Relativa 0 30 30/2000 = 0,015 1 470 470/2000 = 0,235 2 850 850/2000 = 0,425 3 490 490/2000 = 0,245 4 160 160/2000 = 0,080 Total n = 2000 1,0 x = número de veículos 432 Variáveis Aleatórias Discretas e Contínuas Variável aleatória é uma variável cujo valor é determinado pelo resultado de um experimento aleatório. 433 Variáveis Aleatórias Discretas e Contínuas Variável Aleatória Discreta Contínua Distribuições de Probabilidade 435 Distribuições de Probabilidade 436 Distribuições de Probabilidade Uma distribuição de probabilidade descreve o comportamento de uma variável aleatória discreta ou contínua. 437 Distribuições de Probabilidade A soma de todos os valores de uma Distribuição de Probabilidades deve ser igual a 1. A Probabilidade de ocorrência de um evento deve ser maior do que 0 e menor do que 1. 438 Distribuições de Probabilidade Uma distribuição de probabilidade pode ser: 439 Distribuições de Probabilidade Descreve quantidades aleatórias de dados que podem assumir valores finitos. A distribuição de probabilidade Discreta: 440 Distribuições de Probabilidade A distribuição de probabilidades de uma variável aleatória discreta apresenta todos os valores possíveis que uma variável aleatória pode assumir, bem como suas probabilidades correspondentes. A distribuição de probabilidade Discreta: 441 Distribuições de Probabilidade Binomial Poisson Hipergeométrica Bernoulli A distribuição de probabilidade Discreta: 442 Distribuições de Probabilidade Descreve quantidades aleatórias de dados contínuos que podem assumir valores infinitos A distribuição de probabilidade Contínua: 443 Distribuições de Probabilidade Uniforme Exponencial Gama Chi-Quadrado A distribuição de probabilidade Contínua: 444 Distribuições de Probabilidade E temos ainda a distribuição normal, para variáveis contínuas, mas que possui uma série de características distintas. 445 Distribuições de Probabilidade Distribuição Normal A Distribuição Normal representa uma dentre as muitas distribuições de probabilidades que uma variável aleatória contínua pode possuir. A distribuição normal representa a distribuição de probabilidades mais importante e mais amplamente utilizada dentre todas asdistribuições de probabilidades. Um grande número de fenômenos no mundo real é distribuído aproximadamente nos moldes de uma distribuição normal. Distribuição Binomial 447 Distribuição Binomial É aplicada para se encontrar a probabilidade de que um resultado venha a ocorrer x vezes em n realizações de um experimento. 448 Distribuição Binomial Uma variável aleatória tem Distribuição Binomial quando o experimento ao qual está relacionada apresenta apenas 2 resultados: Sucesso• Fracasso• 449 Distribuição Binomial Outra característica da distribuição binomial, é que cada observação é independente das outras. Dessa forma, um Experimento Binomial consiste de um número fixo de observações, indicado por n e contamos o número de sucessos, indicado por x. Distribuição Poisson 451 Distribuição Poisson A Distribuição Poisson é muito útil para calcular a probabilidade de um certo número de eventos que ocorrerá em um específico intervalo de tempo ou espaço. 452 Distribuição Poisson Nós poderíamos usar este tipo de distribuição para determinar a probabilidade de 10 clientes entrarem em uma loja nos próximos 30 minutos ou a probabilidade de 2 acidentes de carro ocorrem em um determinado cruzamento no próximo mês. 453 Distribuição Poisson A Distribuição Poisson é um modelo para o número de eventos observados numa unidade de tempo ou de espaço, dado que a taxa de eventos por unidade é constante e os eventos ocorrem de modo independente. 454 Distribuição Poisson O único parâmetro da Poisson é λ (lambda), que representa a taxa de eventos por unidade. 455 Distribuição Poisson Se um certo número de objetos está distribuído ao acaso por uma área, e esta área é dividida em quadrículas de mesmo tamanho, o número de objetos por quadrículas pode ser descrito por uma Distribuição Poisson. Neste caso, o parâmetro λ será o total de objetos dividido pelo total de quadrículas. 456 Distribuição Poisson Distribuição Binomial, o número de sucessos observados é limitado ao número de possibilidades. Distribuição Poisson, o número de resultados pode ser qualquer um. Distribuições Contínuas 458 Distribuições Contínuas Os valores possíveis que uma variável aleatória contínua pode assumir são infinitos e incontáveis 459 Distribuições Contínuas Quando transformadas em gráficos, as Distribuições de Probabilidade Contínua podem assumir uma variedade de formatos, dependendo dos valores dos dados. 460 Distribuições Contínuas Os 3 formatos mais comuns são: 461 Distribuições Contínuas Distribuição Normal 462 Distribuições Contínuas Distribuição Exponencial 463 Distribuições Contínuas Distribuição Uniforme Distribuição Normal 465 Distribuição Normal A distribuição normal representa uma dentre as muitas distribuições de probabilidades que uma variável aleatória contínua pode possuir. 466 Distribuição Normal 467 Distribuição Normal Imagine que o número de minutos que um cliente passa ao telefone com o pessoal de suporte da companhia de TV a cabo, segue uma distribuição normal, com uma média de 12 minutos () e um desvio padrão de 2 minutos (). 468 Distribuição Normal A distribuição de probabilidade desta variável poderia ser representada no gráfico abaixo: 469 Distribuição Normal A distribuição tem um formato de sino e simétrico em torno da média. Como o formato da distribuição é simétrico, a média e a mediana possuem o mesmo valor, neste caso, 12 minutos. Variáveis randômicas em torno da média, na parte mais alta da curva, tem maior probabilidade de ocorrer, que valores situados onde a curva é menor. A parte final da curva, tanto do lado direito, quanto do lado esquerdo, em uma distribuição normal, se estende indefinidamente, nunca tocando o eixo x do gráfico. 470 Distribuição Normal O Desvio Padrão tem uma função importante no formato da curva de uma Distribuição Normal. 471 Distribuição Normal A linha vermelha possui um desvio padrão de 3 ( = 3). A curva ficou mais aberta em relação à média. O tempo médio das ligações está entre 3 e 21 minutos e não mais entre 6 e 18 minutos, quando o desvio padrão é 2. Um desvio padrão menor resulta em uma curva mais estreita. Um desvio padrão maior, faz com que a curva seja mais baixa e mais aberta. 472 Distribuição Normal E se mudamos a média, de 12 para 21 minutos e mantemos o desvio padrão de 2? 473 Distribuição Normal Em cada um dos gráficos apresentados, as características de uma Distribuição de Probabilidade Normal são mantidas. 474 Distribuição Normal As probabilidades de distribuições normais podem ser calculadas através do uso de fórmulas, tabelas de probabilidade e softwares estatísticos, como a Linguagem R. Capítulo 13 Microsoft Power BI e Facebook Analytics 476 Microsoft Power BI e Facebook Analytics Capítulo 14 Microsoft Power BI e Google Analytics 478 Microsoft Power BI e Google Analytics Web Analytics Métricas de Marketing Digital 480 Web Analytics – Métricas de Marketing Digital 481 Web Analytics – Métricas de Marketing Digital Visita (ou sessão)• Visitante• Pageviews• Taxa de Rejeição• Percentual de Saída• Fontes ou Canais de Tráfego• Idade• Localidade• Horário• Capítulo 15 Microsoft Power BI e Apache Spark 483 Microsoft Power BI e Apache Spark 484 Microsoft Power BI e Apache Spark Big Data Fundamentos• Big Data Real• -Time Analytics com Python e Apache Spark Engenharia de Dados com Hadoop e Spark• Machine Learning com Linguagem Scala e Apache Spark• Curso de Apache Spark na Data Science Academy: O Que é Apache Spark? Apache Spark é um dos assuntos mais quentes do momento em tecnologias de Big Data Analytics. A quantidade de dados gerados em todo o mundo aumenta de forma exponencial e o Spark é claramente a solução computacional expressamente concebida para lidar com este nível de crescimento. Primeiramente criado como parte de um projeto de pesquisa na Universidade de Berkeley nos EUA, Spark é um projeto open source no universo do Big Data, construído para análises sofisticadas, velocidade de processamento e facilidade de uso. Ele unifica capacidades críticas de análise de dados, como SQL, análise avançada em Machine Learning e streaming de dados, tudo isso em uma única estrutura. E mais recentemente com suporte a Deep Learning. 486 Apache Spark O Spark permite que aplicações em clusters Hadoop executem até 100 vezes mais rápido em memória e até 10 vezes mais rápido em disco. Permite o desenvolvimento rápido de aplicações em Java, Scala ou Python, além de linguagem R. Além disso, vem com um conjunto integrado de mais de 80 operadores de alto nível e pode ser usado de forma interativa para consultar dados diretamente do console. Além das operações de Map/Reduce, suporta consultas SQL, streaming de dados, aprendizado de máquina e processamento de grafos. Desenvolvedores podem usar esses recursos no modo stand- alone ou combiná-los em um único pipeline. 487 Apache Spark 488 Apache Spark Spark realiza operações de MapReduce➢ Spark pode utilizar o HDFS➢ Spark permite construir um workflow de Analytics➢ Spark utiliza a memória do computador de forma diferente e eficiente➢ Spark é veloz➢ Spark é flexível➢ Spark é gratuito➢ Principais características do Spark: 489 Apache Spark Por que Aprender Apache Spark? Por diversas razões: é atualmente uma das tecnologias mais quentes em Big Data Analytics, devido sua velocidade de processamento. Mais e mais empresas estão adotando infraestrutura de Big Data que tem o Spark como um dos componentes principais. Existe cada vez mais suporte de outras empresas e existe alta demanda por profissionais que conheçam processamento de dados em tempo real. Portanto, existem diversas razões pelas quais você deveria aprender a usar o Spark. Apache Spark Framework O Apache Spark possui 4 módulos principais: SQL, MLLib, GraphX e Streaming. Esses módulos são intercambiáveis, o que significaque podemos passar os dados de um módulo para outro. Por exemplo: dados de streaming podem ser passados para o módulo SQL e tabelas temporárias podem ser criadas para análise de dados em tempo real. 491 Apache Spark Framework 492 Apache Spark Framework 493 Apache Spark Framework 494 Apache Spark Framework 495 Apache Spark Framework 496 Apache Spark Framework 497 Apache Spark Framework 498 Apache Spark Framework Os profissionais que desenvolveram o Spark fundaram uma startup chamada Databricks, que oferece soluções avançadas para gestão de cluster, além de diversas funcionalidades como organização em notebooks, controle de acesso pode ser configurado e tudo isso em nuvem. Microsoft e Amazon também oferecem soluções baseadas em Spark e também em nuvem. Muito Obrigado