Buscar

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 499 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 499 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 499 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

PARA DATA SCIENCE
Esse e-book não pode ser usado para fins comerciais, mas pode
ser distribuído livremente sob a licença Creative Commons.
Pedimos apenas, a gentileza de citar a fonte, pois todo este
material é resultado de trabalho árduo de nossa equipe.
Esta foi a forma que encontramos de contribuir para uma
sociedade que deve ter a educação como prioridade.
http://datascienceacademy.us12.list-manage.com/track/click?u=22e85428e66233bf585e5c9be&id=bce8270346&e=e10a87a3ec
P r e s e n t a t i o n
Microsoft Power BI para 
Data Science
Por que um Curso de Microsoft Power BI?
Do BI para Data Science
Esse curso dará a você exatamente isso. Um caminho, um guia, de como fazer a transição do BI para
Data Science. Isso não significa que o BI seja menos importante. Longe disso. Mas o mundo atual
caminha para a utilização cada vez maior de Inteligência Artificial, e Machine Learning é uma das
portas de entrada nesse novo mundo. Enquanto aprende o Power BI e os principais conceitos de
Business Intelligence, você fará uma suave transição para tudo que Data Science pode proporcionar.
Treinamentos Gratuitos DSA
Big Data 
Fundamentos
Introdução à Ciência 
de Dados
Python Fundamentos 
Para Análise de Dados
Microsoft Power BI 
Para Data Science
Conteúdo Programático
16 Módulos
01
02
03
Conteúdo Programático
Business Intelligence no Power BI
Primeiros Passos com Power BI Desktop
Introdução
04 Modelagem e Relacionamento
05
Séries Temporais, Agregação e Filtros
06
07
08
Conteúdo Programático
Microsoft Power BI Mobile
Power BI e Bancos de Dados Oracle
Mapas, Scatterplots e Dashboards Interativos 
09 Introdução a Machine Learning
10
Microsoft Power BI e Linguagem R
11
12
13
Conteúdo Programático
Microsoft Power BI e Google Analytics
Microsoft Power BI e Facebook Analytics
Estatística Fundamental para Data Science
14 Microsoft Power BI e Apache Spark
15
Avaliação e Certificado de Conclusão
Tem certeza que esse curso é gratuito?
Bonus
SUCESSO
Introdução ao Deep Learning 
com Microsoft Cognitive Toolkit
O que esse curso não é?
Este não é um curso de Machine Learning ou Deep Learning, ou mesmo linguagem R ou 
Python. Temos diversos outros cursos aqui na DSA abordando esses assuntos em 
detalhes, até porque eles são bastante extensos.Este curso é dividido em duas partes. Na 
primeira estudaremos o Power BI e os principais conceitos de Business Intelligence e na 
segunda parte teremos uma introdução bastante técnica ao mundo das análises preditivas 
com Data Science e Machine Learning.
Requerimentos de Hardware
Vamos construir um ambiente de
desenvolvimento local.
Seu computador deve ter o mínimo
de hardware recomendado:
• Mínimo de 4GB de RAM (8 GB ideal)
• Processador Core i5 / i7 ou similar
• Espaço em disco disponível
Conhecendo Seu Sistema Operacional
Conhecer seu sistema operacional é
fundamental.
Este curso será no Windows 10, mas você
também pode acompanhar o curso
usando Windows 7, 8 ou 8.1.
Ao final deste capítulo você encontra 2
vídeos com uma visão geral de como
configurar o Windows 10 como um
ambiente de desenvolvimento.
Sua Abordagem ao Curso
2 a 4 horas de dedicação por semana
Crie e execute todos os procedimentos 
demonstrados ao longo das aulas
Material adicional na seção de Bibliografia,
Referências e Links úteis, além de Quizzes
ao final de cada capítulo
Comunique-se
Interação e Networking com outros alunos no 
forum exclusivo
Avaliação Final
Questões
50
Tentativas
3
Aproveitamento
70%
E-book
Se você for aprovado na 
avaliação final receberá o e-book 
com todo o conteúdo do curso, 
de forma gratuita.
Compartilhe seu Certificado de Conclusão
Objetivos ao Fim Deste Curso
Desenvolver habilidades na utilização do Microsoft
Power BI.
Compreender como funciona a integração do Microsoft
Power BI com banco de dados Oracle, Apache Spark,
Linguagem R, Facebook e Google Analytics.
Definir os principais conceitos de Machine Learning.
Compreender a função da Estatística no processo de
Data Science
Utilizar de forma eficiente o Power BI Mobile
Produzir visualizações e Dashboards profissionais
Treinamentos DSA
Formação 
Cientista de 
Dados
(6 cursos)
Formação 
Inteligência 
Artificial
(9 cursos)
Desenvolvimento 
de Chatbots
Data Mining e 
Modelagem 
Preditiva
Gerenciamento 
de Dados com 
MongoDB
R Fundamentos 
Para Análise de 
Dados
Machine 
Learning com 
Scala e Spark
Big Data Analytics com R e Azure
Big Data Real-Time Analytics com Python e Spark
Engenharia de Dados com Hadoop e Spark
Machine Learning
Business Analytics
Visualização de Dados e Design de Dashboards
Introdução à Inteligência Artificial
Deep Learning Frameworks
Programação Paralela em GPU
Deep Learning I
Deep Learning II
Visão Computacional
Processamento de Linguagem Natural
Análise de Grafos para Big Data
Sistemas Cognitivos
Apps Gratuitas para iOS e Android
E você ainda pode acompanhar qualquer um dos nossos 
cursos do seu smartphone ou tablet com nossas apps gratuitas 
para iOS e Android.
Dados x Informação x 
Conhecimento x Inteligência
26Dados x Informação x Conhecimento x Inteligência
Dado
27Dados x Informação x Conhecimento x Inteligência
Informação
28Dados x Informação x Conhecimento x Inteligência
As pessoas trabalham com informações mas a 
tecnologia armazena dados
29Dados x Informação x Conhecimento x Inteligência
Conhecimento
30Dados x Informação x Conhecimento x Inteligência
31Dados x Informação x Conhecimento x Inteligência
Inteligência – capacidade de resolver problemas, usando o 
conhecimento, através das informações disponíveis
32Dados x Informação x Conhecimento x Inteligência
Nosso objetivo é começar com os dados, transformá-los em 
informações e conhecimento e permitir que tomadores de decisão 
usem sua inteligência para resolver problemas, a partir do 
conhecimento adquirido.
Business Intelligence
X
Data Science
Evolução dos Sistemas Analíticos
Evolução dos Sistemas Analíticos
Analytics
Big Data Analytics
Extrair conhecimento a partir 
dos dados
Machine Learning
Treinar algoritmos a usar 
inteligência, ou seja, usar o 
conhecimento para resolver 
problemas
Capítulo 2
Primeiros Passos com o 
Power BI Desktop
38Primeiros Passos com Power BI Desktop
Fontes de Dados do Power BI•
Carregar Arquivos CSV e Excel•
Power BI Desktop Workflow•
Explorar os Dados•
Construir Visualizações•
Formatar Legenda, Título e Labels•
39Primeiros Passos com Power BI Desktop
Estudo de Caso
Construindo um Dashboard de Vendas
Power BI Desktop
Workflow
41Power BI Desktop Workflow
Power BI Desktop
Preparação dos Dados Modelagem dos Dados Visualização dos Dados
Query Editor
Relationship View 
Data View
Report View
Capítulo 3
Business Intelligence e Web 
Scraping no Power BI
43Business Intelligence e Web Scraping no Power BI
Parte 1
Web Scraping
Parte 2
Introdução a Business Intelligence
Parte 1
Web Scraping no Power BI
45Parte 1 - Web Scraping no Power BI
46Parte 1 - Web Scraping no Power BI
Atenção!!!!!
Nem todos os sites permitem ou 
autorizam que os dados sejam 
coletados de suas páginas.
Parte 2
Introdução a Business 
Intelligence no Power BI
48Parte 2 – Introdução a Business Intelligence
Business 
Intelligence
49Parte 2 – Introdução a Business Intelligence
Business 
Intelligence
Um conjunto de técnicas e ferramentas que permite 
que a organização utilize a análise das informações 
para o suporte a tomada de decisão.
Star Schema
A arquitetura de esquema em estrela é o esquema de data
warehouse mais simples. É chamado de esquema de estrela
porque o diagrama se assemelha a uma estrela, com pontos
que irradiam de um centro. O centro da estrela consiste na
tabela de fatos e os pontos da estrela são as tabelas de
dimensão. Apesar de o esquema em estrela ser a arquitetura
mais simples, é mais usado atualmente e é recomendado pela
Oracle.
51StarSchema
Capítulo 4
Limpeza, Transformação, 
Séries Temporais, Agregação 
e Filtros
53
Limpeza, Transformação, Séries Temporais, 
Agregação e Filtros
• Configurações Regionais no Power BI
• Limpeza de Dados (Remoção de Espaços, Metadados)
• Transformação (Divisão de Colunas, Substituição de Valores, Reorganização)
• Séries Temporais
• Agregação
• Granularidade
• Filtros e Slices
Capítulo 5
Modelagem, Relacionamento
e Introdução ao DAX
55
Modelagem, Relacionamento e Introdução ao DAX
Power BI Desktop
Preparação dos Dados Modelagem dos Dados Visualização dos Dados
Query Editor
Relationship View 
Data View
Report View
Relacionamentos e 
Cardinalidade
57
Relacionamentos e Cardinalidade
Um para muitos (1:*) e Muitos para um (*:1)
Um para um (1:1)
Muitos para muitos (*:*)
58
Relacionamentos e Cardinalidade
Um para muitos (1:*) e Muitos para um (*:1)
ID-Produto Produto Categoria Segmento Fabricante
1000 LG K10 TV Power Celulares Corporativo LG
1001 Geladeira Duplex Eletrodomésticos Doméstico Brastemp
1002 Notebook Dell 8 GB Eletrônicos Corporativo Dell
1003 Desktop HP 16 GB Eletrônicos Doméstico HP
1004 Impressora Deskjet Eletrônicos Doméstico HP
1005 Samsung Galaxy 8 Celulares Corporativo Samsung
ID-Venda Data ID-Produto
VE001 28/06/207 1000
VE002 28/06/2017 1001
VE003 29/06/2017 1000
VE004 30/06/2017 1002
VE005 01/07/2017 1005
VE006 01/07/2017 1005
Tabela PRODUTOS Tabela VENDAS
Cada produto é único Cada produto pode ser vendido 
diversas vezes
59
Relacionamentos e Cardinalidade
Um para um (1:1)
ID-Registro Vendedor Data Emissão Registro Validade ID-Loja Cidade Loja
1000 Ana Teixeira 28/06/2013 2023 SP8821 São Paulo
1001 Josias Silva 29/06/2013 2023 RJ9832 Rio de Janeiro
1002 Rodrigo Fagundes 29/06/2014 2024 RJ9832 Rio de Janeiro
1003 Fernando Zambrini 29/06/2015 2025 A9990 Belo Horizonte
1004 Artur Moreira 30/06/2014 2024 SP8821 São Paulo
1005 Mateus Gonçalves 01/07/2012 2022 SP8821 São Paulo
60
Relacionamentos e Cardinalidade
Um para um (1:1)
Tabela VENDEDOR Tabela REGISTRO
ID-Registro Vendedor ID-Loja Cidade Loja
1000 Ana Teixeira SP8821 São Paulo
1001 Josias Silva RJ9832 Rio de Janeiro
1002 Rodrigo Fagundes RJ9832 Rio de Janeiro
1003 Fernando Zambrini A9990 Belo Horizonte
1004 Artur Moreira SP8821 São Paulo
1005 Mateus Gonçalves SP8821 São Paulo
ID-Registro Data Emissão Registro Validade
1000 28/06/2013 2023
1001 29/06/2013 2023
1002 29/06/2014 2024
1003 29/06/2015 2025
1004 30/06/2014 2024
1005 01/07/2012 2022
61
Relacionamentos e Cardinalidade
Muitos para muitos (*:*)
(Cross Filter Direction no Power BI)
Capítulo 6
Visualização de Dados e 
Dashboards Interativos
63
Visualização de Dados e Dashboards Interativos
Power BI Desktop
Preparação dos Dados Modelagem dos Dados Visualização dos Dados
Query Editor
Relationship View 
Data View
Report View
A Importância da Visualização 
de Dados
65
A Importância da Visualização de Dados
66
A Importância da Visualização de Dados
O objetivo da visualização é simplificar o valor dos dados, 
promover a compreensão sobre eles, e comunicar 
conceitos e ideias importantes
67
A Importância da Visualização de Dados
A codificação visual é a maneira pela qual os dados são 
mapeados em estruturas visuais, sobre as quais 
construímos as imagens em uma tela
68
A Importância da Visualização de Dados
Data Visualization Framework
69
A Importância da Visualização de Dados
Visualização de Dados Numéricos e Não Numéricos
70
A Importância da Visualização de Dados
Você não achou que criar gráfico seria a parte mais fácil do 
processo, não é mesmo? 
O que são Dashboards?
72
O que são Dashboards?
Um Dashboard é uma exibição visual das informações mais 
importantes necessárias para alcançar um ou mais objetivos, 
consolidado e organizado em uma única tela para que as informações 
possam ser monitoradas e/ou analisadas ao mesmo tempo.
73
O que são Dashboards?
Um Dashboard é uma ferramenta de gestão e visualização de 
informações que é usado para monitorar indicadores de desempenho 
(KPI’s), métricas e outros pontos de dados relevantes para o negócio, 
departamento ou projeto. 
74
O que são Dashboards?
Um Dashboard é uma ferramenta de gestão e visualização de 
informações que é usado para monitorar indicadores de desempenho 
(KPI’s), métricas e outros pontos de dados relevantes para o negócio, 
departamento ou projeto. 
Com o uso de visualizações de dados, o Dashboard simplifica o 
complexo processo de análise de dados e provê ao usuário uma visão 
clara da situação atual ou eventuais previsões.
75
O que são Dashboards?
Os Dashboards receberam esse nome a partir
dos painéis de automóveis. De fato, as
empresas usam os Dashboards da mesma
forma que os Dashboards são usados em
automóveis. Sob o capô de um veículo, pode
haver centenas de processos que afetam o
desempenho do automóvel. O Dashboard
resume esses eventos usando visualizações
para que você tenha a paz de espírito para se
concentrar com segurança na operação do
veículo. Ou seja, você não precisa ficar
checando os processos internos do carro de
forma individual. Você usa o dashboard!
76
O que são Dashboards?
77
O que são Dashboards?
Um Dashboard bem projetado é uma notável
ferramenta de gerenciamento de informações.
Para os motoristas, os painéis permitem que se
concentrem no veículo e naveguem com
segurança pelos diversos perigos apresentados
diariamente em ruas e estradas. O mesmo se
aplica ao ambiente empresarial: os dashboards
simplificam os processos complexos em blocos
de informação, mais facilmente gerenciáveis.
Na conclusão de um projeto, um Dashboard
pode apresentar o trabalho de meses,
envolvendo várias equipes, em uma única
visualização, permitindo aos tomadores de
decisão ações rápidas e eficientes.
78
O que são Dashboards?
Ele➢ se encaixa em uma tela, mas pode haver barras de rolagem para
tabelas com muitas linhas ou gráficos com muitos pontos de dados.
➢ É altamente interativo e geralmente fornece funcionalidade como filtragem e
drill-downs.
➢ É usado principalmente para encontrar correlações, tendências, outliers
(anomalias), padrões e condições de negócios em dados.
Características de um Dashboard:
79
O que são Dashboards?
Os➢ dados usados em uma ferramenta de análise visual são geralmente
dados históricos (Business Intelligence). No entanto, é possível construir
Dashboards para visualização de dados em tempo real.
Ele➢ ajuda a identificar indicadores de desempenho (KPI’s).
➢ É tipicamente utilizado por usuários tecnicamente experientes como
analistas de dados e pesquisadores, embora venha sendo cada vez mais
utilizado por profissionais de diversas áreas de negócio.
Características de um Dashboard:
80
O que são Dashboards?
Capítulo 7
Microsoft Power BI e Banco 
de Dados Oracle
82
Microsoft Power BI e Bancos de Dados Oracle
Este NÃO é um curso de banco de dados
83
Microsoft Power BI e Bancos de Dados Oracle
Instalação do Banco de Dados Oracle e do SQL Developer•
Utilização do Power BI como Ferramenta ETL•
Construção de um Data Warehouse com o Modelo Star Schema•
Carga de dados nas tabelas•
Conexão ao banco de dados Oracle com o Power BI•
Criação de visualizações com o Power BI, a partir de dados coletados do •
banco de dados
O que estudaremos neste capítulo:
Capítulo 8
Microsoft Power BI Mobile
85
Qualquer aplicação nos dias de hoje, que não conte com uma 
versão para dispositivos móveis, já é uma aplicação obsoleta. 
Seja no ambiente corporativo, seja em nossas vidas pessoais, 
smartphones e tabletsestão cada vez mais presentes e 
precisamos oferecer aos usuários formas de utilizar esses 
dispositivos para realizar seu trabalho. Pensando nisso, a 
Microsoft disponibiliza appspara os principais tipos de 
smartphones e tabletse com uma facilidade de uso, marca 
registrada dos produtos Microsoft.
Power BI Mobile
Qualquer aplicação nos dias de hoje, que não conte com uma versão para dispositivosmóveis, já é uma
aplicação obsoleta. Seja no ambiente corporativo, seja em nossas vidas pessoais, smartphones e tablets
estão cada vez mais presentes e precisamos oferecer aos usuários formas de utilizar esses dispositivos para
realizar seu trabalho. Pensando nisso, a Microsoft disponibiliza apps para os principais tipos de
smartphones e tablets e com facilidade de uso, marca registrada dos produtos Microsoft.
86
Power BI Mobile
87
Power BI Mobile
O Power BI Service é a versão do Power BI online, que nos permite criar relatórios e dashboards de forma 
totalmente online e similar ao que fazemos com o Power BI Desktop. 
Por que Precisamos do 
Power BI Service?
89
Por que Precisamos do Power BI Service?
Relatórios e 
Dashboards
Power BI 
Desktop
Power BI 
Service
Power BI 
Mobile ou 
Power BI Service
Desenvolve com Publica com Acessa com
Compartilha/Colabora com
Muito Obrigado
Versões do Power BI
92
Versões do Power BI
Power BI Free Power BI Pro
Power BI Premium
Capítulo 9
Introdução a Machine 
Learning
94
Introdução a Machine Learning
BI Tradicional  Data Science
95
Introdução a Machine Learning
Big Data
Migrando do Business 
Intelligence para Data Science
97
Migrando do Business Intelligence para Data Science
Visualização de Dados, Relatórios e BI Machine Learning / Deep Learning
O Que é Aprendizado de 
Máquina?
99
O Que é Aprendizado de Máquina?
O que é Aprendizado?
100
O Que é Aprendizado de Máquina?
Aprendizado é a capacidade de se adaptar, modificar e 
melhorar seu comportamento e suas respostas, sendo portanto 
uma das propriedades mais importantes dos seres ditos 
inteligentes, sejam eles humanos ou não.
101
O Que é Aprendizado de Máquina?
Adaptação
Correção
Otimização
Interação
Representação
102
O Que é Aprendizado de Máquina?
Estamos tentando reproduzir o 
processo de aprendizado de seres 
humanos em máquinas, através de 
algoritmos de Machine Learning
103
O Que é Aprendizado de Máquina?
Já podemos então definir 
Aprendizado de Máquina
104
O Que é Aprendizado de Máquina?
Machine Learning é um subcampo da 
Inteligência Artificial que permite dar 
aos computadores a habilidade de 
aprender sem que sejam 
explicitamente programados para isso
105
O Que é Aprendizado de Máquina?
106
O Que é Aprendizado de Máquina?
Machine Learning ou Aprendizado de Máquina é um método de análise de 
dados que automatiza o desenvolvimento de modelos analíticos. Usando 
algoritmos que aprendem interativamente a partir de dados, o aprendizado 
de máquinas permite que os computadores encontrem insights ocultos sem 
serem explicitamente programados para procurar algo específico.
Tipos de Aprendizagem
108
Tipos de Aprendizagem
Tipos de Aprendizagem
Tipos de 
Aprendizagem
Supervisionada
Não 
Supervisionada
Semi 
Supervisionada
Aprendizagem 
Por Reforço
Deep Learning
109
Tipos de Aprendizagem
Fonte: Nvidia
Muito Obrigado
Aprendizagem 
Supervisionada
112
Aprendizagem Supervisionada
113
Aprendizagem Supervisionada
Aprendizagem Supervisionada
Dados Amostras de Dados Algoritmo
Modelo 
Treinado Teste e 
Validação
Produçã
o
114
Aprendizagem Supervisionada
115
Aprendizagem Supervisionada
Os algoritmos de aprendizado 
supervisionado fazem 
previsões com base em um 
conjunto de exemplos
116
Aprendizagem Supervisionada
Aprendizagem 
Supervisionada
Classificação Regressão
117
Aprendizagem Supervisionada
Aprendizagem 
Supervisionada
Detecção de 
Anomalias
118
Aprendizagem Supervisionada
Aprendizagem Supervisionada
É o termo usado sempre que o programa é “treinado” 
sobre um conjunto de dados pré-definido
Aprendizagem Não 
Supervisionada
120
Aprendizagem Não Supervisionada
A aprendizagem não supervisionada ocorre
quando um algoritmo aprende com exemplos
simples, sem qualquer resposta associada,
deixando a cargo do algoritmo determinar os
padrões de dados por conta própria. Este tipo de
algoritmo tende a reestruturar os dados, como
novos atributos que podem representar uma
classe ou uma nova série de valores não
correlacionadas. Eles são muito úteis em
fornecer aos seres humanos insights sobre o
significado dos dados.
121
Aprendizagem Não Supervisionada
Alguns sistemas de recomendação que 
você encontra na internet sob a forma 
de automação de marketing são 
baseados neste tipo de aprendizagem
122
Aprendizagem Não Supervisionada
123
Aprendizagem Não Supervisionada
O objetivo de um algoritmo de 
aprendizado não supervisionado é 
organizar os dados de alguma 
forma ou descrever sua estrutura
124
Aprendizagem Não Supervisionada
Aprendizagem Não-Supervisionada
Termo usado quando um programa pode 
automaticamente encontrar padrões e relações em 
um conjunto de dados
Deep Learning
Deep Learning é uma das áreas mais quentes de Machine
Learning na atualidade, que permite ensinar os
computadores a fazer coisas que até então somente os
seres humanos eram capazes de fazer. Deep Learning é o
estado da arte em atividades de aprendizagem de máquina
como visão computacional, reconhecimento de voz e
processamento de linguagem natural. Deep Learning vem
sendo usado nas mais diversas áreas, desde descoberta de
doenças e novos medicamentos, passando por tradutores
online de idiomas (cada vez mais precisos), até busca em
documentos e assistentes virtuais. Mas lembre-se, tudo tem
seu preço. O poder que Deep Learning oferece traz junto
temas complexos, processamento computacional intensivo
e muita, muita matemática.
126
Deep Learning
127
Deep Learning
128
Deep Learning
129
Deep Learning
130
Deep Learning
CNN
Convolutional Neural 
Networks
131
Deep Learning
RNN
Recurrent Neural 
Networks
132
Deep Learning
Deep Learning tem sido utilizado com mais sucesso, para resolver problemas em visão 
computacional, reconhecimento de voz, processamento de linguagem natural e outras 
aplicações de interesse comercial. 
Treinamento, Validação 
e Teste
134
Treinamento, Validação e Teste
Treinamento, 
Validação e Teste
135
Treinamento, Validação e Teste
Treinamento, Validação e Teste
75 a 70% - dados de treino
25 a 30% - dados de teste
136
Treinamento, Validação e Teste
Treinamento, Validação e Teste
75 a 70% - dados de treino
20% - dados de validação
10% - dados de teste
137
Treinamento, Validação e Teste
Treinamento, 
Validação e Teste
138
Treinamento, Validação e Teste
Treinamento, Validação e Teste
n > 10.000
139
Treinamento, Validação e Teste
Cross-Validation
140
Treinamento, Validação e Teste
Cross-Validation
O Que é um Modelo 
Preditivo?
142
O Que é um Modelo Preditivo?
143
O Que é um Modelo Preditivo?
144
O Que é um Modelo Preditivo?
145
O Que é um Modelo Preditivo?
146
O Que é um Modelo Preditivo?
Modelo
147
O Que é um Modelo Preditivo?
Modelo
148
O Que é um Modelo Preditivo?
Modelo
O processo de ”fit” do modelo a um dataset é 
chamado de treinamento do modelo
149
O Que é um Modelo Preditivo?
Modelo
150
O Que é um Modelo Preditivo?
Seu trabalho como Cientista de 
Dados é buscar sempre o melhor 
modelo possível para suas 
previsões
151
O Que é um Modelo Preditivo?
O modelo pode ser implementado 
para resolver o problema de 
negócio para o qual ele foi 
desenvolvido
152
O Que é um Modelo Preditivo?
Lembre-se: um modelo de Machine 
Learning será usado para resolver 
um problema específico
153
O Que é um Modelo Preditivo?
Não caia na tentação de querer 
aplicar seu modelo a tudo que você 
vê pela frente
Modelo Preditivo
Um Pouco de Matemática
155
Modelo Preditivo – Um Pouco de Matemática
Modelo Preditivo é uma função matemática que, 
aplicada a uma massa de dados, consegue identificar 
padrões ocultos e prever o que poderá ocorrer
156
Modelo Preditivo – Um Pouco de Matemática
Modelo Preditivo
157
Modelo Preditivo – Um Pouco de Matemática
f = função desconhecida
= = aproximação da função desconhecida
158
Modelo Preditivo– Um Pouco de Matemática
Classificação
159
Modelo Preditivo – Um Pouco de Matemática
Mas o que é um processo estocástico?
Fenômeno que varia em algum grau, de forma 
imprevisível, à medida que o tempo passa!
Variação do tráfego em um cruzamento 
Variação diária no tamanho do estoque de uma empresa 
Variação minuto a minuto do índice IBOVESPA 
Variação no estado de um sistema de potência 
Variação no número de chamadas feitas a uma central telefônica
160
Modelo Preditivo – Um Pouco de Matemática
Classificação
Crédito Salário Estado Civil Saldo Bancário Imóvel Próprio
Sim 5.000 Casado 120.000 Sim
Não 6.590 Casado 14.000 Não
Sim 7.653 Casado 34.000 Não
Sim 4.908 Solteiro 43.900 Sim
Não 5.908 Casado 1.200 Não
Sim 6.800 Solteiro 98.820 Sim
Classe
Variáveis Preditoras
161
Modelo Preditivo – Um Pouco de Matemática
O objetivo do aprendizado de máquina é aprender a 
aproximação da função f que melhor representa a 
relação entre os atributos de entrada (chamadas 
variáveis preditoras) com a variável de saída 
(chamada de variável target).
O Processo de 
Aprendizagem
163
O Processo de Aprendizagem
Um componente chave do processo de 
aprendizagem é a generalização
164
O Processo de Aprendizagem
Se um algoritmo de Machine Learning não for capaz de generalizar 
uma função matemática que faça previsões sobre novos conjuntos 
de dados, ele não está aprendendo nada e sim memorizando os 
dados, o que é bem diferente.
165
O Processo de Aprendizagem
E para poder generalizar a função que melhor resolve 
o problema, os algoritmos de Machine Learning se 
baseiam em 3 componentes:
Representação Avaliação Otimização
166
O Processo de Aprendizagem
Os algoritmos de Machine Learning 
possuem diversos parâmetros internos
167
O Processo de Aprendizagem
Otimização
168
O Processo de Aprendizagem
Espaço de 
Hipótese
169
O Processo de Aprendizagem
Nenhum algoritmo único ou uma combinação de
algoritmos é 100% preciso o tempo todo.
Pelo menos não ainda!!
170
O Processo de Aprendizagem
Cost Function
171
O Processo de Aprendizagem
Definindo o Erro
172
O Processo de Aprendizagem
Underfitting x Overfitting
Ok
173
O Processo de Aprendizagem
Elementos do Processo 
de Aprendizagem
175
Elementos do Processo de Aprendizagem
Um padrão exista
Não exista um único 
modelo matemático que 
explique esse padrão
Dados estejam 
disponíveis
Para que ocorra a 
aprendizagem, é preciso que:
176
Elementos do Processo de Aprendizagem
Aprovação de Crédito
177
Elementos do Processo de Aprendizagem
Atributo Valor
Sexo Masculino
Idade 34
Salário Mensal R$ 18.000,00
Anos no Emprego Atual 3
Anos de Residência 7
Saldo Bancário R$ 32.671,94
Aprovação de Crédito de um Indivíduo
178
Elementos do Processo de Aprendizagem
Componentes do Processo de Aprendizagem
Input
Output
Função Alvo
Dados
Hipótese
x {Dados do cliente}
y {Decisão  Crédito: Sim/Não}
f: x  y {Representação do relacionamento} 
{Função matemática desconhecida}
(x1, y1), (x2, y2),...., (xn, yn) {Dados históricos}
g: x  y {Função a ser descoberta pelo algoritmo}
179
Elementos do Processo de Aprendizagem
Função alvo (desconhecida)
f: x à y
Dados de Treino
(x1, y1), (x2, y2),...., (xn, yn) 
Hipótese Final
g f 
Algoritmo
Espaço de Hipóteses
Espaço de Hipóteses
181
Espaço de Hipóteses
Espaço de Hipóteses•
Algoritmo de Aprendizagem•
Espaço de Hipóteses
Algoritmo de 
Aprendizagem
Modelo de 
Aprendizagem
+ =
Redes Neurais Back PropagationRedes Neurais
Support Vector Machines
Back Propagation
Programação Quadrática
182
Espaço de Hipóteses
O Espaço de Hipóteses contém os recursos com os quais 
podemos trabalhar. O Algoritmo de Aprendizagem recebe os 
dados e navega pelo Espaço de Hipóteses a fim de encontrar a 
melhor hipótese que gera o resultado desejado.
Modelo de 
Aprendizagem
Espaço de Hipóteses
Processo de Construção de 
Modelos de Machine 
Learning
185
Processo de Construção de Modelos de Machine Learning
Dados	de	Treino
Dados	de	Teste
Labels
Dados	
Brutos
Pré-Processamento Aprendizado Avaliação Previsão
Algoritmo	de	
Aprenidzagem
Modelo	Final Novos	Dados
• Transformação de Variáveis
• Feature Selection
• Redução de Dimensionalidade
• Amostragem
• Seleção do Modelo
• Cross-Validation
• Métricas de Performance
• Otimização
• Validação do Modelo
• Otimização
186
Processo de Construção de Modelos de Machine Learning
No próximo capítulo vamos construir um modelo 
de Machine Learning, seguindo todas essas 
etapas, utilizando a linguagem R.
Vamos utilizar a integração do R com o Power BI 
para visualizar nosso conjunto de dados.
Capítulo 10
Microsoft Power BI e 
Linguagem R
188
Microsoft Power BI e Linguagem R
189
Microsoft Power BI e Linguagem R
Capítulo 10
Por que Aprender 
Linguagem R?
191
Por que Aprender Linguagem R?
Por que Aprender Linguagem R?
192
Por que Aprender Linguagem R?
Plataforma • Independente e Open-source
Oracle e Microsoft já Perceberam o Potencial da Linguagem R•
Uma das melhores ferramentas para visualização de dados•
Data • Wrangling (Manipulação de Dados)
Linguagem do Big Data•
Utilização da Linguagem R•
Presença na Comunidade Científica•
Machine Learning•
Capítulo 11
Introdução à Estatística Para 
Data Science
Parte 1
194
Introdução à Estatística Para Data Science
195
Introdução à Estatística Para Data Science
196
Introdução à Estatística Para Data Science
197
Introdução à Estatística Para Data Science
Capítulo 11
Introdução à Estatística 
Para Data Science
Parte 1
Capítulo 12
Introdução à Estatística 
Para Data Science
Parte 2
198
Introdução à Estatística Para Data Science
Teoria e Prática
199
Introdução à Estatística Para Data Science
Este Capítulo é 
Sobre Estatística
200
Introdução à Estatística Para Data Science
Dica: 
Não caia na tentação de pular a parte teórica e ir 
direto para as atividades práticas
Lembre-se: 
Não existe atalho para o aprendizado
Estatística x Data Science
202
Estatística x Data Science
Estatística e Data Science são a mesma coisa?
203
Estatística x Data Science
NÃO
204
Estatística x Data Science
Definindo a Estatística
206
Definindo Estatística
O que é Estatística?
207
Definindo Estatística
O que é Estatística?
A Estatística fornece técnicas e métodos de 
análise de dados que auxiliam o processo de 
tomada de decisão nos mais variados 
problemas onde existe incerteza.
208
Definindo Estatística
O que é Estatística?
Bioestatística•
Contabilometria•
Controle • de qualidade
Estatística comercial•
Estatística econômica•
Estatística • de engenharia
Estatística física•
Estatística populacional•
Estatística psicológica•
Estatística • social (para todas as ciências sociais)
Geoestatística•
Pesquisa operacional•
Análise • de processo e quimiometria
209
Definindo Estatística
210
Definindo Estatística
• Coleção de informações ou dados
• Medidas resultantes de um conjunto de dados, como por exemplo médias
• Métodos usados na coleta e interpretação de dados
O que é Estatística?
211
Definindo Estatística
212
Definindo Estatística
213
Definindo Estatística
214
Definindo Estatística
Probabilidade
Estudo da aleatoriedade e da incerteza 
215
Definindo Estatística
Estatística Descritiva
Utiliza métodos para coleta, organização, 
apresentação, análise e síntese de dados obtidos 
em uma população ou amostra.
216
Definindo Estatística
Estatística Inferencial
É o processo de estimar informações sobre uma 
população a partir dos resultados observados em 
uma amostra.
217
Definindo Estatística
O que é Estatística?
218
Definindo Estatística
Estatística é a ciência, parte da Matemática 
Aplicada, que fornece métodos para coletar, 
descrever, analisar, apresentar e interpretar
dados, para a utilização dos mesmos na 
tomada de decisões.
219
Definindo Estatística
Big Data Analytics é o termo que se refere aanálise estatística de grandes quantidades de 
dados, para que se possa extrair informação 
relevante para a compreensão da situação 
atual e a tomada de decisões. 
220
Definindo Estatística
Formação Cientista de Dados
Big Data Analytics com R e Microsoft Azure Machine Learning•
Big Data Real• -Time Analytics com Python e Spark
Engenharia de Dados com Hadoop e Spark•
Machine Learning•
Business Analytics•
Visualização de Dados e Design de Dashboards•
221
Definindo Estatística
Formação Cientista de Dados
• Big Data Analytics com R e Microsoft Azure Machine Learning
• Big Data Real-Time Analytics com Python e Spark
• Engenharia de Dados com Hadoop e Spark
• Machine Learning
• Business Analytics
• Visualização de Dados e Design de Dashboards
222
Definindo Estatística
Formação Inteligência Artificial
Formação Java Para Data Science e IA
Estatística Descritiva
População e Amostra
224
População e Amostra
Sempre que você se deparar com um novo conjunto de 
dados, uma das primeiras perguntas que devem ser feitas é: 
Qual é minha população e qual é minha amostra?
225
População e Amostra
226
População e Amostra
Pesquisa Eleitoral
Os institutos de pesquisa, examinam uma amostra e
a partir disso, deduzem informações sobre toda a
população.
227
População e Amostra
É Sopa!
228
População e Amostra
229
População e Amostra
Como garantir que a amostra representa fielmente a
população?
230
População e Amostra
É Sopa novamente!
231
População e Amostra
Randomização 
232
População e Amostra
Ok, entendi. 
Mas como eu faço com indivíduos ou com 
os meus dados?? 
233
População e Amostra
Simplesmente, você coleta sua amostra de 
forma randomizada, sem escolher exatamente 
quem fará parte da amostra. 
234
População e Amostra
E qual deve ser o tamanho da amostra?
Como Deve Ser a 
Amostragem?
236
Como Deve Ser a Amostragem?
Amostragem: usa a coleta, organização, apresentação e
análise dos dados como meio de estudar os parâmetros de
uma população.
Censo: é a técnica que seleciona e avalia todos os elementos da
população quando se realiza uma pesquisa.
237
Como Deve Ser a Amostragem?
Por que não medir uma população inteira, ao invés de medir
apenas uma amostra?
238
Como Deve Ser a Amostragem?
Dependendo das circunstâncias, medir uma população inteira seria caro
demais ou até mesmo inviável.
239
Como Deve Ser a Amostragem?
240
Como Deve Ser a Amostragem?
Pequenas amostras de biscoitos, são representativas da 
população. 
241
Como Deve Ser a Amostragem?
Trabalhando com dados representativos na amostra, 
podemos inferir o que está acontecendo na população
como um todo. 
242
Como Deve Ser a Amostragem?
Parabéns!! 
Você acabou de ter a definição de 
Estatística Inferencial
243
Como Deve Ser a Amostragem?
Lembra da sopa?
244
Como Deve Ser a Amostragem?
Os dados devem ser tratados com muito cuidado, de 
modo que as conclusões reflitam a realidade
245
Como Deve Ser a Amostragem?
Ao escolher uma amostra…
246
Como Deve Ser a Amostragem?
E como deve ser a amostragem?
Probabilística
X
Não Probabilística
247
Como Deve Ser a Amostragem?
Amostragem Probabilística
Amostragem Simples ao Acaso•
Amostragem Sistemática•
Amostragem Por Conglomerado•
Amostragem Estratificada•
Reamostragem (Boostrap)•
248
Como Deve Ser a Amostragem?
Amostragem Não Probabilística
Amostragem a Esmo•
Amostragem Intencional•
Amostragem Por Voluntários•
249
Como Deve Ser a Amostragem?
Parâmetro 
X
Estatística
251
Parâmetro x Estatística
252
Parâmetro x Estatística
Parâmetro – característica sobre a população.
Valores calculados usando dados da população são
chamados de parâmetros.
253
Parâmetro x Estatística
Estatística – característica sobre a amostra.
Valores calculados usando dados da amostra são
chamados de estatísticas.
254
Parâmetro x Estatística
Estatística Inferencial realiza deduções e conclusões
sobre a população, baseadas nos resultados obtidos da
análise da amostra.
255
Parâmetro x Estatística
A Estatística Inferencial realiza deduções e conclusões sobre a população,
baseadas nos resultados obtidos na análise da amostra.
Dados Primários
X
Dados Secundários
257
Dados Primários x Dados Secundários
Vamos relembrar um conceito fundamental
258
Dados Primários x Dados Secundários
Vamos relembrar um conceito fundamental
259
Dados Primários x Dados Secundários
Dados – valores coletados através de observação ou 
medição.
Informação – dados que são transformados em fatos
relevantes e usados para um propósito específico.
260
Dados Primários x Dados Secundários
Dados não fazem sentido, se não forem colocados 
em um contexto 
261
Dados Primários x Dados Secundários
262
Dados Primários x Dados Secundários
263
Dados Primários x Dados Secundários
264
Dados Primários x Dados Secundários
Informação  Conhecimento
Observações
X
Variáveis
266
Observações x Variáveis
Observação
Uma observação é uma ocorrência de um item de 
dados específico que é gravada sobre uma 
unidade de dados. 
267
Observações x Variáveis
Variável
Variável é a característica de interesse que é medida 
em cada elemento da amostra ou população. Como 
o nome sugere, seus valores variam de elemento 
para elemento. As variáveis podem ter valores 
numéricos ou não numéricos.
268
Observações x Variáveis
Tipos de
Variáveis
270
Tipos de Variáveis
271
Tipos de Variáveis
Como classificar os tipos de 
dados estatísticos?
272
Tipos de Variáveis
Os dados podem conter variáveis:
Qualitativas – utilizam termos descritivos para
descrever algo de interesse. Ex: cor dos olhos, estado
civil, religião, sexo, grau de escolaridade, classe social,
tipo sanguíneo, cor da pele, etc...
273
Tipos de Variáveis
Os dados podem conter variáveis:
Quantitativas – representados por valores numéricos
que podem ser contados ou medidos. Ex: número de
crianças em uma sala de aula, peso do corpo humano,
idade, número de filhos, etc…
274
Tipos de Variáveis
275
Tipos de Variáveis
Um dado classificado como "idade” é quantitativo
Ex:. 11, 15, 18, 25, 42 anos.
Entretanto, se esse dado for informado por ”faixa 
etária” ele é qualitativo (ordinal).
Ex: 0 – 5 anos
6 – 12 anos
13 – 18 anos
19 – 28 anos
276
Tipos de Variáveis
É muito importante classificar os dados, pois eles 
permitirão a você escolher o melhor teste estatístico a 
ser utilizado na análise dos dados.
Medidas de Posição
278
Medidas de Posição
População
Amostra
Média
Mediana
Moda
279
Medidas de Posição
280
Medidas de Posição
Sem dúvida, médias são as 
formas mais simples de 
identificar tendências em um 
conjunto de dados
281
Medidas de Posição
Mediana
282
Medidas de Posição
Mediana
Se o número de elementos n na amostra for 
ímpar, a Mediana será: (n + 1) /2
Se o número de elementos n na amostra for 
par, a Mediana será: (n / 2) + 1
283
Medidas de Posição
Medidas de Dispersão
285
Medidas de Dispersão
Uma maneira de descrever um conjunto de 
dados, é através de medidas de dispersão.
Elas descrevem a amplitude dos dados, ou 
seja, quão espalhados os dados estão 
dentro de um conjunto.
286
Medidas de Dispersão
A variância mede a amplitude (variabilidade) 
dos dados em relação à média. 
287
Medidas de Dispersão
O desvio padrão é usado para medir a 
variabilidade entre os números em um conjunto de 
dados. Assim como o nome sugere, o desvio 
padrão é um padrão de desvio (distância) da média. 
Em termos bem simples, o desvio padrão é a 
distância média, da média.
288
Medidas de Dispersão
289
Medidas de Dispersão
Anderson – cursa 6 disciplinas na faculdade de
Estatística e obteve as seguintes notas no exame final:
Média final = 75
290
Medidas de Dispersão
Patrícia – também cursa 6 disciplinas na faculdade de
Estatística e obteve as seguintes notas no exame final:
Média final = 75
291
Medidas de Dispersão
Como diferenciar essasduas distribuições?
292
Medidas de Dispersão
Como diferenciar essas duas distribuições?
Calculando a Variância e 
o Desvio Padrão
293
Medidas de Dispersão
Coeficiente de Variação
295
Coeficiente de Variação
O coeficiente de variação (CV), mede o desvio
padrão em termos de percentual da média. Um
CV alto, indica alta variabilidade dos dados, ou
seja, menos consistência dos dados. Um CV
menor, indica mais consistência dentro do
conjunto de dados.
296
Coeficiente de Variação
Quando comparamos a consistência entre 2 
conjuntos de dados em relação a suas 
médias, é melhor feito quando utilizamos 
coeficiente de variação. 
297
Coeficiente de Variação
Como calculamos o Coeficiente de Variação = CV
Onde: S = Desvio Padrão
X = Média
298
Coeficiente de Variação
Valor Médio da Ação 
na Bolsa de Valores 
$ 55.62
Valor Médio da Ação 
na Bolsa de Valores 
$ 24.86
Desvio Padrão
$ 5.10
Desvio Padrão
$ 3.60
299
Coeficiente de Variação
300
Coeficiente de Variação
301
Coeficiente de Variação
Um investidor se sentiria mais seguro em adquirir
ações da Nike, pois o preço das ações teria uma
variação menor, podendo assim evitar perdas e
permitindo ao investidor ter um investimento mais
seguro.
Medidas de Posição 
Relativa
303
Medidas de Posição Relativa
Os dados podem ser medidos em termos de posição 
relativa, que compara a posição de um valor, em 
relação a outro valor dentro do conjunto de dados. 
304
Medidas de Posição Relativa
Percentil e quartil são as medidas mais comuns de 
posição relativa
305
Medidas de Posição Relativa
Percentil
306
Medidas de Posição Relativa
A maneira mais fácil de informar a posição relativa é por 
meio do uso do percentil
307
Medidas de Posição Relativa
308
Medidas de Posição Relativa
Percentil e Porcentagem são a mesma coisa?
309
Medidas de Posição Relativa
Percentil e Porcentagem não são a mesma coisa.
310
Medidas de Posição Relativa
Percentil e Porcentagem não são a mesma coisa.
Porcentagem (%): Proporção calculada em relação a uma grandeza de cem unidades. A 
porcentagem pode ser encontrada multiplicando o valor numérico por 100. 
311
Medidas de Posição Relativa
Percentil e Porcentagem não são a mesma coisa.
Percentil: É o ponto da distribuição dos resultados ordenados da amostra (por ordem
crescente dos dados) em 100 partes de igual amplitude.. Por exemplo, um resultado no
percentil 90 significa que 90% dos resultados se situam nesse ponto ou abaixo dele.
312
Medidas de Posição Relativa
Suponha que um aluno tenha conseguido nota 36 em um 
exame de admissão em uma universidade, cujo valor 
máximo era 45
313
Medidas de Posição Relativa
Supondo que além de informar a você que o aluno 
conseguiu nota 36, eu dissesse que ele ficou em
Isso significa que o aluno foi melhor que 97% dos outros alunos 
que prestaram o mesmo exame
314
Medidas de Posição Relativa
Perceba que se dividirmos 36/45, o aluno teve um 
aproveitamento de 80%
Esta informação NÃO é a mesma coisa que o percentil
315
Medidas de Posição Relativa
Quartil
316
Medidas de Posição Relativa
Quartil é simplesmente um específico percentil de 
interesse
317
Medidas de Posição Relativa
Quartis são valores que dividem uma tabela de dados
em quatro partes iguais:
O primeiro quartil é o valor que constitui 25% percentil.
O segundo quartil é o valor que constitui 50% percentil.
O terceiro quartil é o valor que constitui 75% percentil.
O quarto quartil é o valor que constitui 100% percentil.
318
Medidas de Posição Relativa
Perceba que o segundo quartil é a mediana, ou seja, 
319
Medidas de Posição Relativa
Temos ainda os intervalos interquartis:
320
Medidas de Posição Relativa
Os intervalos interquartis são fundamentais para saber
interpretar um boxplot:
Métodos Estatísticos Para 
Análise de Dados
322
Métodos Estatísticos Para Análise de Dados
Métodos Gráficos ou 
Tabulares
Métodos Numéricos
323
Métodos Estatísticos Para Análise de Dados
324
Métodos Estatísticos Para Análise de Dados
325
Métodos Estatísticos Para Análise de Dados
326
Métodos Estatísticos Para Análise de Dados
Ao longo dos próximos vídeos vamos explorar alguns 
desses métodos estatísticos para análise de dados.
Tabela de Frequência
328
Tabela de Frequência
Média, Mediana, Moda, Variância, Desvio Padrão
329
Tabela de Frequência
A Tabela de Frequência indica a frequência observada, ou seja, 
mostra a frequência com que cada observação aparece nos dados.
330
Tabela de Frequência
Para descrevermos um conjunto de dados, definiremos o que são 
classes de frequência, isto é, intervalos da variável de interesse, e 
verificaremos o número de dados neste intervalo.
331
Tabela de Frequência
Isso nos dá a Distribuição de Frequência, que é a associação das 
frequências aos valores obtidos correspondentes.
332
Tabela de Frequência
Para criar uma tabela de frequência, precisamos definir:
Número de classes
Amplitude das classes
Ponto inicial
333
Tabela de Frequência
A frequência pode ser:
• Absoluta
• Relativa
334
Tabela de Frequência
Frequência Acumulada
É o total acumulado (soma) de todas as classes anteriores até a classe atual.
Capítulo 12
Introdução à Estatística Para 
Data Science
Parte 2
336
Introdução à Estatística Para Data Science
Capítulo 11
Introdução à Estatística 
Para Data Science
Parte 1
Capítulo 12
Introdução à Estatística 
Para Data Science
Parte 2
337
Introdução à Estatística Para Data Science
Probabilidade
Estatística 
Inferencial
338
Introdução à Estatística Para Data Science
Formação Cientista de Dados
Big Data Analytics com R e Microsoft Azure Machine Learning•
Big Data Real• -Time Analytics com Python e Apache Spark
Engenharia de Dados com Hadoop e Spark•
Machine Learning•
Business Analytics•
Visualização de Dados e Design de Dashboards•
339
Introdução à Estatística Para Data Science
Formação Inteligência Artificial
• Introdução à Inteligência Artificial
• Deep Learning Frameworks
• Programação Paralela em GPU
• Deep Learning I
• Deep Learning II
• Visão Computacional e Reconhecimento de Imagens
• Processamento de Linguagem Natural e Reconhecimento de Voz
• Análise de Grafos Para Big Data
• Sistemas Cognitivos
340
Introdução à Estatística Para Data Science
Teoria e Prática
341
Introdução à Estatística Para Data Science
Este Capítulo é 
Sobre Estatística
342
Introdução à Estatística Para Data Science
Dica: 
Não caia na tentação de pular a parte teórica e ir 
direto para as atividades práticas
Lembre-se: 
Não existe atalho para o aprendizado
Introdução à Teoria da 
Probabilidade
344
Introdução à Teoria da Probabilidade
345
Introdução à Teoria da Probabilidade
Probabilidade é provavelmente um dos 
tópicos de mais difícil compreensão no 
campo da Estatística
346
Introdução à Teoria da Probabilidade
Probabilidade é o estudo da aleatoriedade e incerteza.
É a quantificação do conhecimento que temos sobre um particular evento
347
Introdução à Teoria da Probabilidade
Comércio Eletrônico de Livros
Poderíamos analisar qual a probabilidade
de um cliente fazer uma compra após 10
minutos navegando pelo site.
348
Introdução à Teoria da Probabilidade
Operadora de Cartão de Crédito
Poderíamos analisar qual a probabilidade
de um cliente com histórico de atrasos de
pagamento, atrasar o pagamento da sua
próxima fatura.
349
Introdução à Teoria da Probabilidade
Empresa de Mídia
Poderia analisar a probabilidade de
um próximo evento esportivo ter uma
audiência superior a 20 milhões de
pessoas.
350
Introdução à Teoria da Probabilidade
Departamento de Vendas
Poderia analisar a probabilidade de um
cliente adquirir uma garantia estendida,
após comprar um computador.
351
Introdução à Teoria da Probabilidade
O que estes eventos tem em comum?
Podemos usar a Probabilidade para quantificar o 
conhecimento, considerando a aleatoriedade e a incerteza
352
Introdução à Teoria da ProbabilidadeProbabilidade é um valor numérico que indica a chance, ou
probabilidade, de um evento específico ocorrer. Este valor
numérico vai estar entre 0 e 1.
Se um evento não possui chance de ocorrer, sua probabilidade é
0 (ou 0%).
Se temos certeza sobre a ocorrência do evento, sua probabilidade é 1
(ou 100%).
353
Introdução à Teoria da Probabilidade
Probabilidade e Possibilidade são a 
mesma Coisa?
354
Introdução à Teoria da Probabilidade
355
Introdução à Teoria da Probabilidade
Probabilidade é a medida da possibilidade de um 
evento ocorrer. 
A probabilidade de chuva amanhã é de 40%
Experimento, Espaço da 
Amostra e Evento
357
Experimento, Espaço da Amostra e Evento
Experimento – é o processo de medir ou observar
uma atividade com o propósito de coletar dados.
Exemplo: jogar um dado.
358
Experimento, Espaço da Amostra e Evento
Espaço da Amostra – todos os possíveis resultados
de um experimento.
Exemplo: ao jogar um dado, todos os resultados
possíveis são {1, 2, 3, 4, 5, 6}.
359
Experimento, Espaço da Amostra e Evento
Experimentos e seus respectivos espaços da amostra.
Experimento Espaço da Amostra
Jogar uma moeda {cara, coroa}
Responder uma questão de múltipla
escolha
{a, b, c, d, e}
Inspecionar um produto {defeituoso, não defeituoso}
Puxar uma carta de um baralho padrão {52 cartas de uma baralho padrão}
360
Experimento, Espaço da Amostra e Evento
Evento – um ou mais resultados de um experimento.
O resultado e/ou resultados são um subconjunto do 
espaço da amostra.
361
Experimento, Espaço da Amostra e Evento
Evento Simples – um único resultado de um
experimento.
Evento Composto – mais de um resultado de um
experimento.
Experimentos Determinísticos 
e Aleatórios
363
Experimentos Determinísticos e Aleatórios
Experimento
Determinístico
Experimento: caneta caindo no chão. 
Resultado sempre o mesmo!
364
Experimentos Determinísticos e Aleatórios
Experimento
Aleatório
Experimento: caneta caindo no chão e 
medida da distância em relação à 
parede. Resultado aleatório!
365
Experimentos Determinísticos e Aleatórios
A relação de todos os resultados possíveis 
de um experimento, é o que nós chamamos 
de espaço amostral.
Tipos de Probabilidade
367
Tipos de Probabilidade
Probabilidade 
Clássica
Probabilidade 
Frequencialista
(Empírica)
Probabilidade 
Subjetiva
368
Tipos de Probabilidade
Probabilidade 
Clássica
½ = 0,5 = 50% de probabilidade
369
Tipos de Probabilidade
Probabilidade 
Frequencialista
(Empírica)
f = 10, n = 500
P = f/n = 10/500 = 0,02 = 2% de probabilidade
370
Tipos de Probabilidade
Probabilidade 
Frequencialista
(Empírica)
Família Frequência
Frequência 
Relativa
Não Possui Casa Própria 490 490/500 = 0,92
Possui Casa Própria 10 10/500 = 0,02
n = 500 Total = 1,00
371
Tipos de Probabilidade
Probabilidade 
Subjetiva
Probabilidade Clássica
373
Probabilidade Clássica
Probabilidade Clássica: é usada quando nós
sabemos o número de possíveis resultados do evento
de interesse e podemos calcular a probabilidade do
evento com a seguinte fórmula:
Onde: P(A) é a probabilidade de um evento ocorrer.
374
Probabilidade Clássica
375
Probabilidade Clássica
Experimento com um Dado:
Um dado possui um espaço de amostra igual a {1, 2, 3, 4, 5, 6},
com 6 possíveis resultados. Qual seria a probabilidade de, ao
jogarmos o dado, conseguirmos que o número 5 seja a face em
evidência?
P(A) = 1 / 6 = 0.167
376
Probabilidade Clássica
Experimento com um Dado:
Um dado possui um espaço de amostra igual a {1, 2, 3, 4, 5, 6},
com 6 possíveis resultados. Qual seria a probabilidade de, ao
jogarmos o dado, conseguirmos que o número 5 seja a face em
evidência?
P(A) = 1 / 6 = 0.167
Ou seja, 16.7% de probabilidade de 
jogarmos um dado e conseguirmos 
a face com o número 5.
377
Probabilidade Clássica
Qual a probabilidade de se obter um 3 ou um 4 em uma 
jogada de um dado equilibrado?
378
Probabilidade Clássica
Qual a probabilidade de se obter um 3 ou um 4 em uma 
jogada de um dado equilibrado?
Como temos 2 Possibilidades, “3 ou 4”.
2/6 = 0,33
33,33%
s = resultado de interesse = 2 resultados (3 ou 4).
n = resultados possíveis = 6 (1,2,3,4,5,6).
Probabilidade Empírica
380
Probabilidade Empírica
Quando sabemos os possíveis resultados de um evento, utilizamos a
Probabilidade Clássica.
E quando não sabemos quais os possíveis resultados?
381
Probabilidade Empírica
Nestes casos, utilizamos a 
Probabilidade Empírica, que envolve 
conduzirmos um experimento, para 
observarmos a frequência com que 
um evento ocorre. 
382
Probabilidade Empírica
Para calcularmos a probabilidade empírica, usamos a fórmula:
Onde: P(A) é a probabilidade de um evento ocorrer.
383
Probabilidade Empírica
Experimento da Loja de Livros:
Qual a probabilidade de que uma pessoa que entre na loja, faça uma compra?
384
Probabilidade Empírica
A probabilidade clássica não poderia nos ajudar aqui, pois não temos informação sobre
porque as pessoas fazem uma compra.
385
Probabilidade Empírica
Usamos então a probabilidade empírica, para contar quantas pessoas que entram na
loja, finalizam uma compra.
386
Probabilidade Empírica
Supondo que 100 pessoas entraram na loja e que 15 fizeram uma compra, a
probabilidade empírica seria dada pela seguinte fórmula:
15%
Regras Básicas que Regem a 
Teoria da Probabilidade
388
Regras Básicas que Regem a Teoria da 
Probabilidade
Regra1ª
Se P(A) = 1, então podemos garantir 
que o evento A ocorrerá.
389
Regras Básicas que Regem a Teoria da 
Probabilidade
Regra2ª
Se P(A) = 0, então podemos garantir 
que o evento A não ocorrerá.
390
Regras Básicas que Regem a Teoria da 
Probabilidade
Regra3ª
A probabilidade de qualquer evento sempre 
será entre 0 e 1. Probabilidades nunca 
podem ser negativas ou maior que 1.
391
Regras Básicas que Regem a Teoria da 
Probabilidade
Regra4ª
A soma de todas as probabilidades para um 
evento simples, em um espaço de amostra, 
será igual a 1.
392
Regras Básicas que Regem a Teoria da 
Probabilidade
Regra5ª
O complemento do evento A é definido como
todos os resultados em um espaço de amostra,
que não fazem parte do evento A. Ou seja:
P(A) = 1 – P(A’), onde P(A’) é o complemento do
evento A.
Operações com Eventos
394
Operações com Eventos
395
Operações com Eventos
Neste caso, temos 2 eventos:
Evento A – cliente tem um histórico de crédito ruim.
Evento B – cliente não paga o cheque especial.
396
Operações com Eventos
União de Eventos
397
Operações com Eventos
Interseção de Eventos
398
Operações com Eventos
Evento Complementar
399
Operações com Eventos
Eventos Mutuamente Exclusivos
Eventos Não Mutuamente Exclusivos
400
Operações com Eventos
Eventos Mutuamente Exclusivos - são aqueles que não podem ocorrer ao mesmo 
tempo durante um experimento.
401
Operações com Eventos
Eventos Não Mutuamente Exclusivos - são aqueles que podem ocorrer ao
mesmo tempo durante um experimento.
Teoremas da 
Probabilidade
403
Teoremas da Probabilidade
União de Eventos
404
Teoremas da Probabilidade
Interseção de Eventos
405
Teoremas da Probabilidade
Evento Complementar
Teorema de Bayes
407
Teorema de Bayes
O Teorema de Bayes é a base de um dos 
principais algoritmos de Machine Learning, 
o Naïve Bayes.
Temos um capítulo inteiro dedicado ao 
Naïve Bayes no curso de Machine Learning.
408
Teorema de Bayes
409
Teorema de Bayes
Probabilidade condicional é a probabilidade de ocorrer 
o evento B, tendo ocorrido o evento A.
Mas pode ser necessário encontrar a probabilidade de 
um evento A, antes do evento B, que também já 
ocorreu.
Para esses casos, aplicamos o Teorema de Bayes.
410
Teorema de Bayes
411
Teorema de Bayes
Esse• teorema é útil quando interpretado como uma
regra para indução: os dados e o evento B são
considerados como sucessores de A, o grau de crença
anterior a realização do experimento.
Assim• sendo P(A) é chamadode probabilidade a priori
a qual será modificada pela experiência. A experiência
é determinada pela verossimilhança P(B|A).
Finalmente• , P(A|B) é a probabilidade a posteriori, ou o
nível de crença após a realização do experimento.
• A primeira vista o teorema parece trivial mas seu poder
reside na sua interpretação.
412
Teorema de Bayes
Controle de Qualidade
Uma companhia multinacional tem três fábricas que produzem o mesmo tipo de produto. A
fábrica I é responsável por 30% do total produzido, a fábrica II produz 45% do total, e o
restante vem da fábrica III. Cada uma das fábricas, no entanto, produz uma proporção de
produtos que não atendem aos padrões estabelecidos pelas normas internacionais. Tais
produtos são considerados “defeituosos” e correspondem a 1%, 2% e 1,5%, respectivamente,
dos totais produzidos por fábrica. No centro de distribuição, é feito o controle de qualidade da
produção combinada das fábricas.
Qual(1) é a probabilidade de encontrar um produto defeituoso durante a inspeção de
qualidade?
(2) Se durante a inspeção, encontramos um produto defeituoso, qual é a probabilidade que
ele tenha sido produzido na fábrica II?
413
Teorema de Bayes
Qual(1) é a probabilidade de encontrar um produto defeituoso durante a inspeção de
qualidade?
Evento A = {Produto Defeituoso} 
Fi = {Produto da Fábrica i} 
Sabemos que:
P(F1) = 0,3 
P(F2) = 0,45 
P(F3) = 0,25
Além disso, sabemos que:
P(A|F1) = 0,01 
P(A|F2) = 0,02 
P(A|F3) = 0,015 
Então, pela lei da probabilidade total:
P(A) = P(A|F1).P(F1) + P(A|F2).P(F2) + P(A|F3).P(F3)
P(A) = 0,3 ∗ 0,01 + 0,45 ∗ 0,02 + 0,25 ∗ 0,015 
P(A) = 0,01575
P(A) = 1.58%
414
Teorema de Bayes
Aqui, aplicaremos o Teorema de Bayes usando o item anterior para encontrar P(A):
Probabilidade de 57% de encontrar um produto defeituoso durante a inspeção, que tenha 
sido produzido na Fábrica II.
415
Teorema de Bayes
Como é construído um Classificador Baseado no 
Teorema de Bayes?
416
Teorema de Bayes
De acordo com o clima ou tempo de 
uma forma geral, qual a 
probabilidade de um jogador 
praticar ou não um esporte?
417
Teorema de Bayes
Passo 1: Converter o conjunto de dados em uma tabela de frequência
Tabela de Frequência
Clima Não Sim
Nublado 0 4
Sol 2 3
Chuva 3 2
Total 5 9
418
Teorema de Bayes
Passo 2: Criar tabela de Probabilidade para encontrar as probabilidades de 
cada ocorrência e de cada combinação.
Tabela de Frequência
Clima Não Sim
Nublado 0 4
Sol 2 3
Chuva 3 2
Total 5 9
=4/14 0.29
=5/14 0.36
=5/14 0.36
=5/14 =9/14
0.36 0.64
419
Teorema de Bayes
Passo 3: Usamos a equação do Teorema de Bayes para calcular a probabilidade 
posterior para cada classe. A classe com maior probabilidade posterior é o resultado 
da previsão.
Tabela de Frequência
Clima Não Sim
Nublado 0 4
Sol 2 3
Chuva 3 2
Total 5 9
=4/14 0.29
=5/14 0.36
=5/14 0.36
=5/14 =9/14
0.36 0.64
420
Teorema de Bayes
Os jogadores irão praticar esporte se o tempo estiver ensolarado. 
Esta afirmação está correta?
P (Sim | Sol) = P (Sol | Sim) * P (Sim) / P (Sol)
Tabela de Frequência
Clima Não Sim
Nublado 0 4
Sol 2 3
Chuva 3 2
Total 5 9
=4/14 0.29
=5/14 0.36
=5/14 0.36
=5/14 =9/14
0.36 0.64
421
Teorema de Bayes
Os jogadores irão praticar esporte se o tempo estiver ensolarado. 
Esta afirmação está correta?
Tabela de Frequência
Clima Não Sim
Nublado 0 4
Sol 2 3
Chuva 3 2
Total 5 9
Aqui temos: 
P (Sol | Sim) = 3/9 = 0.33 
P (Sol) = 5/14 = 0.36 
422
Teorema de Bayes
Os jogadores irão praticar esporte se o tempo estiver ensolarado. 
Esta afirmação está correta?
Tabela de Frequência
Clima Não Sim
Nublado 0 4
Sol 2 3
Chuva 3 2
Total 5 9
Aqui temos: 
P (Sol | Sim) = 3/9 = 0.33 
P (Sol) = 5/14 = 0.36 
P (Sim) = 9/14 = 0.64
423
Teorema de Bayes
Os jogadores irão praticar esporte se o tempo estiver ensolarado. 
Esta afirmação está correta?
Agora, é só colocar na fórmula: 
P (Sim | Sol) = P (Sol | Sim) * P (Sim) / P (Sol)
P (Sim | Sol) = 0.33 * 0.64 / 0.36
424
Teorema de Bayes
Os jogadores irão praticar esporte se o tempo estiver ensolarado. 
Esta afirmação está correta?
Agora, é só colocar na fórmula: 
P (Sim | Sol) = P (Sol | Sim) * P (Sim) / P (Sol)
P (Sim | Sol) = 0.33 * 0.64 / 0.36 = 0.60 = 60%
425
Teorema de Bayes
Os jogadores irão praticar esporte se o tempo estiver ensolarado. 
Esta afirmação está correta? Sim, a afirmação está correta!
Agora, é só colocar na fórmula: 
P (Sim | Sol) = P (Sol | Sim) * P (Sim) / P (Sol)
P (Sim | Sol) = 0.33 * 0.64 / 0.36 = 0.60 = 60%
O algoritmo Naive Bayes usa um método similar para prever a probabilidade de classe diferente 
com base em vários atributos. Este algoritmo é usado principalmente em classificação de texto e 
com os problemas que têm múltiplas classes.
426
Teorema de Bayes
A ideia principal é que a probabilidade de um evento A dado um evento B (ou seja, 
a probabilidade de alguém ter câncer de mama sabendo, ou dado, que a mamografia deu 
positivo para o teste) depende não apenas do relacionamento entre os eventos A e B (i.e., a 
precisão, ou exatidão, da mamografia), mas também da probabilidade marginal (ou 
"probabilidade simples") da ocorrência de cada evento.
427
Teorema de Bayes
Você ainda tem dúvidas se deveria aprender a trabalhar 
com Machine Learning?
É a tecnologia que está transformando nosso mundo!
Variáveis Aleatórias 
Discretas e Contínuas
429
Variáveis Aleatórias Discretas e Contínuas
430
Variáveis Aleatórias Discretas e Contínuas
Variável aleatória é uma variável cujo valor é 
determinado pelo resultado de um 
experimento aleatório.
431
Variáveis Aleatórias Discretas e Contínuas
Número de Veículos Frequência Frequência Relativa
0 30 30/2000 = 0,015
1 470 470/2000 = 0,235
2 850 850/2000 = 0,425
3 490 490/2000 = 0,245
4 160 160/2000 = 0,080
Total n = 2000 1,0
x = número de veículos
432
Variáveis Aleatórias Discretas e Contínuas
Variável aleatória é uma variável cujo valor é 
determinado pelo resultado de um 
experimento aleatório.
433
Variáveis Aleatórias Discretas e Contínuas
Variável Aleatória
Discreta Contínua
Distribuições de 
Probabilidade
435
Distribuições de Probabilidade
436
Distribuições de Probabilidade
Uma distribuição de probabilidade descreve o 
comportamento de uma variável aleatória 
discreta ou contínua.
437
Distribuições de Probabilidade
A soma de todos os valores de uma Distribuição de 
Probabilidades deve ser igual a 1.
A Probabilidade de ocorrência de um evento deve ser maior 
do que 0 e menor do que 1.
438
Distribuições de Probabilidade
Uma distribuição de probabilidade pode ser:
439
Distribuições de Probabilidade
Descreve quantidades aleatórias de dados 
que podem assumir valores finitos.
A distribuição de probabilidade Discreta:
440
Distribuições de Probabilidade
A distribuição de probabilidades de uma 
variável aleatória discreta apresenta todos 
os valores possíveis que uma variável 
aleatória pode assumir, bem como suas 
probabilidades correspondentes. 
A distribuição de probabilidade Discreta:
441
Distribuições de Probabilidade
Binomial
Poisson
Hipergeométrica
Bernoulli
A distribuição de probabilidade Discreta:
442
Distribuições de Probabilidade
Descreve quantidades aleatórias de 
dados contínuos que podem assumir 
valores infinitos 
A distribuição de probabilidade Contínua:
443
Distribuições de Probabilidade
Uniforme
Exponencial
Gama
Chi-Quadrado
A distribuição de probabilidade Contínua:
444
Distribuições de Probabilidade
E temos ainda a distribuição normal, para variáveis contínuas, mas que possui 
uma série de características distintas.
445
Distribuições de Probabilidade
Distribuição Normal
A Distribuição Normal representa uma dentre as muitas distribuições de 
probabilidades que uma variável aleatória contínua pode possuir. A distribuição 
normal representa a distribuição de probabilidades mais importante e mais 
amplamente utilizada dentre todas asdistribuições de probabilidades. 
Um grande número de fenômenos no mundo real é distribuído aproximadamente 
nos moldes de uma distribuição normal. 
Distribuição Binomial
447
Distribuição Binomial
É aplicada para se encontrar a 
probabilidade de que um resultado 
venha a ocorrer x vezes em n 
realizações de um experimento.
448
Distribuição Binomial
Uma variável aleatória tem Distribuição Binomial
quando o experimento ao qual está relacionada
apresenta apenas 2 resultados:
Sucesso•
Fracasso•
449
Distribuição Binomial
Outra característica da distribuição binomial, é que
cada observação é independente das outras.
Dessa forma, um Experimento Binomial consiste
de um número fixo de observações, indicado por n
e contamos o número de sucessos, indicado por x.
Distribuição Poisson
451
Distribuição Poisson
A Distribuição Poisson é muito útil para calcular a
probabilidade de um certo número de eventos que
ocorrerá em um específico intervalo de tempo ou
espaço.
452
Distribuição Poisson
Nós poderíamos usar este tipo de distribuição para
determinar a probabilidade de 10 clientes entrarem
em uma loja nos próximos 30 minutos ou a
probabilidade de 2 acidentes de carro ocorrem em um
determinado cruzamento no próximo mês.
453
Distribuição Poisson
A Distribuição Poisson é um modelo para o número
de eventos observados numa unidade de tempo ou de
espaço, dado que a taxa de eventos por unidade é
constante e os eventos ocorrem de modo
independente.
454
Distribuição Poisson
O único parâmetro da Poisson é λ (lambda), que 
representa a taxa de eventos por unidade.
455
Distribuição Poisson
Se um certo número de objetos está distribuído ao
acaso por uma área, e esta área é dividida em
quadrículas de mesmo tamanho, o número de objetos
por quadrículas pode ser descrito por uma
Distribuição Poisson.
Neste caso, o parâmetro λ será o total de objetos
dividido pelo total de quadrículas.
456
Distribuição Poisson
Distribuição Binomial, o número de sucessos
observados é limitado ao número de
possibilidades.
Distribuição Poisson, o número de resultados pode
ser qualquer um.
Distribuições Contínuas
458
Distribuições Contínuas
Os valores possíveis que uma 
variável aleatória contínua pode 
assumir são infinitos e incontáveis
459
Distribuições Contínuas
Quando transformadas em gráficos, as Distribuições
de Probabilidade Contínua podem assumir uma
variedade de formatos, dependendo dos valores dos
dados.
460
Distribuições Contínuas
Os 3 formatos mais comuns são:
461
Distribuições Contínuas
Distribuição Normal
462
Distribuições Contínuas
Distribuição Exponencial
463
Distribuições Contínuas
Distribuição Uniforme
Distribuição Normal
465
Distribuição Normal
A distribuição normal 
representa uma dentre as 
muitas distribuições de 
probabilidades que uma 
variável aleatória contínua 
pode possuir.
466
Distribuição Normal
467
Distribuição Normal
Imagine que o número de minutos que um cliente passa ao telefone com
o pessoal de suporte da companhia de TV a cabo, segue uma
distribuição normal, com uma média de 12 minutos () e um desvio
padrão de 2 minutos ().
468
Distribuição Normal
A distribuição de probabilidade desta variável poderia ser representada 
no gráfico abaixo:
469
Distribuição Normal
A distribuição tem um formato de sino e simétrico em
torno da média.
Como o formato da distribuição é simétrico, a média
e a mediana possuem o mesmo valor, neste caso,
12 minutos.
Variáveis randômicas em torno da média, na parte
mais alta da curva, tem maior probabilidade de
ocorrer, que valores situados onde a curva é menor.
A parte final da curva, tanto do lado direito, quanto
do lado esquerdo, em uma distribuição normal, se
estende indefinidamente, nunca tocando o eixo x do
gráfico.
470
Distribuição Normal
O Desvio Padrão tem uma função importante no formato da curva de uma 
Distribuição Normal.
471
Distribuição Normal
A linha vermelha possui um desvio padrão de 3 ( = 3).
A curva ficou mais aberta em relação à média.
O tempo médio das ligações está entre 3 e 21 minutos
e não mais entre 6 e 18 minutos, quando o desvio
padrão é 2.
Um desvio padrão menor resulta em uma curva mais
estreita.
Um desvio padrão maior, faz com que a curva seja mais
baixa e mais aberta.
472
Distribuição Normal
E se mudamos a média, de 12 para 21 minutos e mantemos o desvio padrão de 2?
473
Distribuição Normal
Em cada um dos gráficos apresentados, as características de uma Distribuição de 
Probabilidade Normal são mantidas.
474
Distribuição Normal
As probabilidades de distribuições normais podem ser 
calculadas através do uso de fórmulas, tabelas de 
probabilidade e softwares estatísticos, como a 
Linguagem R.
Capítulo 13
Microsoft Power BI e 
Facebook Analytics
476
Microsoft Power BI e Facebook Analytics
Capítulo 14
Microsoft Power BI e 
Google Analytics
478
Microsoft Power BI e Google Analytics
Web Analytics
Métricas de Marketing Digital
480
Web Analytics – Métricas de Marketing Digital
481
Web Analytics – Métricas de Marketing Digital
Visita (ou sessão)•
Visitante•
Pageviews•
Taxa de Rejeição•
Percentual de Saída•
Fontes ou Canais de Tráfego•
Idade•
Localidade•
Horário•
Capítulo 15
Microsoft Power BI e 
Apache Spark
483
Microsoft Power BI e Apache Spark
484
Microsoft Power BI e Apache Spark
Big Data Fundamentos•
Big Data Real• -Time Analytics com Python e Apache Spark
Engenharia de Dados com Hadoop e Spark•
Machine Learning com Linguagem Scala e Apache Spark•
Curso de Apache Spark na Data Science Academy:
O Que é Apache Spark?
Apache Spark é um dos assuntos mais quentes do momento
em tecnologias de Big Data Analytics. A quantidade de dados
gerados em todo o mundo aumenta de forma exponencial e o
Spark é claramente a solução computacional expressamente
concebida para lidar com este nível de crescimento.
Primeiramente criado como parte de um projeto de pesquisa
na Universidade de Berkeley nos EUA, Spark é um projeto
open source no universo do Big Data, construído para análises
sofisticadas, velocidade de processamento e facilidade de uso.
Ele unifica capacidades críticas de análise de dados, como SQL,
análise avançada em Machine Learning e streaming de dados,
tudo isso em uma única estrutura. E mais recentemente com
suporte a Deep Learning.
486
Apache Spark
O Spark permite que aplicações em clusters Hadoop executem até 100 vezes mais
rápido em memória e até 10 vezes mais rápido em disco. Permite o desenvolvimento
rápido de aplicações em Java, Scala ou Python, além de linguagem R. Além disso, vem
com um conjunto integrado de mais de 80 operadores de alto nível e pode ser usado de
forma interativa para consultar dados diretamente do console. Além das operações de
Map/Reduce, suporta consultas SQL, streaming de dados, aprendizado de máquina e
processamento de grafos. Desenvolvedores podem usar esses recursos no modo stand-
alone ou combiná-los em um único pipeline.
487
Apache Spark
488
Apache Spark
Spark realiza operações de MapReduce➢
Spark pode utilizar o HDFS➢
Spark permite construir um workflow de Analytics➢
Spark utiliza a memória do computador de forma diferente e eficiente➢
Spark é veloz➢
Spark é flexível➢
Spark é gratuito➢
Principais características do Spark:
489
Apache Spark
Por que Aprender Apache Spark?
Por diversas razões: é atualmente uma das tecnologias mais quentes em Big Data Analytics,
devido sua velocidade de processamento. Mais e mais empresas estão adotando infraestrutura
de Big Data que tem o Spark como um dos componentes principais. Existe cada vez mais suporte
de outras empresas e existe alta demanda por profissionais que conheçam processamento de
dados em tempo real. Portanto, existem diversas razões pelas quais você deveria aprender a usar
o Spark.
Apache Spark
Framework
O Apache Spark possui 4 módulos principais: SQL, MLLib,
GraphX e Streaming. Esses módulos são intercambiáveis, o
que significaque podemos passar os dados de um módulo
para outro. Por exemplo: dados de streaming podem ser
passados para o módulo SQL e tabelas temporárias podem ser
criadas para análise de dados em tempo real.
491
Apache Spark Framework
492
Apache Spark Framework
493
Apache Spark Framework
494
Apache Spark Framework
495
Apache Spark Framework
496
Apache Spark Framework
497
Apache Spark Framework
498
Apache Spark Framework
Os profissionais que desenvolveram o Spark fundaram uma startup
chamada Databricks, que oferece soluções avançadas para gestão de
cluster, além de diversas funcionalidades como organização em
notebooks, controle de acesso pode ser configurado e tudo isso em
nuvem. Microsoft e Amazon também oferecem soluções baseadas em
Spark e também em nuvem.
Muito Obrigado

Mais conteúdos dessa disciplina