Buscar

Aulas do Capítulo 02

Prévia do material em texto

Fundamentos em Engenharia de Dados
Capítulo 2. Fundamentos da Engenharia de Dados
Profª. Fernanda Farinelli
Aula 2.1. Introdução à engenharia de dados
 Entender o que é a engenharia de dados.
 Entender o que é o projeto de arquitetura de dados.
 Conhecer a diferença entre engenharia e ciência de dados.
Nesta aula
Foco em transformar dados em 
um formato útil para análise.
Área responsável por planejar e 
preparar toda a infraestrutura e 
arquitetura de dados.
Trabalha com soluções que 
envolve quase todo o pipeline de 
dados.
Engenharia 
de Dados
Arquitetura de dados
Conjunto de conhecimentos e práticas 
necessárias para a resolução técnica de 
problemas de negócio que lidam com a 
gestão das informações nas organizações. 
Projeto de Arquitetura de Dados
• Uma descrição arquitetural de dados representando o 
resultado da definição de como elementos de dados 
da organização devem ser tecnicamente 
implementados, mantidos e evoluídos.
• Envolve componentes de software e hardware.
Projeto de arquitetura de dados
Projeto de arquitetura de dados
Coleta Modelagem Armazenamento
PreparaçãoAnáliseVisualização
 Cobre todo o pipeline de dados.
 Aderente aos requisitos dos cientistas de dados e das partes
interessadas.
 A arquitetura deve ser projetada para ser escalável, confiável 
(tolerante a falhas), íntegra, segura e evolutiva.
Exemplo de projeto de arquitetura de 
dados baseado no ecossistema Hadoop
Fonte: https://www.cetax.com.br/apache-hadoop-tudo-o-que-voce-precisa-saber/
https://www.cetax.com.br/apache-hadoop-tudo-o-que-voce-precisa-saber/
Tecnologias em Big Data
Ciência 
de dados
Investigação de 
conhecimento
Expande 
compreensão 
sobre os dados
Engenharia
de dados
Projeto de dados
Expande os 
resultados para 
problemas e 
questões
Conhecimentos básicos
Ciência de dados Engenharia de dados
Fonte: https://www.datasciencecentral.com/profiles/blogs/data-scientists-data-engineers-
software-engineers-the-difference
https://www.datasciencecentral.com/profiles/blogs/data-scientists-data-engineers-software-engineers-the-difference
 Entendemos o que é a engenharia de dados.
 Entendemos o que é um projeto de arquitetura de dados e 
sua relação com o pipeline de dados.
 Conhecemos a diferença entre engenharia e ciência de 
dados.
Conclusão
 Discutir as principais atividades do profissional de 
engenharia de dados.
Próxima aula
Aula 2.2. Atividades do profissional de engenharia de 
dados
 Discutir as principais atividades do profissional de 
engenharia de dados.
Nesta aula
Atividades do profissional de 
engenharia de dados
Coleta Modelagem Armazenamento
PreparaçãoAnáliseVisualização
Propor e implementar todo o pipeline de dados
Entender…
Os requisitos de dados e do negócio.
A origem e natureza dos dados.
A necessidade de integração de dados.
Propor e implementar todo o pipeline de dados
Propor e implementar todo o pipeline de dados
Desenvolver rotinas para…
Automatizar a coleta de dados (data collection, 
ingestion, acquisition e preparation).
De preparação de dados (limpeza, enriquecimento, 
padronização, combinação, discretização etc.).
De ETL (extração, transformação e carga).
Propor e implementar todo o pipeline de dados
Propor e implementar…
Os modelos de dados conforme requisitos.
Os repositórios de dados (data hub, DW, data lakes, 
relacionais etc.).
Soluções para integração de dados.
Propor e implementar todo o pipeline de dados
Definir, configurar e manter plataformas para armazenamento e 
processamento de dados estruturados ou não.
• Escaláveis, distribuídas, com alta disponibilidade e tolerante a falhas, 
suportem processamento massivo de dados (paralelismo).
Assegurar o uso das políticas de segurança na camada de 
acesso aos dados.
Modelagem de dados
SGBDs relacional, 
NoSQL e NewSQL
Armazenamento em 
memória
Armazenamento em 
nuvem (cloud)
Arquiteturas distribuída e 
escaláveis
Processamento de dados 
massivos (paralelismo)
Data warehouse, data 
mart, data lake etc.
Sistemas de arquivo 
distribuído
Ferramentas OLAP e 
ETL
Ecossistema Hadoop Programação R e Python
Linguagem SQL, JSON 
etc.
Conhecimentos necessários ao profissional de 
engenharia de dados
 Conhecemos as principais atividades do profissional de 
engenharia de dados.
 Visualizamos alguns conhecimentos necessários ao 
profissional de engenharia de dados.
Conclusão
 Entender o que é uma organização orientada por dados.
Próxima aula
Aula 2.3. Organizações orientadas à dados
 Entender o que são organizações orientadas por dados.
Nesta aula
Bolsa de Valores
 Mercado organizado para negociação de ações de 
sociedades de capital aberto (públicas ou privadas) e outros 
valores mobiliários.
– Preços das ações indicam o valor de mercado das empresas.
– O valor de mercado sobre influência de diversas fontes:
• Taxa Selic, e outras taxas.
• Dados governamentais.
• Resultados financeiros da empresa.
• Mercado externo.
• Questões políticas e legislação.
Orientação à dados (data-driven)
A forma como uma atividade ou processo acontece, 
depende dos dados que servem de entrada para que 
ela ocorra.
Motoristas da UPS raramente viram à esquerda
 United Parcel Service (UPS)  Empresa de logística, distribuindo 
diariamente mais de 19 milhões de encomendas em mais de 100 
países.
 A empresa economiza milhões de litros de combustível anualmente, e 
reduziu a emissão de gases poluentes apenas orientando seus 
motoristas a sempre virar a direita.
Organização orientada à dados
Data-driven organization
Entende-se que organização orientada a dados é a 
organização que se baseia nas análises de dados para
apoiar e balizar a gestão e suas decisões, visando atingir os 
objetivos estratégicos do negócio.
“Ser orientado a dados é, antes de mais nada, ter como meta 
nas decisões corporativas a objetividade e estar sempre 
baseado em evidências” (Kirk Borne).
Organização orientada à dados
Os dados norteiam, definem, 
permitem análise e 
possibilitam previsões.
Experiência anterior, vivência 
de negócio, tendências e 
padrões observados.
Incrementam as 
decisões que uma
organização pode
tomar, agregando
maior valor ao
negócio.
Cultura orientada à dados
 Organizações orientadas à dados desenvolvem uma cultura 
orientada por dados (data-driven culture).
– Utilizam os dados gerados pela organização em todos os seus 
processos, como insumo para suas decisões.
– Compartilham conhecimento.
Dados Processos
Pessoas Ativos
Cultura 
orientada 
por dados
Vantagens da cultura orientada à dados
Oportunidade de abertura de novos negócios.
Redução de custos e otimização de receitas e despesas.
Melhor relacionamento com o cliente e funcionários. 
Melhoria na produtividade.
Melhor definição de preços.
Envolvimento da equipe na estratégia organizacional.
Agilidade e facilidade no processo de tomada de decisão, 
respaldados pelo monitoramento de indicadores.
Framework de apoio
 DAMA – Data Management Association.
 DMBOK – Data Management Body of Knowledge.
36
DMBok 1.0 DMBok 2.0
 Conhecemos o que é uma organização orientada por dados.
 Entendemos as vantagens de adotar uma cultura orientada
por dados.
 A cultura orientada por dados nas organizações é um 
processo gradual que exige mudanças nos hábitos, atitudes, 
pessoal e até recursos.
Conclusão
 Compreender o processo de tomada de decisão orientada 
por dados.
Próxima aula
Aula 2.4. Tomada de decisão orientada à dados
 Entender o processo de tomada de decisão orientada por
dados.
 Conhecer os aspectos da tomada de decisão nas 
organizações
Nesta aula
Walmart pioneiro na orientação à dados
 Investe no uso de dados desde 70’s.
 Data warehouse para gerenciar o estoque e suas operações.
– Identificar perfil de compras dos clientes (quem compra? O que compra? Onde 
compra? Com qual frequência compra?).
– Identificar produtosvendidos e como a colocação desses produtos na loja 
afetava as vendas.
– Qual a sazonalidade das vendas entorno dos produtos e em que lojas eram 
vendidas.
 Análises preditivas nos seus dados históricos para melhorar o 
gerenciamento de estoque e distribuição.
– Logística para distribuição para seus armazéns e organização das mercadorias 
em cada loja.
 Análises de redes sociais para saber o que as pessoas próximas a 
cada loja estão dizendo sobre as lojas e produtos.
Decisão orientada por dados
 Furacão Frances (setembro de 2004) rota ao Sul dos EUA.
– Tecnologia de análise preditiva, analisou eventos anteriores 
semelhantes na mesma região.
– Na fase pré-furacão: 
• A venda de alguns itens já eram previstos, como pilhas e água.
• A inovação foi a torta de morango (strawberry tarts). 
– O objetivo era concentrar a distribuição dos principais produtos 
comprados em função do evento, nas lojas da rota do furacão.
– Observou-se um aumento em vendas (7x) da torta de morango 
(strawberry tarts), com a passagem do furacão.
Tomada de decisão orientada por dados
Data-Driven Decision Making
As decisões deixam de ser por intuitos ou instintos dos 
gestores, passando a serem fundamentadas em dados e nas 
análises destes dados.
Análise de dados como cerne dos processos de tomada de 
decisões.
Surgimento de novas profissões: gestor de dados (CDO - Chief
Data Officer), cientista de dados, engenheiro(a) de dados, 
analista de dados etc.
Fluxo da tomada de decisão orientada 
por dados
Fundamentos para a tomada de 
decisões orientada por dados
Ter uma estratégia e objetivos bem definidos.
Conhecer o negócio, as áreas e suas importâncias para a 
estratégia.
Conhecer os dados relevantes para o negócio e suas 
respectivas fontes de dados.
Saber fazer os questionamentos corretos (hipóteses).
Estabelecer indicadores e métricas para medição.
Dispor de mecanismos para coletar e analisar os dados.
Extrair insights significativos das análises de dados.
Reflexão
“Em Deus nós confiamos. Todos os 
outros devem apresentar dados.”
 “In God we trust. All others must bring data.” 
Edwards Deming
 Discutimos o que é o processo de tomada de decisão 
orientado por dados.
Conclusão
 Entender as questões relacionadas à segurança e 
privacidade de dados.
Próxima aula
Aula 2.5. Segurança e privacidade de dados
 Entender as questões relacionadas à segurança e 
privacidade de dados.
Nesta aula
A Target prevê sua gravidez
 Análise preditiva:
– Identificou 25 produtos que, quando comprados em conjunto, indicam 
que uma mulher provavelmente está grávida (estatística).
– Envia às clientes cupons relevantes para cada estágio da gravidez.
 Aumentou suas vendas, mas causou constrangimento 
familiar.
– Descobriu a gravidez de uma adolescente antes da família.
– O pai da garota reclamou com o gerente de uma loja próxima, 
ameaçando processar a empresa, entretanto, mais tarde ele retornou 
ao local para se desculpar, pois a gravidez foi confirmada.
Funcionários da UBER conhecem sua 
localização
 Josh Mohrer, gerente geral da Uber Nova York, foi alvo de 
uma investigação interna por ter rastreado a localização de 
uma repórter da BuzzFeed, sem a permissão da repórter.
– Ferramenta interna chamada "God View”, acessível para a equipe 
corporativa da Uber, que fornece uma visão em tempo real de locais 
de veículos e clientes.
– Tal ação violou a política de privacidade da empresa.
– Mas gerou problemas maiores de confiabilidade na empresa, por 
parte de seus clientes/usuários.
O caso Carolina Dieckmann
 Em maio de 2012, Carolina Dieckmann viu seu nome e 36 
fotos íntimas suas estampadas em vários sites e redes 
sociais, foi a polícia que descobriu que o e-mail dela havia 
sido invadido por hackers e as fotos vazadas na internet.
 Os responsáveis pelo vazamento de informações foram 
enquadrados no crime de danos morais.
Reflexão
Organização orientada à dados deve prover acesso 
aos seus dados à todos na organização, mas até que 
ponto?
Como uma organização baseada em dados, deve 
tratar os dados de seus usuários ou clientes, 
considerando a privacidade e ética sobre os dados e 
os riscos que eles acarretam?
• É a habilidade de uma pessoa em controlar a 
exposição e a disponibilidade de informações acerca 
de si.
Privacidade
• Ciência que estuda os aspectos morais e a conduta 
humana, como os princípios que motivam, distorcem, 
disciplinam ou orientam o comportamento humano.
Ética
• É a probabilidade de um evento acontecer, seja ele 
uma ameaça, quando negativo, ou oportunidade, 
quando positivo.
Risco
Captura dos dados “pessoais” dos 
usuários não autorizado
 Big Brother  Toda sua atividade é monitorada.
– Tudo que você pesquisa, assiste, clica etc., vira dado.
– Existe privacidade na internet?
Captura dos dados “pessoais” dos 
usuários não autorizado
 Edward Joseph Snowden foi um analista de sistemas da CIA, 
que tornou público detalhes de vários programas que 
constituem o sistema de vigilância global da segurança 
americana.
Captura dos dados “pessoais” dos 
usuários autorizado
 Com seu consentimento, seus dados se transformam em 
negócio.
– Habilitar cookies durante a navegação.
– Descontos mediante cadastro ou informação de CPF.
– Serviços “gratuitos”.
• Redes sociais, buscadores, messengers, e-mails, armazenamento de fotos e 
documentos em geral, programas de milhagem etc.
• Recebe em contrapartida todo sua massa de dados pessoais.
• Pode usar como ela quiser, pois tem seu consentimento.
Direito a privacidade
 Direito à privacidade é composto por três outros direitos:
– Direito de não ser monitorado.
• Direito de não ser visto, ouvido etc.
– Direito de não ser registrado;
• Direito de não ter imagens gravadas, conversas gravadas etc.
– Direito de não ser reconhecido.
• Direito de não ter imagens e conversas anteriormente gravadas, publicadas em qualquer 
meio de comunicação.
Fonte: VIANNA, Túlio. Transparência pública, opacidade privada. Rio de Janeiro: 
Revan, 2007.
• Art 12º - Ninguém será objeto de ingerências 
arbitrárias em sua vida privada, sua família, seu 
domicílio ou sua correspondência, nem de ataques a 
sua honra ou a sua reputação. Toda pessoa tem 
direito à proteção da lei contra tais ingerências ou 
ataques.
Declaração Universal dos Direitos Humanos (ONU):
Regulamentação geral para proteção 
de dados da comunidade europeia
 GDPR – General Data Protection Regulation.
 Unificar a proteção de dados para todos os indivíduos sobre 
a proteção dos países da União Europeia (UE). 
– Em vigor desde de 25 de maio de 2018.
– Aborda questões sobre a exportação de dados pessoais para fora 
da UE. 
 Aplica às empresas localizadas ou não na EU, e que 
processam dados de residentes naquela comunidade.
 Visa:
– Proteger o chamado Personal Identifiable Infomation (PII).
– Conceder a cada cidadão o direito com relação aos seus dados.
HIPAA - Health Insurance Portability and 
Accountability Act
 Fornece aos paciente direitos e proteções de privacidade em relação à 
sua informação de saúde (dados de identificação e sobre a saúde do 
paciente, principalmente doenças mental e de grave severidade).
 Define padrões para proteção dos dados sensíveis.
 Estabelece controles sobre como os dados são usados e divulgados 
pelos planos de saúde e prestadores de cuidados de saúde 
(formulários de consentimento).
 Determina as medidas necessárias de segurança física, de rede e de 
processo.
 Lei de Portabilidade e Responsabilidade de 
Seguros de Saúde definida pelo governo dos EUA.
• Art. 5º - Todos são iguais perante a lei, sem distinção de 
qualquer natureza, garantindo-se aos brasileiros e aos 
estrangeiros residentes no país a inviolabilidade do direito à 
vida, à liberdade, à igualdade, à segurança e à propriedade, 
nos termos seguintes:
• […] X - são invioláveis a intimidade, a vida privada, a honra e a 
imagemdas pessoas, assegurado o direito a indenização pelo 
dano material ou moral decorrente de sua violação.
Constituição Federal Brasileira de 1988:
• Entre outras objeções, a lei criminaliza o ato de "invadir 
dispositivo informático alheio, mediante violação de 
mecanismo de segurança, com o fim de obter dados", 
definindo pena de três meses a dois anos de prisão.
Lei número 12.737, de 30/11/2013
Lei de acesso à informação
 Lei nº 12.527, de 18 de novembro de 2011.
 Regulamenta o direito constitucional de acesso às 
informações públicas (transparência).
 Criou mecanismos que possibilitam, a qualquer pessoa, física 
ou jurídica, sem necessidade de apresentar motivo, o 
recebimento de informações públicas dos órgãos e entidades.
 Regulamenta os aspectos sobre a classificação do sigilo de 
informações.
Lei de acesso à informação
Art. 31. O tratamento das informações pessoais deve ser feito de forma transparente e 
com respeito à intimidade, vida privada, honra e imagem das pessoas, bem como às 
liberdades e garantias individuais.
§ 1º As informações pessoais, a que se refere este artigo, relativas à intimidade, 
vida privada, honra e imagem:
I - terão seu acesso restrito, independentemente de classificação de sigilo e pelo 
prazo máximo de 100 (cem) anos a contar da sua data de produção, a agentes 
públicos legalmente autorizados e à pessoa a que elas se referirem; e
II - poderão ter autorizada sua divulgação ou acesso por terceiros diante de 
previsão legal ou consentimento expresso da pessoa a que elas se referirem.
§ 2º Aquele que obtiver acesso às informações de que trata este artigo será 
responsabilizado por seu uso indevido.
Fonte: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm
http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm
Lei Geral de Proteção de Dados Pessoais 
(LGPDP)
 Lei nº 13.709 de 14 de agosto de 2018, vigência completa a partir de 2020.
 Legislação brasileira que regula as atividades de tratamento 
de dados pessoais.
– Define o que são dados pessoais, dados sensíveis, titular dos dados (PF dona dos 
dados coletados), consentimento aos dados, 
– Estabelece os direitos do titular dos dados pessoais.
– Impõe sanções variadas a quem infringir as regras.
 A LGPD estabelece ainda que não importa se a sede de uma organização 
ou o centro de dados dela estão localizados no Brasil ou no exterior: se há o 
processamento de conteúdo de pessoas, brasileiras ou não, que estão no 
território nacional, a LGPD deve ser cumprida.
Fonte: http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/L13709.htm
Corpus sobre segurança de dados
 Data Management Body of Knowledge (DMBOK) da DAMA 
(Data Management Association).
 Área de conhecimento da Gestão de Dados específica para 
segurança de dados. 
– Inclui o planejamento, o desenvolvimento e a execução de políticas e 
procedimentos de segurança para fornecer autenticação, 
autorização, acesso e auditoria apropriada de recursos de dados e 
informações (DMBOK v1 e V2).
– Práticas de segurança de dados visam proteger os ativos de 
informações em alinhamento com os regulamentos de privacidade e 
confidencialidade, acordos contratuais e requisitos de negócios.
 Entendemos as questões relacionadas à segurança e 
privacidade de dados.
 Conhecemos as leis brasileiras associadas à segurança e 
privacidade de dados.
Conclusão
 Aprender modelagem de dados em ambientes relacionais.
 Aprender a realizar manipulação de dados em ambientes 
relacionais utilizando a linguagem SQL.
Próxima aula