Prévia do material em texto
Fundamentos em Engenharia de Dados Capítulo 2. Fundamentos da Engenharia de Dados Profª. Fernanda Farinelli Aula 2.1. Introdução à engenharia de dados Entender o que é a engenharia de dados. Entender o que é o projeto de arquitetura de dados. Conhecer a diferença entre engenharia e ciência de dados. Nesta aula Foco em transformar dados em um formato útil para análise. Área responsável por planejar e preparar toda a infraestrutura e arquitetura de dados. Trabalha com soluções que envolve quase todo o pipeline de dados. Engenharia de Dados Arquitetura de dados Conjunto de conhecimentos e práticas necessárias para a resolução técnica de problemas de negócio que lidam com a gestão das informações nas organizações. Projeto de Arquitetura de Dados • Uma descrição arquitetural de dados representando o resultado da definição de como elementos de dados da organização devem ser tecnicamente implementados, mantidos e evoluídos. • Envolve componentes de software e hardware. Projeto de arquitetura de dados Projeto de arquitetura de dados Coleta Modelagem Armazenamento PreparaçãoAnáliseVisualização Cobre todo o pipeline de dados. Aderente aos requisitos dos cientistas de dados e das partes interessadas. A arquitetura deve ser projetada para ser escalável, confiável (tolerante a falhas), íntegra, segura e evolutiva. Exemplo de projeto de arquitetura de dados baseado no ecossistema Hadoop Fonte: https://www.cetax.com.br/apache-hadoop-tudo-o-que-voce-precisa-saber/ https://www.cetax.com.br/apache-hadoop-tudo-o-que-voce-precisa-saber/ Tecnologias em Big Data Ciência de dados Investigação de conhecimento Expande compreensão sobre os dados Engenharia de dados Projeto de dados Expande os resultados para problemas e questões Conhecimentos básicos Ciência de dados Engenharia de dados Fonte: https://www.datasciencecentral.com/profiles/blogs/data-scientists-data-engineers- software-engineers-the-difference https://www.datasciencecentral.com/profiles/blogs/data-scientists-data-engineers-software-engineers-the-difference Entendemos o que é a engenharia de dados. Entendemos o que é um projeto de arquitetura de dados e sua relação com o pipeline de dados. Conhecemos a diferença entre engenharia e ciência de dados. Conclusão Discutir as principais atividades do profissional de engenharia de dados. Próxima aula Aula 2.2. Atividades do profissional de engenharia de dados Discutir as principais atividades do profissional de engenharia de dados. Nesta aula Atividades do profissional de engenharia de dados Coleta Modelagem Armazenamento PreparaçãoAnáliseVisualização Propor e implementar todo o pipeline de dados Entender… Os requisitos de dados e do negócio. A origem e natureza dos dados. A necessidade de integração de dados. Propor e implementar todo o pipeline de dados Propor e implementar todo o pipeline de dados Desenvolver rotinas para… Automatizar a coleta de dados (data collection, ingestion, acquisition e preparation). De preparação de dados (limpeza, enriquecimento, padronização, combinação, discretização etc.). De ETL (extração, transformação e carga). Propor e implementar todo o pipeline de dados Propor e implementar… Os modelos de dados conforme requisitos. Os repositórios de dados (data hub, DW, data lakes, relacionais etc.). Soluções para integração de dados. Propor e implementar todo o pipeline de dados Definir, configurar e manter plataformas para armazenamento e processamento de dados estruturados ou não. • Escaláveis, distribuídas, com alta disponibilidade e tolerante a falhas, suportem processamento massivo de dados (paralelismo). Assegurar o uso das políticas de segurança na camada de acesso aos dados. Modelagem de dados SGBDs relacional, NoSQL e NewSQL Armazenamento em memória Armazenamento em nuvem (cloud) Arquiteturas distribuída e escaláveis Processamento de dados massivos (paralelismo) Data warehouse, data mart, data lake etc. Sistemas de arquivo distribuído Ferramentas OLAP e ETL Ecossistema Hadoop Programação R e Python Linguagem SQL, JSON etc. Conhecimentos necessários ao profissional de engenharia de dados Conhecemos as principais atividades do profissional de engenharia de dados. Visualizamos alguns conhecimentos necessários ao profissional de engenharia de dados. Conclusão Entender o que é uma organização orientada por dados. Próxima aula Aula 2.3. Organizações orientadas à dados Entender o que são organizações orientadas por dados. Nesta aula Bolsa de Valores Mercado organizado para negociação de ações de sociedades de capital aberto (públicas ou privadas) e outros valores mobiliários. – Preços das ações indicam o valor de mercado das empresas. – O valor de mercado sobre influência de diversas fontes: • Taxa Selic, e outras taxas. • Dados governamentais. • Resultados financeiros da empresa. • Mercado externo. • Questões políticas e legislação. Orientação à dados (data-driven) A forma como uma atividade ou processo acontece, depende dos dados que servem de entrada para que ela ocorra. Motoristas da UPS raramente viram à esquerda United Parcel Service (UPS) Empresa de logística, distribuindo diariamente mais de 19 milhões de encomendas em mais de 100 países. A empresa economiza milhões de litros de combustível anualmente, e reduziu a emissão de gases poluentes apenas orientando seus motoristas a sempre virar a direita. Organização orientada à dados Data-driven organization Entende-se que organização orientada a dados é a organização que se baseia nas análises de dados para apoiar e balizar a gestão e suas decisões, visando atingir os objetivos estratégicos do negócio. “Ser orientado a dados é, antes de mais nada, ter como meta nas decisões corporativas a objetividade e estar sempre baseado em evidências” (Kirk Borne). Organização orientada à dados Os dados norteiam, definem, permitem análise e possibilitam previsões. Experiência anterior, vivência de negócio, tendências e padrões observados. Incrementam as decisões que uma organização pode tomar, agregando maior valor ao negócio. Cultura orientada à dados Organizações orientadas à dados desenvolvem uma cultura orientada por dados (data-driven culture). – Utilizam os dados gerados pela organização em todos os seus processos, como insumo para suas decisões. – Compartilham conhecimento. Dados Processos Pessoas Ativos Cultura orientada por dados Vantagens da cultura orientada à dados Oportunidade de abertura de novos negócios. Redução de custos e otimização de receitas e despesas. Melhor relacionamento com o cliente e funcionários. Melhoria na produtividade. Melhor definição de preços. Envolvimento da equipe na estratégia organizacional. Agilidade e facilidade no processo de tomada de decisão, respaldados pelo monitoramento de indicadores. Framework de apoio DAMA – Data Management Association. DMBOK – Data Management Body of Knowledge. 36 DMBok 1.0 DMBok 2.0 Conhecemos o que é uma organização orientada por dados. Entendemos as vantagens de adotar uma cultura orientada por dados. A cultura orientada por dados nas organizações é um processo gradual que exige mudanças nos hábitos, atitudes, pessoal e até recursos. Conclusão Compreender o processo de tomada de decisão orientada por dados. Próxima aula Aula 2.4. Tomada de decisão orientada à dados Entender o processo de tomada de decisão orientada por dados. Conhecer os aspectos da tomada de decisão nas organizações Nesta aula Walmart pioneiro na orientação à dados Investe no uso de dados desde 70’s. Data warehouse para gerenciar o estoque e suas operações. – Identificar perfil de compras dos clientes (quem compra? O que compra? Onde compra? Com qual frequência compra?). – Identificar produtosvendidos e como a colocação desses produtos na loja afetava as vendas. – Qual a sazonalidade das vendas entorno dos produtos e em que lojas eram vendidas. Análises preditivas nos seus dados históricos para melhorar o gerenciamento de estoque e distribuição. – Logística para distribuição para seus armazéns e organização das mercadorias em cada loja. Análises de redes sociais para saber o que as pessoas próximas a cada loja estão dizendo sobre as lojas e produtos. Decisão orientada por dados Furacão Frances (setembro de 2004) rota ao Sul dos EUA. – Tecnologia de análise preditiva, analisou eventos anteriores semelhantes na mesma região. – Na fase pré-furacão: • A venda de alguns itens já eram previstos, como pilhas e água. • A inovação foi a torta de morango (strawberry tarts). – O objetivo era concentrar a distribuição dos principais produtos comprados em função do evento, nas lojas da rota do furacão. – Observou-se um aumento em vendas (7x) da torta de morango (strawberry tarts), com a passagem do furacão. Tomada de decisão orientada por dados Data-Driven Decision Making As decisões deixam de ser por intuitos ou instintos dos gestores, passando a serem fundamentadas em dados e nas análises destes dados. Análise de dados como cerne dos processos de tomada de decisões. Surgimento de novas profissões: gestor de dados (CDO - Chief Data Officer), cientista de dados, engenheiro(a) de dados, analista de dados etc. Fluxo da tomada de decisão orientada por dados Fundamentos para a tomada de decisões orientada por dados Ter uma estratégia e objetivos bem definidos. Conhecer o negócio, as áreas e suas importâncias para a estratégia. Conhecer os dados relevantes para o negócio e suas respectivas fontes de dados. Saber fazer os questionamentos corretos (hipóteses). Estabelecer indicadores e métricas para medição. Dispor de mecanismos para coletar e analisar os dados. Extrair insights significativos das análises de dados. Reflexão “Em Deus nós confiamos. Todos os outros devem apresentar dados.” “In God we trust. All others must bring data.” Edwards Deming Discutimos o que é o processo de tomada de decisão orientado por dados. Conclusão Entender as questões relacionadas à segurança e privacidade de dados. Próxima aula Aula 2.5. Segurança e privacidade de dados Entender as questões relacionadas à segurança e privacidade de dados. Nesta aula A Target prevê sua gravidez Análise preditiva: – Identificou 25 produtos que, quando comprados em conjunto, indicam que uma mulher provavelmente está grávida (estatística). – Envia às clientes cupons relevantes para cada estágio da gravidez. Aumentou suas vendas, mas causou constrangimento familiar. – Descobriu a gravidez de uma adolescente antes da família. – O pai da garota reclamou com o gerente de uma loja próxima, ameaçando processar a empresa, entretanto, mais tarde ele retornou ao local para se desculpar, pois a gravidez foi confirmada. Funcionários da UBER conhecem sua localização Josh Mohrer, gerente geral da Uber Nova York, foi alvo de uma investigação interna por ter rastreado a localização de uma repórter da BuzzFeed, sem a permissão da repórter. – Ferramenta interna chamada "God View”, acessível para a equipe corporativa da Uber, que fornece uma visão em tempo real de locais de veículos e clientes. – Tal ação violou a política de privacidade da empresa. – Mas gerou problemas maiores de confiabilidade na empresa, por parte de seus clientes/usuários. O caso Carolina Dieckmann Em maio de 2012, Carolina Dieckmann viu seu nome e 36 fotos íntimas suas estampadas em vários sites e redes sociais, foi a polícia que descobriu que o e-mail dela havia sido invadido por hackers e as fotos vazadas na internet. Os responsáveis pelo vazamento de informações foram enquadrados no crime de danos morais. Reflexão Organização orientada à dados deve prover acesso aos seus dados à todos na organização, mas até que ponto? Como uma organização baseada em dados, deve tratar os dados de seus usuários ou clientes, considerando a privacidade e ética sobre os dados e os riscos que eles acarretam? • É a habilidade de uma pessoa em controlar a exposição e a disponibilidade de informações acerca de si. Privacidade • Ciência que estuda os aspectos morais e a conduta humana, como os princípios que motivam, distorcem, disciplinam ou orientam o comportamento humano. Ética • É a probabilidade de um evento acontecer, seja ele uma ameaça, quando negativo, ou oportunidade, quando positivo. Risco Captura dos dados “pessoais” dos usuários não autorizado Big Brother Toda sua atividade é monitorada. – Tudo que você pesquisa, assiste, clica etc., vira dado. – Existe privacidade na internet? Captura dos dados “pessoais” dos usuários não autorizado Edward Joseph Snowden foi um analista de sistemas da CIA, que tornou público detalhes de vários programas que constituem o sistema de vigilância global da segurança americana. Captura dos dados “pessoais” dos usuários autorizado Com seu consentimento, seus dados se transformam em negócio. – Habilitar cookies durante a navegação. – Descontos mediante cadastro ou informação de CPF. – Serviços “gratuitos”. • Redes sociais, buscadores, messengers, e-mails, armazenamento de fotos e documentos em geral, programas de milhagem etc. • Recebe em contrapartida todo sua massa de dados pessoais. • Pode usar como ela quiser, pois tem seu consentimento. Direito a privacidade Direito à privacidade é composto por três outros direitos: – Direito de não ser monitorado. • Direito de não ser visto, ouvido etc. – Direito de não ser registrado; • Direito de não ter imagens gravadas, conversas gravadas etc. – Direito de não ser reconhecido. • Direito de não ter imagens e conversas anteriormente gravadas, publicadas em qualquer meio de comunicação. Fonte: VIANNA, Túlio. Transparência pública, opacidade privada. Rio de Janeiro: Revan, 2007. • Art 12º - Ninguém será objeto de ingerências arbitrárias em sua vida privada, sua família, seu domicílio ou sua correspondência, nem de ataques a sua honra ou a sua reputação. Toda pessoa tem direito à proteção da lei contra tais ingerências ou ataques. Declaração Universal dos Direitos Humanos (ONU): Regulamentação geral para proteção de dados da comunidade europeia GDPR – General Data Protection Regulation. Unificar a proteção de dados para todos os indivíduos sobre a proteção dos países da União Europeia (UE). – Em vigor desde de 25 de maio de 2018. – Aborda questões sobre a exportação de dados pessoais para fora da UE. Aplica às empresas localizadas ou não na EU, e que processam dados de residentes naquela comunidade. Visa: – Proteger o chamado Personal Identifiable Infomation (PII). – Conceder a cada cidadão o direito com relação aos seus dados. HIPAA - Health Insurance Portability and Accountability Act Fornece aos paciente direitos e proteções de privacidade em relação à sua informação de saúde (dados de identificação e sobre a saúde do paciente, principalmente doenças mental e de grave severidade). Define padrões para proteção dos dados sensíveis. Estabelece controles sobre como os dados são usados e divulgados pelos planos de saúde e prestadores de cuidados de saúde (formulários de consentimento). Determina as medidas necessárias de segurança física, de rede e de processo. Lei de Portabilidade e Responsabilidade de Seguros de Saúde definida pelo governo dos EUA. • Art. 5º - Todos são iguais perante a lei, sem distinção de qualquer natureza, garantindo-se aos brasileiros e aos estrangeiros residentes no país a inviolabilidade do direito à vida, à liberdade, à igualdade, à segurança e à propriedade, nos termos seguintes: • […] X - são invioláveis a intimidade, a vida privada, a honra e a imagemdas pessoas, assegurado o direito a indenização pelo dano material ou moral decorrente de sua violação. Constituição Federal Brasileira de 1988: • Entre outras objeções, a lei criminaliza o ato de "invadir dispositivo informático alheio, mediante violação de mecanismo de segurança, com o fim de obter dados", definindo pena de três meses a dois anos de prisão. Lei número 12.737, de 30/11/2013 Lei de acesso à informação Lei nº 12.527, de 18 de novembro de 2011. Regulamenta o direito constitucional de acesso às informações públicas (transparência). Criou mecanismos que possibilitam, a qualquer pessoa, física ou jurídica, sem necessidade de apresentar motivo, o recebimento de informações públicas dos órgãos e entidades. Regulamenta os aspectos sobre a classificação do sigilo de informações. Lei de acesso à informação Art. 31. O tratamento das informações pessoais deve ser feito de forma transparente e com respeito à intimidade, vida privada, honra e imagem das pessoas, bem como às liberdades e garantias individuais. § 1º As informações pessoais, a que se refere este artigo, relativas à intimidade, vida privada, honra e imagem: I - terão seu acesso restrito, independentemente de classificação de sigilo e pelo prazo máximo de 100 (cem) anos a contar da sua data de produção, a agentes públicos legalmente autorizados e à pessoa a que elas se referirem; e II - poderão ter autorizada sua divulgação ou acesso por terceiros diante de previsão legal ou consentimento expresso da pessoa a que elas se referirem. § 2º Aquele que obtiver acesso às informações de que trata este artigo será responsabilizado por seu uso indevido. Fonte: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm Lei Geral de Proteção de Dados Pessoais (LGPDP) Lei nº 13.709 de 14 de agosto de 2018, vigência completa a partir de 2020. Legislação brasileira que regula as atividades de tratamento de dados pessoais. – Define o que são dados pessoais, dados sensíveis, titular dos dados (PF dona dos dados coletados), consentimento aos dados, – Estabelece os direitos do titular dos dados pessoais. – Impõe sanções variadas a quem infringir as regras. A LGPD estabelece ainda que não importa se a sede de uma organização ou o centro de dados dela estão localizados no Brasil ou no exterior: se há o processamento de conteúdo de pessoas, brasileiras ou não, que estão no território nacional, a LGPD deve ser cumprida. Fonte: http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/L13709.htm Corpus sobre segurança de dados Data Management Body of Knowledge (DMBOK) da DAMA (Data Management Association). Área de conhecimento da Gestão de Dados específica para segurança de dados. – Inclui o planejamento, o desenvolvimento e a execução de políticas e procedimentos de segurança para fornecer autenticação, autorização, acesso e auditoria apropriada de recursos de dados e informações (DMBOK v1 e V2). – Práticas de segurança de dados visam proteger os ativos de informações em alinhamento com os regulamentos de privacidade e confidencialidade, acordos contratuais e requisitos de negócios. Entendemos as questões relacionadas à segurança e privacidade de dados. Conhecemos as leis brasileiras associadas à segurança e privacidade de dados. Conclusão Aprender modelagem de dados em ambientes relacionais. Aprender a realizar manipulação de dados em ambientes relacionais utilizando a linguagem SQL. Próxima aula