Baixe o app para aproveitar ainda mais
Prévia do material em texto
Título N om e do Autor O presente trabalho visa propor uma arquitetura de Big Data, no conceito de Data Lake, para o projeto ParticipAct Brasil, abordando as principais dificuldades na operacionalização de pesquisas com análises de dados de grande volume, variedade e velocidade. O trabalho foi desenvolvido seguindo a metodologia Design Science Research, utilizando o framework TOGAF ADM para o projeto de arquitetura, disposta nas camadas de negócio, aplicação, dados e tecnologia. Orientador: Carlos Roberto De Rolt Florianópolis, 2020 DISSERTAÇÃO DE MESTRADO DATA LAKE: PROPOSTA DE ARQUITETURA BIG DATA PARA O PROJETO PARTICIPACT BRASIL ANO 2020 DEN ILTO N LU IZ DARO LD | DATA LAKE: PRO PO STA DE ARQ U ITETU RA BIG DATA PARA O PRO JETO PARTICIPACT BRASIL UNIVERSIDADE DO ESTADO DE SANTA CATARINA – UDESC CENTRO DE CIÊNCIAS DA ADMINISTRAÇÃO E SOCIOECÔNOMICAS – ESAG PROGRAMA DE PÓS GRADUAÇÃO EM ADMINISTRÇÃO DENILTON LUIZ DAROLD FLORIANÓPOLIS, 2020 Denilton Luiz Darold Data Lake: Proposta de Arquitetura Big Data para o Projeto ParticipAct Brasil Dissertação apresentada ao Curso de Pós- graduação em Administração, da Universi- dade Estadual de Santa Catarina, como re- quisito parcial para a obtenção do grau de Mestre em Administração. Orientador: Prof. Dr. Carlos Roberto De Rolt Florianópolis 2020 Ficha catalográfica elaborada pelo programa de geração automática da Biblioteca Setorial do ESAG/UDESC, com os dados fornecidos pelo(a) autor(a) Darold, Denilton Luiz Data Lake: Proposta de Arquitetura Big Data para o Projeto ParticipAct Brasil/ Denilton Luiz Darold. – 2020. 146 p. Orientador: Carlos Roberto De Rolt Dissertação (Mestrado) – Universidade do Estado de Santa Catarina, Centro de Ciências da Administração e Socioeconômicas - ESAG, Pro- grama de Pós-Graduação Profissional em Administração, Florianópolis, 2020. 1. Data Lake 2. Big Data 3. Arquitetura I. De Rolt, Carlos Roberto II. Universidade do Estado de Santa Catarina, Centro de Ciências da Administração e Socioeconômicas - ESAG, Programa de Pós- Graduação Profissional em Administração. III. Título. Denilton Luiz Darold Data Lake: Proposta de Arquitetura Big Data para o Projeto ParticipAct Brasil Dissertação apresentada ao Curso de Pós- graduação em Administração, da Universi- dade Estadual de Santa Catarina, como re- quisito parcial para a obtenção do grau de Mestre em Administração. Aprovado em 20 de Maio de 2020. BANCA EXAMINADORA: Prof. Dr. Carlos Roberto De Rolt Orientador Prof. Dr. Mario A. R. Dantas – UFSC Avaliador Prof. Dr. Luca Foschini – UNIBO Avaliador Externo Visto e permitida a impressão Florianópolis 2020 Carlos Roberto De Rolt (Jul 3, 2020 10:47 ADT) Luca Foschini (Jul 6, 2020 11:58 GMT+2) Mario Dantas (Jul 6, 2020 08:33 ADT) https://adobefreeuserschannel.na2.documents.adobe.com/verifier?tx=CBJCHBCAABAA3UZhmn1KjNbTmwBOlfmwaVhbXeFQfAZ- https://adobefreeuserschannel.na2.documents.adobe.com/verifier?tx=CBJCHBCAABAA3UZhmn1KjNbTmwBOlfmwaVhbXeFQfAZ- https://adobefreeuserschannel.na2.documents.adobe.com/verifier?tx=CBJCHBCAABAA3UZhmn1KjNbTmwBOlfmwaVhbXeFQfAZ- Assinatura digital de ficha de aprovação de dissertação de Mestrado Final Audit Report 2020-07-06 Created: 2020-07-03 By: denilton darold (denilton.d@gmail.com) Status: Signed Transaction ID: CBJCHBCAABAA3UZhmn1KjNbTmwBOlfmwaVhbXeFQfAZ- "Assinatura digital de ficha de aprovação de dissertação de Mes trado" History Document created by denilton darold (denilton.d@gmail.com) 2020-07-03 - 0:47:53 AM GMT- IP address: 189.34.9.149 Document emailed to Carlos Roberto De Rolt (crderolt@gmail.com) for signature 2020-07-03 - 0:49:51 AM GMT Email viewed by Carlos Roberto De Rolt (crderolt@gmail.com) 2020-07-03 - 2:27:07 AM GMT- IP address: 66.102.8.208 Document e-signed by Carlos Roberto De Rolt (crderolt@gmail.com) Signature Date: 2020-07-03 - 1:47:35 PM GMT - Time Source: server- IP address: 189.112.62.214 Document emailed to Luca Foschini (luca.foschini@unibo.it) for signature 2020-07-03 - 1:47:36 PM GMT Email viewed by Luca Foschini (luca.foschini@unibo.it) 2020-07-06 - 9:49:11 AM GMT- IP address: 151.46.89.238 Document e-signed by Luca Foschini (luca.foschini@unibo.it) Signature Date: 2020-07-06 - 9:58:14 AM GMT - Time Source: server- IP address: 151.46.89.238 Document emailed to Mario Dantas (dantasmar@gmail.com) for signature 2020-07-06 - 9:58:16 AM GMT Email viewed by Mario Dantas (dantasmar@gmail.com) 2020-07-06 - 11:30:13 AM GMT- IP address: 66.249.88.105 Document e-signed by Mario Dantas (dantasmar@gmail.com) Signature Date: 2020-07-06 - 11:33:07 AM GMT - Time Source: server- IP address: 189.27.10.16 Signed document emailed to denilton darold (denilton.d@gmail.com), Luca Foschini (luca.foschini@unibo.it), Carlos Roberto De Rolt (crderolt@gmail.com), and Mario Dantas (dantasmar@gmail.com) 2020-07-06 - 11:33:07 AM GMT AGRADECIMENTOS À minha esposa, Elsie Gatiboni Escarrone, e minha filha Eva Escarrone Darold pelo carinho e apoio mesmo nos momentos de ausência. Aos meus pais, Deonir Luiz Darold e Geni Darold, pelo incentivo e suporte nos momentos de decisão. Ao Prof. Dr. Carlor Roberto De Rolt pela sua dedicação no papel de orientador. Seu conhecimento, experiência e pragmatismo serviram não somente à construção dessa dissertação, mas como inspiração profissional. À Eliza Gomes pela troca de conhecimento e contribuição final na dissertação. À banca examinadora na qualificação, composta pelo Prof. Dr. Denilson Sell e Prof. Dr. Nério Zamboni, por todas as contribuições e direcionamentos para a elaboração dessa dissertação. Ao corpo docente da ESAG pelo aprendizado ao longo do mestrado. À coordenação do programa de pós graduação, em especial à Prof. Dr. Micheline Gaia Ho�mann, pela prestatividade e atenção despendida. Aos colegas de turma, e, em especial, aos amigos do LabGes pela troca de experi- ências e conhecimento. A todos que direta e indiretamente colaboraram em minha trajetória no período do mestrado. “You can have brilliant ideas, but if you can’t get them across, your ideas won’t get you anywhere." (Lee Iacocca) RESUMO A aplicação da inteligência humana potencializada pelas tecnologias de informação e comunicação(TIC) possibilita a melhoria da qualidade de vida em ambientes urbanos nas cidades inteligentes. A crescente urbanização acompanhada da intensificação de sensores fixos produzem grandes quantidade de dados que tem o potencial de serem utilizados para gestão de eventos. A solução técnica para gerir esses dados depende da capacidade de armazenamento flexível e robusta que encontrou resposta nas tecnologias de Big Data. Um dos grandes desafios é a coleta desses dados. Dada a variedade das fontes e formatos de dados, a manipulação destes até o seu armazenamento, nos processos de ETL(Extraction- Transform-Load), podem representar um gargalo, pois demandam modelagem dos dados a priori. O conceito de Data Lake aborda esse problema permitindo uma recepção de dados sem prévia estruturação, para posterior tratamento e modelagem, transformando ETL em ELT(Extraction-Load-Transform), aumentando, assim, a capacidade de recepção de dados. Além da eliminação da barreira na coleta, outro benefício é a disponibilidade dos dados em um repositório central que permite análise de dados com cruzamentos de fontes diversas e a diminuição no custo de infraestrutura. O presente trabalho visa propor uma arquitetura de Big Data, no conceito de Data Lake, para o projeto ParticipAct Brasil, abordando as principais dificuldades na operacionalização de pesquisas com análises de dados de grande volume, variedade e velocidade. O trabalho foi desenvolvido seguindo a metodologia Design Science Research, utilizando o framework TOGAF ADM para o projeto de arquitetura, disposta nas camadas de negócio, aplicação, dados e tecnologia. A avaliação do artefato foi realizada com demonstração em cenário de uso no estudo população flutuante na cidade de Florianópolis, onde foiimplementado algoritmo de machine learning para estimar a variação populacional. Na demonstração foi evidenciado o atendimento dos objetivos previstos. As contribuições do trabalho estão no artefato documental desenvolvido que pode servir de guia para implantação de arquitetura computacional de Big Data no projeto ParticipAct. Palavras-chaves: Data lake. Big data. Architecture. Smart cities ABSTRACT The use of technologies has boosting human intelligence and allowing the improvement of the quality of life in urban spaces in smart cities. The increasing urbanization combined with the growing adoption of sensors produces a massive volume of data that could be applied in events management. The technical solution to handle this data depends on flexible and robust storage structures, made available with Big Data technologies. One of the biggest challenges is to collect the data. Due to the heterogeneity of data sources and formats, a matter of concern is to handle an immense amount of data in a timely manner, in ETL (Extraction-Transform-Load) processes. The concept of Data Lake addresses this problem providing an alternative approach, allowing the data ingestion without prior data modeling, into a staging area. The advantage, besides this flexibility on reception, is to provide a centralized repository that allows data analysis combining di�erent datasets in the same sight. On top of that, this solution is supposed to reduce the infrastructure cost due to the distributed nature of its main technology, the Apache Hadoop. The present thesis aims to propose a big data architecture, using the Data Lake concept, for the ParticipAct Brazil project, addressing the known hardships on data analysis operations of data of great volume, variety, and velocity in academic research. The thesis was developed under the Design Science Research methodology, applying the TOGAF ADM to architecture project, including the layers of business, application, data, and technology. The assessment of artifact created was through a demonstration in a case scenario, the study of the floating population in the Florianópolis municipality, in which was implemented a machine-learning algorithm to estimate the variation in the population in the municipality abovementioned. The demonstration showed the achievement of the objectives. The contributions of this thesis lie on the artifact developed that serves as a guideline for future implementation of the Big Data computational architecture in the ParticipAct project. Key-words: Data Lake. Big Data. Architecture. Smart Cities. LISTA DE FIGURAS Figura 1 – Publicações sobre Data Lake. . . . . . . . . . . . . . . . . . . . . . . . 22 Figura 2 – Arquitetura Funcional de Um Data Lake. . . . . . . . . . . . . . . . . 26 Figura 3 – 3Vs de Big Data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Figura 4 – Técnicas de Big Data Analytics . . . . . . . . . . . . . . . . . . . . . . 30 Figura 5 – Áreas de Governança de Dados . . . . . . . . . . . . . . . . . . . . . . 33 Figura 6 – Fluxo de Governança de Dados . . . . . . . . . . . . . . . . . . . . . . 35 Figura 7 – Arquitetura de Referência para Smart Cities . . . . . . . . . . . . . . 39 Figura 8 – Pontuação das cidades no ODI . . . . . . . . . . . . . . . . . . . . . . 43 Figura 9 – Fases do TOGAF ADM. . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Figura 10 – Visão Geral do O-BDL . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Figura 11 – Visão Geral da Arquitetura de Referência do NIST. . . . . . . . . . . . 52 Figura 12 – Fases do Processo de DSR . . . . . . . . . . . . . . . . . . . . . . . . 56 Figura 13 – Ocorrências de palavras chave da RL. . . . . . . . . . . . . . . . . . . . 60 Figura 14 – Customização TOGAF ADM. . . . . . . . . . . . . . . . . . . . . . . . 61 Figura 15 – Archimate. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Figura 16 – Infraestrutura do projeto ParticipACT Brasil . . . . . . . . . . . . . . 66 Figura 17 – Modelo de Big Data no ParticipACT Brasil . . . . . . . . . . . . . . . 67 Figura 18 – Exemplo de arquitetura Data Lake. . . . . . . . . . . . . . . . . . . . . 68 Figura 19 – Objetivos e motivações de negócio. . . . . . . . . . . . . . . . . . . . . 76 Figura 20 – Capacidades de Negócio. . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Figura 21 – Visão da Arquitetura. . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Figura 22 – Arquitetura de Negócio do ParticipAct Brasil. . . . . . . . . . . . . . . 80 Figura 23 – Arquitetura de Dados do ParticipAct Brasil. . . . . . . . . . . . . . . . 83 Figura 24 – Arquitetura de Aplicação do ParticipAct Brasil. . . . . . . . . . . . . . 85 Figura 25 – Arquitetura de Tecnologia. . . . . . . . . . . . . . . . . . . . . . . . . . 87 Figura 26 – Arquitetura de Segurança. . . . . . . . . . . . . . . . . . . . . . . . . . 90 Figura 27 – Fluxo de Segurança. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Figura 28 – Turistas por País de Origem. . . . . . . . . . . . . . . . . . . . . . . . 96 Figura 29 – Linearidade e Correlação. . . . . . . . . . . . . . . . . . . . . . . . . . 98 Figura 30 – Componentes do sandbox do Data Lake. . . . . . . . . . . . . . . . . . 102 Figura 31 – Workflow Oozie com paralelismo. . . . . . . . . . . . . . . . . . . . . . 103 Figura 32 – Interface de Administração Ambari. . . . . . . . . . . . . . . . . . . . . 106 Figura 33 – Fluxograma de análise de dados no Data Lake. . . . . . . . . . . . . . 107 Figura 34 – UC01 - Caso de Uso Pesquisador . . . . . . . . . . . . . . . . . . . . . 127 Figura 35 – UC02 - Caso de Uso Gestor de Dados . . . . . . . . . . . . . . . . . . 128 Figura 36 – UC03 - Caso de Uso Fornecedor de Dados . . . . . . . . . . . . . . . . 129 Figura 37 – UC04 - Caso de Uso Administrador de TI . . . . . . . . . . . . . . . . 130 LISTA DE TABELAS Tabela 1 – Matriz de Correlação PEARSON. . . . . . . . . . . . . . . . . . . . . . 98 Tabela 2 – Quadrados Mínimos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Tabela 3 – População Estimada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 LISTA DE QUADROS Quadro 1 – Comparação DataWarehouse vs Data Lake . . . . . . . . . . . . . . . 29 Quadro 2 – Publicações correlatas sobre arquitetura de referência . . . . . . . . . 38 Quadro 3 – Componentes Comuns . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Quadro 4 – Métodos de Avaliação de DSR . . . . . . . . . . . . . . . . . . . . . . 55 Quadro 5 – Fases do DSR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Quadro 6 – Consulta em bases de pesquisa . . . . . . . . . . . . . . . . . . . . . . 59 Quadro 7 – Papéis na Governança de Dados . . . . . . . . . . . . . . . . . . . . . 73 Quadro 8 – Mapa de Stakeholders . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Quadro 9 – Zonas de um Data Lake . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Quadro 10 – Forma de coleta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Quadro 11 – Requisitos de Caso de Uso - População Flutuante . . . . . . . . . . . 123 Quadro 12 – Requisitos de Caso de Uso - Mobilidade Urbana . . . . . . . . . . . . 124 Quadro 13 – Requisitos de Caso de Uso - Acessibilidade Inteligente . . . . . . . . . 125 Quadro 14 – Requisitos de Caso de Uso - Gerenciamento Dinâmico de Eventos . . . 126 Quadro 15 – UC01 - Uso de Caso Pesquisador . . . . . . . . . . . . . . . . . . . . 127 Quadro 16 – UC02 - Uso de Caso Gestor de Dados . . . . . . . . . . . . . . . . . . 128 Quadro 17 – UC03 - Uso de Caso Fornecedor de Dados . . . . . . . . . . . . . . . 129 Quadro 18 – UC04 - Uso de Caso Administrador de TI . . . . . . . . . . . . . . . 130 Quadro 19 – PAN01 - Alinhamento Estratégico . . . . . . . . . . . . . . . . . . . . 131 Quadro 20 – PAN02 - Gerenciamento da Informação . . . . . . . . . . . . . . . . . 131 Quadro 21 – PAN03 - Organização de TI . . . . . . . . . . . . . . . . . . . . . . . 131 Quadro 22 – PAD01 - Dadoscomo Ativos . . . . . . . . . . . . . . . . . . . . . . . 132 Quadro 23 – PAD02 - Dados acessíveis . . . . . . . . . . . . . . . . . . . . . . . . . 132 Quadro 24 – PAD03 - Dados protegidos . . . . . . . . . . . . . . . . . . . . . . . . 132 Quadro 25 – PAA01 - Independência Tecnológica . . . . . . . . . . . . . . . . . . . 133 Quadro 26 – PAA02 - Usabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Quadro 27 – PAA03 - Modularidade . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Quadro 28 – PAT01 - Interoperabilidade . . . . . . . . . . . . . . . . . . . . . . . . 134 Quadro 29 – PAT02 - Escalabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Quadro 30 – RF01 - Ambiente gráfico destinado ao usuário final . . . . . . . . . . . 135 Quadro 31 – RF02 - Área pessoal de trabalho . . . . . . . . . . . . . . . . . . . . . 135 Quadro 32 – RF03 - Área de armazenamento da equipe . . . . . . . . . . . . . . . 135 Quadro 33 – RF04 - Realizar upload de arquivos de dados . . . . . . . . . . . . . . 135 Quadro 34 – RF05 - Realizar download de arquivos de dados . . . . . . . . . . . . 136 Quadro 35 – RF06 - Capacidade de executar consultas SQL sobre o Data Lake . . 136 Quadro 36 – RF07 - Criação de criar JOBs via Apache Oozie . . . . . . . . . . . . 136 Quadro 37 – RF08 - Agendamento de JOBs via Apache Ooozie . . . . . . . . . . . 136 Quadro 38 – RF09 - Criação de algoritmos de Machine Learning . . . . . . . . . . . 136 Quadro 39 – RF10 - Criação de notebooks para análise de dados . . . . . . . . . . 137 Quadro 40 – RF11 - Tratamento de dados para algoritmos de Machine Learning . . 137 Quadro 41 – RD11 - Execução dos algoritmos em ambiente distribuído . . . . . . . 137 Quadro 42 – RD12 - Gestão de recursos de processamento e de memória . . . . . . 137 Quadro 43 – RD13 - Quotas de armazenamento . . . . . . . . . . . . . . . . . . . . 138 Quadro 44 – RS14 - Controle do acesso às bases de dados . . . . . . . . . . . . . . 138 Quadro 45 – RS15 - Mascaramento de dados sensíveis . . . . . . . . . . . . . . . . 138 Quadro 46 – RS16 - Proteção contra carga de dados de origem desconhecida . . . . 138 Quadro 47 – RS17 - Proteção contra carga de dados de origem desconhecida . . . . 138 CÓDIGOS-FONTE 6.1 Separação de conjunto teste e treino . . . . . . . . . . . . . . . . . . . . . . 99 6.2 Treino do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 E.1 Propriedades de conexão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 E.2 Workflow de orquestracao da extração . . . . . . . . . . . . . . . . . . . . 140 E.3 Workflow de extracao por base . . . . . . . . . . . . . . . . . . . . . . . . 142 E.4 Workflow de copia por base . . . . . . . . . . . . . . . . . . . . . . . . . . 144 E.5 Script SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 E.6 Script PYSPARK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 LISTA DE ABREVIATURAS E SIGLAS API Application Programming Interface BI Business Intelligence CKAN Comprehensive Knowledge Archive Network CSV Comma separated values DAPP Diretoria de Análise de Políticas Públicas da FGV EDW Enterprise Data Warehouse ETL Extraction-Transform-Load FOSS Free and Open-Source Software HDFS Hadoop comprise of Hadoop Distributed File System IoT Internet of Things JDBC Java Database Connectivity JMS Java Message Service LAI Lei de Acesso à Informação LGDP Lei Geral de Proteção de Dados NIST National Institute of Standards and Technology ODBC Open Database Connectivity OLAP Online analytical processing POSIX Portable Operating System Interface PSI Public Sector Information SQL Structured Query Language TOGAF The Open Group Architecture Framework YARN Yet Anoter Resource Negotiator SUMÁRIO 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.1 Delimitação da situação problema . . . . . . . . . . . . . . . . . . 21 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.2.1 Objetivos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.3 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . 24 2.1 Data Lake . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1.1 Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.1.2 Apache Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.1.3 Data warehouse vs Data Lake . . . . . . . . . . . . . . . . . . . . . . 29 2.1.4 Big Data Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.5 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.6 Governança de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.7 Metadados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2 Smart Cities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.1 Estudos correlatos de Arquiteturas de Referência em Smart Cities . . 37 2.3 Fontes de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.1 Dados Abertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4 Arquitetura de Sistemas de Informação . . . . . . . . . . . . . . 44 2.4.1 Arquitetura Corporativa . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.4.1.1 Métodos de Desenvolvimento de Arquiteturas Corporativa . . . . . . . 45 2.4.1.2 TOGAF ADM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.4.2 Arquiteturas de Referência para Big Data . . . . . . . . . . . . . . . . 48 2.4.2.1 O-BDL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.4.2.2 NIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3 PROCEDIMENTOS METODOLÓGICOS . . . . . . . . . . . . 53 3.1 Caracterização da Pesquisa . . . . . . . . . . . . . . . . . . . . . . 53 3.2 Design Science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.3 Design Science Research . . . . . . . . . . . . . . . . . . . . . . . 54 3.3.1 Revisão da Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.4 TOGAF ADM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.1 Customização do TOGAF ADM . . . . . . . . . . . . . . . . . . . . . 62 3.4.2 Archimate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4 PARTICIPACT BRASIL E REQUISITOS . . . . . . . . . . . . 66 4.1 Requisitos Comuns . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5 PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.1 Fase Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.1.1 Princípios de Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.1.2 Customização do TOGAF ADM . . . . . . . . . . . . . . . . . . . . . 71 5.2 Fase A: Visão de Arquitetura . . . . . . . . . . . . . . . . . . . . 72 5.2.1 Identificação de Stakeholders e Requisitos de Negócio . . . . . . . . . 72 5.2.2 Objetivos de Negócio, Motivações e Restrições . . . . . . . . . . . . . 75 5.2.3 Capacidades de Negócio . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.2.4 Definição do Escopo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.3 Fase B: Arquitetura de Negócio . . . . . . . . . . . . . . . . . . 79 5.4 Fase C: Arquitetura de Sistemas de Informação . . . . . . . . . 82 5.4.1 Arquitetura de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.4.2 Arquitetura de Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.5 Fase D: Arquitetura de Tecnologia . . . . . . . . . . . . . . . . . 86 5.6 Arquitetura de Segurança . . . . . . . . . . . . . . . . . . . . . . . 89 5.6.1 Fluxo Segurança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6 DEMONSTRAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.1 Estudoda População Flutuante . . . . . . . . . . . . . . . . . . . 94 6.1.1 Fontes de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 6.1.2 Análise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.1.3 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.1.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.1.5 Avaliação da Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . 102 7 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . 108 7.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 APÊNDICES 121 APÊNDICE A – REQUISITOS DE BIG DATA NIST . . . . 123 A.1 População Flutuante . . . . . . . . . . . . . . . . . . . . . . . . . . 123 A.2 Mobilidade Urbana . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 A.3 Acessibilidade Inteligente . . . . . . . . . . . . . . . . . . . . . . . 125 A.4 Gerenciamento Dinâmico de Eventos . . . . . . . . . . . . . . . 126 APÊNDICE B – CENÁRIOS DE USO . . . . . . . . . . . . . 127 B.1 UC01 - Caso de Uso Pesquisador . . . . . . . . . . . . . . . . . . 127 B.2 UC02 - Caso de Uso Gestor de Dados . . . . . . . . . . . . . . . 128 B.3 UC03 - Caso de Uso Fornecedor de Dados . . . . . . . . . . . . 129 B.4 UC04 - Caso de Uso Administrador de TI . . . . . . . . . . . . 130 APÊNDICE C – PRINCÍPIOS ARQUITETURAIS . . . . . 131 C.1 Princípios de Negócio . . . . . . . . . . . . . . . . . . . . . . . . . . 131 C.2 Princípios de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 132 C.3 Princípios de Aplicação . . . . . . . . . . . . . . . . . . . . . . . . 133 C.4 Princípios de Tecnologia . . . . . . . . . . . . . . . . . . . . . . . 134 APÊNDICE D – REQUISITOS . . . . . . . . . . . . . . . . . 135 D.1 Requisitos Funcionais . . . . . . . . . . . . . . . . . . . . . . . . . 135 D.2 Requisitos não funcionais . . . . . . . . . . . . . . . . . . . . . . . 137 D.2.1 Requisitos de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . 137 D.2.2 Requisitos de Segurança . . . . . . . . . . . . . . . . . . . . . . . . . 137 APÊNDICE E – SCRIPTS . . . . . . . . . . . . . . . . . . . . 139 18 1 INTRODUÇÃO A evolução das tecnologias de informação e comunicação(TIC) possibilitam um crescimento exponencial no uso de dados, de modo a alterar significativamente o modo de vida contemporâneo. A sociedade está conectada e dados são produzidos – e consumidos - constantemente, gerando um enorme volume de dados, de grande variedade e velocidade, no fenômeno que é conhecido como Big Data. Gantz (2011) conceitua Big Data como uma nova geração de tecnologias e arquiteturas, projetadas para, de forma economicamente eficiente, extrair valor de um grande volume de dados de ampla variedade possibilitando a captura, descoberta e análise de dados em alta velocidade. Com enfase na análise, Big Data Analytics(BDA) tem foco na geração de valor, com descoberta, insights, através de técnicas avançadas de análise, estatística, mineração de dados, machine learning e deep learning. BDA vem sendo adotado amplamente em várias vertentes, como agricultura, saúde, varejo, governos, e smart cities (SAGGI; JAIN, 2018). Nas Smart Cities, seus mentores buscam aplicar as tecnologias de informação e comunicação para melhorar a qualidade de vida dos cidadãos urbanos em áreas como transporte, trânsito, economia, meio-ambiente, interação com o governo, dentre outros (ISMAGILOVA et al., 2019). A crescente urbanização sobrecarrega a infraestrutura, a prestação de serviços e intensificam problemas urbanos. Em 2050, aproximadamente dois terços da população mundial viverão nas cidades. No Brasil, esse percentual, de acordo com o Censo Demográfico de 2010, já atinge 84% da população total (IBGE, 2019). Nesse contexto, as iniciativas de Smart Cities vem se popularizando, intensificando tanto a produção acadêmica (ALBINO; BERARDI; DANGELICO, 2015) quanto nas iniciativas executadas, como mostra o relatório da IBM, com mais de 100 projetos entre 2010 e 2017 (IBM, 2019). A expansão do uso da Internet das coisas(IoT) tem tido papel importante nas Smart Cities, viabilizando novos projetos com a geração de dados de dispositivos físicos (ABAKER et al., 2016). Relatórios estimam que o número de dispositivos conectados em 2016 eram de 22.9 bilhões e devem atingir a marca de 50 bilhões em 2020 (AHMED, 2017). Sensores, eletrodomésticos, acessórios vestíveis são alguns exemplos de IoT que juntamente com smartphones e mídias sociais geram uma grande variedade de dados, de diferentes formatos que, relacionados, podem gerar valor (JANSSEN; KUK, 2016). Contudo, são os governos os maiores geradores de dados (JANSSEN, 2011). São as bases de dados do governo que contém as informações mais relevantes dos cidadãos em diferentes domínios, como energia, segurança pública, tráfico, entre outros. Estes Capítulo 1. Introdução 19 dados podem ser enriquecidos ou combinados com dispositios IoT e outros como mídias socias, possibilitando correlações e aplicação de técnicas de ciência de dados (MATHEUS; JANSSEN; MAHESHWARI, 2018). Porém, existem barreiras quanto ao acesso dos dados abertos governamentais. Em que pese a crescente abertura de dados, muitos dos portais disponibilizam os dados fora do padrões convencionados, o que impedem a reutilização do dado, e com interfaces pouco amigáveis ao usuário o que dificulta a busca pelas informações (DESSI et al., 2016). Além dos desafios tecnológicos, há barreiras políticas e culturais na efetiva disponibilização dos dados abertos governamentais (BENO et al., 2017). No Brasil, com a Lei de Acesso à Informação(LAI), de 2011 (Lei no 12.527, de 18 de novembro de 2011), instituiu-se o instrumento legal e desde então as agências em esfera federal vêm disponibilizando dados (BRASIL, 2011). Em 2016 o Decreto 8.777/16 instituiu a Política de Dados Abertos do Governo Federal fornecendo diretrizes e regulamentações unificando o entendimento sobre os procedimentos de abertura (BRASIL, 2016). Os estados e municípios estão elaborando suas próprias políticas de dados abertos em consonância com o dispositivo federal. O município de Florianópolis instituiu política de dados abertos, com a Lei No 10.584, de 02 de agosto de 2019 (FLORIANÓPOLIS, 2019). Em relatório produzido pela FGV DAPP1 em 2018 sob título "Índice de dados abertos para cidades", os problemas mais comuns identificados nas bases de dados abertos são: dificuldade de trabalhar dados (metadados insuficientes), indisponibilidade de down- load da base completa, dataset incompleto e ausência de informação em formato aberto. No total, apenas 25% das bases analisadas estão 100% de acordo com a definição de dados abertos (RUEDIGER M. A.; MAZOTTE, 2018). Contudo, as análises de problemas urbanos não se limitam ao compartilhamento de bases governamentais. Demandam o cruzamento com os dados gerados pelos cidadãos via smartphones e dispositivos IoTs que possuem formatos e estruturas diferentes. Para esse cenário não existem modelos de referência ou arquiteturas definidas (GEROSA et al., 2017) e a este desafio se direciona a presente dissertação. Considerando esse contexto, de barreiras na disponibilização de dados abertos supracitadas e de crescente adoção de tecnologias de Big Data (NUAIMI et al., 2015), verificou-se a oportunidade de analisar o tema. Na revisão bibliográfica identificiou-se a falta de padronização das soluções de Big Data para Smart Cities (LIM; KIM; MAGLIO, 2018) e a dificuldade de reutilização de arquitetura de Big Data Analytics de forma geral, por serem geralmente específicas aos domínios a que se destinam (GEROSA et al., 2017). Ainda, verificou-se que um dos maiores desafios na criação de padrões e/ou arquiteturas de referência é a variedade das fontes de dados. A alta diversidade resulta em silos de 1 Diretoria de Análise de Políticas Públicas da FGV Capítulo 1. Introdução 20 informação, com sistemasnão integrados, com estrutura de dados distintos que dificultam a interoperabilidade. Uma solução recente para esse problema é o conceito de Data Lake, que contempla um repositório sem restrições de estrutura na ingestão do dado (schema on-read2) armazenando os dados em seu formato original (MORRIS, 2018). Diante do exposto é proposto nessa dissertação uma arquitetura para um Data Lake urbano tomando como caso de uso o projeto ParticipAct Brasil com aplicação na análise de dados no estudo da população flutuante no município de Florianópolis. Este Data Lake urbano tem o propósito de utilizar as tecnologias de coleta e tratamento de dados de grande volume e variedade para compor um repositório alimentado por variadas fontes de dados, em seu formato original. Tais fontes são primordialmente dados abertos governamentais, crowdsensing (sensoriamento coletivo), mídias sociais, observatórios e demais organizações conveniadas. A constituição deste visa facilitar a coleta de dados, uma vez que não depende de prévia transformação do dado para ingestão, diminuindo sensivelmente a barreira tecnológica de recebimento. Uma vez armazenado, este dado fica disponível para ser tratado, formatado e analisado. A partir deste momento o dado pode ser cruzado, correlacionado e transformado em informação útil. Em última análise, possibilita a geração de valor através dos dados, viabilizando a descoberta de padrões, a utilização de ferramentas de aprendizado de máquina e inteligência artificial em direção ao propósito maior de transformar dados em benefícios aos residentes dos espaços urbanos. Sobre o caso de uso, o ParticipACT Brasil é um projeto de pesquisa acadêmica que busca a gestão eficiente e participativa de cidades inteligentes por meio de uma plataforma de Tecnologias de Informação e Comunicação (TICs) (UDESC, 2019). O projeto é conduzido pelo grupo de pesquisa LABGES (Laboratório de Tecnologias de Gestão), cujo foco é o estudo de inovações tecnológicas proporcionadas pela computação ubíqua, na nuvem, big data, crowdsensing, smart city e sua aplicação nas organizações (PEÑA, 2016). O estudo proposto nesta dissertação tem o potencial de contribuir em duas frentes: 01) na proposição de arquitetura de Big Data na forma de um Data Lake para o Projeto ParticipAct Brasil contribuindo para sua evolução e expansão, e em sua avaliação, na 02) análise de dados da população flutuante no município de Florianópolis. Os dados são, inicialmente, oriundos das bases existentes no catálogo do projeto (ESAG, 2019), e parcerias firmadas com empresas públicas durante o desenvolvimento deste estudo, para coletar os dados de consumo de energia elétrica, da Celesc (CELESC, 2020), do consumo de água, da Casan (CASAN, 2020) e da coleta de resíduos, da Comcap (COMCAP, 2020). 2 Schema on-read: Modelagem de dados feita no momento de leitura. Capítulo 1. Introdução 21 1.1 Delimitação da situação problema O problema identificado é a dificuldade de operacionalização de pesquisas acadêmi- cas orientadas a dados no projeto ParticipAct Brasil. A ausência de uma plataforma que disponibiliza os dados de forma centralizada demanda dos pesquisadores e analistas de dados não apenas a expertise técnica, mas o provisionamento de uma infraestrutura para coleta e armazenamento de dados dedicados ao projeto em questão. A heterogeneidade das fontes de dados, dos formatos dos dados, e a dispersão na publicação dos dados abertos governamentais representa uma barreira ao trabalho de análise. PEÑA (2016) identificou como as principais dificuldades encontrados pelos pesquisadores do ESAG/UDESC, as seguintes: • Dificuldade de acesso aos dados; • Armazenamento de dados; • Relutância das organizações em participar de projetos de pesquisa; Adicionalmente, pode-se citar a dificuldade no cruzamento dos dados, tratamento e implementação de algoritmos de machine learning, que podem ser atenuados com a existência de uma plataforma que contemple o armazenamento centralizado de dados, um Data Lake, objeto deste trabalho. 1.2 Objetivos 1.2.1 Objetivos Gerais Propor uma arquitetura de Data Lake para o Projeto ParticipAct Brasil. 1.2.2 Objetivos Específicos • Apresentar o contexto do problema identificado, descrevendo o Projeto ParticipAct, seus casos de uso e requisitos; • Apresentar os objetivos da arquitetura, com base no contexto e na revisão de literatura realizada sobre Data Lake, Big Data, Smart Cities e Arquitetura; • Projetar e desenvolver arquitetura de Data Lake em camadas de negócio, aplicação, dados e tecnologia; • Demonstrar as capacidades da arquitetura em caso de uso no cálculo da população flutuante no município de Florianópolis. Capítulo 1. Introdução 22 1.3 Justificativa Observou-se na revisão da literatura uma lacuna entre as iniciativas de mercado referentes a Data Lake e o escasso material acadêmico relacionado, em especial no contexto de smart cities, foco do ParticipAct Brasil. Diante disso, e da previsão de expansão do projeto, que inclui adequação tecnológica ao modelo de Big Data, descrito por PEÑA (2016), encontra-se a justificativa para o estudo, que visa o desenho de uma arquitetura multi-camadas para habilitar a operacionalização de pesquisas de Big Data e Machine Learning no projeto ParticipAct Brasil. Identificou-se também um crescente número de publicações sobre Data Lake nos últimos cinco anos, evidenciando a incipiência da matéria no campo acadêmico. Na base de dados SCOPUS (2019), a busca com os termos Data Lake e Big Data combinados (operação lógica E) evidenciou a evolução da produção, demonstrada no gráfico 1. Figura 1 – Publicações sobre Data Lake. Fonte: (SCOPUS, 2019) O momento é oportuno pela crescente abertura de dados governamentais. No município foi aprovada recentemente Lei No 10.584, de 02 de Agosto de 2019 que institui a Política de Dados Abertos no município de Florianópolis (FLORIANÓPOLIS, 2019). O desenvolvimento de uma plataforma de pesquisa orientada a dados, bem documentada, que contemple uma armazenamento massivo de dados pode contribuir na construção de elo entre acadêmia e entes públicos no compartilhamento de dados, promovendo a participação em pesquisas acadêmicas. Capítulo 1. Introdução 23 Além da coleta de dados, para efetiva geração de valor, faz-se necessário os adequa- dos meios tecnológicos. Conforme Janssen, Charalabidis e Zuiderwijk (2012), a geração de valor com dados abertos depende diretamente de sua utilização, e nesse sentido esse estudo contribui com os esforços do grupo de pesquisa Laboratório de Tecnologias de Gestão(LabGes), que estuda a aplicação e os impactos das tecnologias computacionais no estudo dos problemas urbanos (LABGES, 2019). O legado da pesquisa poderá, ainda, ser utilizado como referencial teórico na cons- trução de arquiteturas para projetos de Big Data em institutos de pesquisa e universidades. Em governos municipais com iniciativas de Smart Cities e política de abertura de dados, pode servir como guia de arquitetura de solução e ser incorporado à Plano de dados abertos. 24 2 FUNDAMENTAÇÃO TEÓRICA A fundamentação teórica visa explorar os conceitos fundamentais para explorar o estado da arte e contribuir na compreensão do contexto alvo. Inicia-se com o conceito de Data Lake, sua evolução e relação com demais tecnologias de Big Data. Na sequência aborda-se o tema Smart Cities, seguida de contextualização sobre Dados Abertos. Conclui- se com a revisão teórica sobre modelos de arquitetura corporativa e de Big Data. 2.1 Data Lake O Data Lake pode ser definido como um conceito de armazenamento que abarca a coleta, o refinamento, arquivo e a exploração de dados em seu formato original em uma organização (FANG, 2015). É caracterizado por um repositório central que permite o armazenamento de dados estruturados e não-estruturados, eliminando assim a necessidade prévia de um modelo e um tratamento de dados no momento da coleta. O termo Data Lake é relativamente novo, e foi cunhado pelo então CTO da Pentaho1, James Dixon, ao ilustrar as diferenças e adinâmica entre Data Mart e Data Lake, onde, em perspectiva, o primeiro seria uma garrafa de água pronta para consumo e o segundo a água em seu estado natural (PHYU; SHUN, 2018). "If you think of a datamart as a store of bottled water cleansed and packaged and structured for easy consumption the Data Lake is a large body of water in a more natural state. The contents of the Data Lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples" (DIXON, 2010). O princípio é a flexibilidade na coleta dos dados. Todo dado relevante à uma empresa ou organização é armazenado em uma única infraestrutura de dados, de baixo custo, em seu formato nativo eliminando barreiras na coleta e reduzindo custo na sanitização e agilizando a ingestão. Uma vez armazenado, o dado fica disponível para futuras análises. A necessidade por agilidade e disponibilidade para análise de dados é um motivador deste conceito. Em termos práticos, um Data Lake pode ser caracterizado por: • Coleta ampla: Um Data Lake contém tudo, desde dados crus, em longas séries históricas até dados processados; 1 Pentaho é uma empresa de data analytics baseada nos Estados Unidos adquirida pela Hitachi em 2015 Capítulo 2. Fundamentação Teórica 25 • Transversalidade: Um Data Lake habilita usuários de diferentes unidades de negócio consumir e cruzar dados conforme sua necessidade; • Acesso flexível: Um Data Lake habilita diversos padrões de acesso em uma infraes- trutura compartilhada: batch, online, in-memory e outras formas de processamento (CONOLLY, 2019). As iniciativas tradicionais de armazenamento centralizado, os data warehouses e data marts, eram utilizados largamente em sistemas de suporte à decisão. Mas estes modelos apresentam uma limitação importante que é a rígida estruturação do dado. Com o volume de dados gigantesco gerados devido especialmente a Internet, o desafio era encontrar uma forma de receber dados heterogêneos, imprevisíveis e processá-los em uma velocidade razoável. Empresas "ponto com"2 buscaram, então, soluções para lidar com essa larga escala de dados e otimizar funções chave para o seu negócio, como indexação e sistema de busca. A esse cenário e as respostas encontradas foi cunhado um novo termo: Big Data. Adicionado em 2013 no dicionário Oxford, é conceituado por este como dados de grande volume, tipicamente na proporção que sua manipulação e gerenciamento apresentam significativos desafios (OXFORD, 2019). Existem diversas definições para Big Data, algumas mais abrangentes, mas é recorrente a caracterização dos 3Vs, volume, variedade e velocidade. Posteriormente foram agregados outros Vs, como variabilidade, veracidade, visualização e valor. O conceito Data Lake surgiu dessa onda Big Data, com a criação de implementação de projetos Apache Hadoop, em meados de 2014. Diversos fornecedores aderiram ao conceito para destacar suas implementaçõees de Hadoop, mas sem um consenso sobre o que realmente significa o termo Data Lake(MADERA; LAURENT, 2016). A literatura neste domínio é incipiente, e ainda hoje as definições apresentam variações. Um Data Lake, em essencia, é uma solução de Big Data Analytics que permite a (1)ingestão de dados de formatos e fontes diferentes armazenando-os em seu formato original, permite o (2)processamento de acordo com diferentes requisitos, (3) fornece acesso à diferentes perfis de usuários e (4) aplica governança sobre os dados para garantir qualidade, ciclo de vida segurança, detalhados a seguir e representados graficamente na Figura 2 (RAVAT; ZHAO, 2019): • Ingestão: Todos os dados são carregados sem tratamento prévio e armazenados em seu formato original. A ingestão pode ser proveniente de arquivos em lote(Batch), tempo- real/movimento (streaming) ou híbrido. Essa zona de recepção permite consultas posteriores aos dados no formato que foram ingeridos; 2 Empresas que exploram a comercialização de serviços ou produtos na Internet Capítulo 2. Fundamentação Teórica 26 • Processamento: Nessa etapa os dados passam por tratamentos tanto de requisitos técnicos, quanto de negócios, sendo posteriormente armazenado em área intermediá- ria; • Acesso: Os dados ficam acessíveis para serem consumidos por aplicações de Analytics, Machine Learning e relatórios em geral; • Governança: A Governança é aplicada em todas as zonas, sendo responsável pela segurança, qualidade, controle de ciclo de vida e gerenciamento dos metadados. Figura 2 – Arquitetura Funcional de Um Data Lake. Fonte: (RAVAT; ZHAO, 2019) Uma vez abordado o conceito e principais funções de um Data Lake, busca-se, na próxima seção, recuperar o conceito de Big Data, seu surgimento e principais características. 2.1.1 Big Data Big Data, como visto na seção anterior, é o termo comumente atribuído a grandes quantidades de dados geradas continuamente e que necessitam de tecnologias apropriadas para o seu devido processamento. Chang (2014), conceitua como : "Big Data consists of extensive datasets primarily in the characteristics of volume, variety, velocity, and/or variability e that require a scalable architecture for e�cient storage, manipulation, and analysis." O termo "Big Data"foi utilizado pela primeira vez em 2008 por Lynch (2008), no Journal Nature. Segundo Smorodin e Kolesnichenko (2015), Big Data é o fenômeno da Era da Informação que foi nomeado como "Terceira onda"por To�er, muito antes, nos anos 1980. To�er, referindo-se aos processos globais na Era da Informação, fala sobre Capítulo 2. Fundamentação Teórica 27 muitas decisões(Volume), a serem tomadas muito rapidamente(Velocidade) sobre muitos problemas distintos(Variedade) (TOFFLER, 1981). Ao longo dos anos, outros V vem sendo incorporados como características de Big Data. Khan, define sete V’s como (KHAN; UDDIN; GUPTA, 2014): 1. Volume: refere-se ao tamanho dos dados sendo gerados a partir de várias fontes de dados; 2. Velocidade: refere-se a velocidade, cada vez mais alta, em que os dados são gerados e transmitidos para as soluções de armazenamento; 3. Variedade: refere-se aos diferentes tipos de dados, como texto, imagem, vídeo; 4. Veracidade: refere-se a confiabilidade do dado; 5. Validade: trata-se da correção e precisão do dado aliada com sua utilidade no contexto aplicado; 6. Volatilidade: refere-se a política de retenção dos dados, relacionado ao ciclo-de-vida; 7. Valor: refere-se ao resultado desejado, com objetivo de extrair o máximo valor do conjunto de dados explorado. Na Figura 3 há uma compilação dos 3Vs fundamentais de Big Data, colocando-os em perspectiva de grandeza, dado ao seu tipo e/ou categoria. Capítulo 2. Fundamentação Teórica 28 Figura 3 – 3Vs de Big Data. Fonte: (KADENIC, 2015) Com as características de Big Data revisadas, parte-se para a descrição de sua principal tecnologia, Hadoop, que teve papel habilitador no desenvolvimento das soluções de Big Data subsequentes. 2.1.2 Apache Hadoop A adoção do conceito de Data Lake é diretamente relacionado à tecnologia Hadoop. Seu ecossistema de projetos de código aberto se tornou popular por fornecer uma alternativa inovadora de baixo custo e que atende aos desafios do Big Data(FANG, 2015). Hadoop é uma plataforma que suporta o armazenamento e processamento de grande quantidade de dados. Baseia-se em hardware distribuído para armazenar e processar, o que possibilita o processamento em clusters distribuídos em servidores por demanda (Apache Software Foundation, n). O núcleo consiste em dois componentes: armazenamento com o HDFS3 e proces- samento com MapReduce4. HDFS, de forma simplificada, divide um arquivo em blocos 3 Sistema de Arquivos Distribuídos (Apache Software Foundation, n) 4 Modelo de processamento paralelo (Apache Software Foundation, n) Capítulo 2. Fundamentação Teórica 29 que são armazenados em DataNodes5, gerenciados por um NameNode6. Cada bloco tem diversas replicações distribuídas em diferentes DataNodes para aumentar a resiliência (MUNSHI; MOHAMED, 2018). MapReduce é o componente de processamento do Hadoope consiste em nós mestres(JobTracker) e escravos(TaskTracker), gerenciando e executando tarefas no mesmo conjunto de nós do HDFS. Em 2013, Hadoop foi lançado com Yarn(Yet Anoter Resource Negotiator), cujo ideia fundamental é otimizar o gerenciamento de recursos na execução do processamento (Apache Software Foundation, n). 2.1.3 Data warehouse vs Data Lake O Data Lake, embora com objetivo semelhante, o de possibilitar análise de dados, difere fundamentalmente do Data Warehouse. Este último refere-se a um conceito maduro e bastante explorado comercialmente desde os anos 1980 em sistemas de suporte à decisão. Embora represente, assim como o Data Lake, uma base centralizada, possui estrutura definida, com modelagem de dados OLAP (Online analytical processing), desenhadas para responder à questões de negócio, servindo de apoio à propósitos analíticos estratégicos. Os requisitos de negócio são o principal fator no projeto do data warehouse. Os dados relevantes são identificados, coletados, tratados e finalmente agregados para entregar os indicadores desejados. Entretanto, nem sempre se conhece quais indicadores são relevantes a priori. A imprevisibilidade dos dados oriundos de diferentes fontes e seu imenso volume dificulta a adoção em projetos de larga escala, com a previsão de inclusão de novos conjunto de dados frequentemente (MADERA; LAURENT, 2016). Neste contexto o Data Lake se apresenta promissor, pois, devido a sua flexibilidade e capacidade de armazenamento e processamento, atende a esses cenários. Contudo, não é possível afirmar que Data Lake seja um substituto. Embora seja uma evolução, há características distintas que demandam uma análise detalhada do domínio a ser aplicado, sendo muitas vezes aplicados de forma complementar, tendo o Data Lake o perfil de fonte de dados para um Data Warehouse que recebe o dado destilado e modelado para o objetivo de negócio. No Quadro 1 há um comparativo das principais características entre os dois conceitos. Quadro 1 – Comparação DataWarehouse vs Data Lake Comparação Data Warehouse Data Lake Dados Estruturado, Processado Estruturado, Semi-Estruturado e não EstruturadoDado em formato original, sem processamento Processamento Esquema em tempo de escrita Esquema em tempo de leitura Armazenamento Caro, Confiável Barato e redundante Agilidade Baixa Agilidade. Configuração fixa. Alta agilidade. Configuração flexível Segurança Maduro Em Maturação Usuários Analista de Dados/BI Cientista de Dados Fonte: Adaptado de (PHYU; SHUN, 2018) 5 DataNoe armazenam os dados (Apache Software Foundation, n) 6 NameNode executa operações no sistema de arquivos como abrir, fechar e renomear arquivos e diretórios. (Apache Software Foundation, n) Capítulo 2. Fundamentação Teórica 30 2.1.4 Big Data Analytics Os avanços nas técnicas e tecnologias tem habilitado empresas e organizações a lidar com dados de maneira mais eficientes. As principais técnicas de Análise de Dados são: machine learning, data mining, estatística, redes neurais e processamento de linguagem natural. Na Figura 4 é exibida a linha de tempo do surgimento das principais técnicas (SAGGI; JAIN, 2018). Figura 4 – Técnicas de Big Data Analytics Fonte: (SAGGI; JAIN, 2018) BDA tem como principal objetivo oferecer suporte para a tomada de decisão nas organizações. As técnicas supracitadas tem como benefício fornecer evidências através dos dados, descobrindo padrões e criando insights úteis para a geração de valor. Em essência, visa transformar dados em informações e este em conhecimento, combinando diferentes técnicas e abordagens. Os principais modelos de tomada de decisão nas organização, através de BDA são descritos por Tavana (2014) como: • Data mining: Extrai dados relevantes empregando uma variedade de técnicas estatís- ticas, reconhecimento de padrões e visualização de dados; • Modelo preditivo: É utilizado para reconhecer ameaças e oportunidades identificando padrões encontrados em uma série temporal; • Modelo de simulação: É usado para analisar e comparar cenários através da simulação no contexto organizacional; • Modelo de otimização: É utilizado para definir a melhor decisão por meio de vários modelos de otimização; • Métodos prescritivos: É usado para gerar melhores soluções combinando os modelos preditivos e de otimização; • Business intelligence: Através de técnicas de data mining e gerenciamento de desem- penho, visa aumentar a competitividade da organização. Capítulo 2. Fundamentação Teórica 31 Na próxima seção será abordado a técnica de BDA utilizado neste trabalho, machine learning, seu conceito, principais algoritmos e aplicações. 2.1.5 Machine Learning O uso de algoritmos de machine learning acompanham o crescimento das soluções de Big Data, a ponto de serem comumente relacionados. Contudo, o último, refere-se ao tratamento de dados, enquanto o primeiro trata da análise dos dados através de algoritmos para reconhecimento de padrões e predição de valores. Sua grande vantagem é a característica de aprendizado e auto-ajuste sem intervenção humana. Como disciplina de Inteligência Artificial(IA), o termo machine learning é explorado desde a década de 1950, ganhando popularidade com a onda Big Data, que trouxe a possibilidade de aplicação efetiva em soluções de mercado, para extração de valor de negócio, em processos denomidados mineração de dados(Data Mining)(ELVOV, 2018). De forma geral, algoritmos de Machine Learning resolvem dois problemas: Clas- sificação e Regressão. No primeiro o objetivo é classificar uma variável em determinada categoria, por exemplo, se uma reivindicação de indenização de seguro é fraudulenta ou não. No segundo, Regressão, o objetivo é prever um valor, como, por exemplo, o valor de uma ação no mercado de ações (BA�TANLAR; OZUYSAL, 2014). Os algoritmos de machine learning podem ser divididos em duas categorias: Su- pervisionados e Não-supervisionados. Os supervisionados tem seus dados previamente identificados, com categorização definida. Problemas de Regressão e Classificação podem ser ambos resolvidos nessa categoria. Os Não-supervisionados não tem prévia identificação, é o objetivo passa a ser justamente reconhecer padrão e criar as categorias por si só. Para isso, os dados são agrupados em grupos e segmentos através do processo chamado Estimativa de Densidade (BA�TANLAR; OZUYSAL, 2014). Os principais algoritmos de machine learning podem ser classificados em: • Modelos Lineares: São usados para prever uma saída usando uma fórmula e parâ- metros relevantes que combinados entre si são utilizados para treinar e prever um indicador, a saber: – Regressão Linear: Neste modelo o objetivo é predizer o valor da variável depen- dente analisando a influência das variáveis explanatórias. Quando há mais de uma variável explanatória, é denominada Regressão Linear múltipla; – Regressão Logística: Segue a mesma lógica da Regressão Linear, porém se aplica somente a problemas de classificação, predizendo valores Verdadeiro ou Falso; • Baseados em Árvores: Modelos usados para visualizar regra de decisão no formato de galhos de árvore e pode ser aplicada para predizer a saída em um cenário não-linear: Capítulo 2. Fundamentação Teórica 32 – Árvores de Decisão: Os valores possíveis são visualizados em segmentos, segregando- os em uma árvore, como galhos. Nesse modelo, o treinamento visa analisar a árvore de decisão para encontrar o melhor ponto; – Random Forest: Trata-se da combinação de várias árvores de decisão com o resultado sendo a média de todas as árvores utilizadas no modelo; – Gradient Boosting: Assim como Random Forest também combina a decisão de várias árvores, com diferença de que as árvores são treinadas uma após a outra. • Redes Neurais: Conceito da inteligência artificial que representa a emulação do comportamento do cérebro humano, na transmissão de mensagens entre neurônios. Redes Neurais demandam grandes capacidades computacionais e são aplicados, geralmente, em problemas com dados não estruturados, como Processamento de Linguagem Natural(PLN).O termo Deep Learning refere-se ao treino de redes neurais em várias camadas. 2.1.6 Governança de dados Um dos maiores riscos na adoção de Data Lakes é perda de controle da informação, convertendo o lago de dados em um pântano (Data Swamp), com dados não identificados e que jamais serão utilizados. Dada sua flexibilidade quanto a modelagem do dado, ou mais precisamente sobre a sua não obrigatoriedade, não haveriam barreiras para evitar a inserção de dados incorretos, repetidos, ou sem a devida identificação (PHYU; SHUN, 2018). Logo, para mitigar esses riscos, a governança de dados se faz fundamental no projeto de um Data Lake. A disciplina de Governança de Dados pode ser o estudo sobre sobre a estrutura que coordena, orienta e define regras para criação, reuso e consumo dos dados. Segundo DAMA DMBOK R• (Data Management Body of Knowledge), governança de dados é o “Exercício de autoridade, controle, planejamento, monitoramento, disponibilidade, segurança e execução dos ativos de dados e seu respectivo consumo” (DAMA, 2009). O DAMA DMBOK R• (Data Management Body of Knowledge) é um framework de boas práticas de gestão de dados, que tem como intuito transmitir a importância da gestão de dados. Entre a 10 funções de gestão de dados, representadas na Figura 5, o ponto abordado nessa dissertação será na Gestão de metadados. Capítulo 2. Fundamentação Teórica 33 Figura 5 – Áreas de Governança de Dados Fonte: (DAMA, 2009) 2.1.7 Metadados Metadados são comumente chamados de dados sobre dados ou informação sobre informação. Segundo Turban, os metadados descrevem a estrutura e significados a respeito de dados e contribuindo para a sua utilidade, oferecendo contexto aos dados relacionados (TURBAN EFRAIM; ARONSON, 2009). De acordo com o DAMA-DMBOK R• Gestão de metadados “é a função responsável por gerir e armazenar metadados de uma organização, além de viabilizar formas de acesso”. Portanto, a gestão dos Metadados é fundamental na recuperação da informação correta. Os Metadados podem ser Técnicos ou de Negócio. Os técnicos referem-se à estrutura de armazenamento segundo as práticas de modelagem de dados: • Modelo Lógico: Entidades, atributos e relacionamentos; • Modelo Físico: Bancos de dados e suas tabelas; Capítulo 2. Fundamentação Teórica 34 • Integração de dados: Fluxo de dados e transformação. Os metadados de negócio funcionam como glossário, contendo os termos de negócio, sinônimos, definições, taxonomias e as classificações e categorizações de contexto. Sobre a qualidade dos metadados, o DAMA BMBOK, define: 1. Aderência ao negócio: Deve ser aderente aos requisitos e regras de negócio da empresa; 2. Unicidade — Deve ser único na empresa, sem duplicidade de conteúdo ou conceitos; 3. Manutenibilidade — Baixo custo de atualização dos metadados; 4. Confiabilidade — Indica a corretude do Metadado; 5. Desempenho — Tempo gasto para localizar e acessar deve ser razoável; 6. Legibilidade — Inteligível, deve ser de fácil leitura e compreensão; 7. Disponibilidade — Disponível para quer possuir a devida autorização. Para a implementação de sistema de gestão de Metadados em um Data Lake, Costa sugere (COSTA, 2018) que a operacionalização demanda os itens abaixo, também representados na Figura 6. 1. Interface de cadastro de Metadados: Formulário para inserção do metadado, coerente com o glossário de negócio; 2. Fluxo de aprovação de Metadados: Deve possuir ao menos uma camada de aprovação, para revisão por parte do Gestor de Dados; 3. Motor de Busca: Ferramenta que possibilite a indexação e recuperação dos metadados, com filtros de acordo com a taxonomia; 4. Gestão: Procedimentos de gestão de processos para regular a criação e manutenção das atividades relacionadas. Capítulo 2. Fundamentação Teórica 35 Figura 6 – Fluxo de Governança de Dados Fonte: (COSTA, 2018). Com essa seção, sobre o gerenciamento de metadados, encerra-se a fundamentação teórica referente às tecnologias chave utilizadas na dissertação. Foram abordados até aqui os conceitos de Data Lake, Big Data, Machine Learning, sua evolução histórica e principais características. Recuperou-se o conceito e a importância da governança de dados no contexto de big data e sua disciplina de gerenciamento de metadados. A próxima seção trata do contexto alvo, smart cities. 2.2 Smart Cities Neste capítulo será abordado o tema Smart Cities, recuperando o conceito, histórico, categorias de problemas urbanos e infraestrutura computacional. Encerra-se com estudos sobre arquiteturas e modelos de referência de Big Data para Smart Cities, elo com o projeto ParticipAct Brasil. Smart Cities, ou cidade inteligentes, são cidades inovadores que utilizam tecnologias de informação e comunicação para melhorar a qualidade de vida de seus habitantes. Essa melhoria se dá através da oferta de serviços desenvolvidos com o uso da tecnologia da informação (POURZOLFAGHAR et al., 2018). O termo “smart” é atribuído ao inglês americano, usado em conversas informais para caracterizar inteligência. De acordo com o dicionário OXFORD (2019), smart pode ser entendido como “possuindo ou apresentando uma penetrante inteligência” ou, no caso de um dispositivo, como “assumindo ação independente” (LYONS, 2018). Cocchia afirma que a noção de smart city surgiu como resultado dos objetivos estabelecidos pelo Protocolo de Kyoto, em 1997, no qual algumas das iniciativas e projetos foram rotulados como “smart” (COCCHIA, 2014) . Greenfield entende a noção de smart city como um fenômeno da vida urbana que segundo ele agora cresce “everyware”. Em sua mescla Capítulo 2. Fundamentação Teórica 36 de “every” e “ware”, indica que a fundação de uma smart city inclui uma infraestrutura física conectada e inteligente, infraestrutura social e estrutura de negócios, os quais combinados usam a inteligência coletiva na melhor forma possível para melhor a habitabilidade (GREENFIELD, 2006). Uma rede interconectada permite o monitoramente e integração de todos os elementos críticos, otimização do uso de recursos, planejamento de manutenções e aumento de segurança. A análise dos dados coletados nesta infraestrutura tecnológica fornece um entendimento mais abrangente e coeso dos espaços urbanos, contribuindo para melhorar a eficiência e a sustentabilidade da vida urbana (KUDVA; YE, 2017). Em 2007, Rudolph Gi�nger com a Edinburgh Napier University criaram um ranking das 70 cidades na União Europeia baseado nas características urbanas e criando perfis. Os perfis consistiam em seis características consideradas “smart”: economia, pessoas, governança, mobilidade, meio-ambiente e modo de vida. Este índice resultou na criação de uma comissão que definiu objetivos de médio e longo prazo, como a redução de 20 porcento do consumo de energia até 2020 e o desenvolvimento de uma economia com dióxido de carbono até 2050 (TOWNSEND, 2013). Segundo a Smart Cities Council (2019), o conceito de smart cities sustenta-se no uso de tecnologias em três aspectos: a qualidade de vida, as condições de trabalho e a sustentabilidade. Para OSTI (2019), o foco está nas infraestruturas físicas críticas, meios de transporte, fornecimento de água e energia, que devem estar integradas visando o desenvolvimento sustentável da cidade (PEÑA, 2016). Para suportar as smart cities, tecnologias de informação e comunicação inovadoras vem sendo desenvolvidas. Big Data, Big Data Analytics, Cloud Computing, IoT (Internet of Things) e Crowdsensing são tecnologias recentes que contribuem para as implementações de smart cities (BUOSI, 2018). A difusão das TICs e seu caráter pervasivo, possibilita a coleta de dados distribuídos, oriundos de diversas fontes, sejam dados transacionais de agências governamentais, IoT ou crowdsensing. Com o imenso volume de informação gerada, tecnologias de Big Data, como visto anteriormente nesse capítulo, são necessárias para armazenar adequadamente o dado e servir de base de conhecimento e desenvolvimento de soluções. As principais fontes de dados em uma smart city são: • Dados administrativos:Em um esforço para aumentar a transparência e accoun- tability, muitas cidades estão aderindo à cultura de dados abertos. Através da digitalização de serviços e a interoperabilidade de bases de dados, conjuntos de dados ricos em informação são disponibilizados livremente. Portais de transparência aumentam o engajamento do cidadão, melhoram a prestação de contas e geram economia de recursos com operações mais eficientes, melhor comunicação e menor risco de fraudes (BARKHAM SHEHARYAR BOKHARI, 2018); Capítulo 2. Fundamentação Teórica 37 • IoT e sensores: Dispositivos conectados a internet oferecem dados em tempo real e com posicionamento geospacial, extramamente imporantes no mapeamento da cidade. Sensores representam a forma mais conhecida de coleta de dados urbanos. São colocados em estruturas físicas e edifícios para medir uma variedade de indicadores, como luz, temperatura, qualidade do ar, fluxo de pessoas, entre outros. Essa coleta em tempo real auxilia não só no monitoramento, mas servindo de base para descoberta de padrões de comportamento e desenvolvimento de soluções automatizadas; • Aplicativos de smartphones: Aplicativos tem emergido como nova e poderosa fonte de dados. Usuário podem autorizar aplicativos a enviar dados dos sensores embar- cados nos aparelhos e assim contribuir no mapeamento do hábito do cidadão, no que é chamada crowdsensing. O principal objetivo dos serviços participativos de crowdsensing e fechar o ciclo entre os mundos virtual e físico no novo cenário da próxima geração das Smart City; • Crowdsourcing: Movimento onde um grande número de pessoas, geralmente vo- luntários, produzem dados coletivamente para determinados fins. Uma forma de crowdsourcing é conhecida como ciência cidadã, onde voluntário geram, preparam e processam observações e indicadores de determinado fenômeno. Estudos mostram que esse tipo de iniciativa que envolve o cidadão promove o engajamento cívico e aumenta a confiança entre o governo e cidadãos; • Mídias sociais: Através do engajamento social, as mídias socias possibilitam aos usuários inserir dados como vídeos, imagens, aúdios, hashtags que são centralizados em bases de dados e podem ser utilizados para mapeamento comportamental. Os dados coletados permitem o estudo de vários tipos de problemas que podem ser agrupados e categorizados, segundo Lim, Kim e Maglio (2018), em: “smart device”, “smart environment”, “smart home”, “smart energy”, “smart building”, “smart transportation”, “smart logistics”, “smart farming”, “smart security”, “smart health”, “smart hospitality” e “smart education”. Para atender essa variedade de problemas, com diferentes formas de geração e coleta dos dados, é necessário entender estudar as forma de arquitetura dos sistemas de informação para esse fim. Na próxima seção são descritos os estudos correlatos encontrados. 2.2.1 Estudos correlatos de Arquiteturas de Referência em Smart Cities Embora não haja padrão ou consenso de estrutura para arquiteturas de Big Data para Smart Cities (LIM; KIM; MAGLIO, 2018), há estudos que descrevem arquitetura para domínios específicos e com pontos focais distintos. No quadro (LIM; KIM; MAGLIO, 2018) há uma relação dos estudos identificados na pesquisa. Capítulo 2. Fundamentação Teórica 38 Quadro 2 – Publicações correlatas sobre arquitetura de referência Publicações correlatas Lusa, Rabello e Cervi (2015) Open smart city view - An architecture for open go- vernment data manipulation and presentation at city level He et al. (2018) QoE-Driven Big Data Architecture for Smart City Costa e Santos (2016) BASIS : A Big Data Architecture for Smart Cities Bergamini et al. (2018) LocalFocus: A Big Data Service Platform for Local Com- munities and Smarter Cities Pan et al. (2016) Urban Big Data and the Development of City Intelligence An et al. (2017) An Urban Building Database (UBD) supporting a Smart City Information System Lim, Kim e Maglio (2018) Smart cities with big data: Reference models, challenges, and considerations Osman (2019) A novel big data analytics framework for smart cities Abaker et al. (2016) The role of big data in smart city Gerosa et al. (2017) Software Platforms for Smart Cities Fonte: Produzido pelo autor Dentre os supracitados no quadro 2 destaca-se a publicação de (GEROSA et al., 2017), o qual descreve pesquisa sobre plataformas de software para smart cities sob quatro categorias de análise: Cyber-security, IoT, Big Data e Cloud Computing. São identificados pelos autores 23 iniciativas e comparadas. O resultado do estudo dos mesmos propõe a arquitetura descrita na Figura 7. Capítulo 2. Fundamentação Teórica 39 Figura 7 – Arquitetura de Referência para Smart Cities Fonte: (GEROSA et al., 2017). Na camada inferior da arquitetura está o componente nomeado Cloud e Networ- king que é responsável pelo gerenciamento e comunicação da rede na cidade. Acima, há a camada de gerenciamento de serviços englobando Service Middleware, IoT Mid- dleware, Social Network Gateway e User Management. Um nível acima há a camada de gerenciamento de Big Data, segregada pelo autor em três repositórios: App repository que armazena os códigos fontes dos aplicativos, Model repository, responsá- vel por armazenar os modelos, como modelo de dados, mapas e por fim Data repository que armazena os dados. Na camada superior há os usuários com diferentes perfis. Comum a todas as etapas e representado na coluna à direita da Figura 2 estão representadas as ferramentas de desenvolvimento e os requisitos não-funcionais de segurança. O estudo desta arquitetura fornece uma visão geral dos principais componentes envolvidos no fluxo de dados em um contexto de smart cities, que é importante na compreensão das funcionalidades necessárias e serve de base para comparação com os objetos de estudo do ParticipAct, abordados no Capítulo IV. Nessa seção, referente à Smart Cities, foram abordados conceitos, categorias de problemas urbanos e arquitetura computacional. Conclui-se com estudos sobre arquiteturas e modelos de referência de Big Data para Smart Cities, elo com o projeto ParticipAct e portanto essencial para o desenvolvimento de um arquitetura de big data, objetivo deste trabalho. Na próxima seção serão explorados as fontes de dados relevantes ao trabalho. Capítulo 2. Fundamentação Teórica 40 2.3 Fontes de Dados Como visto na Introdução e também na fundamentação teórica de Big Data, a variedade é um dos grandes desafios enfrentados na análise de dados. Diferentes formatos e diferentes fontes demandam estruturas flexíveis para a manipulação dos dados. Nessa seção será abordada a principal fonte de dados em projeto de Big data, a nomear Dados Abertos, e sua evolução histórica e legal. 2.3.1 Dados Abertos Embora o contexto de Smart Cities apresente grande variedade de fontes de dados, são os governos os maiores geradores de dados (JANSSEN, 2011). Nas bases de dados do governo residem as informações mais relevantes dos cidadãos em diferentes domínios, como energia, água, segurança pública, etc., que podem ser combinados com dispositivos IoT e outros, como mídias sociais, possibilitando aplicação de técnicas de ciência de dados (MATHEUS; JANSSEN; MAHESHWARI, 2018). Desta forma, precedendo o estudo arquitetural, dedica-se essa seção ao estudo dos dados abertos, seu atual contexto e desafios em sua utilização no estudo de problemas urbanos, objetivo do projeto ParticipAct Brasil. A definição de Open Data, ou dados abertos, compreende três princípios funda- mentais (OKF, 2020): • Disponibilidade e acesso: Dado está disponível; • Re-uso e distribuição: O dado pode ser reutilizado e compartilhado; • Participação universal: Qualquer pessoa pode utilizar o dado. Segundo Attard, esses princípios qualificam o dado como aberto, visando garantir o seu livre uso, reuso e distribuição, sem discriminação de qualquer pessoa e restrição quanto a finalidade (ATTARD et al., 2015). Quanto a publicação, deve ser em "plataforma aberta, legível por máquina e disponibilizado ao público sem restrições queimpeçam o reuso da informação"(HOUSE, 2019). Na administração pública a abertura de dados segue o mesmo princípio mas com os objetivos próprios de governo, de promover a transparência, participação, aprimorar a governança e gerar valor social e comercial (DATA, 2019). Os dados abertos governamentais são gerados em grandes quantidades e através de múltiplas fontes, carecendo, portanto, de técnicas de Big Data para manipular e integrar essa massa de dados. A coleta, processa- mento e distribuição é um desafio que envolve tecnologia, colaboração organizacional e processos de gerenciamento de negócio. Para atender as demandas da crescente abertura de dados, plataformas são desenvolvidos para habilitar a interoperabilidade e fornecer Capítulo 2. Fundamentação Teórica 41 espaço no qual usuários possam utilizar os dados abertos e desenvolver soluções através do cruzamento de informações antes isolados (ZUIDERWIJK; JANSSEN, 2014). O Open Data teve a primeira legislação/regulação sobre o tema data da década de 1960 com FOIA(Freedom of Information Act), nos Estados Unidos. Em 2003, A EU(União Europeia) lançou a diretiva PSI(Public Sector Information) baseada em dois princípios gerais: 1. Habilitar os dados do setor público para serem disponibilizados a baixo custo e uso irrestrito; 2. Garantir mesmo nível de acesso a todos os usuários. Desta forma, a EU promovia a abertura de seus dados governamentais de forma ampla e irrestrita, inclusive instruindo governos a não usar dados públicos em acordos sigiliosos com empresas privadas que pudessem criar monopólios de informação. Em 2011, a Comissão Europeia publica a primeira estratégia de dados abertos. Em 2009, no Estados Unidos, o presidente Barack Obama, assina o "Memorandum on Transparency and Open Government". Em 2011, a Administração Obama publica memorando criando a Estratégia de Governo Digital, que visa fornecer aos cidadãos dados do governo de forma digital para estimular a inovação e melhorar a qualidade dos serviços. Em maio de 2013, nos EUA, é publicada novo memorando regulando a abertura de dados históricos (Historic Open Data Rules to Enhance Government E�ciency and Fuel Economic Growth) (JANSSEN; ZUIDERWIJK, 2014). No Brasil, a abertura de dados foi regulamentada pela Lei de Acesso à Informação, a Lei 12.527/2011 (BRASIL, 2011), que garante o acesso a qualquer pessoa física ou jurídica o recebimento de informações públicas. Em 2016 foi instituída a Política de Dados Abertos, através do Decreto n. 8.777/2016(BRASIL, 2016). Uma das principais motivações para a abertura de dados é o potencial de auxiliar gestores públicos na análise de problemas complexos (ARZBERGER et al., 2004), o impacto na transparência e accountability e a criação de serviços inovadores promovendo o crescimento econômico (ATTARD; ORLANDI; AUER, 2016). Contudo a avaliação do efetivo valor gerado envolvem fatores de difícil mensuração e não há consenso sobre como aferir os benefícios econômicos dos dados abertos governamentais (EIBL, 2013). Segundo Janssen, o principal desafio em realizar o valor social e comercial dos dados abertos, é por ele não tem valor nele mesmo e sim quando de fato utilizado (JANSSEN; CHARALABIDIS; ZUIDERWIJK, 2012). Em relatório da McKinsey, é descrita estimativa de valor econômico em escala global superior U$ 3 trilhões anuais. O valor considera aumento de receita, economia de recursos e superafit econômico em sete domínios: financeiro, varejista, educacional, elétrico, saúde, óleo e gás e transporte. Conclui ressaltando que Capítulo 2. Fundamentação Teórica 42 o sucesso de programas de dados abertos não são garantidos e que o desafio está no engajamento da comunidade no real uso dos dados disponibilizados (MCKINSEY, 2019). Existem diversas ferramentas de avaliação dos dados abertos, sendo os mais refe- renciados: • Open Data Barometer7; • Open Data Monitor 8; • Open Data Inventory9; • Open Data Institute 10. O mais abrangente referenciado é o Open Data Index, que avalia o Brasil com um índice de abertura de 68%, posicionado em oitavo lugar no ranking dos países avaliados. O índice considera a disponibilidade e acessibilidade dos dados nas categorias: orçamento, eleições, compras, níveis de poluição, dados de qualidade da água, propriedade de terras, dados do clima, entre outros (OKF.BR, 2019). Após a regulamentação legal, foi criado o portal de dados abertos, o DADOS.GOV.BR11, como um catálogo federado, disponibilizando dados em 4 formatos CSV, XML, JSON, facilmente manipulados por qualquer linguagem de programação, com a exceção de PDFs. Porém a informação é atualizada via extrações, conforme cronogramas estabelecidos em seus PDAs (Planos de Dados Abertos) e não em tempo real. Em 2017, foi publicado estudo pela Diretoria de Análise de Políticas Públicas da Fundação Getulio Vargas (FGV DAPP), com o objetivo de medir a abertura de dados nas cidades brasileiras. A pontuação foi definida através do escore, que avalia a adequação dos dados disponibilizados pelo governo aos critérios de transparência utilizados em diversos países do mundo e através do “%open”, que calcula qual o percentual dos conjuntos de dados avaliados que atende a todos os critérios da metodologia. Os resultados estão na Figura 8. 7 http://opendatabarometer.org/ 8 https://opendatamonitor.eu 9 https://odin.opendatawatch.com/ 10 https://theodi.org/knowledge-opinion/reports/ 11 http://dados.gov.br/ Capítulo 2. Fundamentação Teórica 43 Figura 8 – Pontuação das cidades no ODI Fonte: (RUEDIGER M. A.; MAZOTTE, 2018). A média geral entre as cidades foi de 65%, com resultados individuais variando entre 43% e 84%. O estudo avaliou 17 dimensões. Das 136 bases de dados avaliadas (17 por cidade, 8 cidades), 25% (ou 34) estavam plenamente abertas (RUEDIGER M. A.; MAZOTTE, 2018). Segundo o relatório, os resultados permitem constatar que há uma intenção dos mecanismos governamentais de trazerem ao cidadão informações pertinentes à vida pública, com a criação de portais de transparência aderentes à Lei de Acesso à Informação, tornando os dados públicos. Contudo, ainda há muito a avançar no sentido desses dados públicos se tornarem, de fato, abertos, além de desafios na qualidade dos dados, nos formatos disponibilizados e na estabilidade dos sites governamentais. Durante o processo de pesquisa, diversos sites utilizados apresentaram falhas ou estiveram fora do ar durante algumas horas ou até mesmo dias (RUEDIGER M. A.; MAZOTTE, 2018). Nesse sentido, a viabilização de uma plataforma para armazenamento e compar- tilhamento de dados habilita o uso destes dados de maneira mais rápida e estruturada, contribuindo para a geração de valor através dos dados que são de todos. Nessa seção foram abordados os conceitos, barreiras e os índices de abertura dos dados, o que sinaliza a dimensão do potencial a ser explorado com a aplicação de novas tecnologias. Na próxima seção são descritos conceitos, métodos e modelos de arquitetura de big data. Capítulo 2. Fundamentação Teórica 44 2.4 Arquitetura de Sistemas de Informação O termo arquitetura, inicialmente atribuído a projetos de construção, é hoje amplamente utilizado em projetos de tecnologia de informação, não se limitando ao escopo tecnológico das soluções. O conceito de arquitetura varia de acordo com as diferentes escolas de pensamento, mas no contexto deste trabalho, entende-se a definição da ISO/IEC/IEEE 42010:2007 como a mais aderente: "arquitetura é a organização fundamental de um sistema e seus componentes, seus relacionamentos entre si e com o ambiente, e o princípio guiando sua construção e evolução"(ISO/IEC/IEEE, 2011). Ainda, segundo a norma supracitada, as descrições de arquitetura são artefatos usados pelos Stakeholders para criar, utilizar e gerenciar sistemas com o propósito de aprimorar a comunicação e cooperação, habilitando-os para trabalhar de uma forma conjunta e coerente. Os frameworks de arquitetura e as linguagens de descrição arquitetural são classificados como representações que codificam as convenções
Compartilhar