Baixe o app para aproveitar ainda mais
Prévia do material em texto
INTRODUÇÃO A CIÊNCIA DE DADOS Luiz Fernando Calaça Silva Ciclo de vida de um processo de ciência de dados Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: Reconhecer as etapas do ciclo de vida de um processo em ciência de dados. Identificar as fases de coleta e armazenamento dos dados. Analisar a recuperação e o descarte dos dados. Introdução A sociedade transformou-se pelo conhecimento advindo de dados, os quais foram coletados de desenhos, pinturas, escritos e falas. A partir do seu armazenamento, durante os séculos, muitas informações chegaram até nós. Mais recentemente, o mundo transformou-se para o contexto digital, e a maioria dos dados se encontram on-line para serem consu- midos, enquanto muitos outros são produzidos em escala exponencial. A fim de conceber processos, metodologias e algoritmos, a ciência de dados envolve diversas disciplinas nos seus pormenores e tem ciclos de vida claros e definidos (AMARAL, 2016). O seu intuito é justamente identificar dados, armazená-los corretamente e realizar a devida análise — e o descarte do que é desnecessário. É possível analisar dados estruturados e não estruturados, visando, sobretudo, à extração de conhecimento para uma tomada de decisão. Na era do big data, em que há um grande volume de dados, fazem-se necessários os devidos processos para a sua compreensão, uma vez que eles oferecem inúmeras possibilidades. Neste capítulo, você vai estudar sobre as etapas do ciclo de vida de um processo em ciência de dados. Além disso, vai ver quais são as fases de coleta e armazenamento dos dados, e como analisar a sua recuperação e o seu descarte. 1 Etapas do ciclo de vida de um processo Quando se observa o método científi co, vê-se que há uma segmentação de fases, para que a investigação tenha êxito. Logo, também no contexto da ciência de dados existe uma estruturação. Nesse sentido, o ciclo de vida de um processo em ciência de dados é composto pelos passos necessários para a extração do conhecimento daquele conjunto de dados. Segundo Sant’Ana (2016), o ciclo de vida dos dados é composto por quatro fases: coleta, armazenamento, recuperação e descarte. Além disso, há alguns fatores que permeiam todas as fases, conforme a Figura 1: privacidade, integração, qualidade, direitos autorais, disseminação e preservação. Figura 1. Ciclo de vida dos dados para ciência da informação. Fonte: Adaptada de Sant’Ana (2016). CVD 1 Contexto 1 CVD Contexto Descarte Pr iv ac id ad e In te gr aç ão Q ua lid ad e D ire ito s au to ra is D is se m in aç ão Pr es er va çã o Pr iv ac id ad e In te gr aç ão Q ua lid ad e D ire ito s au to ra is D is se m in aç ão Pr es er va çã o DescarteArmazenamento Armazenamento BD1 BD Co let a Recuperação Co let a Recuperação A qualidade dos dados A confi ança no contexto dos dados está intimamente ligada à sua qualidade. Em geral, é preciso verifi car se a fonte dos dados é segura e quem os produziu, a fi m de procurar pela veracidade inicial. No contexto do framework DAMA DMBoK, segundo Brackett et al. (2009), uma das suas áreas de conhecimento é o gerenciamento de qualidade dos dados. O seu objetivo é claro: uma vez que dados de qualidade ruim podem gerar decisões ruins, ele organiza processos para um programa de qualidade de dados. Ciclo de vida de um processo de ciência de dados2 Nesse documento, também são propostas práticas como a definição de papéis. Por exemplo, sugere-se que haja um responsável que coleta e armazena os dados, que deve responder pela veracidade desses dados e pelo quanto eles representam a realidade. Além disso, sugere-se a criação de métricas de qualidade de dados, de modo a planejar como mensurá-los e melhorá-los. Assim, tem-se um monitoramento contínuo da relação dos dados com o negócio, de maneira que se possa realizar ações e verificar se elas estão cumprindo as expectativas. Segundo Fagundes, Macedo e Freund (2018), no seu trabalho de revisão bibliográfica das pesquisas no campo da qualidade de dados, há ainda diversas lacunas e oportunidades para a melhoria nesse contexto. O DAMA é uma organização sem fins lucrativos que produziu o DMBoK. Trata-se de um guia sobre gerenciamento de dados com o foco na gestão, na governança e na qualidade de dados e informação. A privacidade A privacidade vem à tona, no contexto dos dados, justamente pelo princípio da confi dencialidade em diversos espaços da vida pessoal, profi ssional e empresarial. Dados diversos têm sido coletados por pessoas físicas, empresas, instituições e governos, que sabem o quanto eles são valiosos e, com isso, podem extrair informações para os seus negócios. Em nosso meio, observamos que os dados que fornecemos em nossas redes sociais, aplicativos bancários, entre outros, devem ser privados. Esse aspecto é tão sério que é possível abrir processos judiciais, caso ocorra algum vazamento, conforme a Lei Geral de Proteção de Dados (BRASIL, 2018), que regula as atividades de tratamento de dados pessoais. Segundo Brito e Machado (2017), há uma ligação entre a privacidade e a qualidade dos dados. Garantir a privacidade pode resultar em dados que não são verídicos, já que a fonte não pode ser explorada em todos os seus âmbi- tos. Assim, pode-se perceber a complexidade envolvida no equilíbrio entre preservar a fonte e manter a qualidade e a utilização dos dados. 3Ciclo de vida de um processo de ciência de dados Ainda em relação a essa questão, é necessário organizar a forma como será feito o armazenamento, para que ele não afete a privacidade. Assim, esse aspecto envolve diversos outros contextos — inclusive a filosofia e a sociologia — para compor a legalidade moral do armazenamento dos dados, bem como para qual fim serão utilizados. Por exemplo, alguns serviços na internet pedem que os seus usuários informem os seus dados e, em troca, podem utilizar gratuitamente as diversas plataformas. No entanto, é importante refletir sobre até que ponto esse uso é de fato gratuito e se os dados não estariam sendo utilizados para alguma aplicação para a qual o usuário não deu o seu consentimento. A disseminação A internet tem se tornado cada vez mais uma fonte riquíssima de informações. As pessoas a utilizam para compras e vendas, para comunicação e divulgação, para ministrar cursos e dar dicas, entre diversas outras atividades. Assim, também avançamos para o contexto da disseminação dos dados. A vantagem desse cenário, por exemplo, é que, quando uma empresa deseja criar um branding de marca e quer que a sua mensagem chegue a diversos usuários, ela pode se beneficiar da disseminação. A desvantagem é que, quando a segurança dos dados falha e eles são disponibilizados publicamente de forma indevida, vários atores querem consumir esse conteúdo — nem sempre de forma ética. De fato, um cenário positivo da disseminação massiva é a sua utilização para educar a população em diversas áreas, como a saúde, principalmente a respeito de cuidados específicos sobre os quais todos devem saber. Porém, quando fotos privadas de uma pessoa se disseminam sem autorização, por exemplo, esse cenário representa o lado negativo dessa disseminação. Antigamente, as informações circulavam apenas em uma pequena vizi- nhança. Santos e Andreoli (2015) observam que, nas relações interpessoais, ainda é comum o chamado “boca a boca”: alguém achou alguma notícia inte- ressante ou comprou algo que julga ser vantajoso, então repassa a informação para a vizinhança ou para os meios nos quais circula. No entanto, quando consideramos o contexto da internet, esse “boca a boca” pode se tornar viral, em proporções inimagináveis, ultrapassando as fronteiras de países: um simples vídeo, uma mensagem ou foto pode alcançar milhões de pessoas rapidamente. Portanto, a disseminação de informações na internet pode ser muito benéfica, quando bem utilizada, mas é importante considerar os problemas causadoscom o seu uso nocivo. Ciclo de vida de um processo de ciência de dados4 Os direitos autorais Outro aspecto importante está relacionado aos conteúdos que são protegidos por direitos autorais. Logo, podem ser consumidos somente pelos canais per- mitidos ou autorizados pelo detentor dos direitos, ou outorgados formalmente a alguma entidade. O que comumente chamamos de pirataria é quando ocorre a violação dos direitos autorais de uma propriedade que é protegida. Segundo Feres, Oliveira e Gonçalves (2017), de acordo com estudos con- duzidos para a União Europeia, em geral, acredita-se que, para entender a pirataria, é preciso pensar em tudo aquilo que as indústrias produtoras, nos seus diversos âmbitos, desejam ver protegido. Feres, Oliveira e Gonçalves (2017) pontuam que o termo “pirataria” foi sendo construído ao longo da história e antecede o próprio conceito de propriedade intelectual. Considere, por exemplo, a violação dos softwares licenciados, os quais a população mundial consumiu como pirataria. Em função do seu alto valor de aquisição desses sistemas operacionais e softwares específicos, muitas pessoas passaram a utilizá-los por meio desse tipo de violação. Outro exemplo é o das músicas MP3, que foram massivamente baixadas, o que ocasionou uma mudança de mercado. Nesse formato, a entrega poderia ser feita de forma eficiente, mas não foi possível conter a violação de produtos privados. O autor Paiva (2016) observa que, no século XX, várias tecnologias causaram uma mudança drástica na indústria fonográfica, e o formato de música MP3 foi o que mais causou impacto na distribuição musical. Mesmo com as taxas de transferência baixa na internet, o fluxo de consumo aumentou exponencialmente. Os dados privados têm uma titularidade, e o seu uso deve ser observado — ao contrário dos dados públicos, que podem ser utilizados sem restrição, conforme o autor os coloca à disposição. No Brasil, a propriedade intelectual é regida pelas seguintes leis: Lei nº 9.279 de 14 de maio de 1996 (Lei de Pro- priedade Industrial), Lei nº 9.609, de 19 de fevereiro de 1998 (Lei do Software) e Lei nº 9.610, de 19 de fevereiro de 1998 (Lei de Direitos Autorais). A preservação A fase de coleta dos dados refere-se ao processo de identifi car os dados neces- sários para o problema, de forma que sejam armazenados e preservados para a sua análise posterior. Também devem ser armazenados os dados e metada- dos possíveis, a fi m de colaborar com a preservação do conjunto de dados. Os metadados são informações sobre os dados. Por exemplo, em uma foto, da- dos como dia e horário da foto são informações sobre a foto, ou seja, metadados. 5Ciclo de vida de um processo de ciência de dados Segundo Sant’Ana (2016), a preservação dos dados coletados e armazenados pode exigir que algumas informações adicionais também sejam armazena- das. Por exemplo, algumas características dos dispositivos que coletaram os dados poderiam ser utilizadas para dar um maior significado e auxílio no conhecimento sobre eles. Portanto, para a preservação dos dados, é necessário armazená-los devidamente. Eles devem ser descartados apenas com critérios rigorosos e, oportunamente, deve-se guardar dados sobre esses dados. A integração Durante a coleta, podem ser identifi cados diversos silos de dados, que podem ser integrados para que se possa ter mais conhecimento a respeito do problema estudado. Por exemplo, poderíamos buscar uma fonte de dados que contivesse dados das escolas municipais de determinada cidade, e gostaríamos de integrá- -la com uma base sobre a condição fi nanceira das famílias que têm os seus fi lhos matriculados nessas escolas. Assim, a integração é um quadro comum no contexto dos dados, de modo a formar um quebra-cabeça que fará sentido na sua completude. Como um exemplo dessa integração, Santin et al. (2019) demonstram que, ao se fundir dados públicos de saúde e de transporte, pode-se descobrir insights que as bases isoladas não poderiam gerar. Segundo Sant’Ana (2016), para que seja possível utilizar bem os dados, é necessário certo nível de integração entre entidades distintas, para uma melhor análise e conhecimento. Bases integradas podem compor um conhecimento que terá mais valor que as individualizadas. Assim, a integração visa a compor um grau de informação distinta dos seus componentes separados. Além disso, visa à preservação dos dados, já que, unidas, as bases geram um conhecimento mais amplo a respeito de um contexto, ao mesmo tempo em que se mantém as suas bases originais com o devido significado. 2 A recuperação e o descarte dos dados A recuperação e o descarte dos dados são tão importantes como os passos iniciais de coleta e armazenamento. Ao serem armazenados, os dados precisam ser recuperáveis, e é comum ver, durante as análises, que parte do conjunto pode ter problemas: campos vazios, dados errados, dados fora do desvio padrão, entre outros. Esses dados problemáticos, então, serão descartados. Ciclo de vida de um processo de ciência de dados6 O processo de extrair, transformar e carregar os dados, conhecido como ETL (Extract, Transform e Load), tem como princípio a ideia de integração de diversas bases. Pode-se buscar inúmeras fontes, organizá-las transformando os dados em paralelo a outras e, então, carregá-los para uma nova estrutura de armazenamento. Assim, o armazenamento deve ser feito de forma que os arquivos ou dados sejam recuperáveis, isto é, sejam alocados em formatos que permitam a con- sulta e a posterior análise. Organizar arquivos em formatos não suportáveis por linguagens de programação pode fazer daquela coleta um projeto inviável para o processo de dados. O descarte dos dados se faz necessário para compreendê-los melhor — costuma-se chamar esse processo de limpeza. Existem várias técnicas e pro- cedimentos que podem ser adotados para esse processo, mas é preciso sempre levar em consideração as legislações sobre o descarte, a necessidade de ter uma cópia de segurança de pelo menos parte dos dados, entre outros aspectos. Os sistemas de recuperação na web semântica Para que possam ser encontrados na internet, os dados armazenados precisam ter a semântica necessária. A partir disso, entra-se no contexto da web semântica. Santarém (2017, documento on-line) afirma: Com essa grande oferta de dados disponíveis é necessário um segundo passo, o desfrute desses datasets. É necessário transformar todo esse conjunto de informações em conhecimento útil e aplicável, de forma a mudar positivamente a vida das pessoas [...]. Nesse sentido, estruturas como o RDF (Resource Description Framework) organizam os dados em estruturas a serem armazenadas, de forma que a linguagem SPARQL possa recuperar essa informação. 7Ciclo de vida de um processo de ciência de dados 3 A análise exploratória em um conjunto de dados e as fases do ciclo de vida de ciência de dados A análise exploratória oferece um conhecimento inicial sobre os dados. A partir dela, é possível observar o resumo das características principais dos dados, para depois compreendê-los melhor. De forma geral, o seu intuito é analisar os dados antes mesmo de aplicar qualquer técnica estatística. Nesse sentido, como demonstram Rodrigues e Dias (2017), a visualização dos dados consegue transmitir melhor a informação. Logo, faz-se necessário concebê-los de forma a auxiliar no ciclo de vida em ciência de dados. Para ilustrar as fases do ciclo de vida dos dados, imagine que precisa acessar os dados da empresa Airbnb para o estado do Rio de Janeiro, no Brasil. Utilizando a linguagem Python 3 e o ambiente de desenvolvimento Google Cola- boratory, você pode realizar a coleta de dados da seguinte forma: Após a coleta, os dados serão armazenados em memória. Assim, você poderá recu- perá-los e obter um conhecimento no dataset sobre a quantidade de colunas e linhas. Ciclo de vida de um processo de ciência de dados8 Organize a retirada do sinal de dólar do campo price, para quepossa utilizá-lo. Realize então a verificação de valores de aluguéis discrepantes (outliers) em relação aos valores do conjunto de dados, conforme mostra a Figura 2. Esses dados serão descartados. Figura 2. Gráfico de valores altos no pico. Com isso, você pôde conhecer a dimensão dos dados e outliers e, assim, iniciar os primeiros descartes por meio da análise exploratória. 9Ciclo de vida de um processo de ciência de dados AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de Janeiro: Alta Books, 2016. BRACKETT, M. (ed.). et al. The dama guide to the data management body of knowledge. [S. l.]: Technics Publications, 2009. BRASIL. Lei n. 13.709, de 14 de agosto de 2018. Lei Geral de Proteção de Dados Pessoais (LGPD). Brasília, 2018. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2015- 2018/2018/lei/L13709.htm. Acesso em: 29 abr. 2020. BRITO, F. T.; MACHADO, J. C. Preservação de privacidade de dados: fundamentos, técnicas e aplicações. In: JORNADAS DE ATUALIZAÇÃO EM INFORMÁTICA, 36., 2017. Anais [...]. São Paulo: SBC, 2007. Disponível em: http://csbc2017.mackenzie.br/public/ files/all/livro-jai.pdf. Acesso em: 29 abr. 2020. FAGUNDES, P. B.; MACEDO, D. D. J.; FREUND, G. P. A produção científica sobre qualidade de dados em big data: um estudo na base de dados Web of Science. Revista Digital de Biblioteconomia e Ciência da Informação, v. 16, n. 1, 2018. Disponível em: https://periodi- cos.sbu.unicamp.br/ojs/index.php/rdbci/article/view/8650412. Acesso em: 29 abr. 2020. FERES, M. V. C.; OLIVEIRA, J. V.; GONÇALVES, D. D. Robin Hood às avessas: software, pirataria e direito autoral. Revista Direito GV, v. 13, n. 1, 2017. Disponível em: http:// bibliotecadigital.fgv.br/ojs/index.php/revdireitogv/article/view/68899/66490. Acesso em: 29 abr. 2020. PAIVA, J. E. R. Copyrights, MP3 and the New Recording Industry in Brazil. Sonora, n. 9, 2016. Disponível em: https://www.publionline.iar.unicamp.br/index.php/sonora/ article/view/676. Acesso em: 29 abr. 2020. RODRIGUES, A. A.; DIAS, G. A. Estudos sobre visualização de dados científicos no contexto da Data Science e do Big Data. Pesquisa Brasileira em Ciência da Informação e Biblioteconomia, v. 12, n. 1, 2017. Disponível em: https://periodicos.ufpb.br/index.php/ pbcib/article/view/34774. Acesso em: 29 abr. 2020. SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da ciência da informação. Informação & Informação, v. 21, n. 2, 2016. Disponível em: http://www.uel. br/seer/index.php/informacao/article/download/27940/20124. Acesso em: 29 abr. 2020. SANTARÉM SEGUNDO, J. E. Web semântica: introdução a recuperação de dados usando SPARQL. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 15., 2014. Anais […]. Belo Horizonte: UFMG, 2014. Disponível em: http://repositorios.questoese- mrede.uff.br/repositorios/handle/123456789/3191?show=full. Acesso em: 29 abr. 2020. Ciclo de vida de um processo de ciência de dados10 Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun- cionamento foi comprovado no momento da publicação do material. No entanto, a rede é extremamente dinâmica; suas páginas estão constantemente mudando de local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade sobre qualidade, precisão ou integralidade das informações referidas em tais links. SANTIN, P. L. L. et al. Integração de dados públicos de saúde e transporte: caracterização para modelagem multicamadas. In: WORKSHOP DE COMPUTAÇÃO URBANA, 3., 2019. Anais [...]. Porto Alegre: SBC, 2019. Disponível em: https://ojs.sbc.org.br/index.php/ courb/article/view/7471. Acesso em: 29 abr. 2020. SANTOS, A.; ANDREOLI, T. Marketing viral: um estudo de caso de três vídeos do banco Itaú que se tornaram virais de sucesso. Revista GeTeC, v. 4, n. 8, 2015. Disponível em: http://www.fucamp.edu.br/editora/index.php/getec/article/view/672. Acesso em: 29 abr. 2020. Leituras recomendadas BRASIL. Lei n. 9.279, de 14 de maio de 1996. Regula direitos e obrigações relativos à pro- priedade industrial. Brasília, 1996. Disponível em: http://www.planalto.gov.br/ccivil_03/ Leis/L9279.htm. Acesso em: 29 abr. 2020. BRASIL. Lei n. 9.610, de 19 de fevereiro de 1998. Altera, atualiza e consolida a legislação sobre direitos autorais e dá outras providências. Brasília, 1998. Disponível em: http:// www.planalto.gov.br/ccivil_03/leis/L9610.htm. Acesso em: 29 abr. 2020. BRASIL. Lei n. 9.609, de 19 de fevereiro de 1998. Dispõe sobre a proteção da propriedade intelectual de programa de computador, sua comercialização no País, e dá outras providências. Brasília, 1998. Disponível em: http://www.planalto.gov.br/ccivil_03/leis/ L9609.htm. Acesso em: 29 abr. 2020. 11Ciclo de vida de um processo de ciência de dados
Compartilhar