Baixe o app para aproveitar ainda mais
Prévia do material em texto
Descoberta de conhecimento com BIG DATA APRESENTAÇÃO O desenvolvimento de infraestruturas de computação massivamente distribuídas mudou a economia e o gerenciamento de dados, tornando possível aplicar sofisticados métodos de análise de grandes volumes, fenômeno popularmente conhecido como Big Data. Uma de suas características importante é o processo de descoberta de conhecimento. Este conceito tem como objetivo sistematizar as análises de grandes volumes de dados para geração de conhecimento útil aos tomadores de decisão em diversos âmbitos e negócios. Nesta Unidade de Aprendizagem, você conhecerá todas as etapas que compõem o processo de descoberta da aprendizagem, bem como sua aplicação. Além disso, serão apresentados casos de sucesso com o Big Data. Bons estudos. Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados: Descrever o processo de descoberta de conhecimento em Big Data.• Aplicar o processo de descoberta de conhecimento em Big Data.• Listar exemplos bem-sucedidos com Big Data.• INFOGRÁFICO O processo KDD é constituído de várias etapas, que são executadas de forma interativa e iterativa. São interativas porque envolvem a cooperação da pessoa responsável pela análise de dados, cujo conhecimento sobre o domínio orientará a execução do processo. Por sua vez, a iteração deve-se ao fato de que, com frequência, esse processo não é executado de forma sequencial, mas envolve repetidas seleções de parâmetros e conjuntos de dados, aplicações das técnicas de Data Mining e posterior análise dos resultados obtidos, a fim de refinar os conhecimentos extraídos. O Infográfico apresenta e descreve as etapas do processo de descoberta do conhecimento. CONTEÚDO DO LIVRO Descoberta de conhecimento em banco de dados é uma área interdisciplinar com foco em metodologias para extração de conhecimento útil de grandes conjuntos de dados. O crescimento contínuo de dados on-line devido à Internet e o uso generalizado de bancos de dados criaram uma imensa necessidade de metodologias de descoberta de conhecimento. O desafio de extrair conhecimento de dados baseia-se em pesquisas estatísticas, bancos de dados, reconhecimento de padrões, aprendizado de máquina, visualização de dados, otimização e computação de alto desempenho, para fornecer soluções avançadas de inteligência de negócios. No capítulo Descoberta de conhecimento com Big Data, da obra Introdução a Big Data e Internet das Coisas (IoT), você verá em detalhes como se dá o processo de descoberta do conhecimento, bem como exemplos bem-sucedidos de aplicação. Boa leitura. INTRODUÇÃO A BIG DATA E INTERNET DAS COISAS (IOT) Ramiro Córdova Júnior Descoberta de conhecimento com Big Data Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: Descrever o processo de descoberta de conhecimento em Big Data. Aplicar o processo de descoberta de conhecimento em Big Data. Listar exemplos bem-sucedidos com Big Data. Introdução Os grandes conjuntos de dados (Big Data) gerados pelas pessoas e em- presas diariamente possuem um potencial de melhorias em diversos segmentos de negócios. Porém, a evolução das técnicas de análise é o gargalo que impede tomadas de decisões mais eficazes para os negócios. O processo de descoberta do conhecimento é uma abordagem que sistematiza em etapas a realização dessas análises. Neste capítulo, você vai estudar sobre o processo de descoberta de conhecimento aplicado a Big Data e vai conhecer exemplos nos quais esse processo teve êxito em suas aplicações. Processo de descoberta de conhecimento Em 1989, foi instituído o termo descoberta de conhecimento em banco de dados em alusão ao processo de transformação de volumes de dados em conhecimento. Esse termo tem origem no inglês Knowledge Discovery in Databases e é comumente utilizado pela sigla KDD. O objetivo do KDD é a extração de relações implícitas e desconhecidas nas bases de dados para geração de conhecimento útil. O KDD pode ser considerada uma atividade multidisciplinar, tendo em vista que envolve diversos conceitos relacionados à inteligência artificial e a disciplinas matemáticas. O conhecimento extraído deve ser confiável, compreensível e útil. Ou seja, a descoberta de conhecimento consiste na extração de informações que podem colaborar na tomada de decisões, em grandes bases de dados e sem nenhuma hipótese previamente estabelecida (FAYYAD et al., 1996). A partir desse conceito, surgiu o processo de KDD, que propõe, a partir de etapas iterativas e interativas, um padrão metodológico para transfor- mação dos grandes volumes de dados em conhecimento. Esse processo é realizado por meio de métodos de mineração de dados (algoritmos) para extrair (identificar) o que é considerado conhecimento, de acordo com as especificações de medidas e limites, usando um banco de dados junto com qualquer pré-processamento, subamostragem e transformações necessárias desse banco de dados. Com base nesse conceito, pode-se dizer que o processo KDD é baseado na cooperação entre humanos e computadores, na qual os humanos são os responsáveis por projetar arquiteturas de sistema, definição dos problemas e identificação dos objetivos, enquanto os computadores realizam o processamento dos dados em busca de padrões que satisfaçam os objetivos definidos. A etapas do processo de KDD podem ser visualizadas na Figura 1. Figura 1. Etapas do processo de descoberta do conhecimento. Fonte: Schneider (2003, p. 13). Na primeira etapa, o processo de KDD desenvolve uma compreensão do domínio da aplicação, além da definição dos objetivos a serem alcançados, Descoberta de conhecimento com Big Data2 ou seja, nessa etapa, define-se que problema deve ser resolvido com o co- nhecimento a ser adquirido. Após essa etapa, inicia-se a etapa de seleção, que consiste em selecionar os dados-alvos, que podem ser segmentados em subconjuntos de dados. A etapa de pré-processamento é na qual se realiza uma limpeza nos dados com o objetivo de adequá-los para a mineração de dados. Normalmente, as bases de dados com um grande volume não estão preparadas para a mineração. Após a etapa de pré-processamento, inicia-se a etapa de transformação, que consiste em fazer com que os dados pré-processados passem por uma transformação que garanta o seu armazenamento adequado. Nessa etapa, o objetivo é fazer com que os atributos representem todas as características desses dados. Na etapa de mineração, é realizada a busca por padrões nos dados da base já transformada. A mineração de dados é considerada o núcleo do processo de KDD. A etapa final consiste em identificar, entre os padrões extraídos, quais satisfazem os critérios definidos. No final dessa avaliação, é possível retornar ao início do processo novamente ou implantar e incorporar o conhecimento extraído ao sistema de forma que os métodos sejam documentados para a apresentação do conhecimento. O KDD se refere ao processo geral de descoberta de conhecimento útil a partir de grandes volumes de dados. Envolve a avaliação e, possivelmente, a interpretação dos padrões para tomar a decisão do que será qualificado como conhecimento. Também inclui a escolha de esquemas de codificação, pré-processamento, amostragem e projeções dos dados antes da etapa de mineração de dados. Já a mineração de dados refere-se à aplicação de algoritmos para extrair padrões de dados sem as etapas adicionais do processo de KDD. Na etapa de mineração de dados, podem ser utilizadas técnicas como: Redes neurais artificiais: consistem em modelos preditivos não lineares que aprendem por meio do treinamento e se assemelham às redes neurais biológicas (das quais vem o seu nome). Algoritmos genéticos: técnicas de otimização baseadas em combinação genética e seleção natural. 3Descoberta de conhecimento com Big Data Método do vizinho mais próximo: é a técnica que classifica cada registro em um conjunto dedados combinando os registros mais semelhantes. Indução de regras: consiste na extração baseada em regras condicionais a partir da significância estatística. Visualização de dados: a partir de ferramentas que utilizam gráficos, é possível realizar interpretações visuais de relações complexas. Aplicação do processo de descoberta do conhecimento Para exemplifi car o processo de KDD, vamos basear-nos no trabalho reali- zado por Schneider (2003), que utilizou como cenário para aplicação o Poder Judiciário do estado do Rio Grande do Sul. O KDD foi aplicado nas bases de dados de julgamento de processos à procura de descobertas baseadas na classifi cação inicial dos processos em relação a incidência de processos, tempo de tramitação e tipos de sentenças proferidas. Definição dos objetivos Devido à carência de informações estatísticas, foi defi nido um KDD que pudesse auxiliar na busca por padrões de comportamento que relacionassem a classifi cação processual com o padrão de sentenças proferidas, tempo de tramitação e incidência de processos. Seleção Nesse caso, foram selecionadas as bases de dados que fornecem dados de 1ª instância, que possuem como característica principal a descentralização dos dados em bancos de dados divididos por comarca, totalizando 80 bases de dados. Os dados dessas comarcas foram replicados on-line e centralizados em uma única base de dados. A Figura 2 apresenta o modelo lógico de dados utilizados para compreensão do domínio explorado. Descoberta de conhecimento com Big Data4 Figura 2. Modelo lógico de dados. Fonte: Schneider (2003, p. 33). Pré-processamento Na etapa de pré-processamento, foi realizada uma limpeza na base de dados com o objetivo de trabalhar apenas com dados consistentes. Processos que estavam considerados como baixados, mas que estavam sem data de baixa, e processos nos quais foram identifi cados erros de digitação nas datas foram encaminhados para os responsáveis para correção e posterior reinserção na base de dados. Transformação Para encaminhar a próxima etapa do KDD, que é a mineração, foram constru- ídos alguns campos na base de dados. Entre eles, podemos citar o campo que realiza o cálculo do tempo de tramitação de cada processo (diferença entre a data da baixa e a data de abertura) e a idade do réu, calculada a partir da sua idade. Além disso, foram realizadas algumas adequações nos formatos dos dados de alguns campos, a fi m de fornecer os dados num padrão de entrada adequado para a mineração dos dados na etapa seguinte. 5Descoberta de conhecimento com Big Data Mineração de dados Nesta etapa, inicialmente, foram defi nidas as técnicas de segmentação e regras de associação para aplicação. Foram aplicados, inicialmente, dois fi ltros nos atributos: 1) seção x classe x especialização; e 2) comarca x seção x classe x especialização. Foi utilizado o algoritmo “K-means” para a confi guração os parâmetros quantidade de clusters (8), número randômico para escolha dos centroides iniciais (10) e modo de cluster (use training set). Interpretação e avaliação Para a avaliação dos resultados, foram considerados mais expressivos os resultados realizados com 8 clusters, tendo em vista que os testes com 12 clusters geraram resultados inexpressivos e com 4 clusters ocultavam infor- mações relevantes. Acesse o link a seguir com o trabalho de Schneider (2003), na página 42, e veja o gráfico em formato de pizza com a distribuição do cruzamento de seção x classe x especialização. https://goo.gl/CGCnt9 Na interpretação dos dados, constatou-se que: 26% dos casos estão agrupados na seção cível, na classe processo de conhecimento e com a especialização definida como família; 20% dos casos estão agrupados na seção cível, na classe processo de execução fiscal e com a especialização definida como fazenda pública; 15% dos casos estão agrupados na seção cível, na classe processos de execução e com a especialização definida como cível; 12% dos casos estão agrupados na seção juizado especial, na classe associadas e especialização (no juizado especial a classe e a especiali- zação têm a mesma nomenclatura); Descoberta de conhecimento com Big Data6 10% dos casos estão agrupados na seção crime, na classe procedimento ordinário-reclusão e com a especialização definida como crime; 9% dos casos estão agrupados na seção juizado especial cível, na classe precatórias criminais e com a especialização definida como associadas; 8% dos casos estão agrupados na seção crime, na classe precatórios criminais e com a especialização definida como precatória crime. Analisando esses resultados, pode-se constatar uma alta incidência de processos cíveis que tramitam na justiça comum, com especialização de família (26%) e fazenda pública (20%). Isso pode ser um motivo para sugerir a nomeação de juízes específicos para julgar esses casos. Big Data na área da saúde A área da saúde é uma das áreas que já possuem soluções implementadas a partir dos conceitos que permeiam Big Data devido ao fato de essa área envolver múltiplas relações com volumes de dados de pacientes, profi ssionais da área, hospitais, laboratórios farmacêuticos, seguradoras, administração pública, entre outros. Com a integração dessas bases de dados, surge um potencial de análises de dados que poderiam infl uenciar políticas públicas em prol de melhorias na saúde, por exemplo. Pacientes utilizando sensores de monitoramento com informações disponibilizadas em uma plataforma acessível cruzadas com informações providas de redes sociais dos próprios pacientes poderiam permitir aos médicos a elaborações de diagnósticos mais precisos e realistas. Assim, seria possível agir de maneira preventiva em muitos casos por meio de análises preditivas baseadas nesses grandes volumes de dados. Do ponto de vista da indústria farmacêutica, com análises mais profun- das em grandes volumes de dados, seria possível melhorar a eficácia dos medicamentos, possibilitando melhores tratamentos aos doentes. Os diversos hospitais e clínicas possuem essas informações, mas elas nem sempre são aproveitadas. A possibilidade de correlacionar os registros médicos com os tratamentos e os resultados dos tratamentos poderia ajudar muito nesse sentido. Além disso, com um volume significativo de dados médicos e algoritmos aprimorados de predição, seria possível modelar de forma mais eficiente em quais vale a pena investir em pesquisas. 7Descoberta de conhecimento com Big Data No link a seguir, você pode encontrar experiências de pacientes relacionadas a seus tratamentos médicos que geram uma grande base de dados para análises. https://goo.gl/o5fG Acesse, no link a seguir, o site da rede Sermo, em que os médicos podem trocar experiências do seu dia a dia — nesse caso, compartilhando casos reais de tratamentos aplicados aos seus pacientes. https://goo.gl/KFbJm Outro uso potencial de Big Data é no controle de doenças, descobrindo em que áreas elas foram detectadas e, de modo preditivo, alertando e prepa- rando os hospitais e centros de emergência regionais para um possível surto epidêmico. Pesquisas demonstram que isso é possível e já existem casos com esse contexto nos quais tendências são identificadas em um grande volume de dados padrões de conexões e interdependências que não eram possíveis de serem observadas em amostragens menores. Um caso é o Flu Trends da Google, que é um projeto para identificar tendências de gripe antes de as epidemias se estabelecerem e que se baseia nas informações obtidas no buscador. Big Data na administração pública Para que seja possível implementar soluções que impactem na qualidade de vida, muitas cidades estão desenvolvendo legislações para a transparência de dados públicos, possibilitando, assim, a criação de soluções baseadas nesses grandes conjuntos de dados. Com a utilização de Big Data associados a algo- ritmos mais elaborados, pode-se criar soluções baseadas no rastreamento de dados oriundosde diversas fontes. Realizando associações e cruzamento de dados, é possível detectar fraudes, como, por exemplo, funcionários públicos Descoberta de conhecimento com Big Data8 que foram contratados para trabalhar sob o regime de dedicação exclusiva e acumulam cargos em outras empresas. O Big Data pode atuar como um aliado na transparência da administração pública e garantir, assim, que a sociedade confi e mais na qualidade da administração pública. No caso da administração pública, a tecnologia é apenas uma ferramenta que possibilita melhorias, mas a grande mudança deve ser na dimensão cultural. A transparência deve ser encarada como uma aliada da adminis- tração pública contra corrupção e gastos inadequados de dinheiro público. Além disso, há a possibilidade de o governo agilizar seus processos e tomar decisões importantes com embasamento. A cidade de Nova York possui um portal intitulado NYC Digital, no qual é possível que os cidadãos tenham acesso a diversas informações relacionadas à administração da cidade, além da possibilidade de interagir em algumas questões que se referem à gestão da cidade. FAYYAD, U. M. et al. Advances in knowledge discovery and data mining. Menlo Park: American Association for Artificial Intelligence, 1996. SCHNEIDER, L. F. Aplicação do processo de descoberta de conhecimento em dados do poder judiciário do estado do Rio Grande do Sul. 2003. 103 f. Dissertação (Mestrado em Informática) – Universidade Federal do Rio Grande do Sul, Porto Alegre, 2003. Disponível em: <https://lume.ufrgs.br/handle/10183/8968>. Acesso em: 4 jan. 2019. Leituras recomendadas MARTINS, E. S. Aplicação do processo de descoberta de conhecimento em base de dados a metadados textuais de infraestruturas de dados espaciais. 2012. 92 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Viçosa, Viçosa, 2012. Disponível em: <http://www.locus.ufv.br/bitstream/handle/123456789/2630/texto%20completo. pdf?sequence=1&isAllowed=y>. Acesso em: 4 jan. 2019. TAURION, C. Big data. Rio de janeiro: Brasport, 2013. 9Descoberta de conhecimento com Big Data Conteúdo: DICA DO PROFESSOR As empresas estão se dando conta da importância de realizar análises em grandes bases de dados para tomar decisões estratégicas em seus negócios. As técnicas de Big Data estão sendo cada vez mais exploradas, principalmente por grandes corporações. Assista à Dica do Professor e conheça três exemplos de grandes empresas que utilizam e obtiveram sucesso com o Big Data. Conteúdo interativo disponível na plataforma de ensino! SAIBA + Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor: Big Data, o poder da informação, seus casos de uso e principais arquiteturas - Thiago Santiago Assista a palestra sobre o poder da informação e como os dados estão revolucionando o mundo. Conteúdo interativo disponível na plataforma de ensino! Uma ferramenta para apoiar a seleção de dados no processo de descoberta de conhecimento em bancos de dados de produção acadêmica Neste artigo, você verá como foi desenvolvida uma ferramenta que cria listas de entrada automatizadas para recuperar informações e gerar conhecimento sobre a produção científica de docentes da pós-graduação brasileira, por meio do programa ScriptLattes. Conteúdo interativo disponível na plataforma de ensino!
Compartilhar