Buscar

Descoberta do conhecimento com BIG DATA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Descoberta de conhecimento com BIG 
DATA	
APRESENTAÇÃO
O desenvolvimento de infraestruturas de computação massivamente distribuídas mudou a 
economia e o gerenciamento de dados, tornando possível aplicar sofisticados métodos de análise 
de grandes volumes, fenômeno popularmente conhecido como Big Data. Uma de suas 
características importante é o processo de descoberta de conhecimento. Este conceito tem como 
objetivo sistematizar as análises de grandes volumes de dados para geração de conhecimento 
útil aos tomadores de decisão em diversos âmbitos e negócios.
Nesta Unidade de Aprendizagem, você conhecerá todas as etapas que compõem o processo de 
descoberta da aprendizagem, bem como sua aplicação. Além disso, serão apresentados casos de 
sucesso com o Big Data.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Descrever o processo de descoberta de conhecimento em Big Data.•
Aplicar o processo de descoberta de conhecimento em Big Data.•
Listar exemplos bem-sucedidos com Big Data.•
INFOGRÁFICO
O processo KDD é constituído de várias etapas, que são executadas de forma interativa e 
iterativa. São interativas porque envolvem a cooperação da pessoa responsável pela análise de 
dados, cujo conhecimento sobre o domínio orientará a execução do processo.
Por sua vez, a iteração deve-se ao fato de que, com frequência, esse processo não é executado de 
forma sequencial, mas envolve repetidas seleções de parâmetros e conjuntos de dados, 
aplicações das técnicas de Data Mining e posterior análise dos resultados obtidos, a fim de 
refinar os conhecimentos extraídos.
O Infográfico apresenta e descreve as etapas do processo de descoberta do conhecimento.
CONTEÚDO DO LIVRO
Descoberta de conhecimento em banco de dados é uma área interdisciplinar com foco em 
metodologias para extração de conhecimento útil de grandes conjuntos de dados. O crescimento 
contínuo de dados on-line devido à Internet e o uso generalizado de bancos de dados criaram 
uma imensa necessidade de metodologias de descoberta de conhecimento. O desafio de extrair 
conhecimento de dados baseia-se em pesquisas estatísticas, bancos de dados, reconhecimento de 
padrões, aprendizado de máquina, visualização de dados, otimização e computação de alto 
desempenho, para fornecer soluções avançadas de inteligência de negócios.
No capítulo Descoberta de conhecimento com Big Data, da obra Introdução a Big Data e 
Internet das Coisas (IoT), você verá em detalhes como se dá o processo de descoberta do 
conhecimento, bem como exemplos bem-sucedidos de aplicação.
Boa leitura.
INTRODUÇÃO A 
BIG DATA E 
INTERNET DAS 
COISAS (IOT)
Ramiro Córdova Júnior
Descoberta de conhecimento 
com Big Data 
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
  Descrever o processo de descoberta de conhecimento em Big Data.
  Aplicar o processo de descoberta de conhecimento em Big Data.
  Listar exemplos bem-sucedidos com Big Data.
Introdução
Os grandes conjuntos de dados (Big Data) gerados pelas pessoas e em-
presas diariamente possuem um potencial de melhorias em diversos 
segmentos de negócios. Porém, a evolução das técnicas de análise é o 
gargalo que impede tomadas de decisões mais eficazes para os negócios. 
O processo de descoberta do conhecimento é uma abordagem que 
sistematiza em etapas a realização dessas análises.
Neste capítulo, você vai estudar sobre o processo de descoberta de 
conhecimento aplicado a Big Data e vai conhecer exemplos nos quais 
esse processo teve êxito em suas aplicações.
Processo de descoberta de conhecimento
Em 1989, foi instituído o termo descoberta de conhecimento em banco 
de dados em alusão ao processo de transformação de volumes de dados em 
conhecimento. Esse termo tem origem no inglês Knowledge Discovery in 
Databases e é comumente utilizado pela sigla KDD. O objetivo do KDD é 
a extração de relações implícitas e desconhecidas nas bases de dados para 
geração de conhecimento útil.
O KDD pode ser considerada uma atividade multidisciplinar, tendo em 
vista que envolve diversos conceitos relacionados à inteligência artificial 
e a disciplinas matemáticas. O conhecimento extraído deve ser confiável, 
compreensível e útil. Ou seja, a descoberta de conhecimento consiste na 
extração de informações que podem colaborar na tomada de decisões, em 
grandes bases de dados e sem nenhuma hipótese previamente estabelecida 
(FAYYAD et al., 1996).
A partir desse conceito, surgiu o processo de KDD, que propõe, a partir 
de etapas iterativas e interativas, um padrão metodológico para transfor-
mação dos grandes volumes de dados em conhecimento. Esse processo é 
realizado por meio de métodos de mineração de dados (algoritmos) para 
extrair (identificar) o que é considerado conhecimento, de acordo com as 
especificações de medidas e limites, usando um banco de dados junto com 
qualquer pré-processamento, subamostragem e transformações necessárias 
desse banco de dados. Com base nesse conceito, pode-se dizer que o processo 
KDD é baseado na cooperação entre humanos e computadores, na qual os 
humanos são os responsáveis por projetar arquiteturas de sistema, definição 
dos problemas e identificação dos objetivos, enquanto os computadores 
realizam o processamento dos dados em busca de padrões que satisfaçam os 
objetivos definidos. A etapas do processo de KDD podem ser visualizadas 
na Figura 1.
Figura 1. Etapas do processo de descoberta do conhecimento.
Fonte: Schneider (2003, p. 13).
Na primeira etapa, o processo de KDD desenvolve uma compreensão do 
domínio da aplicação, além da definição dos objetivos a serem alcançados, 
Descoberta de conhecimento com Big Data2
ou seja, nessa etapa, define-se que problema deve ser resolvido com o co-
nhecimento a ser adquirido. Após essa etapa, inicia-se a etapa de seleção, 
que consiste em selecionar os dados-alvos, que podem ser segmentados em 
subconjuntos de dados.
A etapa de pré-processamento é na qual se realiza uma limpeza nos dados 
com o objetivo de adequá-los para a mineração de dados. Normalmente, as bases 
de dados com um grande volume não estão preparadas para a mineração. Após 
a etapa de pré-processamento, inicia-se a etapa de transformação, que consiste 
em fazer com que os dados pré-processados passem por uma transformação 
que garanta o seu armazenamento adequado. Nessa etapa, o objetivo é fazer 
com que os atributos representem todas as características desses dados.
Na etapa de mineração, é realizada a busca por padrões nos dados da base 
já transformada. A mineração de dados é considerada o núcleo do processo de 
KDD. A etapa final consiste em identificar, entre os padrões extraídos, quais 
satisfazem os critérios definidos. No final dessa avaliação, é possível retornar 
ao início do processo novamente ou implantar e incorporar o conhecimento 
extraído ao sistema de forma que os métodos sejam documentados para a 
apresentação do conhecimento.
O KDD se refere ao processo geral de descoberta de conhecimento útil a partir de 
grandes volumes de dados. Envolve a avaliação e, possivelmente, a interpretação dos 
padrões para tomar a decisão do que será qualificado como conhecimento. Também 
inclui a escolha de esquemas de codificação, pré-processamento, amostragem e 
projeções dos dados antes da etapa de mineração de dados. Já a mineração de dados 
refere-se à aplicação de algoritmos para extrair padrões de dados sem as etapas 
adicionais do processo de KDD.
Na etapa de mineração de dados, podem ser utilizadas técnicas como:
  Redes neurais artificiais: consistem em modelos preditivos não lineares 
que aprendem por meio do treinamento e se assemelham às redes neurais 
biológicas (das quais vem o seu nome).
  Algoritmos genéticos: técnicas de otimização baseadas em combinação 
genética e seleção natural.
3Descoberta de conhecimento com Big Data
  Método do vizinho mais próximo: é a técnica que classifica cada registro 
em um conjunto dedados combinando os registros mais semelhantes.
  Indução de regras: consiste na extração baseada em regras condicionais 
a partir da significância estatística.
  Visualização de dados: a partir de ferramentas que utilizam gráficos, é 
possível realizar interpretações visuais de relações complexas.
Aplicação do processo de descoberta 
do conhecimento
Para exemplifi car o processo de KDD, vamos basear-nos no trabalho reali-
zado por Schneider (2003), que utilizou como cenário para aplicação o Poder 
Judiciário do estado do Rio Grande do Sul. O KDD foi aplicado nas bases 
de dados de julgamento de processos à procura de descobertas baseadas na 
classifi cação inicial dos processos em relação a incidência de processos, tempo 
de tramitação e tipos de sentenças proferidas.
Definição dos objetivos
Devido à carência de informações estatísticas, foi defi nido um KDD que 
pudesse auxiliar na busca por padrões de comportamento que relacionassem 
a classifi cação processual com o padrão de sentenças proferidas, tempo de 
tramitação e incidência de processos.
Seleção
Nesse caso, foram selecionadas as bases de dados que fornecem dados de 1ª 
instância, que possuem como característica principal a descentralização dos 
dados em bancos de dados divididos por comarca, totalizando 80 bases de 
dados. Os dados dessas comarcas foram replicados on-line e centralizados 
em uma única base de dados. A Figura 2 apresenta o modelo lógico de dados 
utilizados para compreensão do domínio explorado.
Descoberta de conhecimento com Big Data4
Figura 2. Modelo lógico de dados.
Fonte: Schneider (2003, p. 33).
Pré-processamento
Na etapa de pré-processamento, foi realizada uma limpeza na base de dados com 
o objetivo de trabalhar apenas com dados consistentes. Processos que estavam 
considerados como baixados, mas que estavam sem data de baixa, e processos 
nos quais foram identifi cados erros de digitação nas datas foram encaminhados 
para os responsáveis para correção e posterior reinserção na base de dados.
Transformação
Para encaminhar a próxima etapa do KDD, que é a mineração, foram constru-
ídos alguns campos na base de dados. Entre eles, podemos citar o campo que 
realiza o cálculo do tempo de tramitação de cada processo (diferença entre a 
data da baixa e a data de abertura) e a idade do réu, calculada a partir da sua 
idade. Além disso, foram realizadas algumas adequações nos formatos dos 
dados de alguns campos, a fi m de fornecer os dados num padrão de entrada 
adequado para a mineração dos dados na etapa seguinte.
5Descoberta de conhecimento com Big Data
Mineração de dados
Nesta etapa, inicialmente, foram defi nidas as técnicas de segmentação e regras 
de associação para aplicação. Foram aplicados, inicialmente, dois fi ltros nos 
atributos: 1) seção x classe x especialização; e 2) comarca x seção x classe x 
especialização. Foi utilizado o algoritmo “K-means” para a confi guração os 
parâmetros quantidade de clusters (8), número randômico para escolha dos 
centroides iniciais (10) e modo de cluster (use training set).
Interpretação e avaliação
Para a avaliação dos resultados, foram considerados mais expressivos os 
resultados realizados com 8 clusters, tendo em vista que os testes com 12 
clusters geraram resultados inexpressivos e com 4 clusters ocultavam infor-
mações relevantes. 
Acesse o link a seguir com o trabalho de Schneider (2003), na página 42, e veja o 
gráfico em formato de pizza com a distribuição do cruzamento de seção x classe x 
especialização.
https://goo.gl/CGCnt9
Na interpretação dos dados, constatou-se que:
  26% dos casos estão agrupados na seção cível, na classe processo de 
conhecimento e com a especialização definida como família;
  20% dos casos estão agrupados na seção cível, na classe processo de 
execução fiscal e com a especialização definida como fazenda pública;
  15% dos casos estão agrupados na seção cível, na classe processos de 
execução e com a especialização definida como cível;
  12% dos casos estão agrupados na seção juizado especial, na classe 
associadas e especialização (no juizado especial a classe e a especiali-
zação têm a mesma nomenclatura);
Descoberta de conhecimento com Big Data6
  10% dos casos estão agrupados na seção crime, na classe procedimento 
ordinário-reclusão e com a especialização definida como crime;
  9% dos casos estão agrupados na seção juizado especial cível, na 
classe precatórias criminais e com a especialização definida como 
associadas;
  8% dos casos estão agrupados na seção crime, na classe precatórios 
criminais e com a especialização definida como precatória crime.
Analisando esses resultados, pode-se constatar uma alta incidência de 
processos cíveis que tramitam na justiça comum, com especialização de 
família (26%) e fazenda pública (20%). Isso pode ser um motivo para sugerir 
a nomeação de juízes específicos para julgar esses casos.
Big Data na área da saúde
A área da saúde é uma das áreas que já possuem soluções implementadas 
a partir dos conceitos que permeiam Big Data devido ao fato de essa área 
envolver múltiplas relações com volumes de dados de pacientes, profi ssionais 
da área, hospitais, laboratórios farmacêuticos, seguradoras, administração 
pública, entre outros. Com a integração dessas bases de dados, surge um 
potencial de análises de dados que poderiam infl uenciar políticas públicas 
em prol de melhorias na saúde, por exemplo. Pacientes utilizando sensores 
de monitoramento com informações disponibilizadas em uma plataforma 
acessível cruzadas com informações providas de redes sociais dos próprios 
pacientes poderiam permitir aos médicos a elaborações de diagnósticos 
mais precisos e realistas. Assim, seria possível agir de maneira preventiva 
em muitos casos por meio de análises preditivas baseadas nesses grandes 
volumes de dados.
Do ponto de vista da indústria farmacêutica, com análises mais profun-
das em grandes volumes de dados, seria possível melhorar a eficácia dos 
medicamentos, possibilitando melhores tratamentos aos doentes. Os diversos 
hospitais e clínicas possuem essas informações, mas elas nem sempre são 
aproveitadas. A possibilidade de correlacionar os registros médicos com 
os tratamentos e os resultados dos tratamentos poderia ajudar muito nesse 
sentido. Além disso, com um volume significativo de dados médicos e 
algoritmos aprimorados de predição, seria possível modelar de forma mais 
eficiente em quais vale a pena investir em pesquisas. 
7Descoberta de conhecimento com Big Data
No link a seguir, você pode encontrar experiências de pacientes relacionadas a seus 
tratamentos médicos que geram uma grande base de dados para análises. 
https://goo.gl/o5fG
Acesse, no link a seguir, o site da rede Sermo, em que os médicos podem trocar 
experiências do seu dia a dia — nesse caso, compartilhando casos reais de tratamentos 
aplicados aos seus pacientes.
https://goo.gl/KFbJm
Outro uso potencial de Big Data é no controle de doenças, descobrindo 
em que áreas elas foram detectadas e, de modo preditivo, alertando e prepa-
rando os hospitais e centros de emergência regionais para um possível surto 
epidêmico. Pesquisas demonstram que isso é possível e já existem casos 
com esse contexto nos quais tendências são identificadas em um grande 
volume de dados padrões de conexões e interdependências que não eram 
possíveis de serem observadas em amostragens menores. Um caso é o Flu 
Trends da Google, que é um projeto para identificar tendências de gripe 
antes de as epidemias se estabelecerem e que se baseia nas informações 
obtidas no buscador.
Big Data na administração pública
Para que seja possível implementar soluções que impactem na qualidade de 
vida, muitas cidades estão desenvolvendo legislações para a transparência de 
dados públicos, possibilitando, assim, a criação de soluções baseadas nesses 
grandes conjuntos de dados. Com a utilização de Big Data associados a algo-
ritmos mais elaborados, pode-se criar soluções baseadas no rastreamento de 
dados oriundosde diversas fontes. Realizando associações e cruzamento de 
dados, é possível detectar fraudes, como, por exemplo, funcionários públicos 
Descoberta de conhecimento com Big Data8
que foram contratados para trabalhar sob o regime de dedicação exclusiva 
e acumulam cargos em outras empresas. O Big Data pode atuar como um 
aliado na transparência da administração pública e garantir, assim, que a 
sociedade confi e mais na qualidade da administração pública.
No caso da administração pública, a tecnologia é apenas uma ferramenta 
que possibilita melhorias, mas a grande mudança deve ser na dimensão 
cultural. A transparência deve ser encarada como uma aliada da adminis-
tração pública contra corrupção e gastos inadequados de dinheiro público. 
Além disso, há a possibilidade de o governo agilizar seus processos e tomar 
decisões importantes com embasamento. A cidade de Nova York possui um 
portal intitulado NYC Digital, no qual é possível que os cidadãos tenham 
acesso a diversas informações relacionadas à administração da cidade, além 
da possibilidade de interagir em algumas questões que se referem à gestão 
da cidade. 
FAYYAD, U. M. et al. Advances in knowledge discovery and data mining. Menlo Park: 
American Association for Artificial Intelligence, 1996.
SCHNEIDER, L. F. Aplicação do processo de descoberta de conhecimento em dados do 
poder judiciário do estado do Rio Grande do Sul. 2003. 103 f. Dissertação (Mestrado em 
Informática) – Universidade Federal do Rio Grande do Sul, Porto Alegre, 2003. Disponível 
em: <https://lume.ufrgs.br/handle/10183/8968>. Acesso em: 4 jan. 2019.
Leituras recomendadas
MARTINS, E. S. Aplicação do processo de descoberta de conhecimento em base de dados a 
metadados textuais de infraestruturas de dados espaciais. 2012. 92 f. Dissertação (Mestrado 
em Ciência da Computação) – Universidade Federal de Viçosa, Viçosa, 2012. Disponível 
em: <http://www.locus.ufv.br/bitstream/handle/123456789/2630/texto%20completo.
pdf?sequence=1&isAllowed=y>. Acesso em: 4 jan. 2019.
TAURION, C. Big data. Rio de janeiro: Brasport, 2013.
9Descoberta de conhecimento com Big Data
Conteúdo:
DICA DO PROFESSOR
As empresas estão se dando conta da importância de realizar análises em grandes bases de dados 
para tomar decisões estratégicas em seus negócios. As técnicas de Big Data estão sendo cada 
vez mais exploradas, principalmente por grandes corporações.
Assista à Dica do Professor e conheça três exemplos de grandes empresas que utilizam e 
obtiveram sucesso com o Big Data.
Conteúdo interativo disponível na plataforma de ensino!
SAIBA +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do 
professor:
Big Data, o poder da informação, seus casos de uso e principais arquiteturas - Thiago 
Santiago
Assista a palestra sobre o poder da informação e como os dados estão revolucionando o mundo.
Conteúdo interativo disponível na plataforma de ensino!
Uma ferramenta para apoiar a seleção de dados no processo de descoberta de 
conhecimento em bancos de dados de produção acadêmica
Neste artigo, você verá como foi desenvolvida uma ferramenta que cria listas de entrada 
automatizadas para recuperar informações e gerar conhecimento sobre a produção científica de 
docentes da pós-graduação brasileira, por meio do programa ScriptLattes.
Conteúdo interativo disponível na plataforma de ensino!

Continue navegando