Unidade I - GRA1433 MINERAÇÃO DE DADOS GR2164211 - 202110 ead-15866 01

•

UAM

Gilson Cássio de Oliveira Santos

05/04/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 1/33
MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS
MINERAÇÃO DE DADOS, SUASMINERAÇÃO DE DADOS, SUAS
ABORDAGENS E FASESABORDAGENS E FASES
Autor: Esp. Wesley Soares de Souza
Revisor : Bruno Roberto Nepomuceno Matheus
I N I C I A R
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 2/33
introdução
Introdução
Nos dias de hoje, di�cilmente uma empresa não possui seus dados
armazenados digitalmente. A tecnologia tem-se mostrado cada vez ais
presente e com um custo muito baixo, comparado a anos anteriores. Isso faz
com que um amontoado de informações, que antes �cavam restritas a salas
de arquivos, hoje se restrinjam a servidores. Esse volume desmedido de
dados desconexos tem ganhado notoriedade na mídia e organizações, por
vezes, trazendo fascínio e descon�ança (DAVENPORT, 2012) em pessoas que
se envolvem diretamente com a gestão de informação.
O homem não consegue chegar a resultados satisfatórios, em tempo hábil,
sem a ajuda de ferramentas computacionais adequadas. Dessa forma,
técnicas como a Mineração de Dados (Data Mining) fazem parte de uma das
etapas da descoberta do conhecimento em Base de Dados (KDD). Nesta
unidade, vamos compreender a mineração de dados e como podemos utilizar
nos negócios. Segundo Thuraisingham (1999), a mineração de dados é o
processo de proposição de várias consultas e extração de informações úteis,
padrões e tendências, frequentemente, desconhecidas. Bons estudos!
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 3/33
O que é a mineração de dados? Em um primeiro momento, em nossa mente
vem a ideia de um minerador de pedras preciosas em busca de ouro,
diamante ou outros minérios raros. Na verdade, essa analogia não foge muito
do conceito que iremos trabalhar. Quando falamos sobre o extenso volume
de dados, por meio de determinadas ferramentas e técnicas, buscamos
revelar estruturas que possam guiar nossas decisões dentro de uma
organização. Nesse sentido, objetivou-se essa disciplina, agilizar o processo de
decisão dentro da organização.
Dados em grande escala não são sinônimos de tomada de decisão correta.
Segundo Silveira, Marcolin e Freitas (2015), um fenômeno de destaque é o
crescente aumento de fontes de informações exógenas às empresas,
captadas por redes sociais, sensores em diversos produtos ou registros de
tráfego de internet, entre outros, muitas vezes, caracterizado pela expressão
Big Data. O termo surgiu em meados de 2010, segundo Chen e Zhang (2014),
para designar a tendência tecnológica de gerar grandes quantidades de
dados, de diferentes origens e formatos.
Apresentação da Disciplina,Apresentação da Disciplina,
De�nição de Mineração de DadosDe�nição de Mineração de Dados
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 4/33
Podemos classi�car os dados em três categorias, considerando sua origem.
Segundo Galdino (2016, p. 3), “dados estruturados são pertencentes a um
SGBD relacional bem organizado [...], dados semiestruturados, que são
irregulares ou incompletos não necessariamente de acordo com um esquema
padronizado.” O desa�o está nos dados não estruturados ou
semiestruturados, pois eles são de difícil entendimento pelas pessoas, ou
seja, só podem ser interpretados de forma e�ciente por máquinas. A intenção
é conseguir analisar os dados independente da classi�cação e transformá-los
em informações compreensíveis que tragam valor para a organização. Em
meio a esse dinamismo tecnológico em que nos deparamos nos dias de hoje,
o problema não é mais o armazenamento desses dados, mas a manipulação
de algoritmos inteligentes que nada mais são do que sequências de
instruções que nos levam a uma conclusão sobre qual ação devemos realizar.
A cada dia surgem novas ferramentas, trazendo um ganho signi�cativo no
desempenho do tratamento de dados, especialmente, se tratando do volume
e tempo de processamento das informações (GOLDMAN et al., 2012).
Esse volume de informações mostra a necessidade de fazê-las útil para que
possa auxiliar as empresas e organizações na tomada de decisão, gerando
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 5/33
resultados positivos ao negócio. Para que isso ocorra, é necessário que esses
dados sejam catalogados e organizados de forma que possamos transformar
os dados gerados em conteúdos gerem valor. Segundo Laudon e Laudon
(2011), um dos motivos para as empresas investirem em sistemas e
tecnologias da informação está no fato de que eles se tornaram
imprescindíveis à prática dos negócios. Observando o ambiente atual,
chegamos a alguns empasses, como: “É possível trabalhar com todos esses
dados?” e “Como estudar e compreender de maneira e�ciente todo esse
volume de informações disponíveis em benefício das instituições?”
Para atender a este novo contexto, surgiu uma nova área denominada
Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in
Databases – KDD), que vem despertando grande interesse junto às
comunidades cientí�ca e industrial (GOLDSCHMIDT; PASSOS, 2005). Para
termos uma compreensão ampla do assunto, precisamos separar
hierarquicamente conhecimento, informação e dados, conforme Figura 1.1.
Segundo Rezende (2015), dados são registros soltos, aleatórios, sem qualquer
análise. Conforme a Figura 1.1, podemos ver que os dados constituem a base
para a formação do conhecimento. A informação é gerada a partir da
organização desses dados, assim, disponíveis à assimilação crítica para a
produção do conhecimento. Por �m, o conhecimento é a informação
organizada e transformada em experiência, ou seja, resultados positivos ou
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 6/33
negativos que irão facilitar a tomada de decisão. Nesse contexto,
compreendemos que os dados em conjunto formam informações coerentes
de fatos, situações e movimentações, gerando o conhecimento a partir da
junção dessas informações, daquilo que foi positivo ou negativa para a
organização.
A descoberta de conhecimento em Base de Dados (KDD) foi formalizado em
1989, e em 1996 um grupo de pesquisadores a de�niu de forma popular
(FAYYAD et al., 1996). Essa base consiste em algumas etapas operacionais que
são representadas pela Figura 1.2.
Re�itareflita
O Big Data vem com a ideia de um grande volume de dados descoordenados e sem
uma estrutura prede�nida. Nesse sentido, poucas empresas utilizam esses dados na
tomada de decisão a nível comercial, como você acha que poderia ser o
comportamento das empresas, caso houvesse uma ferramenta que classi�casse os
itens da web de forma que pudéssemos inseri-los na mineração de dados, como seria a
tomada de decisão? Faria alguma diferença?
Fonte: Elaborado pelo autor.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 7/33
O pré-processamento é a captação dos dados que serão utilizados no
processo, captados, tratados e organizados para serem utilizados nos
algoritmos de mineração de dados. Durante a mineração de dados, as
informações são efetivamente transformadas em conhecimento que serão
utilizados no contexto abordado. Já no pós-processamento é realizado o
tratamento do conhecimento. Essa etapa nem sempre é utilizada, seu
objetivo principal consiste em organizar a utilidade de todo o conhecimento
adquirido na mineração de dados.
O KDD é composto por várias etapas que são de�nidas como não triviais,
interativas e iterativas. A etapa de�nida como não trivial consiste em um
alerta ao nível de complexidade presenteno processo, determinando o grau
de relevância do contexto em que os dados se encontram. No iterativo
sugere a possibilidade de repetições integrais ou parciais do processo,
buscando dados satisfatórios pelo re�namento ocasionado na repetição da
ação. O interativo considera a atuação do homem como necessária e
responsável por controlar o processo durante a execução. Essas etapas
permitem a identi�cação de alguns padrões que são compreensíveis, válidos,
novos e potencialmente úteis, vindas de uma base de dados de grande
volume.
O conhecimento é gerado por meio de modelos que devem ser considerados
a organização como compreensível e de possível interpretação pelo homem.
A expressão pode ser válida quando o conhecimento é considerado
adequado ao contexto da aplicação de KDD, o padrão é considerado novo
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 8/33
quando apresenta novos conhecimentos que podem ser adicionados ao
contexto da aplicação. E, por �m, o conhecimento é útil quando pode ser
aplicado, proporcionando benefícios ao a descoberta de conhecimento na
base de dados. Na próxima seção, colocaremos esse conhecimento em
prática por um modelo que podemos utilizar a mineração de dados.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 9/33
atividade
Atividade
Um fenômeno de destaque é o crescente aumento de fontes de informações
exógenas às empresas, captadas por redes sociais, sensores em diversos produtos
ou registros de tráfego de internet, entre outros, muitas vezes, caracterizado pela
expressão Big Data (SILVEIRA et al., 2015). Considerando as etapas operacionais de
KDD, assinale a alternativa correta.
a) O KDD consiste em 3 etapas, pré-processamento, mineração de dados e pós-processamento.
b) O pós-processamento é a etapa responsável pelo tratamento do conhecimento adquirido no
processo.
c) A mineração de dados é a etapa responsável pela catalogação dos dados, realizando a
preparação deles.
d) O pré-processamento é responsável por preparar a informação que se tornará conhecimento.
e) O conhecimento é gerado pelos algoritmos, que possibilitará a tomada de decisão final.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 10/33
Para �ns ilustrativos, vamos considerar um restaurante, conforme
demonstrado na Figura 1.3, em que cada ponto no plano cartesiano
representa uma movimentação �nanceira durante o primeiro e segundo
semestre do ano. O conjunto de pontos forma uma base de dados hipotética
da movimentação referente ao ano anterior do ano de exercício atual. Para
compreensão do problema e entendimento da importância da mineração de
dados em uma empresa, foram utilizados apenas três fatores de referência:
período, saldo �nanceiro e movimentações realizadas. O período foi dividido
em 1º e 2º semestre, assim como o saldo formam os eixos do plano
cartesiano. A movimentação da empresa está dividido em duas classes: X =
gastos (despesas) e O = vendas (receitas).
Exemplos de Aplicações deExemplos de Aplicações de
Mineração de DadosMineração de Dados
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 11/33
De forma geral nosso problema envolve n elementos que estão sendo
representados em um espaço n-dimensional. Neste modelo, é importante para
a empresa distribuir suas receitas e despesas de forma uniforme para que o
saldo se mantenha positivo durante o ano. Há várias formas de separar as
despesas durante o ano, considerando que é possível planejar seus
vencimentos de forma oposta as receitas que são aleatórias ao período,
sendo necessário a criação de ações que possam estimular seu crescimento.
A intenção é organizar as despesas para o próximo ano com base nos dados
apresentados em períodos anteriores e, com isso, podemos gerar uma regra
referente ao tempo. Podemos observar que as receitas são maiores no
segundo semestre, portanto, podemos de�nir que:
SE (receita > despesa) ENTÃO
PERÍODO = distribuir despesa
SENÃO
PERÍODO = criar métodos para gerar receita
A intenção é de se de�nir uma regra que seja compreensível pelo homem e
possa ser trabalhada de forma inteligível. Embora o ideal seja uma
uniformidade entre receitas e despesas no período, e sempre que possível
uma sobreposição de receitas, percebemos que na prática não foi o que
aconteceu com o ano tomado como base para nosso estudo. Podemos
observar que no 1º semestre do ano tivemos despesas acima das receitas
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 12/33
geradas, e no 2º semestre ocorre o inverso, sendo as receitas muito acima das
despesas.
Para que possamos avaliar a regra adotada, precisamos veri�car o seu nível de
con�ança ou precisão na apuração dos dados. Com isso, é possível notar a
existência de casos que satisfazem a regra assim como sua negativa apurada
na parte principal, não existem outros fatores que fujam dessas duas
hipóteses. Então, podemos ressaltar que a nossa regra é linear obedecendo
duas situações distintas, porém o problema em si não é linearmente
separável em nosso diagrama, conforme demonstrado na Figura 1.4, ou seja,
não podem ser separados por uma reta em duas regiões distintas e
homogêneas.
A descoberta de conhecimento efetuado nessa base de dados é
multidisciplinar, nesse sentido, precisamos abordar conceitos que envolvem:
Estatística �nanceira.
Inteligência computacional.
Reconhecimento de padrões uniformes de dados.
Banco de dados.
Com o propósito de melhor situar a área de KDD, a Figura 1.5 apresenta a
taxonomia das atividades na área da Descoberta de Conhecimento em Base
de Dados (GOLDSCHIMIDT; PASSOS, 2005). O qual aborda, principalmente, a
diversidade de ações utilizadas pelo KDD.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 13/33
A estrutura das ações tomadas pelo KDD é dividida em três áreas, conforme
demonstrado na Figura 1.5, que são o desenvolvimento tecnológico,
execução, aplicação dos resultados, segundo Goldshmidt e Passos (2005). Veja
no infográ�co a seguir as de�nições.
Desenvolvimento
Tecnológico
Aplicação dos
resultados
Execução
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 14/33
De forma geral, podemos analisar que a fase de Descoberta Conhecimento
em uma Base de Dados pode ser aplicada em qualquer ramo de atividade e
que a única necessidade existente são dados históricos que podem se tornar
a base para formação de uma estrutura que permita a mineração dos dados,
permitindo uma tomada de decisão consciente. A seguir, analisaremos cada
vez de forma mais técnica a abordagem realizada nesses dados.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 15/33
atividade
Atividade
O nível de precisão ou con�ança dos dados é de extrema importância para que
possamos compreender a melhor forma possível de criarmos conhecimento. Por
exemplo, em nosso restaurante vemos que os dados estão linearmente
organizados, de forma que a movimentação gera uma receita ou uma despesa,
porém, não é linearmente distribuída em nosso plano, sendo que no primeiro
semestre é evidente a existência despesas bem acima das receitas. Assinale a
alternativa correta.
a) Para que a geração de conhecimento seja adequada é preciso que os dados estejam
linearmente organizados e distribuídos.
b) Os dados precisam ser de origem estruturada tabularmente, para que possam ser preparados
para a mineração dos dados.
c) A mineração de dados pode ocorrer independentedo ramo de atividade da empresa, desde
que seja possível um levantamento de dados coerente para análise.
d) Não é necessário se preocupar se houver desequilíbrio nos dados, pois eles serão equilibrados
na fase de mineração de dados.
e) Obrigatoriamente, os dados precisam estar linearmente estruturados, tendo os valores como
verdadeiro ou falso para que a mineração dos dados possa seja possível.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 16/33
Conforme a primeira parte da unidade, o KDD se divide em três etapas que
precisam se desenvolver para formação do conhecimento que, por sua vez,
será importante na geração de um resultado consistente para a organização.
De�nimos a fases de pré-processamento, mineração dos dados e pós-
processamento que será tratado nos próximos tópicos, sendo que ele nem
sempre é aplicado e envolve a análise do conhecimento gerado. Para uma
melhor compreensão utilizaremos como exemplo o restaurante abordado no
início da unidade.
Pré-processamento
Essa é a etapa mais importante a ser abordada, pois em todas as fases
posteriores, o resultado �nal estão totalmente dependentes no tratamento
dos dados realizado inicialmente. A descoberta do conhecimento por meio
das bases de dados é o processo que precisa identi�car aquilo que não é
trivial, que são padrões válidos a serem considerados e, potencialmente,
úteis. Nessa etapa são de�nidas as perguntas e decisões que irão servir de
guia. Nesse sentido, é importante manter o foco na estratégia utilizada, na
Fases da Mineração de Dados eFases da Mineração de Dados e
Desenvolvimento de Produtos deDesenvolvimento de Produtos de
MineraçãoMineração
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 17/33
busca de determinado tipo de informação, assim como adaptação à realidade
aplicada em cada grupo de usuários que analisará os resultados.
Esta etapa também é conhecida como Preparação de Dados, e por
envolver uma série de atividades até a sua �nalização, que envolve
inclusive o estudo de processos, acaba se tornando a etapa que exige
maior esforço dentro de um projeto de extração de conhecimento.
(SHIBA, 2008, p. 36)
Segundo Goldschmidt e Passos (2005), o problema encontrado no pré-
processamento é caracterizado por três elementos: o conjunto de dados, o
especialista do domínio da aplicação e objetivos da aplicação.
O conjunto de dados, geralmente, não são originados de uma mesma base de
dados, eles podem ser relacionados a diferentes áreas da empresa e até a
�liais. Esses dados precisam ser reunidos e integrados para uma análise
detalhada em uma estrutura tabular bidimensional. Nesse sentido, é
importante destacar que o KDD não exige que os dados estejam reunidos em
um Data Warehouse (veja essa expressão no item Saiba Mais). Porém, é
essencial que os dados sejam reunidos em um ambiente desse tipo para
facilitarem a catalogação. Utilizando os dados do restaurante, realizamos a
estruturação em uma tabela modelo, conforme o Quadro 1.1 a seguir, que
apresenta os dados relevantes captados no pré-processamento.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 18/33
Atributo Tipo de Dado Descrição do domínio
Data_lancto Date
Data de execução da
movimentação
Tipo Char(1)
Tipo de conta
R - Receita
D - Despesa
Origem Char(1)
Origem da movimentação
V - Venda à Vista
P - Venda a prazo
D - Despesa
Valor Real Valor da movimentação
Data_�nal Date
Data vencimento da conta
DD/MM/AAAA
Pessoa_empresa Varchar(100)
Nome da pessoa ou
empresa envolvido na
movimentação
Plano_contas Char(1) Plano de contas envolvendo
movimentação
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 19/33
Quadro 1.1 - Dados pré-processados estruturalmente
Fonte: Elaborado pelo autor.
Em conjunto com as informações geradas na estrutura do Quadro 1.1, a
função gerada através dos dados selecionados em uma única estrutura
tabular, recebem dois enfoques distintos: a seleção dos atributos, ou redução
de dados verticais; e a seleção de registros, ou redução de dados horizontais.
A redução de dados verticais consiste em uma análise mais ampla dos
campos selecionados. Segundo Goldschmidt e Passos (2005), a redução de
dados vertical, também denominada redução de dimensão, é implementada
pela eliminação ou pela substituição dos atributos de um conjunto de dados.
Dessa forma, a intenção é diminuir ao máximo os atributos sem perder a
informação original.
A redução de dados horizontais abrange o conjunto de dados coletados para
geração da informação. Para isso, podemos fazer uma abordagem em um
conjunto de dados aleatórios de um determinado período de amostragem,
segmentação e agregação de informações no banco de dados. A eliminação
de determinados casos para enxugar e permanecer mais focado na
informação que precisa ser gerada.
C - Venda consumidor �nal
F - Gasto fornecedor
D - Despesas diversas
U - custo funcionários
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 20/33
Os especialistas no domínio da aplicação são formados por pessoas ou
grupos que dominam o assunto e conhecem o ambiente em que o KDD fará a
transformação dos dados em conhecimento. As informações geradas por
essas pessoas são fundamentais no processo de avaliação dos resultados
obtidos e na informação formada pela estruturação dos dados.
Os objetivos da aplicação são as características esperadas no modelo de
conhecimento gerado no �nal do processo. De forma geral, é um espelho do
lugar que esperamos chegar ao �nal do KDD, a precisão mínima que a base
de conhecimento gerada precisa ter. No exemplo do restaurante, podemos
de�nir que as despesas não podem comprometer mais de 30% do saldo
existente em caixa, isso é a previsão mínima adotada na hora de distribuir as
despesas da empresa de forma aceitável. Para traçar esse tipo de objetivo,
esperamos a posição dos especialistas no assunto abordado, porém eles não
são absolutos do início ao �m do processo. Os objetivos podem ser re�nados
ao longo do processo, podem ser um ou N objetivos.
Mineração dos Dados
Devemos analisar os recursos envolvidos no processo de mineração dos
dados. Temos o especialista em KDD, ou seja, técnico no assunto e não
saiba mais
Saiba mais
O que é Data Warehouse?
Data Warehouse é a referência que fazemos a um depósito de dados orientado
por assunto, integrado e relacionado ao tempo de forma não volátil. Sua principal
função está em auxiliar o apoio à decisão gerencial.
Fonte: Elaborado pelo autor.
ACESSAR
https://www.cetax.com.br/data-warehouse/
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 21/33
especialista na área do problema. Sua obrigação no processo consiste em
identi�car os problemas apontados e o conhecimento prévio para sua análise,
validando quais ações devem ser tomadas e quais ferramentas serão
melhores empregadas no processo, assim como validar os resultados obtidos.
Nessa etapa, devem ser aplicados os algoritmos da mineração dos dados, que
tem como função gerar modelos de conhecimento que dependem
diretamente dos algoritmos de mineração que serão utilizados.
Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é
determinada pelo conjunto de dados utilizados para a avaliação. Na Figura
1.6, podemos observar a gestão �nanceira do restaurante, contendo no plano
cartesiano os eixos que consistem no tempo e no saldo, cada ponto
representa uma movimentação �nanceira.
Entretanto, é necessário que os processos guiados pelo KDD gerem tarefas
que levarão os especialistas do domínio da aplicação a criarem o modelo de
conhecimentoque podem trazer diferentes tipos de padrões a serem
analisados. Considere que o restaurante deseja fazer uma expansão e, para
isso, terá um aumento de 10% nos gastos. Ele quer aplicar uma melhor
estratégia para que os lucros acompanhem esse aumento e o saldo ainda
consiga se manter positivo. Essa intenção nos leva a classi�cação das
movimentações �nanceiras que veremos nas unidades posteriores.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 22/33
atividade
Atividade
Os dados coletados precisam ser distribuídos em uma estrutura de dados tabular e
organizados de forma �nita, para que possa facilitar a geração de informações na
base de conhecimento. Levando em consideração essa informação, assinale a
alternativa correta.
a) Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é determinada pelo
conjunto de dados utilizados para a avaliação.
b) Para a geração do modelo de conhecimento, inicialmente, não é necessária a utilização de
algoritmos de mineração de dados.
c) O especialista em KDD é necessário desde a fase de preparação dos dados até a mineração
de dados, acompanhando o especialista na área.
d) O especialista da área é desnecessário a partir da fase de mineração de dados, sendo
importante somente após a mineração de dados ter ocorrido para avaliação dos resultados.
e) O KDD exige que os dados estejam reunidos em um Data Warehouse.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 23/33
Essa é a fase do pós-processamento, em que o modelo de conhecimento é
analisado e interpretado pelo especialista em KDD e o especialista do
problema. Vamos analisar algumas operações importantes para a de�nição
de regras e aprendizado por meio de redes neurais e algoritmos genéticos.
Modelo de Conhecimento Simpli�icado
Muitas vezes, o modelo de conhecimento gerado na mineração de dados,
devido ao volume de informações que acarreta, pode se tornar complexo
para um direcionamento pelos especialistas. Com isso, é necessária uma
simpli�cação do conhecimento para uma melhor análise.
Para melhor compreendermos, vamos analisar a seguinte regra X -> Y, onde
as condições são lógicas. Para isso, temos como regras:
Precisão da regra: é de�nida pelo percentual de registros que
satisfazem ao antecedente e posteriormente ao consequente à regra.
Abordagens de Mineração deAbordagens de Mineração de
Dados - De�nição de Regras ouDados - De�nição de Regras ou
AprendizagemAprendizagem
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 24/33
Abrangência da regra: é de�nida pelo percentual que satisfaz ao
consequente e posteriormente ao antecedente à regra.
O especialista de KDD deve estabelecer limites de precisão e abrangência, de
forma que ao enxugar do modelo de conhecimento gerado, eliminando todas
as regras que não satisfaçam os limites estabelecidos.
Regras de Associação
É a junção de objetos que tenham características e tendências semelhantes,
gerando redes interconectadas de conhecimento adquirido. Segundo Côrtez
et al. (2002), o banco de dados é visto como uma coleção de transação, cada
uma envolvendo um conjunto de itens. Utilizando esse modelo simpli�camos
a geração de conhecimento para o auxílio na tomada de decisão.
Redes Neurais
Consiste na aplicação digital das redes biológicas de neurônios, ou seja,
utilizam a mesma regra. Denominados como RN (redes neurais),
implementam detecções so�sticadas de padrões e algoritmos de aprendizado
de máquina, para auxiliar a compreensão de grandes bases de dados.
Uma rede neural é um processador maciçamente paralelamente
distribuído constituído de unidades de processamento simples, que
têm a propensão natural para armazenar conhecimento
experimental e torná-lo disponível para uso. Assemelhando-se ao
cérebro humano. (HAYKIN, 2001, p. 28)
O conhecimento é assimilado pela rede a partir da formação do
conhecimento, de forma a compreender esse conteúdo como aprendizado. E
as conexões geradas por meio dos pesos sinápticos adquiridos, armazena o
conhecimento. A Figura 1.7 mostra o modelo hipotético de uma rede neural e
suas camadas intermediárias, que demonstram o nível de conhecimento
adquirido.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 25/33
Algoritmos Genéticos
Algoritmos genéticos são formados por algoritmos baseados na seleção
natural e genética para otimização na busca por resultados que auxiliem a
tomada de decisão de uma organização. Geralmente, considerando que uma
busca ocorre de forma sequencial até conseguir alcançar o resultado
esperado. Os algoritmos genéticos realizam a busca de possíveis soluções de
forma simultânea em N bases de informação. Segundo Côrtez, Porcaro e
Lifschitz (2002), algoritmos genéticos são aplicados com sucesso em campos
diversi�cados como análise de imagens, escalonamento e projetos de
engenharia.
Sua principal função é resolver os problemas, assim como agrupá-los. Sua
capacidade de trabalhar de forma paralela tem sido uma arma fantástica na
mineração de dados, entretanto, isso exige uma demanda computacional
considerável em sua utilização.
Atualmente, várias outras técnicas estão à disposição da mineração de dados,
como a lógica fuzzy, classi�cação bayesiana, entre outras que tem seu
emprego conforme a necessidade da organização. Portanto, cabe a análise da
situação de forma especí�ca para compreender qual melhor técnica para a
ocasião.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 26/33
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 27/33
atividade
Atividade
Para que a mineração de dados seja mais efetiva com o passar do tempo, seu
funcionamento é de extrema importância, o sistema utiliza o aprendizado por
experiência, baseado no modelo de experiência gerado. Considerando essa
a�rmação, assinale a alternativa correta.
a) O aprendizado de máquina pode ser gerado utilizando algoritmos envolvidos em redes
neurais ou algoritmos genéticos.
b) Redes neurais se baseiam na linha evolutiva para formação dos algoritmos de aprendizado de
máquina.
c) Algoritmos genéticos se baseiam na estrutura de evolução da rede biológica neurológica.
d) Algoritmos genéticos trabalham para facilitar o aprendizado de máquina, porém diferente das
redes neurais não conseguem realizar buscas de forma paralela.
e) A principal função dos algoritmos genéticos é resolver os problemas paralelamente de forma
ágil, independente do volume de informações.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 28/33
indicações
Material Complementar
LIVRO
Big Data: O futuro dos dados e aplicações
Editora: Saraiva
Autor: Felipe Nery Rodrigues Machado
ISBN: 978-8536527000
Comentário: Este livro apresenta os principais
fundamentos de Big Data, seu histórico e sua utilização.
Explica as diferenças existentes entre ele e Business
Intelligence (BI), e ainda, o que é Big Data Analytics e
Análise Preditiva.
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 29/33
FILME
The beauty of data visualization - David
McCandless
Ano: 2012
Comentário: David McCandless transforma conjuntos
de dados complexos, como gastos militares em todo o
mundo, novidades da mídia e atualizações de status do
Facebook, em belos e simples diagramas que provocam
padrões e conexões invisíveis. Ele sugere que um bom
design é a melhor maneira de navegar pelo excesso de
informações, e pode mudar a maneira como vemos o
mundo.
TR A I L E R
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 30/33
conclusão
Conclusão
Nesta unidade, vimos que não existe uma forma especí�ca de aplicação do
conhecimento adquirido ao longo da unidade, não possui uma de�nição
exata, muito menos qual seria a melhor técnica de mineração de dados ou
descoberta de conhecimento a ser utilizada. Nesse sentido, podemos utilizar
de árvores, regras, tabelas estruturadas ou semiestruturadas, cubos de
dados, entre outros elementos possíveis. O que precisamos entender é qual o
resultado esperado? Quais dados temos em mão e qual a maneira que eles se
encontram distribuídos? Dessa maneira, conseguimos identi�car a técnica
utilizada e quais algoritmos melhor se aplicam para alcançarmos os
resultados esperados.
referências
Referências Bibliográ�cas
CÔRTEZ, S. C.; PORCARO, R. M.; LIFSCHITZ, S. Mineração de dados:
funcionalidades, técnicas e abordagens. PUC Rio Inf., 2002.
COMSTOR, C. Fatos interessantes sobre o Big Data. Canal do Comstor, 2019.
Disponível em: https://blogbrasil.comstor.com/fatos-interessantes-sobre-o-
big-data. Acesso em: 6 dez. 2019.
https://blogbrasil.comstor.com/fatos-interessantes-sobre-o-big-data
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 31/33
CHEN, C. P.; ZHANG, C. Y. Data-intensive applications, challenges, techniques
and technologies: A survey on Big Data. Information Sciences, v. 275, p. 314-
347, 10 ago. 2014.
DAVENPORT, T. H.; BARTH, P.; BEAN, R. How “big data” is di�erent. MIT: Sloan
Management Review. MIT Sloan Management Review, v. 54, n. 1, 2012.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to
knowledge discovery: an overview. Menlo Park: AAAI Press, 1996.
GALDINO, N. Big Data: Ferramentas e Aplicabilidade. In: SIMPÓSIO DE
EXCELÊNCIA EM GESTÃO E TECNOLOGIA. 2016. Disponível em:
https://www.aedb.br/seget/arquivos/artigos16/472427.pdf. Acesso em: 10
dez. 2019.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. São Paulo:
Elsevier Editora Ltda., 2005.
GOLDMAN, A.; KON, F.; JUNIOR, F. P.; POLATO, I.; DE FÁTIMA PEREIRA, R.
Apache Hadoop: Conceitos teóricos e práticos, evolução e novas
possibilidades. In: JORNADAS DE ATUALIZAÇÕES E INFORMÁTICA, 31., 2012.
Anais… Maceió: SBC, 2012. Disponível em: https://bit.ly/39aMzW3. Acesso em:
1 dez. 2019.
HAYKIN, S. Redes Neurais: princípios e prática. 2. ed. Porto Alegre: Editora
Bookman, 2001.
REZENDE, E. Dados, informação e conhecimento. O que são? ER Consultoria,
2015. Disponível em: http://eliana-rezende.com.br/dados-informacao-e-
conhecimento-o-que-sao/. Acesso em: 6 dez. 2019.
SHIBA, S. K.; Modelagem de processo de extração de conhecimento em
banco de dados para sistemas de suporte à decisão. Dissertação
(Mestrado) - Escola Politécnica da Universidade de São Paulo. São Paulo. 2008.
Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-
02102008-173336/pt-br.php. Acesso em: 21 jan. 2020.
https://www.aedb.br/seget/arquivos/artigos16/472427.pdf
http://www2.sbc.org.br/csbc2012/anais_csbc/eventos/jai/artigos/JAI%20-%20Cap%203%20Apache%20Hadoop%20conceitos%20teoricos%20e%20praticos,%20evolucao%20e%20novas%20possibilidades.pdf
http://eliana-rezende.com.br/dados-informacao-e-conhecimento-o-que-sao/
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02102008-173336/pt-br.php
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 32/33
SILVEIRA, M.; MARCOLIN, C. B.; FREITAS, H. M. R. Big Data e seu uso
corporativo: Uma revisão literária. In: SIMPÓSIO INTERNACIONAL DE GESTÃO
DE PROJETOS, INOVAÇÃO E SUSTENTABILIDADE, 4., 2015. Anais… São Paulo:
SIGEP, 2015. Disponível em: https://singep.org.br/4singep/resultado/245.pdf.
Acesso em: 25 nov. 2019.
LAUDON, K.; LAUDON, J. Sistemas de informações gerenciais. 9. ed. São
Paulo: Pearson Education do Brasil, 2011.
THURAISINGHAM, B. Data Mining: technologies, techniques, tools and trends.
Washington: CRCPress, 1999.
https://singep.org.br/4singep/resultado/245.pdf
22/04/2021 Ead.br
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 33/33