Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 1/36
Introdução
Olá, estudante! É com entusiasmo que convido você para a leitura desta unidade. Por meio da
Inteligência Arti�cial (IA), uma máquina pode aprender de diversas formas, por indução ou
dedução, por hábito ou conceito, de forma conexionista, emergente ou probabilística. A maneira
como ela pode resolver os problemas do mundo real, no entanto, em termos de decisões, ocorre
MACHINE LEARNINGMACHINE LEARNING
FUNDAMENTOS DA MACHINEFUNDAMENTOS DA MACHINE
LEARNINGLEARNING
Au to r : M e . J a c k s o n Lu i s S c h i r i g a t t i
R ev i s o r : R o d r i g o R a m o s N o g u e i ra
Tempo de leitura do conteúdo estimado em 1 hora e 34 minutos.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 2/36
mediante o aprendizado simbólico, a partir de técnicas de aprendizagem por buscas heurísticas, por
reconhecimento de padrões e relações.
Entretanto, caro(a) estudante, como é possível obter a inteligência necessária para uma tomada de
decisão e�ciente? Para entender esse conceito, nesta unidade, direcionaremos seus estudos para o
entendimento da aquisição de inteligência a partir de bases de dados transacionais,
multidimensionais e do big data. Ademais, apresentaremos os fundamentos de machine learning,
big data, a organização de dados para análise e a mensuração da performance.
Boa leitura.
Prezado(a) estudante, para compreender o que é Aprendizado Máquina (AM), machine learning , e
big data , é necessário entender que a de�nição exata de Inteligência Arti�cial (IA) é discutível, mas,
literalmente, a palavra “arti�cial” corresponde a tudo que é feito pelo homem e o termo “inteligência”
é a capacidade de compreender, aprender e resolver problemas. A Figura 1.1 ilustra uma aplicação
da IA, mediante a robótica e o AM, em tarefas de montagem e detecção de defeitos em peças.
Introdução a Big Data e
Machine Learning
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 3/36
Figura 1.1 - Robô automatizando e aprendendo por meio da detecção de defeitos
Fonte: wklzzz / 123RF.
#PraCegoVer : a imagem representa um braço de robô com garra, que automatiza uma tarefa em uma
indústria 4.0. Ao mesmo tempo que automatiza a tarefa, aprende com a detecção de defeitos nas peças.
Para Luger (2013, p. 19), “a inteligência arti�cial pode ser de�nida como o ramo da ciência da
computação que se ocupa da automação do comportamento inteligente”. A seguir, discutiremos o
que signi�ca a automação do comportamento inteligente.
O comportamento inteligente
A inteligência já não é mais teoria, mas é uma aplicação para benefício humano. Segundo Faceli et
al . (2021), há alguns anos, a área de IA era considerada uma parte da ciência da computação
teórica, com aplicações em pequenos problemas práticos curiosos, desa�adores, mas de pouco
valor prático, e resolvidos pela codi�cação da computação. Essa codi�cação refere-se aos
algoritmos ou pseudocódigos que especi�cam, passo a passo, como o problema pode ser
resolvido.
A ideia básica de programar máquinas para executar tarefas é que elas podem resolver problemas
que nós humanos não conseguiríamos ou demoraríamos muito tempo para resolver. Exemplos
práticos de solução de problemas são: resolução de cálculos com grande quantidade de dados e
informações; aplicações de modelos matemáticos e estatísticos; outras tarefas que estariam além
da nossa capacidade de processamento e memória. As máquinas realizam bem essas tarefas
automatizadas e programadas pelos humanos, mas a questão é: as máquinas podem aprender
igual aos humanos? A resposta é sim.
Para Faceli et al . (2021), a capacidade de aprendizado é essencial para o comportamento
inteligente, que está relacionado às tarefas de aprendizagem como: memorização, observação,
exploração de situações para o aprendizado de fatos, aperfeiçoamento das habilidades
motoras/cognitivas, por meio de práticas, e organização do conhecimento em representações
adequadas.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 4/36
Machine learning
A capacidade da inteligência humana é aprender, e todo progresso humano é o resultado dos
esforços anteriores e da evolução do nosso entendimento. A aprendizagem automática das
máquinas, também denominada Aprendizado Máquina (AM), ou machine learning , é um ramo da
ciência da computação no qual, há décadas, os cientistas estão fazendo as máquinas aprenderem.
O avanço da computação, em termos de processamento e memória e por meio dos algoritmos de
aprendizagem, contribuiu para a revolução da IA.
É importante salientar que o campo da aprendizagem de máquina estuda como construir
programas de computador que melhorem a experiência da máquina, de forma automática.
Atualmente, as máquinas já aprendem por meio dos sistemas inteligentes, e os robôs, em fábricas,
já são utilizados para automatizar diversas tarefas. Um exemplo dessa automação é a aplicação de
chatbots integrados à base de dados, caso em que máquinas e humanos conversam, de forma
natural, para a resolução de problemas, deixando os serviços mais ágeis.
A IA também pode ser utilizada em mecanismos de segurança que avaliam padrões de ataques em
bases de dados treinadas e cujos algoritmos aprendem com novos padrões, a partir de bases não
treinadas. A Figura 1.2 mostra um robô secretária, que realiza diversas tarefas em um escritório.
Hoje, uma realidade próxima.
Figura 1.2 - Robô secretária, um desenho que representava um futuro distante, hoje, é o presente
Fonte:  studiostoks / 123RF.
#PraCegoVer : a imagem representa um robô secretária realizando múltiplas tarefas. Em um balão de
conversa, o robô diz “Eu não sou robô!”, e, no outro, “Não é problema meu”.
Para Luger (2013), o aprendizado é importante para aplicações práticas de IA, e o aprendizado
acontece quando ocorrem mudanças em um sistema, o qual melhora quando a mesma tarefa for
realizada pela segunda vez, caso contrário, a máquina não aprendeu. Nesse sentido, o aprendizado
envolve a generalização a partir da experiência e, para uma generalização ideal, o desempenho deve
melhorar na repetição da mesma tarefa e em tarefas semelhantes do domínio, mediante um viés
indutivo.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 5/36
O aprendizado indutivo utiliza a generalização, a partir de um conjunto de exemplos. Neste estudo
de AM, apresentaremos quais são os métodos, os algoritmos e as técnicas que se baseiam no viés
indutivo, ou seja, na teoria da aprendizagem automática.
Para Bengfort e Kim (2016), o objetivo do AM é derivar modelos preditivos, a partir de dados atuais
e históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as
devidas melhorias, com uma excessiva quantidade de treinamento ou experiência. Tais resultados
e�cientes são alcançados pelos algoritmos de AM para domínios muito restritos, usando modelos
treinados a partir de um grande conjunto de dados.
Para Siegel (2017), os métodos de indução estão relacionados ao AM. Os métodos de modelagem
variam, mas todos enfrentam o mesmo problema, aprender o máximo possível. Portanto, o objetivo
do AM é a indução , ou seja, o raciocínio, que parte de fatos detalhados para princípios gerais (do
efeito para a causa). Por sua vez, a dedução é o raciocínio que parte do geral para o particular (ou
da causa para o efeito). Ademais, a dedução é direta e parte da aplicação direta de regras, e a
indução parte dos detalhes para generalizar e veri�car padrões que continuarão se aplicando em
situações ainda não vistas.
Visão geral dos problemas e dastécnicas
No AM, existem várias formas de modelar a aprendizagem e, como exposto anteriormente, uma
delas, a mais utilizada, é o viés indutivo com informações de uma base de dados do passado e do
presente. Essa abordagem, segundo Coppin (2017), compreende a maioria dos problemas de
aprendizado, sendo que a tarefa é aprender a classi�car entradas de acordo com um conjunto �nito,
ou até in�nito, de classi�cações.
Um sistema de aprendizado tem uma base de dados de treinamento que é classi�cada
manualmente. O sistema aprende quando, a partir dessa base de treinamento, a máquina tenta
classi�car esses mesmos dados e uma nova base ainda não observada. Nesse contexto, existem
algumas maneiras de aprender:
por hábito;
por conceito.
A palavra “hábito” está relacionada a uma tarefa ou a um comportamento permanentes, frequentes
ou costumeiros. Na IA, segundo Coppin (2017), a aprendizagem por hábitos está relacionada ao
treinamento que envolve a armazenagem de cada fragmento de dados e sua classi�cação. Depois,
veri�ca-se cada novo item de informação que está armazenado na memória. Se estiver na memória,
a classi�cação armazenada com aquele item será retornada. Nesse método, o aprendiz só
consegue classi�car os dados que já conhece e não há esforços para aproximar a função de
mapeamento.
Na prática, esses tipos de sistemas ou robôs efetuam tarefas automatizadas e aprendem de acordo
com novas informações armazenadas. Esses são os sistemas especialistas, que têm uma base de
fatos e dados (base de conhecimento). Sempre que a base é alimentada com novas informações,
que se relacionam de acordo com fatos e regras (conhecimento), um aprendizado é realizado.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 6/36
Dois elementos-chave são necessários para que os computadores aprendam: a base de
conhecimento e a inferência. A base de conhecimento é um conjunto de fatos e regras a respeito de
um objeto; o mecanismo de inferência é o algoritmo que realiza o acesso, a seleção e a
interpretação de um conjunto de regras do objeto. Por exemplo: Patrícia é esposa de Pedro,
consequentemente, há um novo fato: Pedro é marido de Patrícia. Uma regra seria: se X é esposa de
Y, então, Y é marido de X. Dessa forma, o computador pode aplicar a regra ao fato (BELMIRO, 2014).
Por seu turno, o aprendizado por conceitos envolve determinar um mapeamento, a partir de um
conjunto de variáveis de entrada, em um valor booleano (verdadeiro ou falso). Os métodos que
conseguem mapear, corretamente, um conjunto de dados de treinamento, por meio de
classi�cações, também conseguem mapear dados não observados anteriormente, ou seja,
conseguem realizar generalizações, a partir de um conjunto de dados de treinamento.
Ademais, os métodos de aprendizado do tipo conceito podem ser de diversos tipos, segundo Luger
(2013), e há uma divisão de métodos, técnicas e algoritmos de aprendizagem indutiva.
O Quadro 1.1 apresenta as características, os algoritmos, os métodos ou as técnicas de cada AM.
Fonte: sentavio / 123RF.
Associação de tarefas programadas em uma linha de produção
: o robô aprenderá de acordo com o que é ensinado em sua
base de conhecimento. Nenhum outro mapeamento é realizado
automaticamente. Uma diferença em relação a um algoritmo
que realiza um conjunto de tarefas pré-programadas e um
algoritmo que classi�ca dados mediante critérios (regras) e
fatos, gerando um resultado verdadeiro ou falso, é que o
primeiro algoritmo, que realiza tarefas pré-programadas, é um
conjunto de ações prede�nidas, e o segundo, algoritmo que
classi�ca dados, é um conjunto de informações programadas
que geram classi�cações e decisões.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 7/36
Aprendizado Características Algoritmos, métodos, técnicas
Aprendizado
simbólico
● Os algoritmos baseiam-se na
suposição de que a principal
in�uência sobre o comportamento
do programa é a sua base de
conhecimento do domínio
representada explicitamente.
● Baseada em sentenças em
linguagem simbólica.
● Algoritmos de espaços de
conceitos.
● Linguagem Lex: busca heurística.
● Algoritmo de eliminação de
candidatos.
● Algoritmo ID3 para a indução de
árvore de decisão.
Aprendizado
conexionista
● O conhecimento está implícito na
organização e na interação desses
neurônios.
● Neurônios arti�ciais conectados.
● As redes neurais não aprendem
adicionando representações a sua
base de conhecimento, em vez disso,
elas aprendem modi�cando a sua
estrutura global. Assim, as redes
neurais se adaptam às contingências
do mundo que habitam.
● Algoritmos de treinamento de
Perceptron.
● Aprendizado por retroprogramação.
● Aprendizado competitivo: o
vencedor leva tudo — rede de
Kohonen, redes Outstar e
contraprogramação, máquinas de
vetor de suporte.
● Aprendizado hebbiano por
coincidência.
● Redes de atratores ou “memórias”.
Aprendizado
genético e
emergente
● O aprendizado é realizado por meio
de adaptação por analogias
biológicas.
● Aprendizado inspirado na evolução,
mediante a modelagem de uma
população de indivíduos, por meio da
sobrevivência de seus membros
mais ajustados.
● Modelos de aprendizados social e
emergente.
● Algoritmo genético.
● Sistemas classi�cadores e
programação genética.
● Algoritmos de autômatos celulares
(o jogo da vida).
AM probabilístico ● Representações complexas do
mundo, por meio das ferramentas
probabilísticas.
● Os eventos podem ser
relacionados uns aos outros, de
forma probabilística.
● Modelos estocásticos e dinâmicos
de aprendizado: Modelo de Markov e
Redes Bayesianas.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 8/36
Quadro 1.1 - Aprendizado, características, algoritmos, métodos e técnicas do AM
Fonte: Adaptado de Luger (2013).
#PraCegoVer : o quadro apresenta as características de AM, sendo divido em três colunas e
cinco linhas. Na primeira linha, há os termos “Aprendizado”, “Características” e “Algoritmos,
métodos, técnicas”. Na segunda linha, há “Aprendizado simbólico” e, em seguida, sua
característica é descrita da seguinte forma: “os algoritmos estão baseados na suposição de
que a principal in�uência sobre o comportamento do programa seja a sua base de
conhecimento do domínio representada explicitamente“ e “baseada em sentenças em
linguagem simbólica”. Em seguida, há: “Algoritmos de espaços de conceitos”, “Linguagem Lex:
busca heurística”, “Algoritmo de eliminação de candidatos” e “Algoritmo ID3 para indução de
árvore de decisão”. Na terceira linha, há “aprendizado conexionista”, seguido por suas
características: “O conhecimento está implícito na organização e na interação desses
neurônios”, “Neurônios arti�ciais conectados” e “As redes neurais não aprendem adicionando
representações a sua base de conhecimento, em vez disso, elas aprendem modi�cando a sua
estrutura global. Assim, as redes neurais se adaptam às contingências do mundo que habitam”.
A seguir, ainda na terceira linha, há: “Algoritmos de treinamento de Perceptron”, “Aprendizado
por retroprogramação”, “Aprendizado competitivo (o vencedor leva tudo: rede de Kohonen,
redes Outstar e contraprogramação, máquinas de vetor de suporte)”, “Aprendizado hebbiano
por coincidência” e “Redes de atratores ou ‘memórias”’. Na quarta linha, há “Aprendizado
genético e emergente”, seguido das seguintes características: “O aprendizado é realizado por
meio de adaptação por analogias biológicas” e “Aprendizado inspirado na evolução, mediante a
modelagem de uma população de indivíduos, por meio da sobrevivência de seus membros
mais ajustados”. Em seguida, ainda na quarta linha, há: “Modelos de aprendizado social e
emergente”, “Algoritmo genético”, “Sistemas classi�cadores e programação genética” e
“Algoritmos de autômatos celulares (o jogo da vida)”. Na quinta e últimalinha, há “Aprendizado
conexionista”, seguido por suas características: “O conhecimento está implícito na organização
e na interação desses neurônios”, “Neurônios arti�ciais conectados” e “As redes neurais não
aprendem adicionando representações a sua base de conhecimento, em vez disso, elas
aprendem modi�cando a sua estrutura global. Assim, as redes neurais se adaptam às
contingências do mundo que habitam”.
Portanto, o AM computacional é a aplicação de técnicas computacionais na tentativa de encontrar
padrões explícitos e observáveis. Para Fawcett e Provost (2018), o AM preocupa-se com muitos
tipos de melhoria de desempenho, incluindo campos da robótica e da visão computacional, usando
o conhecimento aprendido para raciocinar e interagir com o ambiente.
Outro campo em que o AM atua é na mineração de dados , que faz parte da descoberta do
conhecimento, não atuando no ambiente propriamente dito, mas nas bases de dados, preparando e
analisando os dados e criando modelos de aprendizagem para as e�cientes tomadas de decisões.
● Os modelos estocásticos capturam
bem as mudanças do mundo.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpyXI… 9/36
A seguir, discutiremos como o AM é realizado no contexto da mineração de dados, ou seja, na
busca de grandes bases de informações, nas quais há o conhecimento de uma forma implícita ou
não compreendida.
Aprendizado máquina no contexto de mineração
de dados
Os computadores registram e processam dados que são organizados de acordo com
características idênticas. Esses dados são armazenados em uma base de dados relacional. Essa
organização é denominada tabelas de dados , sendo uma espécie de planilha de cálculo composta
por linhas e colunas. As decisões que são tomadas, e que nos envolvem (como cidadãos,
consumidores ou agentes de negócios) implicam que os dados e as informações devem estar
disponibilizadas para uso imediato ou posterior (resultado do armazenamento em dispositivos não
voláteis). Assim, há diversos tipos de bases de dados associados ao AM, conforme exposto a
seguir.
Os dados estruturados advêm de bases relacionais e transacionais das empresas, indústrias e
nuvens de dados, já armazenados, normalizados e de fáceis operação e análise. O gerenciamento
dessas informações, nesses dispositivos, é realizado pelo Sistema Gerenciador de Banco de Dados
Relacional (SGBD ou, em inglês, DBMS – Database Management Systems). Como exemplo de
manipulação relacional, é possível citar a realizada por meio da linguagem SQL (Standard Query
Language).
O MySQL é um típico banco de dados relacional. Nesse caso, o SGBD e o SQL trabalham no apoio
ao pré-processamento de dados, para que uma base apropriada seja utilizada e processada pelos
algoritmos de mineração. Outra forma estruturada de dados, utilizada para a mineração e o AM,
refere-se às planilhas eletrônicas, cuja extensão de arquivo é o .xls. Em uma planilha eletrônica, os
dados são dispostos em colunas e linhas de fácil manipulação para o pré-processamento de dados
para mineração.
No que se refere às bases de dados não estruturados e semiestruturados , outras formas de
armazenamento de dados podem ser mineradas, como os dados não estruturados, os quais são os
bancos de dados NoSQL (Not only Standard Query Language – não é um modelo SQL, não
relacional), de nuvens e páginas web , pois a maior quantidade de dados está sendo gerada de
forma não estruturada, ou seja, de forma não normalizada, advinda de redes sociais, logs , bases
nativas, documentos e sensores dos aplicativos de smartphones e de páginas web . Ademais, os
modelos não estruturados se afastam do modelo relacional e são considerados dados não
uniformes e orientados a documentos em que as informações não estão normalizadas e
organizadas mediante uma relação entre elas.
Além das bases não estruturadas, as semiestruturadas são muito utilizadas para a leitura dos
algoritmos de mineração e contemplam características mais organizadas do que os dados não
estruturados. Essa organização refere-se a como um dado é delimitado, por exemplo, mediante uma
separação por um delimitador, vírgula (,) ou ponto e vírgula (;). Um exemplo de   base
semiestruturada é um arquivo de texto CSV, no qual os dados são separados por delimitadores
ponto e vírgula (;). Outro exemplo é uma consulta JSON (JavaScript Object Notation), que é um
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 10/36
modelo para armazenamento simples e compacto, muito utilizado em aplicações web para acesso
a um grande volume de dados.
Além desses modelos de bases semiestruturadas, existem diversos outros, que se ajustam às
necessidades e aos fatores como velocidade de acesso, capacidade de compactação dos dados,
organização e facilidade de acesso. As bases semiestruturadas (ou denominadas de forma híbrida)
têm certa organização e precisam passar por tratamentos antes de serem utilizadas. Essas
variedades de estruturas de dados exigem complexas atividades de coleta, tratamento,
processamento e visualização, para que haja a tomada de decisão nas organizações. Assim, as
bases semiestruturadas e não estruturadas, advindas das mais diversas fontes, precisam de um
alto pré-processamento de dados, para que os algoritmos de mineração sejam executados.
No que se refere às bases de fatos e regras , é possível que, além de dados, os computadores
processem informações, mediante modelos matemáticos e seus algoritmos computacionais. As
máquinas recebem informações dos usuários e realizam o processamento necessário, o qual utiliza
uma “base de conhecimento” composta por “conhecimentos de regras” e “fatos” dos especialistas
da empresa; isso representa um conjunto de informações especí�cas de determinada área do
conhecimento.
O conhecimento está relacionado a um conjunto de informações, ao contexto que envolve a
percepção do ambiente, ao sistema em que foi composto e ao funcionamento do sistema. O
conhecimento é derivado de diversas fontes de informações que, comparadas, permitem que seja
apresentado um cenário de fenômenos e evoluções de uma situação. Esse conjunto de atividades é
denominado processo de construção de um Data Pipeline – Pipeline de Dados. As atividades mais
difíceis do processo Pipeline de Dados estão concentradas na primeira camada (camada de
ingestão de dados e coletora de dados).
Quanto à base big data , outro importante conceito utilizado na mineração de dados e no AM é a
ingestão de dados, sendo um conceito mais atualizado da aquisição de diversas fontes de dados,
dentro de um processo maior, denominado Pipeline de Dados, e de uma arquitetura big data , de
sistema de processamento em lote ( batch ), real time ou híbrido. A ingestão de dados é uma das
camadas mais complexas do processo Pipeline de Dados e tem como objetivo importar e mover os
dados estruturados, semiestruturados e não estruturados para uma localização em que eles
S A I B A M A I S
Existem sites de referência em base de dados de machine learning , como o Repositório de AM da UCI,
uma comunidade que contém 585 conjuntos de dados pesquisáveis. Para conhecer esse repositório,
acesse: https://archive.ics.uci.edu/ml/index.php
https://archive.ics.uci.edu/ml/index.php
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 11/36
possam ser acessados. A camada de ingestão de dados exige um conjunto de atividades de
planejamento, conexão, extração e transformação de dados.
Um big data utiliza, normalmente, uma ingestão de dados nos sistemas de armazenamento e,
segundo Pereira et al . (2019, p. 44), “a complexidade dessa operação depende muito do formato e
da qualidade das fontes de dados e da distância que os dados estão do estado desejado antes do
processamento”. Esses dados de um big data são de diversas fontes, são heterogêneos– formatos
variados imagens, vídeos, textos, áudios – e devem ser inseridos (extração e carregamento)
diretamente no big data , antes mesmo de seu processamento, para que, assim, sejam distribuídos
para os consumidores especí�cos.
Conforme expõem Castro e Ferrari (2016), a mineração de dados pode proporcionar uma
capacidade preditiva poderosa de dados. As funcionalidades da mineração de dados são usadas
para especi�car os tipos de informações nas tarefas descritivas e preditivas. As tarefas descritivas
caracterizam as propriedades gerais dos dados, e as preditivas fazem inferência a partir dos dados,
objetivando predições. Para entender melhor esse conceito, analise a Figura 1.3.
Figura 1.3 - Processo KDD (Knowledge Discovery in Databases) de descoberta do conhecimento
Fonte: Adaptada de Sharda, Delen e Turban (2019 apud Mariano et al., 2020).
#PraCegoVer : a �gura representa um diagrama do processo KDD (Knowledge Discovery in Databases) de
descoberta de conhecimento, a partir de uma fonte de dados brutos. É realizada uma seleção de dados,
gerando dados-alvo. Depois, é realizada a tarefa de limpeza de dados, gerando dados pré-processados.
Após, há uma tarefa de transformação de dados, gerando dados transformados. Em seguida, é executada
a mineração, propriamente dita, obtendo-se padrões. Depois, realiza-se a tarefa de externalização, gerando
conhecimento ( insight com aplicação prática).
As ferramentas de mineração de dados aplicam algoritmos a conjuntos de informações, para que
haja a descoberta de tendências e padrões (BALTZAN, PHILLIPS, 2012). Assim, a mineração de
dados faz parte de um processo de descoberta de conhecimento em bases de dados – Knowledge
Discovery in Databases (KDD). O processo KDD é constituído por tarefas de seleção, pré-
processamento, transformação, mineração e interpretação de dados. Assim, a  Figura. 1.3 ilustra um
processamento de descoberta de conhecimento em que são coletados dados de diversas bases
transacionais; a seguir, eles são selecionados, transformados e, mediante ferramentas e algoritmos,
estimativas, padrões ou agrupamentos são encontrados, para que haja uma e�ciente tomada de
decisão.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 12/36
Uma mineração não signi�ca aprendizagem, a qual é a próxima etapa possível da mineração de
dados. Para encontrar informações necessárias, pode ser su�ciente encontrar uma análise
descritiva ou um agrupamento, mas, para que haja a descoberta de conhecimento, em uma base de
dados, é necessário fazer o algoritmo aprender de acordo com o seu desempenho (classi�cando,
estimando ou associando dados).
Na etapa de análise descritiva , é possível realizar a sumarização e a compreensão dos objetos da
base e seus atributos, mediante distribuições de frequências, medidas de centro e variação,
medidas de posição relativa e associação de dados. Na predição , é utilizado ou desenvolvido um
modelo para avaliar a classe de um objeto não rotulado ou para estimar o valor de um ou mais
atributos de dados-objeto. A etapa de avaliação da classe , por sua vez, também é denominada
tarefa de classi�cação, e a estimação do valor pode ser chamada de regressão ou estatística.
A etapa de análise de grupos é um processo de posicionamento ou de segmentação de um
conjunto de objetos em clusters de objetos similares. En�m, na etapa de associação , são
encontradas relações (grupos, classes ou estimativas) entre os objetos da base (CASTRO; FERRARI,
2016). A regra de associação refere-se à descoberta de regras de associações que apresentam
valores de atributos de coocorrência (ocorrência conjunta na mesma base de dados transacionais).
Portanto, é possível dividir uma mineração de dados em uma sequência, para que seja possível a
descoberta do conhecimento, sendo essa uma proposta adaptada de machine learning .
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Pré-processamento de dados : preparação da base de dados, limpeza, integração,
redução, transformação e discretização dos dados.
Análise descritiva dos dados : visualização dos dados.
Análise de grupos : agrupamento de dados (similaridades e formas de representação
dos agrupamentos).
Aprendizagem : há algoritmos de aprendizagem que podem ser por classi�cação,
estimação ou por regras de associação.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 13/36
Um processo sequencial de atividades de mineração de dados que utiliza um modelo preditivo
corresponde a tarefas como pré-processamento da base de dados, descrição dos dados de
treinamento, aplicação do treinamento de testes e avaliação do resultado. Assinale a alternativa
correta quanto ao pré-processamento da base.
a) De�nição dos algoritmos de mineração.
b) De�nição de quais dados da base serão treinados.
c) Realização de uma pré-avaliação da base de dados.
d) Limpezas, integrações, transformações e discretizações da base de dados.
e) Uma pré-visualização dos dados em forma de grá�cos.
praticar
Vamos praticar
Este é um diálogo entre uma suposta analista de sistema e um bot , um robô (ou sistemas
inteligentes), que irá explicar as aplicações dos sistemas tutoriais inteligentes e AM em escolas e
fábricas.
Personagem analista de sistemas:
– Sou o analista de sistemas e irei apresentar a importância do AM e dos tutoriais inteligentes no
contexto da mineração de dados.
Personagem bot :
– Olá, sou um bot ; rastreio informações sobre a vida dos humanos, suas preferências, faço
mineração de dados, descobrindo tendências do que os  humanos podem comprar ou realizar, e
sugiro possibilidades diversas. Dentro das organizações, utilizo as bases transacionais para
rastrear padrões e tendências para as complexas tomadas de decisões em qualquer nível
organizacional, para analistas e gestores. Nós bots temos como função a mineração de dados, a
qual é uma área da IA que está ajudando a encontrar conhecimento em grandes bases de dados,
para que seja possível resolver problemas. Softwares de mineração, como eu, são implementados
nas navegações de sites de buscas e em sites de comércio eletrônico móvel. Nós, algoritmos de
mineração, em conjunto com as técnicas de processamento da linguagem natural, temos outro
nome: tutores inteligentes. Assim, conseguimos orientar e ensinar os humanos. Estamos em
escolas, nos treinamentos em fábricas e em muitas outras aplicações.
Agora, realize uma pesquisa e desenvolva um texto de, aproximadamente, dois parágrafos,
apresentando uma aplicação/um exemplo do uso de tutoriais inteligentes. No primeiro parágrafo,
apresente a importância e a aplicação/o exemplo de um sistema tutorial. No segundo parágrafo,
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 14/36
descreva como o sistema tutorial apoia o aprendizado e explique se esse sistema também
aprende com o aprendiz. Cite exemplos de soluções comerciais que utilizam tutoriais inteligentes.
Prezado(a) aluno(a), você sabia que a primeira etapa da mineração de dados está relacionada à
preparação da base de dados, também denominada pré-processamento ? Antes de realizar
qualquer análise em uma base de dados, é necessário o preparo , devido às inconsistências e aos
ruídos contidos na seleção de dados. O diagrama ilustrado na Figura 1.4 mostra as etapas de
preparação da base de dados para a análise. Nesse caso, há: (1) de�nição do problema, (2) seleção
dos dados brutos, (3) pré-processamento da base e de�nição do algoritmo. Depois, há a aplicação
do algoritmo ou a aplicação do processo de análise descritiva.
Organizando os Dados
para Análise (Pré-
Processamento)
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 15/36
Figura 1.4 -Etapas de preparação da base de dados para a mineração de dados
Fonte: Adaptada de Castro e Ferrari (2016).
#PraCegoVer : a �gura representa um diagrama das etapas de preparação da base de dados para o
processo de mineração de dados. A primeira etapa é a de�nição do problema; a segunda etapa refere-se à
seleção dos dados brutos; a terceira etapa refere-se ao pré-processamento da base e à de�nição do
algoritmo e é constituída por tarefas de limpeza, integração, redução, transformação e discretização. Na
quarta etapa, são realizadas as tarefas de aplicação do algoritmo ou a análise descritiva. A última etapa
refere-se aos resultados da mineração.
Por meio da eliminação das inconsistências e dos ruídos, é mais fácil obter o conhecimento
presente na seleção dos dados brutos. As atividades de pré-processamento, apresentadas na Figura
1.4, podem ser detalhadas, segundo Castro e Ferrari (2016), como:
etapa de limpeza: de acordo com o conceito KDD, após a seleção dos dados em um base
bruta, a limpeza de dados é uma das primeiras tarefas de pré-processamento. Essa tarefa
está relacionada ao procedimento de  imputação de valores ausentes, à remoção de ruídos e
à correção de inconsistências;
etapa de integração: é uma das tarefas do processo KDD; o objetivo é unir dados de
múltiplas fontes em um único local, como o armazém de dados ( data warehouse ) e os
dados de uma planilha eletrônica. Para alguns autores, essa etapa, no processo de KDD,
pertence à etapa de limpeza da base;
etapa de redução: é uma tarefa que tem como objetivo reduzir a dimensão da base de dados,
por exemplo, agrupando ou eliminando atributos redundantes, ou reduzir a quantidade de
objetos da base, sumarizando os dados. Para alguns autores, essa etapa, no processo de
KDD, pertence à etapa de limpeza da base de dados;
etapa de transformação: é uma tarefa do processo KDD que tem o objetivo de padronizar e
deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração;
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 16/36
etapa de discretização: nesse caso, os métodos que trabalham apenas com atributos
nominais podem ser empregados em um conjunto maior de problemas. Dentro de um
processo KDD, essa etapa pode pertencer a etapa de transformação;
etapa de análise descritiva: é importante diferenciar análise descritiva de mineração de
dados. A análise descritiva visa encontrar o que há nos dados (características), e os
algoritmos de mineração conseguem realizar inferências a partir dos dados, ou seja, realizar
um aprendizado. Como exemplo de uma análise descritiva de uma base de dados de câncer
em exames de mamas, é possível encontrar características nos dados, por exemplo, veri�car
a média de idade das mulheres que têm câncer de mama. Por sua vez, a mineração pode
predizer se determinada pessoa terá ou não câncer, a partir de características (CASTRO;
FERRARI, 2016).
A Figura 1.5 ilustra a sequência de uma extração de dados, a partir de uma base de dados, para uma
planilha. Os dados são pré-processados e, depois, é gerada uma distribuição de dados, por meio de
um histograma (grá�co em forma de barras).
Figura 1.5 - Sequência de uma extração de dados
Fonte: Elaborada pelo autor.
#PraCegoVer : a �gura representa uma sequência de extração de dados, iniciando com a extração da base
de dados para uma planilha com os dados pré-processados. Em uma segunda etapa, os dados geram um
histograma, apresentando características deles.
Por meio da distribuição de dados e da visualização do histograma, é possível encontrar, nos dados
armazenados, as características que não estão visíveis ou compreensíveis em uma base de dados
ou em uma planilha eletrônica. O processo de análise descritiva de dados, segundo Castro e Ferrari
(2016), é desmembrado em três passos:
1. organização dos dados em distribuição de frequência;
2. visualização dos dados;
3. cálculos das médias de frequências, variação e associação.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 17/36
Para Castro e Ferrari (2016), é útil organizar e resumir os dados a partir da construção de uma
tabela que lista os valores dos atributos de maneira individual ou agrupada. Também, devem ser
incluídas as frequências correspondentes (distribuição de frequências), que representam o número
de vezes que os valores listados ocorrem. Uma distribuição de frequência é um resumo
(sumarização) dos dados agrupados em classes.
O exemplo a seguir ilustra a base de dados de mamogra�a (Quadro 1.2) e contém informações de
lesões de massas mamográ�cas obtidas a partir de atributos da classi�cação BI-RAIDS (Breast
Imaging-Reporting and Data System). Cada objeto identi�cado por ID corresponde a um exame por
imagem de diagnóstico realizado, mas esse atributo não é utilizado para a análise. O Quadro 1.2 é
uma pequena parte da base de 961 objetos (CASTRO; FERRARI, 2016), assim, são apresentados
apenas os 10 primeiros objetos, para que haja uma melhor compreensão.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 18/36
Quadro 1.2 – Base de dados de mamogra�a
Fonte: Castro e Ferrari (2016, p. 61).
#PraCegoVer : o quadro representa uma parte dos dados de uma base mamográ�ca, 10 itens.
A primeira coluna representa a ID (identi�cação) correspondente a um exame por imagem de
diagnóstico. A segunda coluna corresponde à classi�cação BI-RAIDS (Breast Imaging-
Reporting and Data System). A terceira coluna corresponde à idade do paciente. A quarta
coluna apresenta a forma do tumor, se é lobular, irregular, redonda ou não identi�cada. Na
quinta coluna, há uma margem especulada ou circunscrita. Na sexta coluna, há a densidade do
tumor, que pode ser baixa, alta ou inde�nida. A última coluna corresponde à severidade do
tumor: maligno ou benigno. Na segunda linha, há os valores da pesquisa, na ordem: 1, 5, 67,
lobular, especulada, baixa e maligno. Na terceira linha, há: 2, 4, 43, redonda, circunscrita, um
ponto de interrogação e maligno. Na quarta linha, há: 3, 5, 58, irregular, especulada, baixa e
maligno. Na quinta linha, há: 4, 4, 28, redonda, circunscrita, baixa e benigno. Na sexta linha, há:
5, 5, 74, redonda, especulada, um ponto de interrogação e maligno. Na sétima linha, há: 6, 4, 65,
redonda, um ponto de interrogação, baixa e benigno. Na oitava linha, há: 7, 4, 70, um ponto de
interrogação, outro ponto de interrogação, baixa e benigno. Na nona linha, há: 8, 5, 42, redonda
e benigno. Na décima linha, há: 9, 5, 57, redonda, especulada, baixa e maligno. Na décima
primeira linha, há: 10, 5, 60, um ponto de interrogação, especulada, alta e maligno.
ID
BI-
RADS
Idade Forma Margem Densidade Severidade
1 5 67 Lobular Especulada Baixa Maligno
2 4 43 Redonda Circunscrita ? Maligno
3 5 58 Irregular Especulada Baixa Maligno
4 4 28 Redonda Circunscrita Baixa Benigno
5 5 74 Redonda Especulada ? Maligno
6 4 65 Redonda ? Baixa Benigno
7 4 70 ? ? Baixa Benigno
8 5 42 Redonda ? Baixa Benigno
9 5 57 Redonda Especulada Baixa Maligno
10 5 60 ? Especulada Alta Maligno
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 19/36
A partir da base de dados apresentada, são realizados cinco passos para a construção da
distribuição de frequência mediante os objetos de aprendizagem, conforme exposto a seguir.
Um exemplo detalhado de informações utilizadas para o cálculo da distribuição de frequência é
dado por Castro e Ferrari (2016) e está exposto a seguir.
Passo 1: os valores dos atributos são grupos de intervalo que se deseja dividir. Nesse caso,
há cinco faixas de idades. A sugestão é de 5 a 20 classes.
Passo 2: amplitude de classe, que é a diferença entre o maior valor e o menorvalor de uma
variável. Amplitude = (maior valor) – (menor valor). A amplitude de classe = (maior valor –
menor valor) / número de classes. (81 – 23) / 5 = 11,6. O valor 81 é a maior idade, e 23 é a
menor idade da base de mamogra�as, dos 961 objetos. Essas informações podem ser
obtidas com os objetos, em uma planilha eletrônica, mediante a execução de um �ltro de
classi�cação (crescente e decrescente). Normalmente, o valor da amplitude é arredondado
para cima. Portanto, o valor da amplitude �ca com valor igual a 12.
Passo 3: é o limite inferior inicial, é o número para o limite inferior da primeira classe. Nesse
caso, o valor é 23.
Passo 4: são os limites inferiores das classes, ou seja, os menores números que podem
pertencer às diferentes classes. Os limites inferiores a essas cinco classes são: 23 (classe
1), 35 (classe 2), 47 (classe 3), 59 (classe 4) e 71 (classe 5).
Passo 5: são os maiores números que podem pertencer às diferentes classes. Os limites
superiores das cinco classes são: 34 (classe 1), 46 (classe 2), 58 (classe 3), 70 (classe 4) e
82 (classe 5).
Passo 6: cada valor deve ser rotulado com a classe à qual pertence. Por exemplo, o valor 67,
ID 1, pertence à classe 4. O próximo valor 43, ID 2, pertence à classe 2.
Assim, estes são os rótulos para os primeiros 80 objetos de estudo: 4, 2, 3, 1 , 5 , 4, 4, 2, 3, 4, 5 , 2, 4,
2, 4, 3, 3, 4, 3, 2, 4, 3, 2, 2, 4, 5 , 4, 4, 2, 3, 2, 3, 3, 2, 5 , 5 , 4, 4, 3, 3, 4, 5 , 3, 4, 4, 2, 4, 1 , 2, 4, 5 , 5 , 1 , 4, 3,
2, 3, 3, 2, 4, 3, 4, 3, 3, 5 , 1 , 3, 5 , 2, 4, 5 , 4, 3, 4, 4, 1 , 5 ,4, 4, 4.
Por meio dos rótulos, é encontrada a frequência absoluta . Por exemplo, a frequência absoluta da
classe 1 é a quantidade do rótulo 1 que aparece na sequência do passo 6, identi�cando a
quantidade em destaque. O valor é: 5 rótulos de valor 1. Por sua vez, a classe 5 aparece 12 vezes na
relação exposta anteriormente.
No Quadro 1.3, há os seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e
cálculo da frequência relativa, dado em percentual. A frequência relativa de uma classe corresponde
a quanto ela ocorre em relação a toda a distribuição de frequências. Nesse caso, a fórmula é: FR =
(FA / (número de objetos)) * 100. Por exemplo, FR da classe 1:
FR1 = 5 / 80 = 0,0625 * 100 = 6,25%
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 20/36
Classe Limite inferior Limite superior
Frequência
absoluta
Frequência
relativa
1 23 34 5 6,25%
2 35 46 15 18,75%
3 47 58 20 25%
4 59 70 28 35%
5 71 82 12 15%
Quadro 1.3 – Base de dados de mamogra�a
Fonte: Adaptada de Castro e Ferreira (2016).
#PraCegoVer : o quadro, dividido em cinco colunas e seis linhas, apresenta, em cada coluna, os
seguintes atributos: classe, limite inferior, limite superior, frequência absoluta e cálculo da
frequência relativa dado em percentual, referente aos rótulos dos primeiros 80 objetos de
estudo. Na segunda linha, há: 1, 23, 34, 5 e 6,25%. Na terceira linha, há: 2, 35, 46, 15 e 18,75%.
Na quarta linha, há: 3, 47, 58, 20 e 25%. Na quinta linha, há: 4, 59, 70, 28 e 35%. Na sexta linha,
há: 5, 71, 82, 12 e 15%.
Depois de ser calculada a frequência absoluta e relativa, é possível visualizar os dados por meio de
grá�cos do tipo histograma. Para Castro e Ferreira (2016, p. 65), a visualização dos dados tem o
“objetivo de se entender a natureza das distribuições dos dados, extrair conhecimento mais fácil e
rapidamente e permitir o compartilhamento desse conhecimento de maneira direta entre diferentes
pessoas e entidades”. Uma das representações grá�cas mais utilizadas para a visualização da
distribuição dos dados é o histograma, o qual é um tipo de frequência tabulada na forma de
retângulos adjacentes ou barras adjacentes. Cada barra é a representação das classes da
distribuição de frequência, também denominada bins . Na Figura 1.6, há um exemplo de histograma
referente ao Quadro 1.3 (distribuição de frequência).
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 21/36
Figura 1.6 – Histograma do atributo idade para a amostra da base de mamogra�a (frequência
absoluta)
Fonte: Adaptada de Castro e Ferrari (2016).
#PraCegoVer : o grá�co representa um histograma do atributo idade para a amostra da base de
mamogra�a (frequência absoluta). As barras representam as classes da distribuição de frequência (bins).
A primeira barra representa a classe 1 e tem limite inferior a 23 e superior a 34; a classe 2 tem limite
inferior a 35 e superior a 46; a classe 3 tem limite inferior a 47 e superior a 58; a classe 4 tem limite inferior
a 59 e superior a 70; a classe 5 tem limite inferior a 71 e superior a 82.
Por meio do histograma, é possível visualizar as classes e suas variações de distribuição de
frequências. A escala horizontal corresponde às classes de 1 a 5, e a escala vertical representa as
frequências. A maior concentração de exames mamográ�cos realizados está na classe 4, ou seja,
mulheres entre 59 e 70 anos, enquanto a menor frequência está concentrada na classe 1: mulheres
entre 23 e 34 anos.
A análise descritiva de dados pode ser utilizada antecipadamente, antes da mineração mais
complexa (uso de algoritmos de mineração de dados). Nesse contexto, a análise descritiva é
considerada uma etapa inicial do processo de mineração e utiliza ferramentas estatísticas simples,
como frequência absoluta e relativa. Portanto, as análises descritivas permitem a sumarização e a
melhor visualização dos objetos de dados e da distribuição de frequências por meio dos
histogramas.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 22/36
A primeira etapa está relacionada à preparação da base de dados e é realizada antes de qualquer
análise em uma base de dados. Assim, é necessário o preparo da base de dados, devido às
inconsistências e aos ruídos contidos na seleção de dados que será analisada. Como essa etapa é
denominada?
a) Pré-processamento de dados.
b) Limpeza de dados.
c) Análise de dados.
d) Processamento de dados.
e) Seleção dos dados brutos.
Caro(a) estudante, você sabia que as medidas de avaliação dos resultados dos algoritmos
aplicados no processo de mineração são vitais para a conclusão dos resultados? Nesse sentido, é
importante salientar que a mensuração e a performance dependem da abordagem da mineração de
dados e das ferramentas e dos algoritmos utilizados. Uma seleção incorreta da abordagem, da
ferramenta ou dos algoritmos pode prejudicar a performance e a mensuração dos resultados dos
algoritmos. Desse modo, o pós-processamento da mineração de dados considera:
o pré-processamento dos dados (limpeza, integração, redução, transformação e
discretização);
a seleção adequada dos sistemas de processamento (algoritmos de mineração);
as ferramentas de mensuração da capacidade e da qualidade dos resultados.
Portanto, é essencial que todas as etapas do processo de mineração estejam alinhadas com o
objetivo do AM.
No desenvolvimento de projetos de machine learning , é essencial o uso de métricas de avaliação
para a resolução de cada problema. Assim, a escolha correta das métricas in�uencia a avaliação de
Mensuração e
Performance
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 23/36
um modelo ideal de aprendizagem ou demonstra quão distante esse modelo está de um modelo
ideal. Um tipo de métrica de avaliação é a classi�cação.
Segundo Amaral (2016), em um modelo de classi�cação, devem ser analisadas quais são as
características que de�nem cada forma e como essa forma é atribuída a cada um dos grupos,
como mostra a Figura 1.7: dentro dos retângulos, as formas já estão classi�cadasde acordo com o
seu tipo – triângulo, quadrado ou círculo. Uma forma à esquerda do retângulo, no entanto, com uma
interrogação no centro, ainda não teve seu tipo identi�cado. Em uma base de dados relacional, os
dados já estão classi�cados de forma equivalente aos elementos do retângulo (triângulos,
quadrados e círculos), como mostra a Figura 1.8, sendo classi�cados em categorias do tipo:
clientes, produtos, fornecedores, compras, vendas etc. Ademais, um algoritmo de aprendizado
aprenderá a classi�car um objeto que ainda não foi classi�cado.
Figura 1.8 - Aprendizagem por classi�cação
Fonte: Adaptada de Amaral (2016).
#PraCegoVer : a �gura representa um retângulo com �guras geométricas, dividido em três grupos:
triângulos, quadrados e círculos (que representam bases treinadas). Além disso, há uma incógnita, que é
uma �gura desconhecida.
A classi�cação funciona com dados históricos, contudo, em uma base de dados relacional de
clientes ou produtos, essa classi�cação já está pronta, pois as tabelas ou a classe dos objetos já
estão na forma estruturada. É necessário veri�car, no entanto, se os dados são necessários,
convenientes e preparados para o propósito, caso contrário, será preciso aplicar a primeira etapa de
pré-processamento (limpeza, integração, redução, transformação e discretização). Então, o próximo
passo do AM é criar um modelo preditivo, a partir dos dados históricos já classi�cados.
Um exemplo da construção de um modelo do AM está ilustrado no diagrama na Figura 1.9. A partir
de uma base de dados transacional, são extraídos os dados históricos do cliente. Uma parte dos
dados disponíveis é usada para a geração do modelo preditivo (um conjunto de treinamento) e a
outra parte é usada para avaliar a qualidade do modelo (conjunto de testes).
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 24/36
Figura 1.9 - Construção de um modelo preditivo
Fonte: Elaborada pelo autor.
#PraCegoVer : a �gura representa um modelo de classi�cação. A partir da base de dados transacional,
são selecionados os dados históricos de clientes e são preparadas as bases de treino para a criação de
um modelo preditivo e a base de teste para a avaliação do modelo.
O treinamento consiste em usar os dados de treino para ajustar parâmetros livres do modelo (em
redes neurais, seriam os pesos do modelo; nas árvores de decisão, seriam os nós da árvore) e para
que haja um desempenho avaliado pela aplicação do modelo.
Com base nos elementos da Figura 1.10, é possível melhorar o exemplo de �guras geométricas para
a classi�cação. Assim, de forma mais lúdica, na Figura 1.9, as formas têm, além do rótulo (nome da
�gura), características de cor e tamanho.
Figura 1.10 - Conjunto de �guras geométricas
Fonte: Elaborada pelo autor.
#PraCegoVer : a �gura representa um conjunto de formas geométricas: triângulo vermelho, círculo laranja,
triângulo azul-escuro, quadrado azul-claro, círculo laranja. Abaixo dessas �guras, há outras: quadrado azul-
claro, triângulo verde, círculo amarelo, triângulo vermelho e quadrado azul-escuro.
A seguir, há os rótulos e algumas características do conjunto de dados do quadro 1.4:
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 25/36
Quadro 1.4 – Conjunto de dados de �guras geométricas
Fonte: Elaborado pelo autor.
#PraCegoVer : o quadro está dividido em quatro colunas e nove linhas. As colunas são: código
do identi�cador, características (dividida em cor e tamanho) e rótulos do conjunto de dados. No
código Id 1, há as características cor (vermelho), tamanho (grande) e rótulo (triângulo). No
código Id 2, cor: laranja, tamanho: pequeno, rótulo: círculo. No código Id 3, cor: azul-escuro,
tamanho: grande, rótulo: triângulo. No código Id 4, cor: azul-claro, tamanho: pequeno, rótulo:
quadrado. No código Id 5, cor: azul-claro, tamanho: grande, rótulo: quadrado. No código Id 6,
cor: verde, tamanho: grande, rótulo: triângulo. No código Id 7, cor: amarelo, tamanho: grande,
rótulo: círculo. No código Id 8, cor: vermelho, tamanho: pequeno, rótulo: quadrado.
A partir do conjunto de dados organizados no Quadro 1.4 (dados de entrada), é possível criar um
modelo para a identi�cação de novos itens, como o exemplo da Figura 1.8 (ponto de interrogação).
Segundo Mariano et al . (2020, p. 192), é possível observar que “há itens com rótulos semelhantes,
mas com características diferentes. Da mesma forma, há itens diferentes com características
semelhantes”. Assim, no processo de construção desse modelo de predição, é preciso dividir a base
de dados em uma base de treino e uma de teste, como ilustra a Figura 1.9.
Não existe, contudo, uma regra especí�ca da quantidade de elementos que devem ser distribuídos
entre as bases de teste e treino. Conforme expõem Mariano et al. (2020, p. 193), “costuma-se utilizar
os valores 50–50%, 60–40%, 70–30%, 80–20% ou 90–10% para treino e teste, respectivamente. Em
Código do
identi�cador
Características
Rótulos
Cor Tamanho
1 Vermelho Grande Triângulo
2 Laranja Pequeno Círculo
3 Azul-escuro Grande Triângulo
4 Azul-claro Pequeno Quadrado
5 Azul-claro Grande Quadrado
6 Verde Grande Triângulo
7 Amarelo Grande Círculo
8 Vermelho Pequeno Triângulo
9 Azul-escuro Grande Quadrado
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 26/36
geral, a quantidade de dados no conjunto de treinamento deve sobrepor a quantidade de dados no
conjunto de teste”.
O treinamento é realizado por um algoritmo de aprendizagem, como ilustra a Figura 1.9,
classi�cando-se os itens rotulados, mas, para a base de teste, não se sabe qual é o rótulo dos
dados. Assim, por meio de uma comparação entre as bases de treino e testes, é possível determinar
prováveis rótulos para os novos elementos contidos na base de teste. Em um processo de
mineração de dados, como na abordagem por classi�cação, é necessário fazer ajustes durante o
processo, para que haja a melhoria do modelo, ou seja, para que seja possível medir o desempenho
da aprendizagem. Nesse sentido, é necessário medir para ajustar. Para isso, são necessárias
métricas especí�cas, como as expostas a seguir.
Acurácia total : é uma medida de desempenho muito utilizada na avaliação de
classi�cadores e também é denominada taxa de acerto do classi�cador. “A acurácia é uma
função denominada de taxa de erro ou taxa de classi�cação incorreta” (GOLDSCHMIDT;
PASSOS; BEZERRA, 2015, p. 82). Essa acurácia é de�nida pela equação:
Acurácia = total de acerto / total de dados do conjunto
Acurácia = (verdadeiro-positivo + verdadeiro-negativo) / (positivo + negativo)
Os valores da equação são obtidos através de uma matriz, denominada de matriz
confusão. A Matriz de Confusão de um Classi�cador procura oferecer um detalhamento
do desempenho do modelo de Classi�cação correspondente, ao mostrar, para cada
classe, o número de classi�cações corretas em relação ao número de classi�cações
indicadas pelo modelo (GOLDSCHMIDT; PASSOS; BEZERRA, 2015, p. 82).
Sensibilidade ou consistência : está relacionada à capacidade de predizer a situação, sem
erros (classi�car corretamente) e com acertos positivos. A fórmula que determina a
sensibilidade, a partir da matriz confusão, é:
Sensibilidade/consistência = acertos positivos / total de positivos
Sensibilidade/consistência = verdadeiros-positivos / (verdadeiro-positivo + falso-negativo)
Especi�cidade : está relacionada à capacidade de predizer a situação, sem erros (classi�car
corretamente; acertos positivos). A fórmula que determinada a sensibilidade, a partir da
matriz confusão, é:
Especi�cidade = acertos negativos / total de negativos
Especi�cidade = verdadeiros-negativos / (verdadeiro-negativo + falso-positivo)
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy…27/36
E�ciência : corresponde à média aritmética da sensibilidade e da especi�cidade. A fórmula
que determina a e�ciência, a partir da matriz confusão, é:
E�ciência = (sensibilidade + especi�cidade) / 2
#PraCegoVer : o infográ�co apresenta o título “Etapas e características da mineração de dados” e contém
uma �gura em desenho de fundo e abas sobre essa imagem para interagir. O desenho é um tablet grande
com uma mulher e um homem minúsculos interagindo com ele. O homem segura uma picareta e parece
utilizá-la para clicar nas teclas de número 0 e 1 do tablet , enquanto a mulher está sentada sobre uma pilha
de quatro livros e ao topo do tablet , estando mais alta na imagem. Ela utiliza um notebook , que está
posicionado sobre suas pernas. As abas ao lado da �gura possuem os respectivos conteúdos: 1º “Pré-
processamento: torna o processo de mineração de dados mais e�ciente e e�caz, preparando a base de
dados, manipulando e transformando os dados brutos, fazendo o conhecimento mais fácil de ser
corretamente obtido”, 2º “Análise descritiva de dados: descreve, simpli�ca ou sumariza as principais
características de uma base de dados, formando o princípio de uma análise quantitativa de dados, além
de organizá-lo usando distribuições de frequências”, 3º “Análise de grupos: realiza o agrupamento de uma
Etapas e
características da
mineração de dados
Pré-processamento
Análise descritiva
dedados
Análise de grupos
Aprendizagem de
máquina
Fonte: vectorjuice / Freepik.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 28/36
base de dados para que ela seja mais facilmente compreendida ou pesquisada, utilizando medidas de
similaridade para o agrupamento de objetos” e 4º “Aprendizagem de máquina: por classi�cação de dados
ou por estimação. Na classi�cação de dados, os classi�cadores são baseados em conhecimento. Já na
estimação a abordagem pode ser conexionista, em que os classi�cadores são modelos baseados em
redes de unidades interconectadas”.
praticar
Vamos praticar
As aplicações da mineração de dados são vastas, devido à multidisciplinaridade relacionada à
estatística, à matemática, à engenharia (análise espacial), à IA, ao banco de dados (recuperação de
informações), ao sistema de informação e à visão computacional (reconhecimento de padrões em
imagens). Castro e Ferrari (2016) comentam que as siderúrgicas, por exemplo, utilizam a
mineração de dados para alcançar a excelência operacional, aumentando a produtividade das
usinas.
Ademais, algoritmos de mineração de dados são utilizados para determinar os principais
elementos químicos do aço (análise de conformidade) durante o processo produtivo. Na indústria
elétrica, uma das contribuições da mineração de dados é o uso de algoritmos de predição de
demanda de energia elétrica. Segundo Castro e Ferrari (2016), como a energia elétrica só pode ser
armazenada em baterias, a única maneira é prever a quantidade de energia que as usinas
geradoras podem gerar a cada dia. Essa predição e o planejamento dessa quantidade de
produção de energia são realizados mediante técnicas de análise de dados de previsão de carga
(consumo) em curto, médio e longo prazos de um sistema elétrico de potência. Antes de se iniciar
a execução do processo de análise de dados, no entanto, deve haver a preparação.
Com base nesse contexto, explique, brevemente, cada etapa do processo de preparação para a
mineração dos dados.
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 29/36
Material
Complementar
F I L M E
Ex_Machina
Ano: 2015
 Comentário: O �lme apresenta diversas questões éticas sobre o uso da
tecnologia inteligente, por meio de uma trama entre uma humanoide, Ada,
um programador, Caleb, e o diretor de uma empresa de motor de busca,
Nathan. O �lme foca também o teste de Turing, com o personagem Caleb
junto ao robô, além de discutir as expressões corporais de usuários
utilizadas na humanoide. O �lme permite compreender melhor o
comportamento inteligente e o AM, aspectos relevantes para o conteúdo de
machine learning . Para conhecer mais sobre o �lme, assista ao trailer
disponível em:
TRA I LER
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 30/36
L I V R O
Introdução à Mineração de Dados: conceitos
básicos, algoritmos e aplicações
Leandro Nunes de Castro e Daniel Gomes Ferrari.
Editora: Saraiva
Ano: 2016
ISBN: 978-85-472-0098-5
Comentário: Essa é uma obra completa e detalhada sobre a mineração de
dados e suas aplicações. Os autores exploram a mineração de dados como
ferramentas algorítmicas (pseudocódigos) para a busca do AM e aquisição
de conhecimento para as organizações. No capítulo 1, são apresentados os
conceitos e princípios da mineração de dados. No capítulo 2, discute-se a
tarefa de pré-processamento de dados, que de�ne a preparação para a
descoberta de conhecimento nas bases de dados. Nos demais capítulos, 3 a
8, são apresentadas as análises descritiva e de grupos, a classi�cação, a
estimação e as regras de associação, que de�nem as etapas 2 (análise
descritiva), 3 (análise de grupos) e 4 (aprendizagem) de nosso tópico. A
leitura desses capítulos é importante para consolidar os conhecimentos
sobre as tarefas de pré-processamento de dados, bem como as abordagens
de mineração de dados (Biblioteca Ânima).
L I V R O
Data Mining: conceitos, técnicas, algoritmos e
aplicações
Diego César Batista Mariano, Leonardo Torres Marques, Marcel Santos Silva,
José Francisco Meireles Aleixo Júnior, Marcelo da Silva dos Santos e
Talysson Manoel de Oliveira Santos.
Editora: LTC
Ano: 2015
ISBN: 978-85-352-7822-4
Comentário: O tópico 4.2.5 desse livro está relacionado à classi�cação. Com
a leitura desse tópico, é possível complementar os conceitos de
classi�cação apresentados neste material, para que seja possível entender
sobre performance da aprendizagem, medidas de desempenho e matriz
confusão (Biblioteca Ânima).
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 31/36
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 32/36
Conclusão
Prezado(a) estudante, chegamos ao �m deste estudo. Como exposto, por meio de algoritmos avançados
de aprendizagem, é possível programar máquinas, com uma grande equipe de programadores e técnicos
que podem realizar automações em fábricas, mediante robôs inteligentes. Além disso, é possível utilizar
grandes bases transacionais, de marketing , produção, vendas e de outras áreas funcionais, para que os
algoritmos procurem padrões ou tendências e aprendam em novas bases de dados.
Ademais, é possível ensinar algo às máquinas, mediante treinamentos, ou seja, hábitos perceptivos.
Assim, surge um questionamento: elas podem aprender com os humanos? Na verdade, as máquinas
podem realizar tarefas automatizadas, enquanto os humanos podem se especializar em outras tarefas.
Este material foi produzido para fornecer possibilidades conceituais, para que você, caro(a) estudante,
possa explorar vários conteúdos. Esperamos que tenha gostado. Até a próxima.
Referências
AMARAL, F. Introdução à ciência de dados : mineração de
dados e big data. Rio de Janeiro: Alta Books, 2016.
BALTZAN, P.; PHILLIPS, A. Sistemas de informação . São
Paulo: Bookman, 2012.
BELMIRO, N. J. Informática aplicada . São Paulo: Pearson Educação do Brasil, 2014.
BENGFORT, B.; KIM, J. Analítica de dados com Hadoop : uma introdução para cientistas de dados. São
Paulo: Novatec, 2016.
CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados : conceitos básicos, algoritmos e
aplicações. São Paulo: Saraiva, 2016. (Biblioteca Ânima).
COPPIN, B. Inteligência Arti�cial. Rio de Janeiro: LTC: 2017.
EX_Machina – Trailer O�cial Legendado (Portugal) HD. [ S. l.: s. n .], 2015. 1 vídeo (2m35s). Publicado pelo
canal Universal Pictures Portugal. Disponível em: https://www.youtube.com/watch?v=54nzsdLPs9I .
Acesso em: 9 maio 2021.
FACELI, K . et al . Inteligência Arti�cial : uma abordagem de Aprendizado de Máquina. 2. ed. Rio de Janeiro:
LTC, 2021. (Biblioteca Ânima).
https://www.youtube.com/watch?v=54nzsdLPs9I
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 33/36
FAWCETT, T.; PROVOST, F. Data Science para negócios : o que você precisa saber sobre mineração de
dados e pensamento analítico de dados. Rio de Janeiro: AltaBooks, 2018.
GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining : conceitos, técnicas, algoritmos e aplicações. 2.
ed. Rio de Janeiro: Elsevier, 2015. (Biblioteca Ânima).
LUGER, G. F. Inteligência Arti�cial . 6. ed. São Paulo: Pearson Education do Brasil, 2013.
MARIANO, D. C. B. et al . Data mining . Porto Alegre: SAGAH, 2020.
PEREIRA, M. J. et al . Framework de big data . Porto Alegre: SAGAH, 2019. (Biblioteca Ânima).
SIEGEL, E. Análise preditiva : o poder de prever quem vai clicar, comprar, mentir ou morrer. Rio de Janeiro:
Alta Book, 2017.
UCI – UNIVERSITY OF CALIFORNIA. Machine Learning Repository . [2021]. Disponível em:
https://archive.ics.uci.edu/ml/index.php . Acesso em: 17 maio 2020.
https://archive.ics.uci.edu/ml/index.php
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 34/36
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 35/36
30/11/2022 19:50 E-book
https://student.ulife.com.br/ContentPlayer/Index?lc=0Wy6TrRwcFG%2fO19U8YIbxg%3d%3d&l=s2ioh6PiIrrzWurBdtefqA%3d%3d&cd=I%2bpy… 36/36

Mais conteúdos dessa disciplina