Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS
ALGORITMOS DEALGORITMOS DE
CLASSIFICAÇÃOCLASSIFICAÇÃO
Autor: Esp. Wesley Soares de Souza
Revisor : Bruno Roberto Nepomuceno Matheus
IN IC IAR
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 1/49
introdução
Introdução
Nesta unidade iremos aprender sobre métodos de classi�cação dos dados a serem minerados para
gerar a nossa base de conhecimento sobre determinado problema encontrado. A tarefa de�nida
como classi�cação compreende na obtenção de modelos baseados num conjunto originado em uma
grande base de dados. a tarefa de regressão pode ser de�nido como um tipo de classi�cação porém
trabalha de forma e�caz com dados numéricos. Para classi�carmos conteúdos originados de um
grande conjunto de documentos que possuem conteúdo textual é melhor trabalhado através de
técnicas LSI e LDA. Tais estruturas tratadas até o momento podem ser transformadas em árvores de
decisão que são estruturas próximas a um �uxograma onde seus nós são formados por de�nições
que gerarão as regras que comporão os nós raízes das estruturas. E por �m podemos gerar �orestas
aleatórias compostas por essas árvores de decisão de forma aleatória o que permite um resultado
e�ciente na estruturação de nossa base de conhecimento.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 2/49
A tarefa de�nida como classi�cação compreende-se na catalogação de um grupo de registros de um
banco de dados em classes organizadas para que assim os dados possa ser melhor utilizados
conforme a necessidade. A classi�cação consiste em obter um modelo baseado em um conjunto de
exemplos que descrevem uma função conhecida. (CASTANHEIRA, 2008)
Tarefa de Classi�cação eTarefa de Classi�cação e
Regressão em MineraçãoRegressão em Mineração
de Dadosde Dados
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 3/49
A tarefa de regressão consiste em algo bem próximo a classi�cação porém só trabalha com atributos
numéricos. Os registros do banco de dados são também catalogados porém de forma numérica. A
regressão linear é uma das formas mais simples de aplicação da regressão, sendo abstraído uma
função linear.
Classi�icação
Na �gura 3.1. demonstramos, de forma visual, a função (x, f(x)), onde x é o parâmetro de entrada e
f(x) a saída da função,   a qual busca associar cada registro xi do banco de dados com um rótulo
categórico de uma classe yi. Aonde pretende-se prever qual a classe em que cada registro se
enquadra.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 4/49
Figura 3.1. - Associação entre registros de dados e classes
Autor:  PASSOS et al, 2005, P.67
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 5/49
Toda a hipótese de ligação entre o registro e sua classe denominamos de h, o qual se torna o
classi�cador. A identi�cação da função h consiste em um processo de busca no espaço de hipóteses
H, pela função que mais se aproxime da função original f. Esse processo é denominado aprendizado
(Russell e Norvig, 1995). Obtêm-se todas as hipóteses através de algoritmos de aprendizado.
Não está no campo da possibilidade que os computadores aprendam de forma tão e�ciente como
as pessoas, porém os algoritmos criados são tão e�cientes em várias tarefas de aprendizado, e os
saiba mais
Saiba mais
Machine Learning – ou, no bom português: aprendizado de
máquina – está cada vez mais em voga no mercado tech .
Tudo isso devido aos inúmeros cases de sucesso como:
Net�ix, Spotify, Amazon e tantas outras.
Fonte: Elaborado pelo autor.
ACESSAR
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 6/49
https://blog.geekhunter.com.br/aprendizado-de-maquina-e-seus-algoritmos/
estudos teóricos sobre o assunto tem permitido a criação e aperfeiçoamento de novas técnicas. O
aprendizado de máquina está ligado ao campo da inteligência arti�cial e tem como principal
abordagem tornar as máquinas aptas a aprender.
O objetivo principal do aprendizado de máquina é generalizar além dos exemplos
existentes no conjunto de treinamento, pois independente da quantidade de dados
existentes é muito improvável que, durante os testes, exatamente os mesmos exemplos
apareçam. (ROZA,2016, p.16)
Não existe um algoritmo de classi�cação que possua um desempenho melhor que o outro, o que
signi�ca que a cada nova aplicação, os algoritmos devem ser testados a �m de identi�car o que trará
os resultados com melhor e�ciência. Podemos realizar uma medida de desempenho através da
acurácia (Acc(h)) , onde h é a determinância da hipótese, a precisão do classi�cador:
Acc(h) = 1 - Err(h) , onde Err(h) denomina a taxa de classi�cação com erro onde poderá ter como
retorno 1 se for verdadeiro e 0 se for falso em cada situação de teste ou desenvolvimento.
Uma vez que existe a ação da classi�cação dos dados para a geração do modelo de aprendizado
alguns ajustes podem ocorrer conforme são detectados falhas para que o resultado se torne mais
e�ciente. A principal função no ajuste é identi�car a raiz do modelo insatisfatório, para que medidas
corretivas sejam adotadas. As ações que podem ocorrer com a curva de aprendizado segue
conforme a �gura 3.2, Under�tting, Balanced e Over�tting, aonde o padrão que deve ser alcançado é
o balanced:
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 7/49
Denominamos Under�tting (sub ajuste) quando o modelo ajusta-se pouco ou de forma
insatisfatória aos dados de treinamento. Isso acontece quando o modelo não consegue veri�car um
relacionamento entre as entradas (x) com determinadas classes (y).
O Over�tting (sobreajuste)   ocorre quando o classi�cador se ajusta em excesso nos dados de
avaliação mesmo que ocorra de forma satisfatória nos dados
de treinamento. Essa ocorrência tem ligação com o fato de que o modelo memoriza os dados
reconhecidos porém não consegue satisfatoriamente fazer a generalização do que não foi visto.
Figura 3.2 - Métodos de correção
Fonte: Elaborado pelo autor
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 8/49
Para que o desempenho seja satisfatório precisamos fazer com que a linha de aprendizado tenha
um desempenho satisfatório ( balanced ). Para que isso ocorra podemos realizar algumas ações
quando ocorre um under�tting devido aos recursos de entrada não serem su�cientes para descrever
a classe de destino. A adição de recursos de domínio e o aumento de produtos cartesianos de
recursos de entrada, assim como a diminuição do volume de regularização.
Caso esteja ocorrendo um over�tting , a �exibilidade deve ser reduzida no modelo. É necessário
utilizar uma combinação de recursos que possam diminuir os n-grams (dados de análise) e diminuir
as classes numéricas, e nesse caso aumentar o volume de regularização.
Regressão
Podemos realizar a regressão realizando a busca através de funções, lineares ou não, mapeando
registros do banco de dados com valores reais. Muito semelhante a classi�cação, porém se restringe
apenas a valores numéricos.
Temos como exemplo de situações a serem usados com a aplicação de regressão: predição da soma
da biomassa em uma �oresta, probabilidade de sobrevivência de um paciente, predição de risco em
investimentos �nanceiros, limite de créditos e outras situações a�ns.
Regressão Logística
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 9/49
Consiste em uma forma estatística de modelar resultadosbinominais, ou seja, de�nidos com 0 para
falso ou sem sucesso, e 1 para verdadeiro ou sucesso no resultado �nal. Uma regressão logística
substitui uma regressão linear quando a resposta que procuramos em uma análise a longo prazo
como se, “o indivíduo vai pagar uma dívida?” diferente de “qual o valor da casa pelas suas
características?”. Podemos observar a diferença entre as duas estruturas na �gura 3.3.
Figura 3.3. - Regressão linear X Regressão logística
Fonte: Elaborado pelo autor.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 10/49
A logística se mostra mais vantajosa que a regressão linear, principalmente quando falamos da
normalidade e a linearidade. Não existe a função linear entre as variáveis de entrada e suas
respectivas classes. Sendo que , os resíduos, ou dados desnecessários não precisam estar
distribuídos normalmente.
O interesse nesse tipo de modelo é a probabilidade de saída, em relação a inadimplência, por
exemplo, estamos interessado na probabilidade do recebimento da dívida. Então utilizamos a
saiba mais
Saiba mais
“O modelo de regressão logística é semelhante ao modelo
de regressão linear. No entanto, no modelo logístico a
variável resposta Yi é binária. Uma variável binária assume
dois valores, como por exemplo, e 
denominados "fracasso" e "sucesso", respectivamente.
Neste caso, "sucesso" é o evento de interesse.”
Fonte: Portal Action (s/d)
ACESSAR
Y i = 0 Y i = 1
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 11/49
http://www.portalaction.com.br/analise-de-regressao/regressao-logistica
função logística que possui como variável de resposta:
Analisando a probabilidade p dividida por 1-p , temos o odd ratio (razão de chance), que apresenta a
chance de sucesso em relação ao fracasso.
Por exemplo em uma situação a pessoa pode ter 90% de chance de ser uma boa pagadora assim
como 10% de ser inadimplente.
praticar
Vamos Praticar
Leia o trecho a seguir:
log( )   =   + + +. . . + x
ρ
1 − ρ
β0 β1x1 β2x2 βn
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 12/49
“A tarefa de classi�cação é uma função de aprendizado que mapeia os dados de entrada, ou conjunto de
dados de entrada, em um número �nito de classes. Nele, cada exemplo pertence a uma classe, entre um
conjunto pré de�nido de classes”.
CASTANHEIRA, L.G.; Aplicação de Técnicas de Mineração de Dados em Problemas de
Classi�cação de padrões . UFMG, Belo Horizonte. 2008. p.13.
Considerando os vários algoritmos de classi�cação existente é correto a�rmar que:
a) Utilizando problemas semelhantes existe a possibilidade do nível de acurácia ser diferente entre
situações distintas
b) Os ajustes no modelo somente podem ocorrer caso sejam detectadas falhas que impeçam a
veracidade da informação
c) O algoritmo de aprendizado de máquina, ou bias indutivo, pode ser de três tipos: Restrição, Busca
e lógico.
d) Cada tipo de aplicação tem um algoritmo correspondente que retorna o resultado esperado com
uma e�cácia maior.
Feedback: alternativa correta , pois não existe um algoritmo com e�cácia maior que outro a não ser
analisando o tipo de problema a ser resolvido.
e) O algoritmo de aprendizado de restrição vem com a função de busca aonde sua ocorrência existe
quando a hipótese é incompleta
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 13/49
Podemos veri�car nos dias de hoje a existência de uma quantidade gigantesca de documentos
armazenados em diversos tipos de meios além de bancos de dados, o volume de informações
contidas no ambiente de Big Data. Para que possamos minerar esse tipo de dado, propomos entre
diversos modelos existentes o LSI e LDA, que são técnicas de processamento em linguagem natural
na resolução de problemas.
LSI e LDALSI e LDA
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 14/49
Indexação Semântica Latente (LSI - Latent
Semantic Indexing)
LSI consiste em um método de extração e demonstração do signi�cado semântico de palavras em
determinado contexto, através de cálculos estatísticos aplicados a um volume grande de
documentos textuais.
Para que esse tipo de análise ocorra, o grupo de palavras a ser analisado, ou seja um documento ou
conjunto de documentos são distribuídos em matrizes vetorizadas. Esses vetores são na verdade
como um grande ‘saco de palavras’ sendo ignorado a posição de determinada palavra no texto mas
sim a quantidade de vezes que determinada palavra aparece no contexto. Essa matriz gerada se
torna muito esparsa pois uma fração muito pequena das palavras aparece em cada documento em
determinadas circunstâncias o que através do uso de diversas técnicas acaba consumindo um
número reduzido de memória, através, por exemplo, de um dicionário de chaves, com os termos
não nulos. Matrizes esparsas também se tornam úteis pois permitem a execução de cálculos mais
rápidos.
A LSI se utiliza da decomposição de valor singular (SVD), discutido posteriormente, que podemos
de�nir como uma análise fatorial, a qual condensa uma grande matriz do tipo word-by-context para
uma de menor volume, porém sem perder as informações úteis dos dados. A análise fatorial
consiste em uma técnica para diminuição das variáveis em uma base de dados, através de padrões
de correlação, gerando um número menor de variáveis não observadas pela estrutura bruta. A LSI
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 15/49
traz através de associações desconhecidas entre as palavras que compõem o vetor, podendo ser
induzidas por uma análise da forma em que essas palavras co-ocorrem entre si. LSI também pode
ser usado para determinar a semelhança de palavras ou documentos com documentos externos a
ele (MARTIN; BERRY, 2007).
Podemos de�nir a técnica em 4 passos segundo SCARPA (2017),
1. Construir uma matriz de documentos a partir do corpus , que condiz na estrutura de todos
os documentos da pesquisa
2. Fazer a decomposição SVD da matriz obtida
3. Escolher componentes principais
4. Utilizar uma métrica de semelhança, como por exemplo o cosseno, para encontrar o
documento mais semelhante.
PCA e SVD
Conforme visto na unidade anterior a análise de componentes principais (PCA) é responsável por
diminuir a dimensionalidade dos dados. Podemos considerar, como os pontos no grá�co PCA, como
sendo as linhas de uma matriz de�nida, com o conjunto de palavras utilizados no documento. A PCA
se liga ao conceito de decomposição em valores singulares (SVD). O valor singular  da matriz M é um
número real σ tal que temos um par de vetores unitários ( u,v ):
      e          
n
Mu  =  σv  v  =  σuM T
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 16/49
Quando temos uma matriz quadrada, relacionamos o conceito de autovetor. Autovetor corresponde
a um escalar λ como autovalor do operador linear A: V → V, se temos um vetor x diferente de 0
(zero) sendo que Ax = λx. Qualquer vetor de x que satisfaça tal igualdade denomina-se como
autovetor de A. Sempre que a matriz for simétrica, a decomposição em autovetores vai acontecer
trazendo um forte signi�cado geométrico. A decomposição da matriz em valores singulares mantém
as propriedades da decomposição em autovetores, o que se aplica em toda a matriz, garantindo sua
aplicabilidade.
Podemos utilizar menos memória e tempo de processamento ao utilizar algoritmos randomizados
para obter a aproximação maior que os algoritmos determinísticos convencionais, na decomposição
SVD.  De acordo com SOUZA & CLARO (2014), a LSI permite recuperar documentos semanticamenterelacionados mesmo que não possuam as palavras-chave da busca. As dimensões ótimas, na busca,
tem alta dependência com a distribuição de palavras e do nível de complexidade dos documentos
mapeados, ou seja, a estrutura completa da análise deve ser levada em conta. Sendo que a escolha
pela dimensão ótima geralmente possui ajuste humano.
Com o LSI processado, compara-se a similaridade de dois documentos encontrando seus vetores
correspondentes calculando o cosseno do ângulo gerado pelos vetores. Para que a busca pelos
termos dentre os documentos mais relevantes, deve-se considerar a sequência dos termos sendo o
documento D componente do conjunto central de documentos envolvidos no modelo de
conhecimento.
Na prática
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 17/49
Temos a aplicação no trabalho de (LANDAUER et al, 1998), avaliando a LSI, onde os autores
mostraram que o ângulo entre sinônimo e os antônimos possuem uma média de cosseno entre os
vetores 12 (doze) vezes maior do que a mesma medida de similaridade entre palavras não
relacionadas.
Com a realização de uma avaliação por capacidade no modelo de conhecimento em aprender
representações quanto ao signi�cado das palavras, temos o trabalho de (DUMAIS et al, 1997) que
testaram o quão bem o modelo se comportaria em um experimento realizado com um questionário
de 80 questões do tipo sinônimos, sendo dado uma palavra de teste, o modelo deveria decidir qual a
resposta mais altamente associada de um grupo com quatro opções. As decisões foram tomadas
através da escolha de uma resposta que apresentou como resultado o maior valor de cosseno entre
ele e a palavra avaliada.
Concluindo, a LSI foi essencial em documentos educacionais correspondentes ao nível de leitura do
estudante com o propósito de melhora na aprendizagem (KINTSCH, 1994).
Alocação de Dirichlet Latente (LDA - Latent
Dirichlet Allocation)
O algoritmo Latent Dirichlet Allocation (LDA) consistem em aprendizado não supervisionado que
tenta compreender em vários documentos ou conjunto de palavras de categorias distintas. Como a
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 18/49
categorização nos documentos é não supervisionada, a estrutura pode não ser similar a como um
humano geralmente organiza. Os tópicos constituem uma linha de aprendizado em que são
analisados a probabilidade de ocorrência de cada palavra nos documentos em si, que são
combinadas em tópicos.
Dois documentos que se mostram semelhantes os quais não são iguais, porém espera-se que usem
um subconjunto de palavras compartilhadas trazendo tal semelhança. Com isso o LDA deve capturar
esse grupo de palavras e a utilizar como categorias. Como exemplo, temos algo extremamente
simples, levando em conta um conjunto único de palavras e suas ocorrências: comer, dormir,
brincar, miar e latir. Os tópicos de�nidos pela LDA seriam:
Quadro 3.1. Tópicos LDA
Fonte: Amazon SageMaker, 2020
Veri�camos, visualmente, que a probabilidade é de que o tópico 1 sejam gatos, pois miam e dormem
mais, e o tópico 2 seja sobre cães, que brincam e latem. Podemos ainda levar em consideração que
nesses textos não aparece a palavra cão ou gato.
Tópico Comer Dormir Brincar Miar Latir
Tópico 01 0.1 0.3 0.2 0.4 0.0
Tópico 02 0.2 0.1 0.4 0.0 0.3
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 19/49
Assim como o LSI se utilizando do SVD na aplicação para a redução da dimensionalidade é de
fundamentação estatística rigorosa, pois é feita especi�camente para a análise de toda a estrutura
textual utilizada no modelo de negócio (corpus). No LDA, temos que a utilização de inferência
bayesiana, auxiliam quando temos vários níveis estruturais.
A inferência bayesiana se origina da probabilidade à posteriori através de combinações em um
evento, pelas regras de Bayes vinda com a informação gerada por amostragem (verossimilhança)
por um modelo probabilístico com dados observados.
Levando em consideração nosso modelo vetorial, em que todos os documentos envolvidos na base
de conhecimento, o que importa são as palavras envolvidas e não a estrutura textual, e dessa forma
construirmos métodos computacionais mais e�cientes. O modelo LDA, leva tais considerações de
forma que:
1. A �m de manter o modelo vetorial, cada palavra corresponde a um vetor cuja posição não-nula
refere-se ao seu índice na matriz com valor 1. Sendo que a base no espaço vetorial, gerado pelas
palavras, formalmente possui dimensão n . E associamos a i-ésima palavra ao vetor v , sendo:
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 20/49
2. Todo documento é uma sequência de palavras de�nidos por d = ( ).
3. A coleção de documentos abordados denomina-se m de�nidos por composição D = (
).
A proposta do LDA é de que a alta probabilidade de similaridade não seja notado somente aos
documentos do modelo de negócio mas ser aplicados em documentos externos similares a �m de
considerar que as palavras como componentes em si são independentes e identicamente
distribuídas.
Sendo a distribuição à posteriori intratável para realizar inferências exatas, é necessário estimar os
parâmetros da distribuição aproximadamente. Há uma grande variedade de algoritmos que podem
ser considerados para LDA, incluindo a aproximação de Laplace e Monte Carlo via Cadeias de
Markov (JORDAN, 1998).
, , … ,w0 w1 wn
, , … ,d0 d1 dn−1
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 21/49
Buscando encontrar os parâmetros α e β que maximizam a log-verossimilhança dos dados através
da estrutura do corpus de�nida por D = ( ) temos a função:
Como descrito, percebe-se que a quantidade p(w|α, β) não é computada de forma tratável, porém
através de uma boa aproximação, com algoritmos que auxiliem a encontrar estimadores de máxima
verossimilhança para os parâmetros α e β.
Na Prática
Temos a utilização do LDA em tratamento de bibliotecas de imagem feita por  Sivic et al (SIVIC et al.,
2005). No artigo citado, as imagens são referenciadas como sendo os documentos, as palavras-
chaves representam as palavras nos vetores e as categorias de objetos representam os tópicos. O
modelo não supervisionado com base no LDA demonstrado por Sivic, mostra desempenho
satisfatório comparado a algoritmos com 400 imagens marcadas a mão para de�nição das classes
de treinamento. Sendo as principais vantagens:
1. Representação de baixa dimensionalidade
2. Não supervisionado
3. Representação de tópicos intuitivos
4. Categorização simultânea
, , … ,d0 d1 dn
l (α,  β)   =   log p(  | α,  β)∑
d=1
M
wd
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 22/49
5. Polissemia visual onde a mesma palavra-chave encontrada em dois contextos diferentes
se diferenciando.
Com isso constatamos a capacidade da LDA permitir inferências na relevância dos tópicos e com isso
sumarizar os textos da estrutura dos documentos inseridos no corpus da base de conhecimento.
praticar
Vamos Praticar
Nos dias de hoje a existência de uma quantidade gigantesca de documentos armazenados em diversos tipos
de meios além de bancos de dados, e do volume de informações contidas no ambiente de Big Data. Em
relação a mineração de dados desse tipo de material é correto a�rmar:
a) Podemos utilizar a regressão logística para a busca em documentos, sem adaptação, se torna
viável pois podemos realizar análise a longo prazo
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 23/49
Feedback: alternativa incorreta , pois a regressão logística trabalhacom valores numéricos o que sem
nenhuma adaptação inviabiliza a utilização da técnica.
b) Os únicos modelos a serem utilizados no processamento de linguagem natural nos dias de hoje
são o LSI e o LDA, sendo uma área a explorar.
Feedback: alternativa incorreta , pois a linguagem natural tem sido motivo de inúmeros estudos nos
dias de hoje, e temos diversas ferramentas que auxiliam no processo como o NLTK entre outras
ferramentas e algoritmos.
c) Para ser tratado um grande volume de documentos é preciso convertê-los do formato de origem
para bancos de dados convencionais para rodar os algoritmos.
Feedback: alternativa incorreta , pois a forma que os dados são tratados na origem é muito relativo
ao algoritmo utilizado e o tipo de entrada que será feita, não obrigatoriamente deve-se levar tudo a
um banco de dados.
d) LSI é uma das técnicas utilizadas muito útil para um grande volume de texto analisando grupos
de palavras semelhantes.
Feedback: alternativa correta , pois LSI consiste em um método de extração que demonstra o
signi�cado semântico  de palavras através de cálculos estatísticos aplicados a um grande volume de
textos.
e) LDA consiste em aprendizado supervisionado com foco no aprendizado automatizado através do
estudo semântico do texto
Feedback: alternativa incorreta , pois o LDA é um processo de aprendizado não supervisionado que
tenta compreender em vários documentos ou conjuntos de palavras de categorias distintas.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 24/49
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 25/49
Árvores de decisão diferente dos métodos estudados anteriormente (LDA e LSI), são métodos de
aprendizado de máquina que podem ser supervisionado, não supervisionado ou semi-
supervisionado em estudos mais recentes, não parametrizado, muito utilizado para classi�cação e
regressão.
Árvores de Decisão paraÁrvores de Decisão para
Classi�caçãoClassi�cação
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 26/49
A estrutura de uma árvore é muito semelhante a um �uxograma, algo bem conhecido de forma
geral, desde que esse �uxograma não contenha um loop pode ser considerado uma árvore de
decisão. Árvores nada mais são do que estruturas de dados conjuntas com elementos que
armazenam informações chamadas de nós . Nós são representados no �uxograma sendo os
retângulos que representam as atividades. Toda árvore possui um nó chamado raiz , onde se inicia
as estruturas em si, e as ligações entre a raiz e seus elementos, denominamos �lhos e assim segue
hierarquicamente. um nó que não possuem �lhos é um nó folha ou terminal.  A árvore de decisão
em sua estrutura de�ne em seus nós as regras a serem utilizadas, e as decisões se demonstram nas
folhas sendo as mais convenientes a serem utilizadas.
A árvore de decisão é uma técnica muito utilizada em classi�cação devido ao fato do conhecimento
adquirido se de�nir em regras, que podem ser expressas na linguagem natural, o que facilita o
entendimento pelas pessoas.
Principais Conceitos à Indução de Árvores de
Decisão.
Ao ser criada, o uso de uma árvore de decisão é rápido computacionalmente falando, e a facilidade
que se tem ao interpretar sua estrutura é algo vantajoso ao seu favor. Porém a construção pelo
processo de indução pode acarretar uma alta demanda computacional. Mesmo que demonstrado
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 27/49
anteriormente que sua estrutura pode ser manual pela abordagem top-down, as principais
demandas ocorrem por processos automáticos pela abordagem bottom-up.
Há várias maneiras de se estruturar a partir dos atributos de uma base de dados, de forma
exaustiva, o número de decisões formadas cresce fatorialmente com o aumento dos atributos. Logo
percebe-se que o custo computacional torna inviável a estrutura de uma árvore de decisão ótima.
Mesmo assim o resultado satisfatório ocorre em tempo satisfatório.
Top-down: Indução para Árvore de Decisão.
Conhecido como Top-down Induction of Decision Tree (TDIDT), se baseia em muitos algoritmos de
indução dentre os mais conhecidos estão o ID3 (QUINLAN, 1986), C4.5 (QUINLAN, 1993) e CART
(BREIMAN et al., 1984).
O TDIDT de�ne como regras de decisão na formação da árvore com sucessivas divisões dos modelos
através dos valores dos atributos preditivos, de forma recursiva. O algoritmo se baseia em três
possibilidades levando em consideração um conjunto T com classes :
1. Conjunto T com um ou mais objetos contidos na classe , sendo a árvore T um nó folha
que identi�ca a classe .
2. Conjunto T não possui objetos. A árvore de decisão é um nó folha, sendo a classe
associada por informação externa.
3. Conjunto T possui exemplos de N classes. Dessa forma ocorre a divisão de T em
subconjuntos que se tornam classes únicas.
, , … ,C1 C2 Ck
Cj
Cj
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 28/49
O algoritmo TDIDT é recursivo de busca ‘gulosa’ em busca dos melhores atributos em que dividem o
conjunto em subconjuntos, sendo que inicialmente são todos parte de um único nó raiz.
Escolha dos Atributos Preditivos
É de�nido um critério de seleção para associação dos nós da árvore, existem diferentes critérios
entre diversos algoritmos de indução da árvore de decisão. São de�nidos como distribuição das
classes antes e depois da divisão. A divisão que a maioria dos algoritmos utiliza é a univariável, onde
cada nó interno divide-se baseado em um único atributo que o algoritmo tenta encontrar o melhor
atributo para a divisão.
Os critérios de seleção mais utilizado para uma melhor divisão, é a busca pelos dados de um nó pai
diminuindo a impureza dos nós �lhos. A minimização de impureza deixa a distribuição de classes
desbalanceadas. A impureza é nula quando todos os nós pertencem a uma mesma classe, e se torna
máxima se tiver o mesmo número de exemplos em cada classe.
Ganho de Informação
O ganho da informação se utiliza da entropia para medir a impureza pelo algoritmo ID3. Para de�nir
a condição de teste sendo boa é feito a comparação do grau de entropia do nó pai antes da divisão e
a entropia dos nós �lhos após a divisão. O atributo com maior diferença é a condição teste
escolhida, cujo ganho é dado pela equação:
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 29/49
Sendo o número de valores de nós �lhos, N é o total de objetos nó pai e N(vj) o número de
exemplos associados ao  nó �lho .
O ganho de informação tem como atributo teste o que gera uma maximização do ganho de
informação. O maior problema se encontra na preferência por atributos com muitos valores
possíveis.
Razão de Ganho
Foi proposto em QUINLAN (1993) a razão do ganho, sendo essa o ganho de informação relativa
como critério avaliativo de�nida pela equação como:
razão de ganho (nó) = 
A razão não pode ser de�nida quando temos o denominador igual a zero, além do que, a razão de
ganho favorece ao denominador com valores pequenos.
Métodos de Poda
Ao serem criadas, árvores de decisão podem possuir muitas arestas que re�etem ruídos ou erros.
Isso gera Over�tting (sobre ajustes), o que impede a generalização do modelo. Para realizar esses
ganho  =  entropia  (pai)   −   [ entropia  ( )]∑
j=1
n N ( )vj
N
vj
n
vj
ganho
entropia (n )ó
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 30/49
ajuste são   realizadas métodos de poda (pruning), consequentemente temos uma árvore mais
simples facilitando a compreensão pelo usuário.
Temos o método pré-podaque é executado no processo de construção, em que o processo encerra
sua divisão dos atributos gerando um nó folha. Como critério pode ser utilizado o ganho de
informação.
A p ós-poda é realizada após a criação da árvore de decisão, retirando ramos completos, tudo que
está abaixo de um nó interno é removido e transforma-se em folha, representando a classe que se
destaca no ramo. O algoritmo calcula a taxa de erro para veri�car a necessidade de poda, da mesma
forma para evitar que a poda aconteça.
Os métodos que são comumente utilizados para a poda são: Cost Complexity Pruning, Reduced Error
Pruning, Minimum Error Pruning (MEP), Pessimistic Pruning, ErrorBased Pruning (EBP), Minimum
Description Length (MDL) Pruning, Mininum Message Length (MML) Pruning, Critical Value Pruning (CVP),
OPT e OPT-2.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 31/49
Algoritmos de Indução de Árvore de Decisão.
Demonstraremos os algoritmos ID3, C4.5 e CART, porém existem outros que podem ser pesquisados
para aprofundar no assunto, são eles:  NBTree, ADTree, LMT e BFTree.
saiba mais
Saiba mais
O Gradiente Boosting Machine é um meta-algoritmo para
aprendizado de máquina supervisionado, muito utilizado
em situações de classi�cação e regressão conforme tratados
nessa etapa. Seu princípio está na produção de previsões e
classi�cações advindas de modelos preditivos considerados
fracos combinados via ensemble learning reduzindo assim a
viese dos algoritmos.
Fonte: Elaborado pelo autor
ACESSAR
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 32/49
https://mineracaodedados.wordpress.com/tag/arvores-de-decisao/
ID3
Foi um dos primeiras técnicas envolvendo árvore de decisão, sendo elaborado baseado em sistemas
de inferência e em de sistemas de aprendizagem. É denominado um algoritmo recursivo de ‘busca
gulosa’, buscando atributos que melhor dividem a estrutura em sub-árvores. Sua principal limitação
se encontra em que só trata de atributos categóricos não ordinais, não sendo apresentado atributos
contínuos, devendo estes serem discretizados préviamente.
Utiliza o ganho de informação para gerar a melhor divisão, entretanto esse critério não limita o
número de divisões o que pode gerar árvores complexas. E o mesmo não apresenta métodos pós-
poda o que poderia melhor organizar as árvores mais complexas.
C4.5
Demonstra uma evolução sobre o ID3, sendo que ele consegue lidar tanto com atributos categóricos
quanto contínuos. Para trabalhar com os atributos contínuos é de�nido uma divisão dos exemplos
de forma binária, aqueles que possuem valor maior que o limiar e os que são menores ou iguais.
Se utiliza da razão de ganho para encontrar o atributo que se comporta melhor como  divisor, tal
medida se mostra superior ao ganho de informação, trazendo árvores precisas e menos complexas.
Com isso lidando com atributos de custos diferentes. Possui método pós-poda, e faz busca na árvore
de decisão de baixo para cima transformando em nós folhas ramos sem ganho signi�cativo.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 33/49
CART
O algoritmo CART (Classi�cation and Regression Trees) é um método não parametrizado induzindo
tanto árvores de classi�cação quanto de regressão, isso ligado ao atributo nominal para classi�cação
ou contínuo para regressão.
Sua principal vantagem está na grande capacidade de pesquisa entre os dados mesmo quando não
se apresentam em evidência. Seus resultados apresentam grande simplicidade na sua
demonstração e legibilidade da estrutura. As árvores geradas são sempre binárias sendo percorrida
da raiz às folhas através de respostas simples.
CART possuem tratamento diferenciado para atributos ordenados e permite a combinação linear
entre os atributos. Diferente dos outros algoritmos que se utilizam da pré-poda, o modelo sugerido,
realiza pós-poda reduzindo o fator custo-complexidade. Segundo pesquisas, esta técnica é muito
e�ciente e gera árvores mais simples, precisas e com boa capacidade de generalização.
praticar
V P ti
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 34/49
p
Vamos Praticar
Árvores de decisão são métodos de aprendizado de máquina que pode ser supervisionado, não
supervisionado ou semi supervisionado, assim como não parametrizados na iniciação. São muito utilizados
na classi�cação e em funções de regressão.Em relação às árvores de decisão é correto a�rmar:
a) Uma árvore de decisão para melhor entendimento pode se comparar a um �uxograma de forma
completa, sendo as atividades os nós da árvore.
b) Toda árvore possui um nó raiz que levando pela analogia é a onde se encerra a estrutura da
árvore sendo o resultado  da base de conhecimento gerada
c) O nó folha ou terminal são de�nidos como os nó que não possuem �lhos, porém depois que
possui tam determinação não poderá virar um nó com �lhos
d) A árvore de decisão é uma técnica muito utilizada em classi�cação devido ao fato do
conhecimento se de�nir em regras.
Feedback: alternativa correta , pois a  árvore de decisão se torna uma opção vantajosa pela forma
que o conhecimento se distribui entre os seus nós os quais são as regras de formação da base
estrutural da decisão.
e) Na estruturação de uma árvore supervisionada a estruturação de seus nós acontece de forma
exaustiva até complementarem a base de conhecimento.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 35/49
Esse é um algoritmo de aprendizado simples que produz excelentes resultados. Como o nome
sugere é criado uma �oresta aleatória, que nada mais é que um conjunto de árvores de decisão
preparadas com o método bagging .
O método bagging (Bootstrap AGGregatING) é uma técnica de treinamento de coleções instáveis. É
criada uma coleção com classi�cadores diferentes entre si por amostragem aleatória, independente
Florestas AleatóriasFlorestas Aleatórias
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 36/49
e uniforme.
As árvores de decisão são combinadas, com erro médio de composição, utilizando o bagging. Com
isso temos menos casos de over�tting , o que trará uma e�cácia pois o treinamento do algoritmo de
árvores de decisão são realizados aleatoriamente e isso faz com que o resultado variem muito e
seus erro sejam compensados.
A �oresta aleatória é uma estrutura de bagging , onde a composição por árvores é usado como base.
São criados a partir de uma grande amostra de dados. O método de poda não é utilizado. Na
classi�cação a quantidade de características corresponde a , sendo que diferentes grupos de
características caem em diferentes árvores que são treinadas em diferentes amostras. O modelo
grá�co segue com a �gura 3.4.
√n
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 37/49
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 38/49
O algoritmo é muito e�caz com problemas práticos, pois fornece um treinamento de alta qualidade
com uma base extensa em aleatoriedade no processo de construção. As principais vantagens do
algoritmo são:
Aprendizado em alta velocidade
O algoritmo se conclui com um número �xo de operações
insensível aos picos de dados pela amostragem aleatória
Não precisa de uma con�guração precisa dos parâmetros
As principais desvantagens são:
O modelo ocupa um espaço considerável de memória pois o modelo é construído a partir
de K árvores em um conjunto de treinamento de tamanho N .
Figura 3.4. Floresta aleatória
Fonte: Elaboradopelo autor
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 39/49
O modelo de treinamento é mais lento que outros algoritmos correspondentes
Propenso a Over�tting , quando as tarefas envolvidas possuem muito ruído
reflita
Re�ita
Na formação de uma �oresta aleatória mesmo que
sua formação seja de várias árvores de decisão. a
estrutura de erro utilizado como parâmetro é do
erro médio e não a soma dos mesmos o que
diminui o erro quadrático médio e diminui a
variância do classi�cador. Dessa forma percebemos
que é muito mais vantajoso utilizar a estrutura do
algoritmo de uma �oresta do que várias estruturas
de árvores de forma paralela.
Fonte: Elaborado pelo autor
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 40/49
A �oresta aleatória, mesmo possuindo desvantagens, possuem uma performance de resultados
excelente. Além de poder trabalhar com dados de entrada tanto binários, categóricos e numéricos.
Além do que é possível desenvolver um modelo num curto espaço de tempo.
praticar
Vamos Praticar
Uma �oresta aleatória consiste  em um algoritmo de aprendizado simples que produz excelentes resultados.
Como o nome sugere é formada por um conjunto de árvores de decisão com um �m em comum, sendo
isso, é correto a�rmar que:
a) Uma �oresta aleatória é criada através de algoritmos de agregação que geram regras de
amostragem de�nida apoiando a base de conhecimento
b) O método Bagging nada mais é que uma regra de treinamento de coleções estáveis com
classi�cadores semelhantes
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 41/49
c) Uma �oresta aleatória pode ser uma coleção de estruturas geradas por agregação de estruturas
que podem ser árvores de decisão ou outro modelo aleatório.
d) Uma �oresta aleatória é formada por uma estrutura de bagging onde sua composição é feita por
árvores a partir de uma grande base de dados.
Feedback: alternativa correta , pois como o próprio nome sugere uma �oresta é formada por um
conjunto de árvores de decisão criadas aleatoriamente de uma grande base de dados.
e) Na classi�cação de uma �oresta aleatória vinda de uma grande base de dados possui um
conjunto de N características estruturais.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 42/49
indicações
Material
Complementar
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 43/49
FILME
O impacto social dos algoritmos de recomendação
Ano: 2018
Comentário: Dierê vem com uma qualidade excepcional e
conhecimento su�ciente vai até o TEDXMauá 2018 compartilhar a
cultura analítica, “Data for good” e o impacto causado pelos algoritmos
de recomendação. Compartilhe desse conhecimento!
TRA ILER
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 44/49
LIVRO
Analítica de Dados com Hadoop
Benjamin Bengfort e Jenny Kim
Editora: Novatec
ISBN: 9788575225219
Comentário: Um grande conjunto de dados para ser analisado exige a
utilização de técnicas estatísticas e de aprendizado de máquina para
que tenham um desempenho satisafatório. Você está pronto para
utilizar essas técnicas? Neste livro encontramos o porquê o ecossistema
Hadoop é o mais recomendado para essa tarefa. Ao invés do foco estar
na implantação ou no desenvolvimento de software com foco na
computação distribuída, você deve se concentrar nas análises referentes
aos dados e técnicas de armazenamento de dados que o Hadoop traz e
nos �uxos de trabalho ordenados que o framework consegue gerar.
Con�ra!
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 45/49
conclusão
Conclusão
As estruturas de classi�cação tem com função principal agilizar o processo de mineração dos dados
tornando o resultado mais e�caz assim como diminuir o custo computacional de utilização de
memória. Temos técnicas mais e�cazes com dados numéricos como agrupamento que é um tipo de
classi�cador, assim como para conteúdos formados por linguagem natural através dos métodos LSI
e LDA. E com as árvores de decisão formamos estruturas de aprendizado que melhoram o tempo de
resposta em estruturas de dados grandes e para automatizar um pouco mais formamos as �orestas
aleatórias formadas por árvores de decisão que apesar do custo computacional ser um pouco
elevado a precisão do resultado gerado é muito elevado e acaba por compensar tal dispêndio.
referências
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 46/49
Referências
Bibliográ�cas
AMAZON SAGEMAKER. GUIA DO DESENVOLVEDOR. Disponível em: Acesso em: 25
Jan. 2019.
BREIMAN, L., FRIEDMAN, J. H., OLSHEN, R. A., & STONE, C. J. ; Classi�cation and Regression Trees .
Wadsworth. 1984
CASTANHEIRA, L.G.; Aplicação de Técnicas de Mineração de Dados em Problemas de
Classi�cação de padrões . UFMG, Belo Horizonte. 2008. disponível em: Acesso em 21 Dez. 2019.
DMITRIEVSKY, M.; Floresta de decisão aleatória na aprendizagem por reforço. Metatrader 5. 2018.
disponível em: Acesso em: 24 Dez. 2019
DUMAIS, S.; LETSCHE, T.; LITTMAN, M.; LANDAUER, T.; Automatic cross-language retrieval using
latent semantic indexing . In AAAI Symposium on CrooLanguage Text an Speech Retrieval.
American Association for Arti�cial Intelligence. 1997
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 47/49
https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/sagemaker-dg.pdf#lda
https://www.ppgee.ufmg.br/defesas/349M.PDF
https://www.mql5.com/pt/articles/3856
ESTATSITE.COM. REGRESSÃO Logística: conceitos essenciais e modelo. disponível em: Acesso em: 22 Dez.
2019.
FOLTZ, P. W.; DUMAIS, S. T. Personalized information delivery: An analysis of information
�ltering methods . Communications of the ACM, ACM, v. 35, n. 12, p. 51–60, 1992.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático . São Paulo: Elsevier Editora Ltda,
2005.
JORDAN, M. I. Learning in graphical models . [S.l.]: Springer Science & Business Media, 1998.
KINTSCH, W. Text comprehension, memory, and learning . American psychologist, American
Psychological Association, v. 49, n. 4, p. 294, 1994.
LANDAUER, T. K.; FOLTZ, P. W.; LAHAM, D. An introduction to latent semantic analysis . Discourse
processes, Taylor & Francis, v. 25, n. 2-3, p. 259–284, 1998.
MARTIN, D. I.; BERRY, M. W. Mathematical foundations behind latent semantic analysis.
Handbook of latent semantic analysis . Mahwah, NJ: Lawrence Erlbaum Associates, p. 35–56, 2007.
PORTAL ACTION. Análise de regressão. disponível em: Acesso em: 22 Dez. 2019.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 48/49
https://estatsite.com/2018/08/29/regressao-logistica-conceitos-e-formula/
http://www.portalaction.com.br/analise-de-regressao/regressao-logistica
http://www.portalaction.com.br/analise-de-regressao/regressao-logistica
QUINLAN, J. R.; C4.5: programs for machine learning . Morgan Kaufmann Publishers Inc., San
Francisco, CA, USA. 1993.
QUINLAN, J. R. Induction of decision trees. Machine Learning . 1986 Disponível em:> acesso em: 23 Dez. 2019
ROZA, F. S.; Aprendizagem de máquina para apoio à tomada de decisão em vendas do varejo
utilizando registros de vendas . Projeto de conclusão de Curso: Engenharia de Controle e
automação. UFSC.   Santa Catarina. 2016. Disponível em: Acesso em: 23 Jan. 2020
RUSSELL, S.; NORVIG, P. Arti�cial Intelligence: A Modern Approach . New Jersey: Prentice-Hall,
1995.
SCARPA, A.D. Técnicas de Processamento de Linguagem Natural Aplicadas às Ciências Sociais .
Rio de Janeiro: Fundação Getúlio Vargas, 2017.
SOUZA, E.N.P.; CLARO, D.B.; Detecção Multilíngue de Serviços Web Duplicados Baseada na
Similaridade Textual . SBSI:UFBA. Salvador. 2014. Disponível em: . Acesso em: 23 Jan. 2020.
30/10/2024, 10:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_3/ebook/index.html 49/49
https://link.springer.com/article/10.1007/BF00116251
https://repositorio.ufsc.br/bitstream/handle/123456789/171569/PFC_2016-1%20Felippe_Roza.pdf?sequence=1&isAllowed=y
https://repositorio.ufsc.br/bitstream/handle/123456789/171569/PFC_2016-1%20Felippe_Roza.pdf?sequence=1&isAllowed=y

Mais conteúdos dessa disciplina