Buscar

GRA1433 MINERAÇÃO DE DADOS GR2164211 - 202110 ead-11507 03

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 1/34
MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS
ALGORITMOS DEALGORITMOS DE
CLASSIFICAÇÃOCLASSIFICAÇÃO
Autor: Esp. Wesley Soares de Souza
Revisor : Bruno Roberto Nepomuceno Matheus
I N I C I A R
1.00
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 2/34
introdução
Introdução
Nesta unidade iremos aprender sobre métodos de classi�cação dos dados a
serem minerados para gerar a nossa base de conhecimento sobre
determinado problema encontrado. A tarefa de�nida como classi�cação
compreende na obtenção de modelos baseados num conjunto originado em
uma grande base de dados. a tarefa de regressão pode ser de�nido como um
tipo de classi�cação porém trabalha de forma e�caz com dados numéricos.
Para classi�carmos conteúdos originados de um grande conjunto de
documentos que possuem conteúdo textual é melhor trabalhado através de
técnicas LSI e LDA. Tais estruturas tratadas até o momento podem ser
transformadas em árvores de decisão que são estruturas próximas a um
�uxograma onde seus nós são formados por de�nições que gerarão as regras
que comporão os nós raízes das estruturas. E por �m podemos gerar
�orestas aleatórias compostas por essas árvores de decisão de forma
aleatória o que permite um resultado e�ciente na estruturação de nossa base
de conhecimento.
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 3/34
A tarefa de�nida como classi�cação compreende-se na catalogação de um
grupo de registros de um banco de dados em classes organizadas para que
assim os dados possa ser melhor utilizados conforme a necessidade. A
classi�cação consiste em obter um modelo baseado em um conjunto de
exemplos que descrevem uma função conhecida. (CASTANHEIRA, 2008)
A tarefa de regressão consiste em algo bem próximo a classi�cação porém só
trabalha com atributos numéricos. Os registros do banco de dados são
também catalogados porém de forma numérica. A regressão linear é uma das
formas mais simples de aplicação da regressão, sendo abstraído uma função
linear.
Classi�icação
Na �gura 3.1. demonstramos, de forma visual, a função (x, f(x)), onde x é o
parâmetro de entrada e f(x) a saída da função,   a qual busca associar cada
registro xi do banco de dados com um rótulo categórico de uma classe yi.
Aonde pretende-se prever qual a classe em que cada registro se enquadra.
Tarefa de Classi�cação eTarefa de Classi�cação e
Regressão em Mineração deRegressão em Mineração de
DadosDados
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 4/34
Toda a hipótese de ligação entre o registro e sua classe denominamos de h, o
qual se torna o classi�cador. A identi�cação da função h consiste em um
processo de busca no espaço de hipóteses H, pela função que mais se
aproxime da função original f. Esse processo é denominado aprendizado
(Russell e Norvig, 1995). Obtêm-se todas as hipóteses através de algoritmos
de aprendizado.
Não está no campo da possibilidade que os computadores aprendam de
forma tão e�ciente como as pessoas, porém os algoritmos criados são tão
Figura 3.1. - Associação entre registros de dados e classes 
Autor:  PASSOS et al, 2005, P.67
saiba mais
Saiba mais
Machine Learning – ou, no bom português: aprendizado de máquina – está cada
vez mais em voga no mercado tech. Tudo isso devido aos inúmeros cases de
sucesso como: Net�ix, Spotify, Amazon e tantas outras.
Fonte: Elaborado pelo autor.
ACESSAR
https://blog.geekhunter.com.br/aprendizado-de-maquina-e-seus-algoritmos/
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 5/34
e�cientes em várias tarefas de aprendizado, e os estudos teóricos sobre o
assunto tem permitido a criação e aperfeiçoamento de novas técnicas. O
aprendizado de máquina está ligado ao campo da inteligência arti�cial e tem
como principal abordagem tornar as máquinas aptas a aprender.
O objetivo principal do aprendizado de máquina é generalizar além
dos exemplos existentes no conjunto de treinamento, pois
independente da quantidade de dados existentes é muito improvável
que, durante os testes, exatamente os mesmos exemplos apareçam.
(ROZA,2016, p.16)
Não existe um algoritmo de classi�cação que possua um desempenho melhor
que o outro, o que signi�ca que a cada nova aplicação, os algoritmos devem
ser testados a �m de identi�car o que trará os resultados com melhor
e�ciência. Podemos realizar uma medida de desempenho através da acurácia
(Acc(h)), onde h é a determinância da hipótese, a precisão do classi�cador:
Acc(h) = 1 - Err(h), onde Err(h) denomina a taxa de classi�cação com erro onde
poderá ter como retorno 1 se for verdadeiro e 0 se for falso em cada situação
de teste ou desenvolvimento.
Uma vez que existe a ação da classi�cação dos dados para a geração do
modelo de aprendizado alguns ajustes podem ocorrer conforme são
detectados falhas para que o resultado se torne mais e�ciente. A principal
função no ajuste é identi�car a raiz do modelo insatisfatório, para que
medidas corretivas sejam adotadas. As ações que podem ocorrer com a curva
de aprendizado segue conforme a �gura 3.2, Under�tting, Balanced e
Over�tting, aonde o padrão que deve ser alcançado é o balanced:
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 6/34
Denominamos Under�tting (sub ajuste) quando o modelo ajusta-se pouco
ou de forma insatisfatória aos dados de treinamento. Isso acontece quando o
modelo não consegue veri�car um relacionamento entre as entradas (x) com
determinadas classes (y).
O Over�tting (sobreajuste)   ocorre quando o classi�cador se ajusta em
excesso nos dados de avaliação mesmo que ocorra de forma satisfatória nos
dados
de treinamento. Essa ocorrência tem ligação com o fato de que o modelo
memoriza os dados reconhecidos porém não consegue satisfatoriamente
fazer a generalização do que não foi visto.
Para que o desempenho seja satisfatório precisamos fazer com que a linha de
aprendizado tenha um desempenho satisfatório (balanced). Para que isso
ocorra podemos realizar algumas ações quando ocorre um under�tting devido
aos recursos de entrada não serem su�cientes para descrever a classe de
destino. A adição de recursos de domínio e o aumento de produtos
cartesianos de recursos de entrada, assim como a diminuição do volume de
regularização.
Caso esteja ocorrendo um over�tting, a �exibilidade deve ser reduzida no
modelo. É necessário utilizar uma combinação de recursos que possam
diminuir os n-grams (dados de análise) e diminuir as classes numéricas, e
nesse caso aumentar o volume de regularização.
Regressão
Figura 3.2 - Métodos de correção 
Fonte: Elaborado pelo autor
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 7/34
Podemos realizar a regressão realizando a busca através de funções, lineares
ou não, mapeando registros do banco de dados com valores reais. Muito
semelhante a classi�cação, porém se restringe apenas a valores numéricos.
Temos como exemplo de situações a serem usados com a aplicação de
regressão: predição da soma da biomassa em uma �oresta, probabilidade de
sobrevivência de um paciente, predição de risco em investimentos
�nanceiros, limite de créditos e outras situações a�ns.
Regressão Logística
Consiste em uma forma estatística de modelar resultados binominais, ou seja,
de�nidos com 0 para falso ou sem sucesso, e 1 para verdadeiro ou sucesso no
resultado �nal. Uma regressão logística substitui uma regressão linear
quando a resposta que procuramos em uma análise a longo prazo como se,
“o indivíduovai pagar uma dívida?” diferente de “qual o valor da casa pelas
suas características?”. Podemos observar a diferença entre as duas estruturas
na �gura 3.3.
A logística se mostra mais vantajosa que a regressão linear, principalmente
quando falamos da normalidade e a linearidade. Não existe a função linear
entre as variáveis de entrada e suas respectivas classes. Sendo que , os
resíduos, ou dados desnecessários não precisam estar distribuídos
normalmente.
Figura 3.3. - Regressão linear X Regressão logística 
Fonte: Elaborado pelo autor.
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 8/34
O interesse nesse tipo de modelo é a probabilidade de saída, em relação a
inadimplência, por exemplo, estamos interessado na probabilidade do
recebimento da dívida. Então utilizamos a função logística que possui como
variável de resposta:
Analisando a probabilidade p dividida por 1-p, temos o odd ratio (razão de
chance), que apresenta a chance de sucesso em relação ao fracasso.
Por exemplo em uma situação a pessoa pode ter 90% de chance de ser uma
boa pagadora assim como 10% de ser inadimplente.
praticar
Vamos Praticar
saiba mais
Saiba mais
“O modelo de regressão logística é semelhante ao modelo de regressão linear. No
entanto, no modelo logístico a variável resposta Yi é binária. Uma variável binária
assume dois valores, como por exemplo, e denominados "fracasso" e
"sucesso", respectivamente. Neste caso, "sucesso" é o evento de interesse.”
Fonte: Portal Action (s/d)
ACESSAR
Y i = 0 Y i = 1
log ( )   =   + + +. . .+ xρ
1 − ρ
β0 β1x1 β2x2 βn
http://www.portalaction.com.br/analise-de-regressao/regressao-logistica
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 9/34
Leia o trecho a seguir:
“A tarefa de classi�cação é uma função de aprendizado que mapeia os dados de
entrada, ou conjunto de dados de entrada, em um número �nito de classes. Nele,
cada exemplo pertence a uma classe, entre um conjunto pré de�nido de classes”.
CASTANHEIRA, L.G.; Aplicação de Técnicas de Mineração de Dados em
Problemas de Classi�cação de padrões. UFMG, Belo Horizonte. 2008.
p.13.
Considerando os vários algoritmos de classi�cação existente é correto a�rmar que:
a) Utilizando problemas semelhantes existe a possibilidade do nível de acurácia ser diferente
entre situações distintas
b) Os ajustes no modelo somente podem ocorrer caso sejam detectadas falhas que impeçam a
veracidade da informação
c) O algoritmo de aprendizado de máquina, ou bias indutivo, pode ser de três tipos: Restrição,
Busca e lógico.
d) Cada tipo de aplicação tem um algoritmo correspondente que retorna o resultado esperado
com uma eficácia maior.
e) O algoritmo de aprendizado de restrição vem com a função de busca aonde sua ocorrência
existe quando a hipótese é incompleta
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 10/34
Podemos veri�car nos dias de hoje a existência de uma quantidade
gigantesca de documentos armazenados em diversos tipos de meios além de
bancos de dados, o volume de informações contidas no ambiente de Big Data.
Para que possamos minerar esse tipo de dado, propomos entre diversos
modelos existentes o LSI e LDA, que são técnicas de processamento em
linguagem natural na resolução de problemas.
Indexação Semântica Latente (LSI - Latent
Semantic Indexing)
LSI consiste em um método de extração e demonstração do signi�cado
semântico de palavras em determinado contexto, através de cálculos
estatísticos aplicados a um volume grande de documentos textuais.
Para que esse tipo de análise ocorra, o grupo de palavras a ser analisado, ou
seja um documento ou conjunto de documentos são distribuídos em matrizes
vetorizadas. Esses vetores são na verdade como um grande ‘saco de palavras’
sendo ignorado a posição de determinada palavra no texto mas sim a
LSI e LDALSI e LDA
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_1… 11/34
quantidade de vezes que determinada palavra aparece no contexto. Essa
matriz gerada se torna muito esparsa pois uma fração muito pequena das
palavras aparece em cada documento em determinadas circunstâncias o que
através do uso de diversas técnicas acaba consumindo um número reduzido
de memória, através, por exemplo, de um dicionário de chaves, com os
termos não nulos. Matrizes esparsas também se tornam úteis pois permitem
a execução de cálculos mais rápidos.
A LSI se utiliza da decomposição de valor singular (SVD), discutido
posteriormente, que podemos de�nir como uma análise fatorial, a qual
condensa uma grande matriz do tipo word-by-context para uma de menor
volume, porém sem perder as informações úteis dos dados. A análise fatorial
consiste em uma técnica para diminuição das variáveis em uma base de
dados, através de padrões de correlação, gerando um número menor de
variáveis não observadas pela estrutura bruta. A LSI traz através de
associações desconhecidas entre as palavras que compõem o vetor, podendo
ser induzidas por uma análise da forma em que essas palavras co-ocorrem
entre si. LSI também pode ser usado para determinar a semelhança de
palavras ou documentos com documentos externos a ele (MARTIN; BERRY,
2007).
Podemos de�nir a técnica em 4 passos segundo SCARPA (2017),
1. Construir uma matriz de documentos a partir do corpus, que condiz
na estrutura de todos os documentos da pesquisa
2. Fazer a decomposição SVD da matriz obtida
3. Escolher componentes principais
4. Utilizar uma métrica de semelhança, como por exemplo o cosseno,
para encontrar o documento mais semelhante. 
PCA e SVD
Conforme visto na unidade anterior a análise de componentes principais (PCA)
é responsável por diminuir a dimensionalidade dos dados. Podemos
considerar, como os pontos no grá�co PCA, como sendo as linhas de uma
matriz de�nida, com o conjunto de palavras utilizados no documento. A PCA
n
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 12/34
se liga ao conceito de decomposição em valores singulares (SVD). O valor
singular  da matriz M é um número real σ tal que temos um par de vetores
unitários (u,v):
                                                     e          
Quando temos uma matriz quadrada, relacionamos o conceito de autovetor.
Autovetor corresponde a um escalar λ como autovalor do operador linear A: V
→ V, se temos um vetor x diferente de 0 (zero) sendo que Ax = λx. Qualquer
vetor de x que satisfaça tal igualdade denomina-se como autovetor de A.
Sempre que a matriz for simétrica, a decomposição em autovetores vai
acontecer trazendo um forte signi�cado geométrico. A decomposição da
matriz em valores singulares mantém as propriedades da decomposição em
autovetores, o que se aplica em toda a matriz, garantindo sua aplicabilidade.
Podemos utilizar menos memória e tempo de processamento ao utilizar
algoritmos randomizados para obter a aproximação maior que os algoritmos
determinísticos convencionais, na decomposição SVD.  De acordo com SOUZA
& CLARO (2014), a LSI permite recuperar documentos semanticamente
relacionados mesmo que não possuam as palavras-chave da busca. As
dimensões ótimas, na busca, tem alta dependência com a distribuição de
palavras e do nível de complexidade dos documentos mapeados, ou seja, a
estrutura completa da análise deve ser levada em conta. Sendo que a escolha
pela dimensão ótima geralmente possui ajuste humano.
Com o LSI processado, compara-se a similaridade de dois documentos
encontrando seus vetores correspondentes calculando o cosseno do ângulo
gerado pelos vetores. Para que a busca pelos termos dentre os documentos
mais relevantes, deve-se considerar a sequência dos termos sendo o
documento D componente do conjuntocentral de documentos envolvidos no
modelo de conhecimento.
Na prática
Temos a aplicação no trabalho de (LANDAUER et al, 1998), avaliando a LSI,
onde os autores mostraram que o ângulo entre sinônimo e os antônimos
Mu  =  σv  v  =  σuM T
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 13/34
possuem uma média de cosseno entre os vetores 12 (doze) vezes maior do
que a mesma medida de similaridade entre palavras não relacionadas.
Com a realização de uma avaliação por capacidade no modelo de
conhecimento em aprender representações quanto ao signi�cado das
palavras, temos o trabalho de (DUMAIS et al, 1997) que testaram o quão bem
o modelo se comportaria em um experimento realizado com um questionário
de 80 questões do tipo sinônimos, sendo dado uma palavra de teste, o
modelo deveria decidir qual a resposta mais altamente associada de um
grupo com quatro opções. As decisões foram tomadas através da escolha de
uma resposta que apresentou como resultado o maior valor de cosseno entre
ele e a palavra avaliada.
Concluindo, a LSI foi essencial em documentos educacionais correspondentes
ao nível de leitura do estudante com o propósito de melhora na
aprendizagem (KINTSCH, 1994).
Alocação de Dirichlet Latente (LDA - Latent
Dirichlet Allocation)
O algoritmo Latent Dirichlet Allocation (LDA) consistem em aprendizado não
supervisionado que tenta compreender em vários documentos ou conjunto
de palavras de categorias distintas. Como a categorização nos documentos é
não supervisionada, a estrutura pode não ser similar a como um humano
geralmente organiza. Os tópicos constituem uma linha de aprendizado em
que são analisados a probabilidade de ocorrência de cada palavra nos
documentos em si, que são combinadas em tópicos.
Dois documentos que se mostram semelhantes os quais não são iguais,
porém espera-se que usem um subconjunto de palavras compartilhadas
trazendo tal semelhança. Com isso o LDA deve capturar esse grupo de
palavras e a utilizar como categorias. Como exemplo, temos algo
extremamente simples, levando em conta um conjunto único de palavras e
suas ocorrências: comer, dormir, brincar, miar e latir. Os tópicos de�nidos
pela LDA seriam:
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 14/34
Quadro 3.1. Tópicos LDA 
Fonte: Amazon SageMaker, 2020
Veri�camos, visualmente, que a probabilidade é de que o tópico 1 sejam
gatos, pois miam e dormem mais, e o tópico 2 seja sobre cães, que brincam e
latem. Podemos ainda levar em consideração que nesses textos não aparece
a palavra cão ou gato.
Assim como o LSI se utilizando do SVD na aplicação para a redução da
dimensionalidade é de fundamentação estatística rigorosa, pois é feita
especi�camente para a análise de toda a estrutura textual utilizada no
modelo de negócio (corpus). No LDA, temos que a utilização de inferência
bayesiana, auxiliam quando temos vários níveis estruturais.
A inferência bayesiana se origina da probabilidade à posteriori através de
combinações em um evento, pelas regras de Bayes vinda com a informação
gerada por amostragem (verossimilhança) por um modelo probabilístico com
dados observados.
Levando em consideração nosso modelo vetorial, em que todos os
documentos envolvidos na base de conhecimento, o que importa são as
palavras envolvidas e não a estrutura textual, e dessa forma construirmos
métodos computacionais mais e�cientes. O modelo LDA, leva tais
considerações de forma que:
1. A �m de manter o modelo vetorial, cada palavra corresponde a um vetor
cuja posição não-nula refere-se ao seu índice na matriz com valor 1. Sendo
Tópico Comer Dormir Brincar Miar Latir
Tópico
01
0.1 0.3 0.2 0.4 0.0
Tópico
02
0.2 0.1 0.4 0.0 0.3
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 15/34
que a base no espaço vetorial, gerado pelas palavras, formalmente possui
dimensão n. E associamos a i-ésima palavra ao vetor v, sendo:
2. Todo documento é uma sequência de palavras de�nidos por d = (
).
3. A coleção de documentos abordados denomina-se m de�nidos por
composição D = ( ).
A proposta do LDA é de que a alta probabilidade de similaridade não seja
notado somente aos documentos do modelo de negócio mas ser aplicados
em documentos externos similares a �m de considerar que as palavras como
componentes em si são independentes e identicamente distribuídas.
Sendo a distribuição à posteriori intratável para realizar inferências exatas, é
necessário estimar os parâmetros da distribuição aproximadamente. Há uma
grande variedade de algoritmos que podem ser considerados para LDA,
incluindo a aproximação de Laplace e Monte Carlo via Cadeias de Markov
(JORDAN, 1998).
Buscando encontrar os parâmetros α e β que maximizam a log-
verossimilhança dos dados através da estrutura do corpus de�nida por D = (
) temos a função:
Como descrito, percebe-se que a quantidade p(w|α, β) não é computada de
forma tratável, porém através de uma boa aproximação, com algoritmos que
, ,… ,w0 w1 wn
, ,… ,d0 d1 dn−1
, ,… ,d0 d1 dn
l (α,  β)   =   log p(  | α,  β)∑
d=1
M
wd
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 16/34
auxiliem a encontrar estimadores de máxima verossimilhança para os
parâmetros α e β.
Na Prática
Temos a utilização do LDA em tratamento de bibliotecas de imagem feita por
 Sivic et al (SIVIC et al., 2005). No artigo citado, as imagens são referenciadas
como sendo os documentos, as palavras-chaves representam as palavras nos
vetores e as categorias de objetos representam os tópicos. O modelo não
supervisionado com base no LDA demonstrado por Sivic, mostra
desempenho satisfatório comparado a algoritmos com 400 imagens
marcadas a mão para de�nição das classes de treinamento. Sendo as
principais vantagens:
1. Representação de baixa dimensionalidade
2. Não supervisionado
3. Representação de tópicos intuitivos
4. Categorização simultânea
5. Polissemia visual onde a mesma palavra-chave encontrada em dois
contextos diferentes se diferenciando.
Com isso constatamos a capacidade da LDA permitir inferências na relevância
dos tópicos e com isso sumarizar os textos da estrutura dos documentos
inseridos no corpus da base de conhecimento.
praticar
Vamos Praticar
Nos dias de hoje a existência de uma quantidade gigantesca de documentos
armazenados em diversos tipos de meios além de bancos de dados, e do volume de
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 17/34
informações contidas no ambiente de Big Data. Em relação a mineração de dados
desse tipo de material é correto a�rmar:
a) Podemos utilizar a regressão logística para a busca em documentos, sem adaptação, se torna
viável pois podemos realizar análise a longo prazo
b) Os únicos modelos a serem utilizados no processamento de linguagem natural nos dias de
hoje são o LSI e o LDA, sendo uma área a explorar.
c) Para ser tratado um grande volume de documentos é preciso convertê-los do formato de
origem para bancos de dados convencionais para rodar os algoritmos.
d) LSI é uma das técnicas utilizadas muito útil para um grande volume de texto analisando
grupos de palavras semelhantes.
e) LDA consiste em aprendizado supervisionado com foco no aprendizado automatizado através
do estudo semântico do texto
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 18/34
Árvores de decisão diferente dos métodos estudados anteriormente (LDA e
LSI), são métodos de aprendizado de máquina que podem ser
supervisionado, não supervisionado ou semi-supervisionado em estudos mais
recentes, não parametrizado, muito utilizado para classi�cação e regressão.
A estruturade uma árvore é muito semelhante a um �uxograma, algo bem
conhecido de forma geral, desde que esse �uxograma não contenha um loop
pode ser considerado uma árvore de decisão. Árvores nada mais são do que
estruturas de dados conjuntas com elementos que armazenam informações
chamadas de nós. Nós são representados no �uxograma sendo os retângulos
que representam as atividades. Toda árvore possui um nó chamado raiz,
onde se inicia as estruturas em si, e as ligações entre a raiz e seus elementos,
denominamos �lhos e assim segue hierarquicamente. um nó que não
possuem �lhos é um nó folha ou terminal.   A árvore de decisão em sua
estrutura de�ne em seus nós as regras a serem utilizadas, e as decisões se
demonstram nas folhas sendo as mais convenientes a serem utilizadas.
Árvores de Decisão paraÁrvores de Decisão para
Classi�caçãoClassi�cação
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 19/34
A árvore de decisão é uma técnica muito utilizada em classi�cação devido ao
fato do conhecimento adquirido se de�nir em regras, que podem ser
expressas na linguagem natural, o que facilita o entendimento pelas pessoas.
Principais Conceitos à Indução de Árvores
de Decisão.
Ao ser criada, o uso de uma árvore de decisão é rápido computacionalmente
falando, e a facilidade que se tem ao interpretar sua estrutura é algo
vantajoso ao seu favor. Porém a construção pelo processo de indução pode
acarretar uma alta demanda computacional. Mesmo que demonstrado
anteriormente que sua estrutura pode ser manual pela abordagem top-down,
as principais demandas ocorrem por processos automáticos pela abordagem
bottom-up.
Há várias maneiras de se estruturar a partir dos atributos de uma base de
dados, de forma exaustiva, o número de decisões formadas cresce
fatorialmente com o aumento dos atributos. Logo percebe-se que o custo
computacional torna inviável a estrutura de uma árvore de decisão ótima.
Mesmo assim o resultado satisfatório ocorre em tempo satisfatório.
Top-down: Indução para Árvore de Decisão.
Conhecido como Top-down Induction of Decision Tree (TDIDT), se baseia em
muitos algoritmos de indução dentre os mais conhecidos estão o ID3
(QUINLAN, 1986), C4.5 (QUINLAN, 1993) e CART (BREIMAN et al., 1984).
O TDIDT de�ne como regras de decisão na formação da árvore com
sucessivas divisões dos modelos através dos valores dos atributos preditivos,
de forma recursiva. O algoritmo se baseia em três possibilidades levando em
consideração um conjunto T com classes :
1. Conjunto T com um ou mais objetos contidos na classe , sendo a
árvore T um nó folha que identi�ca a classe .
2. Conjunto T não possui objetos. A árvore de decisão é um nó folha,
sendo a classe associada por informação externa.
, ,… ,C1 C2 Ck
Cj
Cj
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 20/34
3. Conjunto T possui exemplos de N classes. Dessa forma ocorre a
divisão de T em subconjuntos que se tornam classes únicas.
O algoritmo TDIDT é recursivo de busca ‘gulosa’ em busca dos melhores
atributos em que dividem o conjunto em subconjuntos, sendo que
inicialmente são todos parte de um único nó raiz.
Escolha dos Atributos Preditivos
É de�nido um critério de seleção para associação dos nós da árvore, existem
diferentes critérios entre diversos algoritmos de indução da árvore de
decisão. São de�nidos como distribuição das classes antes e depois da
divisão. A divisão que a maioria dos algoritmos utiliza é a univariável, onde
cada nó interno divide-se baseado em um único atributo que o algoritmo
tenta encontrar o melhor atributo para a divisão.
Os critérios de seleção mais utilizado para uma melhor divisão, é a busca
pelos dados de um nó pai diminuindo a impureza dos nós �lhos. A
minimização de impureza deixa a distribuição de classes desbalanceadas. A
impureza é nula quando todos os nós pertencem a uma mesma classe, e se
torna máxima se tiver o mesmo número de exemplos em cada classe.
Ganho de Informação
O ganho da informação se utiliza da entropia para medir a impureza pelo
algoritmo ID3. Para de�nir a condição de teste sendo boa é feito a
comparação do grau de entropia do nó pai antes da divisão e a entropia dos
nós �lhos após a divisão. O atributo com maior diferença é a condição teste
escolhida, cujo ganho é dado pela equação: 
Sendo o número de valores de nós �lhos, N é o total de objetos nó pai e
N(vj) o número de exemplos associados ao  nó �lho .
ganho  =  entropia  (pai)   −   [ entropia  ( )]∑
j=1
n N ( )vj
N
vj
n
vj
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 21/34
O ganho de informação tem como atributo teste o que gera uma
maximização do ganho de informação. O maior problema se encontra na
preferência por atributos com muitos valores possíveis.
Razão de Ganho
Foi proposto em QUINLAN (1993) a razão do ganho, sendo essa o ganho de
informação relativa como critério avaliativo de�nida pela equação como:
                                        razão de ganho (nó) = 
A razão não pode ser de�nida quando temos o denominador igual a zero,
além do que, a razão de ganho favorece ao denominador com valores
pequenos.
Métodos de Poda
Ao serem criadas, árvores de decisão podem possuir muitas arestas que
re�etem ruídos ou erros. Isso gera Over�tting (sobre ajustes), o que impede a
generalização do modelo. Para realizar esses ajuste são  realizadas métodos
de poda (pruning), consequentemente temos uma árvore mais simples
facilitando a compreensão pelo usuário.
Temos o método pré-poda que é executado no processo de construção, em
que o processo encerra sua divisão dos atributos gerando um nó folha. Como
critério pode ser utilizado o ganho de informação.
A pós-poda é realizada após a criação da árvore de decisão, retirando ramos
completos, tudo que está abaixo de um nó interno é removido e transforma-
se em folha, representando a classe que se destaca no ramo. O algoritmo
calcula a taxa de erro para veri�car a necessidade de poda, da mesma forma
para evitar que a poda aconteça.
Os métodos que são comumente utilizados para a poda são: Cost Complexity
Pruning, Reduced Error Pruning, Minimum Error Pruning (MEP), Pessimistic
Pruning, ErrorBased Pruning (EBP), Minimum Description Length (MDL) Pruning,
ganho
entropia (n )ó
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 22/34
Mininum Message Length (MML) Pruning, Critical Value Pruning (CVP), OPT e OPT-
2.
Algoritmos de Indução de Árvore de
Decisão.
Demonstraremos os algoritmos ID3, C4.5 e CART, porém existem outros que
podem ser pesquisados para aprofundar no assunto, são eles:   NBTree,
ADTree, LMT e BFTree.
ID3
Foi um dos primeiras técnicas envolvendo árvore de decisão, sendo elaborado
baseado em sistemas de inferência e em de sistemas de aprendizagem. É
denominado um algoritmo recursivo de ‘busca gulosa’, buscando atributos
que melhor dividem a estrutura em sub-árvores. Sua principal limitação se
encontra em que só trata de atributos categóricos não ordinais, não sendo
apresentado atributos contínuos, devendo estes serem discretizados
préviamente.
saiba mais
Saiba mais
O Gradiente Boosting Machine é um meta-algoritmo para aprendizado de
máquina supervisionado, muito utilizado em situações de classi�cação e
regressão conforme tratados nessa etapa. Seu princípio está na produção de
previsões e classi�cações advindas de modelos preditivos considerados fracos
combinados via ensemble learning reduzindo assim a viese dos algoritmos.
Fonte: Elaborado pelo autor
ACESSAR
https://mineracaodedados.wordpress.com/tag/arvores-de-decisao/
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 23/34
Utiliza o ganho de informação paragerar a melhor divisão, entretanto esse
critério não limita o número de divisões o que pode gerar árvores complexas.
E o mesmo não apresenta métodos pós-poda o que poderia melhor organizar
as árvores mais complexas.
C4.5
Demonstra uma evolução sobre o ID3, sendo que ele consegue lidar tanto
com atributos categóricos quanto contínuos. Para trabalhar com os atributos
contínuos é de�nido uma divisão dos exemplos de forma binária, aqueles que
possuem valor maior que o limiar e os que são menores ou iguais.
Se utiliza da razão de ganho para encontrar o atributo que se comporta
melhor como  divisor, tal medida se mostra superior ao ganho de informação,
trazendo árvores precisas e menos complexas. Com isso lidando com
atributos de custos diferentes. Possui método pós-poda, e faz busca na árvore
de decisão de baixo para cima transformando em nós folhas ramos sem
ganho signi�cativo.
CART
O algoritmo CART (Classi�cation and Regression Trees) é um método não
parametrizado induzindo tanto árvores de classi�cação quanto de regressão,
isso ligado ao atributo nominal para classi�cação ou contínuo para regressão.
Sua principal vantagem está na grande capacidade de pesquisa entre os
dados mesmo quando não se apresentam em evidência. Seus resultados
apresentam grande simplicidade na sua demonstração e legibilidade da
estrutura. As árvores geradas são sempre binárias sendo percorrida da raiz às
folhas através de respostas simples.
CART possuem tratamento diferenciado para atributos ordenados e permite a
combinação linear entre os atributos. Diferente dos outros algoritmos que se
utilizam da pré-poda, o modelo sugerido, realiza pós-poda reduzindo o fator
custo-complexidade. Segundo pesquisas, esta técnica é muito e�ciente e gera
árvores mais simples, precisas e com boa capacidade de generalização.
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 24/34
praticar
Vamos Praticar
Árvores de decisão são métodos de aprendizado de máquina que pode ser
supervisionado, não supervisionado ou semi supervisionado, assim como não
parametrizados na iniciação. São muito utilizados na classi�cação e em funções de
regressão.Em relação às árvores de decisão é correto a�rmar:
a) Uma árvore de decisão para melhor entendimento pode se comparar a um fluxograma de
forma completa, sendo as atividades os nós da árvore.
b) Toda árvore possui um nó raiz que levando pela analogia é a onde se encerra a estrutura da
árvore sendo o resultado  da base de conhecimento gerada
c) O nó folha ou terminal são definidos como os nó que não possuem filhos, porém depois que
possui tam determinação não poderá virar um nó com filhos
d) A árvore de decisão é uma técnica muito utilizada em classificação devido ao fato do
conhecimento se definir em regras.
e) Na estruturação de uma árvore supervisionada a estruturação de seus nós acontece de forma
exaustiva até complementarem a base de conhecimento.
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 25/34
Esse é um algoritmo de aprendizado simples que produz excelentes
resultados. Como o nome sugere é criado uma �oresta aleatória, que nada
mais é que um conjunto de árvores de decisão preparadas com o método
bagging.
O método bagging (Bootstrap AGGregatING) é uma técnica de treinamento de
coleções instáveis. É criada uma coleção com classi�cadores diferentes entre
si por amostragem aleatória, independente e uniforme.
As árvores de decisão são combinadas, com erro médio de composição,
utilizando o bagging. Com isso temos menos casos de over�tting, o que trará
uma e�cácia pois o treinamento do algoritmo de árvores de decisão são
realizados aleatoriamente e isso faz com que o resultado variem muito e seus
erro sejam compensados.
A �oresta aleatória é uma estrutura de bagging, onde a composição por
árvores é usado como base. São criados a partir de uma grande amostra de
dados. O método de poda não é utilizado. Na classi�cação a quantidade de
características corresponde a , sendo que diferentes grupos de
Florestas AleatóriasFlorestas Aleatórias
√n
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 26/34
características caem em diferentes árvores que são treinadas em diferentes
amostras. O modelo grá�co segue com a �gura 3.4.
O algoritmo é muito e�caz com problemas práticos, pois fornece um
treinamento de alta qualidade com uma base extensa em aleatoriedade no
processo de construção. As principais vantagens do algoritmo são:
Aprendizado em alta velocidade
O algoritmo se conclui com um número �xo de operações
insensível aos picos de dados pela amostragem aleatória
Não precisa de uma con�guração precisa dos parâmetros
As principais desvantagens são:
O modelo ocupa um espaço considerável de memória pois o modelo
é construído a partir de K árvores em um conjunto de treinamento
de tamanho N.
O modelo de treinamento é mais lento que outros algoritmos
correspondentes
Figura 3.4. Floresta aleatória 
Fonte: Elaborado pelo autor
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 27/34
Propenso a Over�tting, quando as tarefas envolvidas possuem muito
ruído
A �oresta aleatória, mesmo possuindo desvantagens, possuem uma
performance de resultados excelente. Além de poder trabalhar com dados de
entrada tanto binários, categóricos e numéricos. Além do que é possível
desenvolver um modelo num curto espaço de tempo.
praticar
Vamos Praticar
Uma �oresta aleatória consiste  em um algoritmo de aprendizado simples que
produz excelentes resultados. Como o nome sugere é formada por um conjunto de
árvores de decisão com um �m em comum, sendo isso, é correto a�rmar que:
reflitaRe�ita
Na formação de uma �oresta aleatória mesmo que sua formação seja de várias árvores
de decisão. a estrutura de erro utilizado como parâmetro é do erro médio e não a
soma dos mesmos o que diminui o erro quadrático médio e diminui a variância do
classi�cador. Dessa forma percebemos que é muito mais vantajoso utilizar a estrutura
do algoritmo de uma �oresta do que várias estruturas de árvores de forma paralela.
Fonte: Elaborado pelo autor
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 28/34
a) Uma floresta aleatória é criada através de algoritmos de agregação que geram regras de
amostragem definida apoiando a base de conhecimento
b) O método Bagging nada mais é que uma regra de treinamento de coleções estáveis com
classificadores semelhantes
c) Uma floresta aleatória pode ser uma coleção de estruturas geradas por agregação de
estruturas que podem ser árvores de decisão ou outro modelo aleatório.
d) Uma floresta aleatória é formada por uma estrutura de bagging onde sua composição é feita
por árvores a partir de uma grande base de dados.
e) Na classificação de uma floresta aleatória vinda de uma grande base de dados possui um
conjunto de N características estruturais.
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 29/34
indicações
Material Complementar
FILME
O impacto social dos algoritmos de
recomendação
Ano: 2018
Comentário: Dierê vem com uma qualidade
excepcional e conhecimento su�ciente vai até o
TEDXMauá 2018 compartilhar a cultura analítica, “Data
for good” e o impacto causado pelos algoritmos de
recomendação. Compartilhe desse conhecimento!
T R A I L E R
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 30/34
LIVRO
Analítica de Dados com Hadoop
Benjamin Bengfort e Jenny Kim
Editora: Novatec
ISBN: 9788575225219
Comentário: Um grande conjunto de dados para ser
analisadoexige a utilização de técnicas estatísticas e de
aprendizado de máquina para que tenham um
desempenho satisafatório. Você está pronto para
utilizar essas técnicas? Neste livro encontramos o
porquê o ecossistema Hadoop é o mais recomendado
para essa tarefa. Ao invés do foco estar na implantação
ou no desenvolvimento de software com foco na
computação distribuída, você deve se concentrar nas
análises referentes aos dados e técnicas de
armazenamento de dados que o Hadoop traz e nos
�uxos de trabalho ordenados que o framework
consegue gerar. Con�ra!
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 31/34
conclusão
Conclusão
As estruturas de classi�cação tem com função principal agilizar o processo de
mineração dos dados tornando o resultado mais e�caz assim como diminuir o
custo computacional de utilização de memória. Temos técnicas mais e�cazes
com dados numéricos como agrupamento que é um tipo de classi�cador,
assim como para conteúdos formados por linguagem natural através dos
métodos LSI e LDA. E com as árvores de decisão formamos estruturas de
aprendizado que melhoram o tempo de resposta em estruturas de dados
grandes e para automatizar um pouco mais formamos as �orestas aleatórias
formadas por árvores de decisão que apesar do custo computacional ser um
pouco elevado a precisão do resultado gerado é muito elevado e acaba por
compensar tal dispêndio.
referências
Referências Bibliográ�cas
AMAZON SAGEMAKER. GUIA DO DESENVOLVEDOR. Disponível em:
<https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/sagemaker-
dg.pdf#lda> Acesso em: 25 Jan. 2019.
BREIMAN, L., FRIEDMAN, J. H., OLSHEN, R. A., & STONE, C. J. ; Classi�cation
and Regression Trees. Wadsworth. 1984
https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/sagemaker-dg.pdf#lda
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 32/34
CASTANHEIRA, L.G.; Aplicação de Técnicas de Mineração de Dados em
Problemas de Classi�cação de padrões. UFMG, Belo Horizonte. 2008.
disponível em: <https://www.ppgee.ufmg.br/defesas/349M.PDF> Acesso em
21 Dez. 2019.
DMITRIEVSKY, M.; Floresta de decisão aleatória na aprendizagem por reforço.
Metatrader 5. 2018. disponível em: <https://www.mql5.com/pt/articles/3856>
Acesso em: 24 Dez. 2019
DUMAIS, S.; LETSCHE, T.; LITTMAN, M.; LANDAUER, T.; Automatic cross-
language retrieval using latent semantic indexing. In AAAI Symposium on
CrooLanguage Text an Speech Retrieval. American Association for Arti�cial
Intelligence. 1997
ESTATSITE.COM. REGRESSÃO Logística: conceitos essenciais e modelo.
disponível em: <https://estatsite.com/2018/08/29/regressao-logistica-
conceitos-e-formula/> Acesso em: 22 Dez. 2019.
FOLTZ, P. W.; DUMAIS, S. T. Personalized information delivery: An analysis
of information �ltering methods. Communications of the ACM, ACM, v. 35,
n. 12, p. 51–60, 1992.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. São Paulo:
Elsevier Editora Ltda, 2005.
JORDAN, M. I. Learning in graphical models. [S.l.]: Springer Science &
Business Media, 1998.
KINTSCH, W. Text comprehension, memory, and learning. American
psychologist, American Psychological Association, v. 49, n. 4, p. 294, 1994.
LANDAUER, T. K.; FOLTZ, P. W.; LAHAM, D. An introduction to latent
semantic analysis. Discourse processes, Taylor & Francis, v. 25, n. 2-3, p. 259–
284, 1998.
MARTIN, D. I.; BERRY, M. W. Mathematical foundations behind latent
semantic analysis. Handbook of latent semantic analysis. Mahwah, NJ:
https://www.ppgee.ufmg.br/defesas/349M.PDF
https://www.mql5.com/pt/articles/3856
https://estatsite.com/2018/08/29/regressao-logistica-conceitos-e-formula/
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 33/34
Lawrence Erlbaum Associates, p. 35–56, 2007.
PORTAL ACTION. Análise de regressão. disponível em:
<http://www.portalaction.com.br/analise-de-regressao/regressao-logistica>
Acesso em: 22 Dez. 2019.
QUINLAN, J. R.; C4.5: programs for machine learning. Morgan Kaufmann
Publishers Inc., San Francisco, CA, USA. 1993.
QUINLAN, J. R. Induction of decision trees. Machine Learning. 1986
Disponível em: <https://link.springer.com/article/10.1007/BF00116251>
acesso em: 23 Dez. 2019
ROZA, F. S.; Aprendizagem de máquina para apoio à tomada de decisão
em vendas do varejo utilizando registros de vendas. Projeto de conclusão
de Curso: Engenharia de Controle e automação. UFSC.  Santa Catarina. 2016.
Disponível em:
<https://repositorio.ufsc.br/bitstream/handle/123456789/171569/PFC_2016-
1%20Felippe_Roza.pdf?sequence=1&isAllowed=y> Acesso em: 23 Jan. 2020
RUSSELL, S.; NORVIG, P. Arti�cial Intelligence: A Modern Approach. New
Jersey: Prentice-Hall, 1995.
SCARPA, A.D. Técnicas de Processamento de Linguagem Natural Aplicadas
às Ciências Sociais. Rio de Janeiro: Fundação Getúlio Vargas, 2017.
SOUZA, E.N.P.; CLARO, D.B.; Detecção Multilíngue de Serviços Web
Duplicados Baseada na Similaridade Textual. SBSI:UFBA. Salvador. 2014.
Disponível em: </home/wesley/Downloads/6140-1045-5252-1-10-
20190523.pdf>. Acesso em: 23 Jan. 2020.
http://www.portalaction.com.br/analise-de-regressao/regressao-logistica
https://link.springer.com/article/10.1007/BF00116251
https://repositorio.ufsc.br/bitstream/handle/123456789/171569/PFC_2016-1%20Felippe_Roza.pdf?sequence=1&isAllowed=y
http://home/wesley/Downloads/6140-1045-5252-1-10-20190523.pdf
12/05/2021 Ead.br
https://unifacs.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667379_… 34/34

Outros materiais