Buscar

Atividade 3 - Mineração de Dados

Prévia do material em texto

Universidade Anhembi Morumbi 
Curso de graduação em Estatística 
 
 
Atividade – Unidade 3 
 
Os métodos de mineração de dados Latent Semantic Indexing (LSI) e 
Latent Dirichlet Allocation (LDA) funcionam como um mecanismo de extração e 
demonstração do significado semântico de palavras observando um certo 
contexto. Tais método se realizam com base em cálculos estatísticos sobre 
grande quantidade de documentos textuais. O instrumental proporcionado pelo 
LSI evidencia associações de palavras, possibilitando análises fundamentada na 
correlação dessas palavras. 
O SLI e o LDA podem ser utilizados para realizar análise de textos 
constituídos por uma empresa, são úteis ainda nas avaliações de textos 
disponíveis na internet e nas mídias on-line. Contudo, tais métodos não 
funcionam para a realização de dados quantitativos, esses podem ser avaliados 
a partir do método de regressão simples ou regressão múltipla. 
O SLI e o LDA funcionam bem para a realização de correlações entre 
palavras, mas não ajudam muito na classificação de atributos. Para se realizar 
classificações deve-se utilizar modelos de estrutura de árvores de decisão. 
Árvores de decisão são do que estruturas de dados onde os elementos 
que armazenam informações constituem nós, disponibilizados em forma de 
fluxograma sendo. A árvore de decisão é uma técnica popular na mineração de 
dados em se tratando especificamente de classificação de informações. 
Diferentemente do SLI e LDA, a árvore de decisão não avalia correlação entre 
palavras, mas sim, classifica informações em segmentos determinados. 
Assim sendo, a arvore de decisão possibilita informações para a tomada 
de decisão a partir da observação de segmentos específicos. Por exemplo: uma 
empresa quer medir a probabilidade de clientes permanecerem consumindo os 
serviços desta mesma empresa, para tanto, utiliza a árvore de decisão avaliando 
classificações de renda, sexo, profissão e local de residência. 
Caso as informações a serem classificadas apresentem uma 
complexidade que extrapole as competências da árvore de decisão, pode-se 
adotar o método aleatória, que funcionam como um conjunto de árvores de 
decisão.

Continue navegando