Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Anhembi Morumbi Curso de graduação em Estatística Atividade – Unidade 3 Os métodos de mineração de dados Latent Semantic Indexing (LSI) e Latent Dirichlet Allocation (LDA) funcionam como um mecanismo de extração e demonstração do significado semântico de palavras observando um certo contexto. Tais método se realizam com base em cálculos estatísticos sobre grande quantidade de documentos textuais. O instrumental proporcionado pelo LSI evidencia associações de palavras, possibilitando análises fundamentada na correlação dessas palavras. O SLI e o LDA podem ser utilizados para realizar análise de textos constituídos por uma empresa, são úteis ainda nas avaliações de textos disponíveis na internet e nas mídias on-line. Contudo, tais métodos não funcionam para a realização de dados quantitativos, esses podem ser avaliados a partir do método de regressão simples ou regressão múltipla. O SLI e o LDA funcionam bem para a realização de correlações entre palavras, mas não ajudam muito na classificação de atributos. Para se realizar classificações deve-se utilizar modelos de estrutura de árvores de decisão. Árvores de decisão são do que estruturas de dados onde os elementos que armazenam informações constituem nós, disponibilizados em forma de fluxograma sendo. A árvore de decisão é uma técnica popular na mineração de dados em se tratando especificamente de classificação de informações. Diferentemente do SLI e LDA, a árvore de decisão não avalia correlação entre palavras, mas sim, classifica informações em segmentos determinados. Assim sendo, a arvore de decisão possibilita informações para a tomada de decisão a partir da observação de segmentos específicos. Por exemplo: uma empresa quer medir a probabilidade de clientes permanecerem consumindo os serviços desta mesma empresa, para tanto, utiliza a árvore de decisão avaliando classificações de renda, sexo, profissão e local de residência. Caso as informações a serem classificadas apresentem uma complexidade que extrapole as competências da árvore de decisão, pode-se adotar o método aleatória, que funcionam como um conjunto de árvores de decisão.
Compartilhar