Buscar

Alcemir Elias de Oliveira Júnior Atividade 3 Mineração de Dados

Prévia do material em texto

Nome: Alcemir Elias de Oliveira Júnior Atividade 3 – Mineração de Dados
Questão:
 Nesta unidade, foi abordado como utilizar os métodos de classificação para tornar o resultado obtido com a mineração de dados mais eficiente. Para que os resultados sejam mais precisos, devemos utilizar cada algoritmo para cada tipo de problema. Por exemplo, para trabalhar com dados numéricos podemos utilizar a regressão logística, que trabalha com resultados binominais. Para classificação de documentos e grandes quantidades de conteúdos textuais, utilizam-se algoritmos com as técnicas LSI e LDA. E na estruturação para o aprendizado de máquina podemos utilizar as árvores de decisão, que tem como vantagem a sua estrutura ser facilmente entendida, no entanto, sua utilização precisa ser estudada, pois pode ter um custo computacional exponencial, dependendo do nível do problema. E por fim, em problemas complexos com uma grande quantidade de dados envolvidos, podem-se utilizar árvores aleatórias, que são um conjunto de árvores estruturadas e interligadas na resolução de problemas.
 Com base nos conhecimentos adquiridos, cite um tipo de problema em que poderíamos utilizar uma floresta aleatória que contenha árvores estruturadas ou com LSI ou LDA, ou utilizando regressão logística. Quais foram as principais vantagens e desvantagens observadas e as dificuldades encontradas no processo?
 Florestas Aleatórias: Algoritmo muito utilizado por sua facilidade computacional e elevada assertividade. Pode tanto ser usado para classificação como para regressão. Trata-se ainda de um algoritmo de atividade supervisionada, ou seja, quando se sabe o que se quer buscar. As florestas são composições de árvores de decisão, que são modelos estatísticos que utilizam um treinamento supervisionado para a classificação e previsão de dados. As Arvores Estruturadas resolvem tarefas com o mesmo nome. Cada árvore possui ramificações, nós e folhas. Os nós contêm atributos dos quais a função objetivo é dependente.
 Situação: Certa vez fizemos uma viagem à Natal com um roteiro produzido por uma startup de recomendações de viagens. Para tanto respondemos um questionário com base em nossos gostos e interesses, tais como se preferimos praias ou museus, se gostamos de restaurante ou boteco, se optamos por passeios diurnos ou noturnos, dentre outras questões para a elaboração do roteiro. A resposta ao questionário investigativo nos trouxe a elaboração do roteiro de uma das melhores viagens que fizemos na vida: extremamente ao encontro de nossos gostos e completamente diferente de todos aqueles propostos por agencias de viagens tradicionais. Hoje com o estudo da mineração de dados posso compreender melhor a ‘mágica’ por trás do roteiro certeiro da startup:
 Com o uso da regressão logística de nossos gostos rotulados como sim ou não a startup consegue prever se gostaremos de uma sugestão ou não, ao mesmo tempo em que as florestas aleatórias conseguem trazer sugestões de locais apreciados por perfis similares aos nossos, de tal forma que se X é semelhante à eles, então eles também gostarão de determinado local/atividade. É interessante ressaltar que este principio também faz parte das vitrines da Amazon, das sugestões do Spotfy, ou até mesmo da disposição de produtos nas prateleiras dos supermercados.
As vantagens e desvantagens da Regressão Logística e da Floresta aleatória são:
 Vantagens Floresta Aleatória:
 Pode tanto ser utilizado para classificação como para regressão;
 Geralmente produzem bons resultados de predição.
 Desvantagens Floresta Aleatória:
 Se a quantidade de árvores de decisão for muito grande, pode tornar o algoritmo pesado para respostas em tempo real;
 Os resultados são preditivos e não descritivos, ou seja, retornam valores objetivos. 
 Vantagens Regressão Logística:
 Resultados probabilísticos;
 Pequeno número de suposições;
 Muito confiável;
 Permite categorizar indivíduos;
 Desvantagens da Regressão Logística: 
 Requer uma transformação de recursos não lineares, adicionando tempo e etapa ao processo;
 Incapacidade de lidar com muitas variáveis simultaneamente.

Continue navegando