Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso: ESTATÍSTICA Disciplina: Mineração de Dados Aluno: MONDEIO LIMA SAMPAIO Unidade 3 – Atividade 3 (A3) Com base nos conhecimentos adquiridos, cite um tipo de problema em que poderíamos utilizar uma floresta aleatória que contenha árvores estruturadas ou com LSI ou LDA, ou utilizando regressão logística. Quais foram as principais vantagens e desvantagens observadas e as dificuldades encontradas no processo? Aplicação Os algoritmos de aprendizagem baseados em árvores de decisão são considerados um dos melhores e mais utilizados métodos de aprendizagem supervisionada. Os métodos baseados em árvores nos dão modelos preditivos de alta precisão, estabilidade e facilidade de interpretação. Ao contrário dos modelos lineares, eles mapeiam muito bem relações não-lineares. E podem ser adaptados para resolver vários tipos de problema (classificação ou regressão). Árvore de decisão é um tipo de algoritmo de aprendizagem supervisionada (com uma variável alvo pré-definida), muito utilizada em problemas de classificação. Ele funciona para ambas as variáveis categóricas e contínuas de entrada e de saída. Na árvore de decisão, dividimos a população ou amostra em dois ou mais conjuntos homogêneos (ou sub-populações) com base nos divisores/diferenciadores mais significativos das variáveis de entrada. Na floresta aleatória, crescemos múltiplas árvores ao invés de uma única árvore. Para classificar um novo objeto baseado em atributos, cada árvore dá uma classificação, que é como se a árvore desse “votos” para essa classe. A floresta escolhe a classificação que tiver mais votos (de todas as árvores da floresta) e, em caso de regressão, considera a média das saídas por árvores diferentes. Floresta Aleatória Árvore de decisão Vamos aplicar em uma unidade de saúde (UBS, ESF) de uma determinada região que deseja criar um perfil de seus clientes (pacientes), com o perfil criado vai poder identificar as comorbidades mais frequentes, os medicamentos mais utilizados, exames solicitados com mais frequência etc. O primeiro passo é criar o perfil do paciente através das variáveis: Sexo (MASC. OU FEM), Faixa etária de idade (A B,C,D,E), Grau de Escolaridade (A,B,C,D,E), Renda (A,B,C,D,E), fumante? ((sim/não (sim – Frequência a,b,c,d)) com comorbidade? ((Sim/Não) - se Sim -lista), sintomas frequentes ( lista), e etc. Podemos ter várias variáveis, com inúmeras combinações, dependendo da quantidade de informação que deseja para o perfil. Vantagens Florestas Aleatória: Este algoritmo pode resolver os problemas de classificação e de regressão, fazendo uma estimativa decente em ambos. Um dos benefícios da floresta aleatória é o poder de lidar com dados em grandes volumes e com muitas dimensões. Ele pode lidar com milhares de variáveis de entrada e identificar as variáveis mais significativas, sendo por isso considerado um dos métodos de redução de dimensões. Possui um método eficaz para estimar os dados faltantes e mantém a precisão quando uma grande parte dos dados estão faltando. Desvantagens Florestas Aleatória: Enquanto faz um bom trabalho na classificação, já não é tão bom para o problema de regressão, uma vez que não fornece previsões precisas para variáveis contínuas. E uma quantidade grande de árvores pode tornar o algoritmo lento e ineficiente para predições em tempo real. Em geral, estes algoritmos são rápidos para treinar, mas muito lentos para fazer predições depois de treinados. Vantagens da Árvore de decisão: Fácil de entender: A visualização de uma árvore de decisão torna o problema fácil de compreender, mesmo para pessoas que não tenham perfil analítico. Não requer nenhum conhecimento estatístico para ler e interpretar. Sua representação gráfica é muito intuitiva e permite relacionar as hipóteses também facilmente. Útil em exploração de dados: A árvore de decisão é uma das formas mais rápidas de identificar as variáveis mais significativas e a relação entre duas ou mais variáveis. Com a ajuda de árvores de decisão, podemos criar novas variáveis/características que tenham melhores condições de predizer a variável alvo. Menor necessidade de limpar dados: Requer menos limpeza de dados em comparação com outras técnicas de modelagem Não é restrito por tipos de dados: Pode manipular variáveis numéricas e categóricas. Desvantagens da Árvore de decisão: Não adequado para variáveis contínuas: ao trabalhar com variáveis numéricas contínuas, a árvore de decisão perde informações quando categoriza variáveis em diferentes categorias. Sobreajuste (“Over fitting”): Sobreajuste é uma das maiores dificuldades para os modelos de árvores de decisão. Este problema é resolvido através da definição de restrições sobre os parâmetros do modelo e da poda.
Compartilhar