Buscar

Mineração de Dados unidade 3 atividade 3

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 3 páginas

Prévia do material em texto

Curso: ESTATÍSTICA 
Disciplina: Mineração de Dados 
Aluno: MONDEIO LIMA SAMPAIO 
Unidade 3 – Atividade 3 (A3) 
Com base nos conhecimentos adquiridos, cite um tipo de problema em que 
poderíamos utilizar uma floresta aleatória que contenha árvores estruturadas ou 
com LSI ou LDA, ou utilizando regressão logística. Quais foram as principais 
vantagens e desvantagens observadas e as dificuldades encontradas no 
processo? 
Aplicação 
Os algoritmos de aprendizagem baseados em árvores de decisão são 
considerados um dos melhores e mais utilizados métodos de aprendizagem 
supervisionada. Os métodos baseados em árvores nos dão modelos preditivos 
de alta precisão, estabilidade e facilidade de interpretação. Ao contrário dos 
modelos lineares, eles mapeiam muito bem relações não-lineares. E podem ser 
adaptados para resolver vários tipos de problema (classificação ou regressão). 
Árvore de decisão é um tipo de algoritmo de aprendizagem supervisionada (com 
uma variável alvo pré-definida), muito utilizada em problemas de classificação. 
Ele funciona para ambas as variáveis categóricas e contínuas de entrada e de 
saída. Na árvore de decisão, dividimos a população ou amostra em dois ou mais 
conjuntos homogêneos (ou sub-populações) com base nos 
divisores/diferenciadores mais significativos das variáveis de entrada. 
Na floresta aleatória, crescemos múltiplas árvores ao invés de uma única árvore. 
Para classificar um novo objeto baseado em atributos, cada árvore dá uma 
classificação, que é como se a árvore desse “votos” para essa classe. A floresta 
escolhe a classificação que tiver mais votos (de todas as árvores da floresta) e, 
em caso de regressão, considera a média das saídas por árvores diferentes. 
 
 
 
 
 
 
 
 
 
Floresta Aleatória 
Árvore de decisão 
Vamos aplicar em uma unidade de saúde 
(UBS, ESF) de uma determinada região 
que deseja criar um perfil de seus 
clientes (pacientes), com o perfil criado 
vai poder identificar as comorbidades 
mais frequentes, os medicamentos mais 
utilizados, exames solicitados com mais 
frequência etc. O primeiro passo é criar o 
perfil do paciente através das variáveis: 
Sexo (MASC. OU FEM), Faixa etária de 
idade (A B,C,D,E), Grau de Escolaridade 
(A,B,C,D,E), Renda (A,B,C,D,E), 
fumante? ((sim/não (sim – Frequência 
a,b,c,d)) com comorbidade? ((Sim/Não) - 
se Sim -lista), sintomas frequentes ( lista), e etc. Podemos ter várias variáveis, 
com inúmeras combinações, dependendo da quantidade de informação que 
deseja para o perfil. 
Vantagens Florestas Aleatória: 
 Este algoritmo pode resolver os problemas de classificação e de 
regressão, fazendo uma estimativa decente em ambos. 
 Um dos benefícios da floresta aleatória é o poder de lidar com dados em 
grandes volumes e com muitas dimensões. Ele pode lidar com milhares 
de variáveis de entrada e identificar as variáveis mais significativas, sendo 
por isso considerado um dos métodos de redução de dimensões. 
 Possui um método eficaz para estimar os dados faltantes e mantém a 
precisão quando uma grande parte dos dados estão faltando. 
Desvantagens Florestas Aleatória: 
 Enquanto faz um bom trabalho na classificação, já não é tão bom para o 
problema de regressão, uma vez que não fornece previsões precisas 
para variáveis contínuas. 
 E uma quantidade grande de árvores pode tornar o algoritmo lento e 
ineficiente para predições em tempo real. Em geral, estes algoritmos são 
rápidos para treinar, mas muito lentos para fazer predições depois de 
treinados. 
Vantagens da Árvore de decisão: 
 Fácil de entender: A visualização de uma árvore de decisão torna o 
problema fácil de compreender, mesmo para pessoas que não tenham 
perfil analítico. Não requer nenhum conhecimento estatístico para ler e 
interpretar. Sua representação gráfica é muito intuitiva e permite 
relacionar as hipóteses também facilmente. 
 Útil em exploração de dados: A árvore de decisão é uma das formas 
mais rápidas de identificar as variáveis mais significativas e a relação 
entre duas ou mais variáveis. Com a ajuda de árvores de decisão, 
podemos criar novas variáveis/características que tenham melhores 
condições de predizer a variável alvo. 
 Menor necessidade de limpar dados: Requer menos limpeza de dados 
em comparação com outras técnicas de modelagem 
 Não é restrito por tipos de dados: Pode manipular variáveis numéricas 
e categóricas. 
Desvantagens da Árvore de decisão: 
 Não adequado para variáveis contínuas: ao trabalhar com variáveis 
numéricas contínuas, a árvore de decisão perde informações quando 
categoriza variáveis em diferentes categorias. 
 Sobreajuste (“Over fitting”): Sobreajuste é uma das maiores 
dificuldades para os modelos de árvores de decisão. Este problema é 
resolvido através da definição de restrições sobre os parâmetros do 
modelo e da poda.

Continue navegando