Buscar

Algoritmos Para Ciência de Dados - Atividade Prática

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Atividade 01: 
02. Você terá que analisar as características dos clusters gerados e relacioná-los com as regras 
geradas pelo apriori, descreva isso em um relatório e com as regras e clusters gerados. (peso 1) 
fiz o que pediu? 
 
Cluster Erro RMS 
1 292,6965642008690 
2 187,8807237630230 
3 174,0374671906000 
4 166,1451043166380 
5 158,9409736488050 
6 150,4837494609380 
7 142,9364883752550 
8 137,8462485781920 
9 134,5342026457420 
10 129,3734519445100 
20 104,5422611131380 
30 86,50836887000290 
40 77,76138858226020 
 
Após realizar o experimento KMeans utilizando a base de dados "Dataset_spine", concluímos 
que o número ótimo de clusters para o modelo é 3. Essa conclusão foi baseada na observação 
do gráfico, onde identificamos que o "joelho" está localizado no terceiro cluster. O "joelho" no 
gráfico é um ponto em que a adição de mais clusters não resulta em uma redução significativa 
na variação total dentro dos clusters. Portanto, selecionar três clusters parece ser a escolha 
mais apropriada para representar os dados de maneira eficaz. 
 
 
 
 
 
Atividade 02: 
02. No segundo experimento você deverá usar a base de dados "IrisDataSet" no arquivo 
"iris.csv" bastante conhecida para experimentos e clustering. Você deverá executar o 
experimento com o Kmeans no Weka e verificar qual é o melhor número de clusters para o 
modelo gerado, utilizando o erro RMS com um gráfico, como foi feito na unidade 6 com a base 
de dados "A". 
 
Ao examinarmos os erros RMS, percebemos que o número ótimo de clusters é 3. Isso se deve 
ao fato de que, após o terceiro cluster, as variações nos valores se tornam insignificantes. 
 
 
 
Nesse gráfico provamos isso, podemos notar que a curva do joelho do gráfico acontece no 
terceiro cluster. Indica o ponto em que a adição de mais clusters não resulta em benefícios 
significativos. 
 
 
 
1 Cluster: 
 
2 Clusters: 
 
3 Clusters: 
 
4 Clusters:

Continue navegando