Baixe o app para aproveitar ainda mais
Prévia do material em texto
ALGORITMOS PARA CIÊNCIA DE DADOS – 80h Atividade Prática Como observaram as últimas unidades não possuem atividades de autocorreção. É proposta uma atividade mais prática, considerando que vocês já possuem instalado o software Weka é importante vocês reproduzirem os experimentos vistos nas unidades. 1 – Você terá que analisar as características dos clusters gerados e relacioná-los com as regras geradas pelo apriori, descreva isso em um relatório e com as regras e clusters gerados. Base de cliente A para usar neste experimento. A4.csv (peso 3). 2 – No segundo experimento você deverá usar a base de dados "IrisDataSet" no arquivo "iris.csv" bastante conhecida para experimentos e clustering. Você deverá executar o experimento com o Kmeans no Weka e verificar qual é o melhor número de clusters para o modelo gerado, utilizando o erro RMS com um gráfico, como foi feito na unidade 6 com a base de dados "A".(peso 3) Resultado Atividade 01 Cluster Erro RMS 1 2.590,54807581558000 2 1.861,14246418307000 3 1.293,98112481732000 4 1.010,77615435443000 5 909,77761508554300 6 760,34778490991700 7 712,12440168054900 8 594,64096672742100 9 674,37036203538900 10 628,54646310556600 11 515,19674009040600 12 437,79620334747800 13 427,43403982446300 14 422,22307302215600 15 410,06087155939100 16 417,06107160607600 25 286,60426476456400 40 231,33716820201400 60 158,32445587240900 100 106,10783043200100 300 40,14121292350500 500 21,97427977876060 1000 4,66517350443883 1471 0,00103305785124 2000 0,000000000000000 https://bb.cruzeirodosulvirtual.com.br/webapps/blackboard/execute/courseMain?course_id=_594067_1 https://bb.cruzeirodosulvirtual.com.br/webapps/assignment/uploadAssignment?content_id=_5696647_1&course_id=_594067_1&group_id=&mode=view https://bb.cruzeirodosulvirtual.com.br/bbcswebdav/pid-5696647-dt-content-rid-91346195_1/xid-91346195_1 Utilizando a base de dados "A4.csv". Foi executado o experimento com o Kmeans no Weka e verificou-se que o melhor número de clusters para o modelo gerado, são sete (07). Esta afirmação refere-se aos valores identificados com o erro RMS, além do gráfico exposto abaixo. É possível verificar que a curva do joelho no gráfico ocorre no terceiro cluster. 0 500 1000 1500 2000 2500 3000 0 200 400 600 800 1000 1200 1400 1600 1800 2000 Erro RMS 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Erro RMS https://bb.cruzeirodosulvirtual.com.br/bbcswebdav/pid-5696647-dt-content-rid-91346195_1/xid-91346195_1 Atividade 02 Utilizando a base de dados "IrisDataSet". Foi executado o experimento com o Kmeans no Weka e verificou-se que o melhor número de clusters para o modelo gerado, são três (03). Esta afirmação refere-se aos valores identificados com o erro RMS, além do gráfico exposto abaixo. É possível verificar que a curva do joelho no gráfico ocorre no terceiro cluster. Cluster Erro RMS 1 141,16611042137300 2 62,12779075053810 3 7,80155936126804 4 6,59792574364882 5 6,27765933076931 6 6,11594210003911 7 5,21762964692763 8 4,85953506838624 9 4,67887415987429 10 4,58750022552614 11 4,51232470169987 12 2,99547867894459 13 2,92840812220093 14 2,35617417477899 15 2,14322092413433 Nas figuras abaixo é representado os gráficos com eixo X (Instance_number) e no eixo Y (sepal.length), o qual podem ser visualizados as posições de referência das variáveis (Setosa, Versicolor e Virginica). Para a primeira figura foi usado um cluster, na segunda figura dois clusters, na terceira figura três cluster e finalmente na quarta figura quatro clusters. 0 20 40 60 80 100 120 140 160 0 2 4 6 8 10 12 14 16 Er ro R M S Clusters
Compartilhar