Baixe o app para aproveitar ainda mais
Prévia do material em texto
O processo de mineração de dados envolve diversas etapas, que podem ser resumidas em: 1 Entendimento do problema: nesta etapa, é importante que a equipe de TI compreenda o problema enfrentado pela Instituição XPTO e os objetivos da mineração de dados. Isso permitirá definir os critérios para a seleção das informações relevantes. 2 Preparação dos dados: nesta etapa, as planilhas com as informações das disciplinas devem ser organizadas em um formato padronizado e limpas de dados inconsistentes ou redundantes. É importante ainda garantir que todas as informações necessárias estejam presentes e coerentes entre si. 3 Análise exploratória: nesta etapa, a equipe deve explorar os dados para identificar padrões e relacionamentos entre as variáveis, bem como possíveis inconsistências ou lacunas nos dados. 4 Seleção de variáveis relevantes: nesta etapa, a equipe deve selecionar as variáveis que serão relevantes para o objetivo da mineração de dados, no caso, as informações das disciplinas do curso de Análise e Desenvolvimento de Sistemas. 5 Aplicação de técnicas de mineração de dados: nesta etapa, a equipe deve aplicar técnicas de mineração de dados para extrair as informações relevantes das planilhas. Dentre as possíveis técnicas, destacam-se: classificação, clusterização e regras de associação. 6 Validação dos resultados: nesta etapa, a equipe deve avaliar os resultados obtidos pela aplicação das técnicas de mineração de dados, verificando a sua consistência e relevância para o objetivo definido. Algumas ferramentas que podem auxiliar Ana Cláudia e sua equipe nesse processo de mineração de dados são: Excel, Python, R, Weka, RapidMiner, KNIME, entre outras. Essas ferramentas permitem a organização, limpeza e análise exploratória dos dados, bem como a aplicação de técnicas de mineração de dados e a visualização dos resultados obtidos. Mineração de dados A universidade XPTO quer melhorar o atendimento e se adequar ao mercado de trabalho, solicitou uma análise em suas planilhas, a pessoa responsável pela análise montou uma equipe de trabalho que vai analisar 39 planilhas do curso de graduação de Análise e Desenvolvimento de sistemas, pertence à área de tecnologia da informação e Comunicação. Base de dados – será usado as informações das 39 planilhas já s sabe que alguns cursos foram alterados sem prévia autorização do conselho da universidade. “O Hadoop é um projeto da comunicação Apache, foi criado pelo Yahoo em 2005, inspirado no trabalho do google em seu GFS (Google File System) e no paradigma de programação MapReduce, que basicamente divide o trabalho em tarefas como um mapeador (mapper) e um resumidor (reducer) que manipulam dados distribuídos em cluster de servidores usados de forma massivamente paralela”. KNIME Analytics Plataform Projetada para ajudar na manipulação, análise e modelagem de dados por meio de programação. Oferece mais de mil módulos e centenas de exemplos prontos para uso. Possui ferramentas integradas que ajudam na descoberta de possíveis insights ocultos em seus dados. Para análises preditivas realizada por meio de machine learn ou aprendizado de máquina é uma ótima aliada. Permite além de escrever códigos, arrastar e soltar os pontos de conexão entre as atividades. Também oferece suporte a combinação de dados entre arquivos de texto simples, bancos de dados, documentos, imagens, redes e dados baseados no Hadoop em um único fluxo de trabalho visual. Ela é o código aberto com atualizações de lançamentos realizados semestralmente. Compatível com dispositivos Windows, MacOS e Linux. Bibliografia: TAURION(20019, P.100)
Compartilhar