Prévia do material em texto
O que é mineração de dados? A mineração de dados é o uso de aprendizado de máquina e análise estatística para descobrir padrões e outras informações valiosas de grandes conjuntos de dados. Dada a evolução do aprendizado de máquina (ML), do data warehousing e do crescimento do big data, a adoção da mineração de dados, também conhecida como descoberta de conhecimento em bancos de dados (KDD), acelerou rapidamente nas últimas décadas. No entanto, embora essa tecnologia evolua continuamente para lidar com dados em grande escala, os líderes ainda podem enfrentar desafios com escalabilidade e automação. As técnicas de mineração de dados que sustentam as análises de dados podem ser implementadas para duas finalidades principais. Elas podem descrever o conjunto de dados de destino ou prever os resultados usando algoritmos de aprendizado de máquina. Esses métodos são usados para organizar e filtrar dados, trazendo à tona as informações mais úteis, desde fraudes até comportamentos de usuários, gargalos e até violações de segurança. O uso de algoritmos de ML e inteligência artificial (IA) permite a automação da análise, o que pode acelerar bastante o processo. Quando combinado com ferramentas de análise e visualização de dados, como o Apache Spark, o software de mineração de dados está se tornando mais simples, e a extração de insights relevantes pode ser obtida mais rapidamente do que nunca. Os avanços na IA continuam acelerando a adoção em todos os setores. EbookIA generativa e ML para empresas Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa. Cadastre-se e faça download Benefícios e desafios Benefícios Descubra insights e tendências ocultos: a mineração de dados pega dados brutos e encontra ordem no caos: vendo a floresta pelas árvores. Isso pode resultar em um planejamento mais bem informado em todas as funções corporativas e setores, incluindo publicidade, finanças, governo, saúde, recursos humanos (RH), fabricação, marketing, pesquisa, vendas e gerenciamento da cadeia de suprimentos (SCM). Economize seu orçamento: ao analisar dados de desempenho de várias fontes, gargalos nos processos de negócios podem ser identificados para acelerar a resolução e aumentar a eficiência. Resolva vários desafios: a mineração de dados é uma ferramenta versátil. Dados de praticamente qualquer fonte e qualquer aspecto de uma organização podem ser analisados para descobrir padrões e melhores formas de conduzir os negócios. Quase todos os departamentos de uma organização que coleta e analisa dados podem se beneficiar da mineração de dados. Desafios https://www.ibm.com/br-pt/topics/data-warehouse https://www.ibm.com/br-pt/topics/big-data-analytics https://www.ibm.com/br-pt/topics/automation https://www.ibm.com/br-pt/topics/artificial-intelligence https://www.ibm.com/blog/data-science-vs-data-analytics-unpacking-the-differences/ https://www.ibm.com/br-pt/topics/data-visualization https://www.ibm.com/br-pt/topics/apache-spark https://www.ibm.com/account/reg/signup?formid=urx-52356 https://www.ibm.com/br-pt/case-studies/state-gov-process-mining https://www.ibm.com/br-pt/topics/supply-chain-logistics https://www.ibm.com/br-pt/topics/exploratory-data-analysis Complexidade e risco: insights úteis exigem dados válidos, além de especialistas com experiência em programação. Conhecimento de linguagens de mineração de dados, incluindo Python, R e SQL, é útil. Uma abordagem insuficientemente cautelosa à mineração de dados pode resultar em resultados enganosos ou perigosos. Alguns dados do consumidor usados na mineração de dados podem ser informações de identificação pessoal (PII), que devem ser tratadas com cuidado para evitar problemas legais ou de relações públicas. Custo: para obter os melhores resultados, muitas vezes é necessária uma coleta ampla e profunda de conjuntos de dados. Se novas informações forem coletadas por uma organização, a configuração de um pipeline de dados pode representar uma nova despesa. Se os dados precisarem ser adquiridos de uma fonte externa, isso também terá um custo. Incerteza: primeiro, um grande esforço de mineração de dados pode ser bem executado, mas produzir resultados pouco claros, sem grandes benefícios. Ou dados imprecisos podem levar a insights incorretos, independentemente de terem sido selecionados dados incorretos ou de o pré-processamento ter sido mal manejado. Outros riscos incluem erros de modelagem ou dados desatualizados de um mercado em rápida mudança. Outro problema potencial é que os resultados podem parecer válidos, mas na verdade são aleatórios e não são confiáveis. É importante lembrar que "correlação não é causalidade". Um exemplo famoso de "dragagem de dados" (ver uma correlação aparente e exagerar sua importância) foi apresentado recentemente pelo blogueiro Tyler Vigen: "O preço das ações da Amazon.com tem uma estreita correspondência com o número de crianças chamadas 'Stevie' de 2002 a 2022."1 Mas, é claro, os nomes Stevies não influenciaram o preço das ações ou vice- versa. As aplicações de mineração de dados encontram os padrões, mas o julgamento humano ainda é significativo. Mineração de dados versus mineração de texto versus mineração de processos A mineração de dados é o processo geral de identificação de padrões e extração de insights úteis de conjuntos de big data. Isso pode ser usado para avaliar dados estruturados e não estruturados para identificar novas informações e é comumente usado para analisar o comportamento do consumidor por equipes de marketing e vendas. Por exemplo, métodos de mineração de dados podem ser usados para observar e prever comportamentos, incluindo rotatividade de clientes, detecção de fraudes, análise de cestas de mercado e muito mais. A mineração de texto, também conhecida como mineração de dados de texto, é um subcampo da mineração de dados, destinado a transformar texto não estruturado em um formato estruturado para identificar padrões significativos e gerar novos insights. Os dados não estruturados podem incluir texto de fontes, incluindo postagens de redes sociais, análises de produtos, artigos, e-mail ou formatos de mídia avançada, como arquivos de vídeo e áudio. Grande parte dos dados publicamente disponíveis em todo o mundo não são estruturados, tornando a mineração de texto uma prática valiosa. A mineração de preocessos fica na interseção entre o gerenciamento de processo empresarial (BPM) e a mineração de dados. A mineração de processos fornece uma maneira de aplicar algoritmos aos dados do log de eventos para identificar tendências, padrões e detalhes de como os processos se desenrolam. A mineração de processos aplica a ciência de dados para descobrir gargalos e, em seguida, validar e melhorar os fluxos de trabalho. https://www.ibm.com/br-pt/topics/pii https://www.ibm.com/br-pt/topics/fraud-detection https://www.ibm.com/br-pt/topics/text-mining https://www.ibm.com/br-pt/topics/business-process-management https://www.ibm.com/br-pt/topics/business-process-management https://www.ibm.com/br-pt/topics/process-mining https://www.ibm.com/br-pt/topics/data-science https://www.ibm.com/br-pt/topics/workflow O BPM geralmente coleta dados de forma mais informal, por meio de workshops e entrevistas, e, em seguida, usa o software para documentar esse fluxo de trabalho como um mapa de processo. Como os dados que informam esses mapas de processo são frequentemente qualitativos, a mineração de processos traz uma abordagem mais quantitativa para um problema de processo, detalhando o processo real por meio de dados de eventos. Sistemas de informação, como ferramentas de planejamento de recursos empresariais (ERP) ou de gerenciamento de relacionamento com o cliente (CRM), fornecem uma trilha de auditoria dos processos a partir dos dados de log. A mineração de processos usa esses dados dos sistemas de TI para montar um modelo de processoou um gráfico de processo. A partir daí, as organizações podem examinar o processo de ponta a ponta com os detalhes e quaisquer variações descritas. https://www.ibm.com/br-pt/topics/process-mapping https://www.ibm.com/br-pt/topics/process-mapping https://www.ibm.com/br-pt/topics/enterprise-resource-planning https://www.ibm.com/br-pt/topics/crm