Baixe o app para aproveitar ainda mais
Prévia do material em texto
Carlos Daniel, Gabriel Colombo, Guilherme Vinicius, Luis Felipe, Lorenzo Wespianski O que é e como funciona a mineração de dados (Data Mining)? Uma das habilidades mais notáveis que o cérebro humano possui é reconhecer padrões e analisar dados. É exatamente essa capacidade que pesquisadores tentam replicar em computadores, e para isso existe o Data Mining. Essas pesquisas começaram depois da Segunda Guerra Mundial e obtiveram resultados tecnológicos capazes de transformar o mundo no qual vivemos. O que é Data Mining? Data Mining ou mineração de dados é um algoritmo utilizado dentro de uma grande base de dados para reconhecer padrões e regras que possam auxiliar na tomada de uma decisão. Ou seja, com o acúmulo de dados e informações geradas atualmente, muito conhecimento útil pode acabar se perdendo em meio a isso. É necessário analisar esses dados e buscar padrões, isto é, procurar por “tesouros escondidos”. É por isso que usamos o Data Mining. Este processo é composto por 3 áreas de conhecimento: Estatística Clássica, Inteligência Artificial e Machine Learning. A Estatística Clássica é a origem dos principais métodos utilizados na Mineração, como a análise de variância e distribuição normal. Já a Inteligência Artificial busca analisar os dados de forma similar ao cérebro humano. O Machine Learning é a junção dos dois conceitos citados anteriormente. Através desta técnica é possível induzir computadores a tomarem decisões, com a ajuda de algoritmos que reconhecem padrões estatísticos, e a se tornarem capazes de realizar previsões. 1 - Definição do problema A definição do problema é a primeira etapa do processo de Data Mining. Nessa fase o objetivo é entender o problema e estabelecer qual o objetivo que se deseja atingir com o processo de mineração. 2 - Exploração de dados É na exploração de dados que as ferramentas estatísticas básicas começam a ser utilizadas. Esta também é a etapa em que os especialistas coletam, descrevem e exploram os dados. Além disso, a qualidade de todos os dados também são testadas. 3 - Preparação de dados A preparação de dados é um processo que depende da origem dos mesmos. Assim, dependendo do estado em que os dados brutos se encontram, é necessário prepará-los através de métodos de filtração, combinação e preenchimento de valores vazios. 4 - Modelagem Esta etapa possui relação direta com o objetivo de cada processo de Mineração, pois é necessário escolher uma técnica de modelagem, dentro do Data Mining, que garanta a solução do problema proposto. Carlos Daniel, Gabriel Colombo, Guilherme Vinicius, Luis Felipe, Lorenzo Wespianski 5 - Avaliação A avaliação é a fase mais crítica do processo, visto que é necessário a participação de um grupo de pessoas especializadas em Data Mining e no negócio alvo de análise para avaliar se a Mineração de Dados alcançou o resultado desejado. 6 - Implementação A implementação é a etapa final do projeto de Data Mining. É nessa fase que ocorre a importação dos resultados obtidos para os bancos de dados ou para outros tipos de diretórios. Técnicas de Data Mining A Mineração de Dados é uma área muito extensa, dessa forma não há apenas uma maneira de encontrar padrões dentro de um grande volume de dados. 1 - Descoberta de regra de associação Esta técnica consiste em analisar a relação entre os itens de um certo conjunto de dados e encontrar tendências e/ou padrões que possam ser utilizados para entender o comportamento desses dados. 2 - Redes Neurais Artificiais As redes neurais artificiais (RNA) apresentam um modelo matemático baseado no sistema nervoso central. Este tipo de algoritmo busca resolver problemas através da simulação do comportamento e das funções de um neurônio. O seu funcionamento ocorre através de dezenas ou até centenas de unidades de processamento, as quais são interconectadas por canais de comunicação. Dessa maneira, as entradas são semelhantes aos dendritos e simulam uma área de captação de estímulos. Já a saída de dados é comparada aos neurônios e o contato entre esses elementos formam a sinapse. 3 - Árvores de Decisão As árvores de decisão funcionam como um fluxograma, porém possuem o formato de uma árvore. Através deste modelo, é possível que o usuário tome decisões a partir de inúmeras possibilidades de escolha. Estas possibilidades são testadas automaticamente e funcionam da maneira em que o nó representa dados ou problemas e cada ramificação possui um aglomerado de soluções baseadas em custos, probabilidades e benefícios. Observe que o algoritmo informa como resultado o número de cluster formado, neste exemplo dois clusters de tamanho 4 e 3. O centroide final é apresentado na forma de uma matriz de valores médios das amostras associadas a cada grupo. A seguir está o índice do grupo associado a cada espécime. O primeiro, segundo, terceiro e quarto pertencem ao grupo 1.
Compartilhar