Buscar

Escrito Data Mining (1) (1)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Carlos Daniel, Gabriel Colombo, Guilherme Vinicius, Luis Felipe, Lorenzo Wespianski
O que é e como funciona a mineração de dados (Data Mining)?
Uma das habilidades mais notáveis que o cérebro humano possui é reconhecer padrões e
analisar dados. É exatamente essa capacidade que pesquisadores tentam replicar em
computadores, e para isso existe o Data Mining.
Essas pesquisas começaram depois da Segunda Guerra Mundial e obtiveram resultados
tecnológicos capazes de transformar o mundo no qual vivemos.
O que é Data Mining?
Data Mining ou mineração de dados é um algoritmo utilizado dentro de uma grande base de
dados para reconhecer padrões e regras que possam auxiliar na tomada de uma decisão.
Ou seja, com o acúmulo de dados e informações geradas atualmente, muito conhecimento
útil pode acabar se perdendo em meio a isso. É necessário analisar esses dados e buscar
padrões, isto é, procurar por “tesouros escondidos”. É por isso que usamos o Data Mining.
Este processo é composto por 3 áreas de conhecimento: Estatística Clássica,
Inteligência Artificial e Machine Learning.
A Estatística Clássica é a origem dos principais métodos utilizados na Mineração, como a
análise de variância e distribuição normal. Já a Inteligência Artificial busca analisar os dados
de forma similar ao cérebro humano.
O Machine Learning é a junção dos dois conceitos citados anteriormente. Através desta
técnica é possível induzir computadores a tomarem decisões, com a ajuda de algoritmos
que reconhecem padrões estatísticos, e a se tornarem capazes de realizar previsões.
1 - Definição do problema
A definição do problema é a primeira etapa do processo de Data Mining. Nessa fase o
objetivo é entender o problema e estabelecer qual o objetivo que se deseja atingir com o
processo de mineração.
2 - Exploração de dados
É na exploração de dados que as ferramentas estatísticas básicas começam a ser
utilizadas. Esta também é a etapa em que os especialistas coletam, descrevem e exploram
os dados. Além disso, a qualidade de todos os dados também são testadas.
3 - Preparação de dados
A preparação de dados é um processo que depende da origem dos mesmos. Assim,
dependendo do estado em que os dados brutos se encontram, é necessário prepará-los
através de métodos de filtração, combinação e preenchimento de valores vazios.
4 - Modelagem
Esta etapa possui relação direta com o objetivo de cada processo de Mineração, pois é
necessário escolher uma técnica de modelagem, dentro do Data Mining, que garanta a
solução do problema proposto.
Carlos Daniel, Gabriel Colombo, Guilherme Vinicius, Luis Felipe, Lorenzo Wespianski
5 - Avaliação
A avaliação é a fase mais crítica do processo, visto que é necessário a participação de um
grupo de pessoas especializadas em Data Mining e no negócio alvo de análise para avaliar
se a Mineração de Dados alcançou o resultado desejado.
6 - Implementação
A implementação é a etapa final do projeto de Data Mining. É nessa fase que ocorre a
importação dos resultados obtidos para os bancos de dados ou para outros tipos de
diretórios.
Técnicas de Data Mining
A Mineração de Dados é uma área muito extensa, dessa forma não há apenas uma
maneira de encontrar padrões dentro de um grande volume de dados.
1 - Descoberta de regra de associação
Esta técnica consiste em analisar a relação entre os itens de um certo conjunto de dados e
encontrar tendências e/ou padrões que possam ser utilizados para entender o
comportamento desses dados.
2 - Redes Neurais Artificiais
As redes neurais artificiais (RNA) apresentam um modelo matemático baseado no sistema
nervoso central. Este tipo de algoritmo busca resolver problemas através da simulação do
comportamento e das funções de um neurônio.
O seu funcionamento ocorre através de dezenas ou até centenas de unidades de
processamento, as quais são interconectadas por canais de comunicação.
Dessa maneira, as entradas são semelhantes aos dendritos e simulam uma área de
captação de estímulos. Já a saída de dados é comparada aos neurônios e o contato entre
esses elementos formam a sinapse.
3 - Árvores de Decisão
As árvores de decisão funcionam como um fluxograma, porém possuem o formato de uma
árvore. Através deste modelo, é possível que o usuário tome decisões a partir de inúmeras
possibilidades de escolha.
Estas possibilidades são testadas automaticamente e funcionam da maneira em que o nó
representa dados ou problemas e cada ramificação possui um aglomerado de soluções
baseadas em custos, probabilidades e benefícios.
Observe que o algoritmo informa como resultado o número de cluster formado,
neste exemplo dois clusters de tamanho 4 e 3. O centroide final é apresentado na forma de
uma matriz de valores médios das amostras associadas a cada grupo. A seguir está o
índice do grupo associado a cada espécime. O primeiro, segundo, terceiro e quarto
pertencem ao grupo 1.

Continue navegando