Prévia do material em texto
E-book 2 Luciano Rossi MINERAÇÃO DE DADOS Neste E-Book: INTRODUÇÃO ����������������������������������������������������������� 3 PROCESSO DE MINERAÇÃO DE DADOS ���������4 PRÉ-PROCESSAMENTO ���������������������������������������� 9 ANÁLISE DESCRITIVA �������������������������������������������13 ANÁLISE DE GRUPOS �������������������������������������������16 CLASSIFICAÇÃO DE DADOS ������������������������������20 ESTIMAÇÃO DE DADOS �������������������������������������� 25 REGRAS ASSOCIADAS �����������������������������������������28 DETECÇÃO DE ANOMALIAS ������������������������������ 32 CONSIDERAÇÕES FINAIS �����������������������������������36 REFERÊNCIAS BIBLIOGRÁFICAS & CONSULTADAS �������������������������������������������������������38 2 INTRODUÇÃO Neste e-book o foco é a análise das etapas que compõem o processo de mineração de dados. Aqui teremos a oportunidade de compreender quais são as etapas desse processo, e o que é feito em cada uma delas. Outro objetivo deste e-book é o estudo detalhado de algumas técnicas que são utilizadas no processo de mineração de dados. Vamos estudar alguns con- ceitos de análise de dados e técnicas voltadas para sua classificação e extração de regras. Além disso, vamos definir o conceito de anomalia nos dados e como podemos realizar a sua detecção. Iniciaremos nossos estudos com a definição do pro- cesso de mineração de dados e com a análise dos objetivos de cada uma das etapas. Vamos nos apro- fundar no pré-processamento dos dados, focando na sua preparação, de modo que possam ser mais facilmente explorados nas etapas do processo. Os próximos passos serão dedicados às análises, descritiva e de grupo, e aos tópicos de classificação e estimação de dados. Estudaremos a extração de regras de associação e a detecção de anomalias em conjuntos de dados. 3 PROCESSO DE MINERAÇÃO DE DADOS Vamos iniciar nossos estudos com uma definição mais pragmática e sucinta de mineração de dados. Silberschatz et al. (2016) definem o termo mineração de dados como um processo que analisa grandes bancos de dados, de forma semiautomática, com o objetivo de encontrar padrões utilizáveis, que podem ser desdobrados como regras e aplicados na reali- zação de previsões. Uma regra apresenta um tipo de associação entre os dados que é válida para o contexto específico ao qual os dados se referem. Um exemplo de regra que poderia ser extraída de um conjunto de dados é: “homens de meia idade com renda mensal maior que R$ 20.000,00 são mais propensos a comprar casas no litoral”. As previsões podem ser feitas a partir da mineração de dados, com o aprendizado de uma função que relaciona diferentes variáveis, de modo que se possa predizer um determinado resultado, conhecendo os valores das variáveis, ou parte deles, de um novo re- gistro. As predições estão associadas a um grau de confiança ou probabilidade de ocorrência. Suponha um modelo que define se um empréstimo deve ou não ser concedido a um cliente bancário. Nesse caso, o modelo (função) indicará qual a probabilidade de o cliente honrar com a dívida, com base em dados históricos de outros clientes com perfis similares. 4 A primeira etapa prevista no processo de mineração de dados é a identificação e a formalização do pro- blema que se pretende tratar. Essa etapa é, possivel- mente, a mais difícil de todo o processo. A identificação e formalização do problema envolve estabelecer-se quais são os objetivos principais do processo e como ele será avaliado. A definição dos objetivos é importante para a identificação dos da- dos e de seus respectivos atributos relevantes para o processo. Nesse sentido, a estratégia de avaliação de desempenho do processo descreve como avaliar se os objetivos foram atingidos e, também, o grau de atendimento aos objetivos. Outro ponto a ser definido, na fase de identificação e formalização do problema, é a importância de se ter um modelo que seja de fácil interpretação em detri- mento ao desempenho dele. Em outras palavras, o que é mais importante: ter um modelo fácil de interpretar que não apresenta um bom desempenho, ou um mo- delo complexo que tem um desempenho ótimo? Finalmente, nessa etapa inicial é realizada a análise dos impactos que um erro no processo pode cau- sar. A avaliação do impacto de erros deve ser feita considerando-se os objetivos do processo. Podemos ter, em determinados contextos, uma tolerância maior ao erro, possibilitando, assim, alguma flexibilidade na formalização do problema. A segunda etapa do processo de mineração de dados é o pré-processamento. Nessa etapa é realizada a integração dos dados, que podem ser provenientes 5 de múltiplas fontes e apresentar diferentes formatos. A integração dos dados consiste em sua transfor- mação a partir da normalização ou de adequações possíveis de serem realizadas. Além disso, verifica-se a necessidade de proceder com uma limpeza nos dados, com o objetivo de reduzir o número de dados inválidos. O pré-processamento dos dados conta, ainda, com a seleção dos dados mais importantes e com a redução de seu respectivo volume. Esses processos são formas de se simplificar os dados, facilitando, assim, a descoberta de conhecimento. A extração de padrões é a terceira e mais impor- tante etapa do processo de mineração de dados. É nessa etapa que tudo acontece. Aqui são utilizados diferentes algoritmos de aprendizado de máquina e técnicas pertinentes à Estatística, dentre outras ferramentas que se pode considerar. As tarefas que são realizadas nessa etapa podem ser classificadas em duas categorias principais. A primeira reúne as tarefas preditivas, como classifi- cação e regressão, e, como o próprio nome sugere, são aplicadas com o objetivo de prever resultados a partir da exploração dos dados. A segunda categoria reúne as tarefas descritivas, como o agrupamento, a sumarização e a associação. Essa última categoria de tarefas é útil para a caracterização dos dados e para a identificação de regras e padrões. Veja que não existe uma solução única que seja ade- quada a todos os problemas. A escolha da estratégia 6 sempre deve considerar as características do proble- ma e os objetivos pretendidos. A última etapa é o pós-processamento. Nessa eta- pa, deve-se avaliar o que o modelo encontrou que é interessante e útil, de acordo com o objetivo que se busca. O pós-processamento é o momento, também, de encontrar-se a melhor forma de apresentação do modelo, de modo que seja possível compreender os achados e a estratégia empregada, da forma mais clara e simples o possível. Outra visão possível para o modelo de processo de mineração de dados é descrita pelo Cross Industry Standard Process for Data Mining (CRISP-DM), que significa Processo Padrão Inter Indústrias para a Mineração de Dados, em uma tradução livre. Esse modelo foi proposto, inicialmente, em 2006 e apre- senta uma coerência com as etapas anteriormente descritas, considerando outra abordagem. O CRISP-DM prevê, como primeira etapa do processo, o entendimento do negócio no qual o problema, que se pretende resolver, está inserido. Além da compre- ensão do contexto, nessa fase é elaborado um plano estratégico para que os objetivos pretendidos sejam atendidos. Na sequência, o foco é nos dados que serão conside- rados pelo processo. Nessa segunda fase, busca-se um entendimento a respeito dos dados, identificando problemas e oportunidades que possam impactar no resultado da análise. 7 A terceira etapa é dedicada à preparação dos dados, em que os dados são tratados com o objetivo de se obter um conjunto final de dados que seja adequado à estratégia e aos objetivos do processo. Essa etapa está intimamente ligada à etapa seguinte, que realiza a aplicação de diferentes técnicas de modelagem. A etapa de modelagem preocupa-se com a otimização dos resultados, para que, dessa forma, seja possí- vel retornar à etapa de preparação dos dados, caso identifique-se que há espaçopara a otimização dos resultados. As duas etapas finais, previstas pelo CRISP-DM, con- sideram a avaliação do modelo obtido de acordo com os objetivos definidos e, caso haja uma adequação, a etapa final cuida do processo de implantação do modelo. Na etapa final cuida-se para que a usabili- dade da solução pelo cliente seja tão simples quanto possível. A principal vantagem que se pode destacar no CRISP- DM é a independência, tanto do contexto, visto que o processo pode ser aplicado em diferentes áreas, quanto de ferramentas, pois não há qualquer reco- mendação específica sobre esse ponto. Além disso, as etapas do CRISP-DM aproximam-se daquelas des- critas pelo Knowledge Discovery in Databases (KDD). 8 PRÉ-PROCESSAMENTO A etapa de pré-processamento é responsável por lidar com a variedade das fontes de dados, com a heterogeneidade dos tipos de dados e com os vieses. O objetivo aqui é identificar-se o que é importante para o objetivo da análise e o que não vai contribuir para o processo. Nesse sentido, busca-se uma uni- formização dos dados, de modo que eles possam ser mais facilmente explorados e que os atributos sejam aderentes ao contexto da análise. As bases de dados podem variar em função da ori- gem e do tipo. Suponha que você pretenda identifi- car quais os impactos que o clima exerce sobre os resultados de vendas de uma rede de lojas, as quais são distribuídas por todo o território nacional. Nesse exemplo, você poderia ter de contar com bases que disponibilizem dados meteorológicos, que possuam informações sobre as temperaturas, umidade, volu- me de chuvas, dentre outros atributos possíveis. Por outro lado, saber sobre o número de habitantes, a faixa etária, o gênero e o estado civil de pessoas de diferentes regiões podem ser atributos importantes para sua análise e você precisaria contar com uma base de dados geopolíticos. Veja que, na descrição anterior, há bases de dados que concentram dados com diferentes caracterís- ticas e, além disso, as bases podem ser de tipos diferentes, por exemplo, compostas por tabelas atri- buto-valor, ou ainda modeladas na forma de grafos. 9 Assim, teríamos que lidar com essa heterogeneidade e buscar obter um conjunto de dados mais homo- gêneo possível. Outro desafio a ser enfrentado no pré-processamento é referente à qualidade dos dados. Há problemas em qualquer base de dados, especialmente naquelas de grande volume. Os problemas mais comuns de se- rem observados nas bases de dados são a ausência de valores, para determinados atributos, problemas derivados de erro humano e, em determinados con- textos, sensores defeituosos. A observância de uma semântica efetiva é impor- tante para a avaliação dos dados. Quando temos um problema bem definido, é importante definirmos, também, a aplicação, o objeto de análise e os res- pectivos atributos. Por exemplo, se nosso problema pertence ao contexto financeiro, poderíamos ter as seguintes definições: Aplicação Objeto Atributos Detecção de fraudes Transação (cartão de crédito) Dia da semana, hora, valor, tipo de estabelecimento. Estimação de renda Indivíduo Cargo, empresa, currí-culo, conectividade. Análise de crédito Indivíduo Renda, valor em bens próprios, valor em bens de familiares. Tabela 1: Exemplos de aplicação, objeto e atributos para di- ferentes objetivos em mineração de dados. Fonte: Elaboração Própria. A aplicação descreve o objetivo pretendido com a análise, o objeto é a unidade com que iremos realizar 10 as predições ou descrições (podem ser muitos) e os atributos são as propriedades do objeto que será utilizado na análise. Formalizada a semântica dos elementos envolvidos na análise, podemos mais facilmente descrever os problemas relacionados aos dados e discutir possí- veis soluções. Considerando-se o problema de valo- res ausentes, veja que esses são casos em que não há valor descrito para um ou mais atributos. Assim, podemos classificar os valores ausentes em três categorias: ● Missing Completely at Random (MCAR): a proba- bilidade de um valor ausente ocorrer não depende de nenhum valor da base de dados; ● Missing at Random (MAR): a probabilidade de um valor ausente ocorrer depende dos valores conheci- dos na base de dados; ● Missing Not at Random (MNAR): a probabilidade de um valor ausente ocorrer depende do próprio valor ausente. Suponha que um questionário será aplicado a um grupo de pessoas. Após o preenchimento, observou- -se que, devido a um problema no servidor, algumas entradas eram removidas aleatoriamente. Esse caso se enquadra como MCAR. Em outro cenário, o questionário tem uma pergunta referente ao grau de depressão dos respondentes. Os homens, normalmente, não se sentem à vonta- de para falar de depressão e, assim, há uma maior 11 probabilidade de pessoas do gênero masculino não responderem essa questão. Nesse caso, podemos classificar a ausência de valor como MAR. Considere que há, no questionário, uma pergunta referente à renda familiar. Respondentes com renda familiar maior, às vezes, preferem não responder esse tipo de pergunta. Aqui o caso é classificado como MNAR. Independentemente do caso, há diferentes formas de se realizar o tratamento dos valores ausentes. Pode- se, por exemplo, simplesmente retirar os objetos com valores ausentes. Ou, ainda, ignorar esses valores na fase de análise. Uma Alternativa seria estimar os valores ausentes com base nos valores de outros atributos que apresentem correlação. 12 ANÁLISE DESCRITIVA O primeiro passo, de qualquer análise de dados, é a exploração do conjunto de dados, identificando suas principais características e tendências. Essa exploração inicial busca realizar a descrição de algumas caracterís- ticas importantes do conjunto de dados. Comumente, utilizam-se as medidas de posição e de dispersão como elementos caracterizadores dos dados. As medidas de posição buscam representar a ten- dência de concentração dos dados. As principais medidas de posição são a média, a mediana, a moda, os percentis e os quartis. Por outro lado, as medi- das de dispersão são aquelas que medem o grau de variação dos dados. As principais medidas de dispersão são a amplitude, a variância e o desvio padrão, dentre outras. Importante notarmos que a análise descritiva não deve ser considerada isoladamente. Apesar de a utili- zação das medidas de posição e de dispersão serem representativas e importantes para que se possa descrever algumas características de um conjunto de dados, elas devem ser consideradas com cuidado. Um experimento interessante, que ilustra como a es- tatística descritiva pode não descrever, isoladamente, as características de um conjunto de dados, é o cha- mado Quarteto de Anscombe. Trata-se de quatro con- juntos de dados que foram construídos por Francis Anscombe, em 1973, e que ilustram a importância 13 da visualização dos dados antes de qualquer tipo de análise. As estatísticas descritivas dos conjuntos de Anscombe são, praticamente, idênticas. No entanto, a observação da distribuição desses dados no plano cartesiano mostra uma distinção importante. As quatro bases de dados (B1, B2, B3, B4) do Quarteto de Anscombe são simples e contam com 11 objetos (pontos de dados) e dois atributos (X e Y). A tabela abaixo apresenta os resultados da média e da variância para esses conjuntos. B1 B2 B3 B4 Média (X) 9,000 9,000 9,000 9,000 Média (Y) 7,501 7,501 7,500 7,501 Variância (X) 11,000 11,000 11,000 11,000 Variância (Y) 4,127 4,128 4,123 4,123 Tabela 2: Medidas descritivas para os dados denominados de Quarteto de Anscombe. Fonte: adaptado de Anscombe (1973). As medidas descritivas das bases de dados de Anscombe são muito similares e uma análise des- cuidada poderia levar a conclusões imprecisas. Além disso, a reta de regressão linear, para todas as bases, é , corroborando a similaridade dos conjuntos de dados. O objetivo de Anscombe, ao propor os quatro conjun- tos de dados, era ilustrar a importânciada visualização dos dados de forma gráfica como parte da análise descritiva para conjuntos de dados e, também, mostrar que a utilização dos elementos básicos da análise descritiva é insuficiente para representar, com pre- 14 cisão, o comportamento de dados do mundo real. A Figura 1 apresenta os dados pertinentes ao Quarteto de Anscombe, distribuídos no plano cartesiano. Veja que as distribuições são muito distintas entre si, con- trariando o que as medidas de análise descritiva bá- sica demonstraram com seus resultados. Figura 1: Distribuição dos dados do Quarteto de Anscombe. Fonte: Elaboração Própria. A observação dos dados na Figura 1 nos mostra quão distintos são os conjuntos de dados. Veja que o objetivo aqui não é atribuir às medidas de posi- ção e de dispersão qualquer tipo de crítica quanto à importância de sua utilização, mas sim considerar outras formas adicionais de análise descritiva, como a visualização dos dados, de modo a enriquecer a análise descritiva. 15 ANÁLISE DE GRUPOS Uma tarefa recorrente na análise de dados é a iden- tificação de grupos que possam agregar os pontos de dados que apresentem características similares. A análise de grupos ou agrupamento de dados é um conjunto de métodos de análise de dados multiva- riados que tem por objetivo organizar os dados em grupos homogêneos, de modo que se possa explorá- -los de maneira mais simplificada. Comumente, cada ponto de dado é representado por diferentes características, as quais podem ser representadas por um vetor de características. Com base nos valores do vetor de característica, e pelo uso de alguma medida de distância, os dados são agrupados de modo que cada grupo compartilhe características comuns. O agrupamento de dados é utilizado quando não temos um rótulo que possibilite sua classificação. Suponha um conjunto de dados que descreva uma série de atri- butos (características) de animais, sem que haja a iden- tificação de qual animal está sendo referenciado. Nesse caso dizemos que os registros não são rotulados e a tarefa de agrupamento será importante para identificar e agrupar animais que são parecidos, ou que tenham características similares entre si. Uma forma simples de visualizar os dados agrupados é por meio da representação gráfica desses dados em um diagrama, considerando, como exemplo, so- 16 mente duas dimensões. A Figura 2 apresenta um exemplo de dados agrupados de acordo com os va- lores de apenas dois atributos. O agrupamento de dados pode ser mais complexo quando considera- mos dados com mais dimensões. Figura 2: Exemplo de agrupamento de dados. Fonte: Elaboração Própria. O processo de agrupamento de dados pode ser des- crito por cinco etapas. Na primeira etapa é feita a pre- paração da base de dados, na qual são consideradas tarefas como a limpeza, integração, redução, transfor- mação e discretização dos dados. Essa etapa inicial segue a descrição realizada para o processo KDD. A etapa seguinte consiste da definição da medida de similaridade que será considerada. Existem di- ferentes medidas de similaridade que podem ser consideradas, como os coeficientes de Matching e de Jaccard, ou ainda as distâncias Euclidiana e de Manhattan. 17 A próxima etapa do processo de agrupamento é a seleção e a execução do método. Existem diferentes algoritmos que podem ser utilizados com esse objeti- vo, assim, a escolha do algoritmo mais adequado vai depender da aplicação que se pretende e do tipo dos dados que serão considerados. Podemos classificar os métodos de agrupamento como hierárquicos ou particionais. Os métodos hierárquicos consideram uma decom- posição dos dados em níveis de hierarquia. Esses métodos podem ser aglomerativos, divisivos ou particionais. Os métodos aglomerativos consideram os dados individualmente e, em passos incrementais, os da- dos vão sendo agrupados de acordo com as suas características, de modo que, ao final do processo, reste apenas um único grande grupo. Os métodos divisivos funcionam de forma inversa ao método anterior. Nesse caso, consideram-se os dados como um único grupo que vai sendo dividido, sucessivamente, em grupos menores, até que, por exemplo, haja apenas um elemento por grupo. Os métodos particionais objetivam dividir o conjun- to original em partições menores, de modo que os elementos em cada partição sejam similares entre si. Há, ainda, a possibilidade de se realocar, de forma iterativa, os objetos entre os grupos, de modo que o particionamento seja aprimorado. 18 Há outras características que podem ser utilizadas para a classificação dos algoritmos de agrupamento. Existem os algoritmos monotéticos e politéticos que descrevem o uso sequencial, ou não, dos atributos no processo de agrupamento. Os agrupamentos hard e fuzzy descrevem o grau de independência entre os grupos, podendo, ou não, haver interseções entre as partições. Finalmente, os métodos determinísticos e estocásticos versam a respeito da reprodutibilidade da configuração das partições, a depender dos pa- râmetros considerados. A penúltima etapa do processo de agrupamento é a representação dos grupos obtidos. Podemos considerar diferentes formas de representar esses grupos, como os protótipos, as estruturas em forma de grafos, as árvores e a rotulação. A escolha da melhor forma de representação depende, também, das características do método escolhido. Finalmente, a última etapa é a avaliação do agrupa- mento. A avaliação vai depender do contexto e dos objetivos da análise. Podemos realizar a análise da qualidade do agrupamento obtido por meio do uso de medidas de avaliação de desempenho, que são classificadas como internas ou externas, que ava- liam a similaridade do grupo e a adequação a um padrão ideal, respectivamente. Quanto aos critérios de avaliação, podemos considerar a compactação ou a separação, que se referem à proximidade entre os objetos nas partições e distância entre as partições obtidas, respectivamente. 19 CLASSIFICAÇÃO DE DADOS Existem muitos conjuntos de dados que descrevem uma associação entre características e a respec- tiva classe. Por exemplo, podemos ter um conjun- to de prontuários de pacientes com o registro dos sintomas e do respectivo diagnóstico. Esse tipo de exemplo pode ser ampliado para diversos outros contextos. Suponha que, com base em um conjunto de dados de diagnósticos médicos, queremos saber se um novo paciente é ou não cardiopata, de acordo com os seus sintomas. A tarefa descrita anteriormente é uma tarefa de pre- dição, na qual queremos prever um rótulo de acordo com um conjunto de características. Quando temos uma predição discreta, na qual estamos interessados em uma ou mais classes, dizemos que a tarefa é de classificação. Por outro lado, quando a predição é contínua, onde estamos interessados em predizer um determinado valor, dizemos que a predição é de- nominada estimação. O processo de predição apresenta duas etapas princi- pais. Na primeira etapa, denominada de treinamento, utilizamos uma parte dos dados de um conjunto (a maior parte deles) para gerar um modelo preditor que seja capaz de inferir uma classe ou um valor a partir das características dos dados. A segunda etapa, de- nominada teste, consiste de aplicar o modelo obtido 20 à parte não utilizada dos dados. O objetivo aqui é ve- rificar a capacidade de generalização do modelo, no sentido de predizer a classe ou o valor de dados que não foram utilizados para a obtenção do preditor. O processo de predição, de classes ou valores, con- siste de quatro etapas principais. A primeira etapa é a etapa de pré-processamento, que consiste da preparação da base de dados. A segunda etapa é a separação do conjunto de dados entre conjunto de treinamento e conjunto de teste. Como mencionado anteriormente, a maior parte dos dados será utilizada como conjunto de treinamento e a parte restante será o conjunto de teste. Para os casos em que todos os dados possuem rótulo, utiliza-sealgum método de seleção dos dados para treinamento do modelo. Caso haja parte dos dados não rotulados, os dados que possuem rótulo devem ser utilizados para o trei- namento e a outra parte será rotulada pelo modelo. Veja que, para os casos anteriores, utilizar um con- junto de dados rotulados como conjunto de teste nos permite estimar a eficiência do modelo por meio da comparação entre os rótulos que são resultado da predição e os rótulos originais. Por outro lado, o uso de um conjunto não rotulado como conjunto de teste não permite que a acurácia do modelo seja verificada, havendo, assim, a necessidade de se utilizar outro método para a verificação do modelo. A etapa de treinamento e teste consiste em realizar- -se o ajuste dos parâmetros do modelo, que vão va- 21 riar de acordo com o tipo de técnica escolhida, de modo a melhorar a sua capacidade preditiva. Finalmente, a avaliação da saída é a última etapa. O processo de predição é baseado em estimativas e, consequentemente, pode apresentar algum grau de imprecisão. O desempenho de um classificador depende de sua flexibilidade e da qualidade do trei- namento. Nesse sentido, a utilização de medidas de avaliação de desempenho, em geral, tem por objetivo medir a taxa de acerto dos classificadores. Os problemas de classificação binária, ou seja, aque- les que fazem a inferência entre duas classes, podem ser avaliados por meio de medidas específicas que consideram a relação entre a classe alvo, que des- creve a classe esperada e é denominada de classe positiva, e a classe negativa. Nesse sentido, podemos ter como resultado: verdadeiro positivo, verdadeiro negativo, falso positivo e falso negativo. No verdadeiro positivo (VP), um objeto da classe positiva é classificado como pertencente à classe positiva. Por outro lado, para o verdadeiro negativo (VN), um objeto da classe negativa é classificado como tal. Já o falso positivo (FP) ocorre quando um objeto da classe negativa é classificado como pertencente à classe positiva. Finalmente, um falso negativo (FN) ocorre quando um objeto da classe positiva é classificado como negativo. Essa forma de avaliação de desempenho pode ser aplicada facil- mente com a utilização de uma matriz de confusão. 22 Os valores contabilizados para cada caso, descritos anteriormente, são tabulados nas respectivas células na matriz de confusão. Nesse sentido, é possível extrair duas importantes taxas, baseadas nos valo- res contabilizados, são elas a taxa de verdadeiros positivos (TVP) e a taxa de falsos positivos (TFP). Classe predita Positiva Negativa Classe original Positiva VP FN Negativa FP VN Tabela 3: Matriz de confusão para um problema de clas- sificação binária. Fonte: adaptado de Castro et al. (2016). A taxa de verdadeiros positivos descreve a porcen- tagem de objetos positivos que foram classificados como tal, ou seja, o classificador classificou corre- tamente os objetos contabilizados nesse caso. O cálculo da TVP é intuitivo e segue de acordo com a seguinte fórmula: A taxa de falsos positivos corresponde à porcenta- gem de objetos negativos que foram classificados como negativos, nesse caso o classificador falhou em atribuir a classe correta aos objetos analisados. O cálculo da TFP é feito da seguinte forma: 23 Outra taxa importante para a verificação da acurá- cia dos classificadores binários é a taxa global de sucesso, ou simplesmente acurácia (ACC). A ACC é o quociente da soma dos verdadeiros positivos e verdadeiros negativos pela soma dos verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos. Em outras palavras, a ACC é a quantidade de acertos dividida pelo total de possibili- dades e pode ser representada da seguinte maneira: De modo oposto ao que representa a ACC, a taxa de erro de um classificador descreve o percentual de classificações erradas que foram realizadas por ele, nesse sentido, o cálculo da taxa de erro (E) é feita da seguinte forma: 24 ESTIMAÇÃO DE DADOS A tarefa de classificação é um caso particular da tarefa de estimação de dados. Para a primeira tare- fa, buscamos identificar uma saída discretizada, ou seja, verificar se um determinado objeto pertence ou não a uma classe específica. No caso da tarefa de estimação, o objetivo é identificar um valor con- tínuo que possa ser predito a partir dos valores de determinados atributos. Assim, podemos dizer que há grande similaridade entre as tarefas de classifi- cação e estimação, e grande parte dos conceitos descritos para a classificação valem, também, para a estimação. As etapas envolvidas no processo de estimação se- guem de acordo com o que foi descrito para a clas- sificação. Ou seja, a preparação dos dados, a sepa- ração em grupos de treinamento e teste, a definição de critérios de parada e a execução dos processos de treinamento e teste são realizadas de forma similar ao que foi descrito para a classificação. A principal diferença entre as tarefas de classificação e estimação é a avaliação da saída. Enquanto que na classificação buscamos contabilizar os acertos e as falhas, de modo a calcular uma taxa que represente o quão bom é o classificador, na estimação busca- -se identificar a distância existente entre o resultado obtido e um resultado padrão conhecido. 25 Dentre os diferentes algoritmos de estimação, a re- gressão linear é a obtenção de uma função a partir de pares de entrada e saída. Os modelos de regres- são linear objetivam representar a relação entre vari- áveis por meio de uma função que define uma reta. A reta representa a melhor relação observada entre as variáveis. Um exemplo simples é, dado um conjunto de pares de valores de peso e altura de pessoas, estimar uma equação que defina uma reta que, por sua vez, sumarize a relação entre os valores conhe- cidos de peso e altura. Assim, é possível predizer, por exemplo, a altura de uma pessoa com base em seu respectivo peso, utilizando a função que foi estimada. A regressão polinomial segue a mesma lógica da re- gressão linear. A diferença aqui está no fato que para a regressão linear a relação entre as variáveis pode ser representada por uma equação de grau igual a um, que define uma reta. Por outro lado, na regressão polinomial a relação entre as variáveis é representada por um polinômio de grau maior que um. Outra técnica que pode ser utilizada para a tarefa de estimação é o que chamamos de rede neural artifi- cial. Uma rede neural artificial é um modelo computa- cional que tem o objetivo de simular o funcionamen- to do sistema nervoso central. Nesse contexto, um neurônio artificial conta com uma junção somadora, que recebe diversas entradas associadas a pesos específicos, e uma função de ativação, que é respon- sável pela produção da saída baseada no que recebe da junção somadora. Um conjunto interconectado de neurônios artificiais forma uma rede neural artificial. 26 Existem diferentes tipos de redes neurais. As chama- das redes neurais do tipo Perceptron e Adalaine, que apresentam um conjunto de neurônios de entrada e um conjunto de neurônios de saída, com pesos sinápticos e bias ajustáveis. As redes denominadas Multi-Layer Perceptron são uma generalização dos tipos anteriores, com, ao menos, uma camada de neurônios intermediária. Por fim, as redes neurais do tipo função de base radial apresentam múltiplas camadas e utilizam uma transformação não linear na entrada e produzem uma saída linear. 27 REGRAS ASSOCIADAS A descrição do processo de mineração de regras de associação deve ser precedida de uma descrição do conjunto de dados considerado para essa tarefa. Os dados descritos para as tarefas anteriores apresen- tavam um registro com diferentes atributos associa- dos. Por exemplo, um conjunto de dados de animais poderia contar com atributos do tipo peso, altura, cor, se tem ou não cauda, dentre outras possibilidades. Outro tipo de conjunto de dados pode relacionar itens que pertencem à mesma transação. Um exemploclássico desse tipo de dados são aqueles oriundos das compras em um supermercado. Cada cliente, ao encerrar suas compras e passar pelo caixa de paga- mento, representa uma transação e os itens que o cliente adquiriu serão associados a essa transação. Em um único dia podemos ter diversas transações, cada uma contendo diferentes itens que foram ad- quiridos em conjunto. Esse tipo de conjunto de dados é chamado de dados transacionais e representam as relações de itens que, por exemplo, foram consumidos por um mesmo cliente do supermercado. Esses dados são coleta- dos diariamente pelo supermercado e armazenados em um banco de dados, configurando uma base de dados rica em informações a respeito do padrão de consumo dos clientes. Veja na tabela a seguir um exemplo de dados transacionais, que descre- ve um conjunto de quatro transações e, para cada 28 transação, temos uma relação de itens que foram comprados por um mesmo cliente. Assim, podemos dizer que a associação entre os itens consumidos descreve um padrão de consumo de cada cliente e, a partir desse tipo de dado, podemos identificar um tipo de padrão baseado nas regras de associação dos itens consumidos. Identificador da transação Itens 1 {pão, manteiga, cerveja, uva} 2 {ovos, alface, limão, cerveja, pão} 3 {banana, uva, leite, pão} 4 {pão, leite, café, uva, banana} Tabela 4: Exemplo de conjunto de dados transacionais. Fonte: Adaptado de Castro et al. (2016). Além do exemplo do supermercado, podemos ob- servar esse tipo de dado em diferentes contextos na internet. Uma simples busca por produtos em um site de compras pode gerar uma série de dados transacionais, que descreverão quais são os produ- tos que foram consultados, mesmo que não tenham sido adquiridos. Esse tipo de informação pode ser utilizado para, por exemplo, realizar-se propaganda direcionada para produtos que estejam associados àqueles consultados, de modo a aumentar a proba- bilidade de venda. Uma regra de associação pode ser definida como um padrão descritivo que representa a probabilidade de um item, ou conjunto de itens, ser observado em uma mesma transação. Veja que podemos descrever um 29 conjunto de dados transacionais de forma similar às descrições anteriores, mas os atributos pertencentes aos registros serão os itens que compõem a base de dados. Desse modo, as regras de associação são similares às regras de classificação, exceto que no primeiro caso podemos predizer qualquer atributo e não somente a classe. Podemos derivar uma grande quantidade de regras de associação a partir de pequenos conjuntos de dados transacionais. Assim, é comum que as regras consideradas sejam aquelas que atendam a dois conceitos: suporte e confiança. O suporte é referente ao número de transações que são corretamente preditas por uma determinada re- gra de associação. Esse termo também é conhecido como cobertura da regra de associação. Nesse sen- tido, a confiança é a proporção entra as transações preditas corretamente e o total de transações nas quais a regra está inserida. Esse conceito também pode ser descrito como a acurácia ou a certeza de uma determinada regra. As etapas previstas para o processo de obtenção de regras de associação envolvem um pré-processa- mento, a obtenção de um conjunto de itens frequen- tes, a própria mineração das regras e a avaliação dos resultados. O pré-processamento segue de acordo com as des- crições feitas para essa etapa em tarefas anteriores, nas quais observamos ações relativas à limpeza, integração, redução, transformação e discretização 30 dos dados. Além disso, a tarefa de extração de regras de associação pode ter que ser feita sobre um con- junto de dados binários. Assim, a transformação do conjunto de dados original em um conjunto binário pode ser uma etapa adicional. A definição de um limite inferior arbitrário para o número de itens que farão parte da análise tem por objetivo identificar um conjunto de itens mais fre- quentes. Essa etapa do processo de obtenção de regras de associação pretende a redução do volume de associações analisadas, haja vista que podemos ter muitas associações derivadas de pequenos con- juntos de dados, o que pode ser um problema para o seu processamento. Existem diferentes algoritmos que podem ser con- siderados para a extração de regras de associação. A maior parte deles são derivações ou melhorias realizadas a partir do algoritmo Apriori. O algoritmo Apriori considera duas subtarefas prin- cipais. Na primeira são identificados todos os con- juntos de itens frequentes, de acordo com um limite previamente definido. A segunda subtarefa consiste na geração das regras desejadas por meio da identi- ficação dos itens candidatos, que vão sendo elimina- dos à medida que não atendam a frequência estabe- lecida. Ao final do processo, tem-se um conjunto de itens que atendam a frequência estabelecida. 31 DETECÇÃO DE ANOMALIAS Muitas vezes ouvimos as pessoas dizerem: “Fulano não praticava exercícios físicos, nem cuidava da ali- mentação e viveu mais de 100 anos”. Esse tipo de argumento pode até influenciar algumas pessoas no sentido de não darem importância para hábitos de vida e seu impacto na longevidade. Porém, esse tipo de exemplo não é um representante da maioria dos casos. Em geral, observa-se que os hábitos de vida realmente impactam na longevidade das pessoas e, apesar de possivelmente verdadeiro, o exemplo do “Fulano” não representa o padrão da maioria. Esse tipo de exemplo pode ser considerado como um ou- tlier ou anomalia. As anomalias, no contexto dos dados, referem-se a objetos que não apresentam o mesmo comporta- mento, ou características, que são observados para a maioria dos outros objetos. Nesse contexto, uma anomalia pode se referir a padrões nos dados que não estão em conformidade com o comportamento normal dos demais objetos. A tarefa de detecção de anomalias tem por objeti- vo identificar os dados dissonantes e decidir como esses dados devem ser tratados, de modo que eles não contaminem uma análise do padrão de todo o conjunto. Veja que os objetos anômalos não são, necessariamente, errados. Assim, esse tipo de obje- to somente apresenta um valor ou padrão de baixa frequência no conjunto de dados. 32 A identificação de anomalias, além de ser útil para a tomada de decisão sobre as ações a serem efe- tivadas sobre esses dados, é útil, também, para a identificação de fraudes. Note que podemos anali- sar um conjunto de dados referentes a transações de cartões de crédito com o objetivo de identificar operações fraudulentas. A maior parte das transa- ções de um usuário, ou conjunto de usuários, segue de acordo com certos padrões, locais, valores, tipo de produto ou serviço, dentre outras características. Assim, uma transação que foge em muito aos pa- drões observados tem uma grande probabilidade de ser uma fraude. A maioria das bases de dados apresenta algum tipo de anomalia. Elas podem ser derivadas de operações fraudulentas, erros humanos, mudanças ambientais e falhas de equipamentos, dentre outras possibi- lidades. As principais aplicações para a tarefa de detecção de anomalias são a detecção de fraudes, a análise de crédito, a detecção de intrusão, o moni- toramento de atividades, o desempenho de redes, o diagnóstico de faltas, a análise de imagens e vídeos, o monitoramento de séries temporais e a análise de textos. O processo de detecção de anomalias, assim como as outras tarefas, considera algumas etapas prin- cipais. A primeira etapa é o pré-processamento do conjunto de dados, que é realizado em conformidade com o que foi descrito para as tarefas anteriores, nessa unidade. 33 A etapa seguinte é dedicada à definição do que é uma anomalia. Nesse sentido, os algoritmos bus- cam definir um limite ao redor de uma classe, que é utilizado para se identificar os objetos anômalos, de acordo com seu posicionamento no espaço. A terceira etapa do processo é a definição do tipo deabordagem. Nessa etapa, é definido se a abordagem considerada será supervisionada ou não supervisio- nada. Essa definição segue de acordo com a exis- tência, ou não, de rótulos que possam ser utilizados para a classificação dos dados nas classes normal e anômala, respectivamente. As etapas finais são a execução do processo de treinamento e teste, que seguem da mesma forma descrita para as tarefas anteriores, e, finalmente, a avaliação dos resultados, também conforme as des- crições válidas para as outras tarefas anteriormente descritas. Existem, basicamente, dois conjuntos de métodos que podem ser utilizados para a detecção de anoma- lias: os métodos estatísticos e os algorítmicos. Os métodos estatísticos são, comumente, conduzidos a partir de um modelo probabilístico, a partir do qual a distribuição dos objetos é capturada. Os objetos são avaliados de acordo com sua probabilidade de adequação ao modelo. Probabilidades baixas podem indicar objetos anômalos. Os métodos paramétricos são aqueles que consi- deram que os dados apresentam uma distribuição ajustada a um modelo de distribuição conhecido. 34 Nesse sentido, a fase de treinamento é dedicada para a estimação dos parâmetros do modelo de distribuição do conjunto de dados. Por outro lado, os métodos não paramétricos não assumem uma distribuição prévia dos dados, nesses métodos a abordagem considerada costuma ser a não super- visionada, com a utilização de histogramas para a análise da distribuição dos dados. Dentre os métodos algorítmicos, podemos destacar aqueles baseados em proximidade, com a utilização de alguma medida de distância entre os objetos. O al- goritmo dos k vizinhos mais próximos considera uma matriz quadrada, na qual as distâncias entre os obje- tos são registradas, para a detecção de objetos que não atendem a critérios previamente estabelecidos. O algoritmo k-médias considera o agrupamento dos dados e o raio de cada grupo para determinar se um objeto é ou não anômalo, segundo dois critérios pos- síveis. O critério de identificação global é baseado na distância do objeto ao centroide mais próximo comparado a todos os raios dos grupos e o crité- rio de identificação local considera a distância do objeto ao centroide mais próximo e o raio do grupo em questão, considerando, também, a densidade interna do grupo. 35 CONSIDERAÇÕES FINAIS Neste e-book tivemos a oportunidade de conhecer mais a respeito da área de Mineração de Dados. Mais especificamente, vimos quais são as etapas envolvi- das no processo de mineração, com ênfase especial para a preparação do conjunto de dados considerado. Vimos, também, as características principais envolvi- das na descrição dos dados, a partir da utilização de medidas de posição e de dispersão, que podem ajudar na caracterização e no entendimento do conjunto de dados. Além disso, introduzimos a importância da visualização dos dados como parte complementar da análise descritiva. Um exemplo da importância da visualização é o caso dos conjuntos de dados deno- minados quarteto de Anscombe, para os quais temos medidas descritivas bastante similares, porém as dis- tribuições dos dados são completamente distintas. Outro ponto importante nessa unidade é a descri- ção das principais características das tarefas de Mineração de Dados. Assim, vimos os objetivos e aplicações da tarefa de classificação e como essa tarefa pode ser utilizada para a identificação de gru- pos de dados não rotulados, de modo que os objetos nos grupos sejam similares. A estimação de dados visa a predizer valores para novos registros, com base em um processo de apren- dizado realizado sobre um conjunto de dados rotula- dos. Assim, a segmentação dos dados em conjunto 36 de treinamento e conjunto de teste nos traz uma ideia inicial sobre o aprendizado de padrões e a verificação da eficiência dos modelos obtidos. Os conjuntos de dados transacionais foram, tam- bém, abordados nessa unidade com o objetivo de se obter padrões que descrevam regras de associação entre os itens que compõem as transações. Vimos a aplicabilidade da tarefa de obtenção de regras de associação na recomendação de novos itens de con- sumo para pessoas que já consomem outros itens associados. Finalmente, tivemos um primeiro contato com o con- ceito de anomalias em conjunto de dados. A tarefa de detecção de anomalias é útil para que possamos identificar aqueles objetos que não seguem o padrão de comportamento representado pelos demais ob- jetos no conjunto. Os conceitos que foram apresentados nessa unidade constituem um primeiro contato com as etapas do processo de mineração de dados e com as principais tarefas previstas na área. 37 Referências Bibliográficas & Consultadas ANSCOMBE, F. J. Graphs in statistical analysis. The american statistician, v. 27, n. 1, pp. 17-21, 1973. CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplica- ções. São Paulo: Saraiva, 2016. [Minha Biblioteca]. ELMASRI, R.; NAVATHE, S. B. Sistema de banco de dados. 6. ed. São Paulo: Pearson Addison Wesley, 2011. [Biblioteca Virtual]. HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining (adaptive computation and machine learning). Cambridge (Massachusetts): MIT Press, 2001. HEUSER, C. A. Projeto de banco de dados. 6. ed. Porto Alegre: Bookman, 2009. [Biblioteca Virtual]. MEDEIROS, L. F. Banco de dados: princípios e prática. Curitiba: Intersaberes, 2013. [Biblioteca Virtual]. PUGA, S.; FRANÇA, E.; GOYA, M. Banco de dados: implementação em SQL, PL/SQL e Oracle 11g. São Paulo: Pearson Education do Brasil, 2013. [Biblioteca Virtual]. RAMARKRISHNAN, R. Sistemas de gerenciamento de banco de dados. 3. ed. Porto Alegre: AMGH, 2001. [Biblioteca Virtual]. REZENDE, D. A. Inteligência organizacional como modelo de gestão em organizações privadas e públicas: guia para projeto de Organizacional Business Intelligence. São Paulo: Atlas, 2015. [Minha Biblioteca]. SHEARER, C. The CRISP-DM model: the new blueprint for data mining. Journal of data warehousing, v. 5, n. 4, pp. 13-22, 2000. SILBERSCHATZ, A.; SUNDARSHAN, S.; KORTH, H. F. Sistema de banco de dados. Elsevier Brasil, 2016. TURBAN, E. et al. Business intelligence: um enfoque gerencial para a inteligência do negócio. Porto Alegre: Bookman, 2009. [Minha Biblioteca]. Introdução Processo de mineração de dados Pré-processamento Análise descritiva Análise de Grupos Classificação de Dados Estimação de dados Regras associadas Detecção de anomalias Considerações finais Referências Bibliográficas & Consultadas